Поисковые инструменты. Цель последнего этапа - окончательное решение поисковой задачи. Он также включает в себя создание инструментов, необходимых для ее решения. выбор и оценка качества поисковых систем

Видеоурок: Как создать запросы в Microsoft Access за 10 минут

Лекция: Использование инструментов поисковых систем (формирование запросов)

Самыми важными функциями при работе с базами данных являются фильтр информации, поиск и запрос.


Сортировка – это процесс упорядочения информации по некоторому признаку. Бывает возрастающая и убывающая сортировка. Если база данных имеет числовую информацию, то в качестве сортировки используют ранжирование, а если речь идет о текстовой информации, то пользуются сортировкой по алфавиту.


При рассмотрении сортировки системами управления базами данных в MS Access сортировка осуществляется в пределах одного поля. Если используется новая сортировка, то предыдущие её результаты теряются. Если сортировка вложенная, то выполнить её можно с помощью запроса.


Фильтр – это отбор информации, необходимой пользователю. Можно задать сложные условия отбора.

Чтобы найти некоторые данные, можно использовать специальные символы, которые называются маской :


* – означает, что можно выбрать любое количество знаков.

? – вместо данного знака может быть любой символ, который допускается использовать.

# – вместо данного символа может стоять любая цифра.

– любые символы, стоящие в скобках.

- – любой символ, отвечающий выбранному диапазону.

! – любой символ, кроме тех, что заключены в квадратных скобках.

Данный фильтр по знакам можно использовать для всей таблицы, либо к уже отобранной по некоторым критериям части данных.

Запрос – данная функция носит масштабный характер и может заключать в себе как сортировку, так и фильтрацию. Данная функция позволяет производить отбор данных в нескольких полях и таблицах. Можно создавать некую библиотеку запросов, которая сохраняется для будущего использования. Существует специальный язык запросов SQL – структурированный.

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Пертинентность (в информационном поиске) - соответствие полученной информации информационной потребности пользователя.

Пертинентность измеряется степенью соответствие между ожиданиями пользователя и результатами поиска (сравните с релевантностью), которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденнойпоисковой системой.

Достижение высокой степени пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей в настоящее время в ИП-системах широко применяются теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text mining,интеллектуальный анализ текстов ).

Для поиска нужной информации в сети используется адрес ресурса (англ . Uniform Resource Locator (URL ) адрес), содержащий имя протокола, по которому нужно обращаться к требуемой информации, адрес сервера и имя файла на этом сервере (рис. 2).

Рис. 2. Пример адреса ресурса

Поиско́вая систе́ма - программно-аппаратный комплекс свеб-интерфейсом, предоставляющий возможность поискаинформациивИнтернете. Под поисковой системой обычно подразумеваетсясайт, на котором размещён интерфейс системы. Программной частью поисковой системы являетсяпоисковая машина(поисковый движок) -комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы

Поиск информации в Интернете осуществляется с помощью специальных программ, обрабатывающих запросы - информационно-поисковых систем (ИПС) . Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность - это поисковые каталоги и поисковые указатели .

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Они обычно представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы. Поисковые каталоги создаются вручную . Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог.

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор - работа должна быть автоматизирована.

Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют поисковые указатели . Работу поискового указателя можно условно разделить на три этапа:

    сбор первичной базы данных. Для сканирования информационного пространства WWW используются специальные агентские программы - черви, задача которых состоит в поиске неизвестных ресурсов и регистрация их в базе данных;

    индексация базы данных - первичная обработка с целью оптимизации поиска. На этапе индексации создаются специализированные документы - собственно поисковые указатели;

    рафинирование результирующего списка. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска.

Под фильтрацией понимается отсев ссылок, которые нецелесообразно выдавать пользователю (например, проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка (по количеству ключевых слов, сопутствующих слов и др.).

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) – Яndex, Rambler, Aport.

Работа машин веб-поиска сводится к следующему:

    Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

    Поиск информации по запросу пользователя.

    Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. При их описании используются следующие понятия:

    Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

    Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

    Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

В России наиболее крупными и популярными поисковыми указателями являются:

    «Яndex» (www.yandex.ru)

    «Pамблер» (www.rambler.ru)

    «Google» (www.google.ru)

    «Апорт2000» (www.aport.ru)

2 Механизмы поиска

Обобщенная технология поиска состоит из следующих этапов:

    Пользователь формулирует запрос

    Система проводит поиск документов (или их поисковых образов)

    Пользователь получает результат (сведения о документах)

    Пользователь совершенствует или реформирует запрос

    Организация нового поиска...

Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности.

Формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов.

Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико.

Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка.

Ниже в качестве примера приведены сведения из раздела помощь поисковой системы Yandex: окно расширенного поиска, язык запросов, искать в найденном.

Искать в найденном Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант - включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске.

Памятка по использованию языка запросов

Пример

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

Соображаю!что!чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

Политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

Поиск по хосту

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

Поиск по одному типу файлов

Поиск с ограничением по языку

Поиск с ограничением по домену

Поиск с ограничением по дате

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

    Операторы поиска документов с определенным графическим файлом;

    Операторы ограничения по дате искомых страниц;

    Операторы близости между словами;

    Операторы учета словоформы;

    Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что, к великому сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Попытки разработать стандарт на синтаксис поддерживаемых операторов предпринимаются, поэтому есть надежда на то, что разработчики поисковых систем позаботятся об удобстве пользователей. На данном этапе развития средств поиска, пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами составления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой вы перейдете к справочной информации.

Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной поисковой системе.

Рассмотрим способы представления результатов поиска в поисковых машинах.

Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов.

Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания.

Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.


Изучив эту тему, вы узнаете и повторите:

Для чего нужны поисковые серверы;
- назначение основных частей поисковых серверов;
- какие виды поиска информации существуют в Интернете;
- основные правила формирования запроса в поисковой системе Яндекс.

Поиск по адресам URL

Самый быстрый и надежный вид поиска информации в Интернете - поиск по адресам URL. Многие из них приводятся в печатных изданиях, специальных справочниках, звучат в эфире популярных радиостанций и с экранов телевизора.

♦ Фанаты футбольного клуба «Зенит» наизусть знают адрес www.fc-zenit.ru.
♦ Поклонникам группы «Король и шут» хорошо известен официальный сайт этой группы www.korol.spb.ru.
♦ Любители телеканала НТВ без труда найдут его сайт по адресу www.ntv.ru. Для быстрого доступа к вышеназванным ресурсам достаточно запустить программу-браузер, например Internet Explorer, и набрать знакомый адрес URL в строке адреса.

Поисковые системы

В Интернете сосредоточено огромное количество документов. Чтобы облегчить поиск нужной информации, создаются специальные поисковые машины.

Поисковые машины - это автоматические системы, опрашивающие серверы, подключенные к глобальной сети, и сохраняющие в своей базе информацию об имеющихся на серверах данных. По специальным образом сформулированному запросу поисковые машины предоставляют информацию о том, где можно получить необходимые данные.

Как правило, поисковые машины состоят из трех частей: робота, индекса и программы обработки запроса .

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое. Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.
Индекс поисковой системы - это хранилище поисковых образов, посещенных роботами страниц. Поисковый образ документа (в том числе и веб-страницы) - это описание содержания документа на специальном информационно-поисковом языке. Это описание содержит коды ключеных слов документа, отражающих его смысл и содержание. Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы. Множество ссылок на выходе системы распределяется программой в порядке убывания релевантности у то есть от наибольшей степени соответствия ссылки запросу к наименьшей.

В настоящее время самыми популярными для российских пользователей Интернета являются три крупные поисковые системы индексного типа:

Эти системы учитывают грамматические особенности русского языка, поэтому результаты их поиска в русскоязычных ресурсах отличаются более высоким качеством, чем у западных систем.

Поисковые машины различаются по охвату информационных ресурсов:

♦ поисковые машины общей тематики имеют базу данных по всем направлениям знаний и отличаются обширным индексом и большим объемом накапливаемой информации;
♦ поисковые машины специального назначения просматривают только сайты по определенной тематике, например музыкальные или музейные.

Основными характеристиками поисковых машин являются:

♦ объем документов в индексе;
♦ частота обновления информации;
♦ информационное пространство, которое охватывает робот поисковой машины, и разнообразие типов документов, о которых собирается информация;
♦ скорость обработки запроса;
♦ критерий определения релевантности (соответствия найденного документа поисковому запросу);
♦ возможность детализации и уточнения запроса.

Поиск по рубрикатору поисковой системы

Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, представляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Приведем в качестве примера структуру поискового интернет- каталога Яндекс. Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям. Б этом каталоге выделены следующие темы:

♦ Бизнес и экономика;
♦ Справочники и ссылки;
♦ Общество и политика;
♦ Дом и семья;
♦ Наука и образование;
♦ Развлечения и отдых;
♦ Компьютеры и связь;
♦ Культура и искусство.

Каждая тема включает множество подразделов, а они, в свою очередь, содержат рубрики и т. д.

Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом: Яндекс Каталог Культура и искусство Музыка Авторская песня.

Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается всего 5 ссылок, среди которых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст.

Другой пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога: Яндекс Каталог Компьютеры и связь Мобильная связь Мобильные телефоны.

Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

Поиск по ключевым словам

Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска. Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Поиск. Поисковая система найдет в своей базе и покажет документы, содержащие эти слова. Таких документов может оказаться множество, но много в данном случае не обязательно означает хорошо.

Проведем несколько экспериментов с любой из поисковых систем. Предположим, что мы решили завести аквариум и нас интересует любая информация по данной теме.

На первый взгляд самое простое - это поиск по слову «аквариум». Проверим это, например, в поисковой системе Яндекс. Результатом поиска будет более 460000 страниц на 3500 сайтах - огромное количество ссылок. Причем, если посмотреть внимательнее, среди них окажутся сайты, упоминающие группу Б. Гребенщикова «Аквариум», торговые центры и неформальные объединения с таким же названием, и многое другое, не имеющее отношения к аквариумным рыбкам.

Нетрудно догадаться, что такой поиск не может удовлетворить даже непритязательного пользователя. Слишком много времени придется потратить на то, чтобы отобрать среди всех предложенных документов те, что касаются нужного нам предмета, и уж тем более на то, чтобы ознакомиться с их содержимым.

Можно сразу сделать вывод, что вести поиск по одному слову, как правило, нецелесообразно, ведь по одному слову очень сложно определить тему, которой посвящен документ, веб-страница или сайт. Исключение составляют редкие слова и термины, которые практически никогда не используются вне своей тематической области.

Попробуем уточнить условия поиска и введем словосочетание «аквариумные рыбки». Результатом поиска будут немногим более 20 ООО страниц и около 650 сайтов. Как видим, количество ссылок уменьшилось более чем в 20 раз. Этот результат нас устраивает больше, но все равно среди предложенных ссылок могут встретиться, например, русские сувенирные наборы спичечных этикеток с изображениями рыбок, и коллекции заставок для Рабочего стола компьютера, и каталоги аквариумных рыбок с фотографиями, и магазины аквариумных аксессуаров.

Очевидно, что следует продолжить движение в направлении уточнения условий поиска.

Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом. Эти языки во многом похожи. Изучить их все достаточно сложно, но любая поисковая машина имеет справочную систему, которая позволит вам освоить нужный язык.

Приведем десять простых правил формирования запроса в поисковой системе Яндекс.

1. Ключевые слова в запросе следует писать строчными (маленькими) буквами. Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

2. При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе. Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

3. Для поиска устойчивого словосочетания следует заключить слова в кавычки, например «фарфоровая посуда».

4. Для поиска по точной словоформе перед словом надо поставить восклицательный знак. Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября». 

5. Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &: «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

6. Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки «+» и «-» надо писать через пробел от предыдущего и слитно со следующим словом. Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

7. При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|». Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

8. Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки, например «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

9. Знак *~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе. Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

10. Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&, -) задает поиск в пределах документа. Например, по запросу «рак - астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

Имея определенный набор наиболее употребительных терминов в нужной области, можно использовать расширенный поиск. На рис. 3.3 показано окно расширенного поиска в поисковой системе Яндекс. В этом режиме возможности языка запросов реализованы в виде формы. Подобный сервис, включающий словарные фильтры, предлагается почти всеми поисковыми системами.

Рис. 3.3. Пример расширенного поиска в системе Яндекс

При условии правильного выбора желательных и обязательных слов и исключения нежелательных терминов такой поиск может дать неплохие результаты.

Вернемся к примеру с аквариумными рыбками. После прочтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос:

«+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной получен следующий результат: страниц - 195, сайтов - не менее 43.

Как видно из статистики поиска, результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам:

Размещение аквариума > Советы начинающему аквариумисту >
Статьи > Aq uascope. ru
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32КБ) - строгое соответствие.
СОВЕТЫ НАЧИНАЮЩИМ АКВАРИУМИСТАМ. Как выбрать и установить аквариум, как...
http://www.aquariums.ru/sovna.htm (2КБ) 23.07.2002 - нестрогое соответствие.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

♦ Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
♦ Прочитать предлагаемые статьи и приступить к устройству аквариума.
♦ Поискать материалы о хомячках или волнистых попугайчиках.

Профессиональный поиск

Для научных работников и специалистов придется более продуманно подойти к организации поиска. При профессиональном поиске информации в Интернете должны соблюдаться следующие требования:

♦ высокая скорость проведения поиска;
♦ достоверность получаемой информации;
♦ полнота охвата ресурсов при поиске.

Скорость. Скорость проведения поиска зависит в основном от двух факторов: от грамотного планирования поиска (выбора поисковых сервисов и инструментов) и навыков работы с уже выбранным ресурсом (умения быстро разобраться в его структуре и способах навигации). Для обеспечения скорости поиска поисковых индексов недостаточно. Помимо них в Интернете существует еще целый ряд поисковых ресурсов, использование которых обеспечивает выполнение профессионального поиска.

Достоверность. Вопрос достоверности информации, получаемой из Интернета, очень актуален, так как любой человек может разместить там любую информацию без какого-либо контроля ее соответствия действительности. Это, в свою очередь, приводит к большому количеству недостоверных источников, каковыми являются, например, рефераты и курсовые работы, наводнившие Интернет.

Существуют специальные поисковые сервисы, позволяющие оценить надежность источника информации в Интернете.

Полнота. Необходимым условием успешного полномасштабного сбора информации является знание основных существующих на сегодняшний день типов ресурсов и использование различных поисковых сервисов. Ни одна поисковая система не может охватить все ресурсы Интернета.

Как правило, для достижения положительного результата пользователь должен прибегнуть к услугам нескольких поисковых систем. Можно сделать это самостоятельно, переходя из системы в систему, а можно поручить эту работу одной из метапоисковых систем (meta - первая составная часть сложных слов, обозначающая системы для описания и исследования других систем).

Рис. 3.4. Окна метапоисковых систем

Метапоисковые системы не имеют собственных поисковых баз данных и при поиске используют ресурсы множества других поисковых систем. За счет этого вероятность нахождения нужной информации оказывается очень высокой. Работа в метапоис- ковых системах проводится по тем же правилам, что и работа в поисковых системах. Это вызвано тем фактом, что метапоисковые системы являются своеобразной надстройкой к поисковым системам и используют в своей работе их индексные базы. Внешний вид метапоисковых систем напоминает внешний вид известных поисковых машин. На рис. 3.4 представлены окна метапоисковых систем myweb.ru и metabot.ru.

Опыт показывает, что в большинстве случаев лучший результат достигается при использовании нескольких независимых поисковых индексов, чем при использовании одной метапоисковой системы.

Контрольные вопросы и задания

1. Каково назначение программы-браузера?

2. Какие программы-браузеры вам известны?

3. Где пользователь, планирующий поиск в Интернете, может найти адреса URL?

4. Какова технология поиска по рубрикатору поисковой системы?

5. Какова технология поиска по ключевым словам?

6. Какие требования должны соблюдаться при профессиональном поиске информации в Интернете?

7. Когда в критерии поиска надо задавать знаки «+» или «-»?

8. Какие критерии поиска в Яндексе заданы следующей фразой:

(няня | воспитатель | гувернантка) ++(уход | воспитание | присмотр).

9. Что означает удвоение знака (∼∼ или ++) при формировании сложного запроса?

10. Что такое релевантность поиска?

11. Каково назначение метапоисковых систем?

Лекция 4. Инструменты информационного поиска

Постоянное обновление информационного массива в сочетании с приростом объема данных крайне усложняет учет имеющихся документов и, соответственно, поиск, который условно можно разделить на:

  • фактографический поиск: в энциклопедиях, справочниках, словарях,
  • библиографический поиск: библиотеки, каталоги, программы.
  • документальный поиск: электронные документы, электронные библиотеки, электронные журналы.

Важность проблемы информационного поиска привела к образованию целой отрасли, задача которой заключается именно в оказании помощи пользователю по навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы . Их традиционно разделяют на:

  • справочники или каталоги
  • поисковые системы

Эти разновидности визуально очень похожи, поскольку «каждый справочник обладает собственной поисковой системой, а каждая поисковая система - собственным справочником» . Однако принципы их работы базируются на абсолютно разных подходах и технологиях. При этом каждая разновидность поисковых сервисов применяется в решении определенного типа задач. Информационный поиск подразумевает использование определенных стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой. Выбором инструмента во многом определяется стратегия поисковой деятельности и поисковые технологии.

Поисковые технологии - унифицированные (оптимизированные в рамках конкретной информационно-поисковой системы) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой.

По используемым поисковым технологиям информационные системы можно разбить на 3 категории:

  • тематические каталоги и специализированные каталоги (онлайновые справочники);
  • поисковые машины (полнотекстовый поиск);
  • средства мета-поиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это знакомое всем библиотекарям индексирование на основе классификации . Специализированные каталоги или справочники создаются по отдельным отраслям и темам. Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на запрашиваемых серверах. При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности, список.

Средства поиска - взаимозависимый комплекс информационно-поисковых языков и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска).

1. Справочники

Поисковые средства первой группы представляют собой электронные справочники, имеющие четкую иерархическую систематическую или логико-тематическую структуру, во многом напоминающую структуру систематического каталога библиотеки . Работа со справочниками позволяет ориентироваться в Интернет-ресурсах в пределах отдельных отраслей знания, углубляясь от общего к частному, меняя иерархические ветви, возвращаясь на несколько шагов назад и т.д.

Среди российских разработок в этой области значатся:

  • Апорт (адрес: www.aport.ru ),
  • List.ru (адрес: list.mail.ru ),
  • Weblist (адрес: www.weblist.ru ),
  • Иван Сусанин (адрес: www.susanin.net )
  • Улитка (адрес: www.ulitka.ru ).

Главной отличительной особенностью справочников является то, что они сделаны вручную. Редакционные коллегии каждого из справочников, которые по характеру труда напоминают отделы каталогизации и систематизации крупных библиотек , регулярно просматривают содержимое вновь появившихся серверов и отслеживают изменения на уже существующих. Выявленные данные анализируются и заносятся в разделы справочника в соответствии с принятой классификацией. Описание сервера в целом (или раздела, если он представляется вполне самостоятельным блоком) снабжается краткой аннотацией, содержащей общие сведения о характере имеющейся информации. В некоторых случаях заносятся добавочные сведения о языке документов, посещаемости ресурса, его физическом месторасположении и т.п.

Основными параметрами, характеризующими достоинства справочников, являются:

  • объем;
  • оперативность отражения новых или изменившихся ресурсов;
  • логичность и последовательность иерархической схемы классификации;
  • перекрестность структуры.

Объемом справочника определяется степень его надежности или « информационная прочность» . В некоторых системах существует специальный механизм, периодически проверяющий доступность сайта и исключающий его из перечня при долгом «отсутствии» в Сети. Логичностью (научностью) применяемой схемы классификации определяется степень простоты, с которой пользователи находят требуемые сведения. Система перекрестных ссылок позволяет выявить информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска не был выбран.

Возможности составления запроса для этого вида поисковых средств особой роли не играют. Сложные разыскания, требующие детализации запроса, с помощью каталогов не проводятся.

Справочники предназначены для решения трех типов задач :

  • ориентация в незнакомой отрасли знания;
  • разыскание крупных объектов, каковыми являются, к примеру, серверы организаций или значительных проектов;
  • получение готового перечня ресурсов, имеющих размытый поисковый образ (библиотек определенного типа, транспортных расписаний или сайтов политических партий и т.д.)

Другим примером является сравнение справочника ресурсов с систематическим каталогом библиотеки, в котором от книги (в данном случае, целого сайта) остается лишь описание и аннотация.

2. Поисковые системы

В основу работы поисковых систем (поисковых машин) заложены совершенно иные технологические принципы. Задача поисковых машин - обеспечить детальное разыскание информации, что может быть достигнуто только за счет учета (индексирования ) содержания максимально возможного числа веб-страниц. В отличие от справочников, поисковые машины функционируют в автоматизированном режиме и имеют единообразный принцип действия.

Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот , задача которого передвигаться с сервера на сервер и находить там новые (или изменившиеся) документы, скачивая их на главный компьютер системы. Робот просматривает содержимое документа, находит новые ссылки, - как на другие документы сервера, так и внешние сайты. Далее программа самостоятельно направляется по указанным ссылкам, находит новые документы, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии «метод снежного кома» . Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио- и видеофайлы. Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые индексные файлы , хранящие информацию о том, какое ключевое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют ту базу данных, к которой обращается библиотекарь, вводящий в строку запроса сочетания ключевых слов.

Вывод результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов . При этом в расчет берется:

  • местоположение термина в документе (название, заголовок, основной текст), частота его повторения,
  • процентное соотношение искомого термина к тексту страницы,
  • число и авторитетность внешних ссылок на данную страницу с других сайтов.

К основным параметрам поисковых систем относятся:

  • число проиндексированных серверов и отдельных документов (объем индексных файлов);
  • степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших;
  • возможности для составления запроса;
  • интеллектуальность системы ранжирования результатов поиска;
  • наличие дополнительных сервисных функций, облегчающих работу пользователя.

Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют качество полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание .

Все поисковые машины обладают модулем ранжирования результатов поиска . Это второй базовый компонент всех систем. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок, необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ.

  • Google (адрес: www.google.com ),
  • AlltheWeb (адрес: www.alltheweb.com ),
  • Alta Vista (адрес: www.altavista.com ).

Подобные поисковые средства существуют и в России. Все они предназначены для работы с русскоязычными документами и обладают мощным http://www.metabot.ru ).

Выводы по теме лекционного блока

Поисковая система делает выборку страниц из базы данных в соответствии с запросом, затем страницы упорядочиваются по степени убывания совпадений (примеч. А.А.)

В данном случае наблюдается прямая аналогия с принципами работы распределенных сводных каталогов библиотеки. Ключевой возможностью мета-поиска является способность рассылать запросы пользователя одновременно по различным поисковых системам - с последующим суммированием результатов. (примеч. А.А.)

Обращаясь к справочникам, библиотекарь может рассчитывать на получение лишь очень общих сведений по тематике, и никогда - детальных данных: от сервера крупной корпорации, содержащего тысячи страниц, в справочнике будет представлено лишь наименование и несколько строк аннотации.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то