Поиск информации в сети Интернет
Одним из основных способов найти информацию в Internet являются поисковые машины или поисковые сервера, на которых расположено специальное программное обеспечение для осуществления поиска – поисковые инструменты.
Поисковые инструменты каждый день “ползают” по Интернету, они посещают web-страницы и заносят их в свои базы данных. Это позволяет пользователю, используя услуги поисковых инструментов, достаточно быстро находить в Интернет нужную информацию.
Для поиска документов, содержащих некоторые слова или фразы (назовем их ключевыми) достаточно проделать следующее:
- зайти на страницу сайта, предоставляющего услуги поисковых инструментов;
- набрать ключевые слова в окне поиска;
- нажать одну из кнопок: или Поиск, или Найти, или Искать.
В результате вам будет доставлен список страниц, текст которых соответствует сформулированному запросу (содержит ключевые слова).
Основные поисковые инструменты.
Существуют различные инструменты для поиска информации в Интернет. На данный момент выделяют следующих два типа:
1) поисковые системы: тематические каталоги и автоматические инструменты;
2) поисковые службы.
Тематические каталоги. Один физический сервер может содержать много веб-узлов. Каждому веб-узлу отводится отдельный каталог на жестком диске сервера. В тематический каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Результатом является постоянно обновляющийся иерархический (древовидный) каталог. На его верхнем уровне собраны самые общие категории, такие как “бизнес”, “наука”, “искусство” и т.п. А элементы самого нижнего уровня представляют собой ссылки на отдельные web-страницы и сервера вместе с кратким описанием их содержимого. Для тематических каталогов конструкция просматриваемых web-страниц не имеет значения. Примерами тематических каталогов могут служить Yahoo, Virtual Library, Galaxy и др.
Предметные каталоги предоставляют возможность автоматического поиска по ключевым словам. Но поиск происходит не в содержимом самих web-серверов, а в их кратких описаниях, хранящихся в каталоге.
Автоматические индексы.
Автоматические индексы постоянно исследуют Интернет с целью пополнения своих баз данных. Обычно это не требует никаких усилий со стороны пользователя. Программа, в которую загружено несколько тысяч общеизвестных URL-адресов, будучи запущена на компьютере с доступом к WWW, начинает автоматически скачивать из сети документы по этим адресам, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Данные инструменты полностью скрывают от пользователя организацию индекса и его содержимое.
Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым и работает пользователь.
Для поисковых систем довольно важна конструкция каждого просматриваемого web-документа. Большое значение имеют TITLE, МЕТА-тэги и содержимое страницы. Примерами являются поисковые системы AltaVista, WebCrawler, Lycos, и др.
Поисковые службы рассылают запросы пользователя одновременно нескольким поисковым серверам и обращаются к некоторым другим источникам информации. Затем они объединяют полученные результаты и представляют их пользователю в виде HTML-страницы с активизируемыми URL-ссылками. Поисковые системы предназначены для поиска необходимой пользователям информации. Их иногда в спеицальной литературе называют роботами, пауками, снайдерами или программными агентами (от англ.слов - robot или сокращенно bot, spider, crawler и agent). Поиск может быть простым (по ключевым словам), расширенным (по ключевым словам, связанным операторами логических отношений), контекстным (по точной фразе), специальным (по ссылкам на адреса URL и данным в служебных полях).
Поисковые указатели выполняют автоматическую каталогизацию информационных ресурсов. Указатели заняты поиском веб-ресурсов по ключевым полям. Поисковые указатели для работки запросов пользователей применяют разные информационные технологии. Самым большим поисковым указателем обладает поисковая система Fast Search (www.alltheweb.com). Любой поисковый указатель выполняет поиск в три этаna.
1. Поисковый указатель собирает информацию из Всемирной паутины и копирует ее на сервер поискового указателя. Для этого используют специальные программы, аналогичные браузерам. Они способны скопировать заданную веб-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются; ресурсы, которые найдены там; снова разыскать имеющиеся в них гиперссылки и т. д. Такие программы называют червяками, пауками, гусеницами, краулерами, слайдерами и др. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает.
2. Индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Индексированная БД — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
3. Обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Например, пользователь хочет (энать, где имеются веб-страницы, на которых упоминается Ив.Джонс. Он вводит слово «Джонс» в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие веб-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее можно пользоваться этими ссылками для перехода к интересующим ресурсам.
Основная проблема современного Интернета связана с наличием в информационном пространстве большего объема веб-страниц. Достаточно ввести в поле поиска самое простое слово, как поисковая система предложит сотни тысяч ссылок, сгруппировав их по 20-25 и более штук на отображаемой странице. В этой связи сортировка найденных ссылок является весьма актуальной задачей. Операцию сортировки полученных результатов принято называть ранжированием. Каждой найденной веб-странице поисковая система присваивает рейтинг, который учитывает качество предлагаемого материала. Высокие рейтинги получают веб-страницы, у которых ключевое слово в запросе входит заголовок. Уровень рейтинга повышается, если ключевое слово встречается на веб-странице неоднократно.Оптимальным при индексации считается рейтинг слова, входящего в первые 5 абзацев текста. Росту рейтинга также способствуют еще два фактора: во-первых, если ключевое слово входит в альтернативный тескт с сопровождением его иллюстрацией, и во-вторых, если на странице есть ссылки с каких-то других веб-страниц. Все выше перечислено способствует получению высокого показателя цитируемости. При этом пользователю надо помнить, что современные поисковые системы имеют возможность оценить всевозможные «хитрости по повышению рейтинга» и присвоить веб-странице отрицательный показатель рейтинга.
Для упрощения поиска данных используется язык запросов
| Действие | Реализация |
|---|---|
| Найти документы, содержащие все ключевые слова. Наличие заглавных букв не влияет на результаты поиска | Перечислить нужные слова через пробел |
| Найти слово со всевозможными окончаниями (поиск по шаблону) | Вместо окончания поставить символ * |
| Найти документы, содержащие несколько ключевых слов | Оператор AND |
| Найти документы, содержащие любое из нескольких ключевых слов | Оператор OR |
| Исключить наличие в документе определенного слова | Оператор NOT! |
| Поиск документов, содержащих различные формы поискового слова | символ @ |
| Увеличить, уменьшить весового значения любого слова | Использование (в том числе многократное) символов +- |
| Поиск в части документа | Специальные слова $URL: $Title: $Header: $Adress: |
| Определить порядок выполнения действия логических операторов | Скобки () |
| Выбор языка документа | Специальные слова $RUSSIAN: $ENGLISH: |
| Сортировка документов по датам документов | Специальные слова $YOUNG: $OLD: |
| Минимизация расстояния между словами и отмена этого режима | Специальные слова $NEAR: $RANDOM: |
Задание
С помощью поиска в Интернет и правовых порталов найти информацию по вопросам, заданным преподавателем.