Сегодня

Добавить в избранное

УНИВЕРСАЛЬНЫЙ УЧЕБНИК
 
Главная| Контакты | Заказать | Рефераты

Предыдущая Оглавление Следующая

4.6.5. Поиск информации в сети Интернет.

4.6.5.1. Поисковые системы.

Продолжается информационный бум - растут количество и объемы серверов в WWW, увеличиваются мощности локальных сетей. Каждый день Вам приходится иметь дело с грудами текстов на русском языке. Это и новости, и подшивки газет в электронном виде, и электронная почта, и новые документы, и письма. Очень важно уметь быстро искать и находить в этом море действительно нужную информацию. Уже давно во всем мире крупнейшие компьютерные корпорации разрабатывают всевозможные средства интеллектуализации поиска... но без учета нашего "великого и могучего, правдивого и свободного", на 80% изменяемого русского языка.

Поисковые системы обычно состоят из трех компонент:

· агент (паук или кроулер), который перемещается по Сети и собирает информацию;

· база данных, которая содержит всю информацию, собираемую пауками;

· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

Яndex

Программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.

Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой "паук".

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Язык запросов: скобки; логическое И (в пределах одного абзаца); логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в словах.

Список выданных документов упорядочивается по релевантности - по количеству найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.

Для интеллектуализации поиска используется словарь на 90 тыс. слов. Алгоритм морфологического разбора умеет корректно обрабатывать и слова, не найденные в словаре. Морфология работает для русского и английского языка.

Google.

В Google используется следующий механизм индексации:

· слова в заголовке страницы имеют высший приоритет;

· слова в начале страницы;

· слова в ссылках;

· если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.

Как и большинство систем, Google дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Google производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу и количество слов из запроса, попавших в документ. Таким образом, видно, что Google относится к системе с языком запросов типа "похоже на", но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista.

Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

· слова содержащиеся в заголовке страницы имеют высший приоритет;

· ключевые фразы, находящиеся в начале странички;

· ключевые фразы в - ссылках

· ключевые фразы по количеству вхождений\присутствия слов\фраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания.

Yahoo.

Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

4.6.5.2. Синтаксис запроса.

Распространено мнение, что шаблон "*", означающий любой набор символов, достаточен для поиска в русских текстах. То есть все проблемы, связанные с особенностями морфологии решаются путем обеспечения развитого языка запросов.

Но представьте себе - Вы узнали, что искали ветер в поле и нашли. Чтобы найти эту информацию, Вы, вероятно, попросите компьютер поискать слова "ветер" и "поле". Но если в тексте были формы "ветра" или "полях"? Остается вариант шаблона - "вет*" и "пол*", что тут же выдаст Вам материалы о польской ветчине и политике вето! Отсутствие морфологии сильно, а иногда катастрофически влияет на чувствительность и избирательность поиска. Запрос "ветер И поле" уменьшает чувствительность, а "вет* И пол*" - избирательность.

Случаи, когда шаблон не спасает:

· Слова, у которых в разных формах меняется основа: идти-шел, плохо-хуже, я-меня, человек-люди, ребенок-дети

· Слова с большим количеством словоформ. Привести список всех словоформ русского глагола человеку, не имеющему лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка "накрываются" шаблоном "*" - ещё труднее.

· Слова с беглыми гласными и чередованиями. В словаре на 90000 слов, используемом в нашей системе, примерно четверть слов имеет чередования, которые не позволяют найти слово по шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много мусора)

· Короткие (три-четыре буквы) слова: дом, хор, ... . Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона "*" в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов.

4.6.5.3. Анализ ресурсов и сбор информации

Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соотвествующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.

Кратко можно выделить следующие типы информационных Web-ресурсов:

· коммерческие сайты компаний (Примеры: компания Hewlett Packard, фирма "1C");

· вторичные информационные сайты (Примеры: Rambler-здоровье, сайт о моде Model Art); источники аналитической информации (Примеры: РосБизнесКонсалтинг, Полит.ру);

· региональные информационные ресурсы (Примеры: город Зеленоград, Санкт-Петербург).

В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.

4.6.5.4. Проблемы, возникающие в процессе поиска

Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

· увеличение охвата с целью извлечения максимального количества значимой информации;

· уменьшение охвата с целью минимизации шумовой информации.

Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности,- в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

Другая, связанная с этой, проблема - неоднозначность человеческого языка. Если сфера ваших интересов - нефть (оil) то около половины вываленных на вас ссылок будет касаться... живописи. Картина маслом, так сказать... К проблеме синонимов в русскоязычном Интернете добавляется еще проблема морфологических вариаций слов. Изготовим платы, изготовление плат... Добавьте сюда наличие в языке омонимов (абонентная плата, а в некоторых системах также зарплата и платан), и работа с тезаурусом покажется уже не блажью, а суровой необходимостью.

Много головной боли в нашем отечественном Интернете происходит от обилия кодировок. Я все понимаю: "загадочная русская душа", "сам хорош", "другим путем" (каждый своим) - но не до такой же степени! Изобрести три (!) основных кодировки, каждая из которых еще может существовать в вариациях (например, расположение буквы Ё в КОИ-8), плюс неосновные разной степени экзотичности!.. С этим общим врагом каждый борется, как умеет. Российские поисковые машины распознают вашу кодировку и кодировку сайта и пытаются по мере возможности привести их в соответствие. Это удается, но не всегда. Иначе: если вы ищете слово "Финансы", а на сайте ему соответствует загадочное "тХМЮМЯШ", поиск вряд ли будет удачным.

Поиск может быть неудачным и в силу формы представления информации. Данные, лежащие в базе, "не цепляются" ни поисковой машиной, ни спайдером. Например, информация по предприятиям удаленных регионов нашей страны, для которых Интернет часто является единственным средством общения с миром, обычно расположена на региональных серверах и как раз почему-то в базах данных.

И последнее неудобство, докучающее в первую очередь пользователям русскоязычной части Сети, - это ее нестабильность. Меняются адреса, структура сайтов, сами они появляются и исчезают. Конечно, это издержки быстрого роста, но в худшем случае вы не сможете добраться до половины источников, выданных поисковой машиной. А иногда так хочется!

4.6.5.5. Как искать в Интернет.

Как выбрать поисковую машину.

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить:

Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому - надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе - различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной - обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" - редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

Как проверить:

Объективную информацию можно получить, проанализировав логи серверов - робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок - проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "Not Found" свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить:

Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рэмблере - варианты перевода на русский язык "advanced search").

Кроме релевантности, существуют важные пользовательские характеристики.

1. Скорость поиска

Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить:

Путем эксперимента - надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик - около трех-четырех часов дня).

2. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).
Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа - заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

Как проверить:

Обычно эта информация публикуется на сервере поисковой машины (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

3. Дополнительные удобства. Это - дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.

Понятно, что предложенная исследовательская программа займет некоторое время. Кроме этого, поисковые машины, как и весь Интернет, не стоят на месте. Но "искалка" - одно из средств вашей работы, поэтому стоит уделить ее выбору некоторое внимание - по крайней мере, не меньшее, чем организации своего рабочего места.

Каталоги

Каталоги составляются людьми - редакторами, просматривающими каждый новый сайт до его включения в индекс, или самими составителями описаний.

Качество при этом выше, чем у поисковых машин, но люди не могут успеть за темпами расширения и изменения Интернета: индекс популярного каталога Yahoo! содержит лишь немногим более миллиона записей. Кроме того, часто в каталогах накапливаются устаревшие адреса - если, конечно, авторы не удосужились автоматизировать процесс проверки.

Каталоги обычно организованы в соответствии с предметной классификацией и содержат сведения о web-страницах (так называемый "видимый" Интернет). Отдельной разновидностью каталога являются рейтинги - счетчики посещений.


Сводная таблица избранных предметных каталогов
 
List.Ru
Апорт

Яндекс

Rambler
Yahoo!
About

Общая характеристика

19 разделов верхнего уровня

14 разделов верхнего уровня

10 основных разделов, 7 комбинированных, дополнительная классификация

56 разделов

14 основных разделов

36 разделов

Сортировка ресурсов внутри раздела

Алфавит, оценка гидов, популярность (посещаемость), дата

Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей

Алфавит, дата добавления, индекс цитируемости

по посещаемости

по алфавиту

по оплаченности ссылок

Булевские операторы

Используется язык поисковой машины Яndex

Используется язык поисковой машины Апорт

Используется язык поисковой машины Яndex

Используется язык поисковой машины Rambler

Нет

Нет

Поиск по фразе

" "

" "

Префиксы

+, -

+, -

Итеративный поиск (в результатах)

Есть поиск внутри категории

После входа щелкните More…

замена части слова

*

* (не всегда корректно)

Проверяйте орфографию

Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы

Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".

Ищите больше, чем по одному слову

Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".

Не пишите большими буквами

Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы

Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Поисковая система проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а поисковая система еще не успела удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".

Используйте знаки "+" и "-"

Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Попробуйте использовать язык запросов

С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.

Предыдущая Оглавление Следующая
[an error occurred while processing this directive]