Обзор технологий поиска новой информации

За последние несколько лет интенсивно развивались и достигли высокого уровня механизмы поиска информации в Интернет. Появилось большое количество мощных поисковых систем. Однако найти нужную информацию становится все труднее. Это связано с тем, что объем информации в Интернете растет лавинообразно и доля информационного "шума" постоянно возрастает.

В сложившейся ситуации важное значение приобретает умение человека правильно использовать мощный механизм поисковых систем. Нужно не только уметь правильно составить поисковый запрос, но и грамотно подбирать ключевые слова по заданной теме. Также важно учитывать особенности языка и специфику документального поиска.

Методы поиска информации в Интернете

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен несколькими методами, значительно различающимися как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы - результат того стоит.
       Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
       - Непосредственный поиск с использованием гипертекстовых ссылок
       - Использование поисковых машин
       - Поиск с применением специальных средств
       - Анализ новых ресурсов

Непосредственный поиск с использованием гипертекстовых ссылок

Использование поисковых машин

Поиск с применением специальных средств

Анализ новых ресурсов

Технология поиска с использованием поисковых машин

Рассмотрим основные этапы, которые так или иначе присутствуют при поиске информации с использованием поисковых машин.

Определение географических регионов поиска

Составление тезауруса

Использование законов Зипфа

       Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность (правильно - частость) обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:
       С = (частота вхождения слов X ранг частоты) / число слов
       Это значит, что график зависимости ранга от частоты - равносторонняя гипербола. Зипф также установил, что зависимость количества слов с данной частотой от частоты - также гипербола и постоянная для всех текстов в пределах одного языка.
       Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке - артиклями (так называемые "стоп-слова"), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

       Правильный набор ключевых слов имеет определяющее значение для оптимального поиска информации. К примеру, задав поисковой машине в качестве ключевого слова "МАРП", мы получим список документов, в которых встречается эта аббревиатура (Московское Агентство по Развитию Предпринимательства). Но если нас интересуют документы по более широкой теме, например: развитие предпринимательства, и мы сформируем простой запрос из этих двух слов, то поисковая машина выдаст нам список из сотен тысяч наименований, ориентироваться в котором будет весьма непросто.
       Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:
       - Удаление из текста стоп-слов.
       - Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.
       - Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.
       - Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
       Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.
       Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Составление и выполнение запросов к поисковым машинам

Формирование запросов

Проблемы, возникающие в процессе поиска

Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
       - увеличение охвата с целью извлечения максимального количества значимой информации;
       - уменьшение охвата с целью минимизации шумовой информации.
       Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
       Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.
       Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.
       Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной.

Владение пользовательскими инструментами и техникой

Не забывайте о команде Find браузера
       Если ваш браузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем браузере и введите искомое ключевое слово.
       Фиксируйте результаты ссылками и закладками
       1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения.
       2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.
       3. Некоторые машины поиска, например AltaVista, позволяют отмечать закладкой успешный результат поиска. Благодаря этому позднее можно вернуться к данной подборке документов и просмотреть ее.
       4. Существуют специализированные программные средства - интегрируемые модули расширения для стандартных браузеров, которые индексируют информационные ресурсы ранее посещаемых узлов. Они способны выполнять полнотекстовый поиск документов на любом узле, включая результаты обработки запросов.
       Сохраняйте копии важных документов
       Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл – Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы:
       1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты),
       2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации),
       3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.
       Отключайте вывод изображений
       Если вы не желаете видеть многочисленные рекламные заставки и для вас важен не дизайн сайтов, а их содержательная информация, измените заданный режим просмотра в браузере на режим вывода только текста (исключив возможности мультимедиа). Это значительно увеличит скорость поиска. При этом, если возникнет необходимость быстрого просмотра важной графической информации, воспользуйтесь пунктом контекстного меню Показать рисунок, кликнув для его вызова правой кнопкой мыши в место невыведенного рисунка.
       Не теряйте самоконтроль
       Интерактивная среда WWW увлекает, и зачастую после нескольких десятков минут Web-серфинга мы забываем: как попали на данный сайт, что хотели найти и по какому адресу расположена только что просмотренная уникальная информация… И в этом случае не пренебрегайте функциями вашего браузера Назад и Вперед, которые помогают упорядочить навигацию. Чтобы не терять информацию и время, приучите себя всегда явно определять цель предстоящего on-line сеанса и при работе стараться не отступать от нее, оставляя прочие возникающие идеи и желания на потом. Планирование поисковой работы по этапам также даст результат: поиск станет более осознанным и систематичным, а результат – более полным и точным.

Учет особенностей языка и специфики документального поиска

Используйте комбинированный поиск фраз
       Фразы позволяют выполнять поиск слова с учетом контекста. Обычно машина ищет точное совпадение с текстовой строкой, заключенной в кавычки. Скомбинировав несколько фраз искомого документа с помощью оператора языка запроса AND, вы существенно увеличите точность запроса.
       Применяйте редкие слова
       Если вы хотите найти документ по одному или нескольким словам, выберите наиболее необычные. Тем самым вы избежите напрасной траты времени на перебор бесполезных для вас сайтов.
       Не употребляйте очень распространенных терминов
       Слова типа компьютер, провайдер, Web и Windows приводят к высокой выборке нерелевантных узлов, то есть к большому количеству шумовой информации. Некоторыми машинами поиска подобные термины вообще не учитываются (так называемые стоп-слова).
       Избегайте игнорируемых ключевых слов
       Игнорируемыми (стоп-словами) называют слова, которые разработчики механизмов поиска автоматически исключают из запроса. Так, если вы попробуете в запросе AltaVista указать компьютер, то получите в ответ Документы, удовлетворяющие данному запросу, не найдены. Большинство машин поиска игнорируют также одно, двух- и трехбуквенные слова. Иногда не выполняется также поиск слов, начинающихся с цифры. Разработчики некоторых новейших средств поиска утверждают, что не используют игнорируемых слов, но такие случаи редки.
       И последнее - не забывайте традиционные источники!
       Книги и друзья, телевидение и пресса дают нам советы, консультации, знания и справочную информацию, в том числе о необъятном мире сети Интернет.

к.ф.-м.н. Владимир А.Рыжов, к.т.н. Алексей В.Корниенко, МГУ им.М.В.Ломоносова

Контрольные вопросы и задания для самостоятельной работы:

Знаете ли Вы, в чем ложность понятия "физический вакуум"?

Физический вакуум - понятие релятивистской квантовой физики, под ним там понимают низшее (основное) энергетическое состояние квантованного поля, обладающее нулевыми импульсом, моментом импульса и другими квантовыми числами. Физическим вакуумом релятивистские теоретики называют полностью лишённое вещества пространство, заполненное неизмеряемым, а значит, лишь воображаемым полем. Такое состояние по мнению релятивистов не является абсолютной пустотой, но пространством, заполненным некими фантомными (виртуальными) частицами. Релятивистская квантовая теория поля утверждает, что, в согласии с принципом неопределённости Гейзенберга, в физическом вакууме постоянно рождаются и исчезают виртуальные, то есть кажущиеся (кому кажущиеся?), частицы: происходят так называемые нулевые колебания полей. Виртуальные частицы физического вакуума, а следовательно, он сам, по определению не имеют системы отсчета, так как в противном случае нарушался бы принцип относительности Эйнштейна, на котором основывается теория относительности (то есть стала бы возможной абсолютная система измерения с отсчетом от частиц физического вакуума, что в свою очередь однозначно опровергло бы принцип относительности, на котором постороена СТО). Таким образом, физический вакуум и его частицы не есть элементы физического мира, но лишь элементы теории относительности, которые существуют не в реальном мире, но лишь в релятивистских формулах, нарушая при этом принцип причинности (возникают и исчезают беспричинно), принцип объективности (виртуальные частицы можно считать в зависимсоти от желания теоретика либо существующими, либо не существующими), принцип фактической измеримости (не наблюдаемы, не имеют своей ИСО).

Когда тот или иной физик использует понятие "физический вакуум", он либо не понимает абсурдности этого термина, либо лукавит, являясь скрытым или явным приверженцем релятивистской идеологии.

Понять абсурдность этого понятия легче всего обратившись к истокам его возникновения. Рождено оно было Полем Дираком в 1930-х, когда стало ясно, что отрицание эфира в чистом виде, как это делал великий математик, но посредственный физик Анри Пуанкаре, уже нельзя. Слишком много фактов противоречит этому.

Для защиты релятивизма Поль Дирак ввел афизическое и алогичное понятие отрицательной энергии, а затем и существование "моря" двух компенсирующих друг друга энергий в вакууме - положительной и отрицательной, а также "моря" компенсирующих друг друга частиц - виртуальных (то есть кажущихся) электронов и позитронов в вакууме.

Однако такая постановка является внутренне противоречивой (виртуальные частицы ненаблюдаемы и их по произволу можно считать в одном случае отсутствующими, а в другом - присутствующими) и противоречащей релятивизму (то есть отрицанию эфира, так как при наличии таких частиц в вакууме релятивизм уже просто невозможен). Подробнее читайте в FAQ по эфирной физике.