Анализ структурированной информации, хранящейся в базах данных, требует
предварительной обработки: проектирования БД, ввод информации по определённым
правилам, размещение её в специальных структурах (например, в реляционных
таблицах) и т.п. Таким образом, непосредственно для анализа этой информации и
получения из неё новых знаний необходимо затратить дополнительные усилия. При
этом они не всегда связаны с анализом и не обязательно приводят к желаемому
результату. КПД анализа структурированной информации снижается. Кроме того, не
все виды данных можно структурировать без потери полезной информации. Например,
текстовые документы практически невозможно преобразовать в табличное
представление без потери семантики текста и отношений между сущностями. По этой
причине такие документы хранятся в БД без преобразования, как текстовые поля
(BLOB-поля). В то же время в тексте скрыто огромное количество информации, но её
неструктурированность не позволяет использовать алгоритмы Data Mining. Решением
этой проблемы занимаются методы анализа неструктурированного текста. Термин
Information Retrieval (IR) можно трактовать достаточно широко. В качестве
русского перевода термина будем использовать словосочетание "информационный
поиск". К задаче информационного поиска относится чтение названий улиц на
дорожных указателях, отыскание в тексте имени некого персонажа или названия.
Список примеров можно продолжить. В общем виде
Information Retrieval
-
это отыскание информации слабо структурированного типа, отвечающей информационной потребности, среди большого объёма информации. Информации в данном случае присуще то, что она обычно представлена в виде текстовых документов и хранится в электронном виде.
Иформационная потребность
-
это некий набор данных, необходимый пользователю для того, чтобы больше узнать об интересующей его предметной области.
Неструктурированная информация не имеет чёткой
определённой семантики, её сложнее хранить и обрабатывать. Противоположностью
неструктурированной информации является организация информации в виде базы
данных. Базы данных проектируются таким образом, чтобы исключить дублирование
информации, облегчить поиск и доступ к её элементам. Представление информации в
виде текста хоть и далеко от представления в виде БД, но ей также присуща
определённая структура. Так для многих текстов характерны заголовки, абзацы и
другие виды форматирования (отступы и пр.). Примерами документов могут быть:
web-страницы, электронная почта, нормативные документы и т.п. В общем случае
такие документы могут быть сложными и большими и включать в себя не только
текст, но и графическую информацию. Остановимся на некоторых характерных
чертах информационного поиска. При поиске ответа на запрос нас иногда устроят
частичные совпадения с запросом и выборка наилучших документов из
найденных. Сам запрос составляется на естественном языке, хотя и допускает
включение дополнительных служебных конструкций специального языка
запросов.
Среди задач по обработке текстов выделяют классификацию и
кластеризацию текстовой информации. В задаче кластеризации требуется
произвести группировку текстовых документов по их содержимому. По аналогии с
расстановкой книг по темам на полке. В задаче классификации задаётся набор
тем, категорий (например даты, или исторические периоды) и задача заключается в
нахождении правил, по которым можно отнести тот или иной документ к определённой
категории. Зачастую на начальном этапе прибегают к ручной классификации, которая
хоть и точнее, но заведомо медленна. Полученный набор правил затем можно
использовать, чтобы классифицировать новые документы
автоматически.
Информационный поиск также различается по назначению и
объёму данным, с которым нужно работать.
web-поиск - поиск по сотням миллионов документов, расположенных на
миллионах компьютерах.
Существенные усилия затрачиваются на сбор и
предварительную обработку документов (индексирование), чтобы обеспечить
высокую скорость ответа на поисковый запрос, а также обслуживать тысячи и
десятки тысяч пользовательских запросов одновременно. Также важно выявлять и
не учитывать сайты, подменяющие контент в целях поднятия своего рейтинга в
поисковых системах;
персональный информационный поиск - это возможности по поиску и обработке
информации, заложенные производителями ПО в настольные приложения, такие как
почтовый клиент и другие.
Среди прочих, возможности почтовых клиентов по
отделению спама от полезной корреспонденции, фильтрация почты по папкам.
Отличительная черта таких решений в том, что все данные расположены на одном
пользовательском компьютере и имеют сравнительно небольшой объём. Таким
образом, эти средства могут работать параллельно с другими пользовательскими
программами и не привлекать к себе внимание (не тратить большое число ресурсов
системы);
решения для поиска информации в интранет-сетях таких как: сети
университетов, корпоративные сети.
В этом случае данные зачастую содержатся в
централизованном хранилище с множественным доступом. Объём данных уже
значительно превышает предыдущий случай, но тем не менее меньше чем в случае
поисковых систем.
Знаете ли Вы, что релятивистское объяснение феномену CMB (космическому микроволновому излучению) придумал человек выдающейся фантазии Иосиф Шкловский (помните книжку миллионного тиража "Вселенная, жизнь, разум"?). Он выдвинул совершенно абсурдную идею, заключавшуюся в том, что это есть "реликтовое" излучение, оставшееся после "Большого Взрыва", то есть от момента "рождения" Вселенной. Хотя из простой логики следует, что Вселенная есть всё, а значит, у нее нет ни начала, ни конца... Подробнее читайте в FAQ по эфирной физике.