В соответствии с уже сложившейся методологией, к основным элементам Text
Mining относятся: классификация (classification, categorization), кластеризация (clustering), извлечение фактов, понятий (featureextraction),
реферирование (summarization), ответ на запросы
(questionanswering),
тематическое индексирование (thematicindexing) и поиск по ключевым словам (keywordsearching).
При
классификации текстов, методы которой детально рассматриваются в
четвертой главе, используются статистические корреляции для размещения документов в определенные категории. Задача
классификации - это классическая задача распознавания, где по
некоторой контрольной выборке система относит новый объект к той или иной
категории. Особенность классификации в рамках концепции Text Mining заключается в том, что количество объектов и их
атрибутов может быть очень большим, поэтому должны быть предусмотрены
механизмы оптимизации этого процесса.
В отличие от классификации, при кластеризации заранее не фиксируются
определенные категории. Результатом кластеризации является автоматическое
группирование информации, в результате которой создаются классификационные
схемы, обеспечивающие эффективный охват больших объемов данных.
Кластеризация в Text Mining рассматривается как
процесс выделения компактных подгрупп объектов с близкими свойствами. При
кластеризации система должна самостоятельно найти признаки и разделить
объекты по группам. Кластеризация, как правило, предшествует
классификации, поскольку позволяет определять группы объектов.
Text Mining предусматривает также построение семантических сетей, анализ связей, которые определяются появлением дескрипторов (например, ключевых слов) в
текстах.
Кроме того, существует еще несколько задач технологии Text Mining, например, прогнозирование, которое заключается в том, чтобы предсказать по
значениям одних признаков текста значения остальных. Еще одна задача -
нахождение исключений, то есть поиск документов, которые своими
характеристиками выделяются из общей массы [3]. Для этого сначала
выясняются средние параметры документов, а затем исследуются те документы,
параметры которых наиболее сильно отличаются от средних значений. Обычно
поиск исключений зачастую проводится после классификации или кластеризации
для того чтобы выяснить, насколько последние были точны.
Несколько отдельно от задачи кластеризации стоит задача поиска связанных признаков
(ключевых слов, понятий) отдельных документов. От прогноза эта задача
отличается тем, что заранее не известно, по каким именно признакам
реализуется взаимосвязь - цель именно в том и состоит, чтобы найти связи
признаков. Эта задача сходна с кластеризацией, но не по множеству
документов, а по множеству признаков.
Знаете ли Вы, что cогласно релятивистской мифологии "гравитационное линзирование - это физическое явление, связанное с отклонением лучей света в поле тяжести. Гравитационные линзы обясняют образование кратных изображений одного и того же астрономического объекта (квазаров, галактик), когда на луч зрения от источника к наблюдателю попадает другая галактика или скопление галактик (собственно линза). В некоторых изображениях происходит усиление яркости оригинального источника." (Релятивисты приводят примеры искажения изображений галактик в качестве подтверждения ОТО - воздействия гравитации на свет) При этом они забывают, что поле действия эффекта ОТО - это малые углы вблизи поверхности звезд, где на самом деле этот эффект не наблюдается (затменные двойные). Разница в шкалах явлений реального искажения изображений галактик и мифического отклонения вблизи звезд - 1011 раз. Приведу аналогию. Можно говорить о воздействии поверхностного натяжения на форму капель, но нельзя серьезно говорить о силе поверхностного натяжения, как о причине океанских приливов. Эфирная физика находит ответ на наблюдаемое явление искажения изображений галактик. Это результат нагрева эфира вблизи галактик, изменения его плотности и, следовательно, изменения скорости света на галактических расстояниях вследствие преломления света в эфире различной плотности. Подтверждением термической природы искажения изображений галактик является прямая связь этого искажения с радиоизлучением пространства, то есть эфира в этом месте, смещение спектра CMB (космическое микроволновое излучение) в данном направлении в высокочастотную область. Подробнее читайте в FAQ по эфирной физике.