Методы классификации текстов лежат на стыке двух областей - машинного обучения (machine learning, ML) и информационного поиска (information retrieval, IR) [33, 134]. Соответственно автоматическая классификация может осуществляться:
- на основе заранее заданной схемы классификации и уже имеющегося множества классифицированных документов;
- полностью автоматизировано.
При применении подходов машинного обучения, классификационное правило строится на основе тренировочной коллекции текстов (обучение на примерах).
Задача классификации текстов заключается в определении принадлежности текста, который рассматривается, одному или нескольким классам. Классификация может определяться общей тематикой текстов, наличием определенных дескрипторов или выполнением определенных условий, иногда довольно сложных.
Для каждого класса эксперты отбирают текстовые массивы (наборы типичных документов), которые используются системой классификации в режиме обучения. После того как обучение закончено, система с помощью специальных алгоритмов сможет распределять входные потоки текстовой информации по классам.
Классификацию можно рассматривать как задачу распознавания образов, при таком подходе для каждого объекта выделяются наборы признаков. В случае текстов признаками являются слова и взаимозависимые наборы слов - термы, которые содержатся в текстах. Для формирования набора признаков для каждого документа используются лингвистические и статистические методы. Признаки группируются в специальную таблицу - информационную матрицу. Каждая строка матрицы соответствует одному из классов, каждый элемент строки – одному из признаков; численное значение этого элемента определяется в процессе обучения системы классификации. Когда обучение завершается, принадлежность нового текста к одному из классов устанавливается путем анализа признаков этого текста с учетом соответствующих весовых значений. Существующие алгоритмы позволяют проводить классификацию с довольно высокой точностью, однако результаты достигаются за счет больших размеров информационной матрицы, которая определяется общим числом дескрипторов - термов.
Автоматическая классификация может применяться в таких процедурах информационного поиска :
- фильтрация (избирательный отбор) информации;
- формирование тематических каталогов;
- поиск по классам;
- реализация обратной связи по релевантности путем классификации результатов поиска и выбора пользователем релевантных классов;
- расширение запросов за счет термов, которые характеризуют тематику класса;
- снятие омонимии (т.е. учет тех случаев, когда одно и то же слово может иметь разный смысл);
- автоматическое реферирование.
Когда тот или иной физик использует понятие "физический вакуум", он либо не понимает абсурдности этого термина, либо лукавит, являясь скрытым или явным приверженцем релятивистской идеологии.
Понять абсурдность этого понятия легче всего обратившись к истокам его возникновения. Рождено оно было Полем Дираком в 1930-х, когда стало ясно, что отрицание эфира в чистом виде, как это делал великий математик, но посредственный физик Анри Пуанкаре, уже нельзя. Слишком много фактов противоречит этому.
Для защиты релятивизма Поль Дирак ввел афизическое и алогичное понятие отрицательной энергии, а затем и существование "моря" двух компенсирующих друг друга энергий в вакууме - положительной и отрицательной, а также "моря" компенсирующих друг друга частиц - виртуальных (то есть кажущихся) электронов и позитронов в вакууме.
Однако такая постановка является внутренне противоречивой (виртуальные частицы ненаблюдаемы и их по произволу можно считать в одном случае отсутствующими, а в другом - присутствующими) и противоречащей релятивизму (то есть отрицанию эфира, так как при наличии таких частиц в вакууме релятивизм уже просто невозможен). Подробнее читайте в FAQ по эфирной физике.