к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Обработка текстовой информации

Задачи обработки текстовой информации

Делить на отдельные части что-либо целостное, пусть и многообразное, всегда Сложно, поэтому первый раздел посвятим классификации и описанию самых общих задач обработки текстовых документов. Выделим несколько этапов обработки документов:
ввод текста;
редактирование;
сохранение документа;
публикация;
поиск и открытие созданного документа;
перевод.

5.1.1. Ввод текста
На данном этапе развития научной и технической мысли ввод текста может осуществляться несколькими разными способами:
- набором текста при помощи клавиатуры;
- переводом бумажных документов в электронную форму;
- голосовым вводом;
- рукописным вводом.
Набор текста при помощи клавиатуры. Этот способ в настоящее время является самым распространенным. Он представляет собой, как правило, довольно простой технологически процесс, если, конечно, не стараться сразу придать документу окончательно оформленный вид, а заняться этим при редактировании. Но в любом случае, в зависимости от пожеланий заказчика и вида последующей публикации наборщик должен правильно выбрать шрифт, который он будет использовать при наборе. Поэтому, говоря о наборе текста, прежде всего поговорим о шрифтах.
Шрифты в современном понимании явились результатом многовековых разработок. Современное книгопечатание начало развиваться приблизительно с XV века. В XV-XVI веках многие художники занимались разработкой шрифтов. Уже в то время шрифты приобрели вполне законченный современный вид. Некоторые шрифты того времени применяются до сих пор. Примером может служить шрифт Клода Гарамона, на основе которого создана оцифрованная и русифицированная версия шрифта ITC Garamond.
В последнее время для изготовления шрифтов и представления документов стали использоваться компьютеры. Первыми по-настоящему компьютерными шрифтами можно считать векторные и растровые (или матричные) шрифты. Они различаются по способу описания символов. Символы векторных шрифтов задаются в виде набора векторов, определяющих перемещение пера графопостроителя по бумаге или электронного луча в трубке векторного дисплея. Эти шрифты имели ограниченный круг применения, связанный с выводными устройствами векторного типа.
Растровые шрифты предназначены, в основном, для вывода на экран и на довольно-таки устаревшие растровые устройства, к которым относятся, например, матричные, принтеры. Для печати с помощью лазерных принтеров либо для электронных публикаций их не применяют по той простой причине, что, во-первых, на разных экранах они будут выглядеть по-разному, во-вторых, качество печати и электронный вид документа, как правило, оставляют желать много лучшего. Символы растровых шрифтов задаются как комбинации точек в матрице заданного размера (в растре), что обусловливает ряд недостатков, и главный из них - неприспособленность к трансформациям, таким как масштабирование, поворот, наклон. Размеры растровых шрифтов могут иметь лишь ряд фиксированных значений, поскольку они определяются размерами матрицы (растра), на базе которой построены символы. Изменение размера или начертания шрифта происходит путем замены одного растра на другой. С другой стороны, преимуществом растровых шрифтов может быть названо то, что для них программная процедура вывода на печать является более простой и быстрой.
Контурные шрифты являют собой попытку сделать максимально удобные для пользователей шрифты на основе и идеологии векторных. В принципе, в литературе их часто не различают из-за принципиально одинаковой организации описания символов. Отличие лишь в том, что здесь символы задаются в виде набора отрезков и гладких кривых, имеющих точное математическое описание. У контура гораздо больше возможностей для трансформаций, он легко масштабируется.
Для вывода символов на растровое устройство необходима специальная программа - растеризатор. Сейчас контурные шрифты применяются наиболее широко, и поддерживаются не всеми платформами. Удобство их в том, что применение их при подготовке документов позволяет более или менее реализовать принцип WYSIWYG (What You Seels What You Get - <To, что ты видишь, есть то, что ты получишь"). Это принцип единообразного вида документа при наборе в дан-[ момент и при любой дальнейшей публикации.
Широкое распространение контурные шрифты получили после 1985 г., когда фирма Adobe - признанный мировой лидер в области производства программного обеспечения для издательской деятельности - выпустила шрифты стандарта Script Type 1 вместе с языком описания страниц PostScript.
Другой распространенный сейчас стандарт контурных шрифтов - это TrueType, совместная разработка фирм Apple и Microsoft. Шрифты TrueType могут поддерживать до 65535 (216-1) символов. Основное отличие их от шрифтов Туре 1 в том, Adobe положила в основу построения контура кривые третьего порядка, а не второго. А если быть более точным, то так называемые кривые Безье, являющиеся, в определенном смысле, упрощением и усовершенствованием кривых третьего порядка.
С одной стороны, это обеспечивает шрифтам Туре 1 ряд преимуществ:
символы шрифтов Туре 1 являются более гладкими из-за отсутствия изломов в точках сопряжения фрагментов;
для задания контура с тем же или более высоким качеством требуется меньшее количество точек, что уменьшает количество хранимой и передаваемой информации.
С другой стороны, поскольку нас как пользователей интересует, в основном, операционная система Windows и соответствующие ей платформы, то в этой среде основными являются шрифты стандарта TrueType, так как они не нуждаются в специальных преобразователях и могут применяться в большинстве приложений. На основе стандартов TrueType и Туре 1 различные фирмы создают конкретные виды шрифтов.
Осуществлять настройку шрифтов, идущих в комплектации с OS Windows, можно следующим образом: в главном меню Windows через Start (Пуск) выберите команду Settings (Настройки) > Control Panel (Панель управления) и в появившемся окне щелкните двойным щелчком левой кнопки мыши на значке Fonts (Шрифты). В окне Ц (рис. 5.1) появится список шрифтов, из которого вы можете выбирать наиболее подходящие для работы. По мере того, как вы выбираете какой-либо из шрифтов, вам автоматически предлагается посмотреть, как он выглядит на экране, в зависимости от размера. Вы можете ознакомиться с тем, как выглядят печатные и прописные буквы, цифры, знаки препинания, набираемые с использованием этого шрифта, а также принять к сведению характеристики шрифта и то, к какому стандарту он относится. Эта информация также может пригодиться для предсказания возможного "поведения" данного шрифта в рамках подготавливаемой публикации. Ее можно использовать также при разработке собственного, авторского шрифта. Однако на практике к этому прибегают крайне редко, тем более что набор шрифтов, входящих в стандартную комплектацию, достаточно широк и разнообразен.

Рис. 5.1. Диалоговое окно настройки шрифтов

Вообще говоря, производство красивых и функциональных шрифтов - занятие довольно трудоемкое, творческое и не дешевое. Контур символов - это еще не все. Из одного набора контуров можно построить различные по качеству шрифты. Имеется масса параметров, таких как кернинг, трекинг, хинты и т. п., о существовании которых обыкновенный использующий шрифт человек даже и не догадывается, но именно они позволяют набранному тексту выглядеть ровно и красиво. В мире существует лишь несколько фирм, занимающихся этим видом деятельности, в России - одна. В последнее время стало модным создание эксклюзивных шрифтов, под конкретного заказчика. Некоторые фирмы - FontShop (Германия), "ПараГраф" (Россия), Signature Software (США) и др. - предлагают своим клиентам услуги по созданию персональных рукописных шрифтов. Обычно клиенту предлагается бланк, на котором он пишет как отдельные буквы, так и целые фразы. Затем эти изображения сканируются, вводятся в компьютер и с использованием профессиональных шрифтовых программ преобразуются в компьютерный шрифт. Процесс дорогой и трудоемкий, так что собственный шрифт не каждому по карману.
Перевод бумажных документов в электронную форму. Необходимость такого преобразования обусловлена тем, что многие текстовые документы имеют вид лажных изданий: бланки платежных поручений, деловые письма, финансовая документация и многое другое. Огромные массивы информации передаются в виде трудноразличимых факсов и ксерокопий. Для того чтобы иметь возможность быстро и правильно редактировать такие документы, а также публиковать их в дальнейшем в разном виде, и возникает потребность в программном обеспечении, обеспечивающем создание электронного образа бумажного документа, а также в соответствующих устройствах.
На сегодняшний день такими устройствами являются сканеры. Не вдаваясь в техническую сторону дела, отметим лишь, что условно их можно разделить на две категории: универсальные и узкоспециализированные, к которым предъявляются специальные профессиональные требования. Нас как пользователей интересуют, в основном, сканеры универсальные, которые, в свою очередь, будем делить на ручные и автоматизированные. Ручные неудобны в использовании и чаще всего не могут обеспечить удовлетворительное качество сканирования. Из автоматизированных предпочтительнее так называемые планшетные, позволяющие сканировать книги в не разобранном виде. Кроме того, они дают возможность сканировать включенные в документ графические объекты различной природы.
Непосредственным результатом работы сканеров является так называемый графический образ информации. Таким образом, в случае работы с текстами мы на выходе процесса сканирования получаем не структурированные данные, логически разбивающиеся на фразы, слова и символы, несущие самостоятельную смысловую нагрузку, а всего лишь переведенную в электронную форму информацию о внешнем виде отсканированного текстового фрагмента. В результате возникает Чрезвычайно сложная задача восстановления смыслового содержания текста по его изображению. Для ее решения предназначен специальный класс программного обеспечения, получивший название программ распознавания образов - OCR (от англ, optical character recognizer). В принципе, на рынке ПО присутствует немало пакетов данного назначения, но среди них реально удовлетворяют требованиям пользователя лишь несколько. В России явным лидером выступает пакет Fine Reader Системы распознавания используют одну из трех базовых технологий: шаблонную, признаковую или структурную. Шаблонные системы требуют предварительного обучения (при этом они, в принципе, не могут распознать объекты, слегка отличающиеся от шаблона), признаковые системы менее чувствительны к формам. Наконец, в структурных системах процесс распознавания строится на принципах выделения и обработки отдельных элементов изображения, поэтому они являются практически "шрифтонезависимыми".
Разработчиком пакета FineReader явилась российская компании ABBYY. Первая коммерческая версия была выпущена на рынок в июле 1993 г. Она была более или менее шрифтонезависимой, работала под Windows и распознавала двуязычные англо-русские тексты. На тот момент все эти свойства явились новинкой для нашей страны. Однако через полгода на российском рынке появился первый заметный конкурент - система CuneiForm компании Cognitive Technologies. Она и сейчас пользуется заметным спросом. Поэтому разработчики стали кардинально пересматривать систему, и в 1996 г. вышла версия FineReader 3.0. В ней была улучшена точность распознавания, реализованы пакетный режим, возможность работы с немецким, французским и украинским языками. По утверждению разработчиков, теперь удалось создать технологию, которая в большей степени обладает преимуществами и в меньшей степени - недостатками всех трех базовых технологий. По-видимому, это действительно так, поскольку пакет FineReader сейчас занимает львиную долю рынка.
Голосовой и рукописный ввод. Голосовой и рукописный способы пока не получили широкого применения, хотя изобретены и прошли первые испытания уже около 30 лет назад и имеют ряд специфических преимуществ. Основной причиной этого явилась дороговизна их разработки и реализации.
Голосовой ввод используется довольно давно в специализированных, в основном технических областях: управляющие системы, робототехника. В последние несколько лет в связи с сильным удешевлением его стали применять, например, в телефонии. Так, многие сотовые телефоны сейчас управляются голосом.
Появляются разноплановые системы распознавания речи. Одним из примеров может являться система автоматического распознавания русской речи "Горыныч".
Данная программа позволяет осуществлять голосовой ввод текстов в компьютер в любом редакторе, работающем под операционными системами Windows, а также осуществлять голосовое управление компьютером. В качестве ядра системы используется самая, пожалуй, известная и широко используемая американская программа Dragon Dictate.
Скорость голосового набора текстов зависит от производительности вашего компьютера и может достигать 500-700 печатных знаков в минуту, что значительно превышает скорость "слепого" метода печати. При этом система "Горыныч" осуществляет автоматический контроль правописания: в текстах, введенных с ее помощью, исключены орфографические ошибки. Во время работы вы по-прежнему можете пользоваться клавиатурой и мышью.
Рукописный ввод довольно специфичен. Он коммерчески внедряется всего лишь последние 2-3 года и реализуется, как правило, в небольших портативных компьютерах, по размеру схожих с записной книжкой, ввод данных организован с помощью устройства, называемого электронным пером. Его внешний вид максимально приближен к виду обычного карандаша. Такие компьютеры называются Handheld - "удерживаемый рукой". Основные платформы - Palm, PSion, Windows CE, Newton. Удобство их в том, что они легко транспортируемы, не требуют наличия клавиатуры, практически бесшумны при работе. Сейчас эта технология все быстрее набирает обороты. Так, например, PalmPilot довольно широко известен и применяется уже и в нашей стране не только профессионалами-программистами, но и специалистами иных профилей как удобная прикладная платформа, a Windows СЕ используется в реализации портативной системы автоматизированного перевода компании "ПРОМТ". В некоторых из компьютеров семейства Handheld реализован голосовой ввод. По-видимому, в ближайшем будущем рынок будет активно перераспределяться в пользу ввода без помощи клавиатуры или с минимальным использованием.

к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Знаете ли Вы, что низкочастотные электромагнитные волны частотой менее 100 КГц коренным образом отличаются от более высоких частот падением скорости электромагнитных волн пропорционально корню квадратному их частоты от 300 тысяч кмилометров в секунду при 100 кГц до примерно 7 тыс км/с при 50 Гц.

НОВОСТИ ФОРУМА

Форум Рыцари теории эфира


Рыцари теории эфира
 10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
Bourabai Research - Технологии XXI века Bourabai Research Institution