Обработка текстовой информации програмными средствами

Содержание:

Введение ………………………………………………………………….2

История возникновения программных средств обработки текста...3
Классификация программного обеспечения………………………..4
Различные форматы текстовых файлов……………………………10
Технологии анализа и поиска текстовой информации………........11
Публикация электронных документов с использованием сети......14
Программы оптического распознавания символов……………......17

Заключение ………………………………………………………......22

Список использованной литературы………………..………………...23

Введение.

Информация, выраженная с помощью естественных и формальных языков в письменной форме, называется текстовой.

В общем случае электронная система обработки текстовой информации состоит из видеотерминала, возможно, специально сконструированного или модифицированного для этих целей, некоторой внешней памяти для хранения специального программного обеспечения и файлов с текстовой информацией, а также печатающего устройства, позволяющего получать качественные копии созданных документов. Средства обработки текстовой информации, несмотря на их весьма широкий спектр, обеспечивают следующие основные функции:

создание и редактирование текстового документа, включая: вставки, удаления, копирование, перемещение текста в документе, поиск и замена элементов документа, добавление в документ текстовой и графической информации;
форматирование и распечатка документов с выбором размеров бумаги и форматов, а также с указанием числа копий и выводимой части документа;
выравнивание документа и/или его отдельных частей по указанным границам с автоматической обработкой переносов строк;
возможность создания документа по стандартному шаблону;
использование различных шрифтов распространенных алфавитов;
размещение в документе таблиц, диаграмм, рисунков и т.д.,

а также ряд других функций, состав которых определяется уровнем и назначением конкретного программного средства.

Актуальность написания данной курсовой работы вызвана той важной ролью, которая принадлежит программным средствам и технологиям обработки текстовой информации, т.к. ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей.

Целью написания данной курсовой работы является изучение теоретических основ средств и технологий обработки текстовой информации.

Для достижения поставленной цели были сформулированы следующие задачи:

– классификация программного обеспечения;

- основные функции текстовых редакторов и процессоров;

– характеристика форматов текстовых файлов;

– технологии анализа и поиска текстовой информации;

– изучение программ оптического распознавания текста и символов

История возникновения программных средств обработки текста

В начале 1975 года кинорежиссёр и программист из Нью-Йорка Майкл Шрейер стал обладателем комплекта для сборки микрокомпьютера «Альтаир8800». Он собрал машину и вскоре начал создавать и продавать небольшие программы, которые со временем получались всё более и более сложными, а потому и руководства к ним усложнялись. Шрейер пришёл к выводу, что целесообразно готовить эти руководства с помощью компьютера, а не печатать их на машинке.

Целый год он упорно трудился над новой программой, дав ей название «Электрический карандаш». Через некоторое время Шрейер понял, что подобная программа может заинтересовать обладателей микрокомпьютеров и создал 78 вариантов «Электрического карандаша», учитывая особенности целого ряда принтеров. Распространялась1 данная программа при помощи почты, потому что магазинов, занимающихся продажей программного обеспечения, практически не было.

В первые два года после своего выхода «Электрический карандаш» являлся, по сути дела, единственным текстовым редактором, доступным массовому потребителю. Однако по мере расширения рынка персональных компьютеров другие предприниматели тоже стали делать шаги в данном направлении.

Одним из них был житель Нью-Йорка Сеймур Рубинштейн, в планы которого входило создание текстового процессора. Совместно с программистом Джоном Барнэби при помощи многочисленных опросов было выяснено, какими возможностями должен обладать текстовый процессор, чтобы привлечь внимание потенциальных покупателей.

Так, в 1978 году появилась довольно удачная система, которая получила название WordStar, которая практически сразу же стала стандартом текстовых процессоров для микрокомпьютеров. «Электронный карандаш», WordStar являлись предшественниками популярнейшей сегодня компьютерной программы для обработки текстовой информации — Microsoft Office Word.

Классификация программного обеспечения

Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor), мощные текстовые редакторы с расширенным спектром функций называют также текстовыми процессорами (word-processor). Некоторые текстовые процессоры могут работать не только с текстами, но и с изображениями, например, редактировать иллюстрированные документы.

Основные функции текстовых редакторов и процессоров:

работа с файлами — сохранение текста на магнитном диске в виде файла, считывание текста (файла) с диска, копирование в редактируемый текст любого количества строк из другого файла, имеющегося на диске. Для надежности редактируемый файл должен периодически записываться на диск по команде пользователя или автоматически;
показ текста на экране — текст или его фрагмент можно показывать в специальном окне объемом 15 — 25 строк, организованном на экране монитора. Текст на экране можно передвигать вверх-вниз, влево - вправо с помощью клавиш, помеченных стрелками, а также быстро заменять фрагмент текста на другой фрагмент по номеру строки. Некоторые редакторы позволяют организовывать на экране несколько окон с различными файлами или с различными частями одного файла;
вывод на печать (если в составе компьютера имеется принтер). Обычно в редакторы, работающие со многими шрифтами и алфавитами, встроена функция вывода на печать, хотя некоторые простые редакторы сами на печать не выводят и требуется сначала записать текст на магнитный диск, выйти из редактора и вывести файл на печать средствами операционной системы;
вставка символов и строк в места, указанные курсором. При этом текст раздвигается;
перемещение части текста, помеченного соответствующим образом (обычно помечаются начало и конец фрагмента), на другое место, указанное курсором, или дублирование части текста в другом месте;
удаление символов и строк, указанных курсором и помеченных соответствующим образом. При этом текст сжимается. Обычно редакторы позволяют также восстанавливать ошибочно удаленные фрагменты текста;
контекстный поиск — поиск строки по заданному фрагменту текста;
выравнивание ширины — выравниваются правый край, левый край или «по центру строки» путем вставки дополнительных пробелов. Переносы слов при этом не делаются;
перенос слов. Простейшие редакторы не используют перенос слов и если слово не помещается в строке, то оно целиком переносится на следующую строку. Более мощные редакторы, «понимающие» грамматику языка текста, могут выполнять переносы слов. Это удобно при подготовке текста к типографской печати. Некоторые редакторы можно «обучать» переносу слов;
резка и склейка строк. Можно отделить часть строки и перенести в следующую строку и, наоборот, строку «подклеить» к предыдущей строке;
замена одного фрагмента на другой. Можно произвести замену одного фрагмента на другой, например имя «Pascal» заменить во всем тексте на «Basic», автоматически или полуавтоматически (с контролем); можно заменить прописные буквы на строчные, один год на другой и т.п.;
вставка заготовок. Можно вставлять заранее заготовленные фрагменты (имена, служебные слова языков программирования) в предварительно помеченные места текста;
орфографический и синтаксический контроль текста с указанием цветом или подчеркиванием мест ошибок или непонятных редактору слов и выражений. «Обучаемые» редакторы можно научить понимать эти слова и выражения в дальнейшем.

Текстовые редакторы разделяются на три группы:

1) редакторы общего назначения (сюда относятся, например, редакторы «Лексикон», MS Word, WordPerfect и др.);

2) редакторы научных текстов (ChiWriter, ТеХ и др.);

3) редакторы исходных текстов программ (например, Multi-Edit или встроенные редакторы систем программирования для языков Бейсик, Фортран, Си и др.).

По сравнению с редакторами общего назначения специализированные редакторы позволяют легче готовить и редактировать соответствующие тексты: например, редакторы научных текстов удобнее для набора математических или химических формул.

Многооконный редактор «Лексикон» - один из простейших текстовых редакторов отечественной разработки для несложных документов на русском или английском языке, имеющий ряд версий. Ранее редактор «Лексикон» работал в MS DOS, последние версии редактора предназначены для ОС Windows. Имеются так называемый «базовый вариант» редактора и более мощный профессиональный вариант для работы с пакетом MS Office в ОС Windows 95, 98, NT. «Лексикон» позволяет открыть на экране монитора до десяти окон, в каждом из которых может редактироваться свой документ.

В редакторе «Лексикон» предусмотрены следующие возможности:

просмотр и исправление текста;
автоматическое форматирование абзацев;
автоматическое разбиение текста на страницы;
перемещение, выделение, удаление, вставка фрагментов текста;
создание оглавлений;
использование подчеркиваний, курсива, полужирного шрифта;
одновременное редактирование нескольких документов и обмен материалами между окнами;
работа в графическом режиме;
печать текста на принтерах разных типов;
печать верхних и нижних индексов, греческих букв, математических символов;
просмотр на экране вида напечатанного материала до печати;
набор текста в несколько колонок;
автоматическое сохранение редактируемого документа через несколько строк (страниц);
проверка орфографии;
контекстный поиск.

Редактор «Лексикон» быстро вытиснился более мощными (но и более сложными) редакторами.

Текстовый редактор MS DOS Editor может применяться только для редактирования текстов файлов канонического формата, состоящих лишь из букв и цифр и не имеющих изображений. Редактор может вызываться из MS DOS и Windows и по своим возможностям близок к «Лексикону», но имеет более удобный интерфейс.

Текстовый редактор Windows 95 NotePad («Блокнот») — простейший редактор, входящий в Windows. Имеет ограниченные возможности, но очень простой для изучения и использования. Среди других средств редактирования, используемых в ОС Windows, можно отметить текстовые процессоры Word Pad, Word 6.0, Word 95 (Word 7.0), Word 97 (Word 8.0), Word 2000 (Word 9.0), Word ХР, Word 2003, Word 2007. Многооконные процессоры, предназначенные для ввода, редактирования и форматирования текстов, могут работать одновременно с несколькими документами, каждый из которых отображается в своем окне. Можно менять размеры окон, а также вид и начертание шрифтов, оформлять текст в несколько столбцов, выполнять многие другие операции.

Многооконный текстовый процессор MS Word 2003 - один из самых совершенных, входит в пакет MS Office 2003 и имеет сотни операций над текстовой и графической информацией. Как и ОС Windows, построен по оконной технологии с использованием ниспадающих меню и пиктограмм. Обладает универсальностью, позволяет достаточно быстро и с высоким качеством готовить практически любые документы: от деловой записки или письма до макета книги. Имеет множество технологических приемов редактирования текстово-графической информации, широкий набор шрифтов разной формы и размера, проверку орфографии и грамматики, автоматический перенос слов. Можно делать ссылки в тексте (это позволяют не все редакторы), работать с готовыми шаблонами документов, отключать часть средств или модифицировать используемые средства для ускорения работы. В текст можно включать рисунки, которые можно редактировать, изменяя масштаб, форму, качество изображения; формировать «обтекание» рисунка текстом, использовать рисунок в качестве фона. Позволяет вставлять в текст таблицы различного размера и сложности, поворачивать текст на странице, вставлять номера страниц и многое другое. Благодаря этим возможностям с помощью редактора Word может выполняться верстка документов, как это делается в типографиях. Имеются средства, облегчающие подготовку документов для сети Internet.

Усовершенствованием рассмотренных выше редакторов Word является более удобный в работе текстовый процессор WordPerfect, имеющий ряд версий. Редактор контролирует правописание, вычерчивает отрезки линий, оформляет рамки, формирует ссылки, оглавления, указатели, имеет много других возможностей.

Универсальность процессоров Word сопряжена, однако, и с некоторыми недостатками, к которым относятся трудности освоения и относительно низкая производительность при редактировании простых текстов. Поэтому для подготовки простых однородных текстов иногда целесообразно сначала воспользоваться несложными редакторами типа MS DOS Editor или «Лексикон», затем отформатировать полученный текст для Word и уже с помощью Word улучшить его в изобразительном отношении. При наличии в тексте большого количества сложных математических или химических формул более производительным может быть, например, редактор ChiWriter. Наконец, редакторы Word не подходят для подготовки такой сложной полиграфической продукции, как атласы, высококачественные рисунки (копии фотографий), иллюстрированные альбомы.

Различные форматы текстовых файлов (документов)

Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы - программы-конверторы. В хороших текстовых редакторах конверторы входят в состав системы.

Рассмотрим некоторые наиболее распространенные форматы текстовых файлов:

Только текст (Text Only) (ТХТ). Наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца. Применяют этот формат для хранения документов, которые должны быть прочитаны в приложениях, работающих в различных операционных системах.
Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все форматирование. Преобразует управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями, в результате информационный объем файла существенно возрастает.
Документ Word (DOC). Оригинальный формат используемой в настоящее время версии Word 2000/2003. Полностью сохраняет форматирование. Использует 16-битную кодировку символов, что требует использования шрифтов Unicode.
Документ Word (DOCX). Оригинальный формат версии Word 2007. Улучшены возможности. Не поддерживается более ранними версиями Word; имеется возможность сохранить документ в формате Word 2003, но часть форматирования (касающаяся новых возможностей версии 2007) может быть утеряна.
Works 4.0 для Windows (WPS). Оригинальный формат интегрированной системы Works 4.0. При преобразовании из формата Word форматирование сохраняется не полностью.
HTML-документ (НТМ, НТМL). Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.
Формат Лексикон (LX). Оригинальный формат отечественного текстового редактора Лексикон.2? В настоящее время программа считается устаревшей (используется редко, на старых машинах).
PDF-формат (Portable Document Format) – электронные публикации, широко распространены в сети Интернет. Для просмотра таких файлов подходит программа Adobe Reader и др.

Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.

Технологии анализа и поиска текстовой информации

Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.

Тематический анализ текста формирует список ключевых понятий - тем документа, ранжированных по значимости. Позволяет производить поиск документов по интересующей теме, сравнивать документы по содержанию, исследовать тематический состав и временную динамику информационных потоков.

Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов. Позволяет исследовать семантическое окружение целевых объектов (персон, организаций, событий) в документах; выявлять подкрепления известных и неизвестных связей, расширять и уточнять поисковые запросы.

Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержание текста.

Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам.

Нечеткий поиск позволяет расширять запрос близкими по написанию словами из коллекции документов, по которым ведется поиск. Способен быстро найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками нескольких символов.

Лингвистическое обеспечение включает в себя средства морфологического и синтаксического анализа, а также тезаурус общей лексики русского языка.

Технологии реализованы в пакете программных модулей, готовых для встраивания в информационно-поисковые системы. Основное внедрение и апробация технологий уже состоялись в системе Russian Context Optimizer(TM) для СУБД Oracle®.

Russian Context Optimizer(TM) разрабатывается компанией "Гарант-Парк-Интернет" с 1997 г. В течение последних лет продукт непрерывно совершенствовался, расширялись функциональные возможности, повышались надежность и производительность программного обеспечения. RCO (TM) позволяет значительно расширить возможности Oracle® interMedia в русскоязычных БД. В настоящее время существуют коммерческие версии этого продукта для Windows и различных UNIX платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX). Основные возможности Russian Context Optimizer:

Поиск документов с учетом всех грамматических форм слов запроса, поиск слов, близких по написанию - нечеткий поиск; поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
Расширение запроса синонимами, более общими и более частными понятиями на основе тезауруса русского языка;
Выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими темами;
Составление общих и тематических рефератов документов;
Автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;
Обеспечение полноценной работы с БД, содержащими тексты на нескольких языках;
Поддержка всех кодовых страниц русского языка.

Публикация электронных документов с использованием сети

Гипертекст - это способ управления данными, при котором последние организованы в виде сети узлов, объединенных между собой связями. Узлы могут быть текстовыми документами, графическими картинками, видеофильмами, аудиозаписями и т. п. Понятие «гипер-текст» было чрезвычайно популярно в конце 80-х, когда впервые широко стали применяться гипертекстовые информационные системы. Сам термин «гипертекст» ввел в обращение Тед Нельсон (Ted Nelson) в 60-х годах нашего века. В то время он руководил разработкой исследовательской гипертекстовой системы Intermedia в университете Брауна (США). Кроме слова «гипертекст», Нельсон разработал теоретические основы гипертекстовой технологии и заложил базу для математического исследования гипертекстовых структур.

Система типа гипермедиа обеспечивает возможность работы с графическими картинками, фотографиями, фильмами, музыкой и речью. Следует отметить, что термин «гипермедиа», который повсеместно применяется в западной литературе, не нашел столь же широкого распространения в отечественных публикациях. Многие специалисты предпочитают называть термином «гипертекст» все информационные системы, построенные по принципу сети информационных узлов.

Реализация новых информационных технологий, связанных с опубликованием в сети электронных документов, в настоящее время выполнена в виде:

электронных досок объявлений;
электронной почты;
файловых архивов Internet (или FTP-архивов - File Transfer Protocol);
«всемирной паутины» Internet - World Wide Web.
Usenet - это огромная электронная доска объявлений, разделенная на части согласно интересам ее пользователей. Каждая группа новостей имеет свое название. Система названий имеет иерархическую структуру. Например, группа новостей, описывающих информационные технологии Internet, называется comp.infosystems, что означает - группа «компьютеры», подгруппа «информационные системы». В свою очередь, каждая подгруппа может быть разбита на новые подгруппы.

Электронная почта является другим важным средством обмена информацией в Internet. Она появилась приблизительно в то же время, что и Usenet. Долгое время Usenet даже использовала для передачи новостей каналы электронной почты. Главной задачей электронной почты является обеспечение надежной и быстрой доставки корреспонденции.

Преимущества электронной почты перед обычной очевидны:

скорость доставки. Если абонент включен в глобальную сеть Internet непосредственно через IP-соединение, то он получит послание через несколько секунд. Если абонент имеет коммутируемое соединение с Internet, то скорость доставки ограничивается периодичностью его подключения, которую он определяет сам. В любом случае, пользователь точно получит послание в течение дня.

Долгое время считалось, что электронная почта пригодна только для передачи текстовых сообщений, поэтому ее не рассматривали в качестве серьезного конкурента обычной почты при распространении подписных изданий. Такое мнение было основано на том факте, что передача больших файлов по коммутируемой линии дело непростое. Как правило, наша телефонная сеть не позволяет передать по линии связи файл размером в один мегабайт за один сеанс связи. Однако ситуация постепенно меняется, а это значит, что по почте становится возможной передача и графики, и видео, и другой нетекстовой информации.

дешевизна по сравнению с обычной почтой. Особенно ясно это становится при отправке и получении международной корреспонденции. Разница в тарифах достигает одного-двух порядков, и это понятно: не надо жечь керосин и гнать на другой конец света самолет или океанский лайнер. Тот же эффект просматривается и при сравнении с такими средствами связи, как телефон или факс. Для того чтобы не терять качество факсовой связи, многие почтовые сети используют специальные программы - факсовые серверы. Суть работы факсового сервера заключается в том, что пользователь вместо того, чтобы связываться по международной телефонной связи для передачи факсового сообщения, отправляет его по электронной почте на факсовый аппарат, который находится недалеко от места получения факса. По мнению специалистов, стоить такое отправление будет при этом гораздо дешевле, чем непосредственная доставка.

Файловые архивы Internet (или FTP-архивы - File Transfer Protocol) - одна из технологий опубликования в сети электронных документов. По этой технологии осуществляются специальные проекты, направленные на создание электронных копий знаменитых книг (Библия, «Песнь о Гайавате», «Приключения Шерлока Холмса», «Приключения Тома Сойера», «Алиса в стране чудес» и др.).

World Wide Web («Всемирная паутина») обеспечивает хранение, обработку и распространение публикаций в виде:

рекламных страниц;
электронной периодики;
справочников, каталогов;
периодических иллюстрированных журналов;
электронных газет;
различного рода энциклопедии;
учебников (гипермедийные издания в рамках виртуального публичного университета).

Программы оптического распознавания символов

Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).

Системы оптического распознавания символов (OCR - Optical character recognition) стали неотъемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.

Работа сканеров основана на принципах функционирования фотомножительных устройств:

изображение, считываемое сканером, хранится в электронном виде;
сканер не может отличать текст от рисунков и представляет их в виде отдельных графических фрагментов из черных и белых элементов.

Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания текста (OCR) можно:

отделить текст от рисунков;
записать этот текст в формате файла текстового процессора.

Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.

Основные технологические требования к OCR при использовании компьютерных издательских систем:

умение распознавать начало и конец отдельных символов, поскольку сам сканер лишь оцифровывает изображение и, кроме того, многие шрифты являются пропорциональными;
возможность работать с большим диапазоном гарнитур, кеглей, начертаний шрифтов, которые могут использоваться при полиграфическом оформлении документа;
возможность работать с оригиналами различного качества (в том числе созданными типографским способом или на лазерном принтере);
возможность распознавать многоколонный текст;
возможность распознавать текст, имеющий в состае таблицы и рисунки;
достаточно высокая достоверность распознавания (не менее 90-96 %).

Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания. В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное совпадение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”.

В случае интеллектуальной системы — более мощном методе преобразования считанного документа в текстовый файл — программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения символа по контуру система выполняет ряд перекрестных проверок полученного текста.

Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознаванию любых символов любых гарнитур. Для обучения программы конкретной гарнитуре нужно отсканировать эталонное изображение с последующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регулярно использоваться, стоит потратить пару часов на обучение. Программы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, составляя при этом текстовый файл. Это означает, что можно улучшить работу такой программы, обучив ее всему набору символов используемых в документе гарнитур. Поскольку программа теперь будет знать форму каждого символа, уменьшается вероятность ошибки из-за минимальной работы по угадыванию формы.

Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарнитуры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода. Интеллектуальный пакет за одну минуту позволяет отсканировать и распознать текст объемом 1200 символов. При этом созданный текстовый файл содержит обычно не более двух неверных символов — достоверность распознавания порядка 99.83%. Среди недостатков таких пакетов следует отметить следующее. Поскольку некоторые из них не могут обучаться чтению конкретных гарнитур, отсутствие надлежащей гибкости может не позволить им распознать гарнитуры необычного вида.

Конечный результат работы пакета OCR независимо от его типа представляет собой файл формата ASCII (или ANSI), а в ряде случаев даже отформатированный файл для таких популярных текстовых процессоров, как Microsoft Word. Новейшие программы позволяют сэкономить время, записывая текст нескольких последовательных страниц в один файл. Кроме того, использование сканера с механизмом автоматической подачи отдельных листов позволяет организовать непрерывный ввод многостраничного документа.

Качество работы программ OCR зависит от ряда основных факторов:

необходимо максимально хорошее качество оригинала. В случае некачественных изображений интеллектуальные пакеты попытаются сделать что-то, но результат вас не впечатлит. Обучаемые же программы в большинстве случаев просто не сработают;
для достижения лучших результатов необходимо оцифровывать изображения с разрешением порядка 600-800 точек на дюйм, что позволяет с высокой точностью определять края символов и существенно облегчает программе OCR распознавание формы отдельных букв;
необходимо использовать высокопроизводительное оборудование. В процессе оптического распознавания символов создаются большие массивы данных. Для успешной работы программ OCR нужен мощный компьютер с большим объемом оперативной и дисковой памяти, что подразумевает вместе со стоимостью программного обеспечения немалые затраты;
при необходимости вводить большие объемы текста, отпечатанного необычной гарнитурой, предпочтительно использовать обучаемый пакет.

Заключение.

Развитие индустрии систем электронного документооборота требует новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусственного интеллекта. Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.

Сегодня актуальна фраза: “Кто владеет информацией, тот владеет миром”. Умение овладевать новой информацией и корректно располагать ее при подготовке документов – одно из условий совершенствования информационной культуры человека. А понятие информационной культуры весьма многозначно и содержит в себе множество видов работы, ключевым из которых является обработка текста.

Список литературы

Дональд Кнут Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. — 2-е изд. — М.: Вильямс, 2007. - с. 824

Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн Алгоритмы: построение и анализ. 2-е изд. -М.: Вильямс, 2006. - с. 1296

Дайтибегов Д.М., Черноусов Е.А. Основы алгоритмизации и алгоритмические языки. - М.: Финансы и статистика, 1992. – 300 с.

Куртер Дж., Маркви А. Microsoft Office 2000: учебный курс. - Спб: Питер, 2000. - 640 с.

Могилев А.В., Пак Н.И., Хеннер Е.К. Информатика: учебное пособие для вузов / под ред. Хеннера Е.К. - М.: Изд. центр "Академия", 2000, 346 с.

Информатика: учебник / под ред. Н.В. Макаровой, -М.: Финансы и статистика, 2005

Информатика: Практикум по технологии работы на компьютере/ Под ред. Н.В. Макаровой, - М.: Финансы и статистика, 2005

Информатика. Лабораторный практикум для студентов 2 курса всех специальностей. –М.: ВЗФЭИ, 2006

Обработка текстовой информации програмными средствами

Информация о работе

Помогла работа? Поделись ссылкой

Есть ненужная работа?

Информация о документе

Можно ли скачать документ с работой

Предыдущий документ

Похожие документы

Следующий документ