s
Sesiya.ru

Обработка текстовой информации програмными средствами

Информация о работе

Тема
Обработка текстовой информации програмными средствами
Тип Курсовая работа
Предмет Информатика
Количество страниц 23
Язык работы Русский язык
Дата загрузки 2015-01-04 14:21:44
Размер файла 50.46 кб
Количество скачиваний 154
Скидка 15%

Поможем подготовить работу любой сложности

Заполнение заявки не обязывает Вас к заказу


Скачать файл с работой

Помогла работа? Поделись ссылкой

Содержание:
Введение ………………………………………………………………….2
1. История возникновения программных средств обработки текста...3
2. Классификация программного обеспечения………………………..4
3. Различные форматы текстовых файлов……………………………10
4. Технологии анализа и поиска текстовой информации………........11
5. Публикация электронных документов с использованием сети......14
6. Программы оптического распознавания символов……………......17
Заключение ………………………………………………………......22
Список использованной литературы………………..………………...23















Введение.
Информация, выраженная с помощью естественных и формальных языков в письменной форме, называется текстовой.
В общем случае электронная система обработки текстовой информа-ции состоит из видеотерминала, возможно, специально сконструирован-ного или модифицированного для этих целей, некоторой внешней памяти для хранения специального программного обеспечения и файлов с тексто-вой информацией, а также печатающего устройства, позволяющего по-лучать качественные копии созданных документов. Средства обработки текстовой информации, несмотря на их весьма широкий спектр, обеспечи-вают следующие основные функции:
 создание и редактирование текстового документа, включая: вставки, удаления, копирование, перемещение текста в документе, поиск и замена элементов документа, добавление в документ текстовой и графической информации;
 форматирование и распечатка документов с выбором размеров бума-ги и форматов, а также с указанием числа копий и выводимой части доку-мента;
 выравнивание документа и/или его отдельных частей по указанным границам с автоматической обработкой переносов строк;
 возможность создания документа по стандартному шаблону;
 использование различных шрифтов распространенных алфавитов;
 размещение в документе таблиц, диаграмм, рисунков и т.д.,
а также ряд других функций, состав которых определяется уровнем и назначением конкретного программного средства.
Актуальность написания данной курсовой работы вызвана той важ-ной ролью, которая принадлежит программным средствам и технологиям обработки текстовой информации, т.к. ввод информации с бумаги в ком-пьютер является в настоящее время часто выполняемой задачей.

Целью написания данной курсовой работы является изучение теоре-тических основ средств и технологий обработки текстовой информации.
Для достижения поставленной цели были сформулированы следующие задачи:
– классификация программного обеспечения;
- основные функции текстовых редакторов и процессоров;
– характеристика форматов текстовых файлов;
– технологии анализа и поиска текстовой информации;
– изучение программ оптического распознавания текста и символов

1. История возникновения программных средств обработки тек-ста
В начале 1975 года кинорежиссёр и программист из Нью-Йорка Майкл Шрейер стал обладателем комплекта для сборки микрокомпьютера «Альта-ир 8800». Он собрал машину и вскоре начал создавать и продавать неболь-шие программы, которые со временем получались всё более и более слож-ными, а потому и руководства к ним усложнялись. Шрейер пришёл к выво-ду, что целесообразно готовить эти руководства с помощью компьютера, а не печатать их на машинке.
Целый год он упорно трудился над новой программой, дав ей название «Электрический карандаш». Через некоторое время Шрейер понял, что по-добная программа может заинтересовать обладателей микрокомпьютеров и создал 78 вариантов «Электрического карандаша», учитывая особенности целого ряда принтеров. Распространялась данная программа при помощи почты, потому что магазинов, занимающихся продажей программного обес-печения, практически не было.
В первые два года после своего выхода «Электрический карандаш» яв-лялся, по сути дела, единственным текстовым редактором, доступным мас-совому потребителю. Однако по мере расширения рынка персональных компьютеров другие предприниматели тоже стали делать шаги в данном на-правлении.
Одним из них был житель Нью-Йорка Сеймур Рубинштейн, в планы которого входило создание текстового процессора. Совместно с программи-стом Джоном Барнэби при помощи многочисленных опросов было выясне-но, какими возможностями должен обладать текстовый процессор, чтобы привлечь внимание потенциальных покупателей.
Так, в 1978 году появилась довольно удачная система, которая получи-ла название WordStar, которая практически сразу же стала стандартом тек-стовых процессоров для микрокомпьютеров. «Электронный карандаш», WordStar являлись предшественниками популярнейшей сегодня компью-терной программы для обработки текстовой информации — Microsoft Office Word.
2. Классификация программного обеспечения
Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor), мощные текстовые редакторы с расширенным спектром функций называют также текстовыми процессорами (word-processor). Некоторые текстовые процессоры могут работать не только с текстами, но и с изо-бражениями, например, редактировать иллюстрированные документы.
Основные функции текстовых редакторов и процессоров:
 работа с файлами — сохранение текста на магнитном диске в виде файла, считывание текста (файла) с диска, копирование в редактируемый текст любого количества строк из другого файла, имеющегося на диске. Для надежности редактируемый файл должен периодически записываться на диск по команде пользователя или автоматически;
 показ текста на экране — текст или его фрагмент можно по-казывать в специальном окне объемом 15 — 25 строк, органи-зованном на экране монитора. Текст на экране можно пере-двигать вверх-вниз, влево - вправо с помощью клавиш, поме-ченных стрелками, а также быстро заменять фрагмент текста на другой фрагмент по номеру строки. Некоторые редакторы позволяют организовывать на экране несколько окон с раз-личными файлами или с различными частями одного файла;
 вывод на печать (если в составе компьютера имеется прин-тер). Обычно в редакторы, работающие со многими шрифта-ми и алфавитами, встроена функция вывода на печать, хотя некоторые простые редакторы сами на печать не выводят и требуется сначала записать текст на магнитный диск, выйти из редактора и вывести файл на печать средствами операци-онной системы;
 вставка символов и строк в места, указанные курсором. При этом текст раздвигается;
 перемещение части текста, помеченного соответствующим образом (обычно помечаются начало и конец фрагмента), на другое место, указанное курсором, или дублирование части текста в другом месте;
 удаление символов и строк, указанных курсором и помечен-ных соответствующим образом. При этом текст сжимается. Обычно редакторы позволяют также восстанавливать оши-бочно удаленные фрагменты текста;
 контекстный поиск — поиск строки по заданному фрагменту текста;
 выравнивание ширины — выравниваются правый край, левый край или «по центру строки» путем вставки дополнительных пробелов. Переносы слов при этом не делаются;
 перенос слов. Простейшие редакторы не используют перенос слов и если слово не помещается в строке, то оно целиком пе-реносится на следующую строку. Более мощные редакторы, «понимающие» грамматику языка текста, могут выполнять переносы слов. Это удобно при подготовке текста к типо-графской печати. Некоторые редакторы можно «обучать» пе-реносу слов;
 резка и склейка строк. Можно отделить часть строки и пере-нести в следующую строку и, наоборот, строку «подклеить» к предыдущей строке;
 замена одного фрагмента на другой. Можно произвести заме-ну одного фрагмента на другой, например имя «Pascal» заме-нить во всем тексте на «Basic», автоматически или полуавто-матически (с контролем); можно заменить прописные буквы на строчные, один год на другой и т.п.;
 вставка заготовок. Можно вставлять заранее заготовленные фрагменты (имена, служебные слова языков программирова-ния) в предварительно помеченные места текста;
 орфографический и синтаксический контроль текста с указа-нием цветом или подчеркиванием мест ошибок или непонят-ных редактору слов и выражений. «Обучаемые» редакторы можно научить понимать эти слова и выражения в дальней-шем.
Текстовые редакторы разделяются на три группы:
1) редакторы общего назначения (сюда относятся, например, ре-дакторы «Лексикон», MS Word, WordPerfect и др.);
2) редакторы научных текстов (ChiWriter, ТеХ и др.);
3) редакторы исходных текстов программ (например, Multi-Edit или встроенные редакторы систем программирования для языков Бей-сик, Фортран, Си и др.).
По сравнению с редакторами общего назначения специализирован-ные редакторы позволяют легче готовить и редактировать соответст-вующие тексты: например, редакторы научных текстов удобнее для на-бора математических или химических формул.
Многооконный редактор «Лексикон» - один из простейших тексто-вых редакторов отечественной разработки для несложных документов на русском или английском языке, имеющий ряд версий. Ранее редактор «Лексикон» работал в MS DOS, последние версии редактора предназна-чены для ОС Windows. Имеются так называемый «базовый вариант» ре-дактора и более мощный профессиональный вариант для работы с паке-том MS Office в ОС Windows 95, 98, NT. «Лексикон» позво¬ляет открыть на экране монитора до десяти окон, в каждом из которых может редак-тироваться свой документ.
В редакторе «Лексикон» предусмотрены следующие возможности:
 просмотр и исправление текста;
 автоматическое форматирование абзацев;
 автоматическое разбиение текста на страницы;
 перемещение, выделение, удаление, вставка фрагментов тек-ста;
 создание оглавлений;
 использование подчеркиваний, курсива, полужирного шриф-та;
 одновременное редактирование нескольких документов и об-мен материалами между окнами;
 работа в графическом режиме;
 печать текста на принтерах разных типов;
 печать верхних и нижних индексов, греческих букв, матема-тических символов;
 просмотр на экране вида напечатанного материала до печати;
 набор текста в несколько колонок;
 автоматическое сохранение редактируемого документа через несколько строк (страниц);
 проверка орфографии;
 контекстный поиск.
Редактор «Лексикон» быстро вытиснился более мощными (но и бо-лее сложными) редакторами.
Текстовый редактор MS DOS Editor может применяться только для редактирования текстов файлов канонического формата, состоящих лишь из букв и цифр и не имеющих изображений. Редактор может вы-зываться из MS DOS и Windows и по своим возможностям близок к «Лексикону», но имеет более удобный интерфейс.
Текстовый редактор Windows 95 NotePad («Блокнот») — простей-ший редактор, вхо¬дящий в Windows. Имеет ограниченные возможности, но очень простой для изучения и использования. Среди других средств редактирования, используемых в ОС Windows, можно отметить тексто-вые процессоры Word Pad, Word 6.0, Word 95 (Word 7.0), Word 97 (Word 8.0), Word 2000 (Word 9.0), Word ХР, Word 2003, Word 2007. Много-оконные процессоры, предназначенные для ввода, редактирования и форматирования текстов, могут работать одновременно с несколькими документами, каждый из которых отображается в своем окне. Можно менять размеры окон, а также вид и начертание шрифтов, оформлять текст в несколько столбцов, выполнять многие другие операции.
Многооконный текстовый процессор MS Word 2003 - один из са-мых совершенных, входит в пакет MS Office 2003 и имеет сотни опера-ций над текстовой и графической информацией. Как и ОС Windows, по-строен по оконной технологии с использованием ниспадающих меню и пиктограмм. Обладает универсальностью, позволяет достаточно быстро и с высоким качеством готовить практически любые документы: от де-ловой записки или письма до макета книги. Имеет множество техноло-гических приемов редактирования текстово-графической информации, широкий набор шрифтов разной формы и размера, проверку орфографии и грамматики, автоматический перенос слов. Можно делать ссылки в тексте (это позволяют не все редакторы), работать с готовыми шаблона-ми документов, отключать часть средств или мо¬дифицировать исполь-зуемые средства для ускорения работы. В текст можно включать рисун-ки, которые можно редактировать, изменяя масштаб, форму, качество изображения; формировать «обтекание» рисунка текстом, использовать рисунок в качестве фона. Позволяет вставлять в текст таблицы различ-ного размера и сложности, поворачивать текст на странице, вставлять номера страниц и многое другое. Благодаря этим возможностям с помо-щью редактора Word может выполняться верстка документов, как это делается в типографиях. Имеются средства, облегчающие подготовку документов для сети Internet.
Усовершенствованием рассмотренных выше редакторов Word явля-ется более удобный в работе текстовый процессор WordPerfect, имею-щий ряд версий. Редактор контролирует правописание, вычерчивает от-резки линий, оформляет рамки, формирует ссылки, оглавления, указате-ли, имеет много других возможностей.
Универсальность процессоров Word сопряжена, однако, и с некото-рыми недостатками, к которым относятся трудности освоения и относи-тельно низкая производительность при редактировании простых тек-стов. Поэтому для подготовки простых однородных текстов иногда це-лесообразно сначала воспользоваться несложными редакторами типа MS DOS Editor или «Лексикон», затем отформатировать полученный текст для Word и уже с помощью Word улучшить его в изобразительном отношении. При наличии в тексте большого количества сложных мате-матических или химических формул более производительным может быть, например, редактор ChiWriter. Наконец, редакторы Word не под-ходят для подготовки такой сложной полиграфической продукции, как атласы, высо¬кокачественные рисунки (копии фотографий), иллюстриро-ванные альбомы.
3. Различные форматы текстовых файлов (документов)
Формат файла определяет способ хранения текста в файле. Про-стейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управ-ляющие числовые коды, которые обеспечивают форматирование текста.
Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и ориги-нальные форматы, которые используются отдельными текстовыми ре-дакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы - программы-конверторы. В хороших текстовых редакторах конверторы входят в состав системы.
Рассмотрим некоторые наиболее распространенные форматы тек-стовых файлов:
• Только текст (Text Only) (ТХТ). Наиболее универсальный формат. Сохраняет текст без форматирования, в текст вставляются только управляющие символы конца абзаца. Применяют этот формат для хранения документов, которые должны быть прочитаны в прило-жениях, работающих в различных операционных системах.
• Текст в формате RTF (Rich Text Format) (RTF). Универсальный формат, который сохраняет все форматирование. Преобразует управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями, в результате инфор-мационный объем файла существенно возрастает.
• Документ Word (DOC). Оригинальный формат используемой в на-стоящее время версии Word 2000/2003. Полностью сохраняет форматирование. Использует 16-битную кодировку символов, что требует использования шрифтов Unicode.
• Документ Word (DOCX). Оригинальный формат версии Word 2007. Улучшены возможности. Не поддерживается более ранними версиями Word; имеется возможность сохранить документ в фор-мате Word 2003, но часть форматирования (касающаяся новых возможностей версии 2007) может быть утеряна.
• Works 4.0 для Windows (WPS). Оригинальный формат интегриро-ванной системы Works 4.0. При преобразовании из формата Word форматирование сохраняется не полностью.
• HTML-документ (НТМ, НТМL). Формат хранения Web-страниц. Содержит управляющие коды (тэги) языка разметки гипертекста.
• Формат Лексикон (LX). Оригинальный формат отечественного текстового редактора Лексикон.
• PDF-формат (Portable Document Format) – электронные публика-ции, широко распространены в сети Интернет. Для просмотра та-ких файлов подходит программа Adobe Reader и др.
Выбор требуемого формата текстового документа или его преобра-зование производится в процессе сохранения файла.
4. Технологии анализа и поиска текстовой информации
Доступные сегодня вычислительные мощности позволяют приме-нить широкий класс методов для обработки больших массивов докумен-тов, эффективно решая задачи поиска, классификации, кластерного ана-лиза, выявления скрытых закономерностей и другие.

Тематический анализ текста формирует список ключевых понятий - тем документа, ранжированных по значимости. Позволяет производить поиск документов по интересующей теме, сравнивать документы по со-держанию, исследовать тематический состав и временную динамику информационных потоков.
Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов. По-зволяет исследовать семантическое окружение целевых объектов (пер-сон, организаций, событий) в документах; выявлять подкрепления из-вестных и неизвестных связей, расширять и уточнять поисковые запро-сы.
Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержа-ние текста.
Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифи-цировать документы по рубрикам.
Нечеткий поиск позволяет расширять запрос близкими по написа-нию словами из коллекции документов, по которым ведется поиск. Спо-собен быстро найти все лексикографически близкие слова, отличающие-ся заменами, пропусками и вставками нескольких символов.
Лингвистическое обеспечение включает в себя средства морфоло-гического и синтаксического анализа, а также тезаурус общей лексики русского языка.
Технологии реализованы в пакете программных модулей, готовых для встраивания в информационно-поисковые системы. Основное вне-дрение и апробация технологий уже состоялись в системе Russian Context Optimizer(TM) для СУБД Oracle®.
Russian Context Optimizer(TM) разрабатывается компанией "Гарант-Парк-Интернет" с 1997 г. В течение последних лет продукт непрерывно совершенствовался, расширялись функциональные возможности, повы-шались надежность и производительность программного обеспечения. RCO (TM) позволяет значительно расширить возможности Oracle® interMedia в русскоязычных БД. В настоящее время существуют ком-мерческие версии этого продукта для Windows и различных UNIX плат-форм (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX). Основные возможности Russian Context Optimizer:
1. Поиск документов с учетом всех грамматических форм слов запроса, поиск слов, близких по написанию - нечеткий поиск; поиск документов по ключевым темам, которые автоматиче-ски выделяются при индексировании;
2. Расширение запроса синонимами, более общими и более ча-стными понятиями на основе тезауруса русского языка;
3. Выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими темами;
4. Составление общих и тематических рефератов документов;
5. Автоматическое построение иерархических рубрикаторов и классификация документов по рубрикам;
6. Обеспечение полноценной работы с БД, содержащими тексты на нескольких языках;
7. Поддержка всех кодовых страниц русского языка.
5. Публикация электронных документов с использованием сети
Гипертекст - это способ управления данными, при котором послед-ние организованы в виде сети узлов, объединенных между собой связя-ми. Узлы могут быть текстовыми документами, графическими картин-ками, видеофильмами, аудиозаписями и т. п. Понятие «гипер-текст» бы-ло чрезвычайно популярно в конце 80-х, когда впервые широко стали применяться гипертекстовые информационные системы. Сам термин «гипертекст» ввел в обращение Тед Нельсон (Ted Nelson) в 60-х годах нашего века. В то время он руководил разработкой исследовательской гипертекстовой системы Intermedia в университете Брауна (США). Кро-ме слова «гипертекст», Нельсон разработал теоретические основы ги-пертекстовой технологии и заложил базу для математического исследо-вания гипертекстовых структур.
Система типа гипермедиа обеспечивает возможность работы с гра-фическими картинками, фотографиями, фильмами, музыкой и речью. Следует отметить, что термин «гипермедиа», который повсеместно при-меняется в западной литературе, не нашел столь же широкого распро-странения в отечественных публикациях. Многие специалисты предпо-читают называть термином «гипертекст» все информационные системы, построенные по принципу сети информационных узлов.
Реализация новых информационных технологий, связанных с опуб-ликованием в сети электронных документов, в настоящее время выпол-нена в виде:
 электронных досок объявлений;
 электронной почты;
 файловых архивов Internet (или FTP-архивов - File Transfer Protocol);
 «всемирной паутины» Internet - World Wide Web.
 Usenet - это огромная электронная доска объявлений, разде-ленная на части согласно интересам ее пользователей. Каждая группа новостей имеет свое название. Система названий име-ет иерархическую структуру. Например, группа новостей, описывающих информационные технологии Internet, назы-вается comp.infosystems, что означает - группа «компьютеры», подгруппа «информационные системы». В свою очередь, ка-ждая подгруппа может быть разбита на новые подгруппы.
Электронная почта является другим важным средством обмена ин-формацией в Internet. Она появилась приблизительно в то же время, что и Usenet. Долгое время Usenet даже использовала для передачи новостей каналы электронной почты. Главной задачей электронной почты являет-ся обеспечение надежной и быстрой доставки корреспонденции.
Преимущества электронной почты перед обычной очевидны:
 скорость доставки. Если абонент включен в глобальную сеть Internet непосредственно через IP-соединение, то он получит послание через несколько секунд. Если абонент имеет комму-тируемое соединение с Internet, то скорость доставки ограни-чивается периодичностью его подключения, которую он оп-ределяет сам. В любом случае, пользователь точно получит послание в течение дня.
Долгое время считалось, что электронная почта пригодна только для передачи текстовых сообщений, поэтому ее не рассматривали в ка-честве серьезного конкурента обычной почты при распространении под-писных изданий. Такое мнение было основано на том факте, что переда-ча больших файлов по коммутируемой линии дело непростое. Как пра-вило, наша телефонная сеть не позволяет передать по линии связи файл размером в один мегабайт за один сеанс связи. Однако ситуация посте-пенно меняется, а это значит, что по почте становится возможной пере-дача и графики, и видео, и другой нетекстовой информации.
 дешевизна по сравнению с обычной почтой. Особенно ясно это становится при отправке и получении международной корреспонденции. Разница в тарифах достигает одного-двух порядков, и это понятно: не надо жечь керосин и гнать на другой конец света самолет или океанский лайнер. Тот же эффект просматривается и при сравнении с такими средства-ми связи, как телефон или факс. Для того чтобы не терять ка-чество факсовой связи, многие почтовые сети используют специальные программы - факсовые серверы. Суть работы факсового сервера заключается в том, что пользователь вме-сто того, чтобы связываться по международной телефонной связи для передачи факсового сообщения, отправляет его по электронной почте на факсовый аппарат, который находится недалеко от места получения факса. По мнению специали-стов, стоить такое отправление будет при этом гораздо де-шевле, чем непосредственная доставка.
Файловые архивы Internet (или FTP-архивы - File Transfer Protocol) - одна из технологий опубликования в сети электронных документов. По этой технологии осуществляются специальные проекты, направленные на создание электронных копий знаменитых книг (Библия, «Песнь о Гайавате», «Приключения Шерлока Холмса», «Приключения Тома Сой-ера», «Алиса в стране чудес» и др.).
World Wide Web («Всемирная паутина») обеспечивает хранение, обработку и распространение публикаций в виде:
• рекламных страниц;
• электронной периодики;
• справочников, каталогов;
• периодических иллюстрированных журналов;
• электронных газет;
• различного рода энциклопедии;
• учебников (гипермедийные издания в рамках виртуального публичного университета).
6. Программы оптического распознавания символов
Ввод информации с бумаги в компьютер является в настоящее вре-мя часто выполняемой задачей. До недавнего времени эта задача реша-лась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в ори-гиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные сис-темы, включающие программы сканирования и оптического распознава-ния образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из под-вижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используе-мым в компьютере (т.е. кодом, понятным компьютерной системе).
Системы оптического распознавания символов (OCR - Optical character recognition) стали неотъемлемой частью интегрированных па-кетов, поддерживающих ввод в компьютер, хранение и обработку бу-мажных и электронных документов. Система включает в свой состав сканер для ввода информации.
Работа сканеров основана на принципах функционирования фото-множительных устройств:
 изображение, считываемое сканером, хранится в электронном ви-де;
 сканер не может отличать текст от рисунков и представляет их в виде отдельных графических фрагментов из черных и белых эле-ментов.
Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания тек-ста (OCR) можно:
 отделить текст от рисунков;
 записать этот текст в формате файла текстового процессора.
Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознавае-мый текст записывается посимвольно с последовательным формирова-нием слов и предложений.
Основные технологические требования к OCR при использовании ком-пьютерных издательских систем:
 умение распознавать начало и конец отдельных символов, по-скольку сам сканер лишь оцифровывает изображение и, кроме то-го, многие шрифты являются пропорциональными;
 возможность работать с большим диапазоном гарнитур, кеглей, начертаний шрифтов, которые могут использоваться при полигра-фическом оформлении документа;
 возможность работать с оригиналами различного качества (в том числе созданными типографским способом или на лазерном прин-тере);
 возможность распознавать многоколонный текст;
 возможность распознавать текст, имеющий в состае таблицы и ри-сунки;
 достаточно высокая достоверность распознавания (не менее 90-96 %).
Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое раз-деление по типу. В последнее время наблюдается тенденция к объеди-нению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания. В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и про-верки на полное сов¬падение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности ска-нера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”.
В случае интеллектуальной системы — более мощном методе пре-образования считанного документа в текстовый файл — программа са-мостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шриф-тов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколь-кими разными символами. Кроме определения сим¬вола по контуру сис-тема выполняет ряд перекрестных проверок полученного текста.
Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознава-нию любых символов любых гарнитур. Для обучения программы кон-кретной гарнитуре нужно отсканировать эталонное изображение с по-следующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регу-лярно использоваться, стоит потратить пару часов на обучение. Про-граммы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, со-ставляя при этом текстовый файл. Это означает, что можно улучшить работу такой программы, обучив ее всему набору символов используе-мых в документе гарнитур. Поскольку программа теперь будет знать форму каждого символа, уменьшается вероятность ошибки из-за мини-мальной работы по угадыванию формы.
Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарни-туры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода. Интеллектуальный пакет за одну минуту позволяет отсканировать и распознать текст объе-мом 1200 символов. При этом созданный текстовый файл содержит обычно не более двух неверных символов — достоверность распознава-ния порядка 99.83%. Среди недостатков таких пакетов следует отметить следующее. Поскольку некоторые из них не могут обучаться чтению конкретных гарнитур, отсутствие надлежащей гибкости может не позво-лить им распознать гарнитуры необычного вида.
Конечный результат работы пакета OCR независимо от его типа представляет собой файл формата ASCII (или ANSI), а в ряде случаев даже отформатированный файл для таких популярных текстовых про-цессоров, как Microsoft Word. Новейшие программы позволяют сэконо-мить время, записывая текст нескольких последовательных страниц в один файл. Кроме того, использование сканера с механизмом автомати-ческой подачи отдельных листов позволяет организовать непрерывный ввод многостраничного документа.
Качество работы программ OCR зависит от ряда основных факто-ров:
• необходимо максимально хорошее качество оригинала. В случае некачественных изображений интеллектуальные пакеты попыта-ются сделать что-то, но результат вас не впечатлит. Обучаемые же программы в большинстве случаев просто не сработают;
• для достижения лучших результатов необходимо оцифровывать изображения с разрешением порядка 600-800 точек на дюйм, что позволяет с высокой точностью определять края символов и суще-ственно облегчает программе OCR распознавание формы отдель-ных букв;
• необходимо использовать высокопроизводительное оборудование. В процессе оптического распознавания символов создаются боль-шие массивы данных. Для успешной работы программ OCR нужен мощный компьютер с большим объемом оперативной и дисковой памяти, что подразумевает вместе со стоимостью программного обеспечения немалые затраты;
• при необходимости вводить большие объемы текста, отпечатанно-го необычной гарнитурой, предпочтительно использовать обучае-мый пакет.


















Заключение.
Развитие индустрии систем электронного документооборота требу-ет новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусст-венного интеллекта. Доступные сегодня вычислительные мощности по-зволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.
Сегодня актуальна фраза: “Кто владеет информацией, тот владеет миром”. Умение овладевать новой информацией и корректно распола-гать ее при подготовке документов – одно из условий совершенствова-ния информационной культуры человека. А понятие информационной культуры весьма многозначно и содержит в себе множество видов рабо-ты, ключевым из которых является обработка текста.













Список литературы

1. Дональд Кнут Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. — 2-е изд. — М.: Вильямс, 2007. - с. 824
2. Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиф-форд Штайн Алгоритмы: построение и анализ. 2-е изд. -М.: Виль-ямс, 2006. - с. 1296
3. Дайтибегов Д.М., Черноусов Е.А. Основы алгоритмизации и алго-ритмические языки. - М.: Финансы и статистика, 1992. – 300 с.
4. Куртер Дж., Маркви А. Microsoft Office 2000: учебный курс. - Спб: Питер, 2000. - 640 с.
5. Могилев А.В., Пак Н.И., Хеннер Е.К. Информатика: учебное посо-бие для вузов / под ред. Хеннера Е.К. - М.: Изд. центр "Академия", 2000, 346 с.
6. Информатика: учебник / под ред. Н.В. Макаровой, -М.: Финансы и статистика, 2005
7. Информатика: Практикум по технологии работы на компьютере/ Под ред. Н.В. Макаровой, - М.: Финансы и статистика, 2005
8. Информатика. Лабораторный практикум для студентов 2 курса всех специальностей. –М.: ВЗФЭИ, 2006

© Copyright 2012-2020, Все права защищены.