Добавь её на сайт, помоги студентам и школьникам выполнять работы самостоятельно
добавить работуЗаполнение формы не обязывает Вас к заказу
Документ предоставляется как есть, мы не несем ответственности, за правильность представленной в нём информации. Используя информацию для подготовки своей работы необходимо помнить, что текст работы может быть устаревшим, работа может не пройти проверку на заимствования.
Если Вы являетесь автором текста представленного на данной странице и не хотите чтобы он был размешён на нашем сайте напишите об этом перейдя по ссылке: «Правообладателям»
Да, скачать документ можно бесплатно, без регистрации перейдя по ссылке:
Содержание:
Введение ………………………………………………………………….2
Заключение ………………………………………………………......22
Список использованной литературы………………..………………...23
Введение.
Информация, выраженная с помощью естественных и формальных языков в письменной форме, называется текстовой.
В общем случае электронная система обработки текстовой информации состоит из видеотерминала, возможно, специально сконструированного или модифицированного для этих целей, некоторой внешней памяти для хранения специального программного обеспечения и файлов с текстовой информацией, а также печатающего устройства, позволяющего получать качественные копии созданных документов. Средства обработки текстовой информации, несмотря на их весьма широкий спектр, обеспечивают следующие основные функции:
а также ряд других функций, состав которых определяется уровнем и назначением конкретного программного средства.
Актуальность написания данной курсовой работы вызвана той важной ролью, которая принадлежит программным средствам и технологиям обработки текстовой информации, т.к. ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей.
Целью написания данной курсовой работы является изучение теоретических основ средств и технологий обработки текстовой информации.
Для достижения поставленной цели были сформулированы следующие задачи:
– классификация программного обеспечения;
- основные функции текстовых редакторов и процессоров;
– характеристика форматов текстовых файлов;
– технологии анализа и поиска текстовой информации;
– изучение программ оптического распознавания текста и символов
В начале 1975 года кинорежиссёр и программист из Нью-Йорка Майкл Шрейер стал обладателем комплекта для сборки микрокомпьютера «Альтаир8800». Он собрал машину и вскоре начал создавать и продавать небольшие программы, которые со временем получались всё более и более сложными, а потому и руководства к ним усложнялись. Шрейер пришёл к выводу, что целесообразно готовить эти руководства с помощью компьютера, а не печатать их на машинке.
Целый год он упорно трудился над новой программой, дав ей название «Электрический карандаш». Через некоторое время Шрейер понял, что подобная программа может заинтересовать обладателей микрокомпьютеров и создал 78 вариантов «Электрического карандаша», учитывая особенности целого ряда принтеров. Распространялась1 данная программа при помощи почты, потому что магазинов, занимающихся продажей программного обеспечения, практически не было.
В первые два года после своего выхода «Электрический карандаш» являлся, по сути дела, единственным текстовым редактором, доступным массовому потребителю. Однако по мере расширения рынка персональных компьютеров другие предприниматели тоже стали делать шаги в данном направлении.
Одним из них был житель Нью-Йорка Сеймур Рубинштейн, в планы которого входило создание текстового процессора. Совместно с программистом Джоном Барнэби при помощи многочисленных опросов было выяснено, какими возможностями должен обладать текстовый процессор, чтобы привлечь внимание потенциальных покупателей.
Так, в 1978 году появилась довольно удачная система, которая получила название WordStar, которая практически сразу же стала стандартом текстовых процессоров для микрокомпьютеров. «Электронный карандаш», WordStar являлись предшественниками популярнейшей сегодня компьютерной программы для обработки текстовой информации — Microsoft Office Word.
Инструментальные программы для подготовки текстов программ, документов, описаний называются текстовыми редакторами (text-editor), мощные текстовые редакторы с расширенным спектром функций называют также текстовыми процессорами (word-processor). Некоторые текстовые процессоры могут работать не только с текстами, но и с изображениями, например, редактировать иллюстрированные документы.
Основные функции текстовых редакторов и процессоров:
Текстовые редакторы разделяются на три группы:
1) редакторы общего назначения (сюда относятся, например, редакторы «Лексикон», MS Word, WordPerfect и др.);
2) редакторы научных текстов (ChiWriter, ТеХ и др.);
3) редакторы исходных текстов программ (например, Multi-Edit или встроенные редакторы систем программирования для языков Бейсик, Фортран, Си и др.).
По сравнению с редакторами общего назначения специализированные редакторы позволяют легче готовить и редактировать соответствующие тексты: например, редакторы научных текстов удобнее для набора математических или химических формул.
Многооконный редактор «Лексикон» - один из простейших текстовых редакторов отечественной разработки для несложных документов на русском или английском языке, имеющий ряд версий. Ранее редактор «Лексикон» работал в MS DOS, последние версии редактора предназначены для ОС Windows. Имеются так называемый «базовый вариант» редактора и более мощный профессиональный вариант для работы с пакетом MS Office в ОС Windows 95, 98, NT. «Лексикон» позволяет открыть на экране монитора до десяти окон, в каждом из которых может редактироваться свой документ.
В редакторе «Лексикон» предусмотрены следующие возможности:
Редактор «Лексикон» быстро вытиснился более мощными (но и более сложными) редакторами.
Текстовый редактор MS DOS Editor может применяться только для редактирования текстов файлов канонического формата, состоящих лишь из букв и цифр и не имеющих изображений. Редактор может вызываться из MS DOS и Windows и по своим возможностям близок к «Лексикону», но имеет более удобный интерфейс.
Текстовый редактор Windows 95 NotePad («Блокнот») — простейший редактор, входящий в Windows. Имеет ограниченные возможности, но очень простой для изучения и использования. Среди других средств редактирования, используемых в ОС Windows, можно отметить текстовые процессоры Word Pad, Word 6.0, Word 95 (Word 7.0), Word 97 (Word 8.0), Word 2000 (Word 9.0), Word ХР, Word 2003, Word 2007. Многооконные процессоры, предназначенные для ввода, редактирования и форматирования текстов, могут работать одновременно с несколькими документами, каждый из которых отображается в своем окне. Можно менять размеры окон, а также вид и начертание шрифтов, оформлять текст в несколько столбцов, выполнять многие другие операции.
Многооконный текстовый процессор MS Word 2003 - один из самых совершенных, входит в пакет MS Office 2003 и имеет сотни операций над текстовой и графической информацией. Как и ОС Windows, построен по оконной технологии с использованием ниспадающих меню и пиктограмм. Обладает универсальностью, позволяет достаточно быстро и с высоким качеством готовить практически любые документы: от деловой записки или письма до макета книги. Имеет множество технологических приемов редактирования текстово-графической информации, широкий набор шрифтов разной формы и размера, проверку орфографии и грамматики, автоматический перенос слов. Можно делать ссылки в тексте (это позволяют не все редакторы), работать с готовыми шаблонами документов, отключать часть средств или модифицировать используемые средства для ускорения работы. В текст можно включать рисунки, которые можно редактировать, изменяя масштаб, форму, качество изображения; формировать «обтекание» рисунка текстом, использовать рисунок в качестве фона. Позволяет вставлять в текст таблицы различного размера и сложности, поворачивать текст на странице, вставлять номера страниц и многое другое. Благодаря этим возможностям с помощью редактора Word может выполняться верстка документов, как это делается в типографиях. Имеются средства, облегчающие подготовку документов для сети Internet.
Усовершенствованием рассмотренных выше редакторов Word является более удобный в работе текстовый процессор WordPerfect, имеющий ряд версий. Редактор контролирует правописание, вычерчивает отрезки линий, оформляет рамки, формирует ссылки, оглавления, указатели, имеет много других возможностей.
Универсальность процессоров Word сопряжена, однако, и с некоторыми недостатками, к которым относятся трудности освоения и относительно низкая производительность при редактировании простых текстов. Поэтому для подготовки простых однородных текстов иногда целесообразно сначала воспользоваться несложными редакторами типа MS DOS Editor или «Лексикон», затем отформатировать полученный текст для Word и уже с помощью Word улучшить его в изобразительном отношении. При наличии в тексте большого количества сложных математических или химических формул более производительным может быть, например, редактор ChiWriter. Наконец, редакторы Word не подходят для подготовки такой сложной полиграфической продукции, как атласы, высококачественные рисунки (копии фотографий), иллюстрированные альбомы.
Формат файла определяет способ хранения текста в файле. Простейший формат текстового файла содержит только символы (числовые коды символов), другие же форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.
Существуют универсальные форматы текстовых файлов, которые могут быть прочитаны большинством текстовых редакторов, и оригинальные форматы, которые используются отдельными текстовыми редакторами. Для преобразования текстового файла из одного формата в другой используются специальные программы - программы-конверторы. В хороших текстовых редакторах конверторы входят в состав системы.
Рассмотрим некоторые наиболее распространенные форматы текстовых файлов:
Выбор требуемого формата текстового документа или его преобразование производится в процессе сохранения файла.
Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.
Тематический анализ текста формирует список ключевых понятий - тем документа, ранжированных по значимости. Позволяет производить поиск документов по интересующей теме, сравнивать документы по содержанию, исследовать тематический состав и временную динамику информационных потоков.
Анализ смысловых связей выявляет отношения между понятиями текста и формирует семантическую сеть на множестве документов. Позволяет исследовать семантическое окружение целевых объектов (персон, организаций, событий) в документах; выявлять подкрепления известных и неизвестных связей, расширять и уточнять поисковые запросы.
Автоматическое реферирование формирует общие и тематические рефераты документов в форме ключевых фраз, раскрывающих содержание текста.
Автоматическая рубрикация позволяет создавать иерархические рубрикаторы на основании анализа коллекций документов и классифицировать документы по рубрикам.
Нечеткий поиск позволяет расширять запрос близкими по написанию словами из коллекции документов, по которым ведется поиск. Способен быстро найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками нескольких символов.
Лингвистическое обеспечение включает в себя средства морфологического и синтаксического анализа, а также тезаурус общей лексики русского языка.
Технологии реализованы в пакете программных модулей, готовых для встраивания в информационно-поисковые системы. Основное внедрение и апробация технологий уже состоялись в системе Russian Context Optimizer(TM) для СУБД Oracle®.
Russian Context Optimizer(TM) разрабатывается компанией "Гарант-Парк-Интернет" с 1997 г. В течение последних лет продукт непрерывно совершенствовался, расширялись функциональные возможности, повышались надежность и производительность программного обеспечения. RCO (TM) позволяет значительно расширить возможности Oracle® interMedia в русскоязычных БД. В настоящее время существуют коммерческие версии этого продукта для Windows и различных UNIX платформ (SUN Solaris, SCO UnixWare, Compaq Tru64 Unix, HP UX, IBM AIX). Основные возможности Russian Context Optimizer:
Гипертекст - это способ управления данными, при котором последние организованы в виде сети узлов, объединенных между собой связями. Узлы могут быть текстовыми документами, графическими картинками, видеофильмами, аудиозаписями и т. п. Понятие «гипер-текст» было чрезвычайно популярно в конце 80-х, когда впервые широко стали применяться гипертекстовые информационные системы. Сам термин «гипертекст» ввел в обращение Тед Нельсон (Ted Nelson) в 60-х годах нашего века. В то время он руководил разработкой исследовательской гипертекстовой системы Intermedia в университете Брауна (США). Кроме слова «гипертекст», Нельсон разработал теоретические основы гипертекстовой технологии и заложил базу для математического исследования гипертекстовых структур.
Система типа гипермедиа обеспечивает возможность работы с графическими картинками, фотографиями, фильмами, музыкой и речью. Следует отметить, что термин «гипермедиа», который повсеместно применяется в западной литературе, не нашел столь же широкого распространения в отечественных публикациях. Многие специалисты предпочитают называть термином «гипертекст» все информационные системы, построенные по принципу сети информационных узлов.
Реализация новых информационных технологий, связанных с опубликованием в сети электронных документов, в настоящее время выполнена в виде:
Электронная почта является другим важным средством обмена информацией в Internet. Она появилась приблизительно в то же время, что и Usenet. Долгое время Usenet даже использовала для передачи новостей каналы электронной почты. Главной задачей электронной почты является обеспечение надежной и быстрой доставки корреспонденции.
Преимущества электронной почты перед обычной очевидны:
Долгое время считалось, что электронная почта пригодна только для передачи текстовых сообщений, поэтому ее не рассматривали в качестве серьезного конкурента обычной почты при распространении подписных изданий. Такое мнение было основано на том факте, что передача больших файлов по коммутируемой линии дело непростое. Как правило, наша телефонная сеть не позволяет передать по линии связи файл размером в один мегабайт за один сеанс связи. Однако ситуация постепенно меняется, а это значит, что по почте становится возможной передача и графики, и видео, и другой нетекстовой информации.
Файловые архивы Internet (или FTP-архивы - File Transfer Protocol) - одна из технологий опубликования в сети электронных документов. По этой технологии осуществляются специальные проекты, направленные на создание электронных копий знаменитых книг (Библия, «Песнь о Гайавате», «Приключения Шерлока Холмса», «Приключения Тома Сойера», «Алиса в стране чудес» и др.).
World Wide Web («Всемирная паутина») обеспечивает хранение, обработку и распространение публикаций в виде:
Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).
Системы оптического распознавания символов (OCR - Optical character recognition) стали неотъемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.
Работа сканеров основана на принципах функционирования фотомножительных устройств:
Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания текста (OCR) можно:
Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.
Основные технологические требования к OCR при использовании компьютерных издательских систем:
Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания. В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное совпадение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”.
В случае интеллектуальной системы — более мощном методе преобразования считанного документа в текстовый файл — программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения символа по контуру система выполняет ряд перекрестных проверок полученного текста.
Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознаванию любых символов любых гарнитур. Для обучения программы конкретной гарнитуре нужно отсканировать эталонное изображение с последующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регулярно использоваться, стоит потратить пару часов на обучение. Программы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, составляя при этом текстовый файл. Это означает, что можно улучшить работу такой программы, обучив ее всему набору символов используемых в документе гарнитур. Поскольку программа теперь будет знать форму каждого символа, уменьшается вероятность ошибки из-за минимальной работы по угадыванию формы.
Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарнитуры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода. Интеллектуальный пакет за одну минуту позволяет отсканировать и распознать текст объемом 1200 символов. При этом созданный текстовый файл содержит обычно не более двух неверных символов — достоверность распознавания порядка 99.83%. Среди недостатков таких пакетов следует отметить следующее. Поскольку некоторые из них не могут обучаться чтению конкретных гарнитур, отсутствие надлежащей гибкости может не позволить им распознать гарнитуры необычного вида.
Конечный результат работы пакета OCR независимо от его типа представляет собой файл формата ASCII (или ANSI), а в ряде случаев даже отформатированный файл для таких популярных текстовых процессоров, как Microsoft Word. Новейшие программы позволяют сэкономить время, записывая текст нескольких последовательных страниц в один файл. Кроме того, использование сканера с механизмом автоматической подачи отдельных листов позволяет организовать непрерывный ввод многостраничного документа.
Качество работы программ OCR зависит от ряда основных факторов:
Заключение.
Развитие индустрии систем электронного документооборота требует новых средств обработки полнотекстовой информации, основанных на лингвистическом анализе текста и включающих элементы искусственного интеллекта. Доступные сегодня вычислительные мощности позволяют применить широкий класс методов для обработки больших массивов документов, эффективно решая задачи поиска, классификации, кластерного анализа, выявления скрытых закономерностей и другие.
Сегодня актуальна фраза: “Кто владеет информацией, тот владеет миром”. Умение овладевать новой информацией и корректно располагать ее при подготовке документов – одно из условий совершенствования информационной культуры человека. А понятие информационной культуры весьма многозначно и содержит в себе множество видов работы, ключевым из которых является обработка текста.
Дональд Кнут Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. — 2-е изд. — М.: Вильямс, 2007. - с. 824
Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн Алгоритмы: построение и анализ. 2-е изд. -М.: Вильямс, 2006. - с. 1296
Дайтибегов Д.М., Черноусов Е.А. Основы алгоритмизации и алгоритмические языки. - М.: Финансы и статистика, 1992. – 300 с.
Куртер Дж., Маркви А. Microsoft Office 2000: учебный курс. - Спб: Питер, 2000. - 640 с.
Могилев А.В., Пак Н.И., Хеннер Е.К. Информатика: учебное пособие для вузов / под ред. Хеннера Е.К. - М.: Изд. центр "Академия", 2000, 346 с.
Информатика: учебник / под ред. Н.В. Макаровой, -М.: Финансы и статистика, 2005
Информатика: Практикум по технологии работы на компьютере/ Под ред. Н.В. Макаровой, - М.: Финансы и статистика, 2005
Информатика. Лабораторный практикум для студентов 2 курса всех специальностей. –М.: ВЗФЭИ, 2006