Этап 4. Распознавание текста и проверка по словарю — КиберПедия 

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Этап 4. Распознавание текста и проверка по словарю

2017-11-22 303
Этап 4. Распознавание текста и проверка по словарю 0.00 из 5.00 0 оценок
Заказать работу

Перед распознаванием следует выбрать язык распознавания из выпадающего списка, расположенного под панелью инструментов окна «Документ». Поскольку в инженерной практике часто встречаются тексты на русском языке с английскими терминами (данное учебное пособие – не исключение), в списке имеется язык «Русский и английский».

Затем следует запустить собственно процесс распознавания – через меню Страница – Распознать страницу для распознания выделенных страниц или Документ – Распознать документ для распознания всех страниц документа. Меню Области – Распознать область запускает распознавание только выделенных областей. Команды распознавания документа и страницы дублируются в выпадающем меню основной кнопки « Распознать» на панели инструментов окна «Изображение».

В зависимости от быстродействия процессора компьютера распознавание нескольких десятков страниц может занять длительное время (до 1 минуты на страницу на медленных компьютерах). Во время сканирования, автоматической сегментации или распознавания текста указатель прогресса отображается на месте списка выбора языка распознавания (под панелью инструментов окна «Документ»).

Если запустить распознавание одной страницы или отдельных областей, окно «Изображение» останется на экране. На нем будет видно, что распознавание проходит в два «прохода». На первом опознанные строки с текстом заливаются голубым цветом, на втором символы, распознанные неуверенно или с ошибками, заливаются темно-синим цветом. При распознавании более одной страницы окно «Изображение» не выводится на экран (за счет этого экономится быстродействие процессора и повышается скорость распознавания).

О том, что страница распознана, подсказывает значок вблизи левого нижнего угла изображения страницы в окне «Пакет».

После завершения процесса распознавания на экране отображаются окна «Изображение» и «Текст». В окне «Текст» представлен распознанный текст в редактируемом виде. Здесь текст можно редактировать, как и в любом текстовом редакторе.

Окно «Текст» имеет собственную панель инструментов, показанную на рис. 8.7. Левая часть панели предназначена для сохранения распознанного текста и будет рассмотрена ниже; инструменты в правой части аналогичны таковым в программе Microsoft Word.

При редактировании текст можно выделять, переносить, копировать и удалять. При переносе и копировании используется буфер обмена Windows, доступ к которому осуществляется через меню Правка. Там же присутствуют инструменты поиска и замены текста.

Рис. 8.7 Панель инструментов окна «Текст»

Ошибочные действия по редактированию текста также можно отменить через меню Правка – Отменить или кнопкой панели быстрого доступа. Ошибочную отмену можно вернуть через меню Правка – Восстановить или кнопкой .

Помимо основной панели инструментов окна «Текст», многие характеристики текста можно изменить при помощи области свойств текста в нижней части окна. Для ее отображения служит кнопка в нижней части окна (правее инструментов управления масштабом окна). Область позволяет задавать для текста такие параметры, как гарнитура и размер шрифта, язык проверки орфрграфии, цвет шрифта и цвет фона, масштаб и разреживание символов, выравнивание абзаца, верхние и нижние индексы и т.д.

Кнопка рядом с кнопкой включает отображение непечатаемых символов (аналогично Microsoft Word), а кнопка – выделение ошибок цветом.

В окне настроек программы на вкладке «2.Распознать» имеется возможность выбрать режим распознавания: тщательный, при котором количество ошибок распознавания сводится к минимуму, и быстрый, при котором достигается более высокая скорость распознавания. При работе с книгами рекомендуется использовать тщательный режим.

Также в этом окне можно выбрать распознавание с обучением или распознавание с эталонами. Основное назначение этих режимов – распознавание нестандартных, в том числе декоративных, шрифтов. Работа с данными режимами описана в справочной системе программы, в данном пособии они не рассматриваются.

При распознавании ABBYY FineReader пользуется встроенными словарями для проверки орфографии, поэтому распознанный текст может быть сразу же проверен и исправлен.

Для запуска операции проверки следует нажать на кнопку панели инструментов окна «Текст» или нажать клавиши Ctrl+F7. Команда открывает диалоговое окно проверки документа, практически аналогичное окну проверки орфографии в Microsoft Word. Основное отличие – в том, что в верхней части окна располагается увеличенный фрагмент изображения. Неуверенно распознанный символ или символ, в котором может содержаться ошибка, выделен в этой области цветом.

Как и в Microsoft Word, в ABBYY FineReader можно исправить ошибку, пропустить ее (это приходится делать особенно часто, т.к. очень часто попадаются символы, распознанные неуверенно, но все таки правильно), добавить слово в словарь. Грамматику ABBYY FineReader не проверяет.

Также можно проверять документ в текстовом окне вручную, без вызова окна. Поскольку ошибки выделяются в окне «Текст» заливкой цветом, можно просто пробежать текст глазами и исправить эти ошибки. Можно воспользоваться кнопками и либо клавишами F4 и Shift-F4, которые переносят текстовый курсор в место нахождения следующей (или предыдущей) ошибки или неуверенно распознанного символа.

Практика работы с ABBYY FineReader показала, что если распознавание текста прошло очень качественно (единичные темно-синие области при распознавании страницы, не более 10 ошибок на страницу), имеет смысл проверить текст инструментами FineReader. Если же количество ошибок велико (сложный текст с формулами, греческими буквами, индексами и математическими символами), такой документ требует вычистки, которую удобнее производить в Microsoft Word, используя средства проверки правописания и словари последнего. В этом случае этап проверки документа средствами ABBYY FineReader лучше пропустить.


Поделиться с друзьями:

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.008 с.