Компьютер уже уверенно вошел в жизнь рядового гражданина. Когда надо получить сравнительно небольшой объем печатной информации, проще всего набрать этот текст вручную при помощи текстового редактора. Однако иногда надо «переписать» целую книгу. В таких случаях рациональнее всего использовать сканер. Но сам по себе сканер делает только фотокопию текста, которую никак нельзя редактировать. Для того чтобы изменить информацию на полученном изображении, следует провести распознавание документа.

Бесспорным лидером в этом деле является система OCR (англ. optical character recognition - оптическое распознавание текста) от ABBYY -FineReader. Но стоит она довольно дорого и не каждый может позволить себе иметь в своем арсенале такой инструмент. Сегодня мы познакомимся с бесплатной альтернативой Файн Ридера - программой CuneiForm. Приведу сравнительную таблицу возможностей обеих пакетов (табл. 1) Как видим, если хочется бесплатно распознавать текст, придется кое в чем уступить. Первое, с чем придется смириться - неумение CuneiForm работать с некоторыми сканерами (в особенности сканерами МФУ). Поэтому придется сканировать документ при помощи стандартных функций Windows. Второе - надо следить за разрешением сканирования. Это связано стем, что CuneiForm не может обрабатывать большие файлы (свыше 100 Кбайт), а чем выше разрешение, тем больший размер файла-скана. Зато качество распознавания текста в программе намного выше, чем у платного конкурента, а поэтому оптимальным вариантом параметров скана будет 200 dpi (можно и больше, но тогда есть вероятность, что программа просто зависнет). Количество языков тоже невелико, но основные есть. Более того, хоть комбинировать языки и нельзя, зато в CuneiForm есть смешанный англорусский режим распознавания! На этом минусы заканчиваются. Можно начинать установку.

Скачать ABBYY FineReader 11.0.102.583

Установка CuneiForm

Скачать CuneiForm

Здесь сложностей нет, поскольку вам поможет инсталлятор. Просто запускайте установочный файл и следуйте инструкциям. После установки в меню «Пуск» появится новый раздел. Открываем его и запускаем CuneiForm.

Интерфейс CuneiForm намного проще, чем у Fine Reader, и почти не требует настройки. Программой можно полностью управлять благодаря кнопкам на панели инструментов.

Программа может работать в режиме мастера, который активируется первой кнопкой. Но если CuneiForm не поддерживает ваш сканер, то от этого режима стоит отказаться. Следующая кнопка запускает процесс сканирования (опять же, если есть поддержка сканера). На этой и следующих кнопках вы можете заметить небольшие стрелочки. Нажав на них, мы получим доступ к некоторым дополнительным функциям.

Теперь давайте опробуем CuneiForm на практике. Если программа поддерживает ваш сканер, то первой кнопкой, которую следует нажать, будет «Получить изображение». Если же такой возможности нет, то откроем уже готовый скан (поддерживаются форматы JPG, GIF, BMP, PNG (не всегда корректно), а также TIF (в полной мере)).

Теперь следует произвести раз-метку. Она помогает определить блоки, из которых состоит страница. Поддерживается распознавание блоков в виде текста (синяя рамка), рисунков (зеленая рамка) или таблиц (оранжевая рамка) (автоматическую разметку можно доработать вручную, используя контекстное меню блока).

Когда текст обозначен, самое время провести его распознавание. Для этого нажимаем следующую кнопку. По окончании процесса распознавания в рабочем окне отобразится текст, который можно редактировать в небольшом встроенном текстовом редакторе похожем на Microsoft Word. При этом вы сразу сможете увидеть те слова, в которых программа «не уверена» (голубая подсветка) и в которых есть ошибка (сомнительная буква - розовая).

И, наконец, после успешного редактирования можно сохранить результат нашей работы. Кликаем последнюю кнопку на панели инструментов и сохраняем текст как RTF, HTML или ТХТ-файл.

Если же вы желаете большего, то, нажав на стрелочку сбоку, вы сможете выбрать опции экспорта в одну из предложенных программ (Microsoft Word, Excel или Евфрат).

Наверняка вы обратили внимание, что в дополнительных меню кнопок, начиная с «Разметки» и заканчивая «Сохранением», есть в конце пункт «Автомат». Активирование этой опции освобождает вас от нажатия выбранной кнопки. То есть можно автоматизировать процесс обработки скана до того, что вы будете лишь открывать новый документ. Все остальное CuneiForm сделает сама!

Программа изначально настроена самым оптимальным образом, но если вы что-то захотите изменить, просто зайдите в меню «Файл» и выберите опцию «Общие параметры».

Это может пригодиться для смены языка и некоторых других параметров распознавания, форматирования и сканирования текстов.

Пакетное распознавание

На этом можно было бы и закончить, если бы в пакет CuneiForm не входила еще одна утилитка. Откройте «Пуск» снова и в папке с программой обнаружите еще одно приложение - «Пакетное распознавание». Представьте, что вы отсканировали целую книгу и теперь надо ее распознать. Если открывать каждый файл-скан по отдельности, на это уйдет уйма времени, пакетный же режим представляет возможность указать нужные файлы, а об остальном программа позаботится сама.

Для начала нужно создать новый пакет файлов. Нажимаем соответствующую кнопку и следуем подсказкам запустившегося мастера.

На последнем этапе мы можем либо просто сохранить наш пакет, либо начать немедленное распознавание. В последнем случае запустится режим распознавания, который может затянуться на несколько минут (в зависимости от количества файлов-сканов).

По окончании распознавания вы сможете увидеть в основном окне все распознанные документы. Если распознавание прошло успешно, то в левой боковой панели вы обнаружите активными только два списка: «Исходные» и «Обработанные». Если же будут файлы, которые не удалось распознать, их мы найдем в разделе «Ошибки».

Теперь остается только сохранить полученные файлы и радоваться жизни. Потенциал у CuneiForm явно хороший, однако разработка ведется довольно медленно. Несмотря на открытый исходный код, компания Cognitive, видимо, очень требовательна к разработчикам, раз прогресс так долго не появляется. Остается только надеяться, что дело сдвинется с мертвой точки и программа станет еще лучшей, а пока довольствуемся малым. Но такое ли уж оно и малое... Выбор за вами!

Вам также может пригодиться еще одна довольно занятная программа. Kleptomania, пусть и не полноценная система распознавания, но может помочь вам захватить текст и графику с экрана для последующей обработки.

Руслан ТЕРТЫШНЫЙ