Как стать автором
Обновить

FineReader 9.0: новый революционный размягчитель твердых копий

Время на прочтение 5 мин
Количество просмотров 1.3K
Вступительный слайд презентации FineReader 9.0В понедельник в клубе АртеFAQ в Москве компания ABBYY, которую по праву можно назвать одной из легенд отечественного софтостроения, представила новую, девятую по счету, версию своего не менее легендарного продукта — системы оптического распознавания текста FineReader. О том, во что же вылились два года упорного труда разработчиков, об истории и перспективах развития линейки FineReader и всей отрасли,

Для начала скажем немного о предыдущем воплощении флагманского продукта ABBYY — FineReader 8.0. В компьютерах офисных работников, волею судьбы вынужденных работать с большими объемами бумажной документации, которую нужно сделать электронной, эта программа стала появляться в сентябре 2005 года. За прошедшее с тех пор время в России было продано 46,000 лицензий, как на Pro, так и на Corporate версии «восьмерки», что вдвое превысило популяцию легальных FineReader'ов 7.0. Как отметил генеральный директор ABBYY Россия Григорий Липич, во многом это было вызвано всеобщим стремлением к легализации ПО, охватившим российский бизнес в последние годы. И судя по всему, компанию это очень радует, причем так искренне, что от всей души хочется радоваться вместе с ней.

Коробка FineReader 9.0Уже довольно давно ABBYY прочно держит самый большой кусок рынка OCR-систем как в России, так и во многих зарубежных странах (например, в Германии, где доля компании вдвое больше доли ее ближайшего конкурента). Так зачем же выпускать новые версии, если и старые продаются на ура? Во-первых, разумеется, из-за здорового стремления к мировому господству, которое в последние несколько столетий повсеместно принято основывать на прогрессе. Но есть и более банальная причина — старые версии просто не удовлетворяют всех потребностей пользователей. Именно в работе с ними, в бесчисленных часах, проведенных за анализом их пожеланий и рекомендаций, заложены основы версии 9.0: полноценная работа с многостраничными документами, переработанный интерфейс и хорошая поддержка многопоточности.

Все предыдущие версии FineReader и его конкурентов были совершенно невосприимчивы к логической структуре документа: колонтитулам, нумерации, подписям к иллюстрациям и таблицам, сноскам и т.п. В результате, после того, как вы отсканировали, к примеру, свежую книгу о Гарри Поттере (исключительно для личного архива, конечно же), для приведения полученного текста в удобный для чтения на КПК вид вы были вынуждены вручную удалять нумерацию и хэдеры с каждой страницы! Несмотря на возможность применить для этого действия макрос, весь процесс все равно выглядел слегка неестественно. Избавить вас от таких проблем призвана новая, не имеющая аналогов нигде в мире, технология адаптивного распознавания документов (ADRT), впервые примененная в FineReader 9.0. На ее разработку было потрачено около 5 лет, но результат определенно стоит того.

Определяя логическую структуру исходного документа, ADRT делает возможным ее воспроизведение уже в текстовом редакторе. Шрифты, стили, обтекание картинок текстом, верхний и нижний колонтитулы, все это остается после сканирования на своих местах в качестве соответствующих элементов Word и может быть отредактировано так же легко, как будто документ с самого начала создавался в нем же. При этом на выходе вы получаете действительно единый документ, а не бессвязный ряд отдельных страниц: если абзац или таблица разделены на две части разрывом страницы, они все равно будут перенесены в редактор как цельные элементы. При всем этом, улучшенный алгоритм распознает элементы структуры и оформления в среднем на 25% точнее.

Тем самым пользователь избавляется от целого ряда рутинных действий, освобождая время для более интересных дел (или безделья). Ту же задачу выполняет система автоматического распознавания языка документа на основе настроек системы и набор стандартных сценариев, вполне достаточных в большинстве случаев. Стартовое окно с выбором этих сценариев вряд ли захотят отключать даже закоренелые противники всяческих «визардов», потому что они действительно неплохо работают.

Веяние времени — цифровые фотокамеры все чаще выполняют роль сканера. Оно не прошло незамеченным, и вот в FineReader 9.0 появился специальный сценарий «Фотография в MS Word», позволяющий обработать сфотографированный документ буквально в один клик. Обработать фотографию (повернуть, обрезать, изменить разрешение и т.п.) теперь можно в небольшом встроенном графическом редакторе.

Интерфейсные улучшения, опирающиеся на технические усовершенствования алгоритмов, по утверждению разработчиков сократили число операций, которые должен выполнить пользователь в процессе работы с документом, в среднем на 40% (в зависимости от типа документа — от 20% до 80% экономии кликов). Да, и можно закрыть тему не слишком удобного инсталлятора — теперь он выполнен в виде обычной программки-меню.

Многопоточность, о необходимости адаптации под которую начали говорить с самого появления на рынке первых двухядерных процессоров, используется в FineReader 9.0 на полную. Уже когда распозналась первая страница документа, с ним можно начинать работать, оставив обработку других страниц в фоновом режиме. Кроме того, многоядерность увеличивает производительность настолько, что это видно невооруженным глазом: в 1,6 раза для двух- и в 3,2 раза — для четырехядерных процессоров по сравнению с одноядерными. Однако, несмотря на это, по ощущениям распознавание изображений стало идти медленнее. Объясняется это тем, что в процессе распознавания теперь выполняется гораздо больше стадий и результат получается значительно лучше, чем в старых версиях.

Совместимость с продуктами Microsoft по-прежнему на высоте. Будучи «Золотым партнером» Редмонда, ABBYY с самого начала получила для FineReader 9.0 значок «Certified for Windows Vista» и ввела поддержку форматов DOCX и XLSX, с которыми работает MS Office 2007. Кроме того, появилась поддержка одобренного ISO формата PDF/A, предназначенного для архивных файлов. Совместимости с Open Document и интеграции с Open Office пока нет и до тех пор, пока рынок не выразит в этом явную заинтересованность, не будет.

Извечный вопрос «будет ли FineReader для Linux?» получил от господина Липича одновременно ожидаемый и неожиданный ответ. Во-первых, FineReader под *NIX уже есть, он портирован на ОС МСВС (Мобильная Система Вооруженных Сил) ее разработчиками — ВНИИНС. Но выпускать версию под обычные Linux-дистрибутивы ABBYY пока не планирует. Однако компания внимательно следит за развитием национальных проектов, в частности за НП «Образование», который предполагает установку свободных ОС в компьютерных классах учебных заведений. В случае, если эта программа действительно обретет ожидаемый размах, внутренние потребности в OCR системах под Linux ABBYY готова покрыть.

В планах компании на сегодня значатся: расширенная поддержка восточных языков (китайский, тайский и т.д.), выпуск Home-версии на основе движка 9.0 (а не 8.0, как многие ожидали), работа с производителями МФУ и сканеров в направлении унификации интерфейсов для создания серверного решения для OCR, а также создание онлайн-сервиса по распознаванию текста. В прототипе находится приложения для смартфонов, позволяющее распознавать текст, снятый камерой телефона, на самом телефоне.

В интернет-магазине ABBYY новая версия программы доступна уже сейчас, по той же цене, что и старая — 3750 рублей за Professional Edition. В магазинах Москвы коробки с ней появятся в течение 1-2 недель, в регионах — 2-3 недель. Продажи Corporate Edition начнутся в ноябре.
Теги:
Хабы:
+31
Комментарии 167
Комментарии Комментарии 167

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн