Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

ABBYY FlexiCapture Engine 9.0: технология извлечения данных из документов теперь доступна разработчикам

Reading time5 min
Views9.5K
imageНедавно мы выпустили ABBYY FlexiCapture Engine 9.0 – новую версию инструментария для разработчиков (SDK) на основе технологии ABBYY FlexiCapture. Эта технология позволяет извлекать данные не только из документов с жёсткой структурой (анкет, экзаменационных тестов, бланков), но и из слабоструктурированных и вовсе не структурированных документов (писем, статей, контрактов).

Продукты на основе нашей технологии извлечения данных используются в разных проектах по всему миру и решают как узкоспециализированные задачи в отдельных отраслях (образование, банковский сектор, страхование, телекоммуникации и других), так и крупные задачи в проектах национального масштаба (единый государственный экзамен ЕГЭ в России, перепись населения в ряде стран, выборы президента в Чили, система ввода отчетов Государственного центра занятости Украины).

ABBYY FlexiCapture существует как в виде готового кастомизируемого решения, так и в форме SDK. Зачастую глубокая интеграция подсистемы ввода данных в информационную систему заказчика оказывается невозможной при использовании готовых решений. В этом случае на помощь приходит наш SDK, и сейчас мы расскажем вам о том, как он работает и в каких проектах используется.

Наверняка большинство из вас знает, что такое SDK, для остальных скажем: SDK – это набор готовых библиотек функций, позволяющий разработчикам встраивать готовые технологии (в нашем случае – технологии распознавания и обработки форм) в создаваемые ими решения. Поскольку в этом блоге мы ещё не рассказывали вам о более ранних версиях ABBYY FlexiCapture Engine, в начале поста – пара слов о том, что этот продукт вообще умеет делать, а потом перейдём и к новой версии.

Возможности ABBYY FlexiCapture Engine for Windows:

1. Автоматическая классификация документов.
2. Обработка любых типов документов вне зависимости от структуры:
  • формы с жесткой структурой/структурированные документы: анкеты, экзаменационные тесты, бланки, страховые формы, запросы на выплату медицинской страховки, налоговые декларации и т.п.
  • слабоструктурированные документы: счета, заказы на покупку, транспортные накладные и т.п.
  • неструктурированные документы: письма, контракты, статьи и т.п.

3. Обработка многостраничных документов и таблиц.

Обработка документов происходит путем сравнения распознанного документа с набором предварительно заданных шаблонов. При этом шаблоны документов могут быть двух типов – жесткие (с заранее определенным местоположением полей в документе) и гибкие (в которых местоположение полей определяется на основе заданных элементов, данных или различного рода взаимоотношений и правил).

Для удобной и быстрой разработки шаблонов предусмотрены специальные инструменты визуального моделирования. Шаблоны можно создавать самостоятельно для любого вида документов, в том числе и для неструктурированных – это делать очень легко. Ниже – пример шаблона, который создан и применяется для обработки счетов (счета относятся к категории документов со слабой структурой), а также шаблон для бланка заявления (пример документа с жесткой структурой).





Специальное API верификации в ABBYY FlexiCapture Engine позволяет получить список полей/символов для проверки пользователем. Кроме того, возможно получить дополнительные сведения о распознанных полях, например, координаты, тип поля, список ошибок, процент уверенно распознанных символов, что в свою очередь, позволяет настроить качество проверки распознанных символов, а также отслеживать ошибки, возникающие при обработке и сборке документа.

После обработки документы могут быть экспортированы в целевую информационную систему в виде структурированных данных, и дополнительно в виде электронных документов в формате PDF или PDF/A. Эта возможность позволяет наряду с извлечением данных для последующей обработки одновременно формировать архивы электронных документов с возможностью поиска документов по их содержимому. Так, например, обработка счетов-фактур по такому сценарию позволит автоматически загружать финансовые данные в ERP систему, а электронные копии счетов-фактур в формате PDF сохранять в электронный архив.

Это классический сценарий работы продукта, но есть и более необычные. Так, ABBYY FlexiCapture Engine может устанавливаться в терминалах самообслуживания, где мы с вами платим за телефон или оплачиваем квитанции, продукт можно использовать в системах безопасности или контрольно-пропускных системах, где нужно распознавать данные с документов, удостоверяющих личность (например, с паспортов).

А ещё данные можно получать не со сканера, а с мобильного телефона и передавать их не в базу данных компании, а, например… в налоговую службу. Такой сценарий придумала и реализовала американская компания Intuit. С помощью мобильного приложения любой американец может сфотографировать свою справку о доходах (форма W-2, аналог российской НДФЛ-2), программа отправит изображение на сервер, где установлен наш FlexiCapture Engine, после обработки данные отправляются в IRS (налоговый орган США).



В одном из ближайших постов мы расскажем вам подробнее об этом проекте.
А теперь – о новой версии нашего продукта.

Что появилось нового в ABBYY FlexiCapture Engine 9.0

Эта версия содержит в себе практически все улучшения, которые появились в девятой версии продукта ABBYY FlexiCapture. Это новые языки распознавания (китайский, японский и корейский), новый многоуровневый классификатор, технология по удалению с документов цветных печатей и штампов для повышения качества распознавания или, наоборот, сокрытия отдельных полей при экспорте.

Так удаляются с документов цветные штампы. Было:



Стало:



Так работает функция скрытия отдельных полей. Было:



Стало:



Кроме улучшений в технологиях, был существенно улучшен API. В новой версии разработчики могут напрямую через код управлять процессом обработки – загружать изображения, задавать параметры обработки, формировать список накладываемых шаблонов и осуществлять выгрузку (экспорт) данных.

Исходные изображения и шаблоны обработки могут храниться не только в файловой системе на диске, но и в произвольном хранилище (базе данных, сетевом хранилище). В прошлой версии продукта при доступе к таким хранилищам необходимо было создавать временные файлы, кроме того все эти файлы должны были быть заранее загружены еще до начала обработки. В новой версии появилась возможность работы с файлами из удаленных хранилищ напрямую, обращаясь к данным в виде потока байт в памяти. Это позволяет организовать параллельную обработку и загрузку изображений (загрузить первое изображение, начать его распознавание, и одновременно загружать оставшиеся изображения). Для многих сценариев это существенно ускоряет работу программы,

Например, разработчик может сделать приложение, которое будет обрабатывать картинки пользователей, хранящиеся в веб-альбомах Picasa. При этом шаблоны для обработки этих изображений могут храниться централизованно, что удобно для поддержки базы шаблонов в актуальном состоянии.



Кроме того, ABBYY FlexiCapture Engine 9.0 специально оптимизирован для использования в многопоточном режиме, при котором задачи могут распределяться на разные ядра в многоядерных системах процессорах, и обработка документов происходит существенно быстрее.



Ещё в новой версии мы обновили и расшили библиотеку примеров кода (Code Samples Library) – список сценариев работы FCE с подсказками, как писать код, позволяющий реализовать тот или иной сценарий, и демонстрацией, как этот сценарий работает.



В одном из ближайших релизов будет добавлена ещё одна важная составляющая – визуальные компоненты – то есть элементы интерфейса, которые разработчики смогут вставлять в свои приложения.

На выходе у нас получился универсальный инструментарий разработчика, который включает в себя целый комплекс возможностей: большее количество языков распознавания, удобный в работе API, визуальные инструменты для создания шаблонов, библиотека примеров кода, поддержка различных сред разработки, ну и, конечно, точность распознавания. Предвосхищая вопросы, скажем, что версия под Linux уже в разработке.

Более подробно об ABBYY FlexiCapture 9.0 for Windows вы можете прочитать на сайте ABBYY.

Максим Бочкарёв
Департамент продуктов для разработчиков
Tags:
Hubs:
+20
Comments7

Articles

Change theme settings

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия