Angelina54 Nov 25 2013 at 16:42

Cognitive PDF/A – технология оцифровки текстовых документов для публикации в интернете и долговременного архивного хранения

9 min

15K

Cognitive Technologies corporate blogAlgorithms*

Привет Хабр!

Мы продолжаем публикации о технологиях оптического распознавания (OCR, ICR) и понимания документов, разработанных специалистами компании Cognitive Technologies. Сегодня наш рассказ о технологиях оцифровки текстовых документов Cognitive PDF/A.

В бизнес-сфере достаточно часто приходится сканировать бумажные документы с целью последующей пересылки по электронной почте или архивного хранения. При качественном сканировании получившиеся изображения-образы зачастую оказываются достаточно большого размера. Например, документ формата А4, отсканированный в цветном режиме при разрешении 300 DPI, имеет размер порядка 25 Мб. Использование файлов таких больших размеров неэффективно в электронных архивах, поэтому все больший интерес обретают технологии сжатия получившихся электронных образов. Классические технологии сжатия изображений (JPEG, RLE, Deflate и т.п.) не применимы, так как в общем случае документы могут содержать как монохромный текст, так и полноцветные графические области. Алгоритмы сжатия изображений без потерь, результативные для монохромных текстов, неэффективны для полноцветной графики, в то время как сжатие с потерями демонстрирует высокие показатели для цветных изображений, однако сильно искажает текстовую информацию (Рис. 1). Поэтому обычно для сжатия изображений такого типа используют комбинированный подход.

Структурное сжатие изображений документов

Изложим идею структурного сжатия на примере изображения страницы журнала (Рис. 2). Классическая страница журнала может содержать фоновый рисунок, один или несколько текстовых блоков, графических элементов (фотографии, схемы, таблицы и пр.) и каких-то пометок. Основная идея структурного сжатия изображений такого рода заключается в выделении структурных блоков, объединение данных блоков в слои (т.е. «расслоение» изображения на текстовые, графические и прочие слои) и сжатие каждого слоя наиболее подходящим образом. Так изображение страницы журнала на Рис. 2 расслаивается на четыре слоя: фон, область черного текста, область синего текста и область с фотографией. Для сохранения максимального качества, текстовые слои следует сжимать алгоритмами сжатия без потерь (например, CCITT Group 4), в то время как для фотографии вполне допустимо применение методов сжатия с потерями (JPEG). Основное место в алгоритмах структурного сжатия отводится методам расслоения исходного изображения на текстовый и графический слои.
Высокую популярность данный подход получил сравнительно недавно. Одним из примеров, реализующих идею структурного сжатия, по праву можно считать формат DjVu.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и черно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие четкие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается еще сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования (алгоритмом IW44), а маска – алгоритмом JB2.

Несмотря на высокие коэффициенты сжатия изображений документов, DjVu обладает существенным недостатком: на сегодняшний день формат не стандартизован, что затрудняет его использование в качестве средства для создания электронных архивов. К тому же использование одинаковой схемы расслоения для всех типов документов не всегда оправдано, и даже иногда может приводить к значимому искажению документа. Дополнительно стоит отметить, что в формате полностью отсутствуют какие-либо средства обеспечения безопасности и конфиденциальности документов.

Технология Cognitive PDF/A

Опишем технологию Cognitive PDF/A, предназначенную для перевода бумажных документов в электронный вид, и процесс оцифровки в соответствии с предлагаемой технологией (Рис. 3).
Первым этапом обработки является расслоение исходного изображения. В результате появляются два новых изображения. Первое содержит области исходного изображения, соответствующие текстовой информации (текстовый слой), а второе – графическим элементам (графический слой).
В соответствии с архитектурой алгоритма, текстовый слой не должен содержать никаких лишних областей, кроме текстовых блоков. Следовательно, изображение текстового слоя может быть легко распознано без какой-либо предварительной подготовки с помощью внешних OCR-систем.

Последним действием является упаковка полученных слоев и распознанного текста в PDF/A. Графический и текстовый слой подвергаются соответствующему сжатию, а распознанный текст упаковывается таким способом, чтобы обеспечить максимальное удобство поиска и копирования информации в документе.
Таким образом, технология Cognitive PDF/A состоит из трех основных частей: расслоение исходного изображения, распознавание текстового слоя с помощью OCR-системы и компактная упаковка получившихся слоев и распознанного текста в PDF/A-файл. Рассмотрим эти части более подробно.

Алгоритм расслоения

Разные типы документов обладают различными особенностями. Например, для финансовых документов характерно наличие печатей, подписей и штампов, журнальные статьи могут иметь сложный многоцветный фон, в книги часто включают полноцветные графические элементы. Поэтому технологией Cognitive PDF/A предусматриваются уникальные схемы расслоения для каждого типа документа. Выбор наилучшей схемы может осуществляться с помощью алгоритмов предварительной идентификации типа документа. Далее, в качестве примеров, будут рассмотрены схемы расслоения для двух важных типов документов: страница книги и офисный документ.
Обычно страница книги содержит черный текст на белом фоне и, возможно, графические элементы: рисунки, схемы, графики и пр. (Рис. 4)

Обычно в книгах области текста и графики не пересекаются. Еще одной ключевой особенностью верстки книг является использование шрифтов близких линейных размеров. Опираясь на эти характерные черты, построим схему расслоения изображения страницы книги.
Шаг 1. Бинаризуем исходное изображение, тем самым преобразуем его в монохромный вид (Рис. 5а). Так как изображение в основном содержало черный текст на белом фоне, то процесс бинаризации не должен сильно сказаться на областях, содержащих текстовую информацию.Шаг 2. С помощью морфологической фильтрации «сольем» слова в единые компоненты связности. Обозначим через w и h характерные ширину и высоту символов соответственно. Заметим так же, что расстояние между буквами в слове сравнимо с толщиной штриха символа, а расстояние между словами близко ширине символа. Поэтому «склеим» каждое слово в отдельную компоненту связности, выполнив размыкание с окном (Рис. 5б).

Шаг 3. Построим гистограмму высот полученных компонент связности (Рис. 6). Так как весь текст на странице напечатан примерно одинаковым по размеру шрифтом, то компоненты связности, соответствующие словам образуют на гистограмме один или несколько четко выраженных максимумов. Поэтому, анализируя гистограмму, можно вычислить характерный размер шрифта h_font, которым набран текст на странице, и, соответственно, выделить область на изображении, соответствующую текстовой информации (области, соответствующие компонентам связности с высотой порядка h_font ).
Зная область расположения текста на исходном расположении, построим маску расслоения, после чего применим ее для получения графического и текстовых слоев (Рис. 7).
Поскольку для выделения текстовых блоков используется быстрые алгоритмы морфологической фильтрации с прямоугольным окном, то очень важно, чтобы текстовые блоки были выровнены относительно осей изображения. Поэтому перед морфологией выполняется «выравнивание» изображения.
Для цветных изображений финансовых документов (счет фактур, квитанций, договоров и пр.) не характерны перечисленные выше особенности изображения страницы книги, так как графические элементы (печати, подписи, рукописные пометки) часто накладываются на текстовые блоки (Рис. 8). Следовательно, использовать для расслоения вышеописанный алгоритм неразумно. Построим схему расслоения, опираясь на цветовые характеристики изображения. Цветовая насыщенность черного текста и белого фона близка к нулю, в то время как для синих печатей и подписей это значение велико. Принимая во внимание это свойство, построим следующую схему расслоения.
Шаг 1. Построим гистограмму цветовой насыщенности (Рис. 9), т.е. зависимость y=logN_x, где N_x – количество пикселей изображения, насыщенность которых равна x.

Шаг 2. Заметим, что на гистограмме четко выделяются два класса: первый сформирован пикселями с малыми значениями цветовой насыщенности, второй – с большими значениями. Пиксели из первого класса составляют области изображения, соответствующие фону и черному тексту, из второго – графическую часть изображения. Найдем порог разделения двух классов t* методом Отсу.
Шаг 3. Расслоим исходное изображение следующим образом: пиксель сходного изображения (x,y) принадлежит текстовому слою (Рис. 10а), если значение его цветовой насыщенности меньше порогового s(x,y)<t*; иначе – пиксель (x,y) принадлежит графическому слою (Рис. 10б).

Распознавание текстового слоя

В результате расслоения мы уже получили изображения текстовых слоев, которые могут быть легко распознано без какой-либо предварительной подготовки с помощью внешних OCR-систем.
В программной реализации технологии Cognitive PDF/A в качестве OCR модуля используется система оптического распознавания текстов с открытым исходным кодом OCR CuneiForm.

Сжатие и упаковка в формат PDF/A

Полученные в результате расслоения текстовый и графический слои, а также распознанный текст сохраняются в формате PDF/A. Данный формат является стандартом ISO 19005-1:2005, базируется на описании стандарта PDF версии 1.4 от Adobe Systems Inc. и предназначен специально для долгосрочного архивного хранения электронных документов. Несмотря на то, что PDF/A является подмножеством формата PDF, существует ряд различий, обусловленных требованиями, предъявляемыми к PDF/A как к формату долгосрочного хранения электронных документов. Так, например, обязательным для PDF/A является:

Внедрение всех используемых шрифтов, в том числе шрифтов из списка «стандартных для PDF».
Если PDF/A-файл содержит изображения, то обязательным является внедрение цветового профиля – файла, в котором содержится информация о том, как выводное устройство (монитор, принтер и пр.) должно передать цвет. Важным является тот факт, что включаемый цветовой профиль должен быть аппаратно-независимым.
Обязательное наличие метаданных с указанием версии используемого формата, заголовка документа, списка авторов, краткого описания, даты создания и последней модификации файла документа, а также ключевых слова для осуществления поиска. Спецификацией PDF/A также оговорен формат представления метаданных – Adobe Extensible Metadata Platform (XMP).

Для увеличения коэффициента сжатия, графический и текстовый слои сжимаются разными способами. В силу специфики содержимого, графический слой приводится к разрешению 100 DPI и кодируется алгоритмом JPEG. Текстовый слой заключает в себе основную информацию документа, следовательно, текстовый слой сохраняется в исходном разрешении, а для кодирования используются алгоритм сжатия без потерь CCITT Group 4.

Экспериментальные результаты

Оценка эффективности технологии в автоматическом режиме представляется практически невозможной – ведь недостаточно сравнить лишь размер выходного качества, необходимо также сравнивать качество полученного «компактного электронного документа». Поэтому, фактически оценка производится органолептически (то есть, «на глазок»).
На Рис. 11 представлены некоторые тестовые изображения, которые были сжаты алгоритмами JPEG (уровень компрессии, при котором сохраняется читабельность), DjVu и Cognitive PDF/A. По результатам сравнения видно (см. Таблицу), что технология Cognitive PDF/A по степени сжатия на порядок обходит JPEG, однако проигрывает DjVu. Такую разницу в размере можно объяснить тем, что в файл в формате PDF/A помимо полезной информации (собственно изображений и распознанного текста) содержит также вспомогательные данные, необходимые для долгосрочного хранения. Не смотря на меньший размер файлов DjVu, качество сжатия офисных документов ниже, что особенно проявляется в районе печатей и подписей.

Изображение и результаты, представленные в этой таблице можно скачать по адресу: yadi.sk/d/7us8gghADHVrg

Полный текст статьи опубликован:
Усилин С.А., Николаев Д.П., Постников В.В. Cognitive PDF/A – технология оцифровки текстовых документов для публикации в Интернет и долговременного архивного хранения // Труды Института системного анализа РАН. Технологии программирования и хранения данных / под ред. Арлазаров В.Л., Емельянов Н.Е. М.: ЛЕНАНД, 2009. Т. 45. С. 159–173.