Как стать автором
Обновить

Комментарии 7

Браво!
Что-то мне подсказывает, скоро ручное аттрибутирование исчезнет как класс.
Про бинаризацию вы сказали, а про медианный фильтр нет, но он 146% применяется.

У меня вопрос. Используете ли вы подмешивание шума? Соответственно, Floyd–Steinberg алгоритм или другой?
Использование медианного фильтра губительно для маленьких шрифтов — съедаются засечки, исчезает внутрибуквенный просвет. В случаях, когда требуется фильтрация, мы используем ускоренный билатеральный фильтр.

Что касается подмешивания шума, то оно может существенно «озадачить» (замедлить) переборные схемы поиска и сегментации строк, когда они основаны на компонентах связности. Нашей же целью было ускорение, а не замедление системы.

Гипотетически, подмешивание шума на фоне существенного замедления могло бы дать некоторое повышение качества, но это справедливо только для алгоритмов, использующих для распознавания растр пониженного разрешения, причем понижающих разрешение усреднением, а не по ближайшему соседу. То есть — совсем не наш случай.

В целом, подмешивание шума при оптимальном (а не завышенном) разрешении изображения — это метод визуализации, улучшения «общего вида» изображения, а вовсе не подходящий для распознавания деталей метод фильтрации.
Спасибо за развернутый ответ)
Как я понял, для всех вариантов часть страниц всегда требовала в разы больше времени. Можете сказать, в чем может быть проблема со страницами, что распознавание так сильно тормозит?
Замеченное Вами различие в разы объясняется в-основном следующей причиной:
1) в некоторых страницах текстовая информация занимает мало места, например, в документах типа «Приказ» с простой формулировкой — это способствует быстрому распознаванию;
2) а некоторые страницы напечатаны мелким шрифтом, например, спецификации — это приводит к большим затратам времени Tesseract.
Быстродействие Tesseract для случая с мелким шрифтом снижается при сканировании с малым разрешением (150 dpi).
Также частый случай медленного распознавания — страницы со сложным фоном (например, свидетельства о постановке на учет в налоговом органе), именно для такого фона бинаризация дает ускорение обработки.
Скажите а как запускался сам тессеракт?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий