Как стать автором
Обновить

Комментарии 7

В своё время была задача по массовому распознаванию библиотечных карточек и парсингу текста на них. Обычный Tesseract давал 90-92% результатов.
Приходилось изворачиваться, добавляя словарь слов, словоформ и фраз, чтобы повысить качество на выходе.
Хотели ещё синхронизироваться с базой ISBN, но почему-то не дошло до этого
Да, кастомный словарь — это еще один способ улучшения качества. Подробнее описано тут: github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data. Параметры «load_system_dawg», «load_freq_dawg», «user_words_suffix» и «user_patterns_suffix» передаются через параметр «configFiles» в TesseractEngine.
НЛО прилетело и опубликовало эту надпись здесь
Это работает только доступных для поиска (searchable) PDF. iTextSharp не делает OCR.
Меня очень интересует данная тематика. Как раз сейчас продумываю проект системы со схожими задачами.
А что если попробовать на начальном этапе определить на картинке только зоны с текстом, а все остальные участки заменить на белый цвет. Может это тоже сможет удалить шумы, которые оказывают влияние на нейронку. Сталкивались ли с библиотеками под .Net, которые бы решали такую задачу предобработки изображения с текстом? Может даже платными.
Определение зон с текстом на изображении — практически та же задача распознавания. Библиотек для предобработки изображений множество. Наиболее известные — OpenCV и ImageMagick. Вот тут еще варианты перечислены: tesseract-ocr.github.io/tessdoc/ImproveQuality#tools--libraries

А вот в случае, когда PDF документ содержит неправильный текст, определить блоки с текстом проще. Ведь информация о расположении текста доступна, просто маппинги в Unicode неправильные. Определить позиции существующего текста в PDF документе можно так.
Больше на рекламу pdf либы похоже…
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории