Pull to refresh

Comments 7

В своё время была задача по массовому распознаванию библиотечных карточек и парсингу текста на них. Обычный Tesseract давал 90-92% результатов.
Приходилось изворачиваться, добавляя словарь слов, словоформ и фраз, чтобы повысить качество на выходе.
Хотели ещё синхронизироваться с базой ISBN, но почему-то не дошло до этого
Да, кастомный словарь — это еще один способ улучшения качества. Подробнее описано тут: github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data. Параметры «load_system_dawg», «load_freq_dawg», «user_words_suffix» и «user_patterns_suffix» передаются через параметр «configFiles» в TesseractEngine.
UFO just landed and posted this here
Это работает только доступных для поиска (searchable) PDF. iTextSharp не делает OCR.
Меня очень интересует данная тематика. Как раз сейчас продумываю проект системы со схожими задачами.
А что если попробовать на начальном этапе определить на картинке только зоны с текстом, а все остальные участки заменить на белый цвет. Может это тоже сможет удалить шумы, которые оказывают влияние на нейронку. Сталкивались ли с библиотеками под .Net, которые бы решали такую задачу предобработки изображения с текстом? Может даже платными.
Определение зон с текстом на изображении — практически та же задача распознавания. Библиотек для предобработки изображений множество. Наиболее известные — OpenCV и ImageMagick. Вот тут еще варианты перечислены: tesseract-ocr.github.io/tessdoc/ImproveQuality#tools--libraries

А вот в случае, когда PDF документ содержит неправильный текст, определить блоки с текстом проще. Ведь информация о расположении текста доступна, просто маппинги в Unicode неправильные. Определить позиции существующего текста в PDF документе можно так.
Больше на рекламу pdf либы похоже…
Sign up to leave a comment.

Articles