shibaev 18 июн 2020 в 14:36

OCR для PDF в среде .NET — как извлечь текст из недоступных для поиска PDF документов

19 мин

20K

.NET*PDFC#*

Туториал

Перевод

Комментарии 7

Germanjon 18 июн 2020 в 14:53

В своё время была задача по массовому распознаванию библиотечных карточек и парсингу текста на них. Обычный Tesseract давал 90-92% результатов.
Приходилось изворачиваться, добавляя словарь слов, словоформ и фраз, чтобы повысить качество на выходе.
Хотели ещё синхронизироваться с базой ISBN, но почему-то не дошло до этого

shibaev 18 июн 2020 в 15:59

Да, кастомный словарь — это еще один способ улучшения качества. Подробнее описано тут: github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data. Параметры «load_system_dawg», «load_freq_dawg», «user_words_suffix» и «user_patterns_suffix» передаются через параметр «configFiles» в TesseractEngine.

НЛО прилетело и опубликовало эту надпись здесь

shibaev 19 июн 2020 в 14:12

Это работает только доступных для поиска (searchable) PDF. iTextSharp не делает OCR.

dmdm 19 июн 2020 в 14:10

Меня очень интересует данная тематика. Как раз сейчас продумываю проект системы со схожими задачами.
А что если попробовать на начальном этапе определить на картинке только зоны с текстом, а все остальные участки заменить на белый цвет. Может это тоже сможет удалить шумы, которые оказывают влияние на нейронку. Сталкивались ли с библиотеками под .Net, которые бы решали такую задачу предобработки изображения с текстом? Может даже платными.

shibaev 19 июн 2020 в 14:24

Определение зон с текстом на изображении — практически та же задача распознавания. Библиотек для предобработки изображений множество. Наиболее известные — OpenCV и ImageMagick. Вот тут еще варианты перечислены: tesseract-ocr.github.io/tessdoc/ImproveQuality#tools--libraries

А вот в случае, когда PDF документ содержит неправильный текст, определить блоки с текстом проще. Ведь информация о расположении текста доступна, просто маппинги в Unicode неправильные. Определить позиции существующего текста в PDF документе можно так.

Shvedov 22 июн 2020 в 04:05

Больше на рекламу pdf либы похоже…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

OCR для PDF в среде .NET — как извлечь текст из недоступных для поиска PDF документов

Комментарии 7

Публикации

Истории