shibaev Jun 18 2020 at 14:36

OCR для PDF в среде .NET — как извлечь текст из недоступных для поиска PDF документов

19 min

20K

.NET*PDFC#*

Tutorial

Translation

Comments 7

Germanjon Jun 18 2020 at 14:53

В своё время была задача по массовому распознаванию библиотечных карточек и парсингу текста на них. Обычный Tesseract давал 90-92% результатов.
Приходилось изворачиваться, добавляя словарь слов, словоформ и фраз, чтобы повысить качество на выходе.
Хотели ещё синхронизироваться с базой ISBN, но почему-то не дошло до этого

shibaev Jun 18 2020 at 15:59

Да, кастомный словарь — это еще один способ улучшения качества. Подробнее описано тут: github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data. Параметры «load_system_dawg», «load_freq_dawg», «user_words_suffix» и «user_patterns_suffix» передаются через параметр «configFiles» в TesseractEngine.

UFO just landed and posted this here

shibaev Jun 19 2020 at 14:12

Это работает только доступных для поиска (searchable) PDF. iTextSharp не делает OCR.

dmdm Jun 19 2020 at 14:10

Меня очень интересует данная тематика. Как раз сейчас продумываю проект системы со схожими задачами.
А что если попробовать на начальном этапе определить на картинке только зоны с текстом, а все остальные участки заменить на белый цвет. Может это тоже сможет удалить шумы, которые оказывают влияние на нейронку. Сталкивались ли с библиотеками под .Net, которые бы решали такую задачу предобработки изображения с текстом? Может даже платными.

shibaev Jun 19 2020 at 14:24

Определение зон с текстом на изображении — практически та же задача распознавания. Библиотек для предобработки изображений множество. Наиболее известные — OpenCV и ImageMagick. Вот тут еще варианты перечислены: tesseract-ocr.github.io/tessdoc/ImproveQuality#tools--libraries

А вот в случае, когда PDF документ содержит неправильный текст, определить блоки с текстом проще. Ведь информация о расположении текста доступна, просто маппинги в Unicode неправильные. Определить позиции существующего текста в PDF документе можно так.

Shvedov Jun 22 2020 at 04:05

Больше на рекламу pdf либы похоже…

Show the best of all time