Комментарии 7
В своё время была задача по массовому распознаванию библиотечных карточек и парсингу текста на них. Обычный Tesseract давал 90-92% результатов.
Приходилось изворачиваться, добавляя словарь слов, словоформ и фраз, чтобы повысить качество на выходе.
Хотели ещё синхронизироваться с базой ISBN, но почему-то не дошло до этого
Да, кастомный словарь — это еще один способ улучшения качества. Подробнее описано тут: github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data. Параметры «load_system_dawg», «load_freq_dawg», «user_words_suffix» и «user_patterns_suffix» передаются через параметр «configFiles» в TesseractEngine.
Когда надо было заниматься поиском по PDF, использовал такую конструкцию в powershell:
Заголовок спойлера
add-Type -Path 'C:\pss\itextsharp\5.5.13\lib\itextsharp.dll'
$reader = New-Object iTextSharp.text.pdf.pdfreader -ArgumentList $file.FullName
$text = [iTextSharp.text.pdf.parser.PdfTextExtractor]::GetTextFromPage($reader,1).Split([char]0x000A)

5.5.13 сейчас EOL, на 7 версии скрипт не переделывал, для моих целей и старого пока достаточно)
Это работает только доступных для поиска (searchable) PDF. iTextSharp не делает OCR.
Меня очень интересует данная тематика. Как раз сейчас продумываю проект системы со схожими задачами.
А что если попробовать на начальном этапе определить на картинке только зоны с текстом, а все остальные участки заменить на белый цвет. Может это тоже сможет удалить шумы, которые оказывают влияние на нейронку. Сталкивались ли с библиотеками под .Net, которые бы решали такую задачу предобработки изображения с текстом? Может даже платными.
Определение зон с текстом на изображении — практически та же задача распознавания. Библиотек для предобработки изображений множество. Наиболее известные — OpenCV и ImageMagick. Вот тут еще варианты перечислены: tesseract-ocr.github.io/tessdoc/ImproveQuality#tools--libraries

А вот в случае, когда PDF документ содержит неправильный текст, определить блоки с текстом проще. Ведь информация о расположении текста доступна, просто маппинги в Unicode неправильные. Определить позиции существующего текста в PDF документе можно так.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.