Как стать автором
Обновить

Как мы создавали технологию оптического распознавания текста. OCR в Яндексе

Время на прочтение12 мин
Количество просмотров19K
Всего голосов 65: ↑41 и ↓24+17
Комментарии12

Комментарии 12

Странный результат у ABBYY. Они же распознаванием текстов десятилетия занимаются.
Как мы и отметили в комментариях к цифрам, они верны для данных из домена in the wild, с изображениями из данного датасета можно ознакомится по ссылке. Это тот домен, который был интересен для наших пользователей: перевести текст с вывески или объявления, поискать по тексту на бытовом приборе. Для других доменов результаты могут существенно отличаться.
НЛО прилетело и опубликовало эту надпись здесь
Цифры на получившемся датасете приведены ниже:

Было бы интересно добавить tesseract к сравнению

Очень странные сравнения были сделаны в данном посте.

При самостоятельном прогоне пары тысяч документов (распознавание текста со скан-образов, то «чем все не ограничивается») ABBYY и Google Cloud показали себя намного лучше.

Интересно узнать какие параметры были переданы для движка ABBYY — после работы с FC12R2 и его полной настройки он выдавал правильный результат в 95+% случаев(да, это не голый движок, но и яндекс не предлагает настроек распознавания, так что сравнивается предоставляемый конечный продукт).

Так же имеется вопрос к ABBYY — насколько я понимаю у их движок для мобильных был доработан для работы с «реальными объектами», не лучше ли было использовать его для теста?

По крайней мере в этих решениях я могу получить результат в нужном мне виде, смотря на каждый отдельный символ, у облака яндекса же минимальной единицей полученной информации было слово, что не очень удобно для извлечения значимой информации.

И было бы очень интересно посмотреть как 4/5 версия тессеракта будет себя вести при обучении на том же количестве картинок.
В процессе обучения нейросетей большую роль играют данные, на которых они тренируются. Кроме того, чем точнее сформулирована задача и описан пользовательский сценарий, тем эффективнее будет работать алгоритм. Если у вас есть задача по анализу документов, алгоритм, натренированный на анализе изображений, не будет с ней справляться так, как алгоритм, обученный именно для документов, и наоборот.

ABBYY Cloud OCR SDK в первую очередь предназначен для работы с документами и обучен именно на них. Поэтому результаты Яндекса ожидаемые для сценария «in the wild», в котором нужно анализировать изображения, но сравнивать решения в этом контексте некорректно, потому что этот сценарий для Cloud OCR SDK не целевой.

Когда я увидел эти результаты в докладе ребят из Яндекса я честно с ними связался и попытался выяснить, зачем они включают в результат некорректное сравнение. К сожалению, они мою позицию в тексте поста приводить отказались, так что напишу её в комментариях.

Вообще, для решения задачи распознавания текстов на изображении существуют другие решения ABBYY, об одном из которых мы рассказывали на Хабре. Советую прочитать про него ;)

Привет, спасибо за коммент. Мы (и пользователи) не знаем про такие непубличные детали. Мы проводили сравнение на известных нам публичных движках, которые заявляют лидерство в OCR (в широком смысле). Мы обсуждали это в личке, и текущее сравнение ничего не говорит про качество распознавания в домене документов, что мы дополнительно отметили. Если у вас есть другое решение под эту задачу — буду рад обсудить ещё один публичный тест :)

Никита, пожалуйста, я всегда рад. Этот коммент, кстати, был у тебя в личной переписке уже пару недель назад. Кстати, там же были скриншоты сайта, из которых понятно, что вы сравниваете продукт в нецелевом для него сценарии. Я лично за конкуренцию. От неё выигрывает и конечный пользователь, и инженерам интересней. Я только против сравнения в духе «Пробовали пилить вашим скальпелем дрова. По сравнению с нашей бензопилой — очень плохо работает».
У вас есть публичное API для решения in the wild?
Выше в комментариях была ссылка на статью на Хабре. И у нас уже давно есть соответствующий продукт, но он не облачный, а работает на мобильных устройствах из видео-потока
Неплохо так Яндекс хайпанулся над ABBYY и Google: «Смотрите! На этих изображениях мы лучше всех!»
В качестве тестового полигона, сравнения с ABBYY, можно использовать сервис Webarxive
уже распознанных файлов залитых пользователями и разобранных на отдельные страницы-изображения.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий