Комментарии 12
Странный результат у ABBYY. Они же распознаванием текстов десятилетия занимаются.
+6
Как мы и отметили в комментариях к цифрам, они верны для данных из домена in the wild, с изображениями из данного датасета можно ознакомится по ссылке. Это тот домен, который был интересен для наших пользователей: перевести текст с вывески или объявления, поискать по тексту на бытовом приборе. Для других доменов результаты могут существенно отличаться.
+1
НЛО прилетело и опубликовало эту надпись здесь
Цифры на получившемся датасете приведены ниже:
Было бы интересно добавить tesseract к сравнению
0
Очень странные сравнения были сделаны в данном посте.
При самостоятельном прогоне пары тысяч документов (распознавание текста со скан-образов, то «чем все не ограничивается») ABBYY и Google Cloud показали себя намного лучше.
Интересно узнать какие параметры были переданы для движка ABBYY — после работы с FC12R2 и его полной настройки он выдавал правильный результат в 95+% случаев(да, это не голый движок, но и яндекс не предлагает настроек распознавания, так что сравнивается предоставляемый конечный продукт).
Так же имеется вопрос к ABBYY — насколько я понимаю у их движок для мобильных был доработан для работы с «реальными объектами», не лучше ли было использовать его для теста?
По крайней мере в этих решениях я могу получить результат в нужном мне виде, смотря на каждый отдельный символ, у облака яндекса же минимальной единицей полученной информации было слово, что не очень удобно для извлечения значимой информации.
И было бы очень интересно посмотреть как 4/5 версия тессеракта будет себя вести при обучении на том же количестве картинок.
При самостоятельном прогоне пары тысяч документов (распознавание текста со скан-образов, то «чем все не ограничивается») ABBYY и Google Cloud показали себя намного лучше.
Интересно узнать какие параметры были переданы для движка ABBYY — после работы с FC12R2 и его полной настройки он выдавал правильный результат в 95+% случаев(да, это не голый движок, но и яндекс не предлагает настроек распознавания, так что сравнивается предоставляемый конечный продукт).
Так же имеется вопрос к ABBYY — насколько я понимаю у их движок для мобильных был доработан для работы с «реальными объектами», не лучше ли было использовать его для теста?
По крайней мере в этих решениях я могу получить результат в нужном мне виде, смотря на каждый отдельный символ, у облака яндекса же минимальной единицей полученной информации было слово, что не очень удобно для извлечения значимой информации.
И было бы очень интересно посмотреть как 4/5 версия тессеракта будет себя вести при обучении на том же количестве картинок.
+15
В процессе обучения нейросетей большую роль играют данные, на которых они тренируются. Кроме того, чем точнее сформулирована задача и описан пользовательский сценарий, тем эффективнее будет работать алгоритм. Если у вас есть задача по анализу документов, алгоритм, натренированный на анализе изображений, не будет с ней справляться так, как алгоритм, обученный именно для документов, и наоборот.
ABBYY Cloud OCR SDK в первую очередь предназначен для работы с документами и обучен именно на них. Поэтому результаты Яндекса ожидаемые для сценария «in the wild», в котором нужно анализировать изображения, но сравнивать решения в этом контексте некорректно, потому что этот сценарий для Cloud OCR SDK не целевой.
Когда я увидел эти результаты в докладе ребят из Яндекса я честно с ними связался и попытался выяснить, зачем они включают в результат некорректное сравнение. К сожалению, они мою позицию в тексте поста приводить отказались, так что напишу её в комментариях.
Вообще, для решения задачи распознавания текстов на изображении существуют другие решения ABBYY, об одном из которых мы рассказывали на Хабре. Советую прочитать про него ;)
ABBYY Cloud OCR SDK в первую очередь предназначен для работы с документами и обучен именно на них. Поэтому результаты Яндекса ожидаемые для сценария «in the wild», в котором нужно анализировать изображения, но сравнивать решения в этом контексте некорректно, потому что этот сценарий для Cloud OCR SDK не целевой.
Когда я увидел эти результаты в докладе ребят из Яндекса я честно с ними связался и попытался выяснить, зачем они включают в результат некорректное сравнение. К сожалению, они мою позицию в тексте поста приводить отказались, так что напишу её в комментариях.
Вообще, для решения задачи распознавания текстов на изображении существуют другие решения ABBYY, об одном из которых мы рассказывали на Хабре. Советую прочитать про него ;)
+40
Привет, спасибо за коммент. Мы (и пользователи) не знаем про такие непубличные детали. Мы проводили сравнение на известных нам публичных движках, которые заявляют лидерство в OCR (в широком смысле). Мы обсуждали это в личке, и текущее сравнение ничего не говорит про качество распознавания в домене документов, что мы дополнительно отметили. Если у вас есть другое решение под эту задачу — буду рад обсудить ещё один публичный тест :)
-14
Никита, пожалуйста, я всегда рад. Этот коммент, кстати, был у тебя в личной переписке уже пару недель назад. Кстати, там же были скриншоты сайта, из которых понятно, что вы сравниваете продукт в нецелевом для него сценарии. Я лично за конкуренцию. От неё выигрывает и конечный пользователь, и инженерам интересней. Я только против сравнения в духе «Пробовали пилить вашим скальпелем дрова. По сравнению с нашей бензопилой — очень плохо работает».
+22
У вас есть публичное API для решения in the wild?
0
Неплохо так Яндекс хайпанулся над ABBYY и Google: «Смотрите! На этих изображениях мы лучше всех!»
+10
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как мы создавали технологию оптического распознавания текста. OCR в Яндексе