Открыть список
Как стать автором
Обновить

Комментарии 31

Было бы неплохо, если бы вы провели сравнительное тестирование сервисов.
Я думаю, это возможно. У меня есть отсканенная страница на английском и на русском, можно показать, что получится в результате. Постараюсь сделать, мне и самому это интересно.

Полагаю, сейчас лидером будет либо FineReader либо OnlineOCR.
Я имел ввиду не только качество распознавания, но и всякие ограничения, сервис в целом. Например FineReaderOnline позволяет распознать не более 10 страниц в день.
«Разбирать» файнридер — это нехорошо.
сарказм: Сдаётся мне, что EULA Вы не читали.
Ну, я бы ответил так: если бы в 2001 году дело дошло до внедрения, мы бы связались с ABBYY и нашли бы общие интересы. Тем более, что это была разработка учебного характера, а многие компании благосклонно относятся к перспективным работам студентов.

А с другой стороны: это было давно, не судите строго.
«Гугль позволяет загрузить изображение в высоком разрешении (до 10 Мегабайт)»
Это так пишется обычно (не только в этом топике, а вообще много где встречал), как будто Гугл по этому параметру сильно обходит FineReader Online. Вообще-то у нас тоже ограничение 10 Мб :)
Нет, не обходит. Это я указал для общей информации.
Есть сервисы, которые позволяют загружать файлы по 20 мегабайт, а некоторые — только по 2 мегабайта.
Собственно, не знаю как с нашими постоянными пользователями, а вот с разработчиками FineReader online вы можете пообщатсья прямо в комментах ;)

P.S. Может перенесёте топик в какой-нибудь публичный блог, чтобы обсуждение получилось более массовым?
Куда посоветуете?
Ну, даже не знаю. Есть такой блог Сервисы. Можно его «оживить»
Ок, отправилось в Сервисы. Кстати, хороший блог — непонятно почему он затих.
с разработчиками FineReader online вы можете пообщатсья прямо в комментах

Вот бы то же самое да десяток лет назад.
Сейчас я работаю совершенно в другом направлении.
разве файнридер онлайн принимает PDF'ы?
А в посте и не говорилось, что он принимает. Там searchable PDF указан среди выходных форматов
да, прошу прощения — невнимательно прочитал
Ситуация изменилась: интернет стал быстрее (файлы mp3 уже давно больше по объёму, чем отсканированная страница в формате JPG), сканеры стоят чуть ли не повсеместно (а ещё текст можно просто сфотографировать), пользователи стараются не нагружать себе голову всякими программами и пользуются онлайн-сервисами.


Прямая заинтересованность в таких сервисах сейчас прежде всего у пользователей мобильников с нормальной камерой и скудными возможностями для чтения с фото, в отличие от чтения распознанного текста. Так и вспоминаются фотки ответов на семинар со стола препода, если их распознавать и потом пользоваться поиском по тексту…
«Прежде всего» — это Вы всё-таки загнули. Но перспективы в этом направлении, кажется, есть.
Ну, Эверноте в принципе именно для этого и создан — фотаешь какую-нибудь визитку, диаграмму или схему, а ОНО потом прямо поверх картинки показывает распознанные тексты. Вот пример с их сайта: поиск по тексту, распознанному среди рукописных надписей
FineReader online в уже оказался очень полезен, когда приходилось работать за чужим компьютером с недостаточным количеством свободного места на ЖД, то есть FineReader поставить было затруднительно, да и не было его под рукой. Распознает, по крайней мере простые тексты, хорошо.
Попробовал googlовский распознаватель — ничего не получилось, жпг на входе с русским текстом — пустой документ на выходе =(.
Поддерживается пока только латинский алфавит.
Он пока не понимает кириллицу. Это вопрос только времени.
С латиницей у него тоже пока бедулька
А что это это про cuneiform еще никто ничего не написал? Мне казалось, что тех пор как его открыли, а cli версия заработала под *nix, только ленивый не написал к нему вэб-интерфейс.
Действительно, эта система OCR с 2007 года является open-source.
Цитата с OSzone.net (не знаю, насколько ему можно доверять, дата публикации 1 января 2008г.):
… в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день.
cuneiform.ru
На сайте сейчас есть только информация о конкурсе разработок, а о результатах конкурса ничего нет.
Free Image Hosting at www.ImageShack.us
Частный случай в нашей конторе. К интернету особо не применим, так как в первую очередь, это вэб-морда для сканера, а cuneiform запряжен за компанию.
Попробывал как-то страницу в FineReader Онлайн распознать — вышло паршиво :)
Надо понимать, что всем угодить невозможно даже в большом файнридере. В онлайн-версии ещё и настройки практически недоступны, так что совсем сложно.
Вы файлик-то покажите, мы Вам что-нибудь ответим (а может и сервис подкрутим, если проблема на нашей строне).
Файлик, к сожалению, не сохранился. Вероятнее всего скан был неудовлетворительного качества.
Ну а если Вы сами знаете проблему, зачем народ пугаете? :)
прогнал ЧБ табличку среднего качества в 2х онлайн-ОЦРах, ФР онлайне и 7ке, результат:
2 онлайн переводчика — выдали кашу, процент слов крайне мал, ФР онлайн выдал документ с кучей отдельных блоков, процент слов, близок к идеалу.
ФР 7, после небольшой ручной доводки таблицы, выдал не идеальный, но хороший документ, с примерно тем же кол-вом ошибок.
т.е. пока офлайн версия, увы, вне конкуренции.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.