copist Oct 5 2009 at 08:51

OCR online

3 min

5.5K

Self Promo

+42

Comments 31

stboris Oct 5 2009 at 11:33

Было бы неплохо, если бы вы провели сравнительное тестирование сервисов.

copist Oct 5 2009 at 15:31

Я думаю, это возможно. У меня есть отсканенная страница на английском и на русском, можно показать, что получится в результате. Постараюсь сделать, мне и самому это интересно.

Полагаю, сейчас лидером будет либо FineReader либо OnlineOCR.

stboris Oct 5 2009 at 15:46

Я имел ввиду не только качество распознавания, но и всякие ограничения, сервис в целом. Например FineReaderOnline позволяет распознать не более 10 страниц в день.

MKrivosheev Oct 5 2009 at 17:33

«Разбирать» файнридер — это нехорошо.
сарказм: Сдаётся мне, что EULA Вы не читали.

-1

copist Oct 5 2009 at 20:41

Ну, я бы ответил так: если бы в 2001 году дело дошло до внедрения, мы бы связались с ABBYY и нашли бы общие интересы. Тем более, что это была разработка учебного характера, а многие компании благосклонно относятся к перспективным работам студентов.

А с другой стороны: это было давно, не судите строго.

MKrivosheev Oct 5 2009 at 17:39

«Гугль позволяет загрузить изображение в высоком разрешении (до 10 Мегабайт)»
Это так пишется обычно (не только в этом топике, а вообще много где встречал), как будто Гугл по этому параметру сильно обходит FineReader Online. Вообще-то у нас тоже ограничение 10 Мб :)

copist Oct 5 2009 at 21:30

Нет, не обходит. Это я указал для общей информации.
Есть сервисы, которые позволяют загружать файлы по 20 мегабайт, а некоторые — только по 2 мегабайта.

dimonline Oct 5 2009 at 17:42

Собственно, не знаю как с нашими постоянными пользователями, а вот с разработчиками FineReader online вы можете пообщатсья прямо в комментах ;)

P.S. Может перенесёте топик в какой-нибудь публичный блог, чтобы обсуждение получилось более массовым?

copist Oct 5 2009 at 20:42

Куда посоветуете?

dimonline Oct 5 2009 at 21:06

Ну, даже не знаю. Есть такой блог Сервисы. Можно его «оживить»

copist Oct 5 2009 at 21:43

Ок, отправилось в Сервисы. Кстати, хороший блог — непонятно почему он затих.

copist Oct 5 2009 at 20:45

с разработчиками FineReader online вы можете пообщатсья прямо в комментах

Вот бы то же самое да десяток лет назад.
Сейчас я работаю совершенно в другом направлении.

comp3v Oct 5 2009 at 23:27

разве файнридер онлайн принимает PDF'ы?

dimonline Oct 5 2009 at 23:39

А в посте и не говорилось, что он принимает. Там searchable PDF указан среди выходных форматов

comp3v Oct 5 2009 at 23:40

да, прошу прощения — невнимательно прочитал

Imenem Oct 6 2009 at 00:31

Ситуация изменилась: интернет стал быстрее (файлы mp3 уже давно больше по объёму, чем отсканированная страница в формате JPG), сканеры стоят чуть ли не повсеместно (а ещё текст можно просто сфотографировать), пользователи стараются не нагружать себе голову всякими программами и пользуются онлайн-сервисами.

Прямая заинтересованность в таких сервисах сейчас прежде всего у пользователей мобильников с нормальной камерой и скудными возможностями для чтения с фото, в отличие от чтения распознанного текста. Так и вспоминаются фотки ответов на семинар со стола препода, если их распознавать и потом пользоваться поиском по тексту…

MKrivosheev Oct 6 2009 at 00:42

«Прежде всего» — это Вы всё-таки загнули. Но перспективы в этом направлении, кажется, есть.

copist Oct 6 2009 at 00:53

Ну, Эверноте в принципе именно для этого и создан — фотаешь какую-нибудь визитку, диаграмму или схему, а ОНО потом прямо поверх картинки показывает распознанные тексты. Вот пример с их сайта: поиск по тексту, распознанному среди рукописных надписей

sasha_gud Oct 6 2009 at 09:40

FineReader online в уже оказался очень полезен, когда приходилось работать за чужим компьютером с недостаточным количеством свободного места на ЖД, то есть FineReader поставить было затруднительно, да и не было его под рукой. Распознает, по крайней мере простые тексты, хорошо.

tearaway_Tea Oct 6 2009 at 10:52

Попробовал googlовский распознаватель — ничего не получилось, жпг на входе с русским текстом — пустой документ на выходе =(.

gnd Oct 6 2009 at 12:38

Поддерживается пока только латинский алфавит.

pxx Oct 6 2009 at 13:39

Он пока не понимает кириллицу. Это вопрос только времени.

IBB4 Oct 7 2009 at 14:55

С латиницей у него тоже пока бедулька

moscow_beast Oct 6 2009 at 11:33

А что это это про cuneiform еще никто ничего не написал? Мне казалось, что тех пор как его открыли, а cli версия заработала под *nix, только ленивый не написал к нему вэб-интерфейс.

copist Oct 6 2009 at 13:34

Действительно, эта система OCR с 2007 года является open-source.
Цитата с OSzone.net (не знаю, насколько ему можно доверять, дата публикации 1 января 2008г.):

… в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день.

cuneiform.ru
На сайте сейчас есть только информация о конкурсе разработок, а о результатах конкурса ничего нет.

moscow_beast Oct 6 2009 at 19:10

Частный случай в нашей конторе. К интернету особо не применим, так как в первую очередь, это вэб-морда для сканера, а cuneiform запряжен за компанию.

BReal Oct 6 2009 at 18:21

Попробывал как-то страницу в FineReader Онлайн распознать — вышло паршиво :)

MKrivosheev Oct 6 2009 at 19:04

Надо понимать, что всем угодить невозможно даже в большом файнридере. В онлайн-версии ещё и настройки практически недоступны, так что совсем сложно.
Вы файлик-то покажите, мы Вам что-нибудь ответим (а может и сервис подкрутим, если проблема на нашей строне).

BReal Oct 7 2009 at 11:26

Файлик, к сожалению, не сохранился. Вероятнее всего скан был неудовлетворительного качества.

MKrivosheev Oct 7 2009 at 11:30

Ну а если Вы сами знаете проблему, зачем народ пугаете? :)

wakh Mar 2 2010 at 17:32

прогнал ЧБ табличку среднего качества в 2х онлайн-ОЦРах, ФР онлайне и 7ке, результат:
2 онлайн переводчика — выдали кашу, процент слов крайне мал, ФР онлайн выдал документ с кучей отдельных блоков, процент слов, близок к идеалу.
ФР 7, после небольшой ручной доводки таблицы, выдал не идеальный, но хороший документ, с примерно тем же кол-вом ошибок.
т.е. пока офлайн версия, увы, вне конкуренции.

Show the best of all time