Комментарии 35
Далеко не первый подобный сервис, но… Замечательно, что тут еще можно сказать :) Ждем для русского.
+7
Черт, неужели появится альтернатива ужасным и платным файнридерам! Ура.
Кстати, вопрос в тему, есть сейчас нормальный руссифицированный OCR, чтобы бесплатно?
Кстати, вопрос в тему, есть сейчас нормальный руссифицированный OCR, чтобы бесплатно?
+12
CuneiForm
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.
Совсем русский и совсем бесплатный. И под Линукс тоже.
Использовал под Вин, отказался в пользу ФайнРидера. Неудобная разметка текстовых блоков и качество распознавания хуже чем у ФайнРидера.
+4
>> неужели появится альтернатива ужасным и платным файнридерам
Чем это он так ужасен? Вроде отличная удобная программа.
Чем это он так ужасен? Вроде отличная удобная программа.
+4
да не, очень неплохая, просто за неё бабло платить надо, а это не всегда удобно. Особенно, когда OCR тебе нужен раз в год.
0
у них есть бесплатный онлайн-сервис с ограниченным количеством распознаваний в день.
+5
Да, как раз два дня назад пытался воспользоваться. На отсканированную страничку (одну) он мне заявил, что там 19 листов и отказался что-либо делать, т.к. бесплатный лимит — 10.
+2
Через анонимайзер можно вволю юзать? :)
+1
Насчёт «ужасный». Сам в данный момент FineReader-ом не пользуюсь, но в теме одного крупного форума, посвящённого данному продукту, тусуюсь. Так вот, мнение большинства тамошних пользователей: последние версии (9, 10) хуже предыдущих (7, 8). И по удобству использования, и по уровню глючности
Возможно говоря «ужасный» люди подразумевают именно новые версии
Возможно говоря «ужасный» люди подразумевают именно новые версии
0
www.cuneiform.ru/ Насколько я помню эта программа бесплатна и знает русский.
+1
finereader.abbyyonline.com плох?
0
Кто-нибудь уже тестировал? Насколько сильно портится форматирование?
+1
0
Напишу как лицо заинтересованное в том, чтобы опорочить конкурентов :-)
Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.
Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.
Попробовал загрузить туда пару картинок и посмотреть на качество распознавания. Для документов с простым форматированием (одна колонка, контрастный текст на светлом фоне) качество распознавания довольно хорошее. Но если документ содержит более сложное ворматирование, например, несколько колонок, таблицы, неконтрастный текст, то качество распознавания существенно хуже файнридера.
Надо будет ещё сделать дополнительные тесты, но по ощущениям там внутри находится движок OCRopus/tesseract. Для простых документов пойдёт, для сложных лучше всё-таки пользоваться коммерческим OCR.
+2
Это лучшая новость за сегодня, развития проекту!
0
Сильно портит таблицы в простом pdf.
0
А сырцы? Т.е. это всё хорошо, но было бы очень мило, если бы гугль «показал личико».
-4
А какое расширение будет в документах «формата Google». Или они вообще без расширения? Или они вообще не файлы :)
0
самое интересное — что это никому не нужно
потому что качество подобного распознавания в современных ocr годится только для малолетних детей
потому что качество подобного распознавания в современных ocr годится только для малолетних детей
0
Кхм, это 99.9% правильно распознанного текста того же файнридера вы считаете годным только для малолеток?
0
что-то я сомневаюсь что цифра равна 99,9 процентов
0
Ну так вы сначала с калькулятором посчитайте итог на практическом примере, а потом сомневайтесь сколько душе угодно :)
Между прочим, цифра не такая уж и фантастическая, как вам кажется. 99.9% — это несколько неправильно распознанных букв/слов на странице.
Разумеется, речь сейчас идёт о качественных сканах и фото. Размазанная картинка естественно будет распознано плохо, кто бы сомневался
Между прочим, цифра не такая уж и фантастическая, как вам кажется. 99.9% — это несколько неправильно распознанных букв/слов на странице.
Разумеется, речь сейчас идёт о качественных сканах и фото. Размазанная картинка естественно будет распознано плохо, кто бы сомневался
0
Надеюсь что API будет.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
В Google Docs появилось OCR