Открыть список
Как стать автором
Обновить

Комментарии 54

Специально не написали тут что только под винду?
Тут вообще мало технических подробностей о продукте. Просто один из сценариев использования.
Конечно же, работа с почтой — не единственная возможность. Но это уже совсем другая история :)
у нас в маленькой конторе стоит тот самый, что представлен на фото принтер :)
Знаю его со всех строн, умеет много того, о чём когда мечтал…

кстати себестоимость печати у него где-то в районе 2х рублей за лист. (одинаково часто печатаем полноценный А3 и А4 ) есть минусы, и косяки, но в общем хорош, прошлый А3 полно цвет, нам выдавал 7 рублей за 1 лист А3
А суть топика Вас совсем не интересует? :)
Может подскажете, что в нём не так?
Kyocera KM-5050, меньше рубля за лист, правда обслуживание дороговато…
как это дороговато?
я годовые расходы на расходники и обслугу, разделил на число отпечатков. вот и получил 2 рубля за лист.
~100 000 отпечатков было сделано, потрачено ~ 200 000р.
Неплохая идея, хранить вордовский документ всяко проще чем картинку. Проблема остается с именем файла и с паранойей, которая не разрешает отправлять сканы задниц секретные документы по незнакомым адресам.

А профит можно осуществлять через экономию тонера, распознанные страницы не будут содержать черных краев на ксерокопиях или отсканированных страницах толстенных фолиантов.
не по незнакомым, а по специально предназначенному ящику на домене вашей компании, который проверяет бездушный робот работающий опять же в вашей компании
в автоматическом режиме распознавание текста может и приличное, но когда речь касается таблиц и элементов оформления…
А у вас какая версия RS? О серьёзных систематических проблемах с таблицами ничего не известно.
В техподдержку пробовали обращаться? Милые девушки внимательно выслушают и наверняка помогут :)
вы пробовали распознавать журнальную страницу с фоновой картинкой и разукрашенной в разные цвета (как фона, так и букв) таблицей с наличием слитых в одну ячеек?
Что-то подобное?

скорее такое:
а как дела с документами у которых графика(печати к примеру) перекрывают текст/таблицы?
Сложно сказать. По сути, как повезёт.
Не перекрытый текст должен распознаваться хорошо. А на пересечении с печатью будет либо картинка, либо мусорные символы напополам с правильными.
Позволю себе усомниться, что какой-либо OCR в ближайшее время полностью решит эту проблему.
Что-то вы как-то депрессивно-пессимистичны для сотрудника ABBY…
То что бы написали это унижающее вас и компанию нелепое детское оправдание.
Правильный ответ должен быть таким:
К сожалению, ни мы, ни, справедливости ради сказать, наши партнеры пока не научились достаточно хорошо решать эту проблему, но это одно из самых активных направлений наших исследований. Это отличный и яркий челенж для нас! Не сомневаюсь, в одной из следующих наших версий адекватность распознания таких картинок приятно удивит Вас.
забыли тег <сарказм> ))
распознать где на документе печати (по форме и цвету), убрать их с картинки, распознать текст.
почему это до сих пор не прикрутили — неведомо, фича вострабованная.
а особо круто было бы сделать полупрозрачную картинку с печатью и наложить ее поверх текста.
НЛО прилетело и опубликовало эту надпись здесь
Ваш юмор для меня не особо понятен
Как только поставишь Linux на ксерокс. Хотя я уже подозреваю что он уже там.
Линукс стоит как минимум на офисных копирах Коника Минолта (что-то мне подсказывает что на самом то деле и всех остальных). Мало того, движек файнридера под линукс давно есть, но без гуи и не лдя конечного пользователя. И в вышеупомянутые Коника Минолтовские копиры его можно поставить. Таким образом распознование будет вестить уже на самом копире без необходимости в сервере.
Да не обращай внимания, у них тут своя тусовка.
Все, на самом деле, проще простого. Берешь Cuneiform (или любой другой OCR, работающий из консоли), пишешь простой скрипт в две строчки, который из почты берет картинку, скармливает ее OCR`у и результат отправляет куда скажешь.
Я баловался так некоторое время назад, но за ненадобностью отключил.
>Берешь Cuneiform
И начинаешь его допиливать, чтобы он нормально распознавал. И только потом все остальное…
ну, cuneiform не так уж и страшен. и допиленные умельцами сборки иногда попадаются.
Тоже кстати баловался Cuneiform. Он отлично вливается в unix-way: перед тем как скормить скан cuneiform, можно отпидорасить его средствами imagemagik (вроде на хабаре даже статьи попадались). Задачка занятная, но не слишком трудоемкая.
Забавно, но вы же наверное и сами знаете что это сейчас реализуется гораздо удобнее.

В стандартной поставке офисных сканеров HP есть распознавалка + настраиваемые кнопки на сканере. На сканер прилеплена бумажка — первая кнопка = JPG высокого качества, вторая = JPG низкого качества, третья = PDF документ, четвертая = распознанный .DOC… Остается нажать кнопку и результат будет в офисной публичной расшареной папке, откуда его можно забрать.

Не надо вводить никаких емейлов и т.п. Просто засунуть документ и нажать одну кнопку.
Ну так то железка специальная нужна. Встраивание в такие железки — это особая тема. Возможно, на эту тему тоже что-нибудь напишем в блоге :)
А в «публичную расшаренную папку» — это и мы умеем :)
Мы вообще много чего умеем. Как я уже говорил выше, в топике описан всего один сценарий использования.
> Тут вообще мало технических подробностей о продукте.
> Конечно же, работа с почтой — не единственная возможность. Но это уже совсем другая история :)
> Мы вообще много чего умеем.

А почему бы не привести полный список фич? Или хотя бы ссылку на него?
www.abbyy.com/recognition_server/

Или это специально, чтобы подогреть народ? :)
вы правы, принтерными компаниями данная функция давно уже реализована
причем давным-давно
вы не подскажете/посоветуете модель подобного сканера?
У нас например стоит HP Scanjet 5590, уже достаточно старый. В большинстве HP сканеров с автоподатчиком я думаю есть такое.
расшаренная папка хороша в маленьком офисе
а там, где сидит 100+ сотрудников, сведенных на 2-3 этажных МФУ емейл рулит
Извините, я правильно понял, что Recognition Server умеет забирать картинки из почты, передавать движку распознавания и результат отправлять по почте? Но ведь это и на базе обычного FineReader на любом языке программирования можно за 1 день и 100 строк кода реализовать.
Еще остались люди, находящиеся между этапами «умею снимать копии на МФУ» и «умею программировать на C++».
А сервер проверяет орфографию перед отправкой, или оставляет это на совести пользователя?
Считаю полезной функцией для офиса с большим док.оборотом.

Лично я бы не взялся писать замену этому продукту, ума у меня в данном направлении не хватит. Да и ловить баги в рабочем процессе иногда дорого.

Вот цена вопроса не рассмотрена, это да, плохо.
«1. Сотрудник выбирает в настройках МФУ «отправить результат по почте»
2. Указывает свой адрес и тот специальный адрес ocr@company.com»

— опираясь на свой опыт работы в среднестатистической компании, на одном из этих пунктов (а скорее всего уже на первом) у 80% сотрудников процесс получения документа в электронном виде остановится. Дальше нажатия «большой зеленой кнопки» для получения копии у них дело идет с большим трудом не смотря на все попытки обучения. Или это мне с юзерами так не повезло?
скорее не повезло с педадогическими способностями :)
Можно использовать утилиту ABBYY HotFolder & Scheduling которая входит в FineReader Corporate Edition. Утилита постоянно мониторит сетевую папку, обнаружив в ней картинке шустро их распознает и выкладывает обратно уже распознанный результат.

Наши пользователи довольны, — им достаточно выучить в такую-то папку нужно положить скан, подождать 2 минуты и забрать оттуда же результат.

Т.е. если целью задачи является освободить рабочие места от лишнего софта, то и эта утилита ее решает. И что-то мне подсказывает, что FineReader Corporate Edition будет несколько дешевле, чем Recognition Server. Буду рад ошибиться.
По сравнению с RS у HotFolder намного меньше гибкости в настройке, нет API, он не масштабируется. Ну это только из того, что мне пришло на ум сходу. Отличий, наверно, даже больше :)
А разница в цене?

FineReader 10 Corporate Edition — 9990.00 руб., стоимость Recognition Server не афишируется. Тот сценарий который вы озвучили (типовой офис и МФУ) HotFolder покрывает запросто, как хороший племенной бык ))) Т.е. конечно можно добраться из Домодедово до Лобни самолетом, но машиной ведь гораздо дешевле.
Интересно, были ли случаи «взлома» МФУ (да хотя бы заходом на них через admin/admin) с тем, что бы всякие важные финансовые документы, договора, сканы паспортов, и т.п. уходили бы каким-нибудь злоумышлинникам на почту?
В кино были.
В реальной жизни — не исключено.
Вообще всем посоветую МФУ Ricoh 1600 или Ricoh171. В офис купил уже 4 таких умеют сканировать не только на почту но и в сетевые папки по email,SMB,FTP причем функции доступны из коробки в отличии от Xerox. Единственный недостаток по умолчанию сканирует в tiff для сканирования в PDF приходиться выбирать руками.
А вообще сканирование на почту в большой организации не очень удобная процедура в основном из-за не большой технической грамотности сотрудников!
Не надо вешать памятку — в таких МФУ есть адресная книга. Туда и добавьте ваш «спецадрес».
>Правда, польза сомнительная. Вам приходит изображение страницы, и все что вы можете – это положить его в папку для хлама архив и забыть, потому что найти документ по содержимому можно только с помощью телепатии. Вот если бы вместо изображения получался документ с текстом…

Разве почтовые клиенты уже научились искать в приложенных к письмам документах?
На самом деле, в обоих случаях приходит письмо с аттачем, и, насколько легко будет такое письмо найти, пользователь определяет сам, сочиняя правильный сабж, добавляя тэги и т.д.
А у меня две истории вспомнились при прочтении этого поста:

1. Первая немного подальше от OCR. Юрист написал список претензий к договору с нашим поставщиком, распечатал, подписал и отдал мне. Я: «Э-э, в электронном виде отправь мне.» Юрист:«Я такие мелочи не сохраняю». Я:«Я эту бумажку должен везти?» Юрист:«Ну, отсканируй». Я (мысленно): «ТП».

2. А мы корпоративное МФУ Kyocera используем для потокового сканирования заполненных бланков. Загрузил 3-4 десятка листов. Получил PDF-ку. Разбил по листам и добавил в БД. Но распознавание рукописного заполнения бланков — это нереально.
Пощупать не даете? Триальчик какой-нибудь бы. Интересная штука.
Увидел заявку на сайте. Но с трудом.
у Xerox давно уже все встроено в МФУшки
есть сканирование в Searcheble PDF
т.е. видишь в pdf картинку а слоем ниже существует распознанный текст
можно делать поиск, выделять, копировать и т.д
и все это автоматом когда сканируешь…
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.