SmartEngines 29 мая 2020 в 10:37

Сколько нужно программистов и прописей, чтобы распознать рукописный паспорт?

4 мин

7.7K

Блог компании Smart EnginesПрограммирование*Обработка изображений*Машинное обучение*Искусственный интеллект

+20

Комментарии 36

yarkov 29 мая 2020 в 10:49

Откуда они берутся? Ну паспорта эти, вручную заполненные.

fougasse 29 мая 2020 в 10:55

Не везде принтеры были?
Он же в РФ бессрочный с 45 лет, да и с 20 тоже долго «живёт».

НЛО прилетело и опубликовало эту надпись здесь

boroda_el 29 мая 2020 в 11:00

Из паспортных столов мелких городков начала 2000-х.

SmartEngines 29 мая 2020 в 11:17

Обязательная замена паспорта гражданина РФ проводится по достижении 20 и 45 лет, то есть россияне могут пользоваться паспортами, выданными и 10, и 20 лет назад. Понятно, что сейчас такие паспорта выдаются скорее как исключение — например, в случае ЧС или сбоя в системе выпуска (принтер сломался), страна у нас большая и замена/ремонт может занять время, а паспорт человеку выдать лучше прямо сейчас.

Quarc 29 мая 2020 в 14:59

Из паспортных столов берутся :). У меня, например, до сих пор такой.

ookami_kb 29 мая 2020 в 12:39

Спасибо за статью!

Интересует мобильный SDK для распознавания документов. Можете сориентировать по ценам (хотя бы примерно) и условиям лицензирования (в месяц / за приложение / за объем)?

SmartEngines 29 мая 2020 в 13:49

Добрый день, обратитесь пожалуйста в нашу службу продаж по почте или через заявку на сайте, они проконсультируют.

-6

ookami_kb 29 мая 2020 в 20:03

Нда, пообщался я с вашими продажниками. Если они не могут даже порядок цен и условия лицензирования сообщить без того, чтобы я им предварительно доложил, кто я, из какой компании, зачем мне этот SDK нужен, и написал с корпоративного ящика, то продолжать общение как-то не очень хочется.

Ahen 30 мая 2020 в 10:29

Та оно как на рынке в туристической зоне — цена зависит от внешнего вида, цвета кожи, акцента и прочих параметров покупателя.

SmartEngines 30 мая 2020 в 12:57

Здесь, вне зависимости от мнения уважаемого сообщества Хабра, мы вынуждены строго обозначить свою позицию. Физическим лицам мы софт не продаем, только компаниям. Коммерческие условия мы раскрываем только тем компаниям, у которых есть намерение купить. Если автор запроса не сообщает ни компанию, которую он представляет, ни цели использования нашего SDK, то это свидетельствует о том, что покупать софт он не намерен.

ookami_kb 30 мая 2020 в 13:15

Выводы об авторе запроса вы делаете интересные, но неправильные.

В моем случае это означает, что я еще не определился, хочу ли я покупать софт именно у вас. И поскольку эта функциональность для нас в настоящее время не основная, то решающим фактором становится цена. Одно дело, если софт обойдется, скажем, в 100 евро в месяц, другое дело – если в 1000. В последнем случае бюджет мне на него никто не одобрит, каким бы этот софт замечательным ни был, пусть он хоть в перерывах между сканированием документов варит кофе и рассказывает анекдоты.

Цель использования я кстати написал в переписке с вашими сотрудниками (аж сам директор по специальным проектам ответил, приятно).

А название компании выпытывать – это, знаете ли, так себе. Я как бы и не скрываю, где я работаю, но если я прихожу в магазин, а мне говорят: "Не хотите назвать свое имя, и зачем вам наш пылесос? Ну это свидетельствует о том, что покупать его вы не намерены. Не продадим и цену на него не скажем" – то мне хочется побыстрее из этого магазина уйти.

Kyushu 30 мая 2020 в 21:14

Значит, это совсем не магазин.
ru.wikipedia.org/wiki/Институт_системного_анализа_Российской_академии_наук

nagumanov174 29 мая 2020 в 15:12

В статье не говорится о проценте ошибок при работе системы.
Представьте, если система работает в аэропорту и из-за ошибки человек не смог улететь своим рейсом. Здесь как с беспилотными автомобилями, либо работает на 100%, либо это выльется в большие проблемы.

homeles 29 мая 2020 в 15:26

Насколько я понял — все равно процесс распознавания не автоматический, а автоматизированный, т.е. окончательную сверку проводит человек (для него просто облегчение в виде не полного набивания полей, а только корректировка некоторых «букофф»?

SmartEngines 29 мая 2020 в 19:01

Все зависит от процесса, если процесс требует максимально возможного качества то связка программа + человек работает, но накладывает требования на программу детектировать свои ошибки с разумным качеством (ошибки 1-го и 2-го рода). Кроме того, не надо забывать, что человек тоже ошибается, особенно в конце рабочего дня. К сожалению человек может ошибаться специально и иногда выходит вообще лучше исключить человека, такие случаи у нас есть. Для рукописи мы ввели специальный дополнительный сигнал — это рукопись, это помогает уменьшить число ошибок.

fougasse 29 мая 2020 в 21:25

В аэропорту по внутреннему паспорту в РФ летают?
Или заграны от руки пишут?

querta 30 мая 2020 в 08:11

Внутри страны летают по внутреннему, а на заграничных есть специальный код (со стрелочками такой), который можно сканировать, еще и чип внутри. А, ну и у заграна срок действия меньше — там все паспорта в обороте напечатанные.

DenBalDen 29 мая 2020 в 15:45

Успехов, ребята. Проделали большую работу, нелегко рукописный текст даже человеку бывает понять.

niccolo2019 30 мая 2020 в 08:12

Скажем так, решение задачи ребятам сильно облегчил ограниченный набор данных, требующих распознавания, и, в целом, ОТНОСИТЕЛЬНО ХОРОШИЙ ПОЧЕРК ЛИЦ, ЗАПОЛНЯЮЩИХ ПАСПОРТА ВРУЧНУЮ, т.е. можно сказать, что вместо реального 5-го приближения, как говорят физики, проблема решена в нулевом…

Серьёзно оценивать практическую годность технологии, наверное, можно было бы по выборке из х00-х000 студенческих конспектов по разным предметам, различных анкет, где шрифт налагается на надписи самой анкеты и т.п…

kbulatov 30 мая 2020 в 12:39

Но ведь статья о распознавании рукописного ПАСПОРТА… И об этом (о сужении задачи и об аккуратности почерка) в явном виде говорится во втором абзаце статьи. Как студенческие конспекты относятся к «серьезной оценке практической годности» технологии распознавания рукописного паспорта?

niccolo2019 30 мая 2020 в 13:35

Распознавание рукописных паспортов — это частный случай задачи распознавания рукописного текста. Найдя частное решение проблемы, для математиков и физиков вполне естественно искать общее решение

kbulatov 30 мая 2020 в 14:56

Тут я с вами совершенно согласен — очень интересно дальнейшее решение задачи в более общем случае. И наверняка можно обобщить и задачу распознавания рукописного текста на какую-то более общую, и так далее.

Меня лишь смутил ваш комментарий про оценку практической годности. С моей точки зрения практическая оценка технологии должна проводиться не по общности применения, а как раз наоборот — по применимости к конкретному целевому объекту, адекватном понимании особенностей конкретной задачи и их учете. Иначе получается (может не очень хорошая аналогия, но все же), что очки на минус 3 это плохое технологическое решение, потому что не подходят для людей, у которых зрение минус 5, и серьезно для практического использования можно будет рассматривать только очки, подходящие всем сразу…

niccolo2019 30 мая 2020 в 21:11

Что касается практической годности — тут тоже есть большие сомнения. С рукописными паспортами не сталкивался лет 20, если не 25.
Поскольку деньги бюджетные — считаю проще было бы потерпеть до замены последних рукописных паспортов, если речь не идёт о какой то региональной аномалии.

SmartEngines 31 мая 2020 в 08:36

А причем тут бюджетные деньги? Мы частная компания и тратим на исследования свои деньги. Наши клиенты сталкиваются с рукописными паспортами и им это мешает снижая качество и скорость оказываемой услуги, вот мы и решили эту проблему.
Если про замену, то она идет естественным образом, при замене паспортов на новые, но и сейчас выдаются рукописные паспорта, по необходимости.

niccolo2019 31 мая 2020 в 11:41

При том, что, ИМХО, заказчиком подобного приложения может быть только госструктура и за бюджетные деньги…
Интересно — а с рукописными паспортами за границу пускают?

tolstov 31 мая 2020 в 21:12

Ну не скажите — с необходимостью распознавать паспорта могут сталкиваться и при продаже билетов, и при выдаче симок (которые по закону оформляются на паспорт), и банкам наверняка интересно

niccolo2019 31 мая 2020 в 21:43

Понял. Только во всех этих местах ввод данных паспорта занимает меньшую часть времени оформления билета/договора. Загруженности указанных клерков я тоже особенно не вижу…
В принципе из указанных областей применения лично меня больше задевало время продажи ж.д. билетов в системе Экспресс. Вот бы её как-то оптимизировать для ускорения.
К тому же для работы с иностранными паспортами гораздо чаще полезна поддержка некириллического алфавита и спецсимволов, а также хорошее знание особенностей языка — например несочетаемых/чрезвычайно редко сочетающихся букв (иероглифов и т.п.)

SmartEngines 31 мая 2020 в 21:19

За границу пускают по заграничным паспартам они все выполнены в соотвествии стандартом ISO/ICAO 9303, т.е. печатные и с MRZ.
Основная часть наших заказчиков коммерческие структуры, не связанные с государством, гос. инвестиций не имеем.

niccolo2019 31 мая 2020 в 21:51

Речь не об инвестициях — речь об оплате конкретной разработки. Как показал кризис коммерческие структуры и являются основными потребителями/прожирателями бюджетных денег.
Пока не встречал бизнеса, у которого настолько остро стоит данная проблема, чтобы он готов был оплатить её решение собственными средствами. Неужели еще остались регионы, где большинство паспартов рукописные?

SmartEngines 1 июн 2020 в 10:33

Данная разработка сделана нами, за наш счет, в рамках развития системы.

Nabusteam 30 мая 2020 в 08:12

Обрабатываете на сервере или на клиенте?

SmartEngines 30 мая 2020 в 08:12

И на сервере, и на клиенте и на мобильных.

MikhailZakharov 1 июн 2020 в 15:11

Движок может распознавать произвольный рукописный текст на страничке, или натренирован только на российские паспорта? Используете ли базу имен для валидации результата?

snakers4 1 июн 2020 в 15:59

Планируете ли вы выкладывать модели и датасеты в публичный доступ?
Какие у вашей системы метрики на различных валидационных выборках?
Сравнивали ли вы ваш multi-stage подход допустим с тем, чтобы делать так — классификация => вырезание ROI со словами (глобально не важно как это делать) => e2e сетка с CTC лоссом для распознавания конкретного слова? Почему так не делалили?
Я верно понял, что вся игра с "ручной" генерацией разметки из прописей сделана из-за того, что у вас попросту не было датасета с ручными паспортами?
Правильно ли я понимаю, что вследствие пунктов (1) и (4) — качество низкое (про него в статье нет ни слова!)?;
Оценивали ли качество каждого алгоритма в пайплайне? Классификация, детекция, нарезка на буквы, классификация? Мне кажется полный e2e тут не оправдан, но первые два и последние два этапа можно слить (CenterNet + UNet на фразы, вместо второго этапа — просто CTC сетка). Все таки оптимизировать 2 алгоритма лучше, чем 4. Хотя первый и четвертный тут очень простые.

SmartEngines 1 июн 2020 в 20:53

Мы сделали и описали работающую технологию, работает хорошо, заказчики пользуются. Пункты 1-6 мы планируем подробно осветить в наших научных публикациях, как например сделали это для распознавания печатного текста.
Y. S. Chernyshova, A. V. Sheshkus and V. V. Arlazarov, «Two-Step CNN Framework for Text Line Recognition in Camera-Captured Images,» in IEEE Access, vol. 8, pp. 32587-32600, 2020, doi: 10.1109/ACCESS.2020.2974051.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий