SmartEngines Dec 7 2015 at 23:58

Легко ли распознать информацию на банковской карточке?

7 min

28K

Smart Engines corporate blogDevelopment of mobile applications*Algorithms*Image processing*Mathematics*

+15

Comments 11

atd Dec 8 2015 at 16:33

[немного офтопик] на первой картинке 7136 8525 ?

SmartEngines Dec 8 2015 at 16:44

Нет.

redmanmale Dec 8 2015 at 17:43

Полученный вами номер карты принадлежит банку в Перу, что явно не так [!].

mirrr Dec 9 2015 at 11:14

21… же

ZlodeiBaal Dec 9 2015 at 11:05

Классно. Но сразу возникает ряд вопросов:
1) Вся база — сделана на одном и том же столе? Если будут меняться внешние условия: направление освещения, углы наклона, и.т.д. всё продолжает работать?
2) Обучались на символы по какой базе? По тем же самым 750 фотографиям, или по другой?
3) Шрифты у всех банков одинаковые? Не нашлось ли кого-то, кто хотел выпендириться?
4) Горизонтальные и вертикальные фильтры это хорошо, я сам люблю их применять для похожих задач. Но как только имеется высокочастотный фон (вот смотрю на свою карточку Тинькова), то сразу весь этот подход рушиться. Как удалось разрешить такие ситуации?
5) На csv код обученный алгоритм не работает? Как я понимаю там-то у всех банков точно разные шрифты.

Буду ждать статьи про обучение свёрточных сетей. Любопытно как вы решали там несколько проблем.
Хотя, конечно, у меня есть мнение, что когда в задаче реально сделать хорошую сегментацию, то всё остальное уже просто реализуется любым другим способом. Хоть SVM, хоть корреляцией:)

SmartEngines Dec 9 2015 at 14:08

Спасибо за интересные вопросы! Ниже ответы по пунктам:
1) База сделана в различных условиях. Менялись устройства, освещение, снимали разные люди (иногда даже пальцы на картах присутствуют). При этом в основном снимали карточку «на весу», стол использовали в основном для получения рекламных фотографий.
2) Обучение свёрточных сетей производилось на искусственно созданной базе изображений (благо целевой шрифт известен – OCR-B) с последующей аугментацией. Ни одно изображение из упомянутых 750 картинок не использовалась для обучения.
3) Шрифт на картах один (OCR-B) и места для творчества платежные системы здесь не предоставляют. Фон придумывает банк. Было замечено использование OCR-A шрифта на indent-картах некоторых банков. Но для нас не проблема, так как мы используем искусственно созданную обучающую выборку.
4) Пестрый высокочастотный фон действительно создает дополнительные трудности. В этом месте нас спасает тот факт, что алгоритм поиска анализирует изображение границ, зная, что ищется три геометрически описанных строки. Такая задача похожа чем-то с распознаванием у окулиста цветных зашумленных карточек с цифрами: без знания того, что на карточках цифры распознать на них что-то разумное проблематично.
5) В настоящий момент наше SDK не распознает CSV код. При этом понимаем, что эта задача представляет собой omni-шрифтовое распознавание текстовой строки, которое у нас имплементировано.