bolk Apr 6 2012 at 16:34

Поддержка камеры и распознавание цифр в браузере «Опера»

3 min

6.4K

Abnormal programming*

+69

Comments 34

gigimon Apr 6 2012 at 16:42

Интересный алгоритм распознавания цифр

grishkaa Apr 6 2012 at 16:48

Под цифрами штрих-код — его не проще распознать? :)

+11

bolk Apr 6 2012 at 16:49

Не интересно же! (всё-таки это хаб «ненормальное программирование»)

+12

xnodev Apr 8 2012 at 01:23

Человеку надоело вбивать цифры. Он решил их программно распознать, чтоб не мешались :)

phasma Apr 6 2012 at 17:11

Госуслуги? Счет за квартиру? Я просто в Альфа-клике вписываю сумму и все. Можно еще привязать карту и автоматически списывать.

bolk Apr 6 2012 at 17:18

Что-то «Хабр» сглючил, ответил вам чуть ниже комментарием.

dlinyj Apr 6 2012 at 17:13

Найду распознавалку — попробу. Автору спасибо.

bolk Apr 6 2012 at 17:18

Отлично. Но мой город в «Альфе» в разделе «Другой» и там нет моего ТСЖ размером в один дом. А в «Госуслугам» — есть.

coocheenin Apr 6 2012 at 17:18

Надо ж такой идее в голову прийти :)

Алгоритмы, которые я нашёл в интернете, были очень монструозными, да и переписывать готовое было скучно

А вот это еще мягко сказано. Переписывать чужой код, мерзлей занятия не придумаешь.

Алгоритм интересный, но на словах без кода не очень наглядно получается. Понятно, что по ссылке код можно рассмотреть, но в статье он смотрелся бы органичней, IMHO

bolk Apr 6 2012 at 17:19

Большой он слишком, не хотел захламлять статью :)

UFO just landed and posted this here

sic Apr 6 2012 at 17:33

Бинаризацию значительно лучше делать не по фиксированному пороговому значению в 75%, а адаптивно:
Прогнать каким-нибудь префильтром, увеличивающим локальную контрастность. — поможет для «шумных» или «темных» изображений (где недостаточна контрастность для разделения);

Считать для каждой точки разность интенсивности до соседей, затем применить пороговое значение к разностям. — поможет для картинок с неравномерной освещенностью;

Из полученнных пикселей составить области «слабой связности», в одну область попадают точки, которые расположены недалеко друг от друга. Каждая область слабой связности состоит из нескольких компонент связности.
Далее, пытаемся распознать каждую компоненту, если она не соответствует никакой цифре, то пытаемся распознать всю область слабой связности, включающую компоненту. — поможет, если пороговый фильтр по какой-то причине выкинул кусок одной цифры, и она разбилась на компоненты.

Если все равно не удалось распознать, то вероятно пороговым значением было включено слишком много пикселей, и порог нужно немного увеличить (локально, для уже выделенного прямоугольника цифры).

Ну и плюс учитывать начальный поворот изображения (здесь это легко, т.к. при downsampling'е до 32x32 например, должны образоваться линии (из пикселей букв и цифр), поворачиваем картинку так, чтобы они стали горизонтальными).

А так, неплохо, количество переходов — это один из самых простых и надежных топологических признаков изображения.

bolk Apr 6 2012 at 17:43

Бинаризацию значительно лучше делать не по фиксированному пороговому значению в 75%

У меня 75% от среднего цвета. Это адаптивная величина.

sic Apr 6 2012 at 18:02

Все-таки, ваша бинаризация — это функция вида f(image, threshold(image), mean_intensity(image)),
mean_intensity(x) — зависит от исходной картинки,
threshold(x) = 0.75 — нет, она не адаптивна, и она является параметром метода, а не «служебной константой». Я понимаю, что такой фокус можно применить к любой константе, но в теории обработки изображений это справедливо, т.к. какими бы константы «хорошими» не были, они всегда срезают диапазон успешно распознаваемых изображений.

bolk Apr 6 2012 at 18:05

Да я понимаю, просто пытался на неточность указать.

sic Apr 6 2012 at 18:15

Да, хорошо, я ее действительно породил.
Посмотрел код, в общем классно, что такие вещи можно на джаваскрипте делать.

У нас подобная система, только ядро на C++, а алгоритмы тяжелые; символы распознаем по дескрипторам Фурье, попробую поэкспериментировать с подобным подходом (посчитать какие-либо топологические признаки). В общем спасибо за пример того, что этот подход может реально работать :)

aNNiMON Apr 6 2012 at 18:35

Проверил на хроме — работает, но только со второго раза — нужно перезагрузить страницу.

limon_spb Apr 6 2012 at 18:49

Я немного не понял алгоритма подсчетов переходов между черным и белым.
Если смотреть на 6 у вас на картинке, слева от центральной линии:
по линии номер 1 — один переход: от белого к черному.
а вот по линии номер 3 и 4 я насчитал 2 перехода:
сначала от белого к черному, потом обратно.
Поясните, пожалуйста.

bolk Apr 6 2012 at 19:07

Считаются только переходы на чёрный. С чёрного на белый не учитывается.

limon_spb Apr 6 2012 at 19:13

Тогда справа у шестерки по линиям 1 и 2 будет 0 :-)
Понял, что справа считаются наоборот — от чёрного на белый.

bolk Apr 6 2012 at 19:11

Попозже добавлю в статью.

limon_spb Apr 6 2012 at 19:14

Да было бы не плохо для жестоко одаренных читателей, вроде меня :-)

bolk Apr 6 2012 at 20:02

Скорректировал.

limon_spb Apr 6 2012 at 20:22

Не, алгоритм очень интересный, я о таком не слышал. Яростно плюсую!

termi Apr 6 2012 at 18:55

В стабильной Opera Mobile тоже есть поддержка камеры. Попробовал на своей A501 вашу демку и не смог добиться нормальных результатов — то ли, автофокус не работает из-под браузера, то ли еще чего, но, из-за того, что картинка размытая в верхнем окошке цифры очень сильно исковерканы.
Но, всё равно большое спасибо за статью. И работа с камерой и распознавание на JS — интересный материал.

4tm Apr 6 2012 at 18:55

Мозг!

masterrr Apr 6 2012 at 20:47

Как не изощрялся, распознать в Opera Mobile не получилось :)

bolk Apr 7 2012 at 10:15

Что-то даже границы цифр не обозначились. Какой метод КАНВАСа, возможно, не работает. Если руки дойдут, посмотрю!

doctor01 Apr 6 2012 at 21:16

Булка хлеба, колёса, отвертка.
3 часа = 180 минут.
ввести цифры 30 секунд= 180/0,3=600 раз
600 раз/12 месяцев = 50 лет
Профит?

-1

spmbt Apr 6 2012 at 21:57

Муравей, челюсти, мощность, командная работа, покорение природы.
300 миллионов лет, эволюция, человек, мозг, умные рассуждения. Смысл?

-1

doctor01 Apr 6 2012 at 22:37

-1

masterrr Apr 6 2012 at 22:12

Профит не только в выйгранном этим спобосом времени.
Опыт — он бесценен.

king2 Apr 7 2012 at 00:04

Обожемой, Вы убиваете Кении. Прямо сейчас!
30 секунд = это 0.5, а значит 180/0.5=360.
360/12 = 30 лет, а ведь это совсем другой расклад!

Нет, все-таки Вы неправы, с учетом Вашей ошибки тут есть за что побороться.

p.s. экспа — бесценна! :) Тем более научиться распознавать цифры, придумав свой рабочий алгоритм за три часа :)

UFO just landed and posted this here

Show the best of all time