Как стать автором
Обновить
0

Механизм работы технологии распознавания изображений TAPe

Время на прочтение 4 мин
Количество просмотров 6.1K
Здравствуйте, уважаемые Хабравчане.

Спасибо всем, кто оставлял комментарии к нашему прошлому посту. Сегодня мы постараемся более подробно рассказать о TAPe-технологии, разработанной нашей компанией, в чем её суть и особенности. А также расскажем немного о способах распознавания изображений.

Всем интересующимся распознаванием изображений прошу под кат.


Механизм работы технологии


Итак, в прошлой статье мы говорили о новой технологии распознавания изображений. Если описывать технологию в общих словах, то механизм действия следующий: имеется некоторый набор кадров (видеоряд), и также имеется эталонная последовательность кадров (или одно изображение). Для того, чтобы найти эталонную последовательность среди заданного набора, для всех кадров эталона и набора создаются образы — «слепки», которые однозначно описывают изображение.

Эти «слепки» представляют собой некие важные остовы или интегральные кривые — файлы в TAPe-формате. Именно эти «слепки» мы и сравниваем друг с другом. Если найдены одинаковые «слепки» — значит, найдены полностью одинаковые кадры. Иначе вводится специальная мера, определяющая «визуальное сходство» кадров, которое называется расстоянием d. Чем меньше расстояние — тем выше «визуальное сходство».

Digital Fingerprints


Наиболее часто используемый термин для такого подхода к представлению эталона и исходного набора — Digital Fingerprints («цифровые отпечатки»). «Цифровой отпечаток» — это некий набор признаков, характеризующий заданное изображение. Принятие решения о соответствии эталона рассматриваемому изображению в этом случае производится путем сравнения «цифровых отпечатков» изображения и эталона. При этом выбирается наиболее точно соответствующий эталон или набор эталонов удовлетворяющих заданному проценту схожести.

Точность вычислений


В случае нашего алгоритма, для расстояний меньше чем 0,175 (здесь и далее шкала расстояний условная) — кадры одинаковы с практически 100% вероятностью.

Логичный вопрос — откуда взята такая цифра? Поясняем. Нами был проведен ряд экспериментов. Очень много — более тысячи. Суть эксперимента заключалась в следующем: мы брали два заведомо одинаковых видеофрагмента, записанных с разных источников (телеэфир с аналогового и со спутникового каналов), а затем последовательно сравнивали каждую пару кадров с использованием нашей TAPe-технологии и записывали результат.

Затем построили график плотности распределения. Так мы получили первый (синий) график. После этого мы меняли последовательность кадров на одном из фрагментов (запускали в обратном порядке, сдвигали на разное количество кадров и т. д.), чтобы получить выборку из заведомо разных кадров, также сравнивали, и также записывали результат. Так мы получили второй (розовый) график (диаграмма 1А и 1Б).


Диаграмма 1А. Графики плотности распределения при сравнении изображений с помощью TAPe-технологии.


Диаграмма 1Б. Графики плотности распределения при сравнении изображений с помощью TAPe-технологии (логарифмическая шкала).

По диаграмме видно, что в случае одинаковых кадров, все результаты сравнения лежат в промежутке между 0 и 0,175, а в случае разных кадров практически все результаты находятся за пределами этого промежутка. На данном графике показан результат примерно 1,5 миллионов сравнений для одинаковых и столько же для разных вариантов. Из них только 21 значение сравнения разных кадров попало в промежуток до 0,175. Говоря языком математической статистики, в данном случае ошибка первого рода (ложное срабатывание) составляет:
Alpha=21/1500000=0.000014
В свою очередь ошибка второго рода (пропуск сигнала):
Betta=0/1500000=0.0

То есть погрешность ничтожно мала.


Наглядный вид ошибок первого и второго рода.

Но ведь это всего один эксперимент, что он доказывает? Суть в том, что результаты всех проведенных нами экспериментов практически совпадают. В каждом случае диаграмма выглядит одинаково, погрешность минимальна. Именно поэтому мы используем порог равный 0.175, как определяющий критерий идентичности кадров.

Погрешность при использовании «стандартного» метода


Для сравнения рассмотрим анализ этого же параметра (расстояния между парой кадров) при использовании простейшего и описанного во многих учебниках метода сравнения изображений путем сравнения их гистограмм яркости. Мы точно таким же образом проанализировали те же самые данные, что и в первом случае. Результат на диаграмме:


Диаграмма 2А. Графики плотности распределения при сравнении изображений с помощью сравнения гистограмм яркости.


Диаграмма 2Б. Графики плотности распределения при сравнении изображений с помощью сравнения гистограмм яркости (логарифмическая шкала).

Кстати по графикам наглядно видны ошибки (для порога 0.48)
Alpha=0.3055
Betta=0.1680

Вывод


Мы разработали технологию, которая позволяет быстро с хорошей полнотой и достоверностью искать образцовый видеоролик внутри огромных массивов видео данных. Именно поэтому мы изначально акцентировали свое внимание на поиске рекламных роликов в телеэфире, причем источник телевизионного сигнала не важен — будь то цифровое телевидение, кабельное вещание или даже простое аналоговое эфирное вещание.

Однако, мы считаем, что мониторинг телеэфира — это не единственная возможность применять нашу технологию. Именно поэтому мы обращаемся к вам, Хабражители — возможно, у вас есть идеи для другого применения. На данный момент мы разрабатываем API для того, чтобы вы могли использовать возможности нашей технологии в полной мере. Предложите нам свои идеи относительно будущего функционала API, и мы учтем их при разработке. Можете отправлять предложения в личку или оставлять комментарии. Мы хотим сделать TAPe-технологию максимально полезной и удобной в применении.
Теги:
Хабы:
+3
Комментарии 0
Комментарии Комментировать

Публикации

Информация

Сайт
www.comexp.ru
Дата регистрации
Дата основания
2006
Численность
11–30 человек
Местоположение
Россия

Истории