shadoof Jan 3 2012 at 21:02

Распознавание маркера дополненной реальности

5 min

50K

AR and VR

+79

Comments 37

Error_403_Forbidden Jan 3 2012 at 22:23

Мне казалось, что здесь должны были использоваться Harr-вейвлеты, а оно вон значит как.
Спасибо, познавательно. Как раз хотел когда-нибудь разобраться в этом вопросе :)

Inco Jan 4 2012 at 13:07

А как вы хотели тут применять Haar-вейвлеты?..

Griffer Oct 10 2013 at 15:51

Наверное имелись в виду каскады Хаара (Виолы, Джонс), а не вейвлеты, это разные вещи. Каскады бы здорово ускорили детектирование, но их обучение мучительно и долго (2-3 дня на топовом Xeon).

Error_403_Forbidden Jan 3 2012 at 22:56

Оффтоп: странно, но не могу поставить плюс посту, хотя раньше всё ставилось.

2be Jan 3 2012 at 23:26

Чтобы проголосовать за пост, карма теперь должна быть ≥10.

alexxxst Jan 4 2012 at 00:24

Светлота...?

shadoof Jan 4 2012 at 01:01

Lighting. Посмотрел в GIMP — они перевели как «светлота». Еще можно как «освещенность». Не знаю какой термин более уместный. Выбрал «светлота» — она ближе пользователям GIMP'а

Error_403_Forbidden Jan 4 2012 at 07:49

Лучше всё-таки «освещённость» или «интенсивность света»

iley Jan 4 2012 at 00:26

Когда мне понадобилось решить эту же задачу, я использовал открытую библиотеку ArUco. Качество и скорость распознования были вполне приемлимы для той задачи (игра с доп. реальностью для iPhone).

shadoof Jan 4 2012 at 01:04

Да, я когда писал статью смотрел в исходники этой библиотеки. На основе OpenCV делаются графические преобразования, а математика как в ARToolkit. Учитывая развитие графических функций OpenCV, она может даже производительнее чем написанные реализации ARtoolkit.

NMellon Jan 4 2012 at 01:49

Спасибо, понравилось. Продолжайте обязательно :-)
p.s. «например так[рисунок10]» рисунок потерялся, добавьте.

shadoof Jan 4 2012 at 02:19

спасибо, поправил.

Error_403_Forbidden Jan 4 2012 at 04:25

Интересно, а для распознавания автомобильных номеров подойдёт этот метод?

shadoof Jan 4 2012 at 10:35

Здесь комбинация методов. И при распознавании номеров, например для определения где на картинке находится табличка с номером, их можно попробовать.

shadoof Jan 4 2012 at 10:47

Да, сам занимаюсь этой темой, вот кстати ссылка на классную статью, которую недавно нашел:
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.123.6036&rep=rep1&type=pdf

Mrrl Jan 4 2012 at 09:26

Хорошая статья. Вот только в реальности кроме поиска и распознавания нужно еще как-то отсеивать ложные срабатывания, и что-то делать с частично закрытыми маркерами — алгоритмы, основанные на замкнутых областях, легко обмануть лишней темной черточкой на изображении, или разрывом, возникшим из-за низкого разрешения камеры. Нужны методы, основанные на интегральных храрктеристиках, а они требуют много времени…
Интересно, как алгоритм Дугласа-Пекера выглядит для замкнутых контуров. То, что описано по ссылке, работает только для относительно прямого сегмента, и не очень устойчиво к шуму: если алгоритму предложить три зашумленных отрезка трапеции (короткое основание и две боковых стороны), он начнет с того, что выберет в качестве вершины самую неправильную точку на основании. И больше ее не уберет.

shadoof Jan 4 2012 at 10:42

Да, есть такие проблемы. Но тут идея какая — должна быть почти идеальная ситуация — т.е. хорошо напечатанный маркер без засветов, нормальное освещение.
А фильтрация — да, именно потому внутрь квадрата добаляют простой идентификатор, который потом распознают. Как распознают, чтобы быстрее — это тема для отдельной статьи, притом на любителя.
В OpenCV есть функция approxPolyDP, которая работает по этому алгоритму. Можно с ней поиграться на разных изображениях.

Inco Jan 4 2012 at 11:53

А Вы не занимались распознованием натуральных изображений в качестве маркеров?
Я давно этой темой занимаюсь, и хороших людей в комманду найти не могу =(
вот мои результаты
Видео уже не новые, да и больше технического плана, сейчас все работает куда лучше 0=)
Все делал с нуля (то есть создаю свой фрейворк).
Кому интересно — ю ар велкам! =)

// да, видео с bmw хоть и красивое, и всеми агенствами пихается как демо — оно фейковое… монтаж, такое системы не существовало, так что поменяйте на что-нибудь хотя бы типа PTAM.

shadoof Jan 4 2012 at 12:33

т.е. создание произвольного маркера. Тут проблема в том, что произвольный маркер должен обладать свойствами для «быстрого и надежного» распознавания. Т.е. он должен быть контрастным, и т.д. Отдельная песня — разная цветопередача и сегментация. Т.е. получается что для каждого изображения нужно делать свой распознаватель. И пока, то с чем я сталкивался, подсказывает мне что для разных изображений понадобятся разные комбинации простых алгоритмов.

А про BMW — жаль что не существовало… Вот тут автор расказывает что у американских военных разрабатывается что-то подобное. graphics.cs.columbia.edu/projects/armar/index.htm Потому я и подумал что не фейк.

А вообще — при распознавании всегда заужается область и ограничивается задача. Взять хоть файнридер, хоть распознавание номеров автомобиля…

Inco Jan 4 2012 at 12:41

Нет, свой «распознователь» для каждого изображения конечно не пишется, там просто совсем другие методики! Да и как ты видел, все работает, и примеров больше чем достаточно. Глвное чтобы маркер не был совсем монотонным, а так пофиг, все довольно устойчиво.

// насчет бмв, даже достаточно подумать над разумностью такой идеи… если в авторизованном сервис центре чуваку механику надо подскахывать какой винт крутить — нафиг такие механики… это не тот кейс где допреал будет решать

shadoof Jan 4 2012 at 12:49

C механикой не все так просто. Уровень квалификации решает. Такие очки позволят снизить «порог» входа в механики. Но согласен, на вскидку — выглядит мутно. Единственное — это может помочь монополизировать сферу ремонта авто. Хочешь открыть мастерскую — купи комплект, в бумаге уже не выдаем. Только так — дорого и удобно. Эдакий макдональдс. Где работают не повара, а рабочие.
Плюс человеческий фактор. Наверное тонны пластиковых замочков переломаны молодыми неопытными механиками.

Inco Jan 4 2012 at 13:02

Файн ридер и поиск номеров — другого поля ягоды.
Например вы выше говорили о применении методики к поиску номеров… это немного абсурдно.

В поиске черно-белого маркера, найти границы, чтобы посчитать гомографию — дальше все тривиально

В номерах границы искать бестолку. так как они порой на видео слишком малые, там все решается натаскиванием классификатора (будь то небольшая нейронка, многочлен или ядровая функция). Там суть — найти на изображение пятно-номера, как и с детекцией лиц.

// для чб маркеров возможное применение — если только построить классификатор для предварительного сужения области, где будет работать «тяжеловестный» метод поиска контуров, чтобы все ускорить

В детекции натуральных маркеров (любых изображений) там ещё другое, там пляшут вокруг ключевых точек, и пытаются придумать/построить максимально инвариантное описание некоего окружения вокрут этих точек, чтобы дальше искать схожее на кадре и предоставленном маркером.

shadoof Jan 4 2012 at 13:19

Вроде бы согласен, но вроде бы и не так. Пятно найти — да, согласен. А потом внутри пятна — обесцветить, перевсти в ЧБ, найти угол и т.д. Комбинация маленьких алгоритмов.

Inco Jan 4 2012 at 13:26

Вы про номера? или про поиск пятна чб маркера?

Mrrl Jan 4 2012 at 13:36

Ключевые точки обычно оказываются паразитными пятнами, всплесками и прочими проявлениями шума. Как и границы. Хотя сшивки панорам работают, причем вообще без подсказок — как они сопоставляют картинки?

Inco Jan 4 2012 at 13:41

Нет, ключевая точка — это не шум, это ярковыроженное локальное поведение функции.
Сильный локальный экстремум (как в 90% случаем принимается).

" как они сопоставляют картинки?" — По ключевым точкам =)
а что вы подразумеваете под «подсказками»?

Mrrl Jan 4 2012 at 14:18

Самое ярковыраженное поведение функции — это битый пиксель. Или резкоочерченное пятно на матрице.
«подсказки» — когда вручную «примерно» совмещаешь снимки, а алгоритм оптимизирует это совмещение.

shadoof Jan 4 2012 at 13:27

//А Вы не занимались распознованием натуральных изображений в качестве маркеров?
//Я давно этой темой занимаюсь, и хороших людей в комманду найти не могу =(

Посмотрел видео — да интересно, вроде бы и здорово. Но это проект на свободную часть дня и больше ради удовольствия. А я к сожалению сейчас себе регулярно этого не могу позволить. А было бы интересно.

Inco Jan 4 2012 at 13:28

Печалька =(

Pastafarianist Jan 4 2012 at 12:57

и получить в результате еще и угол поворота, используя преобразование Хафа:

Картинки нету.

Прозрачно, что для перевода изображения в двухцветное состояние используется определенный порог.

Не распарсил :) Что подразумевалось под «прозрачно, что»?

shadoof Jan 4 2012 at 13:10

Преобразование Хафа: Картинка планировалась, но потом оказалось что нужно несколько картинок и еще одна страница беглого объяснения к ним. А двоеточие то осталось. Вот ссылка на хорошую статью об этом методе www.waset.org/journals/waset/v42/v42-9.pdf.

Прозрачно = Понятно.

marchelly Jan 4 2012 at 15:10

Каюсь, Можно ссылку на статью зачем все это нужно? Спасибо.

shadoof Jan 4 2012 at 15:15

Вот первая из цикла статей, зачем нужна дополненная реальность: habrahabr.ru/blogs/augmented_reality/118123/

marchelly Jan 4 2012 at 16:05

Благодарю, как-раз иду в зал играть в настольный теннис, и до последнего буду сопротивляться, и играть за обычным столом, не понимаю зачем это делать перед телевизором… Желание крупных компаний обогатиться засчёт незнания людей о том что им на самом деле нужно уже вызывает неприятное жжение в горле. К сожалению тут происходит именно навязывание и игра на человеческих слабостях а не естественный отбор применения технологий.

UFO just landed and posted this here

shadoof Jan 4 2012 at 17:12

OpenCV не надо портировать, оно и так:
lambdajive.wordpress.com/2008/12/20/cross-compiling-for-iphone/
И тогда ArUco.
www.uco.es/investiga/grupos/ava/node/26
И еще, ссылочка в догонку:
www.jonathansaggau.com/iOSAugmentedReality2011Boston.pdf

UFO just landed and posted this here

Show the best of all time