LukinB Jul 28 2016 at 14:55

Обучение машины — забавная штука: современное распознавание лиц с глубинным обучением

12 min

97K

Image processing*Machine learning*

Translation

+121

Comments 22

maaGames Jul 28 2016 at 15:31

На мой взгляд Чед Смит и Уилл Фаррелл вообще не похожи друг на друга. Разные носы, разные уши, разные подбородки, носогубный треугольник. Только брови и глаза слегка похожи.
Но вот что нейронная сеть их различает — это жутко круто.

Расистский вопрос: Градиенты корректно строятся на сильно чёрной коже или вы испортили шутку про «невидимых» негров на определителе лиц?

Второй вопрос: Если в HOG структуре для каждого квадрата 16*16 указывается направление градиента, то почему там не одна стрелка, а «пучок»?

Pagefest Jul 28 2016 at 15:34

Да уж… Это вызывает восторг и пугает одновременно!

UFO just landed and posted this here

astill Jul 28 2016 at 16:19

Но какие конкретно части лица эти 128 чисел описывают? Оказывается, что мы не имеем ни малейшего представления об этом.
После этой фразы я подумал о skynet. А если серьезно, по какому принципу она создает 128 характеристик? Где об этом можно прочитать подробнее?

DirectX Jul 28 2016 at 22:40

Ну очень условно: вот есть 68 особых точек, заданных своими координатами. Самое простое, с чего можно начать — к примеру измерить между ними расстояния. По сути получится полный граф, рёбрам которого можно присвоить значение расстояний. Если у нас есть n=68 точек, то значит имеется n(n-1)/2 = 2278 возможных расстояний между точками — столько же возможных параметров. Суть алгоритма обучения — оставить из 2 тысяч только 128, но самых характерных.

NindzyA_RulS Jul 29 2016 at 08:27

Для этого нужно обрезать голову сети — так мы получим карты фильтров. Эти фильтры показывают области, вносящие наибольший вклад в определение класса входного изображения. Если теперь эти фильтры применить к конкретному изображению — «засветим» характерные черты конкретного человека.

Deosis Jul 29 2016 at 08:30

А кто-нибудь пробовал по этим признакам восстановить лицо?
Уже есть подходы (Deep learning например) восстановления изображения из признаков.
Если построить анимацию изменения одного признака, то есть шанс увидеть, за что отвечает данный признак.
Где на хабре видел подобную статью с птицей.

UFO just landed and posted this here

DimmiSfai Jul 28 2016 at 16:20

Помню давно у гугла такую программку видел «Пикасо». Тоже лица распознавала и сортировала все фотки в домашней коллекции по людям на них. Может и сейчас есть.

bask Jul 28 2016 at 17:06

Picasa, 2004 год. Лица распознавать начала, по-моему, в 2006-м

daiver19 Jul 28 2016 at 16:20

Но вместо обучения сети распознаванию графических объектов, как мы это делали последний раз, мы теперь собираемся научить её создавать 128 характеристик для каждого лица.

Получается же embedding, верно? Только вместо традиционного словаря сверточная сеть?

EmachinesDIMA Jul 28 2016 at 17:19

ОГОгошеньки!!! Огромнейшее СПАСИБО!!! Интереснейшая статья и, к тому же, пошаговая инструкция.
Начну сегодня же! хоте нет, сперва один проект закончу, а после и начну!

-1

Idot Jul 28 2016 at 21:46

По хорошему, лицо надо бы различать как трёхмерный объект, а не как плоскую маску.

fortunato Jul 28 2016 at 22:53

а какой утилитой или прогой можно обрабатывать фотки в HOG?

ZlodeiBaal Jul 28 2016 at 23:48

1) Ну, разница HOG и Haar минимальна на лицах. HOG неплохо выигрывает на тушках, но на лицах этого нет.
2) То что вы называете «оценка антропометрических точек» это называется «активные модели внешнего вида» (AAM) и появились они не в 2014, а в 1998 году — https://habrahabr.ru/post/155759/
3) Классификатор на 3 лица неинтересно обучать. Вот обучите на 25, например. А распознавайте этих же трёх. И тогда люди начнут ой как путаться;) А трёх человек даже eigenface распознает.

Хотя да, есть сейчас модели которые куда лучше распознают, но не эта. И всё равно точность ограничена.

NindzyA_RulS Jul 29 2016 at 09:10

Kazemi et al. предложили именно способ автоматического нахождения антропометрических точек (лэндмарков) на произвольном изображении, причем очень быстрый. Тогда как AAM / ASM — способ сопоставления лиц на основе лэндмарков.

Update: по опыту коммерческого применения, Haar чаще фолтит (просто не умеем его готовить?), даже на фронтальных, но и повороты отрабатывает, и засветы и пр. мусор. Тогда как HOG не пропускает (корректно отрабатывает) фронтальные вообще, а на поворотных, засвченных и т.п. — хуже.

ZlodeiBaal Jul 29 2016 at 11:10

Эмм. Нет же. AAM ASM это не способ составления. Это способ натянуть модель формы на объект — https://en.wikipedia.org/wiki/Active_shape_model
Я не спорю, что более современные методы работают получше. Но идея идёт именно из работ 1995-1998 года.

NindzyA_RulS Jul 29 2016 at 15:19

Ваша правда, нужно было освежить знания…

BelBES Aug 2 2016 at 11:17

1) Ну, разница HOG и Haar минимальна на лицах. HOG неплохо выигрывает на тушках, но на лицах этого нет.

Крутые пацаны сейчас вообще используют всякие ICF, ну или Deep Learning

3) Классификатор на 3 лица неинтересно обучать. Вот обучите на 25, например. А распознавайте этих же трёх. И тогда люди начнут ой как путаться;) А трёх человек даже eigenface распознает.

Так вроде бы Зисерман и Ко своими триплетами обучали сетку на 1000 уникальных людей… да и findface как-то работает.

ZlodeiBaal Aug 2 2016 at 11:20

Так вроде бы Зисерман и Ко своими триплетами обучали сетку на 1000 уникальных людей… да и findface как-то работает.

Да. Но там и не вектора на 128фич на выходе свёрточной сети. Тут всё же старое и простое решение используется.

modernstyle Aug 2 2016 at 12:40

Реквевстирую такое сравнение для Натали Портман и Киры Найтли — вот где нейронная сеть даст сбой!

UFO just landed and posted this here

Show the best of all time