Comments 79
И насчёт отслеживания движения: ну возьмём тот же эскалатор как самый яркий пример. Последовательность появления на нем довольно легко предсказывается, отслеживать можно просто по комбинации цветов одежды как-то. Скорость потока пешеходов в переходе отслеживать по характерным лицам — сто пудово там будет пик средних значений показывающий скорость потока.
Неужели это все прямо совсем не применяется?
Сильно проще поставить шлюзы с хорошим освещением и хорошими камерами на вход в метро. Точность значительно выше будет, чем от всяких таких ухищрений. Но даже так — не достаточно, я это тоже писал. Ложняков будет много, даже если и пропуски сильно упадут.
А по головам считать… Мосгостранс вроде уже 3-4 год ищет хоть у кого-то решение, чтобы поставить в автобусы и считать людей по головам с достаточной точностью. Так никто же не предлагает...;)
То есть если можно ещё и тракать с какой-то точностью, то оно лучше, конечно. Но и без тракинга при 3000 лиц в кадрах и базе подозреваемых скажем в 300,000 — имхо статистика таки поможет. Типа если у вас на 4х из 6 камер опознался разыскиваемый — можно ментам на платформе давать команду брать клиента под руки. Если на 1ой, то можно не суетить.
И там ещё как-то хитрить трезво понимая что Джон До то он один. И если у нас есть срабатывание на него в вестибюле, то потом в потоке можно искать не только сравнивая с паспортной фотографией Джона, но и стой, которая опозналась. Учитывая что похмелье на лице потенциального Джона за две минут между верхом и низом эскалатора вряд ли прошло — может оказаться проще выцепить его и сравнить с эталонным изображением настоящего Джона после.
FARы таким подходом мы не сильно сократим если люди похожи, похожи причёски, и.т.д. а большая часть FARов именно на таких данных. FRR — мы таким подходом можем немного сократить, там с 40% в лучшем случае до 20-30.
Но даже если мы выиграем порядок — ситуация сильно не поменяется. Как вы видите по остальным цифрам — для полного решении задачи там ещё много порядоков точности надо. А для минимальной помощи сотрудникам — да, можно уже сейчас делать, я это тоже показывал. Можно чуть-чуть уменьшить количество ошибок.
Если же камеры с хорошим освещением поставить на входе — то можно выиграть сильно дешевле, без непонятной математики два порядка. Всё равно для полноценной системы не хватит. Но уже лучше.
Да, у итогового решения есть зависимость от растительности на лице, от линии причёски, от цвета волос, и.т.д. и это нормально, так как при обучении достигается максимальная разделяющая статистика.
Приведённая вами картинка dlib-овской разметки не имеет ничего общего с тем как сейчас делается распознавание лиц…
Опять же. Вы говорите про очень-очень сложную систему. Которая съест огромное число человекочасов, стоимость внедрения которой будет астрономической. Но зачем, если можно делать проще, лучше, надежнее, поставив её на входе?
При этом эти стоимости — никак не будут окупаться. Система будет стоить миллиарды. Общественный резонанс — ужасный. Что от самой идеи, что от стоимости. Финансовая прибыль — нулевая. Все задачи можно решить проще и дешевле.
А то что такая система будет хоть как-то работать, у меня есть очень большие сомнения. Выше я писал почему (все алгоритмы всех уровней сырые, дают плохие точности). Камеры ужасные.
То что сейчас есть — уже позволяет работать в ручном режиме, если надо кого-то найти поймать. Это как сделать и разработать робота который будет вам наливать в бокал коктейль. Сделать можно, из любви к искусству. Но стоимость создания и эксплуатации в жизни не окупиться.
Я знаю, что сейчас алгоритмов трекинга/реиндентификации не хватает для этой задачи. Можно ли их допилить? Возможно да, возможно нет. Они явно не допиливаются госконторой в рамках госзаказа -> не хватит компетенций и энтузиазма.
Да, если вбухать туда денег как в олимпиаду — наверное можно через десять. А может получиться как с тем ишаком говорящим.
В любом случае, любые задачи которые на сегодняшний день существуют — можно решить проще, дешевле и быстрее. Хотя да, местами нужны будут административные вмешательства.
Объяснюсь.
Делали приложение для инстаграмчика. Проще некуда, продажа книжек, все банально.
Дизайнер сделала изумительно хороший «шаблон» дизайна любой «книжки». На это написалось простенькое ПО.
На пальцах: кладется закрытая книжка на светлосерую крышку от системного блока, фотается специальной приспособой, открывается книжка, фотается страницы 3-5 и т.д. Если прицепить тел с которого это фотается, запущенная служба стаскивает сама все фотки, банально сортирует по времени и по краям изображений книжки закрытой/открытой создает красивый коллаж. И автоматом зашвыривает на трубу или на эмулятор уже готовые файлы.
Фокус: все это залетело в бан, ибо инстаграм на вопросы зачем и почему вбан написал следующее: вы подписываете фотки как книги, инфа о книгах, авторы книг, а они «системой» определяются как иллюстрации.
Только конченый дебил тут не понимает сразу же, что искусственный интеллект подходит только для быдлы. Как только появляется что-то новое, чего абсолютно нет в премилом обученном быдлой ии — вы сразу улетите в бан, ну вот потому что ии считает, что вы его обманываете.
И так на каждом шагу. Что бы ни контролировалось искусственным интеллектом — нужно быть как все. Иначе фейл.
В гробу я видал этот ваш искусственный интеллект.
пс: ссылаться на ализара это конечно тоже зашквар :trollface:
Вроде на Ализара я ссылался только в местах где контекст «журналисты говорят». Там как-бы подразумевается, что всё написанное несусветная противоречивая чушь:)
Но, возможно, я сделал это чересчур серьёзно…
можно плес вставлять пустую строку между всеми абзацами, реально глаза болят читать при таком форматированииАвтор, не делайте так, пожалуйста, а то глаза начинают болеть у меня.
Прилетело НЛО и навставляло… Я обычно стараюсь чтобы пустой строкой были разделены какие то глобальные темы, а абзацы шли энтерами. Но знаю что многим это не нравиться.
<!--
Пожалуйста, не правьте форматирование. Я не могу читать статьи с пустой строкой на каждое предложение, у меня просто от такого форматирования разбегаются глаза. Если вы внесете правки, я верну все назад.
-->
Но они все равно часто правят, приходится сохранять исходник в виде файла и периодически возвращать обратно, но когда они это замечают, они блокируют мои статьи на редактирование. Как можно читать текст с отступами на каждое предложение — не знаю, у меня не получается, приходится использовать юзерскрипты, вырезающие переносы.Не знал, что есть люди с моими проблемами! :)
А как вы форматируете обычно? Новый абзац без пустой строки начинаете с отступа?
Посмотрите пример: habr.com/post/335436
Но ведь можно поступить по другому. Для каждого человека настроить область гиперпространства где хранятся достоверные для него величины
В NIST FRVT сравниваются между собой не «лица», а «персоны». т.е. дескриптор строится именно на наборе фотографий одного человека и вендор имеет возможность параметризовать в дескрипторе область распределения данного лица.
Единственная странность — нет ни единого упоминания известной фруктовой компании.
и интерес китайцев к распознаванию лиц, я уверен, во многом связан с появлением «разблокировки по лицу» в большинстве последних китайских смартфонов
По сравнению с тем, что у Ntech и VisonLabs — у них детский сад.
У них есть своё решение по 2д + используется 3Д. Но оно очень нишевое под их задачу. По сравнению с конкурентами именно по 3д лицу — там всё слабо. Единственный их плюс, но плюс существенный — это то что их математика оптимизирована для распознавания пользователя смартфона. Её достаточно сложно обмануть. Гопники из из соседнего подъезда не откроют(хотя для любого профессионала сложности нет). При этом оно куда удобнее в эксплуатации того же Самсунга с радужкой. И всё. Всё остальное — весьма слабо и не имеет отношения к тему статьи.
Общался с ребятами из Vocord несколько лет назад на одной из выставок MIPS, насколько я помню, у них система была ориентирована на всякие мероприятия, и состояла из 2 стоек с камерами, которые располагаются по краям прохода (вход на стадион, в зал и т.п.), в таких условиях и само лицо все время будет где то в заданной области, и ракурс хороший, обещали высокую вероятность правильного срабатывания. Ценник только кусачий был все равно, потенциальных заказчиков в нашем регионе вряд ли было бы больше десятка, поэтому сильно вопрос не изучал
Очень близко к тому, что мы пытаемся донести нашим заказчикам, но как только они узнают что ошибок оказывается две, да они еще и лежат на какой то кривой, то глаза их становятся печальны они начинают искать кого то кто им просто скажет что у них распознается 99% :) Касательно практического применения есть 2 замечания:
1. Если говорить про задачу типа «распознавания в метро» то «старый» wild не очень адекватен. В реальности при правильном подборе камер и правильной их установке снимки получаются лучше и соответственно результаты лучше.
2. Если говорить про задачу распознавания лиц в целом, то это не только алгоритм распознавания, но и способ получения изображения для распознавания. Если ориентироваться на результаты того же NIST FRVT, то там видно что прирост точности который получается за счет улучшения качества изображения намного выше чем разница в точности алгоритмов входящих в топ10. Говоря по простому камеры решают все :). Именно поэтому мы делаем не только свой алгоритм, но и свои камеры. Но их протестировать можно только в полевых испытаниях, а это намного сложней и затратней чем тестировать алгоритмы :(
Ну и ради высшей справедливости замечу, что если взять последние отчет NIST за 21.06.2018, то там видно что Vocord вернулся в топ4 :). В предыдущем алгоритме была ошибка поэтому результаты были такими грустными. Так что жив еще курилка!
В лицах расширение спектра добавит к результату в двух случаях: либо будет достаточна богатая обучающая выборка в расширенном спектральном диапазоне, либо научиться интерполировать картинки из видимого диапазона в «расширенный». Мы этим начинали заниматься, но ничего прорывного сходу не получилось поэтому отложили до лучших времен.
Хотя процент можно поднять достаточно высоко, если правильно все сделать, т.е. должен быть предварительный отбор с низким FAR и высоким FRR, после этого сразу трекинг роботизированными камерами с оптикой хорошей чтобы получить качественные кадры с разных углов, и затем уже с высоким FAR прогон по нескольким алгоритмам.
С безопасностью примерно ясно. А что с задачей know your customer? Условно: идентификация покупателя в магазине, чтобы сопоставлять его хэш-код лица и покупки. Кажется, что требования куда менее жесткие: можно повесить свою классную камеру, в конкретном магазе иметь небольшую локальную базу лиц. Тем не менее, не слышно про успешно реализованные кейсы. В чем тут могут быть сложности?
А в каком-нибудь магазине на пару десятков тысяч покупателей те же проблемы. Тобишь 10тыщ — это 10^4 актов сравнения на покупателя. Если реально хорошая камера и освещение — ложняк будет на каждом сотом. Если как обычно — то на каждом втором:)
Но в реальности поставить хорошую камеру сложно. К нам приходило 5-6 команд которые такое пытались сделать. Качество картинок у всех ниже плинтуса, широкие углы, плохая установка. Реально поможет только поставить фронтальную камеру и хорошую подсветку забацать. Но это никому не понравиться.
Мы их отправляли всех в Ntech/VisionLabs/Vocord со словами что это может вам помочь, но мы думаем что нет, качества и статистики не хватит. Но удачных внедрений не слышал.
Какой потенциально самый эффективный вектор атаки на системы распознавания? По обоим направлениям — минимизация вероятности опознавания лица, которое есть в базе, и имитация?
Имитация… Ну проще всего фотку показать. Или фотку на лицо наклеить)
— мужчина отрастил/сбрил бороду,
— мужчина отрастил/сбрил усы,
— женщина с макияжем/без,
— тёмные/зеркальные очки,
— медицинская маска.
все эти системы направлены на работу "против" добропорядочных граждан. из этой статьи и ряда других становится понятно, что на данный момент сокрытие личности дело несложное. особенно, если целенаправленно подготовиться к обману системы.
добавлю к вашему списку:
- кусочек изоленты или другая наклейка на лицо
- "двусторонняя" одежда (вывернул, и ты уже не человек в синей куртке) :)
- парики или манипуляции с волосами (особенно длинными)
- бижутерия на лицо (в нос, губы, брови)
да ещё и в динамике ;)
вариантов-то масса.
Допустим, линейные размер головы ~20см. Если мы распознаем координату каждого признака с точностью до 1мм, то число комбинайиц будет 200^3=8 000 000. В принципе, не очень плохо.
Допустим, с помощью нанесения какого-то маркера (нарисуем стрелки, линзы со смещенным зрачком или не знаю) мы можем двигать координату признака на, скажем ±2.5мм. Вот у нас точность распознавания падает на порядок. Приходится крутить баланс чувствительность/избирательность. В итоге система может и увидит злоумышленника, но одновременно с ним и еще сотню человек. Пока у вас задача найти одного человека, это условно Ок. Подумаешь, сто непричастных людей проверить. Но это будет очень быстро нарастать.
Понятно, что с этим всем можно бороться — наращивать число признаков, более хитро обрабатывать и тд, но абсолютная точность недостижима, а за неточность онлайн системы расплачиваются офлайн структуры, стоящие за ней.
Абсолютная точность и не нужна, да она собственно нигде и не достижима.
Макияж, к слову, не спасёт от 3Д-сканирования. А это всего две камеры поставленные в проходе.
Понятно, что конечная система смотрит расстояние в пространсте признаков, а не в геометрическом. Но распределение признаков (то же положение глаз) у нас гладкое и условно нормальное (вероятность глаз ровно над носом пренебрежимо мала). Это значит, что (при прочих равных) лица с похожими координатами глаз дадут близкие точки в пространстве признаков.
А тех кто её будет пытаться обмануть, можно будет выявлять по другим признакам — наличие специфических линз при досмотре, стрёмный макияж и т.д.Вы давно последний раз людей видели? Под каждый конкретный способ «маскировки» можно подобрать стиль такой социальной группы, в которой он будет органичен. Кроме того, были, емнип, показаны модификации, которые обманывают систему распознования, но не заметны человеку. Для этого неплохо бы знать алгоритмы конкретной системы, но это решаемо.
Макияж, к слову, не спасёт от 3Д-сканирования. А это всего две камеры поставленные в проходе.Во-первых, тоже спорно. Хотя полагаю, что хорошие камеры при хорошем освещении действительно сработают (или для обхода понадобится макияж, вызывающий больше проблем, чем камеры). Но обратите внимание, что я говорю не о полной возможности скрыться, а о внесении в систему флуктуаций, делающих ее бесполезной. Это уже выглядит реальным. Во-вторых, это хорошо работает, когда вам надо ограничить доступ в офис или типа того. Для отслеживания перемещений по городу уже плохо работает. Как и для поиска людей — оно норм, если к камере приставлен надзиратель. А если нет, то волосы на лицо + капюшон + взгляд в пол, и вот вы имеете 3д скан близкий к яйцу по своей информативности.
«волосы на лицо + капюшон + взгляд в пол» и получаем отличного кандидата на досмотр патрулём. Или все так ходить начнут?
С каких пор растрепанная челка стала поводом для досмотра? С каких пор смотреть под ноги стало незаконно?
Да, причем тут геометрические измерения лица? Есть лица размером 10x10x10 мм? Надо учитывать не размерность лица, а расстояния между характерными элементами — глаза, уши, нос, соотношение ширины лица к высоте. Тут с десяток измерений найдётся, правда с узкими диапазонами. Участковых и патрульных учат распознавать лица тоже по этим признакам и они как-то довольно успешно справляются.
на деле даже алгоритмы поведенческого анализа можно обойти, хотя это считается более сложной задачей. но что это за мелочь для профессионала! :) конечно, случайный обыватель не будет изменять свою походку, осанку и т.п. Но преступник… а именно его нам и нужно в толпе найти.
То, что с этим не всё хорошо не отменяет необходимости в совершенствовании алгоритмов и оборудования. Но всегда будут люди, желающие и способные сломать систему ;)
Правда и ложь систем распознавания лиц