valexey Sep 27 2013 at 09:38

Конкурс Intel Perceptual Computing Challenge — взгляд изнутри

11 min

6.7K

Programming*

+21

Comments 14

ithabr Sep 27 2013 at 10:10

Спасибо, весьма интересно, прочитал до конца. Я, в отличие от вас старался не работать по 20 часов в сутки и почти управился за 2 отпуска :). Спасибо, что «не сдал». Никакой интриги с моим приложением конечно же нет, но по определенным (довольно банальным) причинам не хочу, чтобы его видели до окончания конкурса.

valexey Sep 27 2013 at 14:58

Кстати, эти 20ти часовые марафоны оказались намного продуктивнее того, как мы работали на хакатоне. Возможно помогло то, что мы уже по сути работали в известной нам области, был уже опыт. Хорошие идеи в голову приходили очень легко и быстро, а затем также легко реализовывались. То есть я склонен думать, что та пара недель, когда мы не написали ни строчки кода, были все же полезны — мы продолжали изучать предметную область.

SovGVD Sep 27 2013 at 11:07

Оу, крутая штука, сзади меня страшнючий фон (съемная квартира, кухня) и не всем хотелось бы его показывать при видео конференциях.

valexey Sep 27 2013 at 16:45

Да. Мы постарались сделать так, чтобы обоим сторонам было максимально комфортно. С одной стороны не нужно беспокоиться на счет деталей заднего плана, с другой стороны вы не убираете полностью задний план, то есть он не фейк. Таким образом во-первых картинка глазу приятней, а во-вторых у собеседника нет чувства что от него что-то сурово скрывают.

Ну и наконец размытый фон позволяет больше обращать внимание на человека, чем на второстепенные детали окружения — этот прием часто используют в фото и кино.

rozboris Sep 27 2013 at 12:53

Классный проект, спасибо, что поделились опытом. Удачи вам!
А как вам вообще PerC SDK? С ним удобно работать или он еще сыроват? И уж заодно еще один вопрос — он работает только со специальной камерой с двумя объективами или часть функций поддерживается и с обычной вебкамерой?
Спасибо.

valexey Sep 27 2013 at 15:06

Работать удобно. Но, как и все в этой области, не поймешь где там грабли пока по ним не походишь.

Со стороны кажется, что вот, SDK выдает нам координаты пальцев, значит сейчас мы рраз, и точно будем знать какое положение руки у пользователя. Это не так. Чудес не бывает, и не бывает абсолютной точности. Сенсор камеры имеет разрешение 320x240, область проецируемая на rgb — еще меньше. А SDK в частности, не может даже отличить правую руку от левой руки, он оперирует понятием первой и второй руки (первая рука это та, которую он первую увидел). Причем он периодически их путает. А еще иногда может скажем коленку (если она попала в кадр каким-то образом) за руку принять.

Это все нормальное дело, используя SDK действительно можно создавать что-то классное. Но нюансов в таких делах масса — добро пожаловать в реальный, аналоговые мир. Мне этот мир был вполне знаком по проекту oxirate.com и я уже вполне умел в нем выживать. Не думаю что Kinekt SDK в чем-то сильно лучше чем PerC SDK (судя по статьям — там те же проблемы).

С обычными камерами там работает все что связано с лицом — то есть face detection и face recognition. Жесты — не работают. Сегментация изображения — тоже не работает.

SDxKeeper Sep 27 2013 at 19:23

Спасибо, за классный пост!

Если не секрет, то какую версию вашего конкурента Personify zChat (http://www.appup.com/app-details/personify-zchat) и Personify for Skype (http://www.appup.com/app-details/personify-for-skype) вы пробовали?

valexey Sep 27 2013 at 19:42

Конечно не секрет. Мы пробовали только Personify for Skype (zChat, насколько я понимаю, работает не со скайпом, у них там свой интернет-сервис для этого, и именно на этом они зарабатывают деньги). Это была (на прошлой неделе) самая последняя публично доступная версия — 1.0.3.2. Вот тред об этом на форуме интела: software.intel.com/en-us/forums/topic/473751

Поскольку мы не могли непредвзято оценивать Personify for Skype, мы отдали одну из наших камер другому человеку, не связанным с нашим проектом, и попросили протестировать Personify for Skype. Через пару дней, когда я спросил его — ну как оно? Он извинился и ответил, что Personify for Skype удалил — мешало работать со скайпом, и вообще раздражало. Теперь вот посмотрим какие отзывы будут о Virtualens (возможно такие же, а может и другие).

valexey Sep 27 2013 at 20:12

Да, еще явно видно, что Personify for Skype лепили быстро — они просто взяли алгоритмы и функционал от zChat и воткнули в скайп-плагин никак не адаптировав для нового применения. В результате оно делает немного не то и не так как ожидает того пользователь.

Существование Personify никак не зависит от успеха или провала Personify for Skype и PerC SDK, у них бизнес иначе построен. А мы зависим напрямую. Поэтому мы вынуждены стараться изо всех сил, чтобы пользователь полюбил и Virtualens и PerC SDK с камерой. Будет провал PerC SDK, люди не будут покупать камеры — Virtualens будет никому не нужен. И мы стараемся чтобы Virtualens стал той самой killer feature, из за которой ноутбуки со встроенными камерами аля Creative Senz3D, с поддержкой PerC SDK, пользовались бы бОльшим спросом и получили бы широкое распространение.

Мы очень скромные, да, я знаю :-)

valexey Sep 30 2013 at 13:24

Сейчас вышла версия 1.0.4.3 — там проблемы с захватом камеры поправили. Правда у меня несколько раз падал скайп при попытке выбрать Personify Camera, потом это как-то вылечилось.

DmitryO Sep 27 2013 at 21:59

Спасибо за пост!
Кстати, мне довелось поиграть в демку Jacob Pennock (последнее видео в статье). Полагаю, он тоже впахивал по 20 часов последние две недели — еще 10 сентября распознавание жестов работало не очень стабильно, я тренировался по 10-15 минут чтобы научиться всем этим заклинаниям.

Касательно Skype, наблюдал еще одну интересную демку (вне конкурсную, правда). Там там задача примерно та же, что и у вас, — повысить приватность, но идея совсем другая. В двух словах, отслеживается лицо и программно масштабируется примерно до 80% кадра. Весь фон просто уходиь из поля зрения по самые уши. Скажем, если пользователь отодвигается от камеры — происходит «наезд» (zoom). Когда пользователь активно перемещается, — камера отслеживает его положение и делает кадрирование и зум одновременно.

Была у меня в свое время камера Logitech Orb — так вот она она умела делать такое на «железе». Кстати, программная реализация мне даже больше понравилась.

Реализовано через драйвер камеры, но со скайпом работает вполне уверенно.

valexey Sep 27 2013 at 22:57

Касательно Skype, наблюдал еще одну интересную демку (вне конкурсную, правда). Там там задача примерно та же, что и у вас, — повысить приватность, но идея совсем другая. В двух словах, отслеживается лицо и программно масштабируется примерно до 80% кадра. Весь фон просто уходиь из поля зрения по самые уши. Скажем, если пользователь отодвигается от камеры — происходит «наезд» (zoom). Когда пользователь активно перемещается, — камера отслеживает его положение и делает кадрирование и зум одновременно.

А это не на каком-то израильском хакатоне было случайно? Вроде бы я что-то такое видел.

Такая реализация имеет свои ограничения в применимости — скажем жестикуляции не видно, в камеру нормально не показать что-нибудь интересное. Ну и вообще картинка весьма специфическая получается. Хотя конечно для каких-то юзкейсов вполне может пригодиться.

Была у меня в свое время камера Logitech Orb — так вот она она умела делать такое на «железе». Кстати, программная реализация мне даже больше понравилась.

Ну, по сути ведь там просто (хотя это и не просто) детектирование и трекинг лица. Программно это можно сделать качественней (хотя и затратней по энергии). При этом для этого какая-то спец. камера не нужна.

В железе это же можно сделать и на базе той же виртурилки, если туда другой, более новый SoC впаять — оно face detection в железе умеет, и масштабирование с кадрированием тоже.

Реализовано через драйвер камеры, но со скайпом работает вполне уверенно.

Через драйвер камеры это как раз самое универсальное, и часто правильное решение. Но и более трудозатратное — намного больше мест где можно на грабли наступить, и вообще систему уронить. Поэтому мы пока ограничились DirectShow source фильтром. Но планируем и через драйвер сделать, тогда Metro-приложения (а также те десктопные приложения которые уже отказались от DirectShow — я такие видел) тоже смогут использовать Virtualens.

DmitryO Sep 27 2013 at 23:13

Именно, ноги растут из Израиля. Они там как я понял делают большую систему для корпоративных телеконференций, а эта фишка представлена как фан-проект. Ограничения, безусловно, есть. Но по мне так довольно удобно.

valexey Sep 30 2013 at 13:20

Вот! Вроде бы нашел эту работу:

Демо начинается с 2:37.

Выглядит так, будто человек с тобой общается по видеосвязи используя фронтальную камеру смартфона (за тем исключением, что на самом деле у него руки при этом свободны). Тоже изображение лица во весь экран, тоже изображение немного трясется.

Show the best of all time