ZlodeiBaal 15 июн 2020 в 11:03

Самая сложная задача в Computer Vision

13 мин

67K

Блог компании RecognitorPython*Обработка изображений*Машинное обучение*Искусственный интеллект

Туториал

+127

Комментарии 42

ErmIg 15 июн 2020 в 12:56

Да. Трекинг объектов без ярко выраженного идентификатора (лица, автомобильные номера) — очень нетривиальная задача. Но есть более сложная — многокамерный трекинг объектов… :)

ZlodeiBaal 15 июн 2020 в 13:15

Это да.
Но тут как всегда «слишком много если». Есть ситуации когда такой трекинг может быть и проще… :) Например если камеры 3D и можно создать плотное поле. Мне кажется, что у Amazon Go примерно так и должно быть реализовано. Напихали 3d камер сверху с шагом полтора метра — и стабильный трекинг готов!

eldog 15 июн 2020 в 13:22

Ещё пример: трекингом занимаются дроны DJI при автоматическом следовании за объектом, для съёмки. И если есть, например, толпа играющих детей, то да, часто сбиваются.

Bhudh 15 июн 2020 в 13:48

<GN-offtopic>
А можно на нормальном русском переписать или хотя бы в Word с проверкой перед отправкой засовывать?
</GN-offtopic>

-16

Bhudh 15 июн 2020 в 14:35

Благодарю покорно за минусы в карму и оценку поста от господ троечников. (Или это один троечник?)
Напоминаю, что минусование критики поднимает только собственное ЧСВ, а не грамотность.

-14

Newbilius 15 июн 2020 в 15:19

Если ошибок и опечаток мало — лучше писать автору в личку.

Если ошибок и опечаток много и вы бы перечислили в своём посте эти косяки — вам наверное и плюсы бы ставили. Сейчас же ваш комментарий с критикой есть, но критика эта не предметная, неконструктивная, и как следствие — бесполезная. Информационный шум. Говоря вашими же словами, ваш комметарий "поднимает только собственное ЧСВ, а не грамотность".

+12

Bhudh 15 июн 2020 в 15:56

Newbilius, я уже двум авторам в личку такие полотнища писал, что если б я перечислил сейчас в посте все косяки, меня сразу за спам бы заминусовали ещё хлеще.
А если я напишу автору: ну исправит он (возможно) в одной статье все (возможно) ошибки, но в остальных-то статьях ничего исправлять не станет.
А так я надеюсь, что пост прочитает неединичное множество будущих авторов и задумаются, что писателю статей надо быть подкованным не только в технической стороне, но и, как всякому писателю, в языке, на котором пишешь…
Так почему же заботу о глазах всех читателей Хабра надо называть поднятием собственного ЧСВ?

-12

Bhudh 15 июн 2020 в 18:11

О, как оперативно посты минусуют, много тут народу, которые считают, что полезную техническую информацию© можно хоть падонкаффским езыком песадь, от неё не убудет. Про минус 4 в карму уж и не говорю.
Хотя могли бы историю комментариев посмотреть и увидеть, что мне на неё чихать с высокой башни. А вот на русский язык не чихать.
Интересно, технические учебники от МинОбра вы написанными падонкоффским слэнгом видеть готовы? Для своих детей? Так-то наверняка тут многие на подобных статьях учились, пока учебников не было.

-9

knotri 15 июн 2020 в 19:29

много тут народу, которые считают, что полезную техническую информацию© можно хоть падонкаффским езыком песадь, от неё не убудет.

Лично я так считаю. Язык для меня это способ обмениваться информацией, в данной статье я информацию понял.

msububble 16 июн 2020 в 14:57

Уважаемый, вы с ветряными мельницами боретесь, к сожалению. Сейчас действительно грамотная речь уже почти никого не интересует.

smarttowel0 15 июн 2020 в 13:54

По-моему, самым популярным подходом для трекинга на данный момент являются корреляционные трекеры: KCF, DSST и их вариации. Имеют хорошую производительность, трекать могут все, что угодно и с неплохой точностью.

ZlodeiBaal 15 июн 2020 в 13:57

ZlodeiBaal 15 июн 2020 в 13:56

*промахнулся веткой

Daddy_Cool 15 июн 2020 в 15:07

А есть ли что-нибудь готовое?
У меня по поверхности плывут пузыри (их много), надо получить скорости этих пузырей вдоль нужных координат. Сейчас рассматриваем видео и дальше ручками, но хочется как-то автоматизировать.

ZlodeiBaal 15 июн 2020 в 16:11

1) Набрать массив примеров и разметить их прямоугольниками. Тулзы для разметки можно например тут взять — awesomeopensource.com/projects/annotation-tool
www.quora.com/What-is-the-best-image-labeling-tool-for-object-detection
2) Обучить любую детекционную сетку. Например — YOLOv4 — github.com/AlexeyAB/darknet#how-to-train-to-detect-your-custom-objects
Или сетку попроще. В Tensorflow detection API много разных есть, тренируются они наверное попроще — towardsdatascience.com/custom-object-detection-using-tensorflow-from-scratch-e61da2e10087
3) Использовать мой пример который в конце статьи, где используется SORT. Он склеит детекции в треки

Daddy_Cool 16 июн 2020 в 00:55

Спасибо!

IvanGroza 15 июн 2020 в 15:23

Классная статья, спасибо

linok_sergey 15 июн 2020 в 16:14

Мне через полтора часа диплом защищать диплом с использованием трекинга. Надо бы заголовок комиссии кинуть:D
статья приятная, спасибо

klirichek 15 июн 2020 в 19:15

Не надо.
Для этого есть другая обученная сеть. Называется "антиплагиат".

dim2r 15 июн 2020 в 16:45

Хочу сделать трекер тараканов на кухне. Надо отслеживать, когда отдельные особи прибегают от соседей. Что посоветуете?

demon416nds 16 июн 2020 в 07:12

советую обзавестись полом и мебелью контрастного относительно тараканов цвета
идентифицировать каждого таракана вы не сможете в силу несовершенства камер а определять положение и траекторию движения каждого вполне

T_Sun 16 июн 2020 в 09:11

надо своих маркировать цветом, тогда и отличать от соседских стане проще

dim2r 17 июн 2020 в 22:10

можно сделать наводящийся лазер

korolyov_roman 16 июн 2020 в 00:34

Как же жизненно! Сейчас читаю и вспоминаю сколько шишек я в своё время набил на этом трассировщике! И казалось бы, в последних версиях opencv есть уже готовые трассировщики причем не один, на любой вкус и быстродействие, но по факту получилось так, что ни один из них нельзя использовать для прода, разве что в качестве вспомогательного инструмента и то с натяжкой ибо на демках там всё работает красиво, но вот ты ему подсовываешь реальные кадры и он плывет. А самое веселье начинается, когда кадры по некоторой причине начинают идти редко и вот тут уже полный треш — треки рвутся, путаются, алгоритм предсказания пытается найти прогнозное положение, но в итоге объект улетает в дребеня. Кстати если кто также мучается — более менее рабочий вариант сравнения двух объектов на соседних кадрах на схожесть дает перцептивный хэш, он есть в составе opencv.

msububble 16 июн 2020 в 15:03

OpenCV — большие молодцы как популяризаторы классических CV-алгоритмов, классического ML и, в последнее время, DL, хорошая точка для старта, но современный прод ставит еще более амбициозные задачи, чем распознать и отслеживать объект на практически бесшумном видео.

ZlodeiBaal 16 июн 2020 в 21:25

OpenCV хорош для прода. Он очень много что простого умеет — и достаточно эффективно.
Взять хотя бы что OpenCV инференс нейронок эффективнее чем на дефолтном TensorFlow или PyTorch.
И это не считая OpenVino.

Захват камер опять же. Простые подготовки/преобразоваия изображений.
И работает почти везде.

msububble 17 июн 2020 в 12:06

Простые задачи — несомненно. Я про такие задачи, где классические методы, включая ML, не справляются из коробки на 100%, как их ни настраивай. Модуль dnn прекрасен, но архитектура сети зачастую должна уже быть ваша, еще несколько лет назад нельзя было просто условный AlexNet взять и сидеть радоваться. Или прод такой сложный у нас, я не знаю. Я только лишь о том, что надо самому потрудиться над задачей.

ZlodeiBaal 17 июн 2020 в 12:11

Ну… Могу лишь сказать, что по нашему опыту — и в OpenVino и в TensorRT неплохо можно переносить кастомные архитектуры, если нет там совсем уже хитрых слоёв (да и их можно с большей болью перенести).
Года полтора назад всё хуже было. А сейчас если конвертится в ONNX — скорее всего заработает.
Нужно ли делать инференс на OpenVino? У нас есть задачи где так и делается. НО не уверен что это везде применимо.

msububble 17 июн 2020 в 12:15

Это в том числе вступление в область бюджетов на проект. Если разработчику сейчас могут выдать все железки, какие есть на современном рынке и сказать: «Давай, работай, сравнивай, где быстрее», это будет счастливый разработчик.

dkurt 17 июн 2020 в 18:41

На случай если нет железок, то у Интел есть DevCloud: https://devcloud.intel.com/edge/ (Xeon, Atom, Core, FPGA, VPU, HDDL).

msububble 17 июн 2020 в 19:19

Вы верно говорите, если речь идет о pet project. Я больше про прод и про тот программно-аппаратный комплекс, который поставляется как решение. Разработчик редко решает единолично, какое железо будет поставляться. К тому же, размещение самостоятельно разработанных архитектур в стороннем месте может быть неприемлемым. Попробовать что-то не очень значимое — да, почему бы нет, сравнить с производительностью на NVIDIA заодно. Intel сейчас очень борется за рынок, но он пока не монополист.

dkurt 17 июн 2020 в 22:29

Не совсем понял мысль. На то он и удаленный доступ к железу чтобы сделать измерения и сравнить производительность, стоимость, энергопотребление. Разработчику не приобретут всех конфигураций на руки потому что он выберет только одну в итоге. Тут — зашёл и замерил.

msububble 17 июн 2020 в 23:34

Зайти и замерить можно, если заливание аудио- или видеоматериалов на сторонний ресурс не противоречит политике сохранности этого самого ресурса. Бывает, что заливать нечего, потому что материал для тестирования весь не подлежит распространению. Тогда у себя иметь экземпляры железа. До кучи кину ссылку на похожий devcloud от NVIDIA, раз уж такая ветка начала разрастаться: www.nvidia.com/en-us/data-center/data-center-gpus/gpu-test-drive

korolyov_roman 18 июн 2020 в 00:14

Поддерживаю! OpenVINO потрясающая штука. Напилили в своё время SSD-детектор на MxNet, который должен был работать на машине без видеокарты, с быстродействием получилось всё очень печально. Сконвертили в onnx, кое-что пришлось переписать руками, но в результат превзошёл все ожидания — раза в 2 производительность выросла, грубо говоря со 150 мс на детекцию до 70 с небольшим при том же качестве! Так что да, интел молодцы!

vovaf709 17 июн 2020 в 11:53

В статье было упомянуто использование LSTM. А не было попыток использования Transformer?)

ZlodeiBaal 17 июн 2020 в 11:58

Мне кажется, что пока единственный удачный эксперимент в применении Transformer к картинкам был вот этот — arxiv.org/pdf/2005.12872.pdf (я даже по его поводу небольшую статью накатал — cv-blog.ru/?p=310 )
Трансформер всё же достаточно большой и нетривиальный. Подкатывать его ради минимального улучшение точности можно только если это какая-то уже хорошо вылизанная задача. Чтобы получить последние единицы точности. Его и прикрутить сложно. И обучить. И датасет должен быть огромным.
Я думаю что такие статьи уже появились, или вот-вот должны появиться. Но смысла использовать в продакшне такие эксперименты первое время точно не будет.

AlexeyAB 19 июн 2020 в 02:36

Мне кажется, что пока единственный удачный эксперимент в применении Transformer к картинкам был вот этот — arxiv.org/pdf/2005.12872.pdf (я даже по его поводу небольшую статью накатал — cv-blog.ru/?p=310 )

А Repulsion Loss (21 Nov 2017) / CVPR 2018 arxiv.org/abs/1711.07752v2 или Soft-IoU layer (CVPR 19) arxiv.org/abs/1904.00853v3 потом не пробовали для обнаружения в толпах?

ZlodeiBaal 19 июн 2020 в 11:30

Мы с этой задачей сталкивались в конце 16-начале 17 года в первый раз, месяца два потратили. И где-то в середине 17ого второй раз, месяца за три сделали, там было больше задач.
Это ещё до появления этих статей.
И там и там сделали вполне рабочий бизнес прототип который позволял внедрить его в бизнес. В одной фирме, как я слышал, следующие года два вообще ничего не меняли, у них даже не было на поддержке специалистов по DL. Во второй активно развивали, но вроде основная структура тоже пару лет продержалась. Может быть потом они что-то аналогичное вкрутили, но мы им только другие части продукта помогали развивать.

Статьи хорошие, сейчас если бы хоть по одной был пример исходников — взял бы пробовать в первую очередь. Но сейчас выбор есть. Я часто натыкался на сети/подходы которые могут решить эту задачу.
Плюс тут есть ещё такая штука. Мы в своих работах обычно не занимаемся большим ресёрчем. У нас в большинстве своём не очень большие, ограниченные договора, в рамках которых надо максимально быстро сделать прототип. Мы стараемся максимально заложить в договор разные вариации на случай если что-то не будет работать, но сверять 5-6 сетей обычно сил и рук нет. Обычно берём 2-3 подхода, которые выглядят наиболее перспективными. И как только на каком-то достигаем продуктовой точности — останавливаемся, решаем другие вопросы эксплуатации.

Dunke1heit 17 июн 2020 в 19:01

Есть одна практическая задача, которую, наверное, никто не решал, но она не перестает быть интересной.
В прыжках с парашютом есть дисциплина — Wingsuit формации, когда несколько человек прыгают в Wingsuit-ах.
В этой дисциплине устанавливаются свои рекорды — по количеству человек. Но здесь важно не просто собрать как можно больше людей, но и сделать так, чтобы каждый летел в своём секторе.
Только когда это случилось рекорд считается установленным.
Фиксируется это так — все выпрыгивают из самолета, над формацией летит оператор и снимает весь полет сверху.
Затем специально обученные люди просматривают видео кадр за кадром и пытаются наложить сверху сетку так, чтобы не было пересечений линий людьми.
Такие просмотры могут быть очень долгими, а не заметить какой-нибудь случайный кадр — легко. В итоге уходит драгоценное время на повторные попытки, и высок риск упустить тот самый кадр.
Кажется, что задача складывается из нескольких — трекинг людей на движущемся фоне или распознавание на каждом кадре и установка сетки.

ZlodeiBaal 17 июн 2020 в 19:43

Это не про трекинг задача, а про детекцию всё же. Если детектор хорошо работает — то и не надо трекать. Если не работает — трекинг ничего нового не даст.
Но это и не суть. Сделать стабильное решение для такой задачи + запилить интерфейсы — может без проблем стоить несколько миллионов рублей. При этом 100% стабильного решения оно не даст + будет требовать человека на поддержку время от времени.
Как результат — такие проекты не окупаются.

Куда проще такие задачи делаются через понижение цены работы разметчика. Сделать разметку через Толоку, и всё. Это по цене и стабильности будет на порядок лучше нейронки, будет устойчивой к странным костюмом и кривой съёмке.
Но я думаю что даже это не выгодно будет.

strcpy 18 июн 2020 в 08:11

Может быть теперь понятно почему selfdriving cars в продакшн никогда не будет.

Poseidonova 11 июл 2020 в 16:41

Я по работе столкнулась с computer vision. Ранше как-то эта тема меня не затрагивала) Статья не для такого новичка, как я, но мне понравилась. Порадовали ссылки на другие статьи с которыми можно ознакомится для лучшего понимания. Спасибо большое!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий