Как стать автором
Обновить

Комментарии 14

Часто пишут о том, что в задачах распознавания нейросети давно превзошли людей. Однако, если присмотреться к кадрам из ролика про 007, то видно много ошибок:
— Цепочка зданий определились, как поезд
— Ворота снова определились, как поезд
— Свето-теневой рисунок на полу определился, как кровать
— Человек на мотоцикле часто определяется, как person целиком (вместе с мотоциклом)
Причины ошибок вполне понятны — человек может рассмотреть картинку более внимательно, обдумать что может быть, а чего не может. (Если это видео, то ещё и учесть перемещение объектов.) Но тогда о каком превосходстве НС над человеком в распознавании объектов идёт речь?
Если человека попросить только глянув на картинку быстро сказать что это, то он, вероятно, совершит точно такие же ошибки.

YOLO предназначена для скорости, а не точности, причем не только распознавания, но и локализации.


видно много ошибок

четыре — это не много. Не забывайте, что нейросеть определила правильно сотни тысяч объектов и лишь в нескольких случаях ошиблась.
Человек бы размечал это видео много лет и тоже бы наошибался.


о каком превосходстве НС над человеком в распознавании объектов идёт речь?

скорость и точность

Ошибки tracking не то, что человек, многие животные не делают. Вообще, распознавание объектов — это вопрос эволюции, если бы животные не распознавали объекты быстро и четко, они давно были бы съедены.
Сегодня любая из эти нейросетей на антилопе, была бы съедена за неделю.
Ошибки tracking не то, что человек, многие животные не делают.

Да, ладно, глупости-то не говорите. Люди вечно от кустов шарахаются и вообще от любых быстро двигающихся пятен, влепляются во все подряд, автомобилисты насмерть сбивают велосипедистов.
Почитайте, как устроено зрение — это очень не точный инструмент, но быстрый. Потому что лучше ошибиться и выжить, чем внимательно разглядеть и принять верное решение, но слишком поздно.


Сегодня любая из эти нейросетей на антилопе, была бы съедена за неделю.

Сегодня нейросети лучше людей управляют автомобилями, несравнимо лучше играют в шахматы, шашки, го, нарды и многие другие игры.

А какие сети заточены на точность в ущерб скорости, и насколько они медленнее?

Вот здесь есть список типовых архитектур для классификации и их метрики качества и скорости — https://github.com/taehoonlee/tensornets#performances

Скорость — это, безусловно, очень полезно, но сначала всё-таки хотелось бы добиться точности не хуже, чем у человека. Особенно, если делаются громкие заявления (не в этой статье) о достижении superhuman способности в распознавании. Прошу подсказать знающих людей: существуют ли на данный момент сети, не совершающие настолько грубых ошибок (чтобы дома называть поездом, а свет на полу — кроватью)?

Во-первых, бывают дома похожие на поезда, а поезда похожие на дома. И что из этого считать домом, а что поездом?
Во-вторых, в датасетах тоже бывают ошибки, что очевидным образом влияет на качество распознания сетью и на точность самой оценки точности распознавания.


Точность уже давно лучше, чем у человека. Примеры и метрики — https://github.com/taehoonlee/tensornets#performances

>бывают дома похожие на поезда, а поезда похожие на дома. И что из этого считать домом, а что поездом?
При всём уважении, это больше похоже на демагогию, а не на аргумент.)
Вот посмотрите на этот кадр youtu.be/VOC3huqHrss?t=48
Ни один человек в своём уме не назовёт выделенный объект поездом. Любому человеку понятно, что это цепочка домов. Конечно, на какой-то очень-очень грубой степени приближения это действительно похоже на поезд, но мы ведь говорим про точность распознавания лучше чем у человека, не так ли? А приведённые примеры полностью опровергают этот тезис. Соответственно мой вопрос: есть ли системы не совершающие настолько очевидных ошибок.
это больше похоже на демагогию, а не на аргумент

Демагогией как раз является ваша декларация, не имеющая никакого отношения к содержанию моего аргумента, а выражает ваше отношение к нему (которое не является предметом дискуссии).
В то время как мой аргумент является именно аргументом… так пока и оставшимся без ответа.


Ни один человек в своём уме не назовёт выделенный объект поездом.

Это утверждение необходимо доказать.
На самом же деле даже после разметки тысячи кадров человек будет ошибаться раз в 100 больше, чем нейросеть.


Не говоря уже о том, что нейросеть справляется с этой работой в тысячи раз быстрее. Это и есть super-human уровень — ни один человек не может дать такой же точности с такой скоростью.

Интересно, насколько системы распознавания близки к тому, чтобы стать более… интеллектуальными? Чтобы качество распознавания соответствовало человеку внимательно рассмотревшему картинку, а не бегло глянувшему на неё.)

Жаль, что это итоги 2016

Очень жаль, что открывая статью на тему ML или CV я в 90% случаев вижу очередной тролинг про нейросети.
image

Милая собачка, не так ли?
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории