Comments 114
Что со всей очевидностью показывает, что все эти нейросети к «интеллекту» не имеют никакого отношения. Человеческому ребёнку достаточно показать пару картинок с черепахой (а не несколько тысяч), и в дальнейшем в жизни он будет её идентифицировать с 99,9% точностью, и уж точно не перепутает с винтовкой.
Вы можете сами определить, а потом показать ребенку. Точность действительно не очень, для приемлимой точности нужно заметно больше картинок, чем две. Движущуюся в живую ещё лучше — сразу и видео и тактильные ощущения.
Более того, ребенку можно показать нечто лишь весьма отдаленно напоминающее черепаху (рисунки в детских книжках), и он все равно будет в состоянии распознать настоящую черепаху когда увидит.
Сдаётся мне, принципиальных различий между биологическими и искусственными нейросетями таки нет, а разница как раз в том, что интеллект предполагает наличие модели, с которой сравнивается объект. Ребенок, учащийся распознавать животное по одной фотографии, на самом деле владеет гораздо большим количеством информации, чем набором пикселов на входном слое нейросети. Тут работает весь жизненный опыт обращения с физическими объектами и наблюдения их во всевозможных условиях.
То, что мяч выглядит, как чашка кофе (да, он на самом деле так выглядит) никак не отменяет того факта, что черепаха мало похожа на винтовку.
Это всё пока что показывает лишь следующее: мы идём ложным путём. Как с шахматами — ну помнит Deep Blue все эндшпили, а человек-то их помнит? А противостоять кремниевой мощи более-менее может.
Может, но уже не в шахматах.
Одна из причин — это то, что существующие сверточные сети, в каком-то смысле соответствуют только части зрительной коры — они распознают изображение как целое, без разбиения на части и анализа взаимного положения этих частей. Поэтому сеть может использовать множество признаков, разбросанных по всему изображению совсем не в том порядке как на изображении винтовки, чтобы сделать заключение, что это — винтовка.
Исследователи в курсе, и ведутся работы на тем, чтобы использовать и информацию о взаимном расположении частей. Я ниже приводил ссылку: капсульные сети.
Поэтому сеть может использовать множество признаков, разбросанных по всему изображению совсем не в том порядке как на изображении винтовки, чтобы сделать заключение, что это — винтовка.
И поэтому это не ИИ. Согласитесь, мы определим винтовку с поувзгляда, не спутав её с черепахой и не держав её ни разу в руках (как и черепаху, в общем-то).
Не работает оно даже как кусок зрительной коры.
Мозг таких ошибок не допускает в принципе.
В принципе? Очень смелое заявление, не стыкующееся с существованием зрительных иллюзий.
Зрительная кора, кроме того, что имеет заранее (генетически) подготовленные шаблоны, ещё и обучается годами, прежде чем сможет показать трюк "обучение с первого раза". Дайте перекрестному обучению нейросетей ещё пару лет, и мы увидим много интересного.
Зрительная кора однозначно имеет шаблоны (парейдолия, вот это всё). Но мы не о них! Ну нет никаких шаблонов у европейского гоминида о черепахах, пингвинах (и винтовках, если уж на то пошло).
Синее и белое платье это неизбежные баги (и крайне редкие, надо заметить). А распознавание лиц — это как раз вполне нормальное явление (ну про парейдолию я вхолостую упомнял, видимо), вот это-то как раз генетически заложенный паттерн.
Баги редко находятся, потому что карты градиентов нет. Без нее их просто труднее искать. Я бы не поставил на то, что их на самом деле мало.
Я знаю, что A и B одного цвета, но ничего не могу поделать с восприятием.
Еще геометрических багов полно — «движение» там, где его на самом деле нет, и не просто видим — это прямо-таки широко и повсеместно используется.
Интересны баги, связанные с компенсацией недостающего изображения, не могу сейчас найти конкретный пример с девушкой в купальнике, которую частично закрывают фильтром на другой картинке так, что купальник не виден.
Добавим туда множество багов ложного распознания из серии «показалось» при перетренированности.
Повреждённый мозг допускает и не такие ошибки, но зачем нам имитация повреждённого мозга?
3D человеку нужно процентов на 10. У меня серьёзные проблемы со зрением, и тридэ у меня и близко не работает, но проблем с распознаванием образов никаких нет. (основная проблема — как бы сходить в кино на 2D-сеанс)
Да не нужна человеку трёхмерность для опознавания объектов. Когда вы периферийным зрением одного глаза опознаете змею, то отпрыгнете на пару метров без опознания её объёма и расстояния до неё.
Ужас-то какой! Ветка вместо змеи.
А если наоборот?
Естественно, что в данном случае опознание работает с избыточностью. Так а что там насчёт 3D?
Человек понимает под винтовкой «опсность». Робота просто клинит.
Тут было же: нейросеть ломалась на распознавании пляжа, просто когда ей вместо цветного фото давали чёрно-белое.
Механизм абсолютно разный, о том и речь. Ветка действительно может оказаться змеёй. То есть опознавающий алгоритм в мозгу работает с избыточностью, но это оправдано. Но ветку за ворону или лошадь, или даже опасного льва он не примет.
Ну и если вы правда считаете, что тут есть принципиальная разница, стоило бы на нее указать. А «опасность» это не свойство алгоритма распознования, а причина, по которой он имеет уклон в сторону ложноположительных срабатываний по конкретным предметам. Прямой связи с механизмом это не имеет.
В одном треде прямо противоположные высказывания:
>>тридэ у меня и близко не работает, но проблем с распознаванием образов никаких нет.
>>Ветка действительно может оказаться змеёй
Что вы пытаетесь доказать?
Двух мало? А трёх? А десяти? Или как для нейросети, нужны тысячи? Не придирайтесь к словам, порядок значений вполне ясен. Мало кто видел в живую пингвина, но любой опознает его при встрече безошибочно.
Ждал этого коммента. Вы считаете, у старшего поколения, не имевшего интернета, и познававшего мир по журналу «вокруг света» и чёрно-белой телепередаче «клуб путешественников», по сравнению с нами нынешними имеются серьёзные проблемы с опознанием пингвинов?
Да нет, конечно же, каждый день на улице встречали и ощупывали.
И главное, есть такое место в каждом более-менее крупном городе, называется «ЗООПАРК».
До чего же я рад за жителей крупных городов.
А вот жители мелких городов такого счастья лишены, и постоянно пингвина с уткой путают.
Ну так средневековые художники были от слова «худо», но это проблема художников, а не воспринимающего.
и чёрно-белой телепередаче «клуб путешественников», по сравнению с нами нынешними имеются серьёзные проблемы с опознанием пингвинов?
Пингвинов конечно нет — они тоже черно-белые :)
Например, батя научил, что пацан всегда должен дать сдачи иначе он фуфло, а не пацан. И через тридцать лет взрослый мужчина ввязывается в бытовую потасовку, которая переходит в драку и убийство. Ведомый жесткой, директивной установкой он раздувает мелкую перебранку до тяжелого преступления, которое может поставить крест на всей жизни.
Если поковыряться в подобных незыблемых истинах и самоочевидных установках то вдруг понимаешь что
Вы все еще уверены в исходе эксперимента?
Поэтому нужно тренировать на трёхмерных изображениях, ведь у нас нехилая такая оптическая система, в отличии от кучки нейронов, которым показывают жалкие плоские жипеги.
Собственно уже появилась архитектура сети, более устойчивая к этому типу атак: капсульные сети. В этой публикации есть оценка устойчивости: https://openreview.net/forum?id=HJWLfGWRb
Эспрессо в мяче действительно можно разглядеть.
Для защиты от подобных атак разработчики ИИ будущего может держать в секрете информацию об архитектуре своих нейросетей, а главное — о наборе данных, который использовался при обучении.
Хипстеры, прыгающие вокруг черного ящика нейросетей, ожидаемо пришли к решению «security through obscurity» — ну вот и всё, можно расслабиться, человечество гарантированно обречено. %)
На самом деле я рад тому факту, что стали появляться статьи с робкими попытками противопоставить что-то нейросетям, вот например, и вроде была еще, как минимум одна, но не смог найти, к сожалению.
При некоторой абстракции можно опознать герб Австралии — «Щит с дубиной и двумя бумерангами».
А вообще идея хорошая, поскольку все нужно проверять на крайностях, чтобы определять границы применимости.
Личный пример важности распознавания: В темное время увидел на тротуаре возле пешеходного перехода тетку с вытянутой рукой. После милисекундного колебания (сумбурный анализ идиотской позы, сравнение с известными образами) на всякий случай дал по тормозам. Не ошибся — абсолютно черная собачка на черном поводке уже была на дороге, хотя хозяйка только подходила. Автопилот бы намотал ее на колеса, пришлось бы отмывать потом. Хотя у меня возник образ ребенка, бегущего впереди матери к дороге, тянущего за руку.
Только у боевого робота датчиков больше, чем у людей. Оптическое распознавание, в котором так хороши люди, будет далеко не единственной возможностью у робота.
Биологический распознаватель изображения пока гораздо мощнее кремниевого, и способы его обмана намного превосходят возможности железа.
Например, ребенок на картинке с котом видит животное с определенным строением тела, расположением и формой глаз, носа, мягкой шерстью и т.д. Способность к распознаванию этих признаков по плоскому изображению или даже стилизованному рисунку уже наработана мозгом ребенка.
Дальше, по этим признакам распознать кота уже совсем не сложно. Обмануть такую систему тоже гораздо сложнее.
Для решения проблемы нужны гораздо более сложные многоуровневые нейронные сети, обученные выделять в изображениях сложные системы потенциально полезных высоко-уровневых признаков. Дальше, такую «знающую мир» сеть можно будет быстро и надежно обучить распознаванию любых объектов.
Естественно, я понятия не имею как это сделать.
31 буква — «РАЗРАБОТАННЫЕ»,
41 буква — «СДЕЛКИ»,
42 буквы — «СВЕЖИЕ».
Емок и чудесен монгольский язык. Хотя это отличный пример как уязвимости сетей распознавания будут расходиться по форумам или продаваться на черном рынке.
Как у вас это получилось? Он выдает мне ОЧЕНЬ странные фразы с вариациями слов мама, ребенок, тетя, верблюд и пчела?
можно узнать по каким признакам нейросеть увидела винтовку?
1) голова — дуло, плавник — рукоять или приклад, тело — человек, который держит винтовку (в темном камуфляже), либо просто нагромождение темных областей в середине винтовки.
2) Мы вообще ничего не знаем о тех фотках, на которых тренировали, поэтому там может быть что угодно, к примеру — такой ракурс, когда дуло упирается в объектив, а приклад еле виден, таким образом пропорции нарушаются и вполне можно получить «черепаху», ведь нейросеть ничего не знает о 3д мире, в отличие от человека, у которого мозг после считывания с «матрицы» делает «шумоподавление». :)
человеку покажи любую черепаху, но узнает в ней черепаху и точно не перепутает с винтовкойПочему вы так думаете?
Первые состязательные 3D-примеры для обмана нейросетей