Pull to refresh

Comments 10

На хабре уже был обзор этой же статьи, написанный с меньшим количеством воды и с техническими деталями.
На самом деле будет очень круто, когда поверх слоя сетей которые распознают материалы и текстуры навернуть другие алгоритмы которые пользуясь информацией о том что это за текстуры станут распознавать образы. Мы же во многом так думаем, видя кусок шерсти мы не знаем, медведь это, собака или шуба, но видя в целом мы сопоставляем и форму и текстуру и делаем вывод.

Имхо все прийдёт к тому что выходы из разных нейросетей будут входами в одну большую сеть по типу как у человека когнитивная зона, и эта сеть на основании всех контекстов будет выдавать результат

вообще то это показывает что сейчас нейронка делает избыточную работу, потому что формы определить проще. Вот тестовая идея — два отдельных входа для текстур (обычное фото) и для форм (состоит из модуля разницы по соседним пикселям). Совмещаем трубы где то на предпоследнем слое.
потому что формы определить проще

Что значит «проще»? Если бы было проще, разве тогда сеть не использовала их?


Совмещаем трубы где то на предпоследнем слое.

Что мешает сети просто проигнорировать «трубу» с модулем разности и обучиться как раньше? К тому же, если бы разность была бы так нужна сети, она сама бы ей научилась в первом же свёрточном слое, так как такая разность — это и есть свёртка.

Работу человеческого мозга по распознаванию объектов можно изучить, например, показывая человеку современные (или наоборот, старинные) фотографии того города, в котором он когда-то жил (или живет)

В отличии от кошек и проч. — здания и улицы могут оставаться неизменными на протяжении долгого времени или сохранять какие-то узнаваемые черты при наличии большого количества изменений.
Эта относительная неизменность дает некоторую базу для изучения механизма распознавания.

(довольно часто приходилось наблюдать, как человек не мог распознать на снимке хорошо знакомые ему улицы и здания после современной «точечной» застройки. Однако практически всегда, хотя и не очень быстро, мозг человека определял совокупность нескольких мелких объектов на снимке, после чего происходило мгновенное узнавание. Иногда это вызывало досаду: «как я мог не узнать сразу, ведь это очевидно!»)

Ужас. Какие-то открытия у людей. Не представляют похоже как работает машинное обучение.


На входе цвета пикселей и работает по цветам пикселей, что тут удивительного.
В распознавании лиц подают что-то ближе к форме, а не к цветам, вот и работает уже по другому. Изи.


Сейчас такое время: то грантососы, то изнасилования журналистов.

Однако те же самые изображения, видоизменённые чуть-чуть по-другому, совершенно сбили сеть с толку, хотя для людей новое искажение выглядело практически так же, как и старое.

это просто оверфит. Надо добавлять к картинке случайный микро-шум чтобы выбивать этот оверит. Ещё можно обучать на 3Д- рендеринге с простой текстурой но чёткими формами. И вангую внезапно окажется что надо в разы меньше слоёв.
ИМХО состоит в том, что сеть учится на статичных, фиксированных изображениях, а человек — на «видеопотоке», который даёт как чёткие изображения, так и смазанности, игру теней, движение на похожем фоне и т.п., причём человек (ребёнок) понимает, что это слегка размытое очертание это та же кошка что секунду назад сидела приготовившись к прыжку. И ребёнок таким образом научится распознавать кошек в движении. А нейросеть — нет, она работает (на сегодня) со «стоп-кадрами», и не способна отслеживать движение объектов во время, когда они принимают нестандартные формы или нечётко видны.
Sign up to leave a comment.

Articles