sim0nsays May 18 2016 at 10:07

Эволюция нейросетей для распознавания изображений в Google: GoogLeNet

3 min

40K

Image processing*Machine learning*

+25

Comments 15

grossws May 18 2016 at 17:59

Не очень понятно как convolution 1x1 уменьшает размерность. Можете пояснить, что понимается по conv 1x1 в этом случае?

sim0nsays May 18 2016 at 19:03

Например, некий layer выдает матрицу активаций 14x14x152 и она дается на вход 1x1 convolution. На выходе может быть, например, 14x14x64 — то есть, те же размеры по вертикали и горизонтали, но меньшая глубина. У такого 1x1 conv будем 152*64 параметра, и он просто сделает линейное преобразование для каждого многомерного "пикселя", коих 14x14.

grossws May 18 2016 at 19:06

Чем оно тогда отличается от FC слоя 14x14x152 -> 14x14x64? Функцией активации?

supersonic_snail May 18 2016 at 19:27

FC слой будет не 14х14х152->14x14x64, а 14x14x152->512. 1х1 conv слой явно сохраняет x и y измерения, FC нет. Собственно в этом и принципиальное отличие.

grossws May 18 2016 at 19:28

Т. е. чисто терминологическое отличие, спасибо.

sim0nsays May 18 2016 at 19:31

Нет, не только. Количество параметров и то, как происходят вычисления, разные. Отличие то же, что и у convolutional vs fully connected layers в принципе

sim0nsays May 18 2016 at 19:29

Предыдущий комментарий по делу. Я дополню тем, каждый нейрон FC layer получает на вход все 14x14x152, а conv 1x1 — только 152, но прогоняется для каждого "пикселя" 14x14 независимо

grossws May 18 2016 at 19:32

Тоже верно, туплю.

mrgloom May 22 2016 at 15:37

Тут есть неплохое описание CONV слоя и 1X1 CONV слоя в частности.
http://cs231n.github.io/convolutional-networks/

kometa_triatlon May 18 2016 at 19:02

Пейпер, леер, кернелы…

-2

sim0nsays May 18 2016 at 19:04

Так уж живем

BelBES May 25 2016 at 10:23

А можно пару вопросов?

Откуда вообще была придумана архитектура ineption'а? Из статей о GoogLeNet этот момент не совсем понятен… есть какое-то обоснование того, что вот таки блоки работают лучше, чем сети с последовательными слоями? Или там просто брутфорсом получили такой блок и дальше использовали как есть?
Почему замена MLP на GAP на выходе сетки считается практически равнозначной, параметров у модели ведь значительно меньше становится?

supersonic_snail May 25 2016 at 11:10

1 — Мотивация и правда на особо описана. Как мне кажется, Inception блок извлекает features на разных масштабах — там параллельно 1х1, 3х3, 5х5 convolutions + max pooling. Возможно в этом и была идея. К слову, мотивацию в статьях вообще крайне редко пишут — она скорее мешает пройти ревью на конференцию.

2 — Сеть с много параметров не обязательно будет иметь хорошие результаты. Если взять обычную fc-сеть с 1 скрытым слоем на 1кк нейронов, то будет куча параметров, но работать она будет так себе, если вообще будет. Как вариант объяснения — receptive field каждого пиксела в самом последнем слое уже почти занимает всю картинку. Точного размера не скажу, надо считать. Особой необходимости пропускать это через fc слои нет. Как бонус — значительное уменьшение модели, чего они и добивались.

sim0nsays May 25 2016 at 19:24

Я вроде описываю мотивацию — хотелось архитектуру компактнее, мужики исследовали разные идеи как это сделать — делать convolutions меньше, уменьшать размерность, придумать что-то вместо FC layers. А оказалось, оно очень неплохо работает! Я думаю, такой блок получили большим количеством последовательных экспериментов.

Про второе — видимо, потому что большое количество параметров в FC layers избыточны (как показывает работа по Deep Compression, например). Последние inception blocks уже очень толстые и про свертки в них можно думать как применяющиеся ко всей картинке FC layers, только в окрестности каждого пикселя. И вот идея в том, чтобы усреднить такой вход в гриде 7x7 и сказать, что это финальные фичи. Опять же, почему конкретно это работает это нынче сложный в deep learning вопрос. Пока получается только эмпирически

sim0nsays May 25 2016 at 19:26

[ignore this comment]

Show the best of all time