Как стать автором
Обновить

Комментарии 10

Видно что научная область еще не зрелая. Танцы с бубнами и перетасовки разных приемчиков. Большая картина еще не сложилась. Лет через 5 будем иметь стандартную архитектуру сети в которой все учтено а еще через 5 поймем что все делали не правильно и надо по другому. Но тогда уже интерес к нейро-сетям угаснет :)
Хорошо бы через 5… За последние 4 прогресс в понимании большой картины так себе.

Сильно ли все поменялось за эти 5 лет?

И вот вся эта машинерия жрет в 2.5 раз больше вычислительных ресурсов, чем Inception-v1 и достигает значительно лучших результатов.

так получается, что GoogLeNet в любом случае при сравнимом качестве с ResNet (0.01% — это не принципиальный проигрыш) работает существенно быстрее, т.к. сложность для ResNet-152 ~12 GFLOP, а для GoogLeNet ~3GFLOP (если считать 2x от Inception v1).

Там 2.5x, но да, все так.

Интересно, насколько можно повысить качество этого гугленета, если прокинуть residual-связи вокруг inception'ов… по идее должно хватить для того, чтобы стать top-1

Ждите следующей части, все будет!
Я безумно извиняюсь за некоторый оффтоп, но не могу не задать вопрос
Есть ли какое-нить доступное объяснение, почему «классические» (не residual) глубокие сети с ростом числа уровней начали давать худший training error?

Ну, во первых, при тренировке достаточно глубоких сетей возникает пробелма с исчезающими градиентами. Но эту проблему вроде бы достаточно эффективно побеждают за счет использования Batch Normalization. И в статье про ResNet авторы предположили иную природу такого поведения, а именно то, что при увеличении глубины сети, экспоненциально убывает скорость сходимости, соответственно тупо не получается дождаться сходимости процесса обучения. А residual connections позволяют усиливать активацию на каждом слое, тем самым более эффективно тренирую глубокие слои. Но, даже для таких сетей авторы уткнулись в то, что с некоторого момента возникает проблема с тем, что в датасетах недостаточно данных, чтобы обобщиться с еще большим качеством (насколько я помню, даже для 1000-слойного резнета они уже пришли к выводу, что он мог бы и лучше результаты показать, но данных не достаточно).

Ага, понял, спасибо)
Про 1200-слойную сеть я помню, в статье вроде писали что у них наступило переобучение
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации