Как стать автором
Обновить

Ученые показали, почему большие нейросети работают лучше

Время на прочтение2 мин
Количество просмотров10K

В докладе, представленном в декабре на ведущей конференции NeurIPS, Себастьен Бубек из Microsoft Research и Марк Селлке из Стэнфордского университета показали, что нейросети должны быть намного больше, чтобы избежать некоторых проблем в их работе. 

Стандартные ожидания относительно размера нейросетей основаны на анализе того, как они запоминают данные. Одной из популярных задач для нейросетей является идентификация объектов на изображениях. Чтобы создать такую нейросеть, исследователи сначала предоставляют ей множество изображений с метками объектов, обучая изучать корреляции между ними. Как только нейросеть запоминает достаточно обучающих данных, она также получает возможность предсказывать метки объектов, которые она никогда не видела, — с разной степенью точности. Этот процесс известен как обобщение.

Размер сети определяет, сколько информации она может запомнить. Изображения, например, описываются сотнями или тысячами значений — по одному на каждый пиксель. Этот набор множества свободных значений математически эквивалентен координатам точки в многомерном пространстве. Количество координат называется размерностью.

С 80-х нейросетям задавали столько n параметров, чтобы соответствовать n точкам данных — независимо от размерности данных. Однако современные нейронные сети имеют большее количество параметров, чем количество обучающих выборок. 

Исследователи рассматривали такой параметр, как надежность работы нейросети, в связи с ее масштабами. В своей работе они показывают, что избыточная параметризация необходима для надежности сети. 

Ученые показали, что для подгонки точек данных большой размерности требуется не просто n параметров, а n × d параметров, где d — размерность входных данных (например, 784 для 784-пиксельного изображения). Доказательство основано на факте из многомерной геометрии, а именно на том, что случайно распределенные точки, размещенные на поверхности сферы, почти все находятся на расстоянии полного диаметра друг от друга.

Другое исследование выявило дополнительные причины, по которым избыточная параметризация полезна. Например, это может повысить эффективность процесса обучения, а также способность нейросети к обобщению. 

Ранее Google опубликовала исследование, посвященное основным трендам машинного обучения в 2021 году. Компания предсказывает развитие более мощных моделей ML общего назначения с миллиардами и даже триллионами параметров.

Теги:
Хабы:
Всего голосов 11: ↑8 и ↓3+7
Комментарии10

Другие новости

Истории

Работа

Data Scientist
62 вакансии

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область