Как стать автором
Обновить

Нейросети и глубокое обучение, глава 3, ч.2: почему регуляризация помогает уменьшать переобучение?

Время на прочтение 35 мин
Количество просмотров 19K
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 4

Комментарии 4

НЛО прилетело и опубликовало эту надпись здесь
image
Со стороны канонической математики вся эта эвристика выглядит как — «подогнать теорию под результат»

Ну так это так и работает, это именно математика. У нас есть генеральная совокупность и какое-то априорное предположение о его распределении. Это может быть как вера в бритву Оккама, так и какое-то следствие из теории, описывающей предметную область.


Если мы подбираем параметры модели так, чтобы результаты наблюдений имели наибольшую вероятность, то это метод максимального правдоподобия. Вот он как раз и переобучается. И это не очень логично, использовать такой метод. У нас же есть какие-то априорные предположения, а мы их не используем.


А если мы применим теорему Байеса и учтём наши априорные знания, то получится оценка апостериорного максимума. Если расписать функцию потерь в этом случае, то как раз и появится регуляризационное слагаемое.


Рассуждения про бритву Оккама — это здорово, но они не объясняют с математической точки зрения, почему нужна регуляризация и почему она именно такая. А с помощью теоремы Байеса это всё отлично выводится.


Скажем, L2 — это не просто из головы взяли, что надо в квадрат возводить. Этот регуляризационный член появляется из априорного предположения о нормальности распределения шума. Так что это очень даже каноничная математика.


С другой стороны, если модель очень сложная, то мало кто заморачивается с выводами (так как иногда исследование просто не провести из-за запредельной сложности), а просто экспериментируют. :) Но понимать, откуда у регуляризации ноги растут, я думаю, полезно.

Рассуждения автора во вводной части представляются спорными. Он сравнивает два метода описания экспериментальных данных — аппроксимацию с помощью многочлена и линейную регрессию. И задается вопросом, какой метод даст лучшие предсказания за пределами области определения данных. Но это разные задачи, и кажется странным сравнивать результаты предсказания по ним. Первая, как можно точнее описать поведение данных, вторая — выявить тренд. Соответственно, если обучать нейросеть, то и критерии должны быть разными. К этому никакого отношения не имеет бритва Оккама. Если задаться вопросом — какая зависимость имеет место в действительности, если это результаты измерений, то для этого нужно понять происхождение отклонений. Связано это с ошибками измерений, или присуще поведению самого явления? На практике это бывает иногда сложно понять. Но в этом и состоит работа экспериментатора.

Дальнейшие рассуждения с бритвой Оккама кажутся вовсе ошибочными. Пример с частицей Шейна, в полном соответствии с принципом Оккама, не сложнее описывается, как утверждает автор, а именно проще. Для каждой из пластин Бете находит объяснение не привлекающее излишнюю сущность — новую частицу, т.е. его описание проще, а не сложнее. Второй пример, с гравитацией, вообще не подпадает под действие этого методологического принципа, т.к. закон тяготения Ньютона и ОТО находятся во взаимоотношении регулируемом принципом соответствия, и первый является частным случаем второй, в предельном случае слабого гр. потенциала. Правильный пример излишнего усложнения было бы привлечение, например, эфира для объяснения гравитационных эффектов некорректно описываемых законом Ньютона. Если принять объяснения автора, то ОТО тоже «не верна», т.к. со временем появится более общая теория кв. гравитации, кот. опишет гравитационные явления, типа структуры ЧД, кот. ОТО не в состоянии сделать, хотя и предсказала их существование. Но это не так, ОТО верна, и очевидно, будет являться частным случаем теории кв. гравитации, кот. будет корректно описывать явления для любых величин гр. потенциалов.
никто пока ещё не разработал полностью убедительное теоретическое объяснение тому, почему регуляризация помогает сетям проводить обобщение.
Если исходить из обучения человека, имея ввиду, в общем случае и процесс познания, как самообучения, то обобщению предшествует процедура абстрагирования, связанная с удалением несущественных признаков. В этом смысле регуляризацию в НС можно рассматривать, как аналог абстрагирования у человека. Если посмотреть на определение абстрагирования, то можно увидеть многообразие ее разновидностей. То есть и здесь нет единого механизма, к которому сводилась бы эта процедура. Возможно поэтому нет и единого математического описания регуляризации. Но это предположение, математики не раз находили решение таких сложных задач)

На абстрагирование, и регуляризацию в НС, можно посмотреть с другой точки зрения, как на сжатие информации с потерями. В какой-то момент эволюция установила, что условные рефлексы полезно вырабатывать не только для целостных сенсорных образов, но и для примитивов сжатия. Это подстегнуло процесс дальнейшего сжатия информации, вплоть до появления абстрактных понятий у человека, и их использования в процессе мышления. Таким образом эволюция решила сразу две задачи, произвела сжатие информации, уменьшив требования к вычислительным ресурсам мозга, и нашла результатам сжатия применение во все более усложняющемся мышлении, как полезного приспособления для выживания видов.
А это особенно досадно, поскольку в обычной жизни люди феноменально хорошо умеют обобщать данные… Думаю, что в будущем мы выработаем боле мощные технологии регуляризации в искусственных нейросетях, техники, которые в итоге позволят НС обобщать данные, исходя из ещё менее крупных наборов данных.
Да, а для начала хотя бы реализовать в НС эту способность, которая имеется уже у детей)
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории