Pull to refresh

Comments 4

В последнее время вышел ряд работ посвященных устойчивости GAN

По меркам нашей отрасли, середина 2017 года — это давно. :) С тех пор вышло немало новых работ. К сожалению, «серебряную пулю» пока не нашли.


Навскидку несколько подходов (старых и новых), которые, кажется, не упоминаются в этой статье:


  • WGAN-GP — это Wasserstein GAN с т.н. gradient penalty, регуляризатором, который пытается обеспечить 1-липшицевость. Работает намного эффективнее клиппинга весов из обычного WGAN. Подход старый, но работает хорошо. Мало кто уже WGAN без GP использует.
  • TTUR — доклад на ICLR 2018, но тоже вышел давненько. Примечателен теоремой с условиями сходимости GAN.
  • Spectral Normalization — вместо того, чтобы регуляризировать в сторону 1-липшицевости просто перенормируем веса свёрток, чтобы норма соответствующего оператора была равна 1.
  • Improving the Improved Training of Wasserstein GANs — другой вид регуляризации в дополнение к GP.
  • The relativistic discriminator: a key element missing from standard GAN — хайповая статья, вышедшая на прошлой неделе. Хайповость обеспечил Гудфеллоу, очень хорошо отозвавшийся о ней. (Любопытно, что девушка, написавшая эту статью — единственный автор, да ещё и занимающийся биоинформатикой, а не GAN.)

И так далее.

Интересно, за что минус-то? Я просто статьи, относящиеся к обсуждаемой теме, перечислил.

По меркам нашей отрасли, середина 2017 года — это давно. :) С тех пор вышло немало новых работ. К сожалению, «серебряную пулю» пока не нашли.

Действительно это так. Но мое личное ощущение, что большинство авторов пытаются что-то улучшить не ответив на самый главный вопрос: «а вообще имеет ли смысл то что мы пытаемся обучать?».
Поэтому я привел именно эти статьи как пример. В них авторы ставят интересные вопросы — а что находится «под капотом»?
Они прелагают закрыть глаза на детали процедуры обучения и рассмотреть векторные поля которым следовали бы генератор и дискриминатор если бы мы использовали Simultaneous Gradient Descent.
Ведь в конце концов именно эти векторные поля определяют «характер» обучения. Они же приводят доказательство устойчивости при определенных условиях.
Если честно, некоторые предположения меня не очень устраивают — например «в точке равновесия дискриминатор должен выдавать постоянное значение».
А что если он выдает «почти» постоянное значение. Как сильно это влияет и т.д.
И собственно наличие точки равновесия остается большим вопросом. Я не говорю что ее нет, но ответ тут не очевиден и требует изучения.
Доказать наличие точки равновесия получается только для линейных дискриминатора и генератора.

TTUR — доклад на ICLR 2018, но тоже вышел давненько. Примечателен теоремой с условиями сходимости GAN.

Это отличная работа. И авторы тоже ставят вопросы сходимости и устойчивости точек равновесия.
Опять же это хорошо согласуется со взглядом на двумерные поля.
Можно показать что в большинстве (кроме Wassertein GAN) увеличение learning rate дискриминатора сдвигает действительные части собственных чисел матрицы Якоби влево.
Т.е делает сходимость к точке равновесия быстрее. Изначально планировал поговорить в статье об этом, просто не хотелось делать статью слишком большой.

WGAN-GP — это Wasserstein GAN с т.н. gradient penalty...

Я не пытался сделать обзор самых лучших способов регуляризации Wassertein GAN.
Прочитав впервые статью о Wasserstein GAN. У меня возник вопрос зачем вообще 1-Липшицевость (ну кроме того чтобы наш objective был метрикой Васерштейна).
И естественно без этой регуляризации обучить не получается. Почему? Ответ дают двумерные траектории — в этом случае они окружности, соответственно напрашивается вывод: этот тип GAN без регуляризации вообще работать не будет.

В этой статье я не пытаюсь улучшить что-то или сделать обзор самых последних достижений.
Хотел лишь донести свой взгляд на вопрос (абсолютно не факт что он правильный).
Единственное что новое (по-крайней мере нигде не встречал ранее) — это попытка посмотреть не на градиент функционалов по параметрам сети, а на по-точечное поведение подинтегральной функции (вариационная производная).
Мне кажется что эта позиция проливает свет на некоторые вопросы в обучении GAN.
Например, не получается обучить GAN, что менять: функционал, структуру нейросети, алгоритм обучения и тд?
Здесь мы сразу видим ответ: Функционалы дают «хорошие» векторные поля, поэтому зачастую проблемы с параметризацией сети и алгоритмом обучения (например мы переобучаем дискриминатор на каждой итерации).
Также эта позиция показывает почему работают различние техники регуляризации GAN.

The relativistic discriminator: a key element missing from standard GAN — хайповая статья, вышедшая на прошлой неделе.

Не видел, обязательно гляну. Спасибо:)

В любом случае спасибо за дополнения и критику — это всегда полезно.

А вам спасибо за статью!


Да это и не критика вовсе. Я список добавил больше для тех, кто заинтересуется и захочет больше подробностей узнать.

Sign up to leave a comment.

Articles

Change theme settings