Pull to refresh

Comments 3

Скажите, а текущую версию в каффе пробовали? Просто какой-то странный уж очень график получается у вас на последнем кадре. Не видел такого эффекта.
Тут можно много с чем поиграться для увеличения скорости сходимости, например различные optimizers ведут себя по разному. К примеру Adam часто сходится быстрее, чем SGD.

Или, например, функции активации. Существует целый зоопарк в семействе Relu => Elu, Prelu, LeakuRelu, etc, и авторы каждой утверждают, что их activation function точно лучше и часто оно так и есть. Мне нравиться использовать Elu.

Или использовать MaxOut layers.

Или попробовать другую архитектуру сети.

Или с аугментацией поиграться.

Кстати, то что при добавлении Batch Normalization сеть в память не влезает можно обойти уменьшив размер батча.

Уменьшение размера батча также даст уменьшение времени итерации обучения, что опять же может ускорить обучение. Однако надо следить, чтобы при этом не падало качество обучения.
Sign up to leave a comment.

Articles