Комментарии 3
Я правильно понимаю: все GPU подключаются к одной машине (многомашинные конфигурации не поддерживаются?).
Тем, у кого по старинке только одна GPU этот подход не поможет?
В ролике есть упоминание TPU.
Тема очень полезная, спасибо за перевод.
Тем, у кого по старинке только одна GPU этот подход не поможет?
Затем, после обратного прохода, все градиенты синхронизируются и обновляются.Часть градиентов с одного GPU, часть с другого или идет усреднение градиентов между GPU?
В ролике есть упоминание TPU.
Тема очень полезная, спасибо за перевод.
0
Поддерживаю вопросы насчет одного GPU и многомашинной конфигурации, прочитав статью эти вопросы без ответа. Надеюсь ТС разъяснит.
0
«Как обучать огромные модели машинного обучения на случайных GPU»
habr.com/ru/company/skillfactory/blog/536620
Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).
habr.com/ru/company/skillfactory/blog/536620
Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded