Pull to refresh

Comments 3

Я правильно понимаю: все GPU подключаются к одной машине (многомашинные конфигурации не поддерживаются?).

Тем, у кого по старинке только одна GPU этот подход не поможет?

Затем, после обратного прохода, все градиенты синхронизируются и обновляются.
Часть градиентов с одного GPU, часть с другого или идет усреднение градиентов между GPU?

В ролике есть упоминание TPU.

Тема очень полезная, спасибо за перевод.
Поддерживаю вопросы насчет одного GPU и многомашинной конфигурации, прочитав статью эти вопросы без ответа. Надеюсь ТС разъяснит.
«Как обучать огромные модели машинного обучения на случайных GPU»
habr.com/ru/company/skillfactory/blog/536620

Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).
Sign up to leave a comment.