Как стать автором
Обновить

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

Время на прочтение5 мин
Количество просмотров6.9K
Всего голосов 29: ↑27 и ↓2+25
Комментарии3

Комментарии 3

Я правильно понимаю: все GPU подключаются к одной машине (многомашинные конфигурации не поддерживаются?).

Тем, у кого по старинке только одна GPU этот подход не поможет?

Затем, после обратного прохода, все градиенты синхронизируются и обновляются.
Часть градиентов с одного GPU, часть с другого или идет усреднение градиентов между GPU?

В ролике есть упоминание TPU.

Тема очень полезная, спасибо за перевод.
Поддерживаю вопросы насчет одного GPU и многомашинной конфигурации, прочитав статью эти вопросы без ответа. Надеюсь ТС разъяснит.
«Как обучать огромные модели машинного обучения на случайных GPU»
habr.com/ru/company/skillfactory/blog/536620

Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий