one-two Jan 7 2021 at 18:13

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

5 min

6.9K

Skillfactory corporate blogPython*Big Data*Machine learning*Artificial Intelligence

Translation

+25

Comments 3

imageman Jan 7 2021 at 20:24

Я правильно понимаю: все GPU подключаются к одной машине (многомашинные конфигурации не поддерживаются?).

Тем, у кого по старинке только одна GPU этот подход не поможет?

Затем, после обратного прохода, все градиенты синхронизируются и обновляются.

Часть градиентов с одного GPU, часть с другого или идет усреднение градиентов между GPU?

В ролике есть упоминание TPU.

Тема очень полезная, спасибо за перевод.

maslencheva Jan 12 2021 at 08:22

Поддерживаю вопросы насчет одного GPU и многомашинной конфигурации, прочитав статью эти вопросы без ответа. Надеюсь ТС разъяснит.

imageman Jan 12 2021 at 15:23

«Как обучать огромные модели машинного обучения на случайных GPU»
habr.com/ru/company/skillfactory/blog/536620

Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).