one-two 7 янв 2021 в 18:13

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

5 мин

6.9K

Блог компании SkillfactoryPython*Big Data*Машинное обучение*Искусственный интеллект

Перевод

+25

Комментарии 3

imageman 7 янв 2021 в 20:24

Я правильно понимаю: все GPU подключаются к одной машине (многомашинные конфигурации не поддерживаются?).

Тем, у кого по старинке только одна GPU этот подход не поможет?

Затем, после обратного прохода, все градиенты синхронизируются и обновляются.

Часть градиентов с одного GPU, часть с другого или идет усреднение градиентов между GPU?

В ролике есть упоминание TPU.

Тема очень полезная, спасибо за перевод.

maslencheva 12 янв 2021 в 08:22

Поддерживаю вопросы насчет одного GPU и многомашинной конфигурации, прочитав статью эти вопросы без ответа. Надеюсь ТС разъяснит.

imageman 12 янв 2021 в 15:23

«Как обучать огромные модели машинного обучения на случайных GPU»
habr.com/ru/company/skillfactory/blog/536620

Как раз вчера читал статью, в которой рассказывается про многомашинное обучение (используют HetSeq).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий