Как стать автором
Обновить

Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing

Уровень сложностиСложный
Время на прочтение31 мин
Количество просмотров3.7K
Всего голосов 39: ↑39 и ↓0+39
Комментарии8

Комментарии 8

Поделитесь обратной связью, насколько вам бы хотелось узнать об особенностях этого инференс-сервера в контексте утилизации GPU, и тогда мы напишем новую статью.

Да, очень интересно.

Спасибо за обратную связь! Уже насобирали пару интересных особенностей этого инференс сервера, поэтому ждите обновлений)

Пара замечаний:
- Приведенные ссылки на код лишь указывают на использование стандартного NVML API - того же самого, который используется nvidia-smi. Реальная логика находится здесь https://github.com/nebuly-ai/nos/blob/d5cc1d72b8ee52b79b8751c0b49122366e026ce1/internal/controllers/migagent/actuator.go#L152C25-L152C25. Здесь же видно, как именно происходит попытка создания-удаления и что при каждом чихе перезапускается nvidia-device-plugin на ноде.
- Ограничение не реконфигурацию MIG улучшилось в новых поколениях - H100 может изменить конфигурацию MIG при наличии активных CUDA контекстов. Естественно поменять/удалить партицию, на которой запущен CUDA контекст все еще нельзя.

Спасибо за ценный комментарий.
По поводу ссылок - действительно интересная находка, добавим ее с ссылкой на вас)
По поводу H100 - на данный момент нет возможности потестировать, но надеемся в скором времени появится и также отпишемся о результатах!

node-autoscaler работает с nos?

В целом nos можно также использовать с hpa и prometheus адаптер, как я приводил пример с gpu-оператором в предыдущей статье. С node-autoscaler кейс мы не проверяли, но звучит интересно. Обязательно попробуем и отпишемся о результатах!

А что происходит с енкодерами при разном делении gpu?

Добрый день!
Данный кейс мы не тестировали. Мы пробовали только на ML задачах.
Вы можете арендовать у нас карту и сами попробовать) И будет супер если поделитесь результатами)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий