maybe_elf Dec 11 2019 at 13:20

Nvidia показала нейросеть, которая учит танцевать

2 min

4.1K

Working with video*Machine learning*Artificial Intelligence

Исследователи Nvidia совместно с Калифорнийским университетом представили модель машинного обучения, которая поможет создать танцевальное видео. Нейросеть предлагает набор танцевальных движений, которые разнообразны, согласованы по стилю и соответствуют ритму музыки.

«Это сложная, но интересная генеративная задача с потенциалом для создания контента в искусстве и спорте, например в сфере театральных представлений, художественной гимнастики и фигурного катания», — заявили авторы исследования.

Модель сначала учится двигаться, а затем сочинять движения. Команда использовала MM-GAN (Generative Adversarial Network for Multi-Modal Distribution). Исследователи брали стиль и ритмы музыки и синтезировали последовательность танцевальных движений рекуррентным образом. Для обучения нейросети они использовали видео трех танцевальных категорий, включая балет, зумбу и хип-хоп. В итоге было синтезировано более 361 000 клипов или около 71 часа танцевального видео.

Для обработки движений применили OpenPose, разработанную Университетом Карнеги-Меллона. Нейросеть превращает исходное видео движения в упрощенную модель человеческого тела, состоящую из ключевых точек, которые соединяются линиями. Затем движения исходника передаются на целевую модель. Работа проводилась с использованием PyTorch и графических процессоров NVIDIA V100.

Теперь команда планирует добавить больше танцевальных стилей, таких как поп и партнерский танец. «Качественные и количественные оценки показывают, что синтезированные танцы по предлагаемому методу не только реалистичны и разнообразны, но также соответствуют стилю и ритму», — отметили исследователи.

Исходный код модели опубликовали на GitHub.

Ранее Nvidia представила AI-систему DIB-R, которая построена на основе ML-фреймворка PyTorch и способна преобразовывать двухмерные изображения в трехмерные объекты. Она обрабатывает картинку, а затем преобразует ее в высокоточную 3D-модель с учетом формы, текстуры, цвета и освещения объекта. Задействована архитектура кодера-декодера, которая преобразует входные данные в вектор, используемый для прогнозирования конкретной информации. Вся работа занимает менее чем 100 миллисекунд.

Tags:

Hubs: