Nvidia показала нейросеть, которая учит танцевать

Working with videoMachine learningArtificial Intelligence
image

Исследователи Nvidia совместно с Калифорнийским университетом представили модель машинного обучения, которая поможет создать танцевальное видео. Нейросеть предлагает набор танцевальных движений, которые разнообразны, согласованы по стилю и соответствуют ритму музыки.

«Это сложная, но интересная генеративная задача с потенциалом для создания контента в искусстве и спорте, например в сфере театральных представлений, художественной гимнастики и фигурного катания», — заявили авторы исследования.

Модель сначала учится двигаться, а затем сочинять движения. Команда использовала MM-GAN (Generative Adversarial Network for Multi-Modal Distribution). Исследователи брали стиль и ритмы музыки и синтезировали последовательность танцевальных движений рекуррентным образом. Для обучения нейросети они использовали видео трех танцевальных категорий, включая балет, зумбу и хип-хоп. В итоге было синтезировано более 361 000 клипов или около 71 часа танцевального видео.


Для обработки движений применили OpenPose, разработанную Университетом Карнеги-Меллона. Нейросеть превращает исходное видео движения в упрощенную модель человеческого тела, состоящую из ключевых точек, которые соединяются линиями. Затем движения исходника передаются на целевую модель. Работа проводилась с использованием PyTorch и графических процессоров NVIDIA V100.

image
image

Теперь команда планирует добавить больше танцевальных стилей, таких как поп и партнерский танец. «Качественные и количественные оценки показывают, что синтезированные танцы по предлагаемому методу не только реалистичны и разнообразны, но также соответствуют стилю и ритму», — отметили исследователи.

Исходный код модели опубликовали на GitHub.

Ранее Nvidia представила AI-систему DIB-R, которая построена на основе ML-фреймворка PyTorch и способна преобразовывать двухмерные изображения в трехмерные объекты. Она обрабатывает картинку, а затем преобразует ее в высокоточную 3D-модель с учетом формы, текстуры, цвета и освещения объекта. Задействована архитектура кодера-декодера, которая преобразует входные данные в вектор, используемый для прогнозирования конкретной информации. Вся работа занимает менее чем 100 миллисекунд.
Tags:nvidiaнейросетитанецвидео
Hubs: Working with video Machine learning Artificial Intelligence
+9
2.7k 6
Comments 2

Popular right now

Machine Learning developer
from 150,000 to 200,000 ₽NZT GroupМосква
Engineering Manager
from 2,500 to 4,000 $LuxandRemote job
Senior Python developer
from 2,500 $DigitalHRRemote job
Backend Developer
to 200,000 ₽Nation.betterRemote job
Frontend Developer
to 250,000 ₽Nation.betterRemote job