Бег с протезами: некстген симуляция движения человека с помощью мышц, костей и нейросети / Comments / Habr

DesertFlow Jul 8 2019 at 16:48

В статье не сказано главное — они не обучили нейросеть делать все то, что показано на видеороликах, а обучили нейросеть копировать на физическом движке анимации, снятые с реальных людей. Это немного другая область — клонирование анимации человека, и ее успех обусловлен достижениями на предыдущих моделях вроде DeepMimic (которая сама основана на более ранней модели).

Суть в том, что раньше попытки повторить с помощью нейросети длинную последовательность анимации или действий человека в игре не удавались, так как существующие алгоритмы Reinforcement Learning резко расходятся в исследовании пространства, когда начинаются из начальной точки анимации. И просто никогда случайным поиском не доходят до конца анимации, и поэтому не могут обучиться повторять ее. Ребята в предшественнике DeepMimic (не помню её названия, но кажется те же авторы, вроде была статья на хабре) придумали классный трюк: начинать обучение каждый раз не в начале, а в случайной точке траектории, которую нужно повторить. Алгоритмы RL все ещё расходятся при исследовании, но в целом уже вынуждены повторять траекторию, которую они изучают. Без этого при попытке обучить повторению анимации, например, прыжка с кувырком назад, робот в симуляции просто плюхался назад на попу, так как это давало хоть какую-то награду (т.к. расстояние до цели уменьшалось), а выполнить намного проще. Но если робот в начале каждого эпизода оказывался где-то в воздухе в середине прыжка, то вынужден был повторять именно прыжок. Этот подход потом начали широко использовать и в других областях Reinforcement Learning, где нужно клонировать траектории игрока. Например, именно так в OpenAI впервые прошли Montesuma Revenge, повторяя успешные траектории реальных игроков.

К самой первой работе, которая таким образом успешно научила нейросеть в симуляторе повторять человеческие анимации, было несколько нареканий. Вроде возможности бесконечных усилий в PID контроллере при обучении, что нереалистично. И стояла остро проблема обучить нескольким анимациям одновременно. В оригинале смогли достичь одновременного запоминания трёх или пяти, не помню, и то перебрав несколько хитроумных трюков, чтобы их запомнить. Этого катастрофически мало и не позволяет таким подходом сделать робота, который будет естественно двигаться в любых ситуациях. В этой работе, как я понял, эта проблема тоже не устранена. Их модель обучена только одной анимации, а для новых нужно обучать заново другую.

Достижение этой работы в том, что они впервые обучили нейросеть работать с таким огромным числом степеней свободы в модели человека (более 300). Раньше лучшие модели, обученные движениям через Reinforcement Learning, имели около 21 «мышц», и были большие сомнения, что получится работать с большим числом. А практическая ценность этой работы в том, что благодаря естественной способности алгоритмов Reinforcement Learning изучать окрестности пространства параметров, модель устойчива к небольшим шумам. Потому что именно так она и обучается — пробует случайные отклонения и выбирает лучшие. Поэтому можно в готовой модели увеличить вес поднимаемой штанги, и она чуть адаптируется и изменит центр масс тела и усилия в мышцах (видео есть в исходной работе). Или можно заменить часть мышц на протезы, и модель автоматически начнет ковылять, прихрамывая. Главное, что повторяя при этом физиологию живого человека! Так как обучена на анимации здорового человека. Способность потом идти такой модели с протезом — это натуральное свойство RL алгоритмов по устойчивости к шуму. Видео такой ходьбы есть в статье, просто без акцента на этом. Авторы работы выражают надежду, что такие естественные симуляции можно будет использовать для улучшения работы настоящих протезов.

+18

Comments 5

Squoworode Jul 8 2019 at 18:32

В статье не сказано главное — они не обучили нейросеть делать все то, что показано на видеороликах, а обучили нейросеть копировать на физическом движке анимации, снятые с реальных людей.

Эх, ну только я хотел написать, что эта нейросеть сможет станцевать упячко-дэнс…

koshi-dono Jul 9 2019 at 12:29

Предпоследнее видео выглядит как мои попытки игры в qwop.

denisromanenko Jul 9 2019 at 13:08

… и всё это лишь для того, чтобы походка Илая Вэнса выглядела реалистично.
Тщательность подготовки Габена к HL3 впечатляет.

fediatherobot Jul 9 2019 at 13:34

я все жду когда в играх к NPC будут прикручивать нейросеть, которая реально будет шевелить им