Dmi3Ut 30 окт 2021 в 15:33

Обучение с подкреплением на Python: Пример не из «качалки»

10 мин

20K

Python*Машинное обучение*Разработка робототехники*

Туториал

+12

Комментарии 8

Kilorad 30 окт 2021 в 16:15

Что с быстродействием? Через сколько кадров после пуска RL начинает вести себя систематически лучше, чем рандом?

Насколько такая система переносима на более "взрослые" задачи, вроде игр Атари, где на входе картинка с экрана?

Dmi3Ut 30 окт 2021 в 16:43

В задаче я как раз уходил от "взрослых" игр серии Gym. Таких примеров в интернете - масса. При всем уважении к сайту тренажеру, - их практическая применимость заканчивается за порогом gym-качалки.

На обучение этой задачи ушло около получаса на Google Colab. Причем GPU не давал преимуществ.

Dmi3Ut 30 окт 2021 в 17:26

Динамику обучения я не оценивал. Вывод keras-rl можно увидеть здесь

uchitel 31 окт 2021 в 08:38

Есть такая библиотека - rlib, в которой вроде бы многое идет из коробки. Но RL не панацея, по крайней мере в задачах с множественной неопределенностью и большим коэффициентом ветвления ситуаций (особенно дискретных). Многие уповают на концепции типа альфаго, вполне возможно, что это как-то поможет.

Если интересно двигать эту тему вперед (мне самому очень интересно, но времени нет), то можете попробовать сделать симулятор в котором размер награды зависит от цепочки действий, а не одного действия, а сам "мир" является случайным. Любой успех в этом направлении имел бы огромную практическую пользу, так как многие процессы, например, производства, как раз и являются цепочками действий. Иногда, использование стохастического программирования в таких процессах, позволяет добиться экономии в 70-80%.

Есть хорошая книга "обучение с подкреплением" Саттон и Барто. В ней мало чего про использование DL, но много полезных концепций.

В общем:

1) статья огонь!

2) вам успехов!

Dmi3Ut 31 окт 2021 в 12:28

Большое спасибо!

vandriichuk 31 окт 2021 в 09:03

А какая практическая ценность данного примера? Не могу додуматься

Dmi3Ut 31 окт 2021 в 12:36

Ценность конечно не в нанороботе. Задача была в использовании произвольной среды. Среды которую можно запрограммировать без рамок Атари и т.д. в Open Gym. Удивило почти полное отсутствие информации на русском, минимум на английском. В результате простая задача затянулась на несколько недель. Кому то она может сэкономить хотя-бы неделю.

Yerin 29 ноя 2021 в 06:37

Сейчас занимаюсь задачей оптимизации планирования производства (flexible job shop problem) с помощью RL, и тоже столкнулась с тем, что большинство найденных материалов по RL связаны с играми и gym.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Обучение с подкреплением на Python: Пример не из «качалки»

Комментарии 8

Публикации

Истории