Как стать автором
Обновить

Комментарии 8

Что с быстродействием? Через сколько кадров после пуска RL начинает вести себя систематически лучше, чем рандом?

Насколько такая система переносима на более "взрослые" задачи, вроде игр Атари, где на входе картинка с экрана?

В задаче я как раз уходил от "взрослых" игр серии Gym. Таких примеров в интернете - масса. При всем уважении к сайту тренажеру, - их практическая применимость заканчивается за порогом gym-качалки.

На обучение этой задачи ушло около получаса на Google Colab. Причем GPU не давал преимуществ.

Есть такая библиотека - rlib, в которой вроде бы многое идет из коробки. Но RL не панацея, по крайней мере в задачах с множественной неопределенностью и большим коэффициентом ветвления ситуаций (особенно дискретных). Многие уповают на концепции типа альфаго, вполне возможно, что это как-то поможет.

Если интересно двигать эту тему вперед (мне самому очень интересно, но времени нет), то можете попробовать сделать симулятор в котором размер награды зависит от цепочки действий, а не одного действия, а сам "мир" является случайным. Любой успех в этом направлении имел бы огромную практическую пользу, так как многие процессы, например, производства, как раз и являются цепочками действий. Иногда, использование стохастического программирования в таких процессах, позволяет добиться экономии в 70-80%.

Есть хорошая книга "обучение с подкреплением" Саттон и Барто. В ней мало чего про использование DL, но много полезных концепций.

В общем:

1) статья огонь!

2) вам успехов!

Большое спасибо!

А какая практическая ценность данного примера? Не могу додуматься

Ценность конечно не в нанороботе. Задача была в использовании произвольной среды. Среды которую можно запрограммировать без рамок Атари и т.д. в Open Gym. Удивило почти полное отсутствие информации на русском, минимум на английском. В результате простая задача затянулась на несколько недель. Кому то она может сэкономить хотя-бы неделю.

Сейчас занимаюсь задачей оптимизации планирования производства (flexible job shop problem) с помощью RL, и тоже столкнулась с тем, что большинство найденных материалов по RL связаны с играми и gym.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории