Как стать автором
Обновить
5
0

Пользователь

Отправить сообщение
Как раз думал такую статью написать, но не знаю, будет ли это интересно кому-то. В последнее время много экспериментировал с Gym.
Но мне кажется, алгоритмы для сравнения следует выбирать по признаку их применимости в окружениях определенного типа. Я выделяю три типа:
1 — discrete action, discrete state
2 — discrete action, continuous state
3 — continuous action, continuous state
Исходя из этого, Q-learning логично сравнить c Double Q-learning, SARSA и MC-методами (1 тип). Так как, PG, A2C/A3C в окружениях 1 типа не применимы.
Спасибо за интересную статью!
Конечно. Вот примеры неудачных попыток



Информация

В рейтинге
Не участвует
Зарегистрирован
Активность