Комментарии / Профиль citizenofearth / Хабр

Пользователь

Профиль Публикации 1Комментарии 3Закладки 49

Mountain Car: решаем классическую задачу при помощи обучения с подкреплением

citizenofearth 21 мар 2019 в 00:43

Как раз думал такую статью написать, но не знаю, будет ли это интересно кому-то. В последнее время много экспериментировал с Gym.
Но мне кажется, алгоритмы для сравнения следует выбирать по признаку их применимости в окружениях определенного типа. Я выделяю три типа:
1 — discrete action, discrete state
2 — discrete action, continuous state
3 — continuous action, continuous state
Исходя из этого, Q-learning логично сравнить c Double Q-learning, SARSA и MC-методами (1 тип). Так как, PG, A2C/A3C в окружениях 1 типа не применимы.

Посмотреть

Mountain Car: решаем классическую задачу при помощи обучения с подкреплением

citizenofearth 21 мар 2019 в 00:41

Спасибо за интересную статью!

Посмотреть

Генерация изображений из текста с помощью AttnGAN

citizenofearth 1 окт 2018 в 12:08

Конечно. Вот примеры неудачных попыток

Посмотреть