Pull to refresh

Comments 2

ЭС выигрывает, тем более, если у вас в распоряжении есть вычислительные мощности

Тут нужно учесть, что RL вполне параллелится на сотню GPU (у openai это получилось через год после данной статьи). Аренда такого железа стоит 300$/час, $7k в сутки. Для многих исследователей препятствием для дальнейшей параллелизации будет не алгоритм, а деньги.

По моему опыту, сделать работающую ЭС намного легче, чем работающий RL, если задача — получить относительно простую стратегию. ЭС гораздо надёжнее сходится и требует меньше гиперпараметров. Поэтому если у вас есть хорошая моделирующая среда…
Только в жизни очень часто не получается сделать хорошую моделирующую среду. При какой-нибудь игре на бирже если мы будем иметь достаточно точную предсказательную модель, то сможем принимать решения через перебор по дереву вариантов.
Sign up to leave a comment.