ph_piter Jun 14 2019 at 22:54

Обучение с подкреплением или эволюционные стратегии? — И то, и другое

9 min

7.5K

Издательский дом «Питер» corporate blogAlgorithms*Machine learning*Research and forecasts in IT*Artificial Intelligence

Translation

+19

Comments 2

Hardcoin Jun 15 2019 at 11:36

ЭС выигрывает, тем более, если у вас в распоряжении есть вычислительные мощности

Тут нужно учесть, что RL вполне параллелится на сотню GPU (у openai это получилось через год после данной статьи). Аренда такого железа стоит 300$/час, $7k в сутки. Для многих исследователей препятствием для дальнейшей параллелизации будет не алгоритм, а деньги.

Kilorad Jun 18 2019 at 11:32

По моему опыту, сделать работающую ЭС намного легче, чем работающий RL, если задача — получить относительно простую стратегию. ЭС гораздо надёжнее сходится и требует меньше гиперпараметров. Поэтому если у вас есть хорошая моделирующая среда…
Только в жизни очень часто не получается сделать хорошую моделирующую среду. При какой-нибудь игре на бирже если мы будем иметь достаточно точную предсказательную модель, то сможем принимать решения через перебор по дереву вариантов.