Pull to refresh

Comments 2

Мне казалось, задача многоруких бандитов — это такое «обучение с подкреплением для бедных», а значит, рассматривается на несколько шагов в игре. Но, похоже, перечисленные Вами алгоритмы — это готовые решения задач нахождения той или иной оптимальной политики. А задача — одношаговая: выдать или нет единицу контента. Или я что-то упустил?

Да, всё так. Только скорее не "выдать или нет единицу контента", а "какую единицу контента выдать"

Sign up to leave a comment.