Личное или социальное? Как добиться кооперации в мультиагентной среде / Comments / Habr

dimonenka Mar 4 2021 at 15:18

Добрый день!

— Я согласен с этим недостатком суммы как SW — что все ресурсы можно дать одному или нескольким удачливым агентам. Я думаю, может быть много вариантов определения SW с разными свойствами. В статье мы исследуем минимум, и такой выбор ведет к более честному распределению ресурсов. Можно также думать о bottom k, взвешенной сумме (как вы предложили), и менее интуитивных вариантах — например, сумме логарифмов. Есть целый пласт литературы — fair division — который задается такими вопросами в контексте экономики, но с мультиагентным обучением его, насколько я знаю, особо не смешивали (хотя другие концепты из экономики, типа inequity aversion, применяли).
— Видимо, недостаточно хорошо описаны графики, я добавлю. На верхних графиках 3 lambda=1 для BAROCCO, CRS, COMA — это я имею ввиду под «выключаем эгоистичную компоненту» в тексте. Selfish — это по сути BAROCCO или CRS с lambda=0 (эгоистичная компонента и там и там одинакова). Но, при lambda=1 BAROCCO, COMA и CRS все еще разные алгоритмы! Везде остается только социальная компонента, но обучаются по-разному. Я некоторые технические детали в пост не стал включать. CRS обучается более простыми алгоритмами из single-agent reinforcement learning и не решает credit assignment. COMA — алгоритм, который предназначен для мультиагентных кооперативных сред и решает credit assignment. В BAROCCO социальная компонента основана на модифицированной COMA.

Comments 2

AC130 Mar 4 2021 at 14:44

Очень интересная статья, спасибо большое, задам пару вопросов с позиции дилетанта.

Плюс максимизации SW в том, что в среднем, скорее всего, будет хорошо (эффективность). Минус — нет гарантий, что хорошо будет всем. То есть, не учитывается справедливость распределения наград. Что помешает такой системе “пожертвовать” несколькими неудачными агентами ради общего блага?

* Для той формулировки SW, которая приведена в статье (через сумму) — почему использование такой целевой функции не приводит к максимизации награды самого удачливого агента, т.е. просто не выдаются все ресурсы тому, кто их может использовать лучше всех остальных? И почему бы вместо обычной суммы для повышения честности не использовать взвешенную сумму, в которой веса считаются на основе удачливости агента (к примеру, истории его наград).

* Какой использовался параметр lambda для BAROCCO на Рис. 3a-b? Поискал информацию в статье по диагонали, не нашёл, возможно, если её там нет, то стоит добавить.

* Не должен ли BAROCCO при lambda -> 0 или lambda -> 1 переходить в selfish/CRS алгоритмы соответственно? По Рис. 3c-d это, кажется, сложно утверждать.