Как мы управляли поездами на соревновании NeurIPS 2020: Flatland / Комментарии / Хабр

hse_spb 15 янв 2021 в 13:38

Добрый день!

Для сбора данных мы использовали уже обученную политику агента, а также эвристику, использовавшуюся во время обучения агентов, с добавлением случайных запусков с некоторой вероятностью. Такой подход, с одной стороны, не делает запуски полностью случайными, а с другой стороны получает достаточно разнообразные данные.

Мы также пробовали обучать классификатор итеративно, дополняя набор данных новыми данными, полученными с помощью обученного на предыдущей итерации классификатора, но такой подход оказался менее эффективным.