Как стать автором
Обновить

Комментарии 2

А что за тренировочные данные вы использовали для классификатора, принимающего решение о старте поезде?
Добрый день!

Для сбора данных мы использовали уже обученную политику агента, а также эвристику, использовавшуюся во время обучения агентов, с добавлением случайных запусков с некоторой вероятностью. Такой подход, с одной стороны, не делает запуски полностью случайными, а с другой стороны получает достаточно разнообразные данные.

Мы также пробовали обучать классификатор итеративно, дополняя набор данных новыми данными, полученными с помощью обученного на предыдущей итерации классификатора, но такой подход оказался менее эффективным.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий