Comments 13
Вроде как XGboost должен поддерживать вычисления на видеокартах. По крайней мере, в питоне
Особенно понравилась идея с ансамблем (получение «доверительных вероятностей»), успехов Вам в будущих соревнованиях!
Не совсем так.
Она ухудшила предварительный результат, поэтому я решил не рисковать, и выбрал обычное среднее.
А зря, т.к. финальный результат это бы улучшило.
Вот табличка logloss по различным аггрегирующим функциям:
Финальные Предварительные
среднее арифметическое 0,3816315 0,3807091
среднее геометрическое 0,3816479 0,3807161
LightGBM 0,3814542 0,3808298
SVM 0,3814352 0,3807783
я выбирал что из этого выбрать в последний момент
«На самом деле сейчас можно было остановиться. Это дало бы финальное первое место с небольшим запасом. Но задним числом все умны.»
ухудшило финальный результат
Теоретически, потратив несколько посылок, можно было вычислить более точные вероятности для повторяющихся векторов с разными ответами (другими словами – вытянуть ещё немного данных со скрытой тестовой подвыборки).
А можно пожалуйста по-подробнее что это значит, и как предполагалось вытягивать эти данные?
Возьмём, к примеру, вектор x, который встречается 1423 раз в обучающей выборке. Для него вероятность считается как f(x) = (количество единиц) / 1423. Хотелось получить более точное значение.
Тестовая выборка поделена в соотношении 40/60, и предварительные результаты показывались только на 40%. Как именно она поделена — неизвестно. Но по результатам посылок на сервер можно попытаться вычислить сколько всего есть искомых векторов x в этих 40%, и у скольких из них ответ 1.
Сначала я попытался определить точный размер этих 40%. Сделал 2 посылки "все 0" и "все 1". И по полученным ошибкам попытался вычислить. Но из-за недостаточной точности подходило несколько вариантов. Видимо интерполировать нужно было более чем по двум точкам. Профит от этого дела крайне сомнителен, и я решил потратить время на что-то другое.
История 3-го места на ML Boot Camp III