dmitrybugaychenko Aug 27 2018 at 10:38

KDD 2018, день пятый, завершающий

9 min

VK corporate blogData Mining*Big Data*Machine learning*

+14

Comments 2

Vinchi Aug 27 2018 at 18:01

А обсуждалось ли что-то похожее на вот эту проблему?:
Есть у меня датасет в котором тренировочные данные содержать скажем 100 фич, а в тестовых (и продуктиве) только 10 из них.
Пример:
Игровые матчи, 10 игроков, есть обширная статистика по сыгранным матчам и Y = победа или поражение. Надо предсказать вероятность победы в будущем матче, известны только игроки.
Еще пример:
Есть куча анкет, в которых 100 фич, по анкетам нужно сделать скоринговый прогноз, для новой анкеты в которой только 10 фич. Например человек первый раз берет кредит, и кредитной истории по нему нет.

dmitrybugaychenko Aug 27 2018 at 18:28

Напрямую в тех докладах что я видел такого не было. Вернее были рассказы о том, что использование разных методов рассчета фичей в проде и в обучении есть источник трудно диагностируемых проблем, поэтому все скорее стремятся максимально в обучении воспроизвести реальную ситуацию.

С другой стороны расширенный набор фич можно, имхо, использовать для оценки значимости и расставление приоритетов — какие из них наиболее перспективны с точки зрения добавления к проду