Pull to refresh

Comments 6

Прежде чем приступать к моделированию, нужно выполнить «центровку» и «стандартизацию» данных путём их масштабирования. Масштабирование выполняется из-за того, что разные величины выражены в разных единицах измерения. Эта процедура позволяет организовать «честную схватку» между признаками при определении их важности.


Для расчёта feature importance при помощи tree-based моделей, на самом деле, делать это не обязательно: в отличие от других моделей, в деревьях не используется взвешивание признаков, и любые монотонные преобразования не повлияют на результат (с точностью до численной погрешности).
Это нужно для PCA. Да, наверно можно было бы первую модель и без масштабирования признаков делать, но повредить это не должно.

Подскажите пожалуйста, подходит ли PCA для задач регрессии и множественной классификации? Заранее спасибо.

Sign up to leave a comment.