ru_vds Feb 14 2020 at 13:15

Random Forest, метод главных компонент и оптимизация гиперпараметров: пример решения задачи классификации на Python

14 min

79K

RUVDS.com corporate blogPython*Algorithms*

Translation

+33

Comments 6

vbogach Feb 14 2020 at 22:40

Прежде чем приступать к моделированию, нужно выполнить «центровку» и «стандартизацию» данных путём их масштабирования. Масштабирование выполняется из-за того, что разные величины выражены в разных единицах измерения. Эта процедура позволяет организовать «честную схватку» между признаками при определении их важности.

Для расчёта feature importance при помощи tree-based моделей, на самом деле, делать это не обязательно: в отличие от других моделей, в деревьях не используется взвешивание признаков, и любые монотонные преобразования не повлияют на результат (с точностью до численной погрешности).