Как стать автором
Обновить

Комментарии 3

Спасибо за статью!
Можете, пожалуйста, пояснить, что имеете ввиду под «все признаки должны быть равны в возможностях своего влияния»?
Например, у Вас данные по группе взрослых здоровых спортсменов — рост (в метрах) и вес (в килограммах). Рост может изменяться где-то от 1,5 м до 2,5 м (интервал = 2,5 — 1,5 = 1). А вес — от 40 кг до 150 кг (интервал = 150 — 40 = 110).
В таком виде (без нормализации) разница в росте у любых двух человек не более 1, а в весе — до 110. И получается, что вес становится более важным признаком, изменения в котором влияют больше при измерении, например, схожести двух спортсменов.
Должно быть так, чтобы максимальные изменения любого признака в «основной массе объектов» были одинаковы. Тогда потенциально все признаки будут равноценны.
Некорректная нормализация может сгладить такие явные различия, но не устранить их полностью. А должна.
Точно степень влияния признака должно определить только обучение модели. Если, конечно, Вы не знаете что-то существенное о данных, что позволит Вам вручную сделать какой-то признак более важным.

Отличная статья! Только можно, пожалуйста, для разных объектов в формулах использовать разные обозначения =)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории