Как стать автором
Обновить

Комментарии 4

НЛО прилетело и опубликовало эту надпись здесь
Откуда берётся разметка в примере с автоенкодером? Не в том ли смысл подхода, что мы хотим эту разметку получить?
Бывают случаи, когда есть небольшая часть размеченных данных с аномалиями; такое допущение было сделано, чтобы в статье можно было оценить accuracy алгоритма. На самом деле, при тех же данных вполне можно прогонять алгоритмы обучения без учителя и оценивать их точность.
Это все, конечно, замечательно. Но если у вас есть размеченные данные — тогда задача уже обучения с учителем и классификации. И сравнивать нужно XGBoost или ансамбли решающих деревьев с автоэнкодером. Если же у вас задача обучения БЕЗ учителя и данные НЕ размечены, то автоэнкодер, как вы сами справедливо заметили, тут не сильно поможет (он будет под все данные подстраиваться).

На самом деле, конечно, если у нас есть некоторые общие для всех данных признаки (которых нет у аномалий), то автоэнкодеры должны помочь — потому что будут обобщать большинство (9% — это меньшинство, бояться тут нечего). К сожалению, в статье про это почти ничего нет — как работать с реально неразмеченными данными.

И хотелось бы сравнивать, конечно, методы выявления аномалий с методами выявления аномалий — например, через ту же кластеризацию можно зайти через OPTICS.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории