Детектирование аномалий с помощью автоенкодеров на Python / Комментарии / Хабр

НЛО прилетело и опубликовало эту надпись здесь

Kagdilag 11 мая 2020 в 14:19

Откуда берётся разметка в примере с автоенкодером? Не в том ли смысл подхода, что мы хотим эту разметку получить?

de_evjeny 11 мая 2020 в 14:23

Бывают случаи, когда есть небольшая часть размеченных данных с аномалиями; такое допущение было сделано, чтобы в статье можно было оценить accuracy алгоритма. На самом деле, при тех же данных вполне можно прогонять алгоритмы обучения без учителя и оценивать их точность.

sunnybear 14 фев 2021 в 00:30

Это все, конечно, замечательно. Но если у вас есть размеченные данные — тогда задача уже обучения с учителем и классификации. И сравнивать нужно XGBoost или ансамбли решающих деревьев с автоэнкодером. Если же у вас задача обучения БЕЗ учителя и данные НЕ размечены, то автоэнкодер, как вы сами справедливо заметили, тут не сильно поможет (он будет под все данные подстраиваться).

На самом деле, конечно, если у нас есть некоторые общие для всех данных признаки (которых нет у аномалий), то автоэнкодеры должны помочь — потому что будут обобщать большинство (9% — это меньшинство, бояться тут нечего). К сожалению, в статье про это почти ничего нет — как работать с реально неразмеченными данными.

И хотелось бы сравнивать, конечно, методы выявления аномалий с методами выявления аномалий — например, через ту же кластеризацию можно зайти через OPTICS.

Детектирование аномалий с помощью автоенкодеров на Python

Комментарии 4

Публикации

Истории