egor_labintcev May 12 2017 at 13:59

Метрики в задачах машинного обучения

9 min

625K

Open Data Science corporate blogPython*Data Mining*Mathematics*Machine learning*

+38

Comments 9

IliaSafonov May 12 2017 at 16:01

Добавлю несколько ссылок на метрики, которые были полезны при решении практических задач.
1. При многоклассовой классификации важно помнить, что бывают micro- и macro-метрики. Например, здесь можно найти объяснение и, конечно, в документации scikit-learn.
2. Для регрессии есть некий аналог ROC: Regression Error Characteristic Curve. Статья. Простой пример.

artur_speaking May 12 2017 at 16:13

Всем привет. Такой вопрос.

Есть 2 задачки, одна классификация, другая кластеризация. Хотелось бы для каждой нарисовать какой-нибудь график, на метриках или просто разделение классов. Классификация мультиклассовая.

Хотелось бы чтобы было быстро, красиво и инфомативно.

И ещё, кто подскажет алгоритм из scikit, который быстро кластеризует, сопоставимый по скорости с kmeans, пробовал несколько — работали на норм железе несколько часов…

madrugado May 12 2017 at 17:04

метрик кластеризации существует довольно много, самые известные Adjusted Rand Index (ARI) и silhouette; список можно посмотреть здесь

F1, например, применяется и для классификации, и для кластеризации, можете ее посчитать и нарисовать, соотв.

scikit не предназначен для продакшен разработки, если вам нужно что-то быстрое, то ищите специализированную библиотеку с нужным алгоритмом

ashagraev Jun 27 2017 at 08:41

Есть отличная статья про то, какие бывают классы метрик кластеризации, сами метрики и про критерии, которым эти метрики должны удовлетворять: http://nlp.uned.es/docs/amigo2007a.pdf

roman_nasonov Sep 9 2018 at 21:39

ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода.

Здесь неточность, поскольку:
— Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза (аналогично False Negative, если использовать подобные сравнения).
— Ошибка второго рода состоит в том, что будет принята неправильная гипотеза (аналогично False Positive, если использовать подобные сравнения).

roman_nasonov Sep 9 2018 at 21:52

Конечно, в рамках данной статьи H0 соответствует классу 0, что делает сравнение в рамках статьи корректным, однако является ли регламентом именно так выбирать индекс класса?

roman_nasonov Sep 12 2018 at 16:55

Впрочем, справедливости ради стоит отметить, что в задачах скоринга иную расстановку нулевой и альтернативной гипотез я после некоторого поиска всё же не нашёл.

Archi_Pro Oct 17 2019 at 11:21

Решил воспроизвести код
Пока дошел до матрицы
нехватает пары импортов
import numpy as np
import itertools
from itertools import product
from sklearn.metrics import confusion_matrix
А так пост классный плюсанул бы если бы знал как)))

AlexanderPetrenko Dec 8 2019 at 13:10

Спасибо! Некоторые моменты очень хорошо зашли