Pull to refresh

Comments 9

Добавлю несколько ссылок на метрики, которые были полезны при решении практических задач.
1. При многоклассовой классификации важно помнить, что бывают micro- и macro-метрики. Например, здесь можно найти объяснение и, конечно, в документации scikit-learn.
2. Для регрессии есть некий аналог ROC: Regression Error Characteristic Curve. Статья. Простой пример.
Всем привет. Такой вопрос.

Есть 2 задачки, одна классификация, другая кластеризация. Хотелось бы для каждой нарисовать какой-нибудь график, на метриках или просто разделение классов. Классификация мультиклассовая.

Хотелось бы чтобы было быстро, красиво и инфомативно.

И ещё, кто подскажет алгоритм из scikit, который быстро кластеризует, сопоставимый по скорости с kmeans, пробовал несколько — работали на норм железе несколько часов…
метрик кластеризации существует довольно много, самые известные Adjusted Rand Index (ARI) и silhouette; список можно посмотреть здесь

F1, например, применяется и для классификации, и для кластеризации, можете ее посчитать и нарисовать, соотв.

scikit не предназначен для продакшен разработки, если вам нужно что-то быстрое, то ищите специализированную библиотеку с нужным алгоритмом

Есть отличная статья про то, какие бывают классы метрик кластеризации, сами метрики и про критерии, которым эти метрики должны удовлетворять: http://nlp.uned.es/docs/amigo2007a.pdf

ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода.

Здесь неточность, поскольку:
— Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза (аналогично False Negative, если использовать подобные сравнения).
— Ошибка второго рода состоит в том, что будет принята неправильная гипотеза (аналогично False Positive, если использовать подобные сравнения).
Конечно, в рамках данной статьи H0 соответствует классу 0, что делает сравнение в рамках статьи корректным, однако является ли регламентом именно так выбирать индекс класса?
Впрочем, справедливости ради стоит отметить, что в задачах скоринга иную расстановку нулевой и альтернативной гипотез я после некоторого поиска всё же не нашёл.
Решил воспроизвести код
Пока дошел до матрицы
нехватает пары импортов
import numpy as np
import itertools
from itertools import product
from sklearn.metrics import confusion_matrix
А так пост классный плюсанул бы если бы знал как)))
Sign up to leave a comment.