danila_savenkov 23 авг 2017 в 15:28

Kaggle Mercedes и кросс-валидация

18 мин

60K

Блог компании Open Data SciencePython*Data Mining*Математика*Машинное обучение*

+55

Комментарии 16

crazy_llama 23 авг 2017 в 22:12

Спасибо за статью. Очень познавательно.

AB_AG 23 авг 2017 в 22:46

Думаю ты не плохо играешь на муз. инструменте

anprs 24 авг 2017 в 05:46

А что там насчёт shake-up?

danila_savenkov 24 авг 2017 в 07:40

https://www.kaggle.com/c/mercedes-benz-greener-manufacturing/leaderboard
Здесь дискуссия на эту тему: https://www.kaggle.com/c/mercedes-benz-greener-manufacturing/discussion/36103

noonv 24 авг 2017 в 10:19

Спасибо за отличное выступление и статью!

Dron_Dronych 30 авг 2017 в 11:33

P-value значительно меньше 0.05, поэтому мы смело принимаем гипотезу о том, что классификаторы существенно различны.

Разве не корректнее сказать что мы отвергаем нулевую гипотезу, ведь альтернативных существует множество?
В целом спасибо. Читается легко и интересно.

danila_savenkov 30 авг 2017 в 11:42

Да, спасибо, вы правы. Поправил это предложение.

alexmcs 30 авг 2017 в 11:33

Спасибо за инсайт! Когда изучал на курсере тему проверки статистических гипотез — казалось, что это невероятный бред, который вряд ли когда-нибудь будет полезен! А вот оно, очень изящное и простое для понимания применение!

sedim 30 авг 2017 в 16:43

а можно ссылочку?

alexmcs 30 авг 2017 в 16:49

Та же самая ссылка, что была по тексту статьи:

В первых двух неделях этого курса тема проверки статистических гипотез раскрыта исчерпывающим образом, очень рекомендую: www.coursera.org/learn/stats-for-data-analysis/home/welcome.

AssaNix 3 ноя 2018 в 22:20

Круто! Спасибо за очень полезную статью и историю.

killbond 21 июн 2020 в 02:49

Проверял ваш тезис про выбросы на практике. В моем случае он работает не так, как ожидалось, а именно любой порог отсечения ошибки по учебной выборке приводил к ухудшению результата на тестовой выборке. Регрессор тот же, набор данных другой.

danila_savenkov 27 авг 2020 в 15:15

К сожалению, универсального ответа на вопрос что делать с выбросами нет. Если их выкидывание из обучения приводит к ухудшению метрик, выкидывать их, видимо, не стоит)

7voprosov 3 мар 2023 в 14:47

S – дисперсия попарных разностей, n – число фолдов.

Вот тут ошибка. В формуле для t-статистики S это стандартное отклонение.

Еще в формуле вместо n надо брать n-1

danila_savenkov 3 мар 2023 в 20:23

Про S справедливо, поправил. Про n-1 - не совсем. В этой формуле нужно именно n, а вот когда будем оценивать стандартное отклонение - там в знаменателе будет n-1 (см "несмещенная выборочная дисперсия" https://ru.wikipedia.org/wiki/Выборочная_дисперсия)

7voprosov 3 мар 2023 в 22:22

Про n-1 - не совсем. В этой формуле нужно именно n, а вот когда будем оценивать стандартное отклонение - там в знаменателе будет n-1

Да, если в std отнимать -1 то потом уже не надо. Просто в numpyпо умолчанию не отнимают (см. ddof=0)

Реализация которая совпадет с scipy:

def t_stat(x,y):
    n = len(x)
    return (np.mean(x) - np.mean(y)) / (np.std(x-y, ddof=1)/np.sqrt(n))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий