Как стать автором
Обновить

Комментарии 16

Спасибо за статью. Очень познавательно.
Думаю ты не плохо играешь на муз. инструменте
А что там насчёт shake-up?
Спасибо за отличное выступление и статью!
P-value значительно меньше 0.05, поэтому мы смело принимаем гипотезу о том, что классификаторы существенно различны.

Разве не корректнее сказать что мы отвергаем нулевую гипотезу, ведь альтернативных существует множество?
В целом спасибо. Читается легко и интересно.
Да, спасибо, вы правы. Поправил это предложение.
Спасибо за инсайт! Когда изучал на курсере тему проверки статистических гипотез — казалось, что это невероятный бред, который вряд ли когда-нибудь будет полезен! А вот оно, очень изящное и простое для понимания применение!
а можно ссылочку?
Та же самая ссылка, что была по тексту статьи:
В первых двух неделях этого курса тема проверки статистических гипотез раскрыта исчерпывающим образом, очень рекомендую: www.coursera.org/learn/stats-for-data-analysis/home/welcome.
Круто! Спасибо за очень полезную статью и историю.
Проверял ваш тезис про выбросы на практике. В моем случае он работает не так, как ожидалось, а именно любой порог отсечения ошибки по учебной выборке приводил к ухудшению результата на тестовой выборке. Регрессор тот же, набор данных другой.

К сожалению, универсального ответа на вопрос что делать с выбросами нет. Если их выкидывание из обучения приводит к ухудшению метрик, выкидывать их, видимо, не стоит)

S – дисперсия попарных разностей, n – число фолдов.


Вот тут ошибка. В формуле для t-статистики S это стандартное отклонение.

Еще в формуле вместо n надо брать n-1

Про S справедливо, поправил. Про n-1 - не совсем. В этой формуле нужно именно n, а вот когда будем оценивать стандартное отклонение - там в знаменателе будет n-1 (см "несмещенная выборочная дисперсия" https://ru.wikipedia.org/wiki/Выборочная_дисперсия)

Про n-1 - не совсем. В этой формуле нужно именно n, а вот когда будем оценивать стандартное отклонение - там в знаменателе будет n-1 

Да, если в std отнимать -1 то потом уже не надо. Просто в numpyпо умолчанию не отнимают (см. ddof=0)


Реализация которая совпадет с scipy:

def t_stat(x,y):
    n = len(x)
    return (np.mean(x) - np.mean(y)) / (np.std(x-y, ddof=1)/np.sqrt(n))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий