Как стать автором
Обновить

Комментарии 8

Судя по квантилям остатков их распределение ассиметричное со скосом в правую сторону. Да и зависимая переменная — количество. В таких случаях более корректным является предварительное логарифмирование зависимой переменной или применение регрессии Пуассона. То есть все написанное автором — правильно, но пример подобран не совсем удачно. Кроме того, для оценки нормальности распределения остатков более подходит инспекция квантиль-квантильного нормального графика. Ведь критерий Шапиро-Уилка в случае больших выборок отклонит нулевую гипотезу нормальности при очень слабых нарушениях, а при очень малых размерах выборки — останется нечуствителен даже для серьёзных нарушений. Но в общем написано толково.
Соглашусь со всем. Единственное, хочу отметить, что в тексте не было цели построить адекватную модель для конкретных приведенных данных, была цель только показать некоторые из возможных статистических тестов. Поэтому я и не рассматривал, например, вопросы преобразования переменных или использования обобщенных линейных моделей. Но Вы, конечно, правы, пример, возможно, стоило выбрать более красивый.
Про анализ распределения остатков к Вашим словам хочу добавить только то, что, по большому счету, это отдельная и совсем не маленькая тема, и по ней надо писать отдельный пост. Я просто привел простой пример статистического теста, но, конечно, только им ограничиваться не стоит, да и применять его надо с пониманием его ограничений.
Остались неосвещёнными каверзные вопросы:

  1. Если X1...XN совершенно случайны и никак не связаны c Y, сколько из них получат звёздочки и что эти звёздочки означают?
  2. Что если X1 и X2 окажутся сильно коррелированными?
  3. Что будет, если применить полученную модель к новым данным?
  4. Мы собираемся строить регрессию по миллиону наблюдений. Вражеский шпион получил доступ к одному из них и испортил его. Чем это нам грозит?


Продолжение следует?
Вопросы хорошие, и некоторые из них требуют отдельного поста. Попробую коротко ответить:
  1. Конечно, некоторые из иксов вполне могут получить какие-то звездочки. Со случайными данными вообще может быть что угодно. Но при увеличении количества наблюдений вероятность этого должна стремиться к 0. Другое дело, что и p-значение для F-статистики тоже с хорошей вероятностью будет большим.
  2. Насколько я понимаю, сильно страшного ничего не случится. Коэффициент при одном из иксов просто будет близок к 0. Другое дело, что если они линейно зависимы, то матрица X^{T}X будет вырожденной и у нее не будет обратной. Но с этим тоже можно бороться, да и случай этот на практике очень маловероятен.
  3. В общем случае без каких-нибудь априорных соображений о реперзентативности исходных данных на этот вопрос ответить не получится.
  4. Смотря как испортил. Если немного, то ничего страшного, а если очень сильно, то модель может получиться какая угодно, но этот выброс и невооруженным глазом видно.

Пока я планирую написать посты об анализе остатков и возможных преобразованиях данных.
  1. Из 100 переменных примерно 5 получат звёздочки. После чего обычно пишется статья, в которой показываются эти 5 переменных и их «статистически значимые» коэффициенты, без упоминания других 95. Количество наблюдений здесь, кстати, не при чём.
  2. Коэффициенты при этих иксах будут большими по модулю и противоположными по знаку. Качество модели упадёт. Ключевое слово — Variance Inflation Factor, VIF. На практике это встречается сплошь и рядом, назвается multicollinearity или просто collinearity.
  3. А надо бы, модели должны хорошо работать на похожих данных. Ключевые слова overfitting, cross-validation. В статье об оценке результатов регрессии нельзя этот аспект пропускать.
  4. Чтоб увидеть выброс невооружённым глазом, надо на данные невооружённым глазом посмотреть. Что делается не всегда, хотя и надо бы. Но более важный момент в том, что одно плохое наблюдение их миллиона может испортить регрессию совсем. Это недостаток МНК, отсюда проистекает важность борьбы с выбросами, а также польза от всяких robust методов.


Это я не придираюсь, просто идеи для следующей статьи подбрасываю.
  1. Да, действительно, про увеличение количества наблюдений был не прав. Что забавно, так то, что сам же писал про распределение Стьюдента, а потом как-то не подумал.
  2. Спасибо, про VIF не знал. Понятно, что возрастает дисперсия оценок, но вот почему коэффициенты обязательно будут противоположными по знаку и большими, пока не понимаю. Не подскажите, где посмотреть соответствующие результаты?

Что касается оверфиттинга, кросс-валидации и борьбы с выбросами, это бесспорно очень важные темы. Но эти темы уже хоть немного, но освещались здесь. А я хотел написать про что-то, о чем информации здесь не было. По крайней мере я поиском не нашел.
Дисперсия оценок возрастает, а среднее значение Y не меняется, поэтому знаки у выросших коэффициентов получаются противоположными.

Посмотреть на результаты несложно, экспериментальная статистика нам в помощь. Делаем таблицу из 4 колонок (Y, X1, X2, X3) на 1000 строк. Заполняем её случайными числами из стандартного нормального распределения. Строим регрессию. У меня получилось y = -0.014*x1+0.056*x2-0.01*x3.

Теперь делаем x1 = x2 + rand()*0.001, где rand() между 0 и 1. Подгоняем регрессию ещё раз. У меня получилось y = 149.75*x1-149.69*x2-0.01*x3.
Спасибо, разобрался.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории