Pull to refresh
5
0
Send message
«Я играю в шахматы вот уже 50 лет, но еще ни разу не выигрывал у здорового соперника» Джозеф Блэкберн
Птичка настолько проста, что ее можно читать с минимальным знанием английского. Про оленя так не уверен, кажется, не читал.
Поделюсь своим опытом: я по привычке открываю хабр, просматриваю его ленту, а потом смотрю в правую колонку в раздел Лучшее на Geektimes и читаю заинтересовавшие посты оттуда. Может быть, имеет смысл как-то добавить общую ленту?
Я могу представить ситуацию, где человеку ничего не понятно, а модель дает хорошие предсказания. Но вот для меня, честно говоря, совсем неочевидно, как может быть такой пример, где на глаз очевидно одно поведение, а модель говорит другое, и при этом модель оказывается права. Ну, я имею ввиду, если модель не использует какие-нибудь дополнительные априорные знания, а только сами значения ряда.
А все-таки при чем здесь каминс, если Вы кластеризуете смесь гауссиан? Вот пример с ЕМ алгоритмом.

Было:
Стало:

Плюс, есть оценки матожиданий и матриц ковариации для всех гауссиан.

Код (используются пакеты mclust и mvtnorm)
set.seed(1)

x1<-rmvnorm(1000,c(0,0),matrix(c((40/3)^2,0,0,5^2),nrow=2))
x2<-rmvnorm(1000,c(0,-30),matrix(c(6^2,0,0,6^2),nrow=2))
x3<-rmvnorm(1000,c(-33,-25),matrix(c(6^2,-34,-34,6^2),nrow=2))
x4<-rmvnorm(1000,c(43,0),matrix(c(6^2,-34,-34,6^2),nrow=2))

x <- rbind(x1,x2,x3,x4)

plot(x,xlim=c(-60,60),ylim=c(-45,20),pch=16)

emcl <- Mclust(x,G=4)
cls <- unlist(apply(emcl$z,1,which.max))

plot(x,xlim=c(-60,60),ylim=c(-45,20),col=cls,pch=16)


Вы же используете ЕМ для смеси гауссовских распределений? Картинка очень похожа на такую смесь, я немного удивлен, что ЕМ так сошелся. Если Вам не трудно, скажите, какие Вы данные используете, очень хочу посмотреть, откуда такой эффект.
Спасибо, разобрался.
  1. Да, действительно, про увеличение количества наблюдений был не прав. Что забавно, так то, что сам же писал про распределение Стьюдента, а потом как-то не подумал.
  2. Спасибо, про VIF не знал. Понятно, что возрастает дисперсия оценок, но вот почему коэффициенты обязательно будут противоположными по знаку и большими, пока не понимаю. Не подскажите, где посмотреть соответствующие результаты?

Что касается оверфиттинга, кросс-валидации и борьбы с выбросами, это бесспорно очень важные темы. Но эти темы уже хоть немного, но освещались здесь. А я хотел написать про что-то, о чем информации здесь не было. По крайней мере я поиском не нашел.
Вопросы хорошие, и некоторые из них требуют отдельного поста. Попробую коротко ответить:
  1. Конечно, некоторые из иксов вполне могут получить какие-то звездочки. Со случайными данными вообще может быть что угодно. Но при увеличении количества наблюдений вероятность этого должна стремиться к 0. Другое дело, что и p-значение для F-статистики тоже с хорошей вероятностью будет большим.
  2. Насколько я понимаю, сильно страшного ничего не случится. Коэффициент при одном из иксов просто будет близок к 0. Другое дело, что если они линейно зависимы, то матрица X^{T}X будет вырожденной и у нее не будет обратной. Но с этим тоже можно бороться, да и случай этот на практике очень маловероятен.
  3. В общем случае без каких-нибудь априорных соображений о реперзентативности исходных данных на этот вопрос ответить не получится.
  4. Смотря как испортил. Если немного, то ничего страшного, а если очень сильно, то модель может получиться какая угодно, но этот выброс и невооруженным глазом видно.

Пока я планирую написать посты об анализе остатков и возможных преобразованиях данных.
Соглашусь со всем. Единственное, хочу отметить, что в тексте не было цели построить адекватную модель для конкретных приведенных данных, была цель только показать некоторые из возможных статистических тестов. Поэтому я и не рассматривал, например, вопросы преобразования переменных или использования обобщенных линейных моделей. Но Вы, конечно, правы, пример, возможно, стоило выбрать более красивый.
Про анализ распределения остатков к Вашим словам хочу добавить только то, что, по большому счету, это отдельная и совсем не маленькая тема, и по ней надо писать отдельный пост. Я просто привел простой пример статистического теста, но, конечно, только им ограничиваться не стоит, да и применять его надо с пониманием его ограничений.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity