Comments / Profile of DeMoerto / Habr

@DeMoerto

User

Profile Publications 1Comments 10Bookmarks 97

Шахматное 3D-шоу: Каспаров VS Fritz

DeMoerto Mar 16 2015 at 15:39

«Я играю в шахматы вот уже 50 лет, но еще ни разу не выигрывал у здорового соперника» Джозеф Блэкберн

Look

Язык программирования R

DeMoerto Feb 3 2015 at 21:07

Птичка настолько проста, что ее можно читать с минимальным знанием английского. Про оленя так не уверен, кажется, не читал.

Look

Две недели спустя появления Geektimes: увы…

DeMoerto Oct 29 2014 at 13:00

Поделюсь своим опытом: я по привычке открываю хабр, просматриваю его ленту, а потом смотрю в правую колонку в раздел Лучшее на Geektimes и читаю заинтересовавшие посты оттуда. Может быть, имеет смысл как-то добавить общую ленту?

Look

Анализ временных рядов с помощью python

DeMoerto Dec 24 2013 at 19:03

Я могу представить ситуацию, где человеку ничего не понятно, а модель дает хорошие предсказания. Но вот для меня, честно говоря, совсем неочевидно, как может быть такой пример, где на глаз очевидно одно поведение, а модель говорит другое, и при этом модель оказывается права. Ну, я имею ввиду, если модель не использует какие-нибудь дополнительные априорные знания, а только сами значения ряда.

Look

Визуализация двумерного гауссиана на плоскости

DeMoerto Oct 28 2013 at 18:44

А все-таки при чем здесь каминс, если Вы кластеризуете смесь гауссиан? Вот пример с ЕМ алгоритмом.

Было:

Стало:

Плюс, есть оценки матожиданий и матриц ковариации для всех гауссиан.

Код (используются пакеты mclust и mvtnorm)

set.seed(1)

x1<-rmvnorm(1000,c(0,0),matrix(c((40/3)^2,0,0,5^2),nrow=2))
x2<-rmvnorm(1000,c(0,-30),matrix(c(6^2,0,0,6^2),nrow=2))
x3<-rmvnorm(1000,c(-33,-25),matrix(c(6^2,-34,-34,6^2),nrow=2))
x4<-rmvnorm(1000,c(43,0),matrix(c(6^2,-34,-34,6^2),nrow=2))

x <- rbind(x1,x2,x3,x4)

plot(x,xlim=c(-60,60),ylim=c(-45,20),pch=16)

emcl <- Mclust(x,G=4)
cls <- unlist(apply(emcl$z,1,which.max))

plot(x,xlim=c(-60,60),ylim=c(-45,20),col=cls,pch=16)

Look

Визуализация двумерного гауссиана на плоскости

DeMoerto Oct 27 2013 at 19:19

Вы же используете ЕМ для смеси гауссовских распределений? Картинка очень похожа на такую смесь, я немного удивлен, что ЕМ так сошелся. Если Вам не трудно, скажите, какие Вы данные используете, очень хочу посмотреть, откуда такой эффект.

Look

Оценка результатов линейной регрессии

DeMoerto Sep 27 2013 at 14:11

Спасибо, разобрался.

Look

Оценка результатов линейной регрессии

DeMoerto Sep 26 2013 at 19:21

Да, действительно, про увеличение количества наблюдений был не прав. Что забавно, так то, что сам же писал про распределение Стьюдента, а потом как-то не подумал.
Спасибо, про VIF не знал. Понятно, что возрастает дисперсия оценок, но вот почему коэффициенты обязательно будут противоположными по знаку и большими, пока не понимаю. Не подскажите, где посмотреть соответствующие результаты?

Что касается оверфиттинга, кросс-валидации и борьбы с выбросами, это бесспорно очень важные темы. Но эти темы уже хоть немного, но освещались здесь. А я хотел написать про что-то, о чем информации здесь не было. По крайней мере я поиском не нашел.

Look

Оценка результатов линейной регрессии

DeMoerto Sep 26 2013 at 12:48

Вопросы хорошие, и некоторые из них требуют отдельного поста. Попробую коротко ответить:

Конечно, некоторые из иксов вполне могут получить какие-то звездочки. Со случайными данными вообще может быть что угодно. Но при увеличении количества наблюдений вероятность этого должна стремиться к 0. Другое дело, что и p-значение для F-статистики тоже с хорошей вероятностью будет большим.
Насколько я понимаю, сильно страшного ничего не случится. Коэффициент при одном из иксов просто будет близок к 0. Другое дело, что если они линейно зависимы, то матрица X^{T}X будет вырожденной и у нее не будет обратной. Но с этим тоже можно бороться, да и случай этот на практике очень маловероятен.
В общем случае без каких-нибудь априорных соображений о реперзентативности исходных данных на этот вопрос ответить не получится.
Смотря как испортил. Если немного, то ничего страшного, а если очень сильно, то модель может получиться какая угодно, но этот выброс и невооруженным глазом видно.

Пока я планирую написать посты об анализе остатков и возможных преобразованиях данных.

Look

Оценка результатов линейной регрессии

DeMoerto Sep 25 2013 at 18:17

Соглашусь со всем. Единственное, хочу отметить, что в тексте не было цели построить адекватную модель для конкретных приведенных данных, была цель только показать некоторые из возможных статистических тестов. Поэтому я и не рассматривал, например, вопросы преобразования переменных или использования обобщенных линейных моделей. Но Вы, конечно, правы, пример, возможно, стоило выбрать более красивый.
Про анализ распределения остатков к Вашим словам хочу добавить только то, что, по большому счету, это отдельная и совсем не маленькая тема, и по ней надо писать отдельный пост. Я просто привел простой пример статистического теста, но, конечно, только им ограничиваться не стоит, да и применять его надо с пониманием его ограничений.

Look