kxx Sep 2 2014 at 03:05

Несколько слов о «линейной» регрессии

5 min

54K

Data Mining*Big Data*Mathematics*R*Machine learning*

+36

Comments 15

PsyHaSTe Sep 2 2014 at 09:06

И все же, альтернативный подход основывается на дисперсионном анализе, в котором значения p-value играют ключевую роль.

насколько я помню, дисперсионный анализ позволяет только выявить значимые воздействия, и ничего не говорит о коэффициентах. За это отвечает регрессионный анализ. В частности хотелось почитать про оценку адекватности модели при помощи отношения дисперсии адекватности и дисперсии воспроизводимости, подчиненной F-распределению.

kxx Sep 2 2014 at 15:44

Насчет дисперсионного анализа вы правы: речь как раз и идет о выявлении факторов, которые оказывают значимое влияние на зависимую переменную, что в некотором роде позволяет судить о важности/нужности той или иной переменной. И тема эта весьма обширна.

PsyHaSTe Sep 2 2014 at 20:28

А продолжение будет? Например, очень интересна задача перехода от линейной регрессии к нелинейной в почти стационарной области, ну и поиски этой области.

kxx Sep 2 2014 at 22:52

Продолжение планировалось по GLM.

PsyHaSTe Sep 3 2014 at 11:37

Ну, тоже интересная тема. Причем мы по-моему с иными методами, так что буду рад увидеть еще одну статейку. Полезная тематика.

nikita2206 Sep 2 2014 at 10:38

Такие статьи заставляют меня жалеть, что я так плохо знаю математику :(

hombre Sep 2 2014 at 12:00

Заглянул из любопытства
понял, что никогда не пользовался функцией update

fit_aic0 <- update(fit_aic, ~ . - M.F)

спасибо!

kxx Sep 2 2014 at 15:39

Функция update как раз удобна для построения nested models, которые и используются в anova.

hombre Sep 2 2014 at 12:01

… дублирование при редактировании(

pushist1y Sep 2 2014 at 16:28

Интересно, что пару лет назад, когда я учился во ВШЭ, у нас был курс матстата, в котором была лекция, посвящённая этой теме, причём изображения были один в один как здесь. Только мы использовали в качестве ПО Stata. Вы случайно с преподаванием не связаны? Или это картинки из какого-нибудь электронного пособия?

kxx Sep 2 2014 at 22:35

К ВШЭ я не имею никакого отношения и не видел их лекции (хотя весьма наслышан о продвинутости их математической школы). А с преподаванием я связан весьма непосредственно, да. Картинки же весьма стандартные при углубленном изучении данной темы.

Oleg_Sh Sep 2 2014 at 16:56

Спасибо за статью, но возникает ощущение, что читаешь 15-й параграф 3-й главы какого-то учебника. Проскакивают термины, которые, безусловно, должны быть понятны читающему, потому что подробно объяснялись в 8-м параграфе 1-й главы. А еще во 2-м параграфе 2-й главы. И в сноске к задаче на самопроверку в конце предыдущего раздела.

Было бы неплохо видеть некое вступление (типа как тут), из которого читающий поймет, что речь идет о языке R (Он не так широко распространен на территории ex-USSR, как Matlab и тем более Python, но, безусловно, заслуживает внимания. Нельзя не отметить, что R — фактически стандарт для Data Science.)

Еще было бы неплохо пояснить, в чем исполнять замечательный код под спойлерами. Также я благодарен автору за то, что он дал ссылки на толкование большинства терминов, но сожалею, что он немного заленился ближе к концу статьи, оставив читателям гадать самим, что же такое, к примеру, p-value.

А так — большое спасибо за вскрытие подноготной этого классического метода (не такого вдохновляющего, по сравнению с нейронными сетями и т.д. и т.п. — где бы я еще прочитал популярно о линейной регрессии). Пойду изучать, что такое AIC, BIC — мне кажется, это важно, спасибо автору за наводку.

hombre Sep 2 2014 at 17:34

линейные регрессии, по-моему, не менее вдохновляющий инструмент чем нейронные сети. Они просты в интерпретации и имеют красивую теоретическую основу. Наверное лучше уж сравнивать линейную регрессию и отдельный персептрон, а с нейроныыми сетями можно сравнивать какой-нибудь Generalized Boosting Machine

kxx Sep 2 2014 at 22:54

Тут даже интересна не сама линейная модель, а то разнообразие, что можно представить под видом линейной модели.

kxx Sep 2 2014 at 22:43

Спасибо за конструктивную критику: я уже настолько свыкся со связкой статистика+data science+R, что у меня не возникает сомнений, что и другие думают так же и узнают код R с первого взгляда, хотя понятно, что каждый привык к своим инструментам.

Show the best of all time