Pull to refresh

Comments 15

И все же, альтернативный подход основывается на дисперсионном анализе, в котором значения p-value играют ключевую роль.

насколько я помню, дисперсионный анализ позволяет только выявить значимые воздействия, и ничего не говорит о коэффициентах. За это отвечает регрессионный анализ. В частности хотелось почитать про оценку адекватности модели при помощи отношения дисперсии адекватности и дисперсии воспроизводимости, подчиненной F-распределению.
Насчет дисперсионного анализа вы правы: речь как раз и идет о выявлении факторов, которые оказывают значимое влияние на зависимую переменную, что в некотором роде позволяет судить о важности/нужности той или иной переменной. И тема эта весьма обширна.
А продолжение будет? Например, очень интересна задача перехода от линейной регрессии к нелинейной в почти стационарной области, ну и поиски этой области.
Продолжение планировалось по GLM.
Ну, тоже интересная тема. Причем мы по-моему с иными методами, так что буду рад увидеть еще одну статейку. Полезная тематика.
Такие статьи заставляют меня жалеть, что я так плохо знаю математику :(
Заглянул из любопытства
понял, что никогда не пользовался функцией update

fit_aic0 <- update(fit_aic, ~ . - M.F)

спасибо!
Функция update как раз удобна для построения nested models, которые и используются в anova.
Интересно, что пару лет назад, когда я учился во ВШЭ, у нас был курс матстата, в котором была лекция, посвящённая этой теме, причём изображения были один в один как здесь. Только мы использовали в качестве ПО Stata. Вы случайно с преподаванием не связаны? Или это картинки из какого-нибудь электронного пособия?
К ВШЭ я не имею никакого отношения и не видел их лекции (хотя весьма наслышан о продвинутости их математической школы). А с преподаванием я связан весьма непосредственно, да. Картинки же весьма стандартные при углубленном изучении данной темы.
Спасибо за статью, но возникает ощущение, что читаешь 15-й параграф 3-й главы какого-то учебника. Проскакивают термины, которые, безусловно, должны быть понятны читающему, потому что подробно объяснялись в 8-м параграфе 1-й главы. А еще во 2-м параграфе 2-й главы. И в сноске к задаче на самопроверку в конце предыдущего раздела.

Было бы неплохо видеть некое вступление (типа как тут), из которого читающий поймет, что речь идет о языке R (Он не так широко распространен на территории ex-USSR, как Matlab и тем более Python, но, безусловно, заслуживает внимания. Нельзя не отметить, что R — фактически стандарт для Data Science.)

Еще было бы неплохо пояснить, в чем исполнять замечательный код под спойлерами. Также я благодарен автору за то, что он дал ссылки на толкование большинства терминов, но сожалею, что он немного заленился ближе к концу статьи, оставив читателям гадать самим, что же такое, к примеру, p-value.

А так — большое спасибо за вскрытие подноготной этого классического метода (не такого вдохновляющего, по сравнению с нейронными сетями и т.д. и т.п. — где бы я еще прочитал популярно о линейной регрессии). Пойду изучать, что такое AIC, BIC — мне кажется, это важно, спасибо автору за наводку.
линейные регрессии, по-моему, не менее вдохновляющий инструмент чем нейронные сети. Они просты в интерпретации и имеют красивую теоретическую основу. Наверное лучше уж сравнивать линейную регрессию и отдельный персептрон, а с нейроныыми сетями можно сравнивать какой-нибудь Generalized Boosting Machine
Тут даже интересна не сама линейная модель, а то разнообразие, что можно представить под видом линейной модели.
Спасибо за конструктивную критику: я уже настолько свыкся со связкой статистика+data science+R, что у меня не возникает сомнений, что и другие думают так же и узнают код R с первого взгляда, хотя понятно, что каждый привык к своим инструментам.
Sign up to leave a comment.

Articles