Pull to refresh

Comments 3

Есть предположение, что рейтинг статьи это разница двух случайных переменных с распределением Пуассона, так что тут больше подойдёт Generalized linear model с негативным биномиальным распределением ( функция glm.nb из пакета mass).
«Еще одно ключевое понятие — коэффициент корреляции R2»
Это называется коэффициентом детерминации.
Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Я бы сказал, Вы выбрали абсолютно неудачный пример для этой давно избитой темы. Основная проблема — это вовсе не неоднородность «дисперсии» (на которую вообще говоря асимптотически наплевать) и не автокорреляция в остатках (остатки в форме Вайта или Нью-Веста вполне себе помогают закрыть на них глаза). Основная причина «неудачности» модели — нарушение, пожалуй, куда более важной предпосылки — экзогенности регрессоров, которая ведет к смещенности оценок при оценке МНК

Очевидно, что не только количество просмотров, комментариев, закладок и шэрингов оказывает эффект на рейтинг статьи, но и наоборот: например, чем больше рейтинг, тем скорее всего больше и закладок у этой статьи. Тут необходимо решать систему одновременных уравнений или воспользоваться методом инструментальных переменных

Ну и
принято считать, что при t > 2 фактор является значимым для модели
это же «как грубо»
Sign up to leave a comment.

Articles