Roman_Kh Mar 10 2016 at 15:18

Знакомьтесь, линейные модели

10 min

48K

Data Mining*Big Data*Mathematics*Machine learning*

+27

Comments 22

varagian Mar 10 2016 at 15:46

Неплохо, но немного тяжело читаются формулы, простой способ (ну ок рабочий костыль) как их вставить на Хабре — это сгенерировать картинку из теха, можно сделать, например вот тут.

381222 Mar 10 2016 at 18:32

Отлично смотрелся бы еще код на R и примеры из наборов данных и соответствующих графиков)

Roman_Kh Mar 10 2016 at 18:33

Все будет. Это не последняя статья на тему линейных моделей.

vanxant Mar 10 2016 at 23:53

Хабр, однако, торт.
Однако, склероз мне говорит, что МНК это про нормальные распределения. А тот (более мягкий) комплект ограничений, что у вас — это ближе к хи-квадрату.
И, в общем, надо еще раз заострить внимание, что лепить МНК не зная распределений — самое глупое, что можно сделать. Там конечно формулы самые простые, поэтому во всех учебниках тащат МНК для примера, но по факту в дикой природе нормальные распределения встречаются не так уж часто, особенно в дискретных системах. Лаплас, бета, гамма и т.п. — у них у всех "длинный хвост", из-за которого МНК дико "бесится" и начинает безбожно врать, как только на вход прилетают данные с заметной ошибкой.

0serg Mar 11 2016 at 00:08

Кстати, любопытный факт: если Y* распределено нормально, то функционал максимального правдоподобия фактически эквивалентен функционалу наименьших квадратов.

Это неверно. В указанном случае функционал максимального правдоподобия дает расстояние Махаланобиса. И только для частного случая независимых величин с одинаковой дисперсией где матрица ковариации равна единичной помноженной на некий коэффициент этот функционал вырождается в метод наименьших квадратов.

Roman_Kh Mar 11 2016 at 00:17

Совершенно справедливое замечание. Спасибо.
Для меня любое упоминание МНК допустимо только в контексте независимых величин с одинаковой дисперсией.
Но поскольку предложение я сформулировал наоборот — от МП к МНК — то ваша поправка имеет существенное значение.

sergehog Mar 11 2016 at 11:04

подсказываю следующие топики: Kernel Regression, SVM, Deep Learning with SVM :)

varagian Mar 11 2016 at 17:15

Неплохие топики, надо сказать, с удовольствием бы их увидел на Хабре :-)

pro100olga Mar 11 2016 at 11:53

Статья оставила смешанные впечатления. Называется "знакомьтесь, линейные модели" — ок, но если человек не знаком даже с линейной моделью, не слишком ли много информации дальше на него вываливается?
И далее текст очень неоднородный, то для начинающих, то какие-то специфические вещи.
Удивила регуляризация для борьбы с оверфиттингом — разве линейные модели подвержены оверфиттингу?
В целом такое впечатление, что автор прослушал какой-то курс по машинному обучению, сделал конспект — а потом из конспекта решил сделать статью для хабра )

dimview Mar 11 2016 at 16:37

разве линейные модели подвержены оверфиттингу?

Конечно подвержены. Берём обучающую выборку с 10 наблюдениями и 9 независимыми переменными, подгоняем линейную регрессию, получаем нулевую ошибку. Проверяем на другой выборке и видим, что ошибка совсем не нулевая.

dimview Mar 11 2016 at 16:29

Можно ли с помощью линейной модели описать:
— вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?

Можно, конечно, только не нужно. Специально для предсказания вероятности существует логистическая регрессия.

Линейная модель может выдать оценку вероятности меньше 0 или больше 1, и что потом с этим делать?

-2

Roman_Kh Mar 11 2016 at 17:09

Логистическая регрессия — это всего лишь подвид линейной модели, причем не единственный подвид, подходящий для предсказания вероятности.

dimview Mar 11 2016 at 19:17

Логистическая регрессиия — нелинейная модель. У линейной модели f(a+b) = f(a) + f(b). У логистической регрессии это свойство не выполняется из-за кривизны логисты.

-2

Roman_Kh Mar 11 2016 at 19:29

"Logistic regression can be seen as a special case of generalized linear model and thus analogous to linear regression" © Wikipedia.

А вообще, почитайте про обобщенные линейные модели, там очень много интересного.

dimview Mar 11 2016 at 19:37

Есть разница между "analogous to" и "is". Логистическая регрессия линейна только до линк-функции. Попробуйте посчитать коэффициенты логистической регрессии методом наименьших квадратов (который отлично работает для линейной модели) и посмотрите, что из этого получится.

yorko Mar 12 2016 at 12:40

Я Вам даже более страшную тайну открою: логистическая регрессия может строить и нелинейную границу, если полиномиальные признаки на вход подать.
И все равно это линейная модель.

dimview Mar 12 2016 at 17:22

Хорошо, давайте с другой стороны подойдём. Приведите пример нелинейной модели. А я таким же образом найду внутри неё линейную операцию и заявлю, что модель тоже линейная.

Вот например нейронная сеть с десятью уровнями и гиперболическим тангенсом в качестве функции активации — это линейная модель или нелинейная?

yorko Mar 13 2016 at 13:17

У логит ответ — это функция от линейной комбинации вектора весов на входные признаки. Перцептрон с сигмоидной функцией активации — не что иное как логит. А сумеете ли Вы ответ нейронной сети представить в виде функции от линейной комбинации вектора весов на входные признаки?

dimview Mar 13 2016 at 15:38

ответ — это функция от линейной комбинации вектора весов на входные признаки

Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.

xflower Mar 11 2016 at 18:14

Ну как же: если получилось 2, значит оформит два заказа.
Если (-1) — и сам заказ не оформит и ещё коллегу отговорит.

а вот что будет, если получится -i, пока не придумал

-1

dimview Mar 11 2016 at 19:14

Тогда модель предсказывает не вероятность заказа, а количество заказов.

ivankomarov Mar 13 2016 at 20:33

Для модели всегда важно при каких условиях она работает. Вы заостряете на этом моменте внимание, говоря о распределении Коши, чтобы кто-то не увлекся излишне МНК.

Было бы полезно очень четко прописать предпосылки, чего мне не хватило в статье.

Предлагаю такие слайды (много информации на англ., из Википедии и схожих источников, однако их также можно найти и в учебниках по эконометрике, напр., Greene):

Слайд 1

Слайд 2

Слайд 3

Еще, конечно, хорошо бы рассказать про тестирование параметров модели (а далеко ли ушли коэффициенты от нуля при ошибке их вычисления) и самой модели (хорошо ли модель объясняет у). Кое-что есть здесь. Но для нас важно как это работает с регуляризацией.

Кстати, про тестирование параметров, есть Monte Carlo тесты, имеющие вполне хороший смысл.

Show the best of all time