Pull to refresh

Comments 22

Неплохо, но немного тяжело читаются формулы, простой способ (ну ок рабочий костыль) как их вставить на Хабре — это сгенерировать картинку из теха, можно сделать, например вот тут.
Отлично смотрелся бы еще код на R и примеры из наборов данных и соответствующих графиков)
Все будет. Это не последняя статья на тему линейных моделей.
Хабр, однако, торт.
Однако, склероз мне говорит, что МНК это про нормальные распределения. А тот (более мягкий) комплект ограничений, что у вас — это ближе к хи-квадрату.
И, в общем, надо еще раз заострить внимание, что лепить МНК не зная распределений — самое глупое, что можно сделать. Там конечно формулы самые простые, поэтому во всех учебниках тащат МНК для примера, но по факту в дикой природе нормальные распределения встречаются не так уж часто, особенно в дискретных системах. Лаплас, бета, гамма и т.п. — у них у всех "длинный хвост", из-за которого МНК дико "бесится" и начинает безбожно врать, как только на вход прилетают данные с заметной ошибкой.
Кстати, любопытный факт: если Y* распределено нормально, то функционал максимального правдоподобия фактически эквивалентен функционалу наименьших квадратов.

Это неверно. В указанном случае функционал максимального правдоподобия дает расстояние Махаланобиса. И только для частного случая независимых величин с одинаковой дисперсией где матрица ковариации равна единичной помноженной на некий коэффициент этот функционал вырождается в метод наименьших квадратов.
Совершенно справедливое замечание. Спасибо.
Для меня любое упоминание МНК допустимо только в контексте независимых величин с одинаковой дисперсией.
Но поскольку предложение я сформулировал наоборот — от МП к МНК — то ваша поправка имеет существенное значение.
подсказываю следующие топики: Kernel Regression, SVM, Deep Learning with SVM :)
Неплохие топики, надо сказать, с удовольствием бы их увидел на Хабре :-)
Статья оставила смешанные впечатления. Называется "знакомьтесь, линейные модели" — ок, но если человек не знаком даже с линейной моделью, не слишком ли много информации дальше на него вываливается?
И далее текст очень неоднородный, то для начинающих, то какие-то специфические вещи.
Удивила регуляризация для борьбы с оверфиттингом — разве линейные модели подвержены оверфиттингу?
В целом такое впечатление, что автор прослушал какой-то курс по машинному обучению, сделал конспект — а потом из конспекта решил сделать статью для хабра )
разве линейные модели подвержены оверфиттингу?

Конечно подвержены. Берём обучающую выборку с 10 наблюдениями и 9 независимыми переменными, подгоняем линейную регрессию, получаем нулевую ошибку. Проверяем на другой выборке и видим, что ошибка совсем не нулевая.
Можно ли с помощью линейной модели описать:
— вероятность, что клиент не оформит заказ на сайте в зависимости от его производительности?

Можно, конечно, только не нужно. Специально для предсказания вероятности существует логистическая регрессия.

Линейная модель может выдать оценку вероятности меньше 0 или больше 1, и что потом с этим делать?
Логистическая регрессия — это всего лишь подвид линейной модели, причем не единственный подвид, подходящий для предсказания вероятности.
Логистическая регрессиия — нелинейная модель. У линейной модели f(a+b) = f(a) + f(b). У логистической регрессии это свойство не выполняется из-за кривизны логисты.
Есть разница между "analogous to" и "is". Логистическая регрессия линейна только до линк-функции. Попробуйте посчитать коэффициенты логистической регрессии методом наименьших квадратов (который отлично работает для линейной модели) и посмотрите, что из этого получится.
Я Вам даже более страшную тайну открою: логистическая регрессия может строить и нелинейную границу, если полиномиальные признаки на вход подать.
И все равно это линейная модель.
Хорошо, давайте с другой стороны подойдём. Приведите пример нелинейной модели. А я таким же образом найду внутри неё линейную операцию и заявлю, что модель тоже линейная.

Вот например нейронная сеть с десятью уровнями и гиперболическим тангенсом в качестве функции активации — это линейная модель или нелинейная?
У логит ответ — это функция от линейной комбинации вектора весов на входные признаки. Перцептрон с сигмоидной функцией активации — не что иное как логит. А сумеете ли Вы ответ нейронной сети представить в виде функции от линейной комбинации вектора весов на входные признаки?
ответ — это функция от линейной комбинации вектора весов на входные признаки

Вы используете определение обобщённой линейной модели. А я говорю про линейную модель. Линейные модели — частный случай обобщённых линейных моделей, а не наоборот.
Ну как же: если получилось 2, значит оформит два заказа.
Если (-1) — и сам заказ не оформит и ещё коллегу отговорит.

а вот что будет, если получится -i, пока не придумал
Тогда модель предсказывает не вероятность заказа, а количество заказов.
Для модели всегда важно при каких условиях она работает. Вы заостряете на этом моменте внимание, говоря о распределении Коши, чтобы кто-то не увлекся излишне МНК.

Было бы полезно очень четко прописать предпосылки, чего мне не хватило в статье.

Предлагаю такие слайды (много информации на англ., из Википедии и схожих источников, однако их также можно найти и в учебниках по эконометрике, напр., Greene):

Слайд 1

Слайд 2

Слайд 3

Еще, конечно, хорошо бы рассказать про тестирование параметров модели (а далеко ли ушли коэффициенты от нуля при ошибке их вычисления) и самой модели (хорошо ли модель объясняет у). Кое-что есть здесь. Но для нас важно как это работает с регуляризацией.

Кстати, про тестирование параметров, есть Monte Carlo тесты, имеющие вполне хороший смысл.
Sign up to leave a comment.

Articles