Pull to refresh

Comments 42

После слов "Обратите внимание, что при максимизации функции по какому-то параметру можно выкинуть все члены, не зависящие от этого параметра:" в формуле ошибка в последней строке — должно быть arg min.

...Поговорим немного о свойствах оценки, полученной линейной регрессией. В свете предыдущего пункта мы выяснили, что:

— ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
— истинное значение целевой переменной тоже распределено нормально: y∼N(f(x→),σ2)


Оба этих утверждения неверны. Линейная регрессия не требует нормальности ошибок, а только соблюдения условий Гаусса-Маркова.
Нормальность ввели вы для того чтобы построить функционал максимального правдоподобия. А его вы строите, чтобы показать, что при нормальных ошибках МП равнозначно МНК.
Но сам МНК отлично работает и при ненормальных ошибках.

так а разве говорится где то, что нормальность это требование теоремы Гаусса-Маркова? предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку

Цитирую дословно: "Поговорим немного о свойствах оценки, полученной линейной регрессией"
Но все что идет дальше это не свойства оценки, полученной линейной регрессией


>> В свете предыдущего пункта мы выяснили, что… ошибка распределена нормально с центром в нуле и некоторым разбросом: ϵ∼N(0,σ2);
Вы это не выяснили, а сами ввели. А если чуть строже, то сделали такое параметрическое предположение, что если ошибка распределена нормально, то тогда...


>> предыдущий пункт как раз про МЛ оценку, а пред-предыдущие это про МНК оценку
А в этом навалено и про МНК, и не про МНК, так что разобраться что о чем невозможно.

ребят, а вам не кажется, что столько материала и домашки строго на одну неделю — это многовато для начинающих? Учитывая еще, что домашка далеко не полностью коррелирует с теорией и в ней нужно тоже много в чем разбираться?

Мне кажется нормально, как раз хорошо, динамично. Математика и базовый питон были в пререквизитах, а зная их тут не так уж и много, в домашках всё довольно подробно разжёвано. Каггловские же соревнования за доп. баллы на весь курс, не на неделю.

Ну там задания то — только признаки подготовить и логит/ридж запустить. Статья да, обширная, но на мой взгляд, за 3 присеста по 2 часа уж точно можно осилить. Все зависит от Вашей мотивации.

Хабр в рассылке мне говорит "26 минут на прочтение" и крутись как хочешь ))

за 26 минут можешь понять, надо ли тебе это читать)
тяжело в учении — легко в бою
я-то сам не начинающий и курс не прохожу) просто взгляд со стороны.
в заданиях помимо самих вопросов нужно же еще понять и разобрать весь код, который там написан, для начинающего может быть не так просто/быстро
Согласен. Но никто не говорил, что будет просто. Это Data Science.
Ко мне в ВШЭ люди ходят учиться с 19 до 22 после работы в будни. И еще в субботу.
К тому же, начинающим не обязательно гнаться сразу за всем. Я согласен, что в начале многое сложно. В этой статье некоторые темы – уже для продолжающих. Мы учитываем пожелания широкой публики (перед стартом курса проводили обширный опрос), в том числе и тех, кто уже применяет разные модели, но не особо понимает, что за этим стоит.
Очередной раз спасибо за замечательную статью. В том моменте, когда мы сказали, что исходных признаков недостаточно и пытались сделать полиномиальные — это разве не ведёт к мультиколлинеарности? Или я чего-то не понимаю
действительно это так, для демонстрации можете глянуть сюда https://habrahabr.ru/company/ods/blog/322076/

добавление полиномиальных действительно ведет к мультколлинеарности, в линейных моделях это увеличивает сложность модели, что в итоге приводит к переобучению, но если остановить раньше, то все ок

но вообще не всякое добавление полиномиальных фичей приведет к мультиколлинеарности, представьте такой случай

x = np.random.uniform(-1, 1, size=10000)
print np.corrcoef(x**2, x**6)[0, 1]
print np.corrcoef(x**2, x**7)[0, 1]
Минимальная статистика по 3 заданию. Оно оказалось уж больно простым, но ничего, есть 4-ое.



Можете пояснить такой вопрос: предположим в задаче бинарной классификации среди признаков есть такой индикатор, что если он равен 1, то гарантированно целевая переменная =1, но при этом срабатывает крайне редко (например, =1 на <1% от всех объектов). Это хороший признак для регрессии?
Это еще от баланса классов зависит. Вообще на кросс-валидации надо смотреть – он может как переобучать, так и, наоборот, улучшать модель.
А какие подходы существуют предсказывать значения с помощью логистической регрессии? То есть использовать логистическую регрессию для оценки стоимости квартиры, например. Понятно, что лог-регрессия используется для оценки вероятности принадлежности к классу. Как перейти от этого значения вероятности к интересуемому значению y?
Возможно, тут сказалась историческая путаница: логистическая регрессия — это модель классификации, а не регрессии. Так что если вы под «значениями» подразумеваете количественный признак, то логит — не для этого.
Если вопрос в том, как по предсказанной вероятности получить отнесение к одному из классов, то тут выбирается порог, начиная с которого прогнозируется класс 1. Это проиллюстрировано в статье картинкой с невозвратом кредита.
Иногда бывают ситуации, когда мы намеренно увеличиваем смещенность модели ради ее стабильности, т.е. ради уменьшения дисперсии модели Var(f^).

Можете привести практический пример такой ситуации?
Наиболее подробное изложение этого вопроса я видел в «Elements of Statistical Learning», если побыстрее – то в «Deep Learning» тоже есть обзор классического ML.

Допустим вам нужно предсказать стоимость куска адамантия. У вас есть данные о стоимости предыдущих сделок, а также размер, вес, качество очистки и т.п.
Из этого можно было бы построить регрессию, однако между различными параметрами (в частности между размером и весом) есть связь. А это значит, что регрессионная модель будет очень неустойчивой, т.е. небольшие изменения в исходных данных могут дать огромные изменения в значениях рассчитанных коэффициентов.
Например, если у нас есть данные о 15 сделках, то при расчете модели на сделках с 1 по 10-ю, со 2 по 11-ю, с 3 по 12-ю и т.д., мы будем получать очень разные результаты. А они должны быть близкими или даже вообще одинаковыми.
Ведь правильные коэффициенты все равно существуют, просто мы их не знаем.


В нормальных условиях (без взаимозависимости в исходных данных) обычная регрессия дала бы лучшую оценку искомых коэффициентов — несмещенную и с наименьшей дисперсией.
Но в данном случае обычное не работает. Поэтому мы сознательно идем на добавление некоторого смещения (при идеальном раскладе — незначительного), но с резким уменьшением дисперсии.

Кстати, вам попадалось "простое" доказательство того, что разброс оценок у GLM ниже? Я какое-то видел, но четырехэтажное. А в классических книгах типа ESL этот аспект как-то игнорируют.

Речь как раз о том, что идет далее. На практике применяют Lasso и Ridge, которые добавляют смещения (bias) – оценки коэффициентов в модели уже будут дальше от истинных, нежели оценки МНК. Но зато и разброс (variance) этих оценок уменьшается по сравнению с МНК-оценками. А поскольку ошибка модели складывается из шума, разброса и квадрата смещения, сильно снизив разброс, можно уменьшить и ошибку, даже несмотря на смещение. Именно это и делают регуляризованные линейные модели Lasso и Ridge. Скажу даже больше: по моему опыту чистый МНК редко применяется, почти всегда нужна регуляризация.
Офигенная статья. Очень редкий экземпляр для Хабра.
Я с ваших статей и лекций просто тащусь. Правда. Очень редко когда человек может в трех словах объяснить сложные вещи. Пишите учебник, срочно!

Спасибо! И за совет тоже спасибо! :trollface:
Впрочем, можно и без тролфейса задаться вопросом, зачем нужен учебник, когда есть статьи на хабре и видео, и как будет выглядеть учебник будущего.
Падажжи… учебник писать — это все мемасики выкинуть? No way

Тут все просто. Когда человек пишет учебник, он систематически излагает то, что позволит построить стабильную базу для развития. Помимо этого присыпая это личным опытом.

Статейки на хабре это «нахватал».

О учебниках будущего я тоже когда то думал, когда в образовании работал :) Так вот, на практике — пиши учебник. В каждой области есть всего пара книг «маст хэв». Их пишут люди, способные на пальцах пятикласнику объяснить как работает сложнейшая штука и чем же они занимаются на работе.

Такие книжки знает любой спец в своей области и никакие статейки такие книжки не заменят.
Хотя можно написать такое, что непонятно зачем писал :)

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

Новый запуск – 1 октября 2018 г., на английском. Подробности – тут.

Теперь курс можно проходить и самостоятельно – появились демо-версии заданий с решениями. Они описываются в конце каждой статьи, но есть и общий cписок. Решения доступны после отправки соотв. веб-формы.

Не могу понять, почему в пункте «Метод максимального правдоподобия» мы в P(yi | x,w) подставляем плотность вероятности. Смущает, что распределение — не дискретное и вероятность конкретного значения yi = 0
Мда, ребятки… Когда-то я аналитически взял вторую производную от нейросети за o(n) от количества синапсов, но об ваши простые объяснения я сломался. То-ли я тупой, то-ли это сомнительная идея — давать математику в практическом курсе без практических примеров так, как будто тут второй курс универа, и перед вами стоит задача натренировать в человеке усидчивость, и способность повторить и забыть через пол года на сессии.
Sign up to leave a comment.