Pull to refresh

Comments 15

UFO just landed and posted this here
Вы будете смеяться, но мы о них не знали, ибо еще студенты. В следующий раз построю, благо и в нашей библиотеке он есть, далеко ходить не надо.
UFO just landed and posted this here
Нас интересует самый последний столбец. Этот столбец означает вероятность того, что наш коэффициент равен нулю, то есть не играет роли в итоговой модели.

Как понимаю с таблицы, должно быть наоборот — если коэффициент равен нулю, оставляем.

Можно указать параметры запуска glm функции? Или еще лучше, как использовать scikits.statsmodels для этой цели.

Очень отстраненный комментарий:
def avg(x): s = 0 ...
— в данном случае у вас будет правильный результат, поскольку на вход подаются только числа с плавающей запятой. В случае, если вы попытаетесь этой функцией посчитать среднее целочисленного ряда, получится ерунда. Поправите на s=0.0 и деление всегда будет ожидаемым.
Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.

Про деление постоянно забываю, спасибо.
Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность
У Вас некоторые переменные номинальные (например, famges — это, судя по описанию, семейное положение), а Вы их вводите в модель, как интервальные. Это довольно грубая ошибка, по-крайне мере для логистической модели. В случае R в описании для glm надо было писать as.factor(famges), а не просто famges.
Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)

Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Насчет точности — я поглядел массив, там кредит выдают в 70% случаев. То есть предсказание-константа: «выдавать кредит» даёт 70% предикативной точности, что практически на равных конкурирует со всеми сложными методами, которые Вы использовали. Наверное, в таких случаях лучше оптимизировать не точность предсказания, а какие-нибудь другие метрики, типа precision или recall.
Мне тема интересна, но в начале статьи о заявителях и кредитах, потом о каких-то hohe и alter, потом — вот! статистика 73%!
это круто, но о чем все вообще? я могу, конечно, перевести все слова, прочитаю, что же такое GLM, kNN и пойму, о чем речь, но думаю нужно писать так, чтобы любому при прочтении был понятен смысл. Если это статья в математический журнал — все в порядке.
поддерживаю, подробностей бы больше, пояснений.
Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.
Не знаю как остальным, но к примеру мне общие слова ни о чем не говорят, а ссылки на алгоритмы тем более. В вашей статье я ожидал увидеть больше математики и больше объяснений, на интуитивно понятном уровне, конкретных используемых алгоритмов, для анализа выбранной вам задачи. В ней нет ни того ни другого. Я очень рад что вы так хорошо в этом разбираетесь, но наверное статья писалась о том чтобы мы по её ходу действия могли разобраться вместе с вами. Очень жаль, что я этого сделать не смог, тупею наверно, но все равно спасибо.
Статья интересная, но если бы вы перевели названия на английский и обновили с учетом комментов то было бы вообще здорово.
Вот здесь лежат данные по сходной задаче и ее описание, причем там есть тестовая выборка для валидации. А тут есть ответы для тестовой выборки и top-20 результатов конкурса. Было бы интересно посмотреть, как используемые Вами методы работают в сравнении с теми, которые использовали конкурсанты.

Sign up to leave a comment.

Articles