kuznetsovin Dec 2 2013 at 15:07

Пример решения задачи кредитного скоринга c помощью связки python+pandas+scikit-learn

12 min

81K

Python*Data Mining*

+15

Comments 8

hardtop Dec 3 2013 at 10:24

Интересная тема, но узкая тематика — даже спросить толком нечего.

Slach Dec 3 2013 at 12:37

отличная статья! очень хороший пример практического применения… спасибо большое, от нее буду отталкиваться в своих изысканиях по кластеризации и по forecast анализу…

Stas911 Dec 3 2013 at 14:14

Хорошая статья!
В виде ipython notebook оформить не планируете?

kuznetsovin Dec 3 2013 at 14:46

Я думал над этим, но решил все-таки сделать оформление как в предыдущих статьях. Если интересует ipython notebook файл можно взять у меня на github'e: TKCBankPredict.ipynb

sdev Aug 21 2015 at 19:46

Если еще помните, как делали (понимаю, поздно спрашиваю), как вы били исходное множество на две части — обучающую и тестовую, в какой пропорции? И еще вопрос — по идее в тестовую выборку должны попасть именно клиенты, т.е. бить надо по идентификатору клиента, потому что у одного может быть много ответов из кредитных бюро, вы так делали? Если да, то итоговую оценку по клиенту нужно как-то приводить из нескольких оценок к одной?

arabesc Feb 25 2017 at 20:44

как вы били исходное множество на две части — обучающую и тестовую, в какой пропорции?

Вот же в коде:

TRNtrain, TRNtest, TARtrain, TARtest = train_test_split(train, target, test_size=0.3, random_state=0)

sdev Feb 25 2017 at 22:44

Да, собственно говоря, что и требовалось доказать. Чувак решал совершенно другую задачу.
И таки да, метода загрузки train нет в коде. Но я думаю, что он просто взял и загрузил из файла. А там не клиенты а записи по клиентам. Спасибо, что напомнили, сколько лет, сколько зим.

sdev Feb 25 2017 at 22:54

>> И таки да, метода загрузки train нет в коде.
точнее есть, но сути это не менят.

Show the best of all time