Pull to refresh

Comments 17

А были мысли использовать обобщения Gini index?
Не понял вопрос, если честно.
Отличная статья. Обязательно перечитаю на досуге вдумчиво. Gini очень популярен в банковской сфере. Очень часто на конференциях или собеседованиях идет речь про него.
Прочитав статью понял, что как и те комментаторы, которые отвечали, что формула (2) для них очевидна, я находился в заблуждении о том, что кривая Лоренца, в известном смысле эквивалентна ROC кривой. А вот Lift кривая эквивалентна кривой CAP en.wikipedia.org/wiki/Cumulative_accuracy_profile
(хотя с многозначностью термина Lift, тоже все плохо). Вы убедительно показали, что, как раз, кривая Лоенца, эквивалентна кривой CAP, а не ROC.

Проблема в том, что в той сфере, в которой индекс Джини активно используется на практике (сравнительный анализ моделей банковского скоринга) под индексом Джини (те кто об этом задумываются) понимают именно нормализованный индекс Джини. И, действительно, вычисляют его на основании ROC AUC по формуле (2), а не на основании CAP AUC.

Вопрос для меня не праздный, сталкиваюсь с ним ежедневно. Мы даже, нашу компанию, назвали GiniMachine.

Статья, конечно, помогла развеять мифы, как Вы и надеялись, но, боюсь, как в известной миниатюре xkcd про стандарты, ситуацию это, скорее, усугубило. ( xkcd.ru/927 )

С другой стороны, 30 лет назад невозможно было представить, что заблуждение по поводу именования мото-любителей и меломанов когда-нибудь удастся преодолеть…

P.S. обстоятельная статья 15 летней давности, на тему ROC и CAP, от Бундесбанка. Раньше я не понимал почему авторы избегают упоминания индекса Джини, теперь мне кажется, это не случайность. www.bundesbank.de/Redaktion/EN/Downloads/Publications/Discussion_Paper_2/2003/2003_10_01_dkp_01.pdf?__blob=publicationFile
Вы знаете, когда я начинал разбирался с этой темой, то с удивлением обнаружил, что в каждой области свое обозначение одного и того же по сути термина. В банковской сфере CAP, в других сферах преимущественно Lift. Даже сам коэффициент в банковской области называется по-другому — Accuracy Rate (поправьте, если ошибаюсь).
На практике, с тем, чтобы наши клиенты для «не нормализованного» индекса Джини использовали отдельный термин Accuracy Rate — сталкиваться не доводилось. Хотя, в литературе, с этим термином в таком смысле я сталкивался, но не придавал значения разнице в определении. Вот тут например: journal.fsv.cuni.cz/storage/1228_rezac.pdf
Любопытно, что в этой статье даже явно пишут о том, что Lorenz Curve путают с Receiver Operating Characteristic. Но, при этом, если я не запутался в их нотации, определяют её именно как зеркальную (по диагонали) ROC кривую, противопоставляя ей CAP кривую, которую называют также Lift кривой.

Вот с чем не редко приходится сталкиваться на практике, так это с тем, что представители бизнеса (не специалисты-рисковики) могут интерпретировать индекс Gini именно как accuracy модели для задачи бинарной классификации. Т.е. индекс Джини в 0.8 интерпретируют как 20 ошибок первого или второго рода из 100 случаев.
Когда приводишь «контр-пример», мол, если всего 10 процентов займов не погашаются вовремя, то даже если мы будем одобрять всем, то достигнем accuracy в 90%, тогда начинается содержательный разговор. И, нужно отметить, что представители бизнеса, на моей памяти, всегда очень радовались, уделив время и разобравшись. Вот прям, не побоюсь этого слова, именно — радовались.
UFO just landed and posted this here
UFO just landed and posted this here
кто со мной?
1) а чем Gini лучше Hosmer-Lemeshow Statistic для финансовых приложений типа ликвидности?
2) как можно верить стат оценкам без реально хорошей симуляции MCMC которая дает оценки интервалов неопределенностей которые реально сущестуют в данных а не придуманных Gaussian?
UFO just landed and posted this here
Опечатка, видимо:
Площадь фигуры для идеального алгоритма равна:
S = Число Доля объектов класса 0 в выборке / 2
А что не так с соревнованием «Porto Seguro’s Safe Driver Prediction», почему предсказания мусорные? Так как уже базовое решение сильное?
Спасибо за интересный пост. Было очень полезно.
Я вот еще Джини так для себя интерпретировал: если взять ROC, то AUC — это площадь под этой кривой (или отношение площади под кривой к площади квадрата, что одно и тоже т.к. площадь квадрата=1), а Gini — то насколько «заполнена» верхняя половина квадрата, т.е. отношение площади над диагональю, к площади треугольника над диагональю. Это более понятно, если формулу 2 представить как Gini = (AUC-0.5)/0.5, (AUC-0.5) — площадь под кривой — площадь нижнего треугольника, /0.5 делить на площадь верхнего треугольника.
Заинтересовало следующее в статье:

Вполне очевидно, что площадь фигуры не изменится, но тем самым мы переводим членов общества из «среднего класса» в бедные или богатые при этом не меняя соотношения доходов между классами. Возьмем для примера десять человек со следующим доходом:

Теперь к человеку с доходом «20» применим метод Шарикова «Отобрать и поделить!», перераспределив его доход пропорционально между остальными членами общества. В этом случае коэффициент Джини не изменится и останется равным 0,772, мы просто притянули «закрепленную» кривую Лоренца к оси абсцисс и изменили её форму:


Какое это может иметь практическое применение в реальной жизни?

Та статья - перевод этой. На даты смотрите.

Эта статья целиком написана мной.

Sign up to leave a comment.