Как стать автором
Обновить

Комментарии 9

Спасибо. О таких манипуляциях с классификаторами мало пишут, видимо, предполагается, что это очевидно. Тем не менее, вполне действенный способ для практики улучшить показатели. То же самое можно проделать и с SVM, например, когда цена ошибки велика.
AUC (Area Under Curve) — в области бинарной классификации(,) данный термин (площадь под графиком) используется исключительно в отношении ROC-кривой.

Не совсем так — вместо ROC-кривой часто используется PR-кривая, где по осям откладываются точность и полнота; такая кривая лучше подходит, когда класcы несбалансированы (нулей гораздо больше, чем единиц). PR-кривой соответствует характеристика PR AUC. Лучше поэтому явно писать ROC AUC и PR AUC.
Спасибо за замечание! Исправил.
А почему в данной задаче точность важнее полноты? Здесь же нет ярко выраженного «позитивного» и «негативного» класса, по сути вы просто делаете выбор между мальчиками и девочками (больше точность — меньше FP — меньше ошибок в мужских именах, больше полнота — меньше FN — меньше ошибок в женских именах), значит они абсолютно равноправны.
Ага, точно. Метрики не очень удачно выбраны (ну или пример, их демонстрирующий). Тут лучше просто accuracy считать вместо precision/recall/f1/roc auc/… Разве что задача какая-нибудь специфичная, в духе «ищем всех мальчиков, чтоб призвать их в армию», когда «цена» ошибки не одинаковая (например, есои план по призыву не выполняется — важно поменьше людей упустить).
Про отсутствие «позитивного» и «негативного» класса — совершенно верно.
Как выше уже ответили, не очень удачный пример, согласен. Без ущемления прав одного из полов — сказать, что ошибка менее значима нельзя.
По факту же — изменение полноты для «слабой» фичи идёт не так резко (см графики) при варьировании порога, как изменение точности, поэтому в данном случае, для данного классификатора точность будет важнее.
Спасибо за статью. «Пул» и «фолд» резанули глаза. Неужели не смогли вспомнить уже существующие в русском языке слова? Например, множество (pool) и свёртка (fold). Или там совокупность/выборка. Зачем лепить этот «фолд»?
Честно говоря, я не стремился использовать закрепленные в нашем языке термины, специально. Они зачастую несут потерю смысла и ненужную смысловую нагрузку. Те же ошибки 1 и 2 рода — яркое тому доказательство.

Вы правы 100% по поводу «пул». Скорее всего это профессиональная деформация, хотя слово «выборка» тоже довольно регулярно звучит в наших кругах, однако «пул» чаще.
По поводу «фолд» — тут скорее, это просто «часть», типа «разбить выборку на части». Вряд ли вариант «разбить выборку на свертки/совокупности/выборки» будет вменяем.
«Выборка» и «часть» по-любому лучше звучит, чем «пул» и «фолд».
Я так считаю — если в языке уже есть термины/слова для обозначения понятий, надо их и использовать. Ибо если есть слово «часть», которое все понимают, зачем вводить слово «фолд», которого никто не понимает и не знает… Другое дело, что fold — это, по идее, должно быть нечто более специфичное, чем просто part или chunk. Но в данном случае, похоже, что дело обстоит не так, и непонятно, нахрена его вообще стали использовать в таком контексте в английском языке. По смыслу подходит ещё больше «кадр» в русском, кстати.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории