Positive-Unlabeled learning and where to find it / Комментарии / Хабр

kraidiky 22 июл 2020 в 15:15

1) Вы бы привели данные на основе которых делали графики коррупции с выделенными любыми двумя переменными и разметкой или ещё лучше прогнав через какой-нибудь t-SNE и показав какая часть выборки у вас размечена, а какая помечена как возможно положительная, а какая как возможно отрицательная. А то получается:
— Здравствуйте! 2х2=4 поэтому вы вор, я так говорю, потому что я Эркюль Пуаро.
У читателя нет никакой возможности оценить обоснованность на столько серьёзного наезда. Несколько часов работы, учитывая, что все что нужно у вас уже предобработано, а качество статьи вырастет неизмеримо.

Второй момент скорее вопрос, Если задача на столько проста, как вы говорите, достаточно фигануть кластеризацию и проверить вручную по пятку аукционов из каждого кластера. Усилия меньше, результат на много лучше интерпретируем.

проигравших в аукционах можно рассмотреть как честных (положительных) — Предположение более чем сомнительное, потому что почти всегда когда создаётся коррупционный аукцион для соблюдения формальных критериев создаётся несколько альтернативных предложений лицами афелированными с коррупционером, с незначительно худшими условиями. Это очень хорошо видно если посмотреть на примеры «вручную» выявленных случаев коррупции. на основе вашего предложения все эти спойлеры попали в некоррумпированные, хотя их основной чертой как раз и является близость к коррумпированным предложениям, а не к нормальным. ПРи таком подходе есть шанс наоборот как коррупционные помечать предложения реальные, которые в таких аукционах как правило менее многочисленные.

Наконец ещё одна крупная уязвимость предложенной методики в том, что в российских аукционах очень развита форма коррупции когда на реальный честный аукцион делаются предложения с формальным соблюдением условий, но слишком выгодные, на столько что нормальные участники не могут с ними конкурировать. А дальше мошенник либо предлагает за откат снять своё предложение, или забирает аванс и растворяется в тумане. То есть коррупционными могут быть предложения как менее выгодные, чем нормальные, так и более выгодные. Какой классификатор вы использовали? Умеет ли он отделять предложения отличающиеся в обе стороны? А то если фигануть тупо линейную регрессию, можно получить ситуацию когда либо один либо другой тип коррупции неизбежно попадёт в класс некоррупционных сделок, причём с большой уверенностью.

Учитывали ли вы разницу в ценах, особенно на производимые работы или же учили классификаторы отджельно для разных регионов или групп регионов? Зарплаты в Москве и остальной России в норме отличаются более чем в два раза, почти та же ситуация в Питере. Если не учесть этого фактора, почти все успешные честные аукционы в Мск и Спб окажутся в классе коррупционных за завышенную вдвое цену, чисто глядя на карту можно предположить, что именно это и произошло.

dimonenka 22 июл 2020 в 16:37

Привет! Пост все-таки про PU learning, а про нашу статью с аукционами я упоминаю лишь как пример, вскользь, и без деталей. В том числе, я не говорю, что за вид коррупции мы ищем — схем же десятки — а также, что за аукционы мы рассматриваем. Если интересны детали — можете посмотреть в нашей статье, даже могу скинуть актуальную версию — на архиве старая. Статья ответила бы на многие ваши вопросы.

Вкратце:
— Мы ищем утечку ставок в запросах котировок. Запросы котировок — sealed-bid first-price auctions. Утечка ставок — когда организатор сообщает участнику-фавориту ставки других участников. Такой участник-фаворит будет ждать конца аукциона, чтоб все поставили, и подрезать текущего победителя на условные 100 рублей. Такие паттерны и находит классификатор на основе скормленных фичей. Главные фичи: тайминг ставки и нормализованная разница ставок между 1ым и 2ым местом для победителей и между 2ым и 3им местом для проигравших (2ых мест).
— Мы не используем размеченные данные, и размечаем на P и U только согласно нашему предположению.
— Кластеризация не выделяет интерпретируемые кластеры — пробовали. Распределения слишком сильно пересекаются. Кстати, с неинтепретируемостью PU learning я не согласен. Вероятность принадлежности к конкретному классу интерпретируется лучше, чем принадлежность к условному кластеру.
— Мы не ищем collusion — горизонтальный сговор между участниками. Кстати, недавно вышла статья, где в этих же данных ищут именно collusion: «Обнаружение сговора на государственных закупках в России».
— В нашей же задаче поиска утечки ставок, предположение «проигравшие = честные» может лишь занизить нашу итоговую оценку. Такая консервативность нас устраивает.
— Про регионы классификатор не знает, но мы пробовали их добавить, и фича не значимая.

kraidiky 23 июл 2020 в 00:02

Ну да, так намного лучше, поставил статье плюсик. Щаз просто развелось мамкиных разоблачителей, поэтому отношение несколько предвзятое.