Pull to refresh

Comments 24

Дурацкий вопрос: а что там за закрытые данные и почему к этим данным не было доступа у других команд? Я не про моральную сторону и поведение сжульничавшей команды, а про сайт PetFinder.my. Им это решение вообще нужно было или нет?
UFO just landed and posted this here
Если я правильно понимаю, данные, на которых будет проводиться сравнение алгоритмов, почти всегда закрывают — иначе можно «заточить» алгоритм именно на этот датасет (так называемый overfitting). В итоге у всех конкурсантов будет 90-100%, а в реальности все будет печально.
Может быть задача была найти хозяев для тех животных для которых хозяева были уже найдены, иначе в принципе не понятно, как это проверять.
UFO just landed and posted this here
Цель соревнования — написать программу для предсказания.

Нет. Цель — придумать модель, которая будет хорошо решать поставленную задачу. Ваш комментарий выглядит как «Не понимаю почему списывать на экзамене плохо. Цель экзамена — получить оценку. Что выучит студент уже не важно. А если он ответит бред и случайно угадает, его тоже накажут?»
А Вы, между прочим, попробуйте как-нибудь сдать экзамен по альтернативной модели (которая при этом будет иметь сравнимое количество доказательных публикаций по исследованиям). Такие модели в массе есть, например, в биотехе, медицине и, насколько понимаю, физике и астрономии. Да что там альтернативная модель, я слышал, некоторые преподаватели терпеть не любят, когда предмет сдают не по их конспектам (то есть, то же самое, но иными словами). Так что, в реальной жизни все же экзамены, цель которых — получить оценку, все же есть.
Как минимум претензии в том, что, соглашаясь на участие в соревновании, ты соглашаешься с правилами его проведения, где чёрным по белому написано, что «Publicly, freely available external data is permitted, excluding data found on the PetFinder.my website. The source of any external data must be posted to the official competition forum prior to the Entry Deadline.» Нарушены были оба пункта. Причём с явным умыслом и изощренностью.
Насчёт второго пункта — не факт.
Из оригинала новости с kraggle:
was disguised as part of their external «cute-cats-and-dogs-from-pixabaycom» dataset
можно понять, что они использовали «external data» с другого сайта, причём информацию об этом dataset они очень даже запостили на форуме. Т.е. второй пункт был 100% выполнен.
Так что главная проблема лишь с пунктом «excluding data found on the PetFinder.my website» — и тут для доказательства злого умысла необходимо доказать, что этот pixabay принадлежал именно им.
Если бы не было попытки обфускации такого использования — всё вполне бы сошло с рук.

Да и обфускацию можно объяснить попыткой защиты от копирования конкурентами.

Как я понимаю, там была классическая схема для оценки: два датасета, один из которых открытый (с ответами), а второй закрытый, для тестирования. Так что, никакого предсказания в 9 из 10 случаев не было, а было просто "списывание", если так можно выразиться.

В обсуждениях пишут, что «Pavel Pleskov seems to be a well known serial cheater (...he was removed from Google's Landmark Retrieval for cheating)». И еще: «Furthermore, about a half a year ago he was temporarily banned from Kaggle for mining Bitcoin in kernels.»
UFO just landed and posted this here
И после этого ещё хватает наглости заявлять
Для меня речь шла не о деньгах, а, скорее, о том, чтобы стать номером один в рейтинге.

они соскрейпили данные с самого сайта и исключив оттуда публичные данные — получили закрытый датасет.


думаю надо делать определенный аудит решения топ-3 победителей, и если читерство найдется то исключать и банить их отовсюду.
Таким образом пропадет смысл в читерстве, если выиграешь — точно попадешься, и достаточно попасться один раз чтобы тебя забанили отовсюду навсегда.


также можно делать третий скрытый датасет (после окончания конкурса) — и прогонять топовые решения на нем и если где-то замечено будет сильная просадка, то это явный знак читерства

Полностью согласен с жесткими мерами и без второго шанса. У нас и без этого мало времени двигать прогресс / успеть оптимизировать хоть какие то области, что бы отвлекаться еще на расследование «читерства».
По третьему дата сету все не так однозначно: 1) обычно нет столько статистически значимых данных, что бы хватило и на обучающую выборку и 2 проверочных датасета. 2) Если продукт пишется по совести, то разработчику для самоконтроля достаточно быть уверенным, что «сетка» показывает результат на данных которые она никогда не видела, а уж какой датасет это будет по счету это не важно.
UFO just landed and posted this here

как это нет закрытого датасета?а где тогда гарантия, что на не проверочном датасете не обучились просто?

Обычное дело на Кеггле, во всех конкурсах в топе сидят скраперы и оверфитеры. Участники обманывают и организаторов и себя. Каждый конкурс начинается с того, что кто-нибудь прощупывает закрытый тестовый датасет, потом делится с командой.

Если организатор не озаботился очисткой и не анонимизировал данные, то доходит до взлома БД сайтов.
Полученные данные можно загнать в модель и никто фарш не сможет повернуть назад. Хотя, во многих конкурсах, добытые данные можно сделать публичными.

Кстати, недавно закончились конкурсы где организаторам пришлось выкинуть из оценки >50% и 89% данных.
Ссылки в поддержку этих довольно голословных утверждений есть? Не про обнаруженные лики в данных, что случается, а именно про «прощупывание» тестового сета, «взломы бд», «загонку в модель», и что везде сидят «скраперы».
В новостях должны быть ссылки на массовые баны и полеты с первых мест на двухсотые, надо поискать.

Тестовый сет всегда щупают, загнать синтетические предсказания и погадать по лидерборду, большого ума не требует.
Некоторые, правда, слишком усердствуют и тогда в обсуждениях закипают бурления. В основном со стороны «гадалок» и оверфитеров.

Про «загонку в модель» очевидно — модель не может сказать на каких данных ее обучали. Поэтому организаторам в условиях надо обязывать участников давать параметры и алгоритм обучения.

А взломы это те же лики, только в совершенно дикой манере. Когда в интернет торчит SQL база с приватными данными и их нельзя опубликовать, потом прикрыли, а кто успел тот и съел. Тут становится жалко потраченного времени.

Соревнования на табличках — самые нервные, организаторы как и везде, мешают данные с бурдой и обещают полцарства, а потом не обещают, просто сворачиваются из-за утечки.
С картинками интересней, но мощностей надо на пару порядков больше.
Пару лет назад в топе лидерборды любого соревнования kaggle не менее 15% ников были с примечанием [ods.ai]

Почему сейчас исчезли? Ведь расследование kaggle показало, что в этой команде нет читерства.
Это запрет kaggle на рекламу? Или есть иная какая причина?
UFO just landed and posted this here

Помню смотрел выступление Pavel Pleskov, где он рассказывал как стать Kaggle мастером, и на тебе — клеймо читера.

Sign up to leave a comment.

Other news