Как стать автором
Обновить

Kaggle-подходы для CV в проде: внедрить нельзя выпилить

Время на прочтение6 мин
Количество просмотров12K
Всего голосов 54: ↑53 и ↓1+52
Комментарии4

Комментарии 4

Я периодически помогаю своим друзьям/нашим клиентам находить и собеседовать человека в штат.
Для меня участие в Kaggle — это зачастую очень крутой поинт разговора.
При собеседовании на CV, на мой взгляд, надо не проверять то как человек знает теорию, а то как он мыслит и как умеет её применять. А это невозможно сделать без обсуждения опыта человека. Того какие задачи он смог решить и как он их преобразовал.

И тут всё портит NDA. Больше половины собеседников не готовы обсуждать что они делали и как они делали на прошлых работах. Я прекрасно понимаю, что есть ситуации когда это оправдано. В моём опыте были десятки ситуаций когда маленький хак/переосмысление точки применения очень ощутимо может поднять качество модели.

Но если у человека есть опыт Kaggle — он открыт к разговору. В обсуждении задач Kaggle нет NDA. И можно хорошо понять ход мышления, кругозор, списки методов которыми человек пользовался, изучал.

Если же у человека NDA, нет опыта Kaggle, то единственное что остаётся — обсуждать модельные задачи. Но тут вероятность что собеседование пойдёт как-то не так сильно растёт. Можно случайно выбрать задачи в которых собеседуемый не разбирается. Или разбирается поверхностно.
Это не даст ему показать себя/продемонстрировать решение, путь мысли.
Например я никогда не работал с обработкой звука, но мой опыт в нейронках свёрточных огромный. Вроде рядом/близко. А могу не знать каких-то тривиальных вещей которые за 10 минут нагуглсятся и при моём опыте перевернут логику решения задачи.

Так что всегда всем своим студентам рекомендую либо иметь пару проектов которые они готовы обсуждать, либо участвовать в Kaggle, либо иметь какой-нибудь свой проект для интереса.

P.S.
Да, немного отклонился от логики статьи в своём коменте.
Возвращаясь к логике. Если человек замечательно использует методологию kaggle — то я буду смотреть на то как он умеет пользоваться инструментами за пределами kaggle. Как он будет формулировать задачу, как будет подходить к методологии досбора базы/интеграции разметки в пайплайн.
Это немного несвязанные вещи. Но Kaggle даст хорошую отправную точку на тему разговора о них.
НЛО прилетело и опубликовало эту надпись здесь

На мой взгляд, еще один важный недостаток Kaggle — оптимизация целевой метрики на одном и том же датасете без бутстрапинга или какой-то еще оценки разброса этой самой целевой функции.


В реальных задачах приходят новые и новые данные и сильно оптимизированное (иногда до 5-го знака!!!) решение быстро станет тыквой.

Может когда-нибудь на кагл завезут продакшн соревнование, где будет оцениваться не только скор, но и вес и скорость выполнения модели. Было бы круто и интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий