komelianchuk Jul 12 2016 at 16:08

Kaggle: История о том как мы учились предсказывать релевантность поисковых запросов и заняли 3-е место

14 min

22K

Data Mining*Machine learning*Natural Language Processing*

+31

Comments 25

claygod Jul 12 2016 at 16:21

Помимо призов, морального удовлетворения и повышения скилла что-то ещё принесло вам призовое место?

komelianchuk Jul 12 2016 at 16:34

С материальной точки зрения следует выделить повышенное внимание со стороны работодателей, которое в итоге весьма быстро вылилось в новую работу.

claygod Jul 12 2016 at 16:39

Если это не секрет, то можно подробней и о «внимании» и о последующем.

komelianchuk Jul 12 2016 at 16:54

Точные цифры тут приводить не буду, но количество предложений от рекрутеров выросла и количественно, и качественно. «Рассказать о себе» теперь на собеседовании можно больше и это воспринимается с большим уважением и интересом, чем раньше. Появились новые интересные знакомства с людьми, которым интересен Kaggle и machine learning. В целом, я бы сказал, что такого рода достижение в глазах окружающих выполняет ту роль, которую должен выполнять диплом, то есть является подтверждением того, что человек профессионал в своей области.

claygod Jul 12 2016 at 17:00

количество предложений от рекрутеров выросла и количественно, и качественно

Отечественные рекрутеры или зарубежные?

komelianchuk Jul 12 2016 at 17:08

Во основном проекты зарубежные, а рекрутеры отечественные.
Но было предложение и от зарубежных.

claygod Jul 12 2016 at 17:31

komelianchuk, правильно я понял, что писать код для Kaggle нужно на Питоне?

komelianchuk Jul 12 2016 at 17:38

Необязательно, но это самый популярный (судя по скриптах на форуме) язык среди участников.

sim3x Jul 12 2016 at 17:36

Захватывающее чтиво. Вітаю з перемогою

А где видео с
>подготовили презентацию и выступили для Kaggle комьюнити в Киеве
?

И где оно собирается — пароли, явки, чатики?

-2

komelianchuk Jul 12 2016 at 17:44

Спасибо.

Есть вот такое сообщество в ФБ
Собственно у администраторов можно получить пароль от видео и прочую полезную информацию касательно встреч.
Но насколько я знаю качество нашего видео оставляет желать лучшего. (не видно презентации)

sim3x Jul 12 2016 at 17:57

Если есть презентация и есть плохое видео с аудио их можно совместить в что-то удобоваримое

Sorokinv Jul 13 2016 at 00:37

Под объединением/укрупнением команд имеется ввиду объединение независимых результатов (ensembling) и идей на заключительной стадии? Ваш основной метод построения модели был основан только на xgboost, или Вы использовали и другие пакеты (RF (RandomForest), плюс еще какая-то экзотика на удачу)?

komelianchuk Jul 13 2016 at 09:24

Sorokinv,

Под объединением/укрупнением команд имеется ввиду объединение независимых результатов (ensembling) и идей на заключительной стадии?

Если быть совсем точным, то наше финальное решение это weighted average трех отличных между собой ансамблей, которые отличались между собой кросс-валидацией, количеством и параметрами моделей 1-го уровня и входящими переменными. Добавил визуализацию на картинке ниже.

komelianchuk Jul 13 2016 at 09:30

Sorokinv,

Ваш основной метод построения модели был основан только на xgboost, или Вы использовали и другие пакеты (RF (RandomForest), плюс еще какая-то экзотика на удачу)?

В качестве моделей первого уровня использовалось порядка десятка разных моделей с разными наборами параметров. Лучшей отдельной моделью была baggingRegressor(xgbRegressor). Экзотики тоже были. Некоторые из моделей первого уровня приведены на картинке ниже.

Sorokinv Jul 13 2016 at 09:54

Спасибо, за ответ. Смотрю Вы даже NN пытались подтянуть через Keras, хотя вряд ли они дают эффект на таких задачах, но интересно. Поздравляю с результатом :)

komelianchuk Jul 13 2016 at 11:15

Спасибо!

Что касается Keras, то такого рода модели показывают хуже точность, но так сам подход очень отличный от других моделей, то в итоге это положительно влияет на качество ансамбля.

modernstyle Jul 13 2016 at 10:28

Очень интересно, читал на одном дыхании!

komelianchuk Jul 13 2016 at 11:16

Спасибо.

Nazarenko_Roman Jul 13 2016 at 16:02

Во во. Я даже расстроился когда дочитал до «В заветные 3 часа ночи, после многократных обновлений страницы мы наконец-то увидели свой результат. 4-ое место...», хотя и знал, что в итоге у ребят третье место)

Nazarenko_Roman Jul 13 2016 at 16:01

Поздравляю!!! 3 место из 2125! Очень круто)

komelianchuk Jul 13 2016 at 23:12

Спасибо.

Wedoslaw Jul 13 2016 at 23:09

Огромное спасибо за статью! После того как посмотрел рассказ Андрея Кирьясова, который занял 6 место, очень ждал подробностей от вашей команды. Прочитал на одном дыхании! :)

komelianchuk Jul 13 2016 at 23:10

Спасибо) Можно ссылку на рассказ?

Wedoslaw Jul 15 2016 at 06:28

Странно, не вставилась ссылка, вот: https://www.youtube.com/watch?v=l2jN471TEQg

Tsimur_S Jul 14 2016 at 12:28

А это вообще частое правило в конкурсах что датасеты нельзя модифицировать и нужно указывать все источники данных? Я правильно понимаю что нужно указать даже использованные частотные словари, иначе становишься нарушителем правил? В чем тут вообще логика организаторов?

Show the best of all time