sergeif Jul 31 2018 at 09:53

История первого места на ML Boot Camp VI

4 min

8.5K

Sport programming*Python*Machine learning*

From sandbox

+27

Comments 13

decomeron Jul 31 2018 at 11:37

Поздравляю!
Кто хочет — тот добьется,
Кто ищет — тот всегда найдет!

-1

CrazyElf Jul 31 2018 at 14:10

1) Я пробовал разреженные матрицы. Нет никакой проблемы с памятью, если не переводить матрицы из разреженного формата в обычные матрицы. В scikit-learn есть несколько (штуки четыре) алгоритмов, которые работают прямо с разреженными матрицами, не разворачивая их в памяти. Другое дело, что качество этих алгоритмов оставляло желать лучшего, я попробовал их и выкинул эту идею. В дело шли прямо все возможные «буквы», а качества это не давало. Возможно, надо было попробовать ещё со «словами», но до меня это тогда не дошло.
2) В итоге брал всякие статистики по «буквам», «словам» и «фразам» каждого пользователя, плюс делал суммарный bag of chars и bag of words для каждого cuid. Естественно, пришлось брать только самые частые «символы» и «слова», чтобы влезть в память. В итоге тоже где-то под 300 фич получилось.
3) Дальше я стал стэкать out of fold, но, к сожалению, уже не хватило времени — уехал в отпуск за несколько дней до окончания конкурса, как-раз когда наконец-то какой-то прогресс начал намечаться. А так то хорошо было бы NN ещё попробовать. Ну и постэкать ещё больше вариантов. А так только 92 место, позор какой-то, хотя вроде и «угадал все буквы». %)
Athlon II X4 640, 12Гб озу впритык хватало на 300 фич, один проход по фолдам занимал полчаса. Засабмитил всего что ли три прохода LightGBM по oof с разными сидами, хотел сделать десяток, но из-за глупой ошибки в скрипте уже не успел.

bulnv Jul 31 2018 at 14:12

Странно видеть, как в 2018, прекрасно мыслящие люди, имеют дела с мэйлру.

-9

roryorangepants Jul 31 2018 at 14:24

Казалось бы, в чем проблема? Это же просто конкурс по машинному обучению, и какая разница, кто его организует, если, конечно, задача на конкурсе — это не определение оппозиционеров по профилям в соцсетях, например.

bulnv Jul 31 2018 at 15:16

Не хотел разводить политический шитпостинг. Проблема для меня, очевидно в том, как результаты работы участников буткэмпа будут использованы. Может быть и таким способом, как вы указали.

Femistoklov Aug 1 2018 at 08:33

Ну вот, например, https://habr.com/company/mailru/blog/354456/. Правда, не политика:

Нам предоставили почтовые письма от магазинов с подтверждением сделанных заказов или рассылкой рекламных акций.

sannikovdmitry Jul 31 2018 at 14:54

В Mail.Ru много классных проектов и людей. Зря вы так, даже с точки зрения троллинга.

bulnv Jul 31 2018 at 15:09

Наверняка это так. К людям никаких претензий. Дело в том, как компания использует свои наработки. В данном случае алгоритмы, разработанные участниками буткэмпа. По совести, или нет. В хабрасообществе ценится поддержка коллег (и поэтому меня заминусят), но не стоит путать эту поддержки и совесть.

sergeif Jul 31 2018 at 15:28

Я не думаю, что компания использует эти наработки каким-либо образом. Задача учебная, конкурс носит такое название потому что выполняет в основном образовательную функцию и это несомненно благое дело.

bulnv Jul 31 2018 at 15:39

Требуется определить к какому классу относится пользователь, первому или второму

Вполне реальная задача, с ML в руках MR выглядит пугающе. Я много лет читаю Хабр в режиме ридонли, выполз из тени и не пожалел кармы, чтобы выразить мнение. Считаю, что буквально, только Хабр способен влиять на таких гигантов. Но, раз меня минусят, видимо всех все устраивает. Ну хотя-бы высказался =)

roryorangepants Jul 31 2018 at 15:42

Одно дело — если вам не нравится, как Mail.ru применяет машинное обучение. Тогда так и пишите.

Другое дело — если вам не нравятся вполне конкретные конкурсы от Mail.ru, которые, кстати, весьма ламповые и полезные образовательно, а мейлу в лучшем случае приносят профит в виде рекламы среди потенциальных сотрудников.

karelia96 Aug 16 2018 at 21:11

сколько времени обучалась финальная версия модели?

sergeif Aug 16 2018 at 21:13

4 ночи = ~32 часа на все модели.

Show the best of all time