johnpateha Oct 24 2018 at 14:01

Как стать датасайнтистом, если тебе за 40 и ты не программист

8 min

148K

QIWI corporate blogData Mining*Machine learning*Studying in ITIT career

+112

Comments 98

REPISOT Oct 24 2018 at 14:12

Как стать датасайнтистом

Прочитал «дантистом». Сильно удивился.

Misaka10032 Oct 24 2018 at 14:19

А мне мозг «саентистом» подменил на «саентологом». Что, в принципе, почти то же самое.

+11

sterling239 Oct 24 2018 at 17:02

Это уже баян. Дата-сатанисты уже уходят, дата-сталинисты не все поймут. А в одс на новый год обещали подарки от дата-санта-клауса

+10

Vlad_fox Oct 25 2018 at 10:59

я же прочитал как датасаентологом :-)

kspshnik Oct 30 2018 at 16:23

дентасаентологом, бгг :)

LonelyCruiser Oct 24 2018 at 15:04

Вот что делает с людьми кризис среднего возраста животворящий :)

marsdenden Oct 25 2018 at 05:27

Еще один пост в поддержку повышения пенсионного возраста :)

Tantrido Oct 24 2018 at 15:14

С перерывами, я за год освоил более 30 курсов на Coursera

Круто! Я за год 1-2 курса на степике прохожу, а если интенсивно с дедлайнами — 2-3 месяца на курс (там курсы основательные), правда времени свободного не так много. Или на курсере курсы маленькие? ;) Получается на курс у Вас уходило неделя-полторы. Что это были за курсы?

johnpateha Oct 24 2018 at 16:07

Курсы там разные. Как правило от 4 недель при занятиях 2-6 часов в неделю. Были и те что можно было за день освоить и те, что пару месяцев надо было покопать с дымом из ушей.
Стоит самому посмотреть — подача западных курсов на голову лучше (имхо). Я раньше был совсем далек от образования, но от первого же курса вштырило.
Заодно и английский выучил :)

Rusllan Oct 24 2018 at 16:07

Присоединяюсь к вопросу о курсах. Интересно было бы посмотреть, если не на полный список, то хотя бы на те курсы, которые показались автору наиболее полезными.

johnpateha Oct 24 2018 at 16:13

В теме машинного обучения номер один — классический Machine learning by Andrew Ng
Ему много лет, но это системное погружение в тему на достаточную глубину.
Также хорошо зашел Mining massive datasets, game theory

Еще я слушал цикл Data science — тоже полезный, но он на R ориентирован, а сейчас более популярен питон. По статистике слушал много курсов но идеального не нашел (пришлось брать числом)

Могу смело рекомендовать цикл курсов по аналитике от Wharton — но это уже не датасайнс, а бизнес-аналитика.

bulavin Oct 25 2018 at 05:33

Книги читали по бизнес-аналитике? Что порекомендуете почитать по пути на работу и обратно? Гугл выдает массу книг среди которых трудно выбрать лучшие, так как тема хайповая и среди годных книг много мусора.

NihilSherrKhaine Oct 25 2018 at 07:38

Сделаю выжимку из парочки курсов, что проходил:
1) Deep Learning от Ынга
Я бы сказал, имеет краткую выжимку(с большего) ML от него же в первых 2 из 5 частей, к тому же рассчитана больше на технически подкованных ребят. (Там нет «можете не знать, что такое производная, и так поймёте»), 3 часть — всякие фичи-советы от Ынга насчёт обучения, 4 и 5 — некоторые попсовые технологии вплоть до 2016 года.

2) Machine Learning от Ынга (Hardcore edition)
На сайте engineering everywhere stanford есть курс по МЛу от Ынга в Стэнфорде. Со всеми их заданиями, тензорными вычислениями и всем-всем-всем. По сложности и полноте не сопоставимо.

3) Convex optimization от Stephan Boyd
На том же engineering everywhere, есть книга. Один из лучших курсов по оптимизации, который рекомендуют просто все, кому не лень, даже жуткие любители исконно русской литературы в математике.

Game theory, mining massive datasets — определённо стоит того, первое ближе к reinforcement learning, второе — к анализу данных непосредственно.

Наверное, закончу небольшой подборкой наиболее годных книг, а то выйдет целый пост, а не комментарий:

Computer Vision — Adrian Rosebrock (Хочет кто запиратить все 3 бандла — обращайтесь)

General — Yan Goodfellow (Классика, но она больше для тех, кто уже в теме и в математике хорош, не для новичков), как и Kevin Murphy (более подробно, всё ещё довольно хардкорно)
Существует книга на русском, я удивлён: «Погружение в мир нейронных сетей», 2018 год.

Reinforcement Learning — Richard Sutton, абсолютно всеми рекомендуется.

Vilaine Oct 26 2018 at 07:40

30 курсов за год — это с заданиями/сертификатами, платные? Или часть только прослушали?

johnpateha Oct 26 2018 at 07:43

Мне сертификаты не были нужны, но раньше и в бесплатном варианте были доступны все задания.

aPiks Oct 25 2018 at 12:00

Stepik такое дно… Я как-то решил подтянуть знания по алгоритмам и посмотреть курсы. Уснул на третьей минуте вступления, потом проснулся посмотрел первый урок и больше никогда не открывал. Просто работник Мейла без перерыва рассказывает что, куда и как, иногда прерываясь на «Выполните вот эту практику». Ни реального применения, ни как лучше подойти к обучению, ничего. И практику на самостоятельное выполнение дают без объяснения что и как использовать.
После курсов от Stepik, курсы Udemy кажутся идеальной площадкой для обучения. Тебе сначала рассказывают для чего это применить, потом рассказывают как применить, а потом показывают реализацию. И на самостоятельное выносят задания для закрепления. Видео по 10 минут. Не устаешь и учить интересно.

johnpateha Oct 25 2018 at 12:38

Про Stepik не скажу — не смотрел, но в целом всеми руками за — западные курсы на голову круче по подаче — и интереснее и лучше структурированы. Круто сначала понять зачем сабж, а уже потом погружаться в детали. А в советской школе преподавания часто наоборот.
Ну и важно закреплять курсы практикой на кэггле — это добавит куда больше. Решая конкретные кейсы приходится читать кучу статей и это уже не абстрактное чтение, а то, что потом применяешь и оно хорошо откладывается в голове. Ну и идеи других участников — не обязательно все велосипеды изобретать самому

Apatic Oct 25 2018 at 12:53

Причем тут степик в целом, если вы описываете отдельный курс?
Там есть шикарные курсы по статистике от Института Биоинформатики, например (лучше, чем многие курсы на курсере из тех, что я видел).

aPiks Oct 25 2018 at 19:24

Согласен, не стоило выражаться за весь ресурс в целом.
Но я думаю. что они должны как-то контролировать что у них там. По подаче, ни Java EE, ни алгоритмы ни многие другие курсы, которые я пытался смотреть, до Udemy не дотягивают. Там ребята какие-то более живые, начинают с основ и дают много практики, при этом объясняют как её правильно делать.

GreenElephant Oct 25 2018 at 18:40

На Stepik есть замечательные курсы по алгоритмам от Computer Science Center

Tantrido Oct 26 2018 at 01:33

Тоже нравятся, многие уже прошёл.

Tantrido Oct 26 2018 at 01:15

Оно тоже безплатное?

ded_Sergei Oct 24 2018 at 15:27

По ощущениям, выиграли при переходе в новую область знаний и работы? В мотивации, в деньгах, в интересных проектах?

tonyvolcano Oct 24 2018 at 16:13

Кстати да, интересно какая цель преследовалась. Занятие для души, или попытка нажить, то чего не было нажито за прошлые годы.

johnpateha Oct 24 2018 at 16:18

Определенно выиграл. С деньгами и до этого проблемы не было. А вот по мотивации и пониманию фронта работ лет на 10 вперед это явный прорыв. Круто когда работа совпадает с хобби и ты видишь ее практическую пользу и перспективы

marsdenden Oct 25 2018 at 05:30

Это да. Я только в 46 наконец-то совместил работу с хобби и уже два года наслаждаюсь работой и осваиваю новые хобби :)

Papasol Oct 26 2018 at 12:16

А если бы вы работали только удалённо, именно по теме машинного обучения, получилось бы у вас иметь тот же доход, что и сейчас?

johnpateha Oct 26 2018 at 12:18

Думаю, что пока нет — сначала надо наработать практики и авторитета, чтобы кто-то отдавал стоить модели на удаленный аутсорс. Хотя возможно, такое тоже есть

NihilSherrKhaine Oct 26 2018 at 12:50

Так-то на том же upwork среднестатистический МЛ парень получает около 50-60 долларов в час, т.е. 8000 в месяц. (Но это ребята, у которых в профиле 3+ лет опыта, возможно выдуманного.)

Apatic Oct 30 2018 at 11:29

Проблема только в том, что 50 долларов в час далеко не всегда дает 8000 в месяц.

barabanus Nov 3 2018 at 11:06

Для датасаентиста при 50 долларах в час можно получать и больше 8000 в месяц, ведь можно пойти на перекус не выключая таймтрекер, пока комп тренирует модель. Это программисту надо беспокоиться — включил таймер, выключил, в итоге из восьмичасового дня получается шестичасовой.

slava_k Oct 24 2018 at 21:28

Спасибо за то, что поделились опытом.

yarigpopov Oct 25 2018 at 02:05

Прекрасный мотивационный пост!

UFO just landed and posted this here

river-fall Oct 25 2018 at 11:25

300к/cек,

Карлсон не даст соврать :)

+11

UFO just landed and posted this here

xgbaggins Oct 25 2018 at 23:31

Конкретные цифры очевидно же зависят от локации. В Долине $100k не деньги, а где нибудь за мкадом предел всех мечтаний

Но в целом по моим ощущениям, меньше чем программистам. В крупных корпорациях data scientist чаще просто эвфемизм для тех кого раньше называли аналитиками.

UFO just landed and posted this here

xgbaggins Oct 26 2018 at 06:13

А я разве сказал что им $100k платят? Наоборот.

Тем не менее, по тому что я в своей конторе вижу, платят чуть похуже чем программистам, потому что это по сути просто аналитики. А программистов которые пилят data science нынче вроде модно называть скорее ML Engineer или как-то так. Зарплата соответственно повыше, но и требования тоже — не только sql гонять и модели графики презентации рисовать, но и уметь допиливать все благополучно до продакшна, например

uSasha Oct 26 2018 at 10:11

В мск 80К джуну, до 250-300К сильному синиору, дальше уже надо менеджить.

Но сильных спецов гораздо меньше чем сильных программистов, тк отрасль молодая.

xgbaggins Oct 26 2018 at 13:55

>дальше уже надо менеджить

Или просто свалить в страну где нормально ценят человеческий труд и получать 250-300K уже твёрдой валюты (в год), сеньёрам индивидуалам в фангах и безо всякого MLа еще больше платят

snizovtsev Oct 30 2018 at 22:36

250K реальны же только для долины, а в США визы (H1B) по лотерее даже если ты суперкрут. Поправьте меня, если ошибаюсь.

xgbaggins Oct 31 2018 at 00:17

Да, с первой попытки зайти может и не получится — желающих в последние несколько лет внезапно стало больше чем квот, но все же это не какое-то руслото и прочие лохотроны, вроде шансы были 1:3 в прошлом году. И потом, как вариант можно сначала поработать год на будущую контору где-нибудь в Европе, скажем в Швейцарии — тыщ 100-150+ там тоже вполне реально получать, а через год махнуть уже по L1-B как трансфер внутри конторы, безо всяких квот и лотерей.

-1

Sergey55 Oct 25 2018 at 06:43

Вот если б вы еще расписали какие курсы вы просмотрели, в каком порядке и ваши комментарии (стоит или не стоит смотреть). Был бы очень благодарен.

johnpateha Oct 25 2018 at 07:44

про курсы ответил чуть выше. Но одних курсов мало — дальше Кэггл — эти и практика и школа молодого бойца и обмен опытом

yanchick Oct 25 2018 at 07:14

Поддерживаю вопрос по курсам и книгам. Список того что проходили/читали и свои комментарии.

expertykt Oct 25 2018 at 07:39

По плану неизбежно придется встать на этот путь через год, в 50. Правда, бэк некоторый в статистике и программировании есть. Регаюсь на ОДС :)
Очень интересно и познавательно посмотреть ваш подход в задаче оценки московских квартир, моя специальность.

johnpateha Oct 25 2018 at 07:42

на форуме соревнование есть описание нашего решения
вот выступление на тренировке youtu.be/Eo4WMlcT7uo

Jahak Oct 25 2018 at 07:45

Было бы прекрасно, если бы вы поделились материалами. Что читали и читаете, какие курсы проходили. Спасибо!

johnpateha Oct 25 2018 at 07:45

GolosCD Oct 25 2018 at 10:15

Хотел бы я почитать статью с таким же заголовком, но с припиской, и ты не программист и не математик

johnpateha Oct 25 2018 at 10:19

Это был первый вариант названия :) Решил, что слишком тяжеловесно.
Моя математика закончилась на 2 курсе экономфака в 1992г. В жизни она практически не требуется, поэтому к текущему моменту мало что осталось — даже перемножение матриц пришлось осваивать заново. А производные и интегралы уже совсем не умею. Но жить без этого можно.
В датасайнс куда важнее статистика, а ее можно вспомнить/изучить в базовом объеме за 2-3 онлайн курса.

Feland Oct 25 2018 at 10:20

Признайтесь честно, что вы о многом недоговариваете, такой слаженный сладкий текст с грандиозными результатами, для человека за 40 не знакомого с программированием, это нечто впечатляющее.
«С перерывами, я за год освоил более 30 курсов на Coursera и уже не чувствовал себя инопланетянином в мире бигдаты и машинного обучения.», т.е. почти экстерном 2-3 курса в месяц, тут просто нет слов, вашей гиниальности позавидовали бы самые умные люди планеты.
А х да вопрос, где вы взяли более 24 часов в сутках, чтобы работать, заниматься семьей, отдыхать и проходить эти курсы.
Весь этот пост похож на пиар QIWi, какие гениальные сотрудники там работают.

johnpateha Oct 25 2018 at 10:33

Про пиар QIWI — эта статья переложение на русский моего выступления в Варшаве на кэгглконфе за 3 месяца до начала моей работы в QIWI. пруф — youtu.be/X3ljF4kAQ8Y
Это выступление послушало 100 человек в зале и неск сот в ютубе. А тут прочитало куда больше, поэтому спасибо компании, что помогла разместить пост. И да — QIWI действительно хорошая компания — мне есть с чем сравнивать.
Вы правы — время это серьезная проблема. Я был оч. дорогим консультантом и мог себе позволить выбирать проекты и работать не фуллтайм. А когда появились первые результаты и стало понятно, что шансы на работу есть, то проектов стало совсем мало, и работой стал кэггл. Для примера — на конкурсе по Сбербанку, где мы победили, мой режим работы — проснулся в 8 — включил комп, погнал копать данные, после полуночи выключил. И так месяц по 6-7 дней в неделю. Семья хоть и роптала, но в целом поддерживала, за что ей большое спасибо. Это не просто, но была цель. Я не гениальный, просто выбрал адекватную цель и ее добился.

Ну и еще пруф — мой профиль в линкдин — ru.linkedin.com/in/epatekha

Kamenevdn Oct 25 2018 at 10:57

Это многое объясняет. Я со своим графиком с трудом осилил первые 4 курса машинного обучения от Яндекса на курсере, а потом ушел на Udemy и далее довольно лениво и безрезультатно ковырял Kaggle. Поэтому 30 курсов на курсере за год и несколько соревнований — для меня прозвучали как художественная фантастика. Но да, во время обучения для себя отметил, что если бы можно было выделить хотя бы 3 полных дня в неделю на обучение, то результат был бы непропорционально больше. Ваш опыт это подтвердил. Спасибо за мотивационный пост.

johnpateha Oct 25 2018 at 11:27

Курс Яндекс+МФТИ построен как и все наше образование по принципу — выживут сильнейшие. Подача тяжелая, если бы я начинал с него, ничего бы не вышло. Западные курсы сильно отличаются подачей. И даже то, что английский в исполнении китайцев и индусов не оч. просто разобрвть, все равно их курсы заходили сильно лучше.
На курсере почти всегда есть субтитры — вначале оч. помогают. А потом втягиваешься и через неск месяцев обнаруживаешь, что можешь понимать многое без субтитров.

Kamenevdn Oct 25 2018 at 11:48

Да, про сильное отличие западных курсов я тоже, к сожалению, узнал на собственном опыте. Хотя сначала думал, что это я такой тугодум, что еле тянул курс яндекса… Потом уже понял, что ряд лекций там сделаны ну просто «наотвали» типа тех же нейронных сетей или обработки текста.
Но к сожалению, в моем случае, нескольких курсов и книг все равно не хватило для качественного перехода на Kaggle от Титаника и прочих новичковских датасетов до полноценного участия в актуальных соревнованиях. Но это, почти уверен, вопрос собственной лени и нехватки времени.

johnpateha Oct 25 2018 at 12:34

Совет — не стоит тратить время на учебные соревнования на Кэггле — надо сразу боевые. И не важно, что вначале будет слабый резалт — за это никто не осудит.
Зато там есть живое обсуждение, много советов от др. участников.
И куча бэйзлайнов — примеров кода, которые позволяют стартовать. Когда не знаешь за что хвататься, это отличная возможность начать, а дальше начинаешь улучшать ту часть, где есть идеи-знания.
И через какое-то время уже будет собственный пайплайн, который от соревнования к соревнованию будет становиться все лучше.
Это прокачивает круче любых курсов — базовые знания важны, но развивать их лучше на конкретных кейсах

Tsimur_S Oct 25 2018 at 10:57

Какие у вас были знания о machine learning до того как вы начали изучать? Какого уровня были познания в математике? Что пришлось вспоминать/изучать?
С какого курса на coursera вы начинали? Я так понимаю andrew ng, а потом цикл Data science? Какие были полезны какие нет. В общем столько вопросов и так мало ответов, а в статье, в основном, описывается kaggle.

johnpateha Oct 25 2018 at 11:31

Знаний не было никаких. Слышал про принцип — кормим черный ящик данными и ответами и он строит зависимости. И это наверное все. С математикой плохо — даже перемножение матриц пришлось вспоминать. Мне кажется, глубокое знание математики сейчас требуется, только если развивать технологии. Если же их просто использовать, то в них можно хорошо разобраться и без математики.
Я не смогу написать даже простой градиентный бустинг, но разорался как правильно с ним работать — этого достаточно для хороших результатов

SaM1808 Oct 25 2018 at 12:47

мой режим работы — проснулся в 8 — включил комп, погнал копать данные, после полуночи выключил. И так месяц по 6-7 дней в неделю. Семья хоть и роптала, но в целом поддерживала, за что ей большое спасибо.

Извините за офф, но я не перестаю удивляться, как авторам подобных постов (не только вам) удается все-таки воплощать в жизнь подобный график.
Ведь начало дня и у меня похоже… Проснулся в 6, на работе в 8-мь, а в 17:00, когда появляешься дома, обе мелкие дочери виснут мне на ноги и очень четко объясняют, что дальше папа будет жить по _их_ графику. :)

neyronius Oct 25 2018 at 13:40

В 40 лет, после 10 лет дорогого консалтинга дочери могут уже заканчивать элитную школу, а ты уже сможешь понять, что твоё время — это твоё время и ты никому ничего не должен.

LonelyCruiser Oct 25 2018 at 14:12

Это, кстати, к вопросу о том, когда легче учиться.

SaM1808 Oct 25 2018 at 14:45

Мне 38… :) Дети в школу пока только играют… так сложилось...:)

neyronius Oct 25 2018 at 14:59

Я всегда думал, что два ребёнка должны как-то больше хотеть играть друг с другом, а не с родителями. Наверно, это вопрос воспитания. Если играют в школу, то уже могут понять, что у папы тоже есть личное время. И время, потраченное на обучение вас — это инвестиция в будущее ваших детей. А так — час-два после работы через день задержаться, плюс видео-лекции в транспорте. Вариантов много.

mixaly4 Oct 25 2018 at 16:22

> Я всегда думал, что два ребёнка должны как-то больше хотеть играть друг с другом, а не с родителями.
Тоже так думал в своё время. Сейчас у меня трое и оказалось, что всё совсем не так :-) Но возможно это мой частный случай.

DmitrySpb79 Oct 25 2018 at 11:37

>> Признайтесь честно, что вы о многом недоговариваете

Это было и так ясно «между строк», понятно что уделить столько времени обучению можно было лишь имея достаточно и времени и денег. Ну так и автор не новичок уже. А опыт в смежной области значительно помогает при изучении других дисциплин. Но это все не просто, да, хотя дорогу осилит идущий.

Ведь проблема любого обучения не в том, что это непостижимый rocket science, а в том что учиться сложно чисто технически (деньги, семья, время), когда тебе 42 а не 22.

Но автору респект что поделился, для меня например это хорошая мотивация, пора наконец зарегистрироваться на coursera :)))

NihilSherrKhaine Oct 26 2018 at 13:27

Лично у меня выходило за день проходить курсы Imperial College London по математике для машинного обучения. То есть всю специализацию за 3 дня. Тратило часов 8 в день, при том, что к математике у меня только чрезвычайный талант, но знаний толком не было по приближенным темам.
Аналогичное +- распространяется на все прочие курсы кроме Яндекса\Мэйлру\МФТИ, я бы сказал, что их курсы на курсере самые времязатратные и зачастую лучше аналогов. (По плюсам от Яндекса — очень хорош, ВШЭ + Сан Диего алгоритмы — более полная версия того, что даёт Стэнфорд)
Так что за неделю вечерком по часику в день вполне возможно пройти целый курсик.

lyssenkoalex Oct 25 2018 at 10:44

не подскажите в какой последовательности лучше проходит курсы на Coursera новичку?

johnpateha Oct 25 2018 at 10:47

Начать стоит с Machine learning by Andrew Ng — отличный обзор мира машинного обучения. А дальше — искать, что лучше подойдет. Обычно курсы от топовых вузов типа стэнфорда оч. хороши
Все курсы можно смотреть бесплатно, если не нужен сертификат. Что-то не понравится, можно взять другой.

aavoron Oct 26 2018 at 01:41

а если с математикой слабо, так же, как у Вас тогда примерно?

johnpateha Oct 26 2018 at 07:50

Machine learning by Andrew Ng доступен и в этом случае. Там есть неск видео с мат обоснованиями, вполне подъемные, но автор сам предупреждает, что их можно пропустить.
Что-то из математики придется вспомнить/изучить, но если не задаваться целью создать новый алгоритм машинного обучения, то многое не требуется.
Больше надо упираться в статистику и изучать уже готовые библиотеки по ML

DES3 Oct 25 2018 at 10:49

Привет с предыдущей работы! Все удивляются твоему возрасту: не выглядишь ты на 40+.
Коллеги тут говорят, что John — это больше Иван, чем Женя. А какое у тебя мнение?

johnpateha Oct 25 2018 at 10:51

Молодость — она в голове. Я себя на 40+ и не ощущаю, но паспорт не обмануть :)

640509-040147 Oct 25 2018 at 11:13

На самом деле лично у меня создалось несколько демотивирующее настроение после прочтения поста. Хорошие соревновательные успехи, топовый ранг, позволяющие получать предложения де-факто без поиска оных, и при всем этом как разультат — трудоустройство в QIWI и уверенность, «что довольно скоро мы сможем превратить наши данные в прибыль для компании».
Ничего плохого о компании QIWI сказать не хочу. Однако это всего-лишь QIWI. И судя по процитированной фразе дата саенс им нужен «потому что у всех есть», а как есть использовать понимания еще нет.

DmitrySpb79 Oct 25 2018 at 11:32

Чего же тут демотивирующего. Я думаю, для автора работа в Qiwi не последний этап, и будучи в топе разных конкурсов можно иметь хорошие предложения о работе :)

Я сам планирую переход в data science, просто потому что всю жизнь клепать формы и get-запросы банально скучно. Нужно двигаться дальше, и деньги тут не самоцель.

Все упирается в свободное время, разумеется.

johnpateha Oct 25 2018 at 11:59

В России не так много компаний, которые лучше QIWI как работодателя — эт я не как сотрудник говорю, а как консультант, который поработал на многие из топа российских компаний. Есть что сравнить. Помимо многого другого даже пиво с пиццей выставляют по пятницам :)

В QIWI просто море данных. Раньше их юзали меньше, теперь тема стала более важной.
Я не могу раскрывать наши проекты, но это реальная гора денег в совсем недалеком будущем.
Профессионально для меня просто рай — возможность сделать с нуля из сырых данных готовые продукты, которые будут конкурировать на рынке. Возможность и учиться на практике и делать что-то реально полезное, что можно пощупать.

wildraid Oct 26 2018 at 00:01

А сколько сейчас примерно данных в QIWI в терабайтах? Есть ли какие-то наработки, чтобы считать модели параллельно на большом количестве ядер или серверов? Есть ли в этом необходимость?

Спасибо.

johnpateha Oct 26 2018 at 07:58

Данных оч. много, никто тотал не считал.
сырые данные агрегируются, фильтруются под задачу и в модель заходит куда меньший объем, который можно провернуть и на одном сервере. Хотя у того же бустинга есть вариант распараллеливания на неск серверов.
А для обработки исходных данных используем спарк-хадуп — тут как раз куча серверов параллельно лопатит сырую инфу.

QQsha Oct 25 2018 at 12:54

А каким железом вы пользовались во время первых своих соревнований?

johnpateha Oct 25 2018 at 12:59

Поначалу — ноутбук средней производительности (i5, 12 гб памяти)
Потом освоил гугл клауд — там на старте дают 300 баксов, которых при правильном подходе легко хватит на год соревнований (если без гпу)
В вытесняемом режиме машина с 4 ядрами и 26G оперативы стоит 5 центов в час — хватает на глаза почти для любой задачи. И всегда можно добавить

Romario21 Oct 25 2018 at 13:20

Меня всегда интересовал практический аспект применения знаний.
Как ваши знания помогли решить конкретные проблемы, конкретной компании?
Последние год — два все пишут, о том насколько это круто, как это здорого.
Но нет никого кто может конкретно сказать в бабле(на реализацию затратили столько, в результате внедрения компания получила бабла столько)

johnpateha Oct 25 2018 at 13:51

Я — экономист и все меряю через бабло и эк эффект.

В банк я принес градиентный бустинг, эта технология позволяет построить модели с лучшим качеством, чем логрег. Построил несколько скоринговых моделей. В скоринге — лучшая модель — меньше дефолтов, больше выдач кредитов — и то и другое конкретное бабло

В QIWI также есть как заработать на больших данных. Первые прикидки показывают, что мой текущий проект окупится через неск месяцев после выхода на рынок — есть понятный эффект и от экономии тек. расходов и увеличение доходов. Детали увы не могу раскрыть.

arturpanteleev Oct 25 2018 at 13:48

Извините

gotz Oct 25 2018 at 13:51

Хороший кейс. Вы в итоге освоили какой то стек для программирования дата-задачек вроде Python / Pandas?

johnpateha Oct 25 2018 at 13:53

Так вышло, что я начал с R и до сих пор он мне ближе, чем питон. Кажется, что для ресеча он лучше.
Но по работе, как и везде, больше востребован питон, поэтому осваиваю и его потихоньку.

khrisanfov Oct 25 2018 at 15:21

Вы предлагаете отказаться от отложенной выборки в пользу кросс-валидации. На Kaggle это может отлично работает, но когда данных много все начинает работать медленно, особенно в бустингах типа LightGBM. Еще минус кросс-валидации в том что в конечном обучении на всех данных не факт что вы получите хорошую модель, алгоритм может как переобучиться так и не сойтись (недообучиться). Как вы в итоге отбираете модель на данных QIWI? Неужели кросс-валидация? Поделитесь пожалуйста опытом.

johnpateha Oct 25 2018 at 19:06

Тюнить модель с градиентным бустингом на отложенной выборке — прямая дорога к переобучению. Для других методов еще можно как-то надеяться, что переобучение будет несильным, но не в случае с бустингом. Либо сильно недоучивать модель.
Если данных безумно много, лучший вариант — сделать сэмпл на этапе отбора переменных и подбора параметров, и уже более-менее финальный вариант доводить на полной, хотя если мы говорим о сотнях миллионов записей, то не факт, что от увеличения выборки качество модели существенно вырастет.
В QIWI я прививаю этот же подход — пока получается.

Недавно было соревнование на выявление фрода в кликах — там трейн был 350 млн записей.
Подход — тюнинг на сэмпле, финальная модель на полном, вместе с кросс-валидацией отлично зашли — наша команда заняла 8 место

khrisanfov Oct 25 2018 at 19:19

johnpateha Как определяете силу переобучения? По разнице целевой метрики на трейне и валидации?

johnpateha Oct 25 2018 at 21:20

В кэггле с этим просто — насколько изменился (как правило просел) результат на прайвате по сравнению с пабликом в сравнении с остальными. Собственно кэггл это во многом про правильную валидацию — когда оч. часто отличия между командами находятся в пределах 4 знака после запятой, довольно непростая задача улучшать модель на такие крохи без переобучения.

В банке иначе — там распределение более-менее стабильное, поэтому можно мерить проседание на новых временных периодах, либо ранних просрочках. Много раз слышал в банке тезис, что бустинг круто, но переобучается. Именно в силу того, что продолжают как и для логрега использовать отложенную выборку. Моей первой банковской модели пришлось вылежаться неск. месяцев, на которых затем проверили предикты, убедились, что результат стабилен и только потом пустили в пром.

khrisanfov Oct 25 2018 at 21:23

Понятно, спасибо.

RomanPyr Oct 27 2018 at 07:39

Когда комментарий существенно ценнее поста ;)

ustas33 Oct 25 2018 at 15:39

Спасибо за мотивационный пост.
Сейчас примерно в таком же положении. Учу GCP+AWS со специализацией в AI.
От себя могу порекомендовать подписку на http://www.safaribooksonline.com с подпиской на книги и курсы. Скидка на подписку первая строка в google.

SOSISKA13 Oct 25 2018 at 18:40

Отменный пост!

Спасибо огроменное!
Единственное — перекосило, когда про Сантандер банк прочитал. Они мне закинули за тачку 18.79% годовых на шесть лет, потому что кредитной истории не было :)

khrisanfov Oct 26 2018 at 02:12

И ты взял? :) Я даже про такой банк не слышал.

SOSISKA13 Oct 26 2018 at 12:07

Да. Это во Флориде. Жажда камаро, первая машина, новая… конечно взял) уже выплатил и поменял)) Щас уже умнее)

razielvamp Oct 26 2018 at 08:47

Как стать датасайнтистом, если тебе за 40 и ты не программист

пробежавшись глазами по статье так и не понял, где связь между датасайнтистом и программистом/математиком. Для меня, человека несведущего, представленные в статье термины больше на термины маркетологов похожи. Ожидал увидеть что-то типа «матожидание», «медиана», «среднеквадратическое отклонение», но похоже, что в современном мире статистики и анализа это атавизмы.

Ну ваша предыдущая деятельность, как мне кажется, к новой работе ближе чем деятельность программиста/инженера/математика. Так что, есть ли здесь коренной перелом?

johnpateha Oct 26 2018 at 10:31

Я и хотел донести мысль, что использование новых технологий работы с большими данными, машинного обучения и тд — это уже не поляна только математиков и пришло время аналитикам ее осваивать. Отрасль пока считает иначе, но она ошибается.
И для меня это серьезный перелом — раньше моя поляна была только бумажки, теперь же я своими руками создаю модели. И то и другое направлено на повышение эффективности бизнеса, но характер работы отличается.
Не менее важно — я поменял рынок для своих услуг — раньше это были крупные компании, на деятельность которых так или иначе влияют текущие проблемы нашего государства, что в конечном итоге сказывалось и на проектах (больше бюрократии, избегание ответственности и тд). Теперь же я более независим от влияния госполитики.
Ну и вопрос развития — в пред. статусе я добился оч. многого и проектов с большой новизной становилось все меньше и меньше, а работа по шаблону драйвит куда меньше. Пока для меня построение моделей еще и хобби — это и крутое упражнение для мозга и стимул постоянно учиться. Когда-то это пройдет, но на несколько лет вперед драйв обеспечен.