Pull to refresh

Comments 98

Как стать датасайнтистом
Прочитал «дантистом». Сильно удивился.
А мне мозг «саентистом» подменил на «саентологом». Что, в принципе, почти то же самое.
Это уже баян. Дата-сатанисты уже уходят, дата-сталинисты не все поймут. А в одс на новый год обещали подарки от дата-санта-клауса
я же прочитал как датасаентологом :-)
дентасаентологом, бгг :)
Вот что делает с людьми кризис среднего возраста животворящий :)

Еще один пост в поддержку повышения пенсионного возраста :)

С перерывами, я за год освоил более 30 курсов на Coursera
Круто! Я за год 1-2 курса на степике прохожу, а если интенсивно с дедлайнами — 2-3 месяца на курс (там курсы основательные), правда времени свободного не так много. Или на курсере курсы маленькие? ;) Получается на курс у Вас уходило неделя-полторы. Что это были за курсы?
Курсы там разные. Как правило от 4 недель при занятиях 2-6 часов в неделю. Были и те что можно было за день освоить и те, что пару месяцев надо было покопать с дымом из ушей.
Стоит самому посмотреть — подача западных курсов на голову лучше (имхо). Я раньше был совсем далек от образования, но от первого же курса вштырило.
Заодно и английский выучил :)
Присоединяюсь к вопросу о курсах. Интересно было бы посмотреть, если не на полный список, то хотя бы на те курсы, которые показались автору наиболее полезными.
В теме машинного обучения номер один — классический Machine learning by Andrew Ng
Ему много лет, но это системное погружение в тему на достаточную глубину.
Также хорошо зашел Mining massive datasets, game theory

Еще я слушал цикл Data science — тоже полезный, но он на R ориентирован, а сейчас более популярен питон. По статистике слушал много курсов но идеального не нашел (пришлось брать числом)

Могу смело рекомендовать цикл курсов по аналитике от Wharton — но это уже не датасайнс, а бизнес-аналитика.
Книги читали по бизнес-аналитике? Что порекомендуете почитать по пути на работу и обратно? Гугл выдает массу книг среди которых трудно выбрать лучшие, так как тема хайповая и среди годных книг много мусора.
Сделаю выжимку из парочки курсов, что проходил:
1) Deep Learning от Ынга
Я бы сказал, имеет краткую выжимку(с большего) ML от него же в первых 2 из 5 частей, к тому же рассчитана больше на технически подкованных ребят. (Там нет «можете не знать, что такое производная, и так поймёте»), 3 часть — всякие фичи-советы от Ынга насчёт обучения, 4 и 5 — некоторые попсовые технологии вплоть до 2016 года.

2) Machine Learning от Ынга (Hardcore edition)
На сайте engineering everywhere stanford есть курс по МЛу от Ынга в Стэнфорде. Со всеми их заданиями, тензорными вычислениями и всем-всем-всем. По сложности и полноте не сопоставимо.

3) Convex optimization от Stephan Boyd
На том же engineering everywhere, есть книга. Один из лучших курсов по оптимизации, который рекомендуют просто все, кому не лень, даже жуткие любители исконно русской литературы в математике.

Game theory, mining massive datasets — определённо стоит того, первое ближе к reinforcement learning, второе — к анализу данных непосредственно.

Наверное, закончу небольшой подборкой наиболее годных книг, а то выйдет целый пост, а не комментарий:

Computer Vision — Adrian Rosebrock (Хочет кто запиратить все 3 бандла — обращайтесь)

General — Yan Goodfellow (Классика, но она больше для тех, кто уже в теме и в математике хорош, не для новичков), как и Kevin Murphy (более подробно, всё ещё довольно хардкорно)
Существует книга на русском, я удивлён: «Погружение в мир нейронных сетей», 2018 год.

Reinforcement Learning — Richard Sutton, абсолютно всеми рекомендуется.

30 курсов за год — это с заданиями/сертификатами, платные? Или часть только прослушали?
Мне сертификаты не были нужны, но раньше и в бесплатном варианте были доступны все задания.
Stepik такое дно… Я как-то решил подтянуть знания по алгоритмам и посмотреть курсы. Уснул на третьей минуте вступления, потом проснулся посмотрел первый урок и больше никогда не открывал. Просто работник Мейла без перерыва рассказывает что, куда и как, иногда прерываясь на «Выполните вот эту практику». Ни реального применения, ни как лучше подойти к обучению, ничего. И практику на самостоятельное выполнение дают без объяснения что и как использовать.
После курсов от Stepik, курсы Udemy кажутся идеальной площадкой для обучения. Тебе сначала рассказывают для чего это применить, потом рассказывают как применить, а потом показывают реализацию. И на самостоятельное выносят задания для закрепления. Видео по 10 минут. Не устаешь и учить интересно.
Про Stepik не скажу — не смотрел, но в целом всеми руками за — западные курсы на голову круче по подаче — и интереснее и лучше структурированы. Круто сначала понять зачем сабж, а уже потом погружаться в детали. А в советской школе преподавания часто наоборот.
Ну и важно закреплять курсы практикой на кэггле — это добавит куда больше. Решая конкретные кейсы приходится читать кучу статей и это уже не абстрактное чтение, а то, что потом применяешь и оно хорошо откладывается в голове. Ну и идеи других участников — не обязательно все велосипеды изобретать самому
Причем тут степик в целом, если вы описываете отдельный курс?
Там есть шикарные курсы по статистике от Института Биоинформатики, например (лучше, чем многие курсы на курсере из тех, что я видел).
Согласен, не стоило выражаться за весь ресурс в целом.
Но я думаю. что они должны как-то контролировать что у них там. По подаче, ни Java EE, ни алгоритмы ни многие другие курсы, которые я пытался смотреть, до Udemy не дотягивают. Там ребята какие-то более живые, начинают с основ и дают много практики, при этом объясняют как её правильно делать.
На Stepik есть замечательные курсы по алгоритмам от Computer Science Center
Тоже нравятся, многие уже прошёл.
По ощущениям, выиграли при переходе в новую область знаний и работы? В мотивации, в деньгах, в интересных проектах?
Кстати да, интересно какая цель преследовалась. Занятие для души, или попытка нажить, то чего не было нажито за прошлые годы.
Определенно выиграл. С деньгами и до этого проблемы не было. А вот по мотивации и пониманию фронта работ лет на 10 вперед это явный прорыв. Круто когда работа совпадает с хобби и ты видишь ее практическую пользу и перспективы

Это да. Я только в 46 наконец-то совместил работу с хобби и уже два года наслаждаюсь работой и осваиваю новые хобби :)

А если бы вы работали только удалённо, именно по теме машинного обучения, получилось бы у вас иметь тот же доход, что и сейчас?
Думаю, что пока нет — сначала надо наработать практики и авторитета, чтобы кто-то отдавал стоить модели на удаленный аутсорс. Хотя возможно, такое тоже есть
Так-то на том же upwork среднестатистический МЛ парень получает около 50-60 долларов в час, т.е. 8000 в месяц. (Но это ребята, у которых в профиле 3+ лет опыта, возможно выдуманного.)
Проблема только в том, что 50 долларов в час далеко не всегда дает 8000 в месяц.
Для датасаентиста при 50 долларах в час можно получать и больше 8000 в месяц, ведь можно пойти на перекус не выключая таймтрекер, пока комп тренирует модель. Это программисту надо беспокоиться — включил таймер, выключил, в итоге из восьмичасового дня получается шестичасовой.
UFO just landed and posted this here
300к/cек,
Карлсон не даст соврать :)
image

UFO just landed and posted this here
Конкретные цифры очевидно же зависят от локации. В Долине $100k не деньги, а где нибудь за мкадом предел всех мечтаний

Но в целом по моим ощущениям, меньше чем программистам. В крупных корпорациях data scientist чаще просто эвфемизм для тех кого раньше называли аналитиками.
UFO just landed and posted this here
А я разве сказал что им $100k платят? Наоборот.

Тем не менее, по тому что я в своей конторе вижу, платят чуть похуже чем программистам, потому что это по сути просто аналитики. А программистов которые пилят data science нынче вроде модно называть скорее ML Engineer или как-то так. Зарплата соответственно повыше, но и требования тоже — не только sql гонять и модели графики презентации рисовать, но и уметь допиливать все благополучно до продакшна, например
В мск 80К джуну, до 250-300К сильному синиору, дальше уже надо менеджить.

Но сильных спецов гораздо меньше чем сильных программистов, тк отрасль молодая.
>дальше уже надо менеджить

Или просто свалить в страну где нормально ценят человеческий труд и получать 250-300K уже твёрдой валюты (в год), сеньёрам индивидуалам в фангах и безо всякого MLа еще больше платят

250K реальны же только для долины, а в США визы (H1B) по лотерее даже если ты суперкрут. Поправьте меня, если ошибаюсь.

Да, с первой попытки зайти может и не получится — желающих в последние несколько лет внезапно стало больше чем квот, но все же это не какое-то руслото и прочие лохотроны, вроде шансы были 1:3 в прошлом году. И потом, как вариант можно сначала поработать год на будущую контору где-нибудь в Европе, скажем в Швейцарии — тыщ 100-150+ там тоже вполне реально получать, а через год махнуть уже по L1-B как трансфер внутри конторы, безо всяких квот и лотерей.
Вот если б вы еще расписали какие курсы вы просмотрели, в каком порядке и ваши комментарии (стоит или не стоит смотреть). Был бы очень благодарен.
про курсы ответил чуть выше. Но одних курсов мало — дальше Кэггл — эти и практика и школа молодого бойца и обмен опытом

Поддерживаю вопрос по курсам и книгам. Список того что проходили/читали и свои комментарии.

По плану неизбежно придется встать на этот путь через год, в 50. Правда, бэк некоторый в статистике и программировании есть. Регаюсь на ОДС :)
Очень интересно и познавательно посмотреть ваш подход в задаче оценки московских квартир, моя специальность.
на форуме соревнование есть описание нашего решения
вот выступление на тренировке youtu.be/Eo4WMlcT7uo
Было бы прекрасно, если бы вы поделились материалами. Что читали и читаете, какие курсы проходили. Спасибо!
про курсы ответил чуть выше. Но одних курсов мало — дальше Кэггл — эти и практика и школа молодого бойца и обмен опытом
Хотел бы я почитать статью с таким же заголовком, но с припиской, и ты не программист и не математик
Это был первый вариант названия :) Решил, что слишком тяжеловесно.
Моя математика закончилась на 2 курсе экономфака в 1992г. В жизни она практически не требуется, поэтому к текущему моменту мало что осталось — даже перемножение матриц пришлось осваивать заново. А производные и интегралы уже совсем не умею. Но жить без этого можно.
В датасайнс куда важнее статистика, а ее можно вспомнить/изучить в базовом объеме за 2-3 онлайн курса.
Признайтесь честно, что вы о многом недоговариваете, такой слаженный сладкий текст с грандиозными результатами, для человека за 40 не знакомого с программированием, это нечто впечатляющее.
«С перерывами, я за год освоил более 30 курсов на Coursera и уже не чувствовал себя инопланетянином в мире бигдаты и машинного обучения.», т.е. почти экстерном 2-3 курса в месяц, тут просто нет слов, вашей гиниальности позавидовали бы самые умные люди планеты.
А х да вопрос, где вы взяли более 24 часов в сутках, чтобы работать, заниматься семьей, отдыхать и проходить эти курсы.
Весь этот пост похож на пиар QIWi, какие гениальные сотрудники там работают.
Про пиар QIWI — эта статья переложение на русский моего выступления в Варшаве на кэгглконфе за 3 месяца до начала моей работы в QIWI. пруф — youtu.be/X3ljF4kAQ8Y
Это выступление послушало 100 человек в зале и неск сот в ютубе. А тут прочитало куда больше, поэтому спасибо компании, что помогла разместить пост. И да — QIWI действительно хорошая компания — мне есть с чем сравнивать.
Вы правы — время это серьезная проблема. Я был оч. дорогим консультантом и мог себе позволить выбирать проекты и работать не фуллтайм. А когда появились первые результаты и стало понятно, что шансы на работу есть, то проектов стало совсем мало, и работой стал кэггл. Для примера — на конкурсе по Сбербанку, где мы победили, мой режим работы — проснулся в 8 — включил комп, погнал копать данные, после полуночи выключил. И так месяц по 6-7 дней в неделю. Семья хоть и роптала, но в целом поддерживала, за что ей большое спасибо. Это не просто, но была цель. Я не гениальный, просто выбрал адекватную цель и ее добился.

Ну и еще пруф — мой профиль в линкдин — ru.linkedin.com/in/epatekha
Это многое объясняет. Я со своим графиком с трудом осилил первые 4 курса машинного обучения от Яндекса на курсере, а потом ушел на Udemy и далее довольно лениво и безрезультатно ковырял Kaggle. Поэтому 30 курсов на курсере за год и несколько соревнований — для меня прозвучали как художественная фантастика. Но да, во время обучения для себя отметил, что если бы можно было выделить хотя бы 3 полных дня в неделю на обучение, то результат был бы непропорционально больше. Ваш опыт это подтвердил. Спасибо за мотивационный пост.
Курс Яндекс+МФТИ построен как и все наше образование по принципу — выживут сильнейшие. Подача тяжелая, если бы я начинал с него, ничего бы не вышло. Западные курсы сильно отличаются подачей. И даже то, что английский в исполнении китайцев и индусов не оч. просто разобрвть, все равно их курсы заходили сильно лучше.
На курсере почти всегда есть субтитры — вначале оч. помогают. А потом втягиваешься и через неск месяцев обнаруживаешь, что можешь понимать многое без субтитров.
Да, про сильное отличие западных курсов я тоже, к сожалению, узнал на собственном опыте. Хотя сначала думал, что это я такой тугодум, что еле тянул курс яндекса… Потом уже понял, что ряд лекций там сделаны ну просто «наотвали» типа тех же нейронных сетей или обработки текста.
Но к сожалению, в моем случае, нескольких курсов и книг все равно не хватило для качественного перехода на Kaggle от Титаника и прочих новичковских датасетов до полноценного участия в актуальных соревнованиях. Но это, почти уверен, вопрос собственной лени и нехватки времени.
Совет — не стоит тратить время на учебные соревнования на Кэггле — надо сразу боевые. И не важно, что вначале будет слабый резалт — за это никто не осудит.
Зато там есть живое обсуждение, много советов от др. участников.
И куча бэйзлайнов — примеров кода, которые позволяют стартовать. Когда не знаешь за что хвататься, это отличная возможность начать, а дальше начинаешь улучшать ту часть, где есть идеи-знания.
И через какое-то время уже будет собственный пайплайн, который от соревнования к соревнованию будет становиться все лучше.
Это прокачивает круче любых курсов — базовые знания важны, но развивать их лучше на конкретных кейсах
Какие у вас были знания о machine learning до того как вы начали изучать? Какого уровня были познания в математике? Что пришлось вспоминать/изучать?
С какого курса на coursera вы начинали? Я так понимаю andrew ng, а потом цикл Data science? Какие были полезны какие нет. В общем столько вопросов и так мало ответов, а в статье, в основном, описывается kaggle.
Знаний не было никаких. Слышал про принцип — кормим черный ящик данными и ответами и он строит зависимости. И это наверное все. С математикой плохо — даже перемножение матриц пришлось вспоминать. Мне кажется, глубокое знание математики сейчас требуется, только если развивать технологии. Если же их просто использовать, то в них можно хорошо разобраться и без математики.
Я не смогу написать даже простой градиентный бустинг, но разорался как правильно с ним работать — этого достаточно для хороших результатов
мой режим работы — проснулся в 8 — включил комп, погнал копать данные, после полуночи выключил. И так месяц по 6-7 дней в неделю. Семья хоть и роптала, но в целом поддерживала, за что ей большое спасибо.

Извините за офф, но я не перестаю удивляться, как авторам подобных постов (не только вам) удается все-таки воплощать в жизнь подобный график.
Ведь начало дня и у меня похоже… Проснулся в 6, на работе в 8-мь, а в 17:00, когда появляешься дома, обе мелкие дочери виснут мне на ноги и очень четко объясняют, что дальше папа будет жить по _их_ графику. :)
В 40 лет, после 10 лет дорогого консалтинга дочери могут уже заканчивать элитную школу, а ты уже сможешь понять, что твоё время — это твоё время и ты никому ничего не должен.
Это, кстати, к вопросу о том, когда легче учиться.
Мне 38… :) Дети в школу пока только играют… так сложилось...:)
Я всегда думал, что два ребёнка должны как-то больше хотеть играть друг с другом, а не с родителями. Наверно, это вопрос воспитания. Если играют в школу, то уже могут понять, что у папы тоже есть личное время. И время, потраченное на обучение вас — это инвестиция в будущее ваших детей. А так — час-два после работы через день задержаться, плюс видео-лекции в транспорте. Вариантов много.
> Я всегда думал, что два ребёнка должны как-то больше хотеть играть друг с другом, а не с родителями.
Тоже так думал в своё время. Сейчас у меня трое и оказалось, что всё совсем не так :-) Но возможно это мой частный случай.
>> Признайтесь честно, что вы о многом недоговариваете

Это было и так ясно «между строк», понятно что уделить столько времени обучению можно было лишь имея достаточно и времени и денег. Ну так и автор не новичок уже. А опыт в смежной области значительно помогает при изучении других дисциплин. Но это все не просто, да, хотя дорогу осилит идущий.

Ведь проблема любого обучения не в том, что это непостижимый rocket science, а в том что учиться сложно чисто технически (деньги, семья, время), когда тебе 42 а не 22.

Но автору респект что поделился, для меня например это хорошая мотивация, пора наконец зарегистрироваться на coursera :)))
Лично у меня выходило за день проходить курсы Imperial College London по математике для машинного обучения. То есть всю специализацию за 3 дня. Тратило часов 8 в день, при том, что к математике у меня только чрезвычайный талант, но знаний толком не было по приближенным темам.
Аналогичное +- распространяется на все прочие курсы кроме Яндекса\Мэйлру\МФТИ, я бы сказал, что их курсы на курсере самые времязатратные и зачастую лучше аналогов. (По плюсам от Яндекса — очень хорош, ВШЭ + Сан Диего алгоритмы — более полная версия того, что даёт Стэнфорд)
Так что за неделю вечерком по часику в день вполне возможно пройти целый курсик.
не подскажите в какой последовательности лучше проходит курсы на Coursera новичку?
Начать стоит с Machine learning by Andrew Ng — отличный обзор мира машинного обучения. А дальше — искать, что лучше подойдет. Обычно курсы от топовых вузов типа стэнфорда оч. хороши
Все курсы можно смотреть бесплатно, если не нужен сертификат. Что-то не понравится, можно взять другой.
а если с математикой слабо, так же, как у Вас тогда примерно?
Machine learning by Andrew Ng доступен и в этом случае. Там есть неск видео с мат обоснованиями, вполне подъемные, но автор сам предупреждает, что их можно пропустить.
Что-то из математики придется вспомнить/изучить, но если не задаваться целью создать новый алгоритм машинного обучения, то многое не требуется.
Больше надо упираться в статистику и изучать уже готовые библиотеки по ML
Привет с предыдущей работы! Все удивляются твоему возрасту: не выглядишь ты на 40+.
Коллеги тут говорят, что John — это больше Иван, чем Женя. А какое у тебя мнение?
Молодость — она в голове. Я себя на 40+ и не ощущаю, но паспорт не обмануть :)
На самом деле лично у меня создалось несколько демотивирующее настроение после прочтения поста. Хорошие соревновательные успехи, топовый ранг, позволяющие получать предложения де-факто без поиска оных, и при всем этом как разультат — трудоустройство в QIWI и уверенность, «что довольно скоро мы сможем превратить наши данные в прибыль для компании».
Ничего плохого о компании QIWI сказать не хочу. Однако это всего-лишь QIWI. И судя по процитированной фразе дата саенс им нужен «потому что у всех есть», а как есть использовать понимания еще нет.
Чего же тут демотивирующего. Я думаю, для автора работа в Qiwi не последний этап, и будучи в топе разных конкурсов можно иметь хорошие предложения о работе :)

Я сам планирую переход в data science, просто потому что всю жизнь клепать формы и get-запросы банально скучно. Нужно двигаться дальше, и деньги тут не самоцель.

Все упирается в свободное время, разумеется.
В России не так много компаний, которые лучше QIWI как работодателя — эт я не как сотрудник говорю, а как консультант, который поработал на многие из топа российских компаний. Есть что сравнить. Помимо многого другого даже пиво с пиццей выставляют по пятницам :)

В QIWI просто море данных. Раньше их юзали меньше, теперь тема стала более важной.
Я не могу раскрывать наши проекты, но это реальная гора денег в совсем недалеком будущем.
Профессионально для меня просто рай — возможность сделать с нуля из сырых данных готовые продукты, которые будут конкурировать на рынке. Возможность и учиться на практике и делать что-то реально полезное, что можно пощупать.
А сколько сейчас примерно данных в QIWI в терабайтах? Есть ли какие-то наработки, чтобы считать модели параллельно на большом количестве ядер или серверов? Есть ли в этом необходимость?

Спасибо.
Данных оч. много, никто тотал не считал.
сырые данные агрегируются, фильтруются под задачу и в модель заходит куда меньший объем, который можно провернуть и на одном сервере. Хотя у того же бустинга есть вариант распараллеливания на неск серверов.
А для обработки исходных данных используем спарк-хадуп — тут как раз куча серверов параллельно лопатит сырую инфу.
А каким железом вы пользовались во время первых своих соревнований?
Поначалу — ноутбук средней производительности (i5, 12 гб памяти)
Потом освоил гугл клауд — там на старте дают 300 баксов, которых при правильном подходе легко хватит на год соревнований (если без гпу)
В вытесняемом режиме машина с 4 ядрами и 26G оперативы стоит 5 центов в час — хватает на глаза почти для любой задачи. И всегда можно добавить
Меня всегда интересовал практический аспект применения знаний.
Как ваши знания помогли решить конкретные проблемы, конкретной компании?
Последние год — два все пишут, о том насколько это круто, как это здорого.
Но нет никого кто может конкретно сказать в бабле(на реализацию затратили столько, в результате внедрения компания получила бабла столько)
Я — экономист и все меряю через бабло и эк эффект.

В банк я принес градиентный бустинг, эта технология позволяет построить модели с лучшим качеством, чем логрег. Построил несколько скоринговых моделей. В скоринге — лучшая модель — меньше дефолтов, больше выдач кредитов — и то и другое конкретное бабло

В QIWI также есть как заработать на больших данных. Первые прикидки показывают, что мой текущий проект окупится через неск месяцев после выхода на рынок — есть понятный эффект и от экономии тек. расходов и увеличение доходов. Детали увы не могу раскрыть.

Хороший кейс. Вы в итоге освоили какой то стек для программирования дата-задачек вроде Python / Pandas?
Так вышло, что я начал с R и до сих пор он мне ближе, чем питон. Кажется, что для ресеча он лучше.
Но по работе, как и везде, больше востребован питон, поэтому осваиваю и его потихоньку.
Вы предлагаете отказаться от отложенной выборки в пользу кросс-валидации. На Kaggle это может отлично работает, но когда данных много все начинает работать медленно, особенно в бустингах типа LightGBM. Еще минус кросс-валидации в том что в конечном обучении на всех данных не факт что вы получите хорошую модель, алгоритм может как переобучиться так и не сойтись (недообучиться). Как вы в итоге отбираете модель на данных QIWI? Неужели кросс-валидация? Поделитесь пожалуйста опытом.
Тюнить модель с градиентным бустингом на отложенной выборке — прямая дорога к переобучению. Для других методов еще можно как-то надеяться, что переобучение будет несильным, но не в случае с бустингом. Либо сильно недоучивать модель.
Если данных безумно много, лучший вариант — сделать сэмпл на этапе отбора переменных и подбора параметров, и уже более-менее финальный вариант доводить на полной, хотя если мы говорим о сотнях миллионов записей, то не факт, что от увеличения выборки качество модели существенно вырастет.
В QIWI я прививаю этот же подход — пока получается.

Недавно было соревнование на выявление фрода в кликах — там трейн был 350 млн записей.
Подход — тюнинг на сэмпле, финальная модель на полном, вместе с кросс-валидацией отлично зашли — наша команда заняла 8 место
johnpateha Как определяете силу переобучения? По разнице целевой метрики на трейне и валидации?
В кэггле с этим просто — насколько изменился (как правило просел) результат на прайвате по сравнению с пабликом в сравнении с остальными. Собственно кэггл это во многом про правильную валидацию — когда оч. часто отличия между командами находятся в пределах 4 знака после запятой, довольно непростая задача улучшать модель на такие крохи без переобучения.

В банке иначе — там распределение более-менее стабильное, поэтому можно мерить проседание на новых временных периодах, либо ранних просрочках. Много раз слышал в банке тезис, что бустинг круто, но переобучается. Именно в силу того, что продолжают как и для логрега использовать отложенную выборку. Моей первой банковской модели пришлось вылежаться неск. месяцев, на которых затем проверили предикты, убедились, что результат стабилен и только потом пустили в пром.
Когда комментарий существенно ценнее поста ;)

Спасибо за мотивационный пост.
Сейчас примерно в таком же положении. Учу GCP+AWS со специализацией в AI.
От себя могу порекомендовать подписку на http://www.safaribooksonline.com с подпиской на книги и курсы. Скидка на подписку первая строка в google.

Отменный пост!

Спасибо огроменное!
Единственное — перекосило, когда про Сантандер банк прочитал. Они мне закинули за тачку 18.79% годовых на шесть лет, потому что кредитной истории не было :)
И ты взял? :) Я даже про такой банк не слышал.

Да. Это во Флориде. Жажда камаро, первая машина, новая… конечно взял) уже выплатил и поменял)) Щас уже умнее)

Как стать датасайнтистом, если тебе за 40 и ты не программист


пробежавшись глазами по статье так и не понял, где связь между датасайнтистом и программистом/математиком. Для меня, человека несведущего, представленные в статье термины больше на термины маркетологов похожи. Ожидал увидеть что-то типа «матожидание», «медиана», «среднеквадратическое отклонение», но похоже, что в современном мире статистики и анализа это атавизмы.

Ну ваша предыдущая деятельность, как мне кажется, к новой работе ближе чем деятельность программиста/инженера/математика. Так что, есть ли здесь коренной перелом?
Я и хотел донести мысль, что использование новых технологий работы с большими данными, машинного обучения и тд — это уже не поляна только математиков и пришло время аналитикам ее осваивать. Отрасль пока считает иначе, но она ошибается.
И для меня это серьезный перелом — раньше моя поляна была только бумажки, теперь же я своими руками создаю модели. И то и другое направлено на повышение эффективности бизнеса, но характер работы отличается.
Не менее важно — я поменял рынок для своих услуг — раньше это были крупные компании, на деятельность которых так или иначе влияют текущие проблемы нашего государства, что в конечном итоге сказывалось и на проектах (больше бюрократии, избегание ответственности и тд). Теперь же я более независим от влияния госполитики.
Ну и вопрос развития — в пред. статусе я добился оч. многого и проектов с большой новизной становилось все меньше и меньше, а работа по шаблону драйвит куда меньше. Пока для меня построение моделей еще и хобби — это и крутое упражнение для мозга и стимул постоянно учиться. Когда-то это пройдет, но на несколько лет вперед драйв обеспечен.
Sign up to leave a comment.