Pull to refresh
0
ID Finance
Международная финтех-группа ID Finance

Как я обучался data science

Reading time 4 min
Views 15K
Меня зовут Азат Буляккулов. Я работаю риск-аналитиком в финтех-компании ID Finance. Я начинал с аналитики, создании отчетности для департаментов рисков, маркетинга, финансов. В нашей, относительно небольшой компании, мне пришлось взаимодействовать со всеми отделами. В результате, мне удалось получить разнообразный профессиональный опыт. Я поучаствовал в расчете резервов для финансов, сравнивал эффективность в A/B тестах, сегментировал клиентов для маркетинга и пр. Менее чем через год работы подключился к разработке скоринговых карт. И понял, что хочу лучше разбираться в анализе и обработке данных.

image


Мы использовали классические логистические регрессии, чтобы предсказать дефолтность клиентов. Один из источников наших данных — финансовые транзакции, к которым, при желании, клиенты предоставляют нам доступ. Работа с ними требовала творческого подхода, так как из этой кладези данных можно было извлечь много полезной информации. Как я узнал впоследствии, этот процесс называется feature engineering. Это захватило меня — я еще больше заинтересовался data science.

Работая с другими департаментам, я видел, что простор для применения ML у нас огромный. Не последнюю роль в моем интересе к DS сыграло и то, что мы вели разработку в тяжеловесном SAS-e. У него не самый удобный интерфейс и не полная функциональность. Мне хотелось работать с более гибким инструментом.

Я понимал, что самостоятельное обучение data science, например, на Coursera, требует неслабой воли и самодисциплины, которыми я не обладаю в достаточной мере. Поэтому я начал посматривать не в сторону онлайн-курсов, а «живых» курсов с лекциями, обсуждениями и домашними заданиями.

Я сообщил своему руководителю на работе о направлении, в котором я хочу развиваться. Руководство пошло мне навстречу, и предложило оплатить курсы, и впоследствии перейти в отдел data science внутри холдинга.

Итак, я приступил к выбору курсов. Любопытно, что на образовательном рынке в области DS превалирует онлайн-курсы. Даже в Москве нет большого выбора серьезных курсов не в стиле «мы научим вас data science за 21 день». Я понимал, что качественное обучение должно длиться не менее полугода. ШАД Яндекса я не стал рассматривать, так как он требует тотального погружения и ежедневных занятий. Работая full-time, качественно поглощать и перерабатывать учебный материал было бы трудно. Забегая вперед, скажу, что и на выбранном курсе у меня были проблемы со временем для учебы, не говоря уже о свободном. В итоге, я остановился на курсе Data Scientist одной из популярных школ длительностью полгода: 5 месяцев интенсивного обучения + месяц на написание диплома.

О курсе


Обучение стоило около 200 000 рублей. Занятий было много – 3 раза в неделю по 3 часа. Примерно после каждых 2-х из 3-х занятий было домашнее задание. Программа была классической и включала основные методы машинного обучения, рекомендательные системы, распознавание изображений, машинное зрение, nature language processing (NLP), временные ряды. Плюс было несколько хакатонов и диплом, для тех, кто сдаст минимально необходимое количество домашних заданий.

image

Занятия проходили на Бауманской, в группу было записано 30 человек, но ходили стабильно 15-20. Я занимался два раза вечерами по будням и в субботу с 10:00 до 13:00. Любопытно, что на курсы пришли люди из разных областей, не обязательно связанных с IT. Да, были front/backend разработчики, но половина курса была связана с продуктовой/бизнес или риск-аналитикой. И почти для всех эти курсы означали смену профессии. Некоторые пришли, потому что сейчас вокруг data science наблюдается определенный хайп, другим наскучила их текущая деятельность, третьи планируют использовать DS на своей работе. Почти все оплачивали обучение самостоятельно, поэтому уровень заинтересованности был достаточно высокий.

Мои впечатления


Начиналось все с базовых знаний и умений программировать на python, визуализации данных. Потом мы перешли на галоп и стали проходить по одному методу машинного обучения за одно занятие: решающие деревья, линейная/логистическая регрессия, случайные леса, бустинги. Лично я считаю, что для изучения этих классических методов нужно больше времени.

Что мне понравилось


  • Изучили почти все современные методы и подходы машинного обучения.
  • Был отдельный блок по feature engineering – целых 3 занятия. Это полезная информация, но, к сожалению, лектор прочел эту часть не лучшим образом.
  • Часть домашних заданий была с соревнований Kaggle. После сабмита результатов можно было увидеть свою позицию. После этого появлялась мотивация улучшить свою модель, настроить ее параметры, а не просто сделать домашку на «отвали».
  • Были глубокие курсы по рекомендательным системам, NLP и компьютерному зрению, каждый по 6-8 занятий. И, по моему мнению, там были лучшие лекторы.
  • После блоков по компьютерному зрению и временным рядам было 2 хакатона.

Это оказалось очень полезным упражнением. Необходимость получить приемлемый результат за минимальное время активизирует и загружает мозг по полной. Плюс к этому, работая в команде, видишь подходы других людей.

  • В личном кабинете был рейтинг студентов, где я видел прогресс своих однокурсников по сдаче домашних заданий. Это было полезно. Так как в перерыве я подходил к «ботанам» и спрашивал, как они сделали ту или иную домашку.
  • Преимущество «живых» лекций – вопросы по ходу занятия.
  • В аудитории, по заданию лектора, мы делали небольшие упражнения сразу в питоне
  • Студенческое комьюнити — общение с однокурсниками, обмен мнениями, интересно было услышать от других об их мотивации и интересных им областях ML.

Что не понравилось


  • Большая плотность в обзоре основных методов – всего лишь по одному занятию на каждый метод.
  • В целом, я бы хотел 2 занятия в неделю, а не 3. Лично для меня учеба далась тяжело, съедала практически все свободное время. Часть однокурсников, к моей зависти, могла заниматься учебой на работе.
  • По непонятным причинам перенесли блок по NLP и провели его до компьютерного зрения (CV). В итоге на NLP мы должны были использовать нейронные сети, про которые рассказали подробнее только в части CV.
  • Были лекторы с крайне низкими педагогическими способностями. К тому же, они не проверяли домашние задания вовремя.

image
Сфера применения data science в последнее время сильно расширяется

Итого


У меня было 5 месяцев интенсивного обучения, где я достаточно глубоко погрузился в мир ML. Научился сносно писать на питоне обработку данных, визуализировать их, строить различные модели. Также генерировал текст при помощи нейросетей, классифицировал картинки.
Думаю, я получил хороший опыт для старта. Мой ментор по диплому сказал, что наши знания тянут на middle data scientist, а опыт на junior-a. Ну что же, увидим через пару месяцев. Так как я перехожу в департамент data science нашей компании в течение двух недель.
Tags:
Hubs:
+3
Comments 7
Comments Comments 7

Articles

Information

Website
idfinance.com
Registered
Founded
Employees
501–1,000 employees
Location
Россия