a-pichugin 24 авг 2017 в 06:32

Российские девушки в Data Science

8 мин

8.9K

Блог компании New Professions LabPython*Data Mining*Big Data*Машинное обучение*

Как известно, в IT мужчин значительно больше, чем женщин, хотя последние зачастую не уступают по знаниям и навыкам. По нашим наблюдениям, в сфере Data Science этот перекос еще сильнее, хотя опять же женщины обрабатывают данные и строят модели ничуть не хуже мужчин. Подтверждением этому для нас стали итоговые результаты участников нашей прошлой группы “Специалиста по большим данным”, когда в топ-5 группы вошли 3 девушки (а их всего в группе было четверо).

Мы задались целью найти девушек в разных компаниях и отраслях, работающих с большими данными, управляющих командами, и у нас получилось собрать интересный материал, который не умещается в рамки одной статьи, так что ждите серию публикаций!

И открываем данную серию с интервью с Анной Крючковой и Марией Анисимовой, которые расскажут о своей работе, карьерном пути и о будущем девушек в Data Science.

— Расскажи о компании, в которой ты работаешь и о своей должности в ней. Какие задачи, связанные с анализом данных, возникают в компании? Что входит в твои обязанности?

Анна: Я работаю в компании ПАО «МегаФон» экспертом по сегментным программам. По сути, это продуктолог, работающий на big data моделях, я делаю так, чтобы они «оживали» и приносили доход.

Мария: Работаю в Департаменте информационных технологий Москвы в направлении Большие Данные. Развиваем «умную» аналитику в городских масштабах. Я являюсь начальником отдела моделирования данных, но основным направлением, запуск проектов по которому я сопровождаю, является интернет-аналитика. Здесь нужно понимать, что в наших продуктах это не столько связано с веб-аналитикой и оптимизацией UI городских порталов (например, www.mos.ru), как многие думают, сколько с профилированием интернет-пользователей. В мои обязанности входит сопровождение проектов на каждом этапе – от инициации и запуска работ, до завершения и перевода в промышленное решение, то есть создания уже непосредственного продукта. Причем сопровождение подразумевает как принятие решений относительно применяемого математического аппарата, сбора и анализа имеющихся данным, так и выявления необходимой технической инфраструктуры.

— Каков был твой образовательный и карьерный путь? Как ты попала в компанию?

Анна: Карьеру я начинала с консалтинга, прошла строгий отбор в консалтинг-бутик с небольшим числом клиентов, которым мы помогали сразу по нескольким направлениям. При этом, что нечасто встретишь в консалтинге, на стратегических презентациях наша работа с клиентами не заканчивалась, а только начиналась — мы отвечали за внедрение изменений. Поскольку университет я закончила с красным дипломом математика-экономиста, сразу же попросилась на аналитические и маркетинговые проекты. Решать реальные задачи и видеть, как срабатывают твои идеи и сбываются прогнозы было очень интересно, работа становилась жизнью, клиенты — практически родственниками.

Однако о работе с «большими данными» мне оставалось только мечтать — среднего размера розничный и производственный бизнес учит работать на «малых данных» — обогащать их, предобрабатывать, чтобы получать результат, независящий от случайностей или редких событий. Одним из наших клиентов была компания «Белый Ветер Цифровой», с которой мы работали всего пару лет, однако я успела втянуться в его задачи и захотела перейти туда работать на полную ставку руководителем аналитического департамента. Данных о покупателях мне не хватало, и по всем раскладам получалось, что мы должны научится накапливать эти данные, анализировать их, делать индивидуальные предложения и даже вовлекать покупателей в наш бренд эмоционально. Напрашивалась программа лояльности — довольно дорогостоящий инструмент, однако были найдены пути вывести ее практически на окупаемость. Так я стала, ко всему прочему, и руководителем программы лояльности.

Это был очень интересный опыт, за два года мы реализовали сложное техническое решение, выстроили систему коммуникации с покупателями, начали считать отдачу. Ну а мне стало понятно, что хочется большего. Больше данных. Больше, масштабнее. Банки или телеком — загадала я для себя и оказалась в телекоме. И опять-таки мне повезло работать с супер командой и супер амбициозными задачами, но уже не трогая данные непосредственно, а являясь так называемым заказчиком аналитики.

_{Анна Крючкова}

Мария: Я закончила бакалавриат Высшей Школы Экономики по направлению «Экономика» специализации «Статистика и анализ данных». После окончания сразу же пошла в магистратуру того же университета, но уже на направление «Менеджмент» специализации «Управление проектами», где и «познакомилась» с текущим работодателем.

Карьерный путь был достаточно прост: в течение учебы в университете я работала в различных организациях, так или иначе связанных со статистикой, но от Data Science, как такового, эти направления все же были далеки. Это, отчасти, обусловлено спецификой использования статистического анализа в нашей стране: несколько лет назад такие решения применялись лишь в очень узкопрофильных отраслях – банковская сфера, страхование и стратегическое планирование продаж коммерческих организаций. Кроме Росстата и студентов почти никто не занимался социально-демографической статистикой.

— Какие задачи машинного обучения чаще всего встречаются в твоей работе? Какие алгоритмы и модели используешь для их решения?

Анна: Очевидно, что в телекоме это прежде всего задачи классификации и сегментации. Алгоритмами занимается другая часть команды, что не мешало нам вместе устраивать мозговые штурмы и придумывать, как именно они будут применены.

Мария: Чаще всего возникают задачи под кодовыми названиями «профилирование» и «прогнозирование». Первая подразумевает под собой в основном кластеризацию, сегментацию пользователей по имеющимся атрибутам, т.е. факторам, которых зачастую не единицы, а десятки и сотни. Второй вид задач включает в себя построение вектора поведения пользователей с дальнейшим поиском «похожих» на него (look-a-like) для построения предположений относительно принадлежности «неопознанных» пользователей к тому или иному сегменту и для предсказания следующего действия пользователя.

Соответственно, модели для всех указанных задач используются стандартные – случайные леса, градиентный бустинг деревьев, логистическая регрессия и ансамбли этих алгоритмов для задач классификации, методы PCA (главных компонент) и DBSCAN (для зашумленных данных) для задач кластеризации. Если встречаются задачи текстовой аналитики (например, для выявления тематических интересов на основе типов потребляемого интернет-контента), то в ход идут наивный байесовский классификатор, VSM (векторная модель семантики), метод k-средних и классификация методом максимальной энтропии.

Как видите, набор моделей и алгоритмов аналогичен набору любой команды, которая занимается аналитикой. Но я считаю, что решение любой big data задачи сводится не только к построению моделей – большой объем работ приходится на этап сбора и подготовки данных (Data Mining) и на интерпретацию полученных результатов, т.е. адаптации их к бизнес-применению. Условно говоря, мало просто выявить закономерность на основе построенных матриц корреляций, важно понять, что с этим делать дальше и как использовать в продукте, а не только на красивых слайдах с отрисованной инфографикой.

_{Мария Анисимова}

— Как ты думаешь, работа в анализе данных подходит людям лишь с определенным бэкграундом или при должном упорстве data science может освоить каждый?

Анна: Пока только в небольшом количестве учебных заведений можно получить серьезную DS специализацию, в основном приходится доучиваться самостоятельно. Конечно, с бэкграундом в математике разобраться будет значительно проще, но самое главное здесь, как и в любом деле, 1% inspiration, 99% perspiration, с такой формулой возможно все.

Мария: У нас бытует мнение, что любой человек может научиться чему угодно, было бы только желание. Кроме того, как я говорила ранее, область аналитики не ограничивается построением математических моделей – в этой работе очень много других немаловажных этапов. Модель не на чем будет строить, если не будет должного объема кем-то собранных данных, структурированных и нормализованных, которых в то же время достаточно для решения конкретной бизнес-цели. А учитывая разносторонность отраслей, в которых сейчас применяется аналитика, вы можете быть кем угодно по образованию/профессии. Учитель, анализирующий успеваемость детей в своем классе с дальнейшим построением плана обучения, тоже является участником новомодного Data Science, пускай и на небольшом объеме данных в 40-50 записей в таблице Excel (утрируя).

— Какой совет ты бы дала новичкам? Какие онлайн и офлайн курсы ты проходила и какие можешь посоветовать?

Анна: Я решила нырнуть в эту область с курсами от Newprolab. Пройдя их, уже примерно ориентируясь в теме, стала читать много книг — здесь никуда без Себастьяна Рашки, богатого пантеона авторов издательства O'Reilly, классических изданий Bishop-а и Murphy. Ну и конечно, лучше всего учиться на практике, поэтому надеюсь добраться и до соревнований по машинному обучению.

Мария: Новичкам в этой области, причем независимо от возраста – студент вы или человек со стажем работы более 20 лет, решивший переквалифицироваться, советую для начала определиться, в какой области вам может быть интересно изучение данных. Имею ввиду выбрать отрасль: образование, здравоохранение, финансы или, если по функциональному назначению, интернет, текстовая аналитика, анализ фото- и видеоматериалов. Начните с базовых математических online курсов на Coursera, дальше углубитесь в изучение существующих практических работ (например, можно читать тот же Хабрахабр или следить за соревнованиями на Kaggle). Так вы поймете, что интересно конкретно вам, пообщаетесь с людьми, тесно связанными с этой областью, изучите тренды и начнете перенимать практический опыт. Дальше, если заинтересуетесь работой в этом направлении, изучите работодателей, развивающих у себя направление анализа данных, либо к тому времени работодатель сам найдет вас. :)

— Расскажи, существует ли какая-то специальная политика по отношению к девушкам в компании? Быть женщиной в IT, и в DS в частности, — какие преимущества и какие недостатки ты видишь? Есть ли сложности?

Анна:Что и говорить, редко встретишь девушку в Data Science, в IT, да и девушек-математиков отнюдь не подавляющее большинство. Наверное, причиной этому являются некие социокультурные основания. Однако редкий «экземпляр», добравшийся-таки до DS, оказывается сильно замотивирован в своей работе и испытывает такой неподдельный интерес, что довольно быстро добивается уважения своих коллег.

Мария: Какой-то особенной политики в компании нет. Раньше почему-то так получилось, что в программировании были в основном мужчины. Сейчас мир меняется, стираются границы распределения профессиональных областей относительно полового признака. Мы в университете учились анализировать данные в Excel и SPSS, но на работе, когда сталкиваешься с массивами в десятки и сотни миллионов записей, начинаешь задумываться о необходимости начать изучать языки программирования, которые позволят работать в определенных СУБД. На мой взгляд, это несложно, хотя девушкам бывает труднее адаптироваться под новые решения, девушки стесняются задавать вопросы и начинать изучать что-то новое. Мужчины в этом плане более мобильны и решительны. Если Вы девушка без комплексов, смелая и молодая – то все получится. :) Но это не только в отношении DS, это везде так.

— Изменится ли процентное соотношение женщин к мужчинам в data science в будущем? Как, по-твоему, привлечь внимание женщин к сфере анализа данных?

Анна: Общество уже начало меняться: дочерям покупают не только куклы, но и конструкторы с машинками, отводят не только на занятия танцами, но и на занятия программированием. Любопытство, любознательность, умение подмечать закономерности — все это присуще девушкам в той же мере, что и мужчинам, потому интерес к отрасли, в которой можно реализовать все эти качества, неизбежен для обоих полов. Особенно если учесть, как сильно этот интерес подогревается СМИ.

Мария: Для меня корректнее звучит вопрос: «Как привлечь внимание людей в целом к сфере анализа данных, не ограничиваясь биржевыми и банковскими проектами?». Если все же говорить про различия по половой структуре, учитывая, что в университетах сейчас запускаются профильные образовательные программы, а буквально каждая коммерческая организация создает в своей организационной структуре подразделения по аналитике данных, соотношение женщин к мужчинам в DS в будущем сгладится, выровняется. Вообще, конечно, чем больше прекрасных девушек в командах, особенно в суровом IT, тем больше мотивации для мужской половины свершать великие дела и менять мир. :)

P.S. Кстати, на предстоящем 7-м наборе программы «Специалист по большим данным» координатором будет тоже девушка — наша выпускница.

Теги:

Хабы:

Российские девушки в Data Science

Публикации

Информация

Истории