Machine learning
Conferences
Artificial Intelligence
22 May

Обучение Data Science внутри компании и тематический митап в Воронеже



25 мая в Воронеже пройдет вторая встреча Metaconf, на этот раз посвященная машинному обучению. В программе митапа — пять докладов, бесплатная регистрация доступна здесь. В частности, Антон Долгих, эксперт DataArt по AI-проектам в области здравоохранения, будет говорить о «Нейросетевой вероятностной модели естественного языка». Сегодня мы попросили Антона рассказать об опыте систематизации знаний по машинному обучению внутри DataArt.

Сфера применения ML постоянно расширяется (от здравоохранения до индустрии путешествий). Внутри DataArt в какой-то момент количество запросов на разработки в области ML превысило критическое значение. До этого нам удавалось решать такие задачи силами инженеров, работавших в компании.

Когда обходиться собственными ресурсами стало сложно, обозначились два пути развития: нанимать новых сотрудников или готовить специалистов внутри компании. В первом случае мы сталкиваемся с риском, что нанятый нами ML-разработчик после сразу не попадет в новый проект из своей профессиональной области. При этом люди, которые узко занимаются машинным обучением, обычно не готовы заниматься, например, fullstack-разработкой. Поэтому мы сделали ставку на инженеров DataArt, заинтересованных в развитии в сторону ML, но способных при необходимости вернуться к прежней работе.

Процесс подготовки необходимо систематизировать. Может показаться, что интернет заполнен массой онлайн и видеокурсов. Но для того, чтобы развиваться продуктивно, человеку нужен вектор развития — от хаотичного прослушивания любых курсов пользы оказывается мало.

Что сделали мы:

  1. В первую очередь, сформировали ядро — инициативную группу коллег с наибольшим опытом и экспертизой в разных сферах машинного обучения. Они подготовили ряд презентаций, сделали обзор существующих курсов и собрали рекомендации: какие курсы необходимо пройти, чтобы приобрести навыки, актуальные для задач, которые решает DataArt.
  2. Mы организовали математические курсы. Очевидно, что ML по своей сути — математическая статистика и методы оптимизации. Чтобы понимать и грамотно использовать методы машинного обучения, необходимы определенные математические знания. На первый взгляд, специалисты, получившие техническое образование, всегда хорошо знают математику. Но практике выясняется, что навыки забываются очень быстро. Это накладывает на курс ограничения: компания в отличие от университета не может обеспечить фундаментальных знаний, однако знания должны соответствовать задачам и быть достаточно глубокими. Читать курс мы пригласили преподавателя со стороны (наши коллеги оказались слишком загружены). Программу сфокусировали на областях, имеющих непосредственное отношение к машинному обучению: линейная алгебра, анализ, теория вероятности, методы оптимизации. Дополняют курс регулярные занятия с экспертами, где на основании теории мы рассматриваем практические задачи из проектов с машинным обучением.
  3. Наши специалисты ML-направления каждый месяц проводят образовательные семинары, посвященные последним достижениями в этой области. Запись семинаров доступна всем сотрудникам компании.
  4. Кроме семинаров, ML-специалисты DataArt регулярно выпускают дайджест интересных материалов (методы, статьи, книги) с краткими аннотациями и комментариями.

Компания эти инициативы поддерживает, выделяется бюджет на покупку литературы и участие коллег в конференциях, на железо и менторские программы. Результат индивидуального обучения по менторской программе — готовый прототип, который можно использовать на конференциях или на встречах с потенциальными заказчиками. Как пример можно привести результат работы нашего эксперта Андрея Сорокина — модель, которая детектирует и классифицирует кожные поражения (arxiv.org/pdf/1807.05979.pdf). Оптимизировать полученную модель для использования на мобильных устройствах как раз помогал сотрудник в рамках менторской программы. Модель заняла 12-е место в международном конкурсе ISIC 2018, обойдя не только индивидуальных участников, но и университетские команды.

Вышеописанная систематизация процесса позволила нам быстро и квалифицированно обрабатывать все запросы из области машинного обучения, поступающие в DataArt от потенциальных клиентов. Мы подготовили маркетинговые материалы, а сейлз-командам всегда доступны эксперты, которые могут ответить на вопросы заказчика. Несколько проектов уже успешно завершены.

Как многие крупные технологические компании, DataArt масштабирует экспертизу и образовательные программы для внешней аудитории. 25 мая в Воронеже проходит открытый Machine Learning meetup, участники которого узнают о трендах в ML-технологиях, проблемах и задачах, которые можно решить с их помощью, о реальных проектах, в которых применяются методы машинного обучения и искусственный интеллект.

+6
1.1k 11
Leave a comment