Как стать автором
Обновить
0

Как живется Data Mining компании: задачи и исследования

Время на прочтение4 мин
Количество просмотров17K
Привет, Хабр!

Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.


Обучение


Запуская образовательное направление, мы хотели создать программу для обмена знаниями между молодыми специалистами и экспертами и, как уже упоминалось, помочь формированию сообщества Data Science в России.

За этот год мы успели выпустить первый поток студентов и сейчас ведем программу для второго набора.

2013 2013/ 2014
Студенты 18 25
Эксперты 19 30+
Программа Data Mining in Industry Data Mining in Industry + отдельные курсы по R, Machine Learning, Big Data
Лекции 60 часов Data Mining in Industry: 70+ часов, Курсы: 80 + часов
Компании IBM, EMC, Siemens, fortiss, и др. все те же + Delloite, Accenture, Одноклассники и др.

Учебный план очень сильно изменился, но мы поняли, что три элемента, которые лежат в основе философии нашего обучения, мы не будем менять:

  • Общение с экспертами.
  • Практика. Студенты принимают участие в соревнованиях на kaggle, решают задачи, которые для них ставят эксперты из разных областей (1, 2 и 3).
  • Проактивность. Мы пытаемся заинтересовать студентов в том, чтобы они делились знаниями друг с другом и сами организовывали внутренние семинары на разные темы, в том числе связанные не только с анализом данных.


Помимо продолжения учебной программы, в 2014 мы будем проводить еще больше различных образовательных инициатив:

  • Data Mining Sauna — на рождественские каникулы мы пригласили студентов и экспертов в частный контактный зоопарк под Петербургом, чтобы в неформальной обстановке поделиться идеями друг с другом и обсудить исследования (об этом мероприятии мы скоро напишем подробнее).
  • Сейчас мы готовим хакатон по анализу социальных сетей в Санкт-Петербурге.
  • В наступившем году нам также очень хотелось бы организовать конференцию по Data Mining.

Проекты


После запуска учебного направления логичным продолжением стала проектная деятельность и новое направление data mining Projects, потому что с помощью машинного обучения можно решать множество интересных задач в самых разных областях:

Сейчас наша команда работает над различными коммерческими проектами, среди которых задачи анализа трафика финансовых транзакций, обнаружение аномалий на основе log-файлов веб-сервисов, предсказание возврата пользователей и пр.
На конференции TechCrunch Moscow мы в общих чертах рассказывали, как можем помочь компании стать data-driven.
О конкретных кейсах проектов и нашем продукте, антифрод системе, напишем в следующих статьях.

Исследования


Проектная работа — это хорошо, но душа data scientist’а всегда просит большего: хочется, чтобы и модели были точнее, и алгоритмы работали быстрее, а область их применения росла. Так было создано третье направление — Data Mining R&D.

Сейчас мы ведем работу над различными задачами, связанными с Gradient Boosting Machines [1,2,3]. Эти алгоритмы активно применяют такие компании как Yahoo!, Yandex в своем Matrixnet, Microsoft и другие. Если объяснять “на пальцах”, то основная идея алгоритма в том, чтобы построить множество деревьев решений таким образом, чтобы с каждым новым деревом суммарный выход алгоритма становился все более точным. Например, как на этой картинке:

Вроде все просто, но есть большой простор для творчества: как сделать так, чтобы для достижения той же точности требовалось меньшее число деревьев (как сократить их число)? Что будет, если сделать “глубокий” ансамбль? Или ансамбль полу-”глубоких” штуковин?"

Второе важное направление работ — методы Data Fusion. Идея в том, чтобы в рамках решения одной задачи использовать данные из разных областей: текста, видео, аудио, графов, сенсоров, а также различные их комбинации. Если запустить тот же самый алгоритм GBM «в лоб» на всех данных, распределения будут слишком разными, а число признаков неоправданно большим. В общем, описание причин, почему это не будет работать, — тема, достойная отдельной статьи.

Примером, с которым мы столкнулись в этой области оказалась задача определения финансовых рисков. Для этой задачи обычно используют количественную информацию о котировках с биржи — посмотрев на волатильность цен акций компании, можно достаточно точно спрогнозировать риски на следующий год. Однако, если учесть еще и информацию из годовых бухгалтерских отчетов компаний, эту точность можно повысить.

Главный вопрос — как сделать это наиболее эффективно, чтобы использовать всю информацию, содержащуюся в данных? Как сшивать модели, построенные на разных подпространствах данных? Сшивать только модели или некие промежуточные слои с representation, подобного тому как это предлагают делать в D-Wave:

На этом наши исследования не заканчиваются. Нас, например, очень волнуют вопросы:

  • Как отобрать значимые признаки, когда их очень много: десятки и сотни тысяч?
  • Как искать аномалии в больших размерностях?
  • Как запустить алгоритм GBM на миллиарде точек? А на триллионе? Это скорее общий вопрос для тех градиентных методов, где SGD и minibatch не применить (аналогичная история с ICA)


В заключение


Это был год, богатый на события, новых хороших людей и интересные задачи. Надеемся, что и 2014 принесет много отличных идей и еще больше сил, чтобы их воплотить в жизнь и написать о каждой статью на Хабр. Да нам уже сейчас так много хочется рассказать, что мы решили провести небольшой опрос
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Что бы вам хотелось почитать в нашем блоге?
41.97% Учебный процесс: события и задачки81
61.14% Обучающие материалы, которые мы используем118
56.48% Исследования в подробностях с матаном и прочим хардкором109
49.22% Исследования без подробностей: туториалы и мануалы95
67.88% Проектные идеи: где мы применяем машинное обучение131
32.64% Процессы в команде: что мы делаем сейчас и с какими проблемами сталкиваемся63
67.88% Прикладное применение Machine Learning и новости индустрии131
Проголосовали 193 пользователя. Воздержались 35 пользователей.
Теги:
Хабы:
Всего голосов 27: ↑23 и ↓4+19
Комментарии16

Публикации

Информация

Сайт
dmlabs.org
Дата регистрации
Дата основания
Численность
2–10 человек
Местоположение
Россия

Истории