Обновить

Библиотека данных: коллекция интересных хабрапостов про Data Science

Блог компании ГазпромбанкBig DataФинансы в ITData Engineering
С каждым годом сфера Data Science обрастает новыми методиками, терминами и направлениями. К счастью, у нас есть почти готовая энциклопедия по этой теме, которую год за годом кропотливо наполняло сообщество Хабра. Есть, правда, проблема: материалы сообщества почти не структурированы и в них сложновато ориентироваться. Чтобы упростить жизнь тем, кто пытается разобраться в этом сумбуре из полезных (и не очень) статей, мы в Data-Science департаменте Газпромбанка собрали коллекцию лучших постов о том, как грамотная работа с данными меняет компании и людей. Подробности — под катом.

Категории
Авторы коллекции
Альбина Ахметгареева

Альбина Ахметгареева

Главный аналитик-исследователь

Игорь Столбов

Игорь Столбов

Директор по разработке моделей

Родион Лапцуев

Родион Лапцуев

Директор по разработке моделей

Денис Занков

Денис Занков

Управляющий директор

Владимир Опанасенко

Владимир Опанасенко

Начальник управления алгоритмов машинного обучения


Data Science в бизнесе и государстве
И частные компании, и государственные структуры активно строят свои сервисы, основанные на данных и науке об их интерпретации и автоматизации. Здесь — о том, как это устроено: начиная с поисковиков, и заканчивая распознаванием номеров на транспорте, нарушителей ПДД.

1
Наглядная иллюстрация того, как с усложнением структуры данных и увеличением их объема методы обучения deep-learning начинают лучше работать. Крайне рекомендую статью за конкретные примеры и историю о переходе на «глубокие» методы.
Альбина Ахметгареева
главный аналитик-исследователь

2
Одним из критериев того, что компания руководствуется data-driven подходом, я считаю перевод флагманских продуктов на машинное обучение. Этим продуктам нужны технические решения, которые устойчивы к пропущенным свойствам, изменениям в распределении выборки, могут адаптироваться по фидбеку пользователей и обходят проблемы с переобучением. И именно об этом на примере почты рассказывает статья Mail.ru.
Родион Лапцуев, директор по разработке моделей

3
Одна из главных технических сложностей в машинном обучении — его вывод в прод. Об этом YouDo и рассказывает: в их посте реальный кейс перехода от exploratory data analysis к машинному обучению. В статье есть важные технические детали по CD/CI и оркестрации микросервисов.
Денис Занков, управляющий директор

4
Наглядная демонстрация проблем, которые возникают в анализе данных и того, как из-за этого искажаются результаты.

Эта статья показывает, что может случиться, если вывести модель в реальный мир без участия доменных экспертов: любая область полна сюрпризов, о которых не догадывается ни один дата-сайентист.
Игорь Столбов, директор по разработке моделей

5
Хороший текст о том, как извлекать инсайды из своих данных, грамотно используя визуализацию и работу с экспертами. Будет полезно для тех, кому хочется работать со сложными данными (особенно в виде графов) и применять к ним методы визуализации сообществ.
Родион Лапцуев, директор по разработке моделей

Data Science в промышленности
Иногда производствам, которые кажутся неповоротливыми и консервативными, автоматизация данных приносит больше пользы, чем IT-компаниям и сервисам. Как, например, сделать, чтобы нейросеть с первого раза узнавала шуруп, который вы ей показываете? К каким опенсорс-проектам обратиться, если хотите автоматизировать свою стройку или небольшой заводик? Об этом — дальше.

1
Если вы уже продвинутый разработчик и ищете что-то новое (или думаете, что все ниши применения методов ML уже заняты), эта статья для вас. Отличный текст для тех, кто хочет внедрять в цифровые решения в промышленных предприятиях. Это непростые заказчики, поэтому за такие задачи стоит браться только опытным AI и ML специалистам.
Альбина Ахметгареева, главный аналитик-исследователь

2
Рассказ о том, как классифицировать много разного товара с помощью AI, чтобы в нём смогли ориентироваться покупатели.

Довольно типичная ситуация для ритейла и эффективный подход к решению вопроса.
Родион Лапцуев
директор по разработке моделей

3
Одна из главных бед внедрения data-driven подходов — отсутствие культуры работы с данными. Пост, который я предлагаю почитать, рассказывает о внедрении методов анализа данных в нефтехимии — консервативной бизнес-среде, где люди привыкли к почте и Excel. Внутри — история обо всём процессе внедрения аналитики данных — от архитектуры до деталей имплементации.
Игорь Столбов, директор по разработке моделей

4
Уникальный пост, в котором уместилась невероятно обширная подборка материала по применению Python в разных областях бизнеса.

Для каждой сферы выделены примеры использования; есть ноутбуки, демонстрирующие подход к исследовательскому анализу данных.
Альбина Ахметгареева, главный аналитик-исследователь

Data Science в финтехе и банках
Возможно, финтех — одна из областей, наиболее завязанных на данных. Мы собрали коллекцию интересных кейсов по работе с данными в разных сферах этой области. Дальше — о том, как машинное обучение помогает выдавать кредиты, ловить мошенников, и помогать техподдержке.

1
Автор собрал подборку из 18 финтех-компаний, использующих машинное обучение в областях от инвестирования и кредитов до разработки систем идентификации пользователей по сетчатке глаза. Статью хорошо дополняет пример о том, как MasterCard с помощью машинного обучения отражает атаки на банкоматы.
Игорь Столбов
директор по разработке моделей

2
Автор на примере Индии разбирает, как машинное обучение и систематический подход к анализу данных могут улучшить показатели кредитной организации. На своём опыте могу сказать, что метрики из этого поста правда могут быть полезны для банков.
Родион Лапцуев, директор по разработке моделей

3
Статья разбирает пять кейсов применения машинного обучения в популярных финтех-стартапах. Среди них — кредитный скоринг, защита от фрода и алгоритмическая торговля. Это основы, с изучения которых могут начать те, кому хочется разобраться в современном финтехе. Рекомендую в качестве отправной точки.
Игорь Столбов, директор по разработке моделей

4
Верификация документов — краеугольный камень защиты от мошенников, который очень важен для финансовых организаций.

Статья, которую я рекомендую прочитать — отличный кейс проверки документов на основе решений машинного обучения и анализа данных. Есть и технические детали, и интересные нюансы работы бизнеса.
Родион Лапцуев, директор по разработке моделей

5
Статья разбирает технические детали и бизнес-аналитику развертывания DataScience-решений, включая аудит данных и анализ архитектуры. В целом это отражает и наш опыт, поэтому рекомендуем к прочтению для понимания общей схемы жизненного цикла ML в проде.
Владимир Опанасенко, начальник управления алгоритмов машинного обучения

6
Отличный кейс применения машинного обучения для снижения нагрузки на службу поддержки. Очень подробный материал: тут и прототипы нейросети, и методики мониторинга эффективности системы, и даже демонстрация реальных писем, обработанных системой. Один из примеров, в которых пользу от внедрения ML действительно можно измерить по ключевым KPI — от сокращения времени ответа и до уменьшения нагрузки на сотрудников.
Денис Занков, управляющий директор

Создаем успешный продукт в Data Science

Управление в Data Science

Сама сфера Data Science тоже постоянно находится в движении. Этот раздел — о том, что нужно сделать, чтобы ваши DS-специалисты лучше справлялись со своими задачами — да и вообще о том, кто они и чем заняты в рабочее время.

1
Эта статья разбирает весь цикл Data Science-проекта с точки зрения его менеджера: от анализа задачи и исследовательского анализа данных, до создания базовой модели и взаимодействия DS-специалистов с другими командами и многого другого. Рекомендую тем, кто начинает свой путь в менеджменте IT и особенно Data Driven-проектов.
Владимир Опанасенко
начальник управления алгоритмов машинного обучения

2
Хороший разбор того, как Data Science работает в контексте бизнеса. Хороший практический чек-лист для менеджера или PM.
Родион Лапцуев, директор по разработке моделей

3
Неплохой рассказ о взаимодействии agile-практик и разработки проектов в сфере анализа данных. Внутри — отличный список нюансов, которые иногда возникают при создании Data Science-продуктов через Agile.
Владимир Опанасенко, начальник управления алгоритмов машинного обучения

4
Интересный разбор этапов в работе исследователя данных: сбор данных, обработка и сам их анализ. К каждой части есть примеры и советы. По нашему опыту, этапы из статьи неплохо отражают реальную картину происходящего.
Денис Занков, управляющий директор

5
Одна из немногих статей на Хабре «по другую сторону баррикад» о том, как нанимают дата-сайентистов, критериях отбора и нужных навыках. А также о том, как растут и развиваются сотрудники в области машинного обучения. Очень полезно для кандидатов — чтобы составить представление о том, как процесс их найма выглядит с другой стороны.
Игорь Столбов, директор по разработке моделей

Повышаем квалификацию в Data Science

Наука о данных — штука очень сложная (на то она и наука), поэтому даже если вы профессии много лет, всегда есть куда расти. Здесь мы поможем определиться с тем, куда дальше копать и какие курсы можно изучить, чтобы вы и ваши сотрудники брали новые высоты.

1
В Open Data Science сделали открытый курс по анализу данных, машинному обучению и искусственному интеллекту. Данный курс запускался в России, а с этого года также бесплатно читается с некоторыми изменениями в Дубае (ОАЭ). Если упростить, это образовательная программа, созданная сообществом практикующих дата-сайентистов для тех, кто ещё не успел прокачаться и только начинают погружаться в анализ данных.
Альбина Ахметгареева, главный аналитик-исследователь

2
Отличная подборка по темам, методам и сферам применения анализа данных на питоне — рекомендую всем, кто хочет поднять свой уровень и укрепить знания в анализе данных и машинном обучении.
Денис Занков
управляющий директор

3
Неплохой туториал для тех, кто давно мечтал разобраться, что такое генеративные сети. По этому тексту вполне реально написать свой автоэнкодер с нуля и понять принцип работы подобных архитектур нейросетей.
Альбина Ахметгареева, главный аналитик-исследователь
Теги:data scienceнаука о данныхзадачи data sciencedata science в промышленностиdata science в финтехефинтех
Хабы: Блог компании Газпромбанк Big Data Финансы в IT Data Engineering
Рейтинг +16
Количество просмотров 16,1k Добавить в закладки 114
Комментарии
Комментарии 3