Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Статьи / Хабр

Профиль Статьи 177Новости 2Подписчики 11KСотрудники 115

boygenius 21 янв 2022 в 14:02

CatBoost, XGBoost и выразительная способность решающих деревьев

42 мин

50K

Блог компании Open Data ScienceПрограммирование*Математика*Машинное обучение*Искусственный интеллект

Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".

Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего дерева и градиентного бустинга, затем подробно поговорим об XGBoost и CatBoost. Среди основных особенностей алгоритма CatBoost:

• Упорядоченное target-кодирование категориальных признаков
• Использование решающих таблиц
• Разделение ветвей по комбинациям признаков
• Упорядоченный бустинг
• Возможность работы с текстовыми признаками
• Возможность обучения на GPU

В конце обзора поговорим о методах интерпретации решающих деревьев (MDI, SHAP) и о выразительной способности решающих деревьев. Удивительно, но ансамбли деревьев ограниченной глубины, в том числе CatBoost, не являются универсальными аппроксиматорами: в данном обзоре приведено собственное исследование этого вопроса с доказательством (и экспериментальным подтверждением) того, что ансамбль деревьев глубины N не способен сколь угодно точно аппроксимировать функцию $y = x_1 x_2 \dots x_{N+1}$ . Поговорим также о выводах, которые можно из этого сделать.

+48

boygenius 13 янв 2022 в 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

38 мин

29K

Блог компании Open Data ScienceАлгоритмы*Машинное обучение*Статистика в ITИскусственный интеллект

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

+34

Overclocked1827 23 дек 2021 в 14:14

Выбираем инструмент для разметки текста (и не только!)

16 мин

8.2K

Блог компании Open Data ScienceOpen source*Data Mining*Машинное обучение*Искусственный интеллект

Рано или поздно перед любой компанией которая хочет внедрить системы машинного обучения в свою инфрастуктуру встает вопрос разметки данных. Чистые данные в достаточно большом количестве - залог хорошей модели, все мы прекрасно знаем правило "Garbage in - garbage out". Такой вопрос недавно встал и передо мной. В этом посте я поделюсь своим опытом поиска инструментов для разметки текста и звука под in-house разметчиков, постараюсь описать их плюсы и минусы, а в конце расскажу на чем мы в итоге остановились и что из этого вышло. Задачи на данном этапе относительно стандартные для NLP: классификация, NER, потенциально также может понадобиться entity-linking и разметка аудио под задачи ASR, но это пока менее приоритетно. Инструмент в идеале нужен open-source, но если будет приемлимый ценник за какие-то нужные фичи - мы готовы заплатить.

Заранее скажу, что этот пост никем не спонсировался, а все написанное ниже является сугубым ИМХО. Также имейте ввиду, что впечатления об использовании различных инструментов были составлены на момент написания статьи - осень-зима 2021-го года. Если вы смотрите на эти инструменты сильно позднее - возможно, информация будет уже не актуальной. Ну а теперь, поехали!

+34

ternaus 9 дек 2021 в 15:59

Рождение Albumentations

15 мин

7.5K

Блог компании Open Data SciencePython*Алгоритмы*Обработка изображений*Машинное обучение*

В этом посте я расскажу историю появления Open Source библиотеки Albumentations как я ее запомнил. Я не буду углубляться в технические детали. Основная задача текста - логирование, то есть надо написать историю, которую мне будет интересно прочитать через 20 лет.

История будет затянутая, с лишними подробностями, более того - основная часть будет о том, как все начиналось, а уже процесс итеративных улучшений будет покрыт меньше.

+57

boygenius 29 ноя 2021 в 14:13

Обзор архитектуры AlphaFold 2

39 мин

6.4K

Блог компании Open Data ScienceАлгоритмы*Машинное обучение*БиотехнологииИскусственный интеллект

В данном обзоре мы подробно рассмотрим нейронную сеть AlphaFold 2 от компании DeepMind, с помощью которой недавно был совершен прорыв в одной из важных задач биологии и медицины: определении трехмерной структуры белка по его аминокислотной последовательности.

В первых трех разделах обзора описывается задача, формат входных данных и общая архитектура AlphaFold 2. Далее, начиная с раздела «Input feature embeddings», описываются детали архитектуры. В разделе «Резюме» кратко суммируется основная информация из обзора.

+52

madrugado 17 сен 2021 в 17:37

Новый запуск курса Natural Language Processing

2 мин

8.2K

Блог компании HuaweiБлог компании Open Data ScienceМашинное обучение*Искусственный интеллектNatural Language Processing*

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса. Регистрироваться на сайте ODS.ai

посмотреть, что внутри

+10

egorborisov 26 авг 2021 в 14:06

Анализ вакансий и зарплат в Data Science

8 мин

49K

Блог компании Open Data ScienceBig Data*Машинное обучение*Карьера в IT-индустрииИскусственный интеллект

Привет, Хабр!

Делимся нашим исследованием вакансий и зарплат в сфере data science и data engineering. Спрос на специалистов растет, или рынок уже насытился, какие технологии теряют, а какие набирают популярность, размер зарплатных вилок и от чего они зависят?

Для анализа мы использовали вакансии, публикуемые в сообществе ODS. По правилам сообщества все вакансии должны иметь зарплатную вилку от и до и подробное описание вакансии - есть что анализировать. К статье прилагается репозиторий с ноутбуком и исходными данными.

+33

SemyonSinchenko 4 авг 2021 в 14:00

О квантовых компьютерах, биткоине и превосходстве. Лекция открытого курса qmlcourse

12 мин

8.8K

Блог компании Open Data ScienceМашинное обучение*Научно-популярноеКвантовые технологии

Это первая статья из планируемого цикла статей в рамках открытого курса по квантовому машинному обучению. В этой статье мы попытаемся ответить на самые частые вопросы, которые можно встретить в комментариях к статьям к хабе "Квантовые технологии". А именно, мы поговорим о том, что это за компьютеры вообще, какие задачи они могут решать и для чего все так хотят их создать. Дальше мы постараемся оценить тот размер квантовых компьютеров, который необходим для того, чтобы они стали практически полезными и сравним его с теми размерами, которые имеют самые топовые квантовые компьютеры сегодня. В конце немного обсудим тему квантового превосходства, а именно, что это такое ну и немного поговорим о том, сколько стоит сегодня запустить что-то на настоящем квантовом компьютере в облаке.

Поехали!

+28

fartuk 3 июн 2021 в 10:25

Создание и балансировка инвестиционного портфеля с помощью ML

12 мин

23K

Блог компании Open Data ScienceData Mining*Машинное обучение*Искусственный интеллектФинансы в IT

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

+19

Safronov 1 июн 2021 в 14:00

Учиться, учиться, и ещё раз учиться?

11 мин

16K

Блог компании Open Data ScienceАнализ и проектирование систем*Машинное обучение*Управление проектами*Управление продуктом*

TLDR: крохотные модельки обошли модные графовые нейронки в предсказании свойств молекул.
Код: здесь. Берегите Природу.

^{ФОТО: Андерс Хеллберг для Wikimedia Commons, модель — Грета Тунберг}

Необученная графовая свёрточная нейронная сеть [1] (uGCN) со случайной инициализацией весов уже пару лет занимает первое место в моём списке алгоритмов для задач машинного обучения на графах из-за копеечной стоимости, простоты реализации, да вполне очевидной элегантности решения. В то же время, насколько мне известно, никто ещё не не проводил соревнований между этой простой моделью и её старшей сестрой — полноценно обученной графовой свёрточной нейронной сетью (GCN) в режиме обучения с учителем. Вот я сделал.

Мотивация: показать, что uGCN выдаёт качественные представления, которые можно использовать в последующих задачах машинного обучения в индуктивном режиме, когда модели обобщаются к не виденным ранее данным (вдохновлено недавним отчётом [2] о производительности простых моделей в трансдуктивном случае).

Полученные результаты — занимательны. В худшем случае простые модели (uGCN + degree kernel + random forest) показали счёт 54:90 против полноценно обученных GCN, в то время как реалистичный сценарий закончился разгромным реваншем 93:51, указывающим на то, что мы можем позволить себе почти бесплатные эмбеддинги, которые превосходят или показывают результаты на уровне полноценно обученных GCN в задаче предсказания свойств графа (например — эффекта медикаментов: яд или лекарство) за долю стоимости. Простые модели обучались ~10 минут в то время как весь эксперимент продлился ~4 часа. Перейдём же к деталям и разберёмся с тем, что произошло!

Читать дальше →

+28

Moryshka 30 мар 2021 в 13:27

DeepPavlov стал частью Google Summer of Code в 2021 году

3 мин

3.3K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектNatural Language Processing*Удалённая работа

В этом году открытая платформа для обработки естественного языка DeepPavlov, разрабатываемая лабораторией нейронных систем и глубокого обучения МФТИ, впервые стала частью ежегодной программы для молодых разработчиков Google Summer of Code.

Google Summer of Code (GSoC) — это ежегодное событие, проводимое компанией Google для привлечения молодых разработчиков к разработке проектов с открытым исходным кодом в их свободное летнее время. К участию допускаются студенты высших учебных заведений (бакалавриат, магистратура, аспирантура) и колледжей. Это отличная возможность не только развить навыки программирования, но и заработать!

Работать можно в любой организации, которая есть в соответствующем списке на странице Google Summer of Code, но мы предлагаем вам участвовать в рамках сообщества DeepPavlov. И сегодня мы расскажем подробнее о приеме и задачах, которые готовы предложить студентам этим летом. Вместе с вами мы выведем сообщество разработчиков ПО с открытым исходным кодом на новый уровень.

fartuk 29 мар 2021 в 16:15

Мои machine learning тулы для инвестирования

17 мин

35K

Блог компании Open Data ScienceData Mining*Машинное обучение*Венчурные инвестицииИскусственный интеллект

В последнее время все больше людей приходит к тому, чтобы не держать деньги под матрасом, а куда-то их инвестировать в надежде сохранить и преумножить свой капитал. Вариант с матрасом плох тем, что с повышением цен на товары и услуги(инфляция) покупательная способность денег падает и через какое-то время купить на них можно значительно меньше, чем раньше. Есть много вариантов, куда вложить деньги(недвижимость, банковский вклад, ценные металлы), но в последнее время популярным становится инвестирование в акции. Только у брокера Тинькофф Инвестиции за несколько лет число клиентов превысило 3.5 млн. В статье я постараюсь описать свой подход к выбору бумаг и поделюсь инструментами, которые для этого разрабатываю.

+53

snakers4 16 мар 2021 в 13:58

Собираем Свой Суперкомпьютер Недорого

10 мин

30K

Блог компании Open Data ScienceОбработка изображений*Машинное обучение*Развитие стартапаКомпьютерное железо

thumbnail

Нынче никого не удивишь достижениями ~~искусственного интеллекта~~ машинного обучения (ML) в самых разных областях. При этом доверчивые граждане редко задают два вопроса: (i) а какая собственно цена экспериментов и финальной системы и (ii) имеет ли сделанное хоть какую-то целесообразность? Самым важным компонентом такой цены являются как ни странно цена на железо и зарплаты людей. В случае если это все крутится в облаке, нужно еще умножать стоимость железа в 2-3 раза (маржа посредника).

И тут мы неизбежно приходим к тому, что несмотря на то, что теперь даже в официальные билды PyTorch добавляют бета-поддержку ROCm, Nvidia де-факто в этом цикле обновления железа (и скорее всего следующем) остается монополистом. Понятно, что есть TPU от Google и мифические IPU от Graphcore, но реальной альтернативы не в облаке пока нет и не предвидится (первая версия CUDA вышла аж 13 лет назад!).

Что делать и какие опции есть, когда зачем-то хочется собрать свой "суперкомпьютер", но при этом не хочется платить маржу, заложенную в продукты для ультра-богатых [мысленно вставить комментарий про госдолг США, майнинг, крах Бреттон-Вудсткой системы, цены на здравоохранение в странах ОЭСР]? Чтобы попасть в топ-500 суперкомпьютеров достаточно купить DGX Superpod, в котором от 20 до 100 с лишним видеокарт. Из своей практики — де-факто серьезное машинное обучение сейчас подразумевает карточки Nvidia в количестве примерно 8-20 штук (понятно что карточки бывают разные).

Читать дальше →

+42

belgraviton 2 мар 2021 в 14:39

Рубрика «Читаем статьи за вас». Сентябрь — октябрь 2020 года

15 мин

4.5K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

1. A Better Use of Audio-Visual Cues : Dense Vid eo Captioning with Bi-modal Transformer (Tampere University, Finland, 2020)
2. Fast Bi-la yer Neural Synthesis of One-Shot Reali stic He ad Avatars (Samsung AI Center, 2020)
3. Enhancing the Locality and Bre aking th e Memory Bottleneck of Transformer on Time Series Forecasting (University of California, USA, 2019)
4. Whitening for Self-Supervised Representation Learning (University of Trento, Italy, 2020)
5. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis (Lyrebird AI and University of Montreal, 2019)
6. StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows (KAUST, Adobe, 2020)

+34

Alex_Donchuk 12 янв 2021 в 14:04

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

9 мин

29K

Блог компании Open Data SciencePython*Программирование*Машинное обучение*DIY или Сделай сам

Туториал

Всем привет! Пока киберпанк еще не настолько вошел в нашу жизнь, и нейроинтерфейсы далеки от идеала, первым этапом на пути к будущему манипуляторов могут стать LiDAR. Поэтому, чтобы не скучать на праздниках, я решил немного пофантазировать на тему средств управления компьютером и, предположительно, любым устройством, вплоть до экскаватора, космического корабля, дрона или кухонной плиты.

+84

Arseny_Info 28 окт 2020 в 19:38

Шесть степеней свободы: 3D object detection и не только

7 мин

8.4K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Машинное обучение*

В компьютерном зрении часто приходится работать с двумерными изображениями, и значительно реже - с 3D объектами. Из-за этого многие ML инженеры чувствуют себя неуверенно в этой области: много незнакомых слов, непонятно, куда тут применить старых друзей Resnet и Unet. Поэтому сегодня я хотел бы немного поговорить о 3D на примере задачи определения шести степеней свободы, что в каком-то виде синонимично 3D object detection. Я разберу одну из свежих работ на эту тему с некоторыми отступлениями.

Кратко о задаче

Для начала давайте определимся, что такое шесть степеней свободы (6 DoF - degrees of freedom). Представим себе некоторый ригидный (неизменяемый, т.е. при трансформации все точки будут оставаться на той же дистанции друг от друга) объект в трехмерном мире. Чтобы описать его положение относительно наблюдателя понадобится 6 измерений: три будут отвечать за повороты по разным осям, а еще три - за смещение по соответствующим осям. Соответственно, имея эти шесть чисел, мы представляем, как объект расположен относительно какого-то базиса (например, точки, с которой ведется фотосъемка). Эта задача является классической для робототехники (где находится объект, который нужно схватить роборукой?), дополненной реальности (где нарисовать маску в MSQRD, ушки в Snapchat или кроссовки в Wanna Kicks) , беспилотных автомобилей и других доменов.

Я буду рассматривать статью MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision (Hou et al., 2020). Эта статья, написанная авторами из Google Research, предлагает надежный и, что немаловажно, быстрый пайплайн для решения задачи, будет уместно разобрать его по частям.

+38

belgraviton 14 окт 2020 в 14:12

Рубрика «Читаем статьи за вас». Июль — август 2020 года

26 мин

5.6K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Статьи на сегодня:

High-Resolution Neural Face Swapping for Visual Effects (Disney Research Studios, ETH Zurich, 2020)
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList (USA, 2020)
Thieves on Sesame Street! Model Extraction of BERT-based APIs (UMass & Google Research, ICLR, 2019)
Time-Aware User Embeddings as a Service (Yahoo! Research, Temple University, 2020)
Are Labels Necessary for Neural Architecture Search? (Johns Hopkins University, Facebook AI Research, 2020)
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (Google, 2020)
Data Shapley: Equitable Valuation of Data for Machine Learning (USA, 2019)
Language-agnostic BERT Sentence Embedding (Google AI, 2020)
Self-Supervised Learning for Large-Scale Unsupervised Image Clustering (Technion, Israel, 2020)
Batch-Channel Normalization and Weight Standardization (2 papers, Johns HopkinsUniversity, USA, 2019)

Читать дальше →

+27

Moryshka 18 сен 2020 в 14:00

Data Fest 2020 — полностью в Online уже завтра

3 мин

4.3K

Блог компании Open Data ScienceМашинное обучение*КонференцииИскусственный интеллект

Data Fest пройдет в этом году в онлайн формате 19 и 20 сентября 2020. Фестиваль организован сообществом Open Data Science и как обычно соберет исследователей, инженеров и разработчиков в области анализа данных, искусственного интеллекта и машинного обучения.

Регистрация. Ну а дальше к деталям.

Читать дальше →

+37

belgraviton 19 авг 2020 в 14:02

Рубрика «Читаем статьи за вас». Июнь 2020 года

15 мин

5.4K

Блог компании Open Data ScienceАлгоритмы*Обработка изображений*Математика*Машинное обучение*

Статьи на сегодня:

PointRend: Image Segmentation as Rendering (Facebook AI Research, 2020)
Natural- To Formal-Language Generation Using Tensor Product Representations (USA, 2019)
Linformer: Self-Attention with Linear Complexity (Facebook AI, 2020)
DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution (Johns Hopkins University, Google, 2020)
Training Generative Adversarial Networks with Limited Data (NVIDIA, 2020)
Multi-Modal Dense Video Captioning (Tampere University, Finland, 2020
Are we done with ImageNet? (DeepMind, 2020)

Читать дальше →

+23

Moryshka 7 авг 2020 в 14:04

Итоговые проекты курса Deep Learning in Natural Language Processing (by DeepPavlov Lab)

5 мин

7.4K

Блог компании Московский физико-технический институт (МФТИ)Блог компании Open Data SciencePython*Искусственный интеллектNatural Language Processing*

Недавно завершился «Deep Learning in Natural Language Processing», открытый образовательный курс по обработке естественного языка. По традиции кураторы курса — сотрудники проекта DeepPavlov, открытой библиотеки для разговорного искусственного интеллекта, которую разрабатывают в лаборатории нейронных систем и глубокого обучения МФТИ. Курс проводился при информационной поддержке сообщества Open Data Science. Если нужно больше деталей по формату курса, то вам сюда. Один из ключевых элементов «DL in NLP» — это возможность почувствовать себя исследователем и реализовать собственный проект.

Периодически мы рассказываем на Medium о проектах, которые участники создают в рамках наших образовательных программ, например о том, как построить разговорного оракула. Сегодня мы готовы поделиться итогами весеннего семестрового курса 2020 года.

Немного данных и аналитики

В этом году мы побили все рекорды по численности курса: в начале февраля записавшихся было около 800 человек. Скажем честно, мы не были готовы к такому количеству участников, поэтому многие моменты придумывали на ходу вместе с ними. Но об этом мы напишем в следующий раз.

Вернемся к участникам. Неужели все окончили курс? Ответ, конечно, очевиден. С каждым новым заданием желающих становилось все меньше и меньше. Как итог — то ли из-за карантина, то ли по другим причинам, но к середине курса осталась только половина. Ну что ж, а дальше пришлось определяться с проектами. В качестве итоговых участниками было заявлено семьдесят работ. А самый популярный проект — Tweet sentiment extraction — девятнадцать команд пытались выполнить задание на Kaggle.

Подробнее про представленные проекты

На прошлой неделе мы провели заключительное занятие курса, где несколько команд представили свои проекты. Если вы пропустили открытый семинар, то мы подготовили запись. А ниже мы постараемся кратко описать реализованные кейсы.

Читать дальше →

+18

1 2

4 5 ...

8 9