Pull to refresh
39
0
Андрей Огурцов @ogurtsov

Биостатистик

Send message

Машинное обучение на языке R с использованием пакета mlr3

Reading time 16 min
Views 9K

Источник: https://mlr3book.mlr-org.com/


Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:


  1. Немного истории и сравнение с конкурирующими решениями
  2. Технические детали: R6-классы и пакет data.table
  3. Основные составляющие ML-пайплайна в mlr3
  4. Настройка гиперпараметров
  5. Обзор экосистемы mlr3
  6. Пайпы и граф вычислений
Читать дальше →
Total votes 35: ↑33 and ↓2 +31
Comments 7

Covid-19, ваше общество и вы с точки зрения науки о данных

Reading time 15 min
Views 28K

Как датасайентисты, мы обязаны уметь анализировать и интерпретировать данные. И мы были очень обеспокоены результатами анализа данных, касающихся covid-19. Наибольшему риску подвержены самые уязвимые категории – пожилые люди и люди с достатком ниже среднего, но для контроля распространения и влияния заболевания все мы должны изменить свое поведение. Тщательно и регулярно мойте руки, избегайте скоплений людей, отменяйте мероприятия и не касайтесь своего лица. В этом сообщении мы объясним причину нашего беспокойства, и расскажем, почему вам также следует беспокоиться. Краткое изложение ключевой информации можно найти в публикации Итана Алли (Ethan Alley) Corona in Brief (автор — президент некоммерческой организации, разрабатывающей технологии для уменьшения риска пандемий).


Содержание:


  1. Нам нужна работоспособная медицинская система
  2. Это не что-то типа гриппа
  3. Подход «Не паникуйте, сохраняйте спокойствие» не помогает
  4. Это касается не только Вас
  5. Мы должны сделать кривую более пологой
  6. Реакция общества имеет значение
  7. Мы в США плохо проинформированы
  8. Заключение
Читать дальше →
Total votes 40: ↑36 and ↓4 +32
Comments 46

Quick Draw Doodle Recognition: как подружить R, C++ и нейросетки

Reading time 32 min
Views 6.7K


Привет, Хабр!

Осенью прошлого года на Kaggle проходил конкурс по классификации нарисованных от руки картинок Quick Draw Doodle Recognition, в котором среди прочих поучаствовала команда R-щиков в составе Артема Клевцова, Филиппа Управителева и Андрея Огурцова. Подробно описывать соревнование не будем, это уже сделано в недавней публикации.

С фармом медалек в этот раз не сложилось, но было получено много ценного опыта, поэтому о ряде наиболее интересных и полезных на Кагле и в повседневной работе вещей хотелось бы рассказать сообществу. Среди рассмотренных тем: нелегкая жизнь без OpenCV, парсинг JSON-ов (на этих примерах рассматривается интеграция кода на С++ в скрипты или пакеты на R посредством Rcpp), параметризация скриптов и докеризация итогового решения. Весь код из сообщения в пригодном для запуска виде доступен в репозитории.

Содержание:


  1. Эффективная загрузка данных из CSV в базу MonetDB
  2. Подготовка батчей
  3. Итераторы для выгрузки батчей из БД
  4. Выбор архитектуры модели
  5. Параметризация скриптов
  6. Докеризация скриптов
  7. Использование нескольких GPU в облаке Google Cloud
  8. Вместо заключения
Читать дальше →
Total votes 48: ↑48 and ↓0 +48
Comments 7

Глубокое обучение с использованием R и mxnet. Часть 1. Основы работы

Reading time 14 min
Views 9.5K


Привет, Хабр!

Эта статья является первой частью руководства по приготовления нейронных сетей с использованием библиотеки mxnet на языке R. Источником вдохновения послужила онлайн-книга Deep Learning — The Straight Dope, объема которой достаточно для осознанного использования mxnet на Питоне. Примеры оттуда будут воспроизводиться с поправкой на отсутствие реализации интерфейса Gluon для R. В первой части рассмотрим установку библиотеки и общие принципы работы, а также реализуем простую линейную модель для решения задачи регрессии.
Читать дальше →
Total votes 33: ↑32 and ↓1 +31
Comments 1

Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge

Reading time 18 min
Views 14K


Привет, Хабр!

Пользователи R долгое время были лишены возможности приобщиться к deep learning-у, оставаясь в рамках одного языка программирования. С выходом MXNet ситуация стала меняться, но своеобразная документация и частые изменения, ломающие обратную совместимость, все еще ограничивают популярность данной библиотеки.

Гораздо привлекательнее выглядит использование R-интерфейсов к TensorFlow и Keras с бекендами на выбор (TensorFlow, Theano, CNTK), подробной документацией и множеством примеров. В этом сообщении будет разобрано решение задачи сегментации изображений на примере соревнования Carvana Image Masking Challenge (победители), в котором требуется научиться отделять автомобили, сфотографированные с 16 разных ракурсов, от фона. "Нейросетевая" часть полностью реализована на Keras, за обработку изображений отвечает magick (интерфейс к ImageMagick), параллельная обработка обеспечивается parallel+doParallel+foreach (Windows) или parallel+doMC+foreach (Linux).

Читать дальше →
Total votes 60: ↑58 and ↓2 +56
Comments 1

Information

Rating
Does not participate
Location
Украина
Works in
Registered
Activity