R *

Язык для статистической обработки данных

Статьи Посты Новости Авторы Компании

NewTechAudit 28 авг 2022 в 11:35

Кластерный анализ в R

3 мин

6.1K

R*Машинное обучение*

Кластерный анализ решает задачу разбиения множества на группы (кластеры) по принципу наибольшей однородности.

Подобные задачи возникают во множестве сфер деятельности, в частности это реклама и маркетинг. Ситуация, когда нужно выделить группы клиентов, максимально «похожих» друг на друга или определить локации, в которых преобладают определённые предпочтения.

Рассмотрю подобный пример и расскажу о способах решения вопроса средствами языка R.

i_shutov 25 авг 2022 в 13:35

Jira, Jirа! Повернись к лесу задом, ко мне передом

4 мин

9.9K

Python*Data Mining*API*R*Управление разработкой*

Cезон Data Mining

*Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142)*
Избушка, Olga Kolopetko. https://illustrators.ru/illustrations/1474142

Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.

Ниже покажу один из возможных подходов по решению подобных задач средствами DS «за час» и «один экран кода». ИТ курсов на несколько месяцев появилось множество, но даже для начинающих подход от конца, когда показываешь решение насущной задачи, а потом раскладываешь его на кубики — куда эффективнее.

Для примера возьмем Jira, как часто используемую в среде разработчиков, обладающую богатым функционалом, длительной историей и хорошим API.

Все предыдущие публикации.

Читать дальше →

Abby_Baby 24 авг 2022 в 11:29

Tidymodels: аккуратное машинное обучение в R

14 мин

2.7K

R*Машинное обучение*

Туториал

Перевод

Последнее время пакет tidymodels активно развивается в направлении задач машинного обучения.

Несколько лет назад Мак Кун разработал пакет caret, целью которого было создать единую платформу для моделей машинного обучения, существующих в R. Caret был прекрасен во многих отношениях, но далек от идеала. Но это был прекрасный старт. В связи с этим RStudio пригласила Макса Куна для разработки “аккуратной” версии данного пакета. В итоге, мы получили tidymodels.

Abby_Baby 21 авг 2022 в 16:52

Как связать Rstudio с Github: актуально для пользователей Mac OS

2 мин

1.9K

R*GitHub*

Туториал

В данной заметке рассмотрим, как связать Rstudio с вашим аккаунтом на Github. Отмечу сразу, данная заметка подойдет тем, кто работает через операционную систему mac os.

Мы будем исходить из трех ограничений.

honyaki 19 авг 2022 в 23:47

О новом простом методе снижения высокой размерности данных

8 мин

8.1K

Блог компании SkillfactoryPython*Математика*R*Matlab*

Перевод

О новом методе решения проблемы оценки ковариационной матрицы в данных высокой размерности [научная работа опубликована в 2012 году] рассказываем к старту нашего флагманского курса по Data Science. Подробности — под катом:

Узнать больше

Abby_Baby 15 авг 2022 в 14:02

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

4 мин

1.2K

Из песочницы

Перевод

Данная заметка - это любительский перевод статьи Julia Silge.

Это статья взята из блога Julia Silge, которая демонстрирует использование пакетов tidymodels. В сегодняшней заметке будет продемонстрирована относительно новая функция из пакета rsample - reg_intervals. Данная функция разработана для быстрого поиска доверительных интервалов bootstrap.

Данные: набор #TidyTuesday о рекламных роликах суперкубка.

KristinaMyLife 12 авг 2022 в 15:27

Используем R lang в SQL Server

4 мин

1.7K

Блог компании OTUSMicrosoft SQL Server*R*Машинное обучение*

Туториал

В продолжение предыдущей статьи поговорим о том, как использовать SQL Server Machine Learning Services. В этой статье приведены варианты использования на языке R.

Для чего должна быть установлена R 4.2.1(https://cran.r-project.org/src/base/R-4/)

Также нам потребуется пакет randomForest, его можно установить в студии (меню) Пакеты -> Установить пакет .Если же у вас тоже windows и это не будет работать как и у меня, скачивайте пакет c CRAN и выбирайте Пакеты -> Установить пакеты из локальных файлов, а затем скаченный архив.

Некоторые пакеты требуют установки всех зависимостей, поэтому лучше устранить ошибки загрузки пакетов, если они у вас есть. Список ошибок и пути их решения описаны в блоге у Алексея Селезнева.

Для знакомства с возможностями SQL Server в машинном обучении используется датасет с пассажирами Титаника с Kaggle

acheremuhin 29 июл 2022 в 14:58

Визуализация решает или про иллюстрацию статистических тестов

4 мин

2.1K

R*Визуализация данных*

В статье представлены результаты использования пакетов ggstatsplot и ggpmisc, позволяющих визуализировать результаты проверки статистических гипотез и параметры уравнений регрессий.

acheremuhin 25 июл 2022 в 14:31

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

2 мин

1.9K

Рассмотрен функционал пакета skedastic, содержащего 20+ тестов гетероскедастичности различных моделей. Описан функционал пакета и проведен простенький эксперимент по определению эффективности этих тестов.

i_shutov 10 июл 2022 в 10:58

Круглое катить, прямоугольное тащить. А шестигранник?

6 мин

5.2K

Python*Программирование*R*Визуализация данных*

В большинстве случаев в DS предпочитают работать с прямоугольными данными и на то есть масса причин и обоснований. Очень популярна тема парсинга и развертывания вложенных json. Часто дают тестовые задания на приведение к прямоугольному виду.

Но далеко не все задачи сводятся к data.frame и не обязательно весь DS сводить к ML. Есть масса задач, оперирующих, например, с графами или их частным случаем — деревьями. Можно использовать библиотеку igraph или аналоги и не думать о деталях. А можно попробовать чуть заглянуть внутрь алгоритмов.

На примере одной задачки посмотрим на работу с деревьями с альтернативной колокольни.

Все предыдущие публикации.

Читать дальше →

SolarDozor 5 июл 2022 в 11:00

Новости из будущего: прогнозируем поведение пользователя

10 мин

2.8K

Блог компании СоларИнформационная безопасность*Алгоритмы*Математика*R*

Привет, Хабр! Сегодня речь пойдет о предсказывании будущего, поведении людей, математике и ~~котиках~~.

В повседневной жизни, общаясь с людьми, мы всегда смотрим на поведение собеседника. Поведение человека может много о нем сказать: о его воспитании, привычках, увлечениях, принципах и о личности в целом. Для нас, как для социальных существ, это очень важная информация, так как мы делаем выводы о человеке: можно ли ему доверять, на что обратить внимание, стоит ли с ним вообще иметь дело. Для нас, как для работников сферы информационной безопасности, это очень важная информация, так как мы можем делать выводы: можно ли ему доверять, на что обратить внимание, стоит ли с ним вообще иметь дело.

+12

acheremuhin 1 июл 2022 в 14:32

В туманности статистических гипотез, или про пакет SHT

9 мин

1.2K

Чуть меньше месяца назад в R появился пакет SHT, в котором реализованы несколько интересных видов статистических тестов (если точнее, там реализовано 53 теста). Данная статья – краткий обзор этих тестов и гипотез, проверяемых с их помощью/

Все статтесты разбиты на 16 групп, среди них есть и весьма экзотичные, например, тесты проверки равенства ковариационных матриц, или тест проверки одновременного равенства средних и дисперсий в двух группах. Особый интерес вызывает то, что примерно половина тестов работают и со случаями многих переменных

selesnow 28 июн 2022 в 10:50

Оборачиваем API с помощью httr2

26 мин

1.8K

Data Mining*API*R*Data Engineering*

Туториал

Перевод

Обычное использование httr2 — это создание обёртки над каким нибудь API и предоставление его в виде R пакета, в котором каждая конечная точка API (то есть URL-адрес с параметрами) становится функцией. Эта статья поможет разобраться, как начать с очень простого API, не требующего аутентификации, а затем постепенно приводимые примеры будут усложняться.

i_shutov 22 июн 2022 в 13:13

Data Science как макетная плата в enterprise задачах

5 мин

1.8K

Python*Анализ и проектирование систем*Data Mining*R*Управление проектами*

*Про черепаху. Весёлая карусель №11 1980 © (реж. А. Петров)*
Про черепаху. Весёлая карусель №11 1980 © (реж. А. Петров)

Всем, кто когда-либо касался радиоэлектроники, хорошо известны понятие макетирования и польза применения макетных плат. Когда решение только появляется голове, нет никакого смысла отливать сразу все в бетоне. От первой идеи до финального результата может пройти не один эксперимент, может многократно поменяться элементая база, по результатам первичных проверок и исходная постановка может претерпеть значительные изменения.

Степень автоматизации и цифровизации в современных компаниях достаточно велика. Фактически, можно говорить о двух плоскостях: плоскость материальных процессов и объектов (машины, каналы, вышки, вагоны, печи, ...) и плоскость цифровых потоков. Различные мобильные приложения, без ограничения общности, для пользователей мы можем рассматривать как «удлинитель» до материальных процессов. Для обеспечения качества и непрерывности материальных процессов необходимо обеспечивать полноту и актуальность соответствующих цифровых потоков, а также оперативно отвечать на вопросы, возникающие у представителей бизнеса.

Учитывая требуемую оперативность ответов, а также скорость изменений в окружающем мире, классический enterprise интеграционный подход с многолетними процедурами выбора решения и потом его долгого внедрения оказывается малопригодным. Да и собственную разработку стартовать на каждый запрос от бизнеса — тоже ничуть не быстрее и не дешевле.

Проведение аналогий с радиоэлектроникой позволяет найти неплохое решение.

Все предыдущие публикации.

Читать дальше →

i_shutov 17 июн 2022 в 16:01

Сателлит «R Markdown» — что на обратной стороне?

5 мин

2.7K

Python*Программирование*Data Mining*R*Управление разработкой*

*Обратная сторона луны*

В большинстве случаев, когда встречается что-то ранее неизвестное, люди пытаются объяснить это с помощью накопленного опыта, разложить в терминах известных вещей, развесить простые односложные ярлыки. После этого наступает порядок и ощущение полного понимания. Это очень полезный навык, но иногда такой подход не позволяет увидеть другие грани явления, пропущенные при первичном ознакомлении.

R Markdown прочно вошел в инструментальный стек R и воспринимается как базовый компонент. Однако, применительно к R Markdown практически все осуществляют такой же промах. Связка «R Markdown — это html отчет» формируется на первом шаге и дальше именно так и применятся. Реальность несколько многообразнее.

Все предыдущие публикации.

Читать дальше →

i_shutov 8 июн 2022 в 10:32

Кто за всех решил, что python удобен для «гражданской» аналитики?

8 мин

35K

Python*Data Mining*R*

*«Гарри Поттер и философский камень», (2001)*
«Гарри Поттер и философский камень», (2001)

ИТ-шником (программистом) нынче быть привлекательно. Дата саентистом тоже неплохо. Создаются и множатся курсы. Только вот они все однобокие. Несмотря на большое количество языков, большое количество технологий и алгоритмов, несмотря на весь накопленный в ИТ области багаж, 99% датасаенс курсов строятся по пути python-pandas.

Наблюдая за типовыми мучениями в решении тривиальных задач выпускников таких курсов, даже неважно какого они года выпуска, со всей очевидностью становятся видны архитектурные просчеты питона в области аналитики. На фоне жутких питон конструкций аналогичные решения, написанные на R, выглядят стройными, прозрачными, компактными и работают сильно быстрее.

Вся аргументация «за питон» строится исключительно по принципу «не думать», «рука рынка, «ну у нас же уже есть в проде 10 строк кода на питоне, что же делать?». Хотя элементарные технологические тесты и оценка экономической эффективности частенько дают неопровержимые доказательства, что DS питон является безответным поглотителем доли ИТ бюджета компаний. Взглянем ниже более пристально на отдельные моменты.

Все предыдущие публикации.

Читать дальше →

+32

238

selesnow 1 июн 2022 в 17:22

Бесплатный курс «Язык R для интернет маркетинга»

3 мин

4.7K

Data Mining*R*Веб-аналитика*Интернет-маркетинг*Data Engineering*

В ходе данного курса вы пройдёте путь от самых основ синтаксиса языка, а к его завершению научитесь собирать данные по API, парсить сайты, рассылать электронные письма и разрабатывать полноценных telegram ботов.

Курс не требует от вас наличия навыков программирования, и рассчитан на новичков.

Основной аудиторией курса являются интернет маркетологи и веб аналитики, которые после его прохождения смогут автоматизировать большую часть рутинных операций в своей повседневной работе.

selesnow 19 мая 2022 в 11:00

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

6 мин

1.1K

SQL*Data Mining*Big Data*R*Data Engineering*

Туториал

dplyr один из наиболее популярных пакетов для языка R, основным преимуществом которого является удобочитаемый и понятный синтаксис. Из недостатков данного пакета можно отметить, что при работе с данными большого объёма он значительно уступает в скорости вычислений например data.table.

В этом видео уроке мы разберёмся с тем, как можно ускорить вычисления на dplyr, за счёт бекендов dtplyr и multidplyr, а так же узнаем о том, как и зачем можно использовать бекенд dbplyr, предназначенный для работы с базами данных.

i_shutov 11 мая 2022 в 14:11

Разработчики и колпак

5 мин

5.3K

Python*Data Mining*R*Управление разработкой*DevOps*

*«You Only Live Twice», (1967)*
«You Only Live Twice», (1967)

Развитие микроэлектроники, ИТ технологий и широкого спектра программных продуктов открыло новые возможности по контролю всего. Датчики, камеры, цифровые следы… Магнитофон в чемодане уже неактуален.

Разработчики пишут, а компании внедряют различные системы для мониторинга эффективности работы сотрудников. Казалось бы, в зоне опасности банковские операционисты, кассиры, сотрудники колл-центров и т.д, а разработчики на коне.
По факту оказывается, что разработчики могут находиться под куда более жестким контролем.
Как же так???

Все предыдущие публикации.

Читать дальше →

i_shutov 6 мая 2022 в 12:51

Дата саентист и циклы-циклы-циклы…

14 мин

6.2K

Open source*Python*Data Mining*Математика*R*

«How I Met Your Mother», season 6, ep. 7

Коля любит циклы. 
Толя любит циклы. 
Оля любит циклы. 
Все любят циклы. 

И Сережа тоже.

Один Мамба их не любит. И вот почему.

Если опустить философские рассуждения, что все на уровне процессора является циклом или goto, то можно выделить три причины:

При работе с индексами цикла можно легко проглядеть и допустить ошибку. Но тут помощь приходят итераторы.
Очень часто циклы вручную пишутся очень неэффективно с точки зрения манипуляций с памятью — сильная просадка по производительности. А у вложенных циклов еще и накладные на старт цикла.
Нелинейная структура цикла (break, continue) не позволяют сделать хорошую оптимизацию на уровне процессора или компилятора. А это дополнительно означает, что распараллелить цикл по вычислителям будет очень трудно. В решении этого вопроса помогает функциональный подход и итераторы. Если известно о независимости вычислений значений каждого отдельного шага — надо сообщать об этом компилятору явно.

Все предыдущие публикации.

Читать дальше →

1 2

4 5 ...

21 22

R *

Кластерный анализ в R

Jira, Jirа! Повернись к лесу задом, ко мне передом

Tidymodels: аккуратное машинное обучение в R

Как связать Rstudio с Github: актуально для пользователей Mac OS

О новом простом методе снижения высокой размерности данных

Оценка доверительных интервалов bootstrap на примере суперкубка #TidyTuesday

Используем R lang в SQL Server

Визуализация решает или про иллюстрацию статистических тестов

Вглядываясь в зеркала или еще раз о проблеме гетероскедастичности

Круглое катить, прямоугольное тащить. А шестигранник?

Новости из будущего: прогнозируем поведение пользователя

В туманности статистических гипотез, или про пакет SHT

Оборачиваем API с помощью httr2

Ближайшие события

Data Science как макетная плата в enterprise задачах

Сателлит «R Markdown» — что на обратной стороне?

Кто за всех решил, что python удобен для «гражданской» аналитики?

Бесплатный курс «Язык R для интернет маркетинга»

Ускоряем dplyr: бекенды dtplyr, multidplyr и dbplyr (видео урок + конспект)

Разработчики и колпак

Дата саентист и циклы-циклы-циклы…

Вклад авторов

Работа