R *

Язык для статистической обработки данных

Статьи Посты Новости Авторы Компании

SergeyMarin 31 дек 2016 в 10:42

Школа Данных «Билайн»: с Наступающим

1 мин

7.6K

Блог компании билайн бизнес Data Mining *Алгоритмы *Big Data *R *

Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.

Читать дальше →

+11

temujin 23 дек 2016 в 17:38

Распределение Пуассона и футбольные ставки

5 мин

101K

Программирование *Алгоритмы *Математика *R *

Если объединить статистические данные спортивных соревнований с распределением Пуассона, то можно рассчитать вероятное количество мячей, которые будут забиты во время футбольной игры. На этом основании можно понять откуда берутся букмекерские ставки, а также научиться самостоятельно их рассчитывать с помощью R.

ТМ 2.5 ТБ 2.5

+41

qc-enior 10 дек 2016 в 23:28

Отслеживание хода выполнения в R

4 мин

6.6K

R *Визуализация данных *

Перевод

Неважно, отдаем ли мы себе в этом отчет, но когда нужно подождать, мы волнуемся и сгораем от нетерпения. Особенно это касается ожидания «вслепую», т.е. когда неизвестно, сколько же еще придется мучиться. Как выяснил Брэд Аллан Майерс, считающийся изобретателем индикатора состояния в 1980-х, возможность отслеживать ход выполнения во время ожидания может значительно улучшить механизм взаимодействия пользователя с приложением (Майерс, 1985).

Типичный индикатор состояния от Simeon87 [GPL], Wikimedia Commons

Поскольку я программирую на R для исследований в биоинформатике, мой код обычно не для широкой публики, но все же важно, чтобы мои пользователи, то бишь коллеги и исследователи, были счастливы, насколько это возможно. Но отслеживание хода выполнения в R — не самая простая задача. В этой статье представлены несколько возможных решений, в том числе и мое собственное (pbmcapply).

Читать дальше →

+18

i_shutov 8 дек 2016 в 11:58

«До чего дошел прогRесс». Замена «умственного» труда механическим процессом на базе R

3 мин

10K

Data Mining *Big Data *R *

Каждый новый день зачастую подкидывает новые задачки. Не в смысле их радикальной новизны, а в смысле «еще одного типа задач», которые обычно встречаются в бизнес-окружении.

На этот раз задача оказалась предельно простая и прагматичная, но ее решение дает далеко идущие последствия.

Кейс

Суть задачи в следующем:

Читать дальше →

+15

tonytonov 30 ноя 2016 в 12:59

Низкоуровневая оптимизация и измерение производительности кода на R

8 мин

Высокая производительность *Программирование *R *

Из песочницы

За последнее десятилетие R прошёл большой путь: от нишевого (как правило, академического) инструмента до мейнстримной «большой десятки» самых популярных языков программирования. Такой интерес вызван многими причинами, среди которых и принадлежность к open source, и деятельное коммьюнити, и активно растущий сегмент применения методов machine learning / data mining в разнообразных бизнес-задачах. Приятно видеть, когда один из твоих любимых языков уверенно завоёвывает новые позиции, и когда даже далёкие от профессиональной разработки пользователи начинают интересоваться R. Но здесь есть, однако, одна большая проблема:

Какая же?

+22

Schvepsss 25 ноя 2016 в 09:26

data.table: выжимаем максимум скорости при работе с данными в языке R

9 мин

15K

Блог компании Microsoft Data Mining *Big Data *R *Машинное обучение *

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.

Читать дальше →

+25

kast218 24 ноя 2016 в 22:18

10 причин почему именно сейчас стоит попробовать Microsoft SQL Server

6 мин

45K

SQL *Microsoft SQL Server *Microsoft Azure *R *

Причина №1 — Microsoft SQL Server теперь работает и под Linux

16 ноября 2016 года Microsoft опубликовал первую публичную кросплатформенную версию SQL Server VNext, которая теперь работает и под Linux: Public preview of the next release of SQL Server — Bring the performance and security of SQL Server to Linux and Windows

Читать дальше →

105

i_shutov 22 ноя 2016 в 17:24

Еще примеры использования R для решения практических бизнес-задач

6 мин

17K

Data Mining *Big Data *R *

С момента прошлой публикации пришлось примеряться к ряду различных задач, связанных тем или иным образом с обработкой данных. Задачи совершенно разные, но во всех случаях инструменты R позволили элегантно и эффективно их решить. Ниже, собственно, кейсы (картинок нет).

Читать дальше →

+14

ikashnitsky 11 ноя 2016 в 14:25

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

6 мин

8.8K

Data Mining *R *Открытые данные *Визуализация данных *

R код (gist) для воспроизведения всех результатов

В первой части, подхваченный вдохновением и желанием проверить гипотезы сразу, я проанализировал взаимосвязь между соотношением полов и распространенностью убийств в странах Европы. Результаты не подтвердили моих ожиданий. Похоже, что во многом страны Европы напоминают регионы одной страны со своей периферией и своими центрами.

В следующей итерации своего скептицизма, результаты которого вы можете прочитать ниже, я проверяю свою гипотезу на данных американских графств, как и авторы исходной статьи.

Коротко о гипотезе

Если вам лень заглянуть в первую часть статьи, то вот кратко суть. Авторы опубликованного в журнале Human Nature исследования утверждают, что соотношения полов во взрослом населении влияет на распространенность тяжких преступлений (в частности, убийств): чем больше женщин, тем больше и преступлений. Я по-прежнему думаю, что все дело в упущенной переменной — центральность/периферийность (urban/rural) — которая и должна объяснять как повышенную долю женщин в городах, так и большее количество преступлений в них.

Убедительно подтвердить свои догадки на простеньких европейских данных мне не удалось. Попробуем на подробных американских.

Читать дальше →

+18

qc-enior 10 ноя 2016 в 11:56

Создание интерактивных графиков с R и Highcharts

6 мин

7.3K

Data Mining *R *Визуализация данных *

Туториал

Перевод

Иногда в попытках решить простые задачи приходят в голову великие идеи. Это особенно верно для разработчиков, которые готовы приложить массу усилий для решения простой проблемы к полному своему удовлетворению. Эта история о том, как Торстейн Хенси, основатель и СРО Highcharts искал простой инструмент для создания графиков, чтобы поместить на свою домашнюю страницу замеры глубины снега на Викафьеллет, местной горе, где у семьи был коттедж. Разочаровавшись в обычных flash-расширениях и коммерческих решениях, доступных на тот момент, он решил создать собственное и, конечно же, им поделиться.

Для создания красивых графиков в этой статье я воспользуюсь пакетом highcharter Джошуа Кунста, оболочкой для javascript-библиотеки Highcharts и Shiny.

Пожалуйста, учтите, что все продукты в этой библиотеке бесплатны для некоммерческого использования. Для коммерческих проектов и сайтов воспользуйтесь этим.

Читать дальше →

+13

temujin 26 окт 2016 в 22:31

Голуби брутфорсят парадокс Монти Холла лучше людей

6 мин

56K

Алгоритмы *Математика *R *

Голуби дают людям фору в решении дилеммы Монти Холла, что могло бы позволить им успешно выступать на одноименном ток-шоу. Это закономерность может, в свою очередь, излить свет на то, почему людям так трудно она дается.

Чем примечательна эта дилемма? При кажущейся простоте, она запутывает логические цепочки наших умозаключений, заставляя людей (но не голубей), в буквальном смысле, блуждать в трех соснах, вернее — в дверях. Это свойственно представителям самых разных культурных традиций: американцы, китайцы, шведы и бразильцы совершают одинаково неверный выбор.

Когнитивный психолог Massimo Piattelli-Palmarini заметил по этому поводу: Ни одна статистическая задача даже рядом не стоит по способности дурачить всех людей и во все времена.

В этой статье мы узнаем, в чем состоит дилемма, найдем теоретическое верное решение, проверим его в R, расскажем про интеллектуальную битву людей с голубями и узнаем ее результаты.

оставить или поменять

+99

311

jzha 23 окт 2016 в 23:49

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

4 мин

26K

Data Mining *R *Открытые данные *Визуализация данных *

В первой части статьи о выборах 2016 года шла речь о результатах в 225 избирательных округах. В этот раз рассмотрим данные о результатах голосования по участковым избирательным комиссиям (УИК), которых насчитывалось чуть менее 100 тысяч. Этот уровень детализации позволяет увидеть неожиданные явления и удивительные закономерности в результатах голосования.

Читать дальше →

+81

119

jzha 23 окт 2016 в 23:45

Выборы-2016. Часть 1 — результаты и сравнения

3 мин

17K

Data Mining *R *Открытые данные *Визуализация данных *

В сентябре прошли выборы в Госдуму РФ VII созыва. При голосовании вся территория России была разделена на 225 округов. В каких округах каждая из партий получила высокие (или низкие) результаты? Какие значения принимала явка избирателей и как она влияла на результаты партий? Ответы на эти вопросы и ряд других наблюдений представлены в этой публикации.

Читать дальше →

+42

qc-enior 23 окт 2016 в 19:44

Кластеризация с пакетом ClusterR, часть 2

7 мин

6.9K

Data Mining *R *Машинное обучение *

Туториал

Перевод

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация — задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника статистического анализа, применяемая в разных сферах, в т.ч. машинном обучении, распознавании образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, компьютерной графике.

Наиболее известные примеры алгоритмов кластеризации — кластеризация на основе связности (иерархическая кластеризация), кластеризация на основе центров (метод k-средних, метод k-медоидов), кластеризация на основе распределений (GMM — Gaussian mixture models — Гауссова смесь распределений) и кластеризация на основе плотности (DBSCAN — Density-based spatial clustering of applications with noise — пространственная кластеризация приложений с шумом на основе плотности, OPTICS — Ordering points to identify the clustering structure — упорядочивание точек для определения структуры кластеризации, и др.).

В первой части: гауссова смесь распределений (GMM), метод k-средних, метод k-средних в мини-группах.

Читать дальше →

+15

nikitos18 17 окт 2016 в 04:45

Как программист машину покупал. Часть II

11 мин

39K

Программирование *Data Mining *Алгоритмы *R *Машинное обучение *

В предыдущей статье на примере покупки Mercedes-Benz E-klasse не старше 2010 года выпуска стоимостью до 1.5 млн рублей в Москве была рассмотрена задача поиска выгодных автомобилей. Под выгодными следует понимать предложения, цена которых ниже рыночной в текущий момент среди объявлений, собранных со всех наиболее авторитетных сайтов по продаже б/у автомобилей в РФ.

На первом этапе в качестве метода машинного обучения была выбрана множественная линейная регрессия, были рассмотрены правомерность ее использования, а также плюсы и минусы. Простая линейная регрессия была выбрана в качестве ознакомительного алгоритма. Очевидно, что существует еще много методов машинного обучения для решения поставленной задачи регрессии. В этой статье я хотел бы рассказать вам, как именно я выбирал наиболее оптимальный алгоритм машинного обучения для исследуемой модели, который в настоящее время используется в реализованном мною сервисе — robasta.ru.

Читать дальше →

+41

i_shutov 13 окт 2016 в 19:23

Применение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям

3 мин

15K

Data Mining *Big Data *R *

В этой краткой заметке хочу поделиться еще одним вариантом использования R в повседневных бизнес задачах. Этот «use-case» актуален почти для всех компаний, вне зависимости от их размера. Речь идет о подготовке различных оперативных отчетов и аналитических срезов.

Читать дальше →

+11

ikashnitsky 11 окт 2016 в 18:14

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]

10 мин

21K

Data Mining *R *Открытые данные *Визуализация данных *

UPD Добавил R код (gist) для воспроизведения всех результатов

Исследование, недавно опубликованное в престижном научном журнале Human Nature, обнаружило, что преобладание женщин сопряжено с более высокой преступностью. Вывод сильно противоречит житейскому представлению о том, что где мужчины, там и преступления. Однако он находит поддержку в сравнительно молодых теориях формирования брачных рынков.

Несмотря на стройность использованных в исследовании методов, мне кажется, в нем упущена важная переменная, возможно, ключевая. Было бы прекрасно проверить на тех же данных, но авторы их не публикуют приложением к статье, а собрать самостоятельно — довольно большая работа. Пока решил пойти другим путем — устранить проблемную переменную из дизайна исследования.

Я проверил, наблюдается ли подобная закономерность в Европе на уровне стран. Заинтересованных прошу под кат.

Немного об этом посте не слишком хабровского формата

Изначально мое внимание к исследованию привлек пост в блоге демографа Бориса Денисова. В дискуссии с ним же родилась идея проверить закономерность на странах Европы. Проверил. Результаты интересные. И стал думать, где опубликовать. В очередной раз пришел к выводу, что лучше хабра варианта нет. Понимаю, что тема, вероятно, заинтересует меньшую часть аудитории сообщества. И все же я надеюсь на доброжелательное отношение и ценные комментарии — очень хочется услышать мнения "со стороны". Что касается категоризации статьи — думаю, на хабре не помешал бы хаб (или даже поток) "Академия" (писал от этом раньше в комментарии).

В свое оправдание могу сказать, что те, кому не интересна демография, найдут в этом посте R код, позволяющий в автоматическом режиме скачать данные о населении из двух прекрасных баз данных — Eurostat и Human Mortality Database и воспроизвести все графики, включая и карты. (Ссылка на код в конце статьи)

Читать дальше →

+35

SergeyMarin 7 окт 2016 в 10:35

Школа Данных «Билайн», на Неве

3 мин

4.5K

Блог компании билайн бизнес Data Mining *Алгоритмы *Big Data *R *

Привет, Хабр! Вы уже не раз слышали про то, что мы проводим курсы машинного обучения и анализа данных в Школе Данных «Билайн». Сегодня мы отмечаем уже 6-й выпуск на нашем аналитическом курсе и 4й — на курсе для менеджеров. Только успев выпустить один курс — мы набираем новый. После каждого очередного выпуска мы собираем обратную связь от наших слушателей, анализируем ее и делаем нашу программу еще более насыщенной практикой и примерами из реального бизнеса.

Нам пишут со всей страны и из-за ее пределов с вопросами, когда Школа Данных появится в их городе. Мы откликнулись на эти пожелания и расширяем наше присутствие.

Сегодня мы рады объявить о запуске нашей программы в Петербурге! Мы собрали самых лучших преподавателей в этой славном городе, подготовили замечательную программу и в этом посте расскажем все подробности обучения.

Курс начинается 28-го октября, будет проходить по понедельникам и пятницам в вечернее время с 19.00 до 21.00 в офисе компании «Билайн» по адресу Васильевский остров, 21 линия, д. 6, литер А (ближайшая станция метро «Василеостровская»).

Впереди нас ждет 18 занятий (курс рассчитан на 9 недель), на которых мы постараемся покрыть самые важные темы анализа данных.

Читать дальше →

Olga_ol 4 окт 2016 в 14:50

Лекции Техносферы. 1 семестр. Введение в анализ данных (весна 2016)

3 мин

43K

Блог компании VK Python *Алгоритмы *Математика *R *

Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением полезных бизнесу знаний из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).

Лекция 1. Введение в Python

Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.

Читать дальше →

+60

i_shutov 3 окт 2016 в 17:07

Запрягаем R на службу бизнесу на «1-2-3»

6 мин

9.6K

Data Mining *Big Data *R *

Настоящий пост является является, фактически, резюме, подводящим итоги предыдущих «технологических» публикаций [1, 2, 3, 4, 5] и возникших дискуссий и обсуждений. Последние показали, что задач в которых применение R могло бы оказать хорошую помощь бизнесу очень и очень много. Однако, даже в тех случаях, когда R используется, далеко не всегда для этого применяются современные возможности R.

Читать дальше →

+23

1 2 ...

13 14

16 17 ...

21 22

R *

Школа Данных «Билайн»: с Наступающим

Распределение Пуассона и футбольные ставки

Отслеживание хода выполнения в R

«До чего дошел прогRесс». Замена «умственного» труда механическим процессом на базе R

Кейс

Истории

Низкоуровневая оптимизация и измерение производительности кода на R

data.table: выжимаем максимум скорости при работе с данными в языке R

10 причин почему именно сейчас стоит попробовать Microsoft SQL Server

Причина №1 — Microsoft SQL Server теперь работает и под Linux

Еще примеры использования R для решения практических бизнес-задач

Женщины и убийства: есть ли тут взаимосвязь? [часть 2 из 2]

Создание интерактивных графиков с R и Highcharts

Голуби брутфорсят парадокс Монти Холла лучше людей

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

Выборы-2016. Часть 1 — результаты и сравнения

Ближайшие события

Кластеризация с пакетом ClusterR, часть 2

Как программист машину покупал. Часть II

Применение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям

Женщины и убийства: есть ли тут взаимосвязь? [часть 1 из 2]

Школа Данных «Билайн», на Неве

Лекции Техносферы. 1 семестр. Введение в анализ данных (весна 2016)

Лекция 1. Введение в Python

Запрягаем R на службу бизнесу на «1-2-3»

Вклад авторов

Работа