Как стать автором
Обновить
10
0
Никита Башун @niqx

Data Analyst

Отправить сообщение

Сам себе BI-аналитик или как навести порядок в отчётности компании

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.7K

Привет, Хабр! На связи аналитики Кошелька. Наша команда состоит из 13 дата-аналитиков, 5 DE-инженеров, 2 ML-инженеров и ровно 0 BI-аналитиков. Что мы любим делать? Определять метрики и рисовать дашборды. Что нужно заказчику? Метрики и дашборды (а еще достижение целей и выручка, но не будем сейчас об этом).

В этой статье мы собрали инструкцию, как можно навести порядок в отчётности без отдельных BI-аналитиков, и с какими проблемами вы можете столкнуться в процессе.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии10

Как мы посчитали уровень Data Driven’ности в компании и вклад в него каждого аналитика?

Время на прочтение7 мин
Количество просмотров3.7K

Салют! Меня зовут Ваня Леонтьев, я директор по аналитике в СберМаркете. Эта статья о том, как мы оцифровали такую сложную концепцию как data-культура в компании. Поделюсь предпосылками, нашим подходом к расчету и планами по её развитию. Думаю, наш опыт будет интересен аналитикам, лидам аналитических команд, руководителям продукта и компаний в целом — всем тем, кто кто стремится продвигать культуру данных в своей компании. А также тем, кто хочет иметь инструмент для приоритизации и управления в команде аналитики.

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии4

Чтобы не терять деньги: оповещения о падениях продуктовых метрик

Время на прочтение9 мин
Количество просмотров10K

Пытаясь уследить за всем многообразием метрик и срезов на дашбордах, можно легко упустить из виду важное изменение метрик, сигнализирующее о проблеме. И если вовремя не отреагировать, то можно лишиться аудитории или выручки. Расскажем, как мы автоматизировали оповещения о падениях (или нездоровых взлётах) продуктовых метрик, чтобы сразу оценивать масштаб проблемы в деньгах, и что это дало продукту. Наш опыт будет полезен в первую очередь аналитикам и руководителям продуктов.

Читать далее
Всего голосов 48: ↑46 и ↓2+44
Комментарии7

Не работай «в стол»: руководство для эффективного аналитика

Время на прочтение9 мин
Количество просмотров10K

Привет, Хабр! Меня зовут Денис, я работаю продуктовым аналитиком в Delivery Club. Наша команда за последние полгода провела около сотни продуктовых исследований данных, которые способствовали появлению нескольких десятков продуктовых гипотез по улучшению нашего продукта. За это время мы структурировали процесс и минимизировали работу «в стол». Я расскажу об основных этапах исследования, применив которые вы можете значительно улучшить качество своей работы.

Читать далее
Всего голосов 24: ↑24 и ↓0+24
Комментарии4

Бутстреп и А/Б тестирование

Время на прочтение10 мин
Количество просмотров49K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Гигиена встреч для продакта: как не сойти с ума от митингов

Время на прочтение5 мин
Количество просмотров2.4K

В какой-то момент у любого продакта (да и вообще менеджера) рабочий график превращается в сплошную полосу из регулярных встреч, сессий, планирований, синков, статус-репортов, воркшопов и ван-он-ванов. В результате ты обязательно задаёшься вопросом — а успеваешь ли ты работать? И нужно ли столько времени тратить на ужимки перед веб-камерой, не будучи при этом стримером?

Чтобы не сойти с ума и фильтровать все входящие запросы на митинги, я сформулировал несколько правил гигиены календаря и осмысленности встреч.

Эти банальные правила помогают мне выносить пользу со встреч, а ещё разгружать календарь. Возможно, помогут и кому-то из читателей.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

Ключевые метрики: как мы рассчитывали RPS, а пришли к custdev

Время на прочтение13 мин
Количество просмотров5.5K

Многие сталкиваются с проблемой оценки эффективности работы отдельной команды. Как понять куда двигается команда? На что она должна влиять, а на что может? Как её работа улучшает всю компанию?

Эти вопросы задавали и мы себе в команде Каталога приложения «Кошелёк». Поначалу ответы нам казались очевидными — выбираем метрику и по ней делаем все выводы.

В этой статье я расскажу, почему всё оказалось не так просто. Как мы прошли путь от одной метрики до продуктовых исследований, опросов и формирования системы метрик. И как сделать так, чтобы дашборды с показателями и графиками были не просто красочной картинкой, а приносили пользу команде и влияли на её планы и вектор развития.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии0

Как устроено A/B-тестирование в Авито

Время на прочтение7 мин
Количество просмотров78K

Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование.


А/B эксперименты — ключевой инструмент принятия решений в Авито. В нашем цикле продуктовой разработки А/B-тест является обязательным этапом. Мы проверяем каждую гипотезу и выкатываем только позитивные изменения.


Мы собираем сотни метрик и умеем детализировать их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Мы делаем это автоматизированно с помощью единой платформы для экспериментов. В статье я достаточно подробно расскажу, как платформа устроена и мы с вами погрузимся в некоторые интересные технические детали.


Читать дальше →
Всего голосов 53: ↑48 и ↓5+43
Комментарии35

Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

Время на прочтение6 мин
Количество просмотров35K
Все рано или поздно приходят к аналитике за данными. В больших многопользовательских играх (да и синглплеере) без этого уже вообще никуда. Сколько пользователей предпочитают новый режим; где слабые места монетизации; куда смотреть геймдизайнерам, чтобы повысить вовлеченность игроков; и еще миллион вещей — подсчитывается вообще всё. И всё это влияет на решения, которые потом принимают разработчики.

А вот внедряют аналитику все по-разному: кто-то покупает сторонние решения (просто, но негибко), кто-то пишет под себя (долго и дорого), а кто-то пока просто считает несколько базовых метрик силами программистов и не заморачивается.

Поэтому я расскажу об инструменте, который будет полезен для всех. Кто только начинает выстраивать аналитику — сможет «на коленке» создать систему с нуля, а компании с уже готовыми решениями — «бустануть» свой подход.
Читать дальше →
Всего голосов 42: ↑42 и ↓0+42
Комментарии22

Машинное обучение на языке R с использованием пакета mlr3

Время на прочтение16 мин
Количество просмотров9.1K

Источник: https://mlr3book.mlr-org.com/


Привет, Хабр!

В этом сообщении мы рассмотрим самый продуманный на сегодняшний день подход к машинному обучению на языке R — пакет mlr3 и экосистему вокруг него. Данный подход основан на «нормальном» ООП с использованием R6-классов и на представлении всех операций с данными и моделями в виде графа вычислений. Это позволяет создавать упорядоченные и гибкие пайплайны для задач машинного обучения, но на первых порах может показаться сложным и запутанным. Ниже постараемся внести определенную ясность и замотивировать к использованию mlr3 в ваших проектах.

Содержание:


  1. Немного истории и сравнение с конкурирующими решениями
  2. Технические детали: R6-классы и пакет data.table
  3. Основные составляющие ML-пайплайна в mlr3
  4. Настройка гиперпараметров
  5. Обзор экосистемы mlr3
  6. Пайпы и граф вычислений
Читать дальше →
Всего голосов 35: ↑33 и ↓2+31
Комментарии7

Применяем Data Science в мирных целях покупки дома

Время на прочтение9 мин
Количество просмотров25K
Чтобы продать что-нибудь ненужное, нужно сначала купить что-нибудь ненужное, а у нас денег нет.
— Трое из Простоквашино

Введение


Так получилось, что я живу в своей квартире (или кондо по-местному) в Монреале. И однажды, примерно год назад меня посетила мысль что неплохо бы перебраться в собственный дом. Некоторый опыт покупки и продажи жилья у меня уже был и, в принципе, можно было бы подойти к этому вопросу просто, как поступает большинство местных обывателей: нанять риэлтора и предоставить ему разобраться со всеми вопросами, но это было бы скучно и неинтересно.


Поэтому я решил подойти к этому делу научно. Есть задача: надо разобраться сколько примерно стоит то что у меня есть, и где находится то что я могу себе позволить. Ну и попутный вопрос — понять куда дует ветер. И изучить гео-пространственные вычисления в R.

Читать дальше →
Всего голосов 24: ↑24 и ↓0+24
Комментарии35

EDA под другим углом

Время на прочтение10 мин
Количество просмотров20K
image

Поговорим не про еду, а про разведочный анализ данных (exploratory data analysis, EDA) который является обязательной прелюдией перед любым суровым ML.

Будем честны, процесс довольно занудный, и чтобы выцепить хоть какие-то значимые инсайты про наши данные — требуется потратить достаточное количество времени активно используя любимую библиотеку визуализации.

А теперь представим что мы довольно ленивы (но любопытны) и будем следовать этому постулату всю эту статью.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Метрики в задачах машинного обучения

Время на прочтение9 мин
Количество просмотров623K

Привет, Хабр!



В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.


В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.


Читать дальше →
Всего голосов 40: ↑39 и ↓1+38
Комментарии9

Галерея лучших блокнотов по ML и Data Science

Время на прочтение3 мин
Количество просмотров33K
Привет, читатель.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

image

Итак, приступим.

Вводные курсы в Jupyter Notebook


Читать дальше →
Всего голосов 41: ↑34 и ↓7+27
Комментарии7

Визуализация больших графов для самых маленьких

Время на прочтение12 мин
Количество просмотров56K


Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать дальше →
Всего голосов 95: ↑94 и ↓1+93
Комментарии30

Материалы открытого курса OpenDataScience и Mail.Ru Group по машинному обучению и новый запуск

Время на прочтение9 мин
Количество просмотров146K

Недавно OpenDataScience и Mail.Ru Group провели открытый курс машинного обучения. В прошлом анонсе много сказано о курсе. В этой статье мы поделимся материалами курса, а также объявим новый запуск.



UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.


Кому не терпится: новый запуск курса — 1 февраля, регистрация не нужна, но чтоб мы вас запомнили и отдельно пригласили, заполните форму. Курс состоит из серии статей на Хабре (Первичный анализ данных с Pandas — первая из них), дополняющих их лекций на YouTube-канале, воспроизводимых материалов (Jupyter notebooks в github-репозитории курса), домашних заданий, соревнований Kaggle Inclass, тьюториалов и индивидуальных проектов по анализу данных. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_ai.

Всего голосов 80: ↑79 и ↓1+78
Комментарии24

Революция в области искусственного разума. Часть первая: путь к Сверхразуму

Время на прочтение24 мин
Количество просмотров58K
Вторая часть
Примечание переводчика: Данная статья является переводом публикации «The AI Revolution: The Road to Superintelligence». Оригинальная статья была написана для широкой аудитории, поэтому многие термины использованные в ней могут быть не точными или вообще не научными. При переводе я старался сохранить непринуждённый дух статьи и юмор, с которым был написан оригинал. К сожалению, это не всегда получалось. Переводчик согласен не со всем, что написано в данной статье, но правки к фактам и своё мнение не были добавлены даже в виде примечаний или комментариев. В тексте могут быть ошибки и опечатки, сообщайте о них, пожалуйста, в личные сообщения, буду стараться исправлять всё максимально быстро. Все ссылки в тексте скопированы из оригинальной статьи и ведут на англоязычные ресурсы.

We are on the edge of change comparable to the rise of human life on Earth. — Vernor Vinge

Мы стоим на пороге перемен сравнимых, разве что с самим рождением человечества. Вернор Виндж.

Каково это находиться здесь?


Читать дальше →
Всего голосов 60: ↑55 и ↓5+50
Комментарии130

Как правильно «фармить» Kaggle

Время на прочтение27 мин
Количество просмотров154K

image
*фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).


Введение


Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

проверить глубину этой кроличьей норы
Всего голосов 87: ↑86 и ↓1+85
Комментарии15

Большие ошибки в больших данных: проблемы анализа на практике

Время на прочтение7 мин
Количество просмотров7.4K


При работе с big data ошибок не избежать. Вам нужно докопаться до сути данных, расставить приоритеты, оптимизировать, визуализировать данные, извлечь правильные идеи. По результатам опросов, 85 % компаний стремятся к управлению данными, но только 37% сообщают об успехах в этой области. На практике изучать негативный опыт сложно, поскольку о провалах никто не любит говорить. Аналитики с удовольствием расскажут об успехах, но как только речь зайдет об ошибках, будьте готовы услышать про «накопление шума», «ложную корреляцию» и «случайную эндогенность», и без всякой конкретики. Действительно ли проблемы с big data существуют по большей части лишь на уровне теории?

Сегодня мы изучим опыт реальных ошибок, которые ощутимо повлияли на пользователей и аналитиков.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии4

Информация

В рейтинге
Не участвует
Откуда
Краснодар, Краснодарский край, Россия
Работает в
Зарегистрирован
Активность