17
Karma
0
Rating
Дмитрий @Dreamastiy

Пользователь

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Не совсем.
К сожалению каждый отдельный товар больше 6 недель не продается. А основная сложность была спрогнозировать именно первые недели, поэтому рассчитать лаг за 4 недели на уровне магазин-товар не получится. Мы смотрели лаги средних продаж категории.

Можно попробовать использовать производные продаж (кроме среднего значения) на уровне категории. Это хорошая гипотеза на дальнейшее развитие. Основная задача здесь была максимально быстро показать применимый результат с минимальными усилиями, так называемый Quick-Win.

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Честно, по косточкам SMAPE не разбирали, но сразу видно два момента:
— ее тяжело дифференцировать и как следствие оптимизировать, т.к. прогноз есть и в числителе и в знаменателе
— выглядит так, что для нее важными остаются товары с наибольшим APE:
влияние на ошибку


Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Хорошо, если есть понимание что нужно немного перепрогнозить то насколько?

Для точного ответа на этот вопрос надо понимать все косты на всем сквозном процессе предприятия — ФОТ, закупка, логистика, хранение, списания и сотни других факторов, влияющих на себестоимость конкретного товара в конкретном магазине. Отсюда можно сделать свою функцию потерь и ее оптимизировать. Или Reinforcement Learning в помощь:). WAPE, MAPE, SMAPE — это некоторые приближения, которые выбираются под задачу. Определить баланс между BIAS и WAPE можно, например, экспериментально (если вам дадут это сделать КМ'ы).

Тогда это просто дескриптивная статистика которая не помогает мне решить проблему недопрогноза.

Дескриптивная статистика не так плохо, если у вас есть фабрика моделей и вы выбираете наилучшую с точки зрения бизнеса.

а если корректировать вручную то это уже не совсем аналитическое решение

Смотря что считать аналитическим решением. Конечно голубая мечта многих, что весь процесс будет работать без участия людей. Но конкретно в ритейле до этого пока далеко. Поэтому часто аналитика рассматривается как инструмент поддержки принятия решений, а не инструмент принятия решений

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Можно оценить из предположения, что исполнение происходит строго согласно прогнозу. Да это сильное ограничение, но позволяет оценить порядок влияния на историческом отрезке. Упрощенно это выглядит следующим образом — фактически товар находится в магазине в дефиците, старый прогноз этот дефицит не покрывает, а новый покрывает. Разница в покрытии считается изменением продаж за счет нового прогноза

Если вы подразумеваете, что на запасы и продажи влияют также процессы исполнения/пополнения, то да, их вклад можно оценить только после того как прогноз пройдет всю цепочку от аналитика до выставления товара на полку.

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
На самом деле дополнительно к WAPE смотрится метрика BIAS (тот же WAPE, только без знака модуля), как раз для того, чтобы следить за недо/перепрогнозами. Обычно (не всегда) рекомендуется немного перепрогнозить (иногда в ущерб WAPE), чтобы избежать проблем с упущенными продажами.

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Интересно, на основание чего принималось решение об эффективности новой системы прогнозирования для бизнеса. Как WAPE переводили в деньги?

В деньги переводится не само изменение WAPE, а изменение запасов и продаж на магазинах.
Если немного упростить, то бизнес-кейс рассчитывался двумя путями:
— на основании «benchmark» с предыдущих проектов
— на основании out-of-stock и упущенных продаж. Несмотря на то, что при построении модели использовалось предположение, что дефицита нет (т.к. нам не успели выдать остатки), при расчете бизнес-кейса мы рассчитали «вторичный» дефицит из данных продаж и оценили упущенные продажи
Цифры оказались одного порядка

На каком уровне оценивалась ошибка, для всей сети?

WAPE оценивался понедельно двумя способами:
— ошибка прогноза товаров на всю сеть (цифры из статьи)
— ошибка прогноза товаров на каждом магазине — здесь улучшение еще лучше

Отслеживали ли, что происходило в конкретных магазинах?

Конкретные магазины отслеживали — это один из шагов процесса, необходимый для понимания, что вносит наибольший вклад в ошибку прогнозирования.

В итоге решение было реализовано в продакшене?

Смотря что иметь ввиду под продакшн:
— в текущем процессе используется простой прогноз продаж, мы предложили заменить его на чуть более сложный, это практически не изменяет работу аналитиков
— если рассматривать целевую картину, то TO-BE процесс предложен, но еще не реализован, так что про этот конкретный кейс сможем рассказать чуть позже
— Если под продакшн имеется ввиду scheduling ETL и запуска моделей, то на SAS это делается довольно просто, но это тема отдельной статьи

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

0
Согласен на 100%. Правда на SAS это немного проще, чем на опен-сорсе, меньше 90% получится :)
Про вывод в прод хочется написать, но это сложно — с одной стороны нужно учесть все соглашения по неразглашениям, с другой не превратить рассказ в книгу размером с войну и мир

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

Как вы выбираете продукты в магазине?

+1
Пример с Кока-Колой похож на пример с йогуртами Данон из статьи — для них бренд важная характеристика. Конечно такое поведение есть и в других категориях, но не везде. Данные показывают, что статистически значимая связь в рамках бренда есть не всегда. Если в вашем эксперименте поставить две банки сгущенки одинаково оформленные, одна под брендом "Глубокое", другая "Волоконовское" какую вы выберете?
Пример с маслом не слишком наглядный, прокомментируйте, пожалуйста…

По маслу — идем слева направо. Сначала товары объединились в рамках бренда(Экомилк/Тысяча озер), это группы в которых товары наиболее заменяемы и их метрика W наиболее велика. Далее товары объединились в большую группу — малой и большой массой (180г/450г) и далее в группу Масло.
Что касается опыта… какие позиции и сколько лет?

Приезжайте к нам в гости — познакомимся :)

Как вы выбираете продукты в магазине?

0
Как насчет полки, где в одном сегменте не менее 3 брендов?(упаковка, цена плюс-минус рядом)

Зависит от категории и ритейлера, бывают различные варианты. Пример со сгущенкой из статьи как похож на этот случай — явного разделения на бренды в рамках одного типа упаковки и ценового сегмента не видно. Но, например, в пиве оно есть.

Как насчет класса покупателей, где определяющим фактором является цена?

В статье приведен пример, рассчитанный на всем множестве клиентов, т.е. это среднее поведение покупателей. Если вы выделяете какой-то класс клиентов, то для него можно провести отдельный анализ. Но сразу возникает нетривиальный вопрос — как использовать различные параметры для одних и тех же товаров в бизнесе.
И поскольку промо занимает не менее 55% продаж в торговом обороте, то согласитесь, позицию которую вы не могли себе позволить вчера, а сегодня в акцию вы захотите купить(изменение ценового сегмента)

Согласен — вопрос интересный. Тут нужно аккуратно понять цель для которой проводится анализ. В некоторых случаях можно ограничится покупками только по регулярной цене. В некоторых, конечно, нужно использовать все данные, включая промо.

Как вы выбираете продукты в магазине?

+1
Постараюсь ответить на вопросы:
— Про привязанность к бренду речь идет о конкретном примере — сгущенке. Немного подправил формулировку, чтобы читалось не так категорично. Конечно в других ветках дерева привязанность к бренду может присутствовать:
Пример с маслом
image

— Про опыт — неужели создается такое впечатление? :) Вся текущая команда сформирована из людей, которые долгое время работали в различных ритейлерах на разных по вертикали позициях и в разных департаментах.

Как вы выбираете продукты в магазине?

0
Массовые скидки — это отдельная головная боль для ритейлеров. На текущий момент доля покупок по массовым промо в России огромна. Вот здесь кратко описана ситуация: Промоакции достигли почти 2/3 продаж ритейла. Каждая компания решает эту задачу как может. Возможно Ашан нашел свой путь :)

Как вы выбираете продукты в магазине?

0
Если по другому рассмотреть взаимосвязи товаров, то получатся типовые покупательские корзины — среднестатистические списки покупок. Они используются немного в других задачах и могут показать более комплексную картину похода в магазин (продукты для вечеринки, закупка на целую неделю, «студенческий» обед и т.д.).

А подход из статьи помогает определить на какие параметры товаров в среднем ориентируется покупатель и какие потребности эти товары закрывают.

Оптимизация цен в оффлайн ритейле

0

Добрый день.


Правильно ли я понимаю, что под сезонностью мы понимаем значения сезонной составляющей (например из STL decomposition)

Не совсем, скорее сезонная компонента + тренд.
Т.е. если максимально упростить алгоритм, то последовательность действий следующая:


  • Прогнозируем ряд методами временных рядов (без учета прочих факторов)
  • Вычитаем результат, получаем остатки 1
  • Прогнозируем остатки 1 с помощью регрессии и внешних факторов
  • Вычитаем из остатков 1 прогнозы регрессии, получаем остатки 2
  • Остатки 2 прогнозируем методами временных рядов и собираем результат обратно

Вычитаются именно абсолютные значения? Или есть какие-то переходы в относительные значения?

Есть переходы в относительные значения. Необходимо масштабировать эффекты на нужный уровень иерархии. Говоря простым языком — если сезонность и тренд мультипликативны, то достаточно их значений. Если аддитивны, то их необходимо нормировать на продажи конкретного ряда.

Оптимизация цен в оффлайн ритейле

0

Чтобы не словить мультиколлинеарность, можно начать с добавления в формулу спроса только самых сильных кросс-эффектов, например только промо на наиболее схожие товары, можно использовать регуляризацию. В обоих случаях параметры модели используются таким же образом, как и при отсутствии мультиколлинеарности.

Оптимизация цен в оффлайн ритейле

0

Если я правильно понял, то вопрос из области производства/CPG, не совсем из ритейла. В производстве/CPG обычно добавляется еще уровень клиента, т.е. итоговая иерархия состоит из товарной/географической/клиентской.


агрегация данных и каскадирование параметров регрессии в глубину идет по уровням этой иерархии

  • да, агрегация и каскадирование делается по новой иерархии, построенной именно для задачи моделирования спроса.

как вырабатывать эту струтуру если есть принятая в компании иерархия

основная идея заключается в определении характеристик товаров, географии/складов, клиентов и выстраивании их в нужном порядке


  • по опыту самый быстрый способ все таки опросить категориалов. Если после усреднения мнений все еще остается несколько основных вариантов, то можно попробовать все, и выбрать наилучший это обычно занимает не так много времени
  • аналитический способ 1 — анализ собственных продаж. Надо сделать кластеризацию продаж. Например:
    • По схожести временных рядов
    • По коэффициентам вот такой регрессии dep ~ indep + time_index + seasonal_dummy

С помощью классификации кластеров определить значимые признаки. Рассмотреть несколько вариантов упорядочивания признаков. "Правильный" порядок будет давать наилучшую точность прогноза на нижнем уровне


  • аналитический способ 2 — анализ чековых данных клиентов. Часто самая большая сложность построить именно товарную иерархию. Для решения этой задачи можно использовать анализ транзакционного графа. Для этого надо — получить чековые данные ритейлера. Построить на них граф продаж (пример есть в статье), из графа получить иерархию сообществ. Удивительным образом иерархия сообществ легко трактуется по признакам товаров.

допустим в истории есть резкий провал на каком то верхнем уровне иерархии

В статье речь идет больше про классический ритейл, где один клиент не оказывает такого большого влияния на продажи на верхних уровнях. В приведенном примере надо рассмотреть несколько вариантов, например восстановить продажи выведенного товара / убрать проблемную ветку клиент-товар и определить сезонность без нее / оставить как есть, т.к. сезонность усредняется за несколько периодов / воспользоваться ARIMA с индикатором проблемы / ...
По поводу флуктуации клиентов надо смотреть конкретно вашу ситуацию.

Оптимизация цен в оффлайн ритейле

0
Вопрос филосовский.
Каждый покупатель голосует за тот или иной магазин своим кошельком. Оптимизация процессов (куда входит и оптимизация ценообразования) приводит к снижению издержек в компании, что позволяет в том числе снизить цены (в условиях конкуренции) и сделать более доступными те вещи, которые ранее были очень дорогими.

Оптимизация цен в оффлайн ритейле

0
Над этой темой тружусь, но не в Дикси. Сейчас работаю в аналитической компании (в чьем блоге находится статья). Статья — попытка обобщить и рассказать имеющийся с нескольких проектов опыт

Оптимизация цен в оффлайн ритейле

+2
Чтобы вы хотели узнать более подробно?
При моделировании спроса для оптимизации цен необходимо получить функцию зависимости спроса от цены.

Конкретные популярные виды функций, которые дают 90% успеха (из статьи)



Пробуете несколько типов функций, строите регрессию в любимом инструменте, выбираете наилучший вариант и получаете конкретные цифры, которые отвечают за зависимость спроса от цены и прочих факторов.

Соотношения реальной температуры и прогноза Яндекс.Погоды

Никогда не принимайте контрпредложение

+31
Тоже самое можно сказать другими словами.

«Я проанализировал предложения и у меня сложилось впечатление, что моя зарплата не соответствует рынку, вот офферы, которые это подтверждают. Мне нравится текущая должность и работа, но прошу поднять мне з/п до конкурентноспособной»

Это вполне подойдет под основания.

Лауреаты Шнобелевской премии 2016

Онлайн-программа по анализу данных на Stepik.org

Онлайн-программа по анализу данных на Stepik.org

Онлайн-программа по анализу данных на Stepik.org

0
Скажите, пожалуйста, если я сдавал экзамены курсов (алгоритмы, C++, Java) по прошлогодней программе, могу я их зачесть, не сдавая экзамены заново?

[Опрос] А вот про нейронные сети, ИИ и т.д

+1
Т.е. что касается интеллекта, принципиальная разница чем нейронная сеть отличается от какого либо алгоритма (и это же одно из главных преимуществ ее) — она в состоянии улучшать результат на основании прошлого опыта (я утрирую, но речь здесь об интеллекте, не будем здесь собственно про коннективизм, нейроны, сигналы, веса и т.п.).

Улучшать результат на основании прошлого опыта способны многие другие алгоритмы, использующие методы стохастической оптимизации. Это не принципиальное отличие нейросетей. Возможно вы имели в виду что-то другое, но из этого предложения это непонятно.

Искусство прогнозирования в системе SAP F&R для управления запасами

0
Можете показать, как на самом деле повели себя продажи на 1 графике?

Поправьте, если я не прав, но сильно похоже на то, что система взяла сглаженную сезонность предшествующего года, а два позапрошлых года никак не учла (там продажи ведут себя совсем подругому).

Сказ царя Салтана о потенциале лапласиана

Приглашаем на Data Fest 5 и 6 марта

0
Регистрация уже закрыта только на хакатон или целиком на мероприятие? Есть еще шанс записаться?

Постановка задачи компьютерного зрения

+1
Конечно все зависит от конкретной задачи, но вы сделали очень спорное утверждение.

Во-первых не на всех ценниках печатают штрих-коды (например овощи и фрукты).
Во-вторых на один товар может приходиться несколько десятков штрих-кодов (если не больше). Т.е. после сбора всех ШК придется все равно сопоставлять товары и ШК между собой. А как это сделать не имея хотя бы названия — та еще задачка.

Но сканер штрих-кодов безусловно проще в реализации — это да.

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

0
Прошу прощения — ошибся.
Маркетинг курсеры сделал свое дело. Раньше со страницы специализации перейти на бесплатное прохождение одного из курсов было проще.

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

0
Последнее время на Курсере все больше и больше курсов, которые нельзя проходить бесплатно.

Этот курс будет бесплатным? Если нет — какая ориентировочная стоимость?

Как Big Data помогает бизнесу и почему Data Scientist – первый помощник

0
Чекер с ума сходит. На все загрузки говорит 0%. Проверил на уже принятой удачной попытке — тоже 0%.

Кто ВКонтакте самый главный?

+5
Попробовал исполнить приведенный код, получил
следующие результаты
ТОП-20
(красивая табличка почему-то не форматируется,
цифра — количество подписчиков,
в коде заменил https на http, иначе не работало):

Павел Дуров 6186800
Катя Клэп 1406028
Михаил Задорнов 735902
Виктория Боня 733776
Кристина Добродушная 609152
Maria Way 602324
Юлия Пушман 433243
Макс Корж 417176
Ира Ира 240699
Дарья http://vkontakte.ru/club5896878 Пынзарь (Черных) 215022
Анна Хилькевич 208150
Miron Oxxxymiron Федоров 207155
Дмитрий Данилов 178425
Саша [Феникс] Межаков 133934
Назарій Куля 112318
Анастасия MarMeladka Мачихина 102562
Денис Гущин 101302
Ирина Воронцова 98883
Гузалька Хуббиева 98122
Сергей dreik Колесник 97648


Видно, что пересечение с результатами в статье менее половины. Возникает вопрос о воспроизводимости и надежности результатов.
Есть ли понимание сколько надо взять id аккаунтов, чтобы в 95% случаев получать одинаковый ТОП-10 например?

Кто ВКонтакте самый главный?

+1
# Генерируем id аккаунта с replace (выбираем из 2.8 млн. id 700 аккаунтов с повторениями)
id_num <- sample.int(280000000, size = 300, replace = T)

Все думал, как собрать список Id VK.
Ваше решение порадовало.
А почему выборка с повторениями?

Как подобрать платье с помощью метода главных компонент

0
Может я ошибаюсь, но разве на обучение нейронной сети не уйдет гораздо больше времени? Количество слоев ведь тоже надо подобрать (однослойной тут не обойдешься, иначе будет тот же самый логит). А тут просто расчет ковариационной матрицы и ее собственных векторов.

P.S.: как демонстрация метода, мне кажется, отличный пример.

Как легко понять логистическую регрессию

+1
Спасибо за статью.

Интересно было бы почитать про многоклассовый логит.
Стоило упомянуть (поправьте, пожалуйста, если я ошибаюсь), что оценки максимального правдоподобия логита не существует в случае идеальной линейной разделимости исходных данных на классы (ситуация которая приведена в качестве примера в статье).

Покупка оптимальной квартиры с R

+1
Спасибо! А табличку метод регрессии — cost функция — результат можете выложить?

Покупка оптимальной квартиры с R

+1
Мне лично были бы интересны подробности следующих частей:

1. Отображение на карте,
2. Графический веб-интерфейс,
3. Определение лямбы в Lasso и Ridge

Кстати, если Ridge и Lasso показывают себя плохо, имеет смысл попробовать их суперпозицию, которая в некоторых случаях ведет себя лучше.

Покупка оптимальной квартиры с R

+4
Отличная статья, жалко, что без подробностей (на GitHub например).

Как организовали работу Shiny под Win — виртуалка, запуск прямо из RStudio или у Shiny Server наконец-то появилась нативная поддержка Windows?
1 There