Как стать автором
Обновить
24
0
Егор Борисов @egorborisov

Data scientist

Отправить сообщение

Спасибо, для классификации вакансий достаточно самой простой модели, а разговорные частицы, предлоги и наречия хорошо отделяют комментарии от вакансий. По дата инженерам согласен - соотношение между специальностями может выглядеть искаженным, добавил пометку об этом в текст.

Мы воспользовались нейронками в своей голове, написали регулярки и спарсили данные)

Спасибо, резюме в чате размещают мало и почти всегда без деталей по зп, так что в таком-же ключе не получится аналитику сделать.

Спасибо, согласен источник только один и данные могут быть смещенными, добавлю ремарку об этом в текст.

Но есть несколько соображений в пользу именно такой трактовки:
1) Чат ODS уже очень популярен и возможно хорошо отражает общие тенденции на рынке.
2) Если говорить о резком росте в 2021 году, то такого не было за всю историю.
3) Большая часть вакансий из чата jobs, где размещаться hr-ам запрещено.

Спасибо, была такая мысль но данных маловато, плюс очень часто в одном сообщений ищут несколько грейдов, при этом список требований один.

Частично данные готовятся и обрабатываются на уровне хранилища. Частично на уровне дашборда.
Только sql и dax. Почти все, что хотели, смогли реализовать без использования питона.
Ахаха) У директора широкое поле для выбора. С таким же успехом можно было вообще никого не нанимать.
Это ссылка на сам конкурс, но не на источник. Источником являются конкретные кернелы участников конкурса, из которых взято все все содержание статьи, вплоть до скриншотов графиков.
Укажите ссылку на источник и напишите, что статья является просто упрощенным переводом. Плагиатить все, даже картинки и выдавать это за свою работу — некрасиво. www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction
Хорошая статья. Если в теорию не хочется вдаваться, есть уже готовые онлайн калькуляторы для определения размера выборки. Например: www.evanmiller.org/ab-testing/sample-size.html. В приведенном примере с уровнем конверсии 0,01% и 1 млн наблюдений, доверительный интервал будет 0.006% – 0.014%.

Если метрика строится только на части данных, нужно убедится что они выбраны случайно. Простая инструкция top 1000 в запросе часто дает смещенную выборку.

Из нашей практики трейн и тест лучше по времени делить. В тест только самые свежие данные. Так результаты работы модели на практике будут более предсказуемые.

1) Да, вы правы. Есть много других факторов которые влияют на вероятность визита, в том числе место работы. В модели мы их не использовали, потому что таких данных нет. Но есть несколько соображений из которых можно опираться именно на место проживания, как на основной фактор. Пик посещений в течении дня почти во всех отделениях приходится на утро-день. Основная аудитория — это женщины, часто с детьми. То есть можно предположить, что существенная часть аудитории — это неработающие женщины, которым важно именно расстояние от дома.

2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.
700 тыс. — это объявления о продаже квартир. Мы получили их уже с координатами. Геокодирование требовалось только для клиентов, там меньше записей. Стандартных средств, таких как API Яндекс карт на такой объем достаточно. Даже с ограничением на 25 000 запросов в сутки. А по поводу точности, видимо сказалось что это Санкт-Петербург и адреса заполнены корректно.
У нас их нет. Но мы знаем для каждого дома численность жителей и долю текущих клиентов. Выставляя новую точку мы пересчитываем долю клиентов для части домов по модели. После этого пересчитываем кол-во клиентов.
При расчете нового места мы считаем только дополнительный эффект для всей сети. Он не включает в себя текущих клиентов, только новых.
Сразу, поясню что в этом конкретном случае мы больше ориентировались не на показатели качества, а на субъективное восприятие правильности результата. Но для порядка все считали: R^2 был около 0,8. Дополнительно контроль качества делали так: подставляли координаты текущих филиалов и сравнивали предсказание модели с фактическими данными. Расхождение ±10%, что вполне нас устроило.
Добрый день! Клиенты сами называют свои адреса при оформлении. Модель опирается на данные о существующих клиентах и зависимостях которые есть и на этой основе делает прогноз для потенциальных клиентов.
1) Да, конечно, модель и все картинки только дают ориентир. А конечное решение остается за менеджментом. Такие факторы как наличие подходящего помещения, транспортная доступность, парковка учитываются, но на другом этапе.

2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Работает в
Дата рождения
Зарегистрирован
Активность