Спасибо, для классификации вакансий достаточно самой простой модели, а разговорные частицы, предлоги и наречия хорошо отделяют комментарии от вакансий. По дата инженерам согласен - соотношение между специальностями может выглядеть искаженным, добавил пометку об этом в текст.
Спасибо, согласен источник только один и данные могут быть смещенными, добавлю ремарку об этом в текст.
Но есть несколько соображений в пользу именно такой трактовки: 1) Чат ODS уже очень популярен и возможно хорошо отражает общие тенденции на рынке. 2) Если говорить о резком росте в 2021 году, то такого не было за всю историю. 3) Большая часть вакансий из чата jobs, где размещаться hr-ам запрещено.
Это ссылка на сам конкурс, но не на источник. Источником являются конкретные кернелы участников конкурса, из которых взято все все содержание статьи, вплоть до скриншотов графиков.
Хорошая статья. Если в теорию не хочется вдаваться, есть уже готовые онлайн калькуляторы для определения размера выборки. Например: www.evanmiller.org/ab-testing/sample-size.html. В приведенном примере с уровнем конверсии 0,01% и 1 млн наблюдений, доверительный интервал будет 0.006% – 0.014%.
Если метрика строится только на части данных, нужно убедится что они выбраны случайно. Простая инструкция top 1000 в запросе часто дает смещенную выборку.
Из нашей практики трейн и тест лучше по времени делить. В тест только самые свежие данные. Так результаты работы модели на практике будут более предсказуемые.
1) Да, вы правы. Есть много других факторов которые влияют на вероятность визита, в том числе место работы. В модели мы их не использовали, потому что таких данных нет. Но есть несколько соображений из которых можно опираться именно на место проживания, как на основной фактор. Пик посещений в течении дня почти во всех отделениях приходится на утро-день. Основная аудитория — это женщины, часто с детьми. То есть можно предположить, что существенная часть аудитории — это неработающие женщины, которым важно именно расстояние от дома.
2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.
700 тыс. — это объявления о продаже квартир. Мы получили их уже с координатами. Геокодирование требовалось только для клиентов, там меньше записей. Стандартных средств, таких как API Яндекс карт на такой объем достаточно. Даже с ограничением на 25 000 запросов в сутки. А по поводу точности, видимо сказалось что это Санкт-Петербург и адреса заполнены корректно.
У нас их нет. Но мы знаем для каждого дома численность жителей и долю текущих клиентов. Выставляя новую точку мы пересчитываем долю клиентов для части домов по модели. После этого пересчитываем кол-во клиентов.
Сразу, поясню что в этом конкретном случае мы больше ориентировались не на показатели качества, а на субъективное восприятие правильности результата. Но для порядка все считали: R^2 был около 0,8. Дополнительно контроль качества делали так: подставляли координаты текущих филиалов и сравнивали предсказание модели с фактическими данными. Расхождение ±10%, что вполне нас устроило.
Добрый день! Клиенты сами называют свои адреса при оформлении. Модель опирается на данные о существующих клиентах и зависимостях которые есть и на этой основе делает прогноз для потенциальных клиентов.
1) Да, конечно, модель и все картинки только дают ориентир. А конечное решение остается за менеджментом. Такие факторы как наличие подходящего помещения, транспортная доступность, парковка учитываются, но на другом этапе.
2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.
Информация
В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Спасибо, для классификации вакансий достаточно самой простой модели, а разговорные частицы, предлоги и наречия хорошо отделяют комментарии от вакансий. По дата инженерам согласен - соотношение между специальностями может выглядеть искаженным, добавил пометку об этом в текст.
Мы воспользовались нейронками в своей голове, написали регулярки и спарсили данные)
Спасибо, резюме в чате размещают мало и почти всегда без деталей по зп, так что в таком-же ключе не получится аналитику сделать.
Спасибо, согласен источник только один и данные могут быть смещенными, добавлю ремарку об этом в текст.
Но есть несколько соображений в пользу именно такой трактовки:
1) Чат ODS уже очень популярен и возможно хорошо отражает общие тенденции на рынке.
2) Если говорить о резком росте в 2021 году, то такого не было за всю историю.
3) Большая часть вакансий из чата jobs, где размещаться hr-ам запрещено.
Спасибо, была такая мысль но данных маловато, плюс очень часто в одном сообщений ищут несколько грейдов, при этом список требований один.
Если метрика строится только на части данных, нужно убедится что они выбраны случайно. Простая инструкция top 1000 в запросе часто дает смещенную выборку.
Из нашей практики трейн и тест лучше по времени делить. В тест только самые свежие данные. Так результаты работы модели на практике будут более предсказуемые.
2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.
2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.