Комментарии / Профиль egorborisov / Хабр

Как стать автором

Егор Борисов @egorborisov

Data scientist

Профиль Публикации 4Комментарии 19Закладки 8

Анализ вакансий и зарплат в Data Science

egorborisov 2 сен 2021 в 10:53

Спасибо, для классификации вакансий достаточно самой простой модели, а разговорные частицы, предлоги и наречия хорошо отделяют комментарии от вакансий. По дата инженерам согласен - соотношение между специальностями может выглядеть искаженным, добавил пометку об этом в текст.

0

Посмотреть

Анализ вакансий и зарплат в Data Science

egorborisov 26 авг 2021 в 23:49

Мы воспользовались нейронками в своей голове, написали регулярки и спарсили данные)

+4

Посмотреть

Анализ вакансий и зарплат в Data Science

egorborisov 26 авг 2021 в 23:47

Спасибо, резюме в чате размещают мало и почти всегда без деталей по зп, так что в таком-же ключе не получится аналитику сделать.

0

Посмотреть

Анализ вакансий и зарплат в Data Science

egorborisov 26 авг 2021 в 23:45

Спасибо, согласен источник только один и данные могут быть смещенными, добавлю ремарку об этом в текст.

Но есть несколько соображений в пользу именно такой трактовки:
1) Чат ODS уже очень популярен и возможно хорошо отражает общие тенденции на рынке.
2) Если говорить о резком росте в 2021 году, то такого не было за всю историю.
3) Большая часть вакансий из чата jobs, где размещаться hr-ам запрещено.

0

Посмотреть

Анализ вакансий и зарплат в Data Science

egorborisov 26 авг 2021 в 23:34

Спасибо, была такая мысль но данных маловато, плюс очень часто в одном сообщений ищут несколько грейдов, при этом список требований один.

0

Посмотреть

Мониторинг работы кредитного скоринга в Power BI

egorborisov 29 янв 2020 в 11:53

Частично данные готовятся и обрабатываются на уровне хранилища. Частично на уровне дашборда.

0

Посмотреть

Мониторинг работы кредитного скоринга в Power BI

egorborisov 28 янв 2020 в 11:38

Только sql и dax. Почти все, что хотели, смогли реализовать без использования питона.

0

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 27 янв 2020 в 15:03

Ахаха) У директора широкое поле для выбора. С таким же успехом можно было вообще никого не нанимать.

0

Посмотреть

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

egorborisov 14 янв 2020 в 11:49

Это ссылка на сам конкурс, но не на источник. Источником являются конкретные кернелы участников конкурса, из которых взято все все содержание статьи, вплоть до скриншотов графиков.

+1

Посмотреть

Что влияет на выдачу кредита. Обзор соревнования Home Credit Default Risk

egorborisov 14 янв 2020 в 10:59

Укажите ссылку на источник и напишите, что статья является просто упрощенным переводом. Плагиатить все, даже картинки и выдавать это за свою работу — некрасиво. www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction

+1

Посмотреть

Сэмплирование и точность вычислений

egorborisov 8 июл 2019 в 09:41

Хорошая статья. Если в теорию не хочется вдаваться, есть уже готовые онлайн калькуляторы для определения размера выборки. Например: www.evanmiller.org/ab-testing/sample-size.html. В приведенном примере с уровнем конверсии 0,01% и 1 млн наблюдений, доверительный интервал будет 0.006% – 0.014%.

Если метрика строится только на части данных, нужно убедится что они выбраны случайно. Простая инструкция top 1000 в запросе часто дает смещенную выборку.

0

Посмотреть

Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python

egorborisov 29 июн 2019 в 11:02

Из нашей практики трейн и тест лучше по времени делить. В тест только самые свежие данные. Так результаты работы модели на практике будут более предсказуемые.

0

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 21 июн 2019 в 09:58

1) Да, вы правы. Есть много других факторов которые влияют на вероятность визита, в том числе место работы. В модели мы их не использовали, потому что таких данных нет. Но есть несколько соображений из которых можно опираться именно на место проживания, как на основной фактор. Пик посещений в течении дня почти во всех отделениях приходится на утро-день. Основная аудитория — это женщины, часто с детьми. То есть можно предположить, что существенная часть аудитории — это неработающие женщины, которым важно именно расстояние от дома.

2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.

+1

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 21 июн 2019 в 09:49

700 тыс. — это объявления о продаже квартир. Мы получили их уже с координатами. Геокодирование требовалось только для клиентов, там меньше записей. Стандартных средств, таких как API Яндекс карт на такой объем достаточно. Даже с ограничением на 25 000 запросов в сутки. А по поводу точности, видимо сказалось что это Санкт-Петербург и адреса заполнены корректно.

+1

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 20 июн 2019 в 14:10

У нас их нет. Но мы знаем для каждого дома численность жителей и долю текущих клиентов. Выставляя новую точку мы пересчитываем долю клиентов для части домов по модели. После этого пересчитываем кол-во клиентов.

+1

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 20 июн 2019 в 13:55

При расчете нового места мы считаем только дополнительный эффект для всей сети. Он не включает в себя текущих клиентов, только новых.

+1

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 20 июн 2019 в 13:48

Сразу, поясню что в этом конкретном случае мы больше ориентировались не на показатели качества, а на субъективное восприятие правильности результата. Но для порядка все считали: R^2 был около 0,8. Дополнительно контроль качества делали так: подставляли координаты текущих филиалов и сравнивали предсказание модели с фактическими данными. Расхождение ±10%, что вполне нас устроило.

+1

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 20 июн 2019 в 13:44

Добрый день! Клиенты сами называют свои адреса при оформлении. Модель опирается на данные о существующих клиентах и зависимостях которые есть и на этой основе делает прогноз для потенциальных клиентов.

0

Посмотреть

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

egorborisov 20 июн 2019 в 13:42

1) Да, конечно, модель и все картинки только дают ориентир. А конечное решение остается за менеджментом. Такие факторы как наличие подходящего помещения, транспортная доступность, парковка учитываются, но на другом этапе.

2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.

+1

Посмотреть