Комментарии / Профиль FFelix / Хабр

Как стать автором

Олег @FFelix

Data Scientist

Профиль Публикации 6Комментарии 20Закладки 2

Стоит ли смотреть в сторону Data science?

FFelix 10 июл 2022 в 10:36

Требования к математике сильно зависят от сферы и культуры компании, думаю.
Мой опыт в Чехии: больше половины всех вакансий в этой сфере - в маркетинге, во всех командах, которые я видел, кроме одной, не хватает дата-инженеров. Поэтому ключевые навыки: коммуникация, чтобы маркетологом объяснить что ты там нашёл, и программирование чтобы самому автоматизировать своё решение задачи end-to-end. Математика достаточно базовая: самому ничего изобретать не нужно, надо просто правильно пользоваться стандартными моделями из библиотек, с типовыми функциями потерь. И я видел людей со слабыми знаниями математики на синьор дата сайенс позициях, которых очень ценили коллеги из маркетинга.
Одновременно видел PhD в математике на позиции руководителя отдела дата сайенс - это был достаточно слабый специалиста, потому что он не изучал современных библиотек ML, методов и технологий. И хотя был, наверное, крут в математике вообще, и смог бы что-то нетривиальное в статистике посчитать, чего бы я не смог, но в применении ML алгоритмов и разных полезных библиотек (Shap, MLflow) я всё время напарывался на пробелы в его знаниях и непонимании того, что вообще я предлагаю. Я ушёл от него до конца испытательного срока: замечательный человек, хороший, наверное, математик, но нуб в технологиях, из-за которого мы делали вещи технически неэффективно.

0

Посмотреть

Стоит ли смотреть в сторону Data science?

FFelix 22 июн 2021 в 15:31

Какие-то из ваших знаний вам помогут, да. Больше всего пригодятся хорошие знания эконометрики

0

Посмотреть

Стоит ли смотреть в сторону Data science?

FFelix 22 июн 2021 в 14:01

Потому что эту статью я писал для людей без ИТ бэкграунда

0

Посмотреть

Стоит ли смотреть в сторону Data science?

FFelix 22 июн 2021 в 10:22

насчёт переквалификации не знаю. можно просто выучиться.

0

Посмотреть

Стоит ли смотреть в сторону Data science?

FFelix 22 июн 2021 в 08:43

О математиках я не пишу: таких очень мало. И если вы сильный математик, но вообще без знаний программирования, возрастом за 50 - я бы рекомендовал податься в те аналитики, которые "статистики". Т.к. изучение всех технологий может занять много времени, которое вряд ли есть. В Дата сайенс вас возьмут скорее на начальную позицию, что может быть не интересно, а в аналитике можно найти позицию, в которой сильная математика будет высоко оценена.

0

Посмотреть

Стоит ли смотреть в сторону Data science?

FFelix 21 июн 2021 в 18:38

точно подмечено, уточнил в статье

0

Посмотреть

Изучение data science c нуля: этапы и вехи

FFelix 2 мар 2021 в 16:56

Я не знаю готовых инструментов, которые смогут адекватно это сделать вот так просто, без программирования и просто кликанием.
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение

0

Посмотреть

Курсы и книги для изучения data science c нуля

FFelix 7 фев 2021 в 21:06

Рекомендую копаться не в нём, а в нейронных сетях вообще.
Примерно после освоения всего того, что описал выше — имеет смысл копаться в нём. Писал об этом в предыдущей статье, про этапы обучения.
И в другой предыдущей статье говорил про курсы от deeplearning.ai (coursera.org, Andrew Ng), c которых я бы советовал начинать изучение

0

Посмотреть

Курсы и книги для изучения data science c нуля

FFelix 7 фев 2021 в 21:04

Они очень нишевые. Просто мало вакансий. Люди с высокими знаниями машинного обучения и этими языками — будут в цене. Но со знаниями уровня джуниор, и этими языками — может быть очень сложно найти работу

0

Посмотреть

Обзор платформ для изучения машинного обучения

FFelix 1 фев 2021 в 20:06

Согласен) Я об этом в начале написал) По конкретным курсам напишу отдельную. Но эта информация может устаревать быстрее, чем общий обзор платформ.

0

Посмотреть

Изучение data science c нуля: этапы и вехи

FFelix 30 янв 2021 в 09:24

spark предоставляет высокоуровневую абстракцию, которая позволяет работать с ним, практически, как с обычной субд. Поэтому это упрощение сильно помогает объяснить что это, и снимает психологический барьер на освоение новой технологии.
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact

0

Посмотреть

Изучение data science c нуля: этапы и вехи

FFelix 24 янв 2021 в 00:08

Я решил разбить весь материал на логические части. Также чтобы статьи были не слишком длинными. В следующей (через неделю, наверное) напишу уже книги и курсы. С тех пор как сам учился вышли новые, я хочу всё пробежать глазами чтобы отобрать самое актуальное.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.

+1

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 16 янв 2021 в 01:07

я в основном учил что-то другое)
Тема пока не раскрыта, согласен. Планирую написать цикл статей и надо было с чего-то начать. Добавил уже ссылку на следующую статью. Буду писать по мере появления времени. Материалов и идей есть статей на 5-7, но время писать сложно найти.

-2

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 13 янв 2021 в 13:49

мы используем Pyspark, он всё тянет.
Тренируем модели в локальном режиме (т.е. на отдельных серверах). Это происходит не быстро, но нам нравится что их намного легче контролировать (например, shap) чем на моделях из spark-ml. Мы spark ML попробовали и отказались, в итоге.
Для непосредственного скорринга моделей — да, на отдельном сервере это медленнее. Но не критично, пока это не реал-тайм модели. У нас таких пока нет. Максимум раз в день скоринг делаем.
Итого:
вне кластера модель намного легче (для человека) обучать и инспектировать — больше библиотек. Медленнее идёт сам процесс фиттинга модели, да, но на наших объемах (обычно всего несколько миллионов записей и меньше тысячи атрибутов) это компенсируется большей скоростью работы человека, по разработке и изменению моделей. Ну и у нас очень мощные отдельные сервера, на которых модель обучается.

0

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 13 янв 2021 в 01:10

советую изучать SQL дальше, он нужен везде. И если аналитика вас возбуждает — почитайте Datasmart. Там четко показано применение анализа данных к бизнес-задачам

0

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 13 янв 2021 в 01:08

Пытался донести ответ в статье: вопрос «зачем?»
Если ради интереса, то есть, особенно если хорошая базовая математическая подготовка и сможете читать на английском. Вполне вероятно через пару лет у вас будет средняя, для ИТ-шников со стажем, зарплата, но работа может приносить большее удовольствие.
Хорошую карьеру в DS в вашем возрасте сделать уже будет сложно, скорее всего.
Почитайте Datasmart и решите сами — возбуждает ли вас это, и легко ли вы понимаете основы? Если да — имеет смысл двигаться дальше. Хотя бы для развития кругозора

0

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 13 янв 2021 в 00:58

если из моей статьи следует вывод что математика не нужна, значит или я очень плохо донёс свою мысль, или вы меня неверно поняли. Когда буду писать о нюансах изучения именно DS — напишу о математике подробнее. Хотя, я заметил что некоторые коллеги, эффективно выполняющие свои задачи, далеко не математические гуру.

-2

Посмотреть

Самообучение в Data science, с нуля до Senior за два года

FFelix 13 янв 2021 в 00:55

согласен, сформулировал некорректно. Правильнее было бы сказать, что львиная часть компаний обходятся тем, что можно сделать на Python. Многие библиотеки в других языках оказываются недостаточно гибкими или функциональными. Ну а Си просто неоправдан во многих компаниях, где важнее быстро запустить модель, а не обеспечить максимально возможную производительность в реальном времени.
Я чаще всего вижу, что ML-code пишут на python, хотя всё вокруг может быть написано на других языках. Для львиного большинства открытых позиций — знаний Python достаточно. И не будет достаточно других языков, т.е. без Python никуда.

+1

Посмотреть

Как мы используем item2vec для рекомендаций похожих товаров

FFelix 25 мар 2020 в 21:15

64+32+64+16+16 = 192 ))
В остальном — после комментариев понял. Спасибо!

0

Посмотреть

Как мы используем item2vec для рекомендаций похожих товаров

FFelix 25 мар 2020 в 16:17

Спасибо за статью!
Несколько вопросов от «чайника» (только учусь):
1.непонятно что имеется в виду на схеме слоёв нейронной сети, после дропаута. Что-то там странное с размерностью:
196*512, потом после relu 512*128. Что показывает размерность?
И еще понимание осложняется тем, что до дропаута, вектор полученный как конкатенация разных типов фич — имеет другую размерность: 192.

2.Не ясно как имеено происходит обучение, начиная с «шага 3»:
используются вообще только негативные примеры? Так получается из текста: «Выбираем 100 негативных с самым большим скором». Или тут имелось в виду что из всех негативных только 100 самых похожих? Просто это не ясно из описания шагов 3 и 4.

3.Не понятна картинка на шаге 4, для cross-enthropy loss: он считается между 8-битными векторами (128 булевых измерений), полученных из нейронной сети, или я что-то не понял?
На картинке показано сравнение beoolan-type и float-type вектора.

Очень надеюсь на ответы/пояснения

0

Посмотреть