Как стать автором
Обновить
20
0
Олег @FFelix

Data Scientist

Отправить сообщение

Требования к математике сильно зависят от сферы и культуры компании, думаю.
Мой опыт в Чехии: больше половины всех вакансий в этой сфере - в маркетинге, во всех командах, которые я видел, кроме одной, не хватает дата-инженеров. Поэтому ключевые навыки: коммуникация, чтобы маркетологом объяснить что ты там нашёл, и программирование чтобы самому автоматизировать своё решение задачи end-to-end. Математика достаточно базовая: самому ничего изобретать не нужно, надо просто правильно пользоваться стандартными моделями из библиотек, с типовыми функциями потерь. И я видел людей со слабыми знаниями математики на синьор дата сайенс позициях, которых очень ценили коллеги из маркетинга.
Одновременно видел PhD в математике на позиции руководителя отдела дата сайенс - это был достаточно слабый специалиста, потому что он не изучал современных библиотек ML, методов и технологий. И хотя был, наверное, крут в математике вообще, и смог бы что-то нетривиальное в статистике посчитать, чего бы я не смог, но в применении ML алгоритмов и разных полезных библиотек (Shap, MLflow) я всё время напарывался на пробелы в его знаниях и непонимании того, что вообще я предлагаю. Я ушёл от него до конца испытательного срока: замечательный человек, хороший, наверное, математик, но нуб в технологиях, из-за которого мы делали вещи технически неэффективно.

Какие-то из ваших знаний вам помогут, да. Больше всего пригодятся хорошие знания эконометрики

Потому что эту статью я писал для людей без ИТ бэкграунда

насчёт переквалификации не знаю. можно просто выучиться.

О математиках я не пишу: таких очень мало. И если вы сильный математик, но вообще без знаний программирования, возрастом за 50 - я бы рекомендовал податься в те аналитики, которые "статистики". Т.к. изучение всех технологий может занять много времени, которое вряд ли есть. В Дата сайенс вас возьмут скорее на начальную позицию, что может быть не интересно, а в аналитике можно найти позицию, в которой сильная математика будет высоко оценена.

точно подмечено, уточнил в статье

Я не знаю готовых инструментов, которые смогут адекватно это сделать вот так просто, без программирования и просто кликанием.
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение
Рекомендую копаться не в нём, а в нейронных сетях вообще.
Примерно после освоения всего того, что описал выше — имеет смысл копаться в нём. Писал об этом в предыдущей статье, про этапы обучения.
И в другой предыдущей статье говорил про курсы от deeplearning.ai (coursera.org, Andrew Ng), c которых я бы советовал начинать изучение
Они очень нишевые. Просто мало вакансий. Люди с высокими знаниями машинного обучения и этими языками — будут в цене. Но со знаниями уровня джуниор, и этими языками — может быть очень сложно найти работу
Согласен) Я об этом в начале написал) По конкретным курсам напишу отдельную. Но эта информация может устаревать быстрее, чем общий обзор платформ.
spark предоставляет высокоуровневую абстракцию, которая позволяет работать с ним, практически, как с обычной субд. Поэтому это упрощение сильно помогает объяснить что это, и снимает психологический барьер на освоение новой технологии.
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact
Я решил разбить весь материал на логические части. Также чтобы статьи были не слишком длинными. В следующей (через неделю, наверное) напишу уже книги и курсы. С тех пор как сам учился вышли новые, я хочу всё пробежать глазами чтобы отобрать самое актуальное.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.
я в основном учил что-то другое)
Тема пока не раскрыта, согласен. Планирую написать цикл статей и надо было с чего-то начать. Добавил уже ссылку на следующую статью. Буду писать по мере появления времени. Материалов и идей есть статей на 5-7, но время писать сложно найти.
мы используем Pyspark, он всё тянет.
Тренируем модели в локальном режиме (т.е. на отдельных серверах). Это происходит не быстро, но нам нравится что их намного легче контролировать (например, shap) чем на моделях из spark-ml. Мы spark ML попробовали и отказались, в итоге.
Для непосредственного скорринга моделей — да, на отдельном сервере это медленнее. Но не критично, пока это не реал-тайм модели. У нас таких пока нет. Максимум раз в день скоринг делаем.
Итого:
вне кластера модель намного легче (для человека) обучать и инспектировать — больше библиотек. Медленнее идёт сам процесс фиттинга модели, да, но на наших объемах (обычно всего несколько миллионов записей и меньше тысячи атрибутов) это компенсируется большей скоростью работы человека, по разработке и изменению моделей. Ну и у нас очень мощные отдельные сервера, на которых модель обучается.
советую изучать SQL дальше, он нужен везде. И если аналитика вас возбуждает — почитайте Datasmart. Там четко показано применение анализа данных к бизнес-задачам
Пытался донести ответ в статье: вопрос «зачем?»
Если ради интереса, то есть, особенно если хорошая базовая математическая подготовка и сможете читать на английском. Вполне вероятно через пару лет у вас будет средняя, для ИТ-шников со стажем, зарплата, но работа может приносить большее удовольствие.
Хорошую карьеру в DS в вашем возрасте сделать уже будет сложно, скорее всего.
Почитайте Datasmart и решите сами — возбуждает ли вас это, и легко ли вы понимаете основы? Если да — имеет смысл двигаться дальше. Хотя бы для развития кругозора
если из моей статьи следует вывод что математика не нужна, значит или я очень плохо донёс свою мысль, или вы меня неверно поняли. Когда буду писать о нюансах изучения именно DS — напишу о математике подробнее. Хотя, я заметил что некоторые коллеги, эффективно выполняющие свои задачи, далеко не математические гуру.
согласен, сформулировал некорректно. Правильнее было бы сказать, что львиная часть компаний обходятся тем, что можно сделать на Python. Многие библиотеки в других языках оказываются недостаточно гибкими или функциональными. Ну а Си просто неоправдан во многих компаниях, где важнее быстро запустить модель, а не обеспечить максимально возможную производительность в реальном времени.
Я чаще всего вижу, что ML-code пишут на python, хотя всё вокруг может быть написано на других языках. Для львиного большинства открытых позиций — знаний Python достаточно. И не будет достаточно других языков, т.е. без Python никуда.
64+32+64+16+16 = 192 ))
В остальном — после комментариев понял. Спасибо!
Спасибо за статью!
Несколько вопросов от «чайника» (только учусь):
1.непонятно что имеется в виду на схеме слоёв нейронной сети, после дропаута. Что-то там странное с размерностью:
196*512, потом после relu 512*128. Что показывает размерность?
И еще понимание осложняется тем, что до дропаута, вектор полученный как конкатенация разных типов фич — имеет другую размерность: 192.

2.Не ясно как имеено происходит обучение, начиная с «шага 3»:
используются вообще только негативные примеры? Так получается из текста: «Выбираем 100 негативных с самым большим скором». Или тут имелось в виду что из всех негативных только 100 самых похожих? Просто это не ясно из описания шагов 3 и 4.

3.Не понятна картинка на шаге 4, для cross-enthropy loss: он считается между 8-битными векторами (128 булевых измерений), полученных из нейронной сети, или я что-то не понял?
На картинке показано сравнение beoolan-type и float-type вектора.

Очень надеюсь на ответы/пояснения

Информация

В рейтинге
Не участвует
Откуда
Praha, Hlavni Mesto Praha, Чехия
Зарегистрирован
Активность