Обновить
Комментарии 31
с нуля до Senior за два года

Я бы выкинул слово Senior или заменил бы чем-то нейтральным. Оно имеет слишком неопределенный смысл, различный в разных компаниях. За два года можно много чего добиться, но при этом всегда будут люди, у которых либо просто больше опыта, либо реально больше умеющие.

Ну или можеть быть — конкретизировать, чему научились. Скажем, такая типовая проблема именно для области DS — сколько ваших моделей дошли до практического применения, и начали приносить прибыль, а сколько было выкинуто (некоторые источники называли процент выкинутых моделей более 90)?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.


Вот тут я не понял. Есть же tensorflow, у которого есть API для массы самых разных языков. Ну т.е. очевидный вариант — одна реализация на C/C++, и API для кучи языков, которые не лень было написать.

И есть Spark ML, на котором у нас куча моделей в проме, и который поддерживает благодаря спарку Java, Scala, Python и R (не говоря уже про кучку языков под JVM).

Кто из них в зачаточном состоянии?

Ага, после прочтения этого пассажа стало окончательно понятно, что автор отнюдь не Senior.

Ну, да, есть такие подозрения. Меня еще смущает (очень сильно) заявление, что на изучение SQL нужно 10 часов, и 20 часов чтобы получить уверенное владение всем необходимым.

Тут у нас явно разные взгляды на то, что есть все необходимое, потому что я лично изучаю SQL (в разных его диалектах) где-то с 20 века, и все еще не могу сказать, что я знаю все тонкости. Так что 20 часов — и вы еще будете плавать во многих вопросах (я бы сказал — в большинстве вопросов). И наверняка не будете знать тонкости даже для одной конкретной СУБД.
согласен, сформулировал некорректно. Правильнее было бы сказать, что львиная часть компаний обходятся тем, что можно сделать на Python. Многие библиотеки в других языках оказываются недостаточно гибкими или функциональными. Ну а Си просто неоправдан во многих компаниях, где важнее быстро запустить модель, а не обеспечить максимально возможную производительность в реальном времени.
Я чаще всего вижу, что ML-code пишут на python, хотя всё вокруг может быть написано на других языках. Для львиного большинства открытых позиций — знаний Python достаточно. И не будет достаточно других языков, т.е. без Python никуда.
Ну, я вообще немного другое имел в виду. Скажем, у нас ds все пишут на питоне, да. Им так удобнее, потому что юпитер, и все такое (и потому что их опыт такой — скажем, у меня нет такой потребности прототипировать на нем, потому что у меня для этого есть скала, на которой все мои задачи получаются лучше).

Но потом, когда это доходит до прома, большая часть этого переписывается на спарк (java или scala), потому что в исходном виде просто на реальных объямах не работает, а сложность большинства практических моделей обычно небольшая, и Spark ML покрывается из коробки. Объемы же при этом у нас большие, так что производительность в целом важна.

Ну или в крайнем случае — тоже спарк, но код остается на питоне (редко бывает, так как есть ряд неудобств и просадка производительности местами).
мы используем Pyspark, он всё тянет.
Тренируем модели в локальном режиме (т.е. на отдельных серверах). Это происходит не быстро, но нам нравится что их намного легче контролировать (например, shap) чем на моделях из spark-ml. Мы spark ML попробовали и отказались, в итоге.
Для непосредственного скорринга моделей — да, на отдельном сервере это медленнее. Но не критично, пока это не реал-тайм модели. У нас таких пока нет. Максимум раз в день скоринг делаем.
Итого:
вне кластера модель намного легче (для человека) обучать и инспектировать — больше библиотек. Медленнее идёт сам процесс фиттинга модели, да, но на наших объемах (обычно всего несколько миллионов записей и меньше тысячи атрибутов) это компенсируется большей скоростью работы человека, по разработке и изменению моделей. Ну и у нас очень мощные отдельные сервера, на которых модель обучается.
Логично. Кстати, зря это в тексте не отразили. На мой взгляд, просто человек с опытом DS, и человек с опытом внедрения DS моделей в пром — это два разных уровня квалификации.
А я бы выкинул словосочетание «с нуля». База была — программист 1С, хоть и несколько специфическое направление — это уже платформа для старта.
Вот если бы от «кассира пятёрочки»…
Список неплохой, не хватает «Python for everybody» и списка литературы по математике — помимо восстановления школьной программы.
Да, согласен. У нас был в проекте случай, когда мы брали человека с 10 годами опыта 1С. На проект по большим данным и Spark, с пройденными курсами переподготовки на Java.

Казалось бы — начинающий. Но ничего такого — эти 10 лет очень даже сказались, в частности весьма неплохой опыт SQL. Ну т.е. да, человек может многого и не знал, но годы в разработке все-таки не прошли даром, пусть даже в другой области.
Главное — выбирайте курсы, в которых вы можете сразу начать прямо в браузере пробовать писать простейшие запросы к данным. Только так, тренируясь на разных примерах, действительно можно выучить SQL

Кстати, есть неплохой сайт sql-ex.ru с упражнениями по SQL… ну и другие есть, конечно — hackerrank.com и т.д.

Какая-то циничная самореклама. Помогать другим — это действительно здорово и достойно уважения. Но вот почему-то многие имеют превратное представление об айти. В частности, убило, что математика не нужна. Ну, да, можно и без математики вообще. Брать готовую модель, тренировать данные, кидать в продакшен. И пофиг. Только к датасайенс это имеет такое же отношение, как я — к Пушкину. И нужно отделять ремесло и профессию.
Чем больше я в айти ( а я очень не хотел идти в него ) — тем больше я убеждаюсь, что это какая-то кротовая нора. И чтобы быть синьором недостаточно просто охватить и изучить какую-то конкретную технологию или инструмент, а нужно системное видение всего решения и используемого в него с полным пониманием что и где можно менять и к каким последствиям это приведёт. К сожалению, даже у бизнеса не всегда есть понимание, что ему нужны прям спецы-спецы, в результате тяп-ляп и в продакшен и «так сойдёт»

Но вот почему-то многие имеют превратное представление об айти. В частности, убило, что математика не нужна.

Для DS матан оч нужен.
Чем больше я в айти ( а я очень не хотел идти в него )

Почему? А куда хотели?
К сожалению, даже у бизнеса не всегда есть понимание, что ему нужны прям спецы-спецы, в результате тяп-ляп и в продакшен и «так сойдёт»

Да просто бизнес считает деньги, а не качество.
Для DS матан оч нужен.

да, именно так. Прошу прощения некорректно выразился — не то, что математика не нужна, а то, что многие так думают.


Почему? А куда хотели?

в более консервативные сферы, где нужно каждые 2 года переучиваться почти полностью (по крайней мере так казалось снаружи) на новые фреймворки. А потом оказывается, что все эти фреймворки для разработки абсолютно однотипные...


Да просто бизнес считает деньги, а не качество.

+ и качество роляет только в том случае, если это является конкурентным преимуществом...

в более консервативные сферы, где нужно каждые 2 года переучиваться почти полностью (по крайней мере так казалось снаружи) на новые фреймворки. А потом оказывается, что все эти фреймворки для разработки абсолютно однотипные...

А можно пример? А сейчас вы в какой сфере ,DS?
если из моей статьи следует вывод что математика не нужна, значит или я очень плохо донёс свою мысль, или вы меня неверно поняли. Когда буду писать о нюансах изучения именно DS — напишу о математике подробнее. Хотя, я заметил что некоторые коллеги, эффективно выполняющие свои задачи, далеко не математические гуру.
если из моей статьи следует вывод что математика не нужна, значит или я очень плохо донёс свою мысль,


В частности, убило, что математика не нужна. Ну, да, можно и без математики вообще. Брать готовую модель, ....

Имелось ввиду матан как раз таки нужен.

Интересно, а в соревнованиях на Kaggle участвовали? Как нашли первую работу без опыта в data science?

Есть ли смысл пытаться, если мне 43? Data science очень интересен, есть опыт программирования на SQL и C#. Работаю ИТ-шником с 22 лет.
Пытался донести ответ в статье: вопрос «зачем?»
Если ради интереса, то есть, особенно если хорошая базовая математическая подготовка и сможете читать на английском. Вполне вероятно через пару лет у вас будет средняя, для ИТ-шников со стажем, зарплата, но работа может приносить большее удовольствие.
Хорошую карьеру в DS в вашем возрасте сделать уже будет сложно, скорее всего.
Почитайте Datasmart и решите сами — возбуждает ли вас это, и легко ли вы понимаете основы? Если да — имеет смысл двигаться дальше. Хотя бы для развития кругозора
Мне было интересно прочесть данную статью и комментарии к ней, недавно начал изучать данное направление. При изучении постоянно сталкиваешься с разными проблемами, а когда находишь решение, неописуемо радуешься этому, как младенец. В этом направлении огромное поле для развития себя, как личности и как специалиста. По специальности я инженер-строитель, при строительстве Крымского моста, столкнулся немного с программированием и меня так это затянуло, что решил окончательно бросить разъездной характер работы и встать на путь истинный, правда я понял, что 2 года чтоб стать DS или ML этого недостаточно, времени из-за совмещения с работой не так много… Но всё свободное время я посвящаю именно этому… Правда я выбрал немного иной путь… Переехал в Москву, поступил в школу 21, а в следующем году буду поступать в ШАД… посмотрим, что из этого выйдет =) Большое спасибо за статью и комментарии к ней, интересно почитать про ваш опыт… и дебаты… это нечто особенное, в споре рождается истина или… сами понимаете )
поступил в школу 21

Только поступили или уже вовсю занимаетесь?
Удачи!

Спасибо за рассказ и ссылки! Сейчас работаю в финансах, но после небольшого опыта работы с SQL и аналитикой, данные захватили воображение)) Ищу возможности начать в ней развиваться.
советую изучать SQL дальше, он нужен везде. И если аналитика вас возбуждает — почитайте Datasmart. Там четко показано применение анализа данных к бизнес-задачам

Статья хорошая, на 10, уверен что кому нибудь поможет. Продолжайте в том же духе, но соглашусь что позиция сеньора не особо о многом говорит. Но мысль что бесплатно и эффективно лучше учить это очень верна, большинство курсов берут деньги за рекламу.

Странная статья) Тема не раскрыта…
Автор кроме SQL и Python ещё что-то учил? И где здесь DS?

я в основном учил что-то другое)
Тема пока не раскрыта, согласен. Планирую написать цикл статей и надо было с чего-то начать. Добавил уже ссылку на следующую статью. Буду писать по мере появления времени. Материалов и идей есть статей на 5-7, но время писать сложно найти.
Мне очень понравилась статья, спасибо за нее! Вдохновляет переход 1С ника в новую сферу, часто сталкивалась с предвзятым мнением, что 1Сники — это не ИТшники)) согласна, что очень сильно различаются технологии, но мышление все равно определенным образом развито, и привычка постоянно самообучаться тоже помогает. Вы меня очень вдохновили. И да, возможно для «кассира пятерочки» ваша статья не раскрывает тему, но для 1Сника направление очень хорошо ясно.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.