Открыть список
Как стать автором
Обновить

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

Блог компании SelectelBig DataУчебный процесс в ITКарьера в IT-индустрииЛайфхаки для гиков
Перевод
Всего голосов 45: ↑41 и ↓4 +37
Просмотры22.4KКомментарии 37

Комментарии 37

Мне дата сайнс зашел как штука поиграть). С детства имею тягу анализировать, находить закономерности. Занимаюсь мелким бизнесом уже 20 лет. С учетом бесплатных курсов, которые есть, порог вхождения в тему достаточно низкий. Это вообще касается всех инструментов современных по программированию. Пришлось пайтон изучить. У меня за плечами было только С++. Эффект от питона был, "а что так можно было", хотя этот язык подойдет скорее как второй, для быстрого написания. Если как первый, много дров можно наломать… Мат аппарат можно по ходу изучать. Основное что нужно — тяга, чтоли, к этому. Поружение. Вот это всё ковыряние. Так посмотреть, этак, такой метод, другой. Здесь данные отнормализовать… На входе ведь просто данные, зачастую не полные, ошибочные.Это такое своеобразное занятие, датасеты по интересной тематике берите и погружайтесь, а еще лучше самому собрать и проанализировать. Скажу, что деньги я другим зарабатываю, здесь мне интересно было посмотреть как это, вообще, и я открыл для себя новый мир. Еще нужно нормально эту аналитику научиться собирать.
А так да. Было очень забавно находить корреляции в, казалось бы, несвязанных вещах. Поиграл несколько месяцев и понял что инструмент даже из коробки просто супер(матаппарат у меня с натяжкой, мозг скрипел на теории аж жена пошла петли в дверях смазывать), и нужно собирать данные. Чем больше, тем лучше. На столько не реально крутая штука.

Если вы поиграться решили то это совсем не про устроиться на работу после этого. Игрунов не берут. Это очень поверхностные знания.

Я здесь больше как заказчик-исполнитель ( как заказчик недорос пока) Я не смогу и нет у меня столько времени, чтобв погрузиться настолько глубоко, как профи, но должен понимать о чем речь.Да и не буду я так крут. Я хочу правильно ставить задачи. И я хочу на одном языке говорить. А что касаемо мотивации, я видел спецов за идею, за интерес, за кайф, и не видел ни одного за бабло. У меня в основе мотивации по жизни игра, во всём. Всё что на самом деле получается, играючи. И коллег я подбираю так -же. Детская игра и интерес. Я в себе это берегу.

Потому что это сублимация.
Сначала все же стоить выучить математическую базу, статистику и теорию автоматического управления. Поняв ТАУ будет намного легче понять нейронки.
НЛО прилетело и опубликовало эту надпись здесь
Дата сайентистом за несколько месяцев может легко стать лишь тот кто выучил с++ за 21 день

Вот только этого курса не обязательно достаточно, чтобы стать data scientist. Я бы даже сказал, скорее недостаточно.


Его все еще читают на октаве, да?

Octave или MATLAB. Раньше был Python, но его знали не все студенты и на нем сложнее, на фреймворках легче.

Забавно, конечно, как наша с вами информация отличается. Я вот, например, думаю, что Octave — это не фреймворк, а язык программирования (и лично мне на нем было сложнее, чем на питоне, даже с учетом того, что питон я учил по ходу). Ну и да, занятно, что в более новой специализации по Deep Learning от того же Andrew Ng используется Python.

Octave мне показался не сложным.


в более новой специализации по Deep Learning от того же Andrew Ng используется Python.

Там, как вижу, Tensor Flow используется.

Octave мне показался не сложным.

Я не говорю, что он сложный. Я говорю, что мне на нем было сложнее, чем на питоне.


Там, как вижу, Tensor Flow используется.

Ну да. И это, собственно, иллюстрация того, почему делать вводный курс в ML на октаве нынче странно. Впрочем, если мне память не изменяет, где-то во вводных занятиях к DL эта аргументация и озвучивается.

Andrew Ng в начале курса и объясняет почему Octave, а не Python. Не все желающие изучать этот курс по ML знают Python настолько хорошо, чтобы выполнять упражнения на нем. Octave в этом плане намного проще. Курс по ML можно читать студентам первого курса.

Я знаю мотивацию к применению Octave. Просто это применение делает — для меня — курс менее пригодным к тому, чтобы сразу после него идти этим заниматься.

Если вопрос не риторический, то да, все еще на октаве (курс не менялся с момента выхода 8-9 лет назад). Однако, его можно проходить на MATHLAB (дают бесплатный доступ на 11 недель к онлайн версии) и все задания обновлены до последней версии. Кроме того, в каждом задании есть доп материалы от MathWorks, которые показывают какие есть встроенные функции и надстройки у MATHLAB по изучаемой теме.

ИМХО, курс для тех, кто хочет понять что вообще такое машинное обучение и разобраться с терминологией (как раз прохожу сейчас). Далее уже копать глубже (в статистику, calculus, и т.п.) и решать задачи (kaggle).
Если вопрос не риторический, то да, все еще на октаве (курс не менялся с момента выхода 8-9 лет назад). Однако, его можно проходить на MATHLAB (дают бесплатный доступ на 11 недель к онлайн версии) и все задания обновлены до последней версии.

Будем честными, одно другого не лучше.

Будем честными, одно другого не лучше.

Я понимаю, что вы хотите сказать, но не согласен с формулировкой. Я тоже «балуюсь» с Python уже какое-то время и предпочел бы не изучать новый язык а научиться применять знакомый инструмент. Однако, MATHLAB мне как пользователю понравился своей интуитивностью и простотой + графический интерфейс и документация. Запустить нейросеть в несколько кликов без написания кода — это мечта. Его огромный минус — дороговизна, поэтому ему судьба быть в корпоративной среде.

P.S. Представьте, если бы Kaggle добавил поддержку MATHLAB… Вообще, MATHLAB'у стоило бы дать бесплантые лицензии на онлайн версии для студентов, возможно открыть для некоммерческого использования (по типу Unity). Бомба была бы, если бы они запилили свой Kaggle и дали доступ к onlinе версии для участников.
Однако, MATHLAB мне как пользователю понравился своей интуитивностью и простотой + графический интерфейс и документация. Запустить нейросеть в несколько кликов без написания кода — это мечта.

Гм, у меня были представления, что матлаб — это не про "запустить нейросеть в несколько кликов".


Его огромный минус — дороговизна, поэтому ему судьба быть в корпоративной среде.

Что важнее — не в каждой корпоративной среде. У нас вот корпоративная среда, но никто матлаб покупать не станет. Да и нафига, если результат в продакшн все равно так просто потом не выкатишь?


Представьте, если бы Kaggle добавил поддержку MATHLAB… Вообще, MATHLAB'у стоило бы дать бесплантые лицензии на онлайн версии для студентов, возможно открыть для некоммерческого использования (по типу Unity). Бомба была бы, если бы они запилили свой Kaggle и дали доступ к onlinе версии для участников.

Смысл-то в этом для конечного пользователя какой?

Мы, очевидно, спорим о разных вещах. Я попробовал MATHLAB впервые в жизни 4 недели назад в рамках упомянутого курса. Мне он показался мощным, интуитивным и наглядным инструментом.

По поводу корпоративной среды — согласен, не в каждой. Но тут как спор о лучшем языке или о лучшей среде разработки. Python крут и, как пример, можно взять сырые данные, обработать, и выдать в графики/таблицы. Но в Alteryx + Tableau существенно проще старт и их покупают (и много). Также и MATHLAB вполне себе инструмент для инженеров + есть надстройки для ML, Deep Learning и анализа. Имхо, если с нуля, то может и проще чем Python.

Смысл-то в этом для конечного пользователя какой?

Порог входа разный. При прочих равных (если цена = 0), MATHLAB среда в данном виде интуитивнее чем даже Jupyter. (P.S. стандартный дисклеймер про разные фломастеры). А если подсадить на свой продукт всех студентов, то они же потом в свои конторы и купят.
А если подсадить на свой продукт всех студентов, то они же потом в свои конторы и купят.

Или нет. Мы просто не берем тех, кто хочет матлаб.

Во-первых, это только 1 курс, и как бы что бы считаться полноценным специалистом этого мало.
Во-вторых, каким боком машин лёрнинг к датасаенс?
  1. Он там не один: https://www.coursera.org/browse/data-science
    И вот тот вышеупомянутый курс здесь в первых рядах.
  2. https://en.wikipedia.org/wiki/Data_science
    Data science is an inter-disciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from structured and unstructured data,[1][2] and apply knowledge and actionable insights from data across a broad range of application domains. Data science is related to data mining, machine learning and big data.

Я в том плане, что программистам быстрее и проще идти в DS через ML.

Ок. Не получается.

Не могу представить себе размеров и масштабов бизнеса\задач в котором требуется выделение отдельной роли DataScience-специалиста. Как правило, программисты с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

вы пускали что-либо в прод, сделанное по готовым гайдам? обычно на реальных данных гайды не работают, надо погружаться в данные, в алгоритмы, в тонкости валидации, делать пайплайны и др.


бизнес может быть вообще небольшим, если он делает деньги с помощью моделей, там будет ds-специалист. я работал в небольшой логистической компании как data scientist (сейчас в другой industry), и скажу что работы всегда завались.

А какие конкретно задачи вы решили в логистике?

за 3 года всякие разные. все под NDA. вообще, не так уж сложно сообразить будучи в теме ds)


таблички, ряды, картинки и тексты — все это встречается не только в логистике. на них можно кучу задач ставить и решать. байесовские фреймворки, нейросетки, в основном. это помимо стандартных оптимизационных, которые наверное пришли в голову.


вообще лично мое мнение, в бизнесе самый топ — обладать более-менее неплохим цифровым двойником. с ним можно проектировать будущее.

Моя точка зрения сводится к тому, что если подход из датасайенса рабочий, как, например, A/B тестирование, то он быстро входит в арсенал предметных специалистов (маркетологи его уже в обязательном порядке осваивают).
Нейросетки, да, требуют отдельного к ним подхода, но все равно, задачи там в большинстве случаев утилитарные — перебрать разные подходы, прикрутить\дообучить существующую сетку.

Не могу представить себе размеров и масштабов бизнеса\задач в котором требуется выделение отдельной роли программиста. Как правило, инженеры с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

Программисты это те же инженеры, только для разработки программного обеспечения.

DataScience-специалисты это те же инженеры, только для анализа данных.

Как правило, программисты с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

Могут. Но все же проще разделить труд.
программистам обычно это не интересно. у нас штук 5 аналитиков/DS, лабают скоркарды. там 95% это ковыряние в кривых данных и переписка с клиентом, почему тут какие-то дубли, а тут транзакции без суммы.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.