FooBar167 1 янв 2020 в 23:10

Письмо начинающему изучать Data Science

2 мин

63K

Python*Программирование*Обработка изображений*Машинное обучение*Искусственный интеллект

Из песочницы

+28

Комментарии 21

Ermit 2 янв 2020 в 01:04

Обучение — это точно такой же проект, как все прочие, эффективность процесса обучения — важнейший элемент его. И у меня есть серьезные сомнения, что предметный способ погружения в проблематику DS — это самый эффективный путь в нем. Вы перечислили такое количество инструментов и технологий, что захватывает дух. )))

В качестве альтернативного (или дополнительного) варианта освоения DS возможен задачный подход, когда выбирается небольшая простая задача (например, тот же MNIST или что-то еще обучательное) и производится решение end-to-end. С анализа датасета до оформления решения. Проектный подход эффективнее по трем причинам: 1) задача определяет модели, 2) задача определяет инструменты, 3) задача определяет требования к качеству решения и оптимизацию его. Очень многие из пересчисленных Вами технологий так или иначе будут использованы, но будет совершенно иной ракурс. Без этих ограничений и фокусирования DS можно изучать неограниченно долго. )))

+10

FooBar167 3 янв 2020 в 23:10

Верно, быстрее и легче задачный подход. У задачного подхода тоже есть минусы. Например, разбирать ошибки ближе к концу проекта. Отсутствие системного мышления (в моей следующей статье).
Я как-то ближе к «старой школе». Мне интересно изучать подробно. Более нацеленно на получение кайфа от процесса изучения, чем от конечного результата. И для этого нужно в разы больше времени и усилий.
Лучше всего комбинированный подход: сделал небольшой проект, почитал теорию, что нового по предмету появилось в последнее время, потом сделал еще один небольшой проект, снова почитал, что нового и т.д.

firstdmitry 3 янв 2020 в 23:10

О, ну вот для меня (маркетолога) все статьи про анализ данных заканчивались лишь их чтением, в течении многих лет (около 10 и задача передо мной стоит и коллективно даже решать её пытаемся))) пока я не сел за изучение Питона и вот здесь понеслось… Поставил интерпретатор, ещё что-то… А на курсах то они программируют из Линукса, а у меня Винда — не удобно… Либо менять курсы либо ставить Убунту на Виртуалку… Это я к чему: в моей ситуации статья очень интересная и я пошёл дальше ссылки ковырять) Спасибо!

FooBar167 3 янв 2020 в 23:18

Как-то получилось, что научился все настраивать и на Windows и на Ubuntu. В общем, можно настроить все на обеих операционных системах. Благо с кроссплатформенным Python все почти одинаково. Однако больше инфы по Ubuntu.
Для Windows необходимо установить Cygwin — команды Linux для Windows. Однако в некоторых сложных случаях есть отличия.
Для начала посмотрите список этих ссылок. Я с них начинал изучать.
Затем попробуйте задачных подход: берите задачу и ищете в Интернете, как ее решить. Это быстрее. Возможно, это введение в машинное обучение поможет понять, как это все работает в общих чертах.

FooBar167 3 янв 2020 в 23:21

Не забывайте, что есть облачные технологии, где все уже настроено и работает. Не нужно ничего настраивать. Их не менее шести штук разных, все бесплатные.

retar 3 янв 2020 в 23:22

Вот да. Курсы, книги, мануалы — как прикладное. Берешь задачу и решаешь ее, по пути подкуривая различные мануалы, документацию и прочее. Не только в дата сайнс, но и вообще для обучения программированию

FooBar167 3 янв 2020 в 23:27

Верно, как выше пишут, это задачный подход. Согласен, я старомоден, стараюсь изучать область, а не решать задачи :-)
Думаю, в идеале нужно комбинировать предметный и задачный подходы: изучаю предметную область, по ходу изучения появляются вопросы и задачи, записываю их в специальный дневник, затем пытаюсь решить наиболее интересные задачи, потом дальше изучаю предметную область и т.д. Как-то так.

retar 4 янв 2020 в 17:20

Ну я предлагаю наоборот: решаешь задачи и по необходимости изучаешь предметную область той или иной подзадачи.

Пишешь парсер -> изучаешь работу регулярок вообще и в конкретном яп в частности.

На определенном уровне, особенно в самом начале, не всегда нужны глубины глубин. В начале, зачастую надо знать формулу, закон или способ применения, а не доказательную базу, которая стоит за этим.

chapuza 2 янв 2020 в 11:15

Я бы упомянул https://colab.research.google.com/notebooks/welcome.ipynb

FooBar167 3 янв 2020 в 23:28

Да я упомянул Google Colab и еще 6 различных облачных бесплатных Jupyter Notebook приложений.

ideological 2 янв 2020 в 13:08

У меня есть послание:
Data science, это хобби, профессии такой не существует :).

FooBar167 3 янв 2020 в 23:36

Честно говоря, я анализировал данные еще в 2005 году и получал за это зарплату. Только это тогда не называлось Data Science, а Event Log Management. Тогда же выучил регулярные выражения до уровня профи. Сейчас же RegEx мне не нужны особо, т.к. работаю с изображениями.

KonstantinSpb 2 янв 2020 в 14:01

jupyter-docker-stacks.readthedocs.io/en/latest/using/selecting.html#jupyter-datascience-notebook

FooBar167 3 янв 2020 в 23:42

Все настроенное в контейнере Docker? Может быть… но мы, представители «старой школы» настраиваем все руками :-) У меня есть инструкция по настройке виртуальной среды: Anaconda virtual environment. Проверял, работает на Ubuntu и Windows. С чистым Python сложнее настроить CUDA и cuDNN, поэтому лучше Anaconda Python.

Unvereinbare 2 янв 2020 в 16:58

Добавлю к вышеперечисленному отличный гайд Вастрика по введению в ML.

FooBar167 3 янв 2020 в 23:49

Отличный гайд! К сожалению, я его не нашел, поэтому написал свой.

Rusov 3 янв 2020 в 23:49

Спасибо

IrinaBubley 3 янв 2020 в 23:50

Спасибо огромное за такую великолепную подборку. Периодически интересуюсь этой темой, натыкаясь на разрозненные материалы. Здесь же вы все так комплексно систематизировали, что просто песня. Искреннее спасибо, сохраняю себе ваш пост.

KMU 3 янв 2020 в 23:50

Спасибо!
Для старта можно купить Nvidia Jetson Nano в районе 100$ (очень мощный SBC). Там же на сайте Nvidia пошаговая инструкция/курс, как настроить и использовать данную железку.

KonstantinSpb 4 янв 2020 в 07:42

nirvacana.com/thoughts/wp-content/uploads/2018/01/RoadToDataScientist1.png
nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist

FooBar167 4 янв 2020 в 13:29

Пугающая диаграмма, но всеобъемлющая. Буквально все эти технологии не нужны одному человеку. При специализации и решении конкретной задачи бОльшая их часть будет не нужна.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Письмо начинающему изучать Data Science

Комментарии 21

Публикации

Истории