FooBar167 Jan 1 2020 at 23:10

Письмо начинающему изучать Data Science

2 min

63K

Python*Programming*Image processing*Machine learning*Artificial Intelligence

From sandbox

+28

Comments 21

Ermit Jan 2 2020 at 01:04

Обучение — это точно такой же проект, как все прочие, эффективность процесса обучения — важнейший элемент его. И у меня есть серьезные сомнения, что предметный способ погружения в проблематику DS — это самый эффективный путь в нем. Вы перечислили такое количество инструментов и технологий, что захватывает дух. )))

В качестве альтернативного (или дополнительного) варианта освоения DS возможен задачный подход, когда выбирается небольшая простая задача (например, тот же MNIST или что-то еще обучательное) и производится решение end-to-end. С анализа датасета до оформления решения. Проектный подход эффективнее по трем причинам: 1) задача определяет модели, 2) задача определяет инструменты, 3) задача определяет требования к качеству решения и оптимизацию его. Очень многие из пересчисленных Вами технологий так или иначе будут использованы, но будет совершенно иной ракурс. Без этих ограничений и фокусирования DS можно изучать неограниченно долго. )))

+10

FooBar167 Jan 3 2020 at 23:10

Верно, быстрее и легче задачный подход. У задачного подхода тоже есть минусы. Например, разбирать ошибки ближе к концу проекта. Отсутствие системного мышления (в моей следующей статье).
Я как-то ближе к «старой школе». Мне интересно изучать подробно. Более нацеленно на получение кайфа от процесса изучения, чем от конечного результата. И для этого нужно в разы больше времени и усилий.
Лучше всего комбинированный подход: сделал небольшой проект, почитал теорию, что нового по предмету появилось в последнее время, потом сделал еще один небольшой проект, снова почитал, что нового и т.д.

firstdmitry Jan 3 2020 at 23:10

О, ну вот для меня (маркетолога) все статьи про анализ данных заканчивались лишь их чтением, в течении многих лет (около 10 и задача передо мной стоит и коллективно даже решать её пытаемся))) пока я не сел за изучение Питона и вот здесь понеслось… Поставил интерпретатор, ещё что-то… А на курсах то они программируют из Линукса, а у меня Винда — не удобно… Либо менять курсы либо ставить Убунту на Виртуалку… Это я к чему: в моей ситуации статья очень интересная и я пошёл дальше ссылки ковырять) Спасибо!

FooBar167 Jan 3 2020 at 23:18

Как-то получилось, что научился все настраивать и на Windows и на Ubuntu. В общем, можно настроить все на обеих операционных системах. Благо с кроссплатформенным Python все почти одинаково. Однако больше инфы по Ubuntu.
Для Windows необходимо установить Cygwin — команды Linux для Windows. Однако в некоторых сложных случаях есть отличия.
Для начала посмотрите список этих ссылок. Я с них начинал изучать.
Затем попробуйте задачных подход: берите задачу и ищете в Интернете, как ее решить. Это быстрее. Возможно, это введение в машинное обучение поможет понять, как это все работает в общих чертах.

FooBar167 Jan 3 2020 at 23:21

Не забывайте, что есть облачные технологии, где все уже настроено и работает. Не нужно ничего настраивать. Их не менее шести штук разных, все бесплатные.

retar Jan 3 2020 at 23:22

Вот да. Курсы, книги, мануалы — как прикладное. Берешь задачу и решаешь ее, по пути подкуривая различные мануалы, документацию и прочее. Не только в дата сайнс, но и вообще для обучения программированию

FooBar167 Jan 3 2020 at 23:27

Верно, как выше пишут, это задачный подход. Согласен, я старомоден, стараюсь изучать область, а не решать задачи :-)
Думаю, в идеале нужно комбинировать предметный и задачный подходы: изучаю предметную область, по ходу изучения появляются вопросы и задачи, записываю их в специальный дневник, затем пытаюсь решить наиболее интересные задачи, потом дальше изучаю предметную область и т.д. Как-то так.

retar Jan 4 2020 at 17:20

Ну я предлагаю наоборот: решаешь задачи и по необходимости изучаешь предметную область той или иной подзадачи.

Пишешь парсер -> изучаешь работу регулярок вообще и в конкретном яп в частности.

На определенном уровне, особенно в самом начале, не всегда нужны глубины глубин. В начале, зачастую надо знать формулу, закон или способ применения, а не доказательную базу, которая стоит за этим.

chapuza Jan 2 2020 at 11:15

Я бы упомянул https://colab.research.google.com/notebooks/welcome.ipynb

FooBar167 Jan 3 2020 at 23:28

Да я упомянул Google Colab и еще 6 различных облачных бесплатных Jupyter Notebook приложений.

ideological Jan 2 2020 at 13:08

У меня есть послание:
Data science, это хобби, профессии такой не существует :).

FooBar167 Jan 3 2020 at 23:36

Честно говоря, я анализировал данные еще в 2005 году и получал за это зарплату. Только это тогда не называлось Data Science, а Event Log Management. Тогда же выучил регулярные выражения до уровня профи. Сейчас же RegEx мне не нужны особо, т.к. работаю с изображениями.

KonstantinSpb Jan 2 2020 at 14:01

jupyter-docker-stacks.readthedocs.io/en/latest/using/selecting.html#jupyter-datascience-notebook

FooBar167 Jan 3 2020 at 23:42

Все настроенное в контейнере Docker? Может быть… но мы, представители «старой школы» настраиваем все руками :-) У меня есть инструкция по настройке виртуальной среды: Anaconda virtual environment. Проверял, работает на Ubuntu и Windows. С чистым Python сложнее настроить CUDA и cuDNN, поэтому лучше Anaconda Python.

Unvereinbare Jan 2 2020 at 16:58

Добавлю к вышеперечисленному отличный гайд Вастрика по введению в ML.

FooBar167 Jan 3 2020 at 23:49

Отличный гайд! К сожалению, я его не нашел, поэтому написал свой.

Rusov Jan 3 2020 at 23:49

Спасибо

IrinaBubley Jan 3 2020 at 23:50

Спасибо огромное за такую великолепную подборку. Периодически интересуюсь этой темой, натыкаясь на разрозненные материалы. Здесь же вы все так комплексно систематизировали, что просто песня. Искреннее спасибо, сохраняю себе ваш пост.

KMU Jan 3 2020 at 23:50

Спасибо!
Для старта можно купить Nvidia Jetson Nano в районе 100$ (очень мощный SBC). Там же на сайте Nvidia пошаговая инструкция/курс, как настроить и использовать данную железку.

KonstantinSpb Jan 4 2020 at 07:42

nirvacana.com/thoughts/wp-content/uploads/2018/01/RoadToDataScientist1.png
nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist

FooBar167 Jan 4 2020 at 13:29

Пугающая диаграмма, но всеобъемлющая. Буквально все эти технологии не нужны одному человеку. При специализации и решении конкретной задачи бОльшая их часть будет не нужна.

Show the best of all time