Обновить
Комментарии 12
Статья была бы суперполезной если бы добавили хотя бы на свой взгляд ссылки на наиболее подходящие курсы применительно к основых вехам и этапам, иначе время которое указано в скобках выглядит как-то непонятно.

Если внимательно читать статью, то можно заметить упоминание о планируемой к написанию статье со ссылками на курсы и книги.

Я решил разбить весь материал на логические части. Также чтобы статьи были не слишком длинными. В следующей (через неделю, наверное) напишу уже книги и курсы. С тех пор как сам учился вышли новые, я хочу всё пробежать глазами чтобы отобрать самое актуальное.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.
Внутри Spark устроен сильно не так, как обычные базы данных

Техническое замечание: Spark это вообще не база данных. И даже Hive это не база данных в том смысле, как этот термин обычно используется. Это движок, который может выполнять SQL-запросы (но не только — потому что есть RDD и Dataset API, например, второй из которых был скопирован с pandas, но адаптирован к параллелизму) на кластере, распределяя вычисления между узлами. При этом данные будут лежать в условно, куче файлов json, и никакой базой это вообще не будет, никогда. И работать со спарком как с базой данных не стоит — ничего хорошего не получится.

Что же до почти всего остального — то это можно, мне кажется, сформулировать в двух словах — изучите программирование. Data Science, по большому счету, это программирование с большим довеском математики, или наоборот. И тут уже либо вы будете программистом, и тогда все нужные библиотеки вы освоите рано или поздно, по мере надобности, и другие языки, а если не будете — то каждый новый язык программирования или библиотека будет вызывать у вас проблемы.
spark предоставляет высокоуровневую абстракцию, которая позволяет работать с ним, практически, как с обычной субд. Поэтому это упрощение сильно помогает объяснить что это, и снимает психологический барьер на освоение новой технологии.
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact
> практически, как с обычной субд.
Ну, да. SQL. Но только до тех пор, пока производительность вас вообще не волнует. Ну и внутри это ну совсем не база. Типовая СУБД — это демон, который выполняет запросы. Спарк — это короткоживущий процесс, который для выполнения запроса запускает еще кучу процессов на разных узлах, там где лежат данные. Если всего этого не учитывать — получается ну как-то совсем не эфффективно.

Ну и потом, есть и другие API, чуть ниже уровнем, при использовании которых все становится уже вообще непохоже на СУБД.

>Но я не ставлю знак равенства осознанно
А его и нет. Это разные виды деятельности. Мне не скучно (потому что мне нравится доводить проект до внедрения, не говоря уже про получение премии за результаты этого внедрения ;), но я согласен, что кому-то может быть интереснее заниматься чем-то более творческим.
Нужен ваш совет или подсказка куда копать:
Поступают данные о товарах и их нужно разбивать по категориям. Насколько понимаю это близко к подходу Data mapping. В каком инструменте можно получить некатегоризированные данные, проассоциировать их с категорией руками, а далее такая ассоциация занеслась в реестр и ассоциирование шло автоматически?
И такую задачу выполнять ежедневно пополняя реестр.
Похоже на задачу кластеризации. При превышении предела метрики сходства может формироваться новый кластер или категория «unsorted».
Я не знаю готовых инструментов, которые смогут адекватно это сделать вот так просто, без программирования и просто кликанием.
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение
Спасибо за отличный план, во первых стало понятнее на каком я этапе, и о каких навыках надо говорить на собеседовании, потому что SQL и Excel к примеру мне казались настолько базовыми (SQL разумеется подтянуть всегда можно и можно это делать бесконечно, но базовые вещи знаю), я на собеседовании не считала важным о них упомянуть, но теперь для большей убедительности получу ка я сертификаты, хорошо много курсов, где можно порешать задачки и сертификат готов.( я про stepik.org)
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.