Truf 5 мая 2015 в 20:30

Опыт получения Data Science specialization на Coursera за 6 месяцев

9 мин

73K

Учебный процесс в IT

+20

Комментарии 8

ServPonomarev 6 мая 2015 в 11:26

Главный вопрос — оно того стоило? Полгода усилий и 11 тыщ рублей. Пошли более вкусные предложения работы?

Truf 6 мая 2015 в 12:26

Это хороший вопрос. Я не стал его включать в пост, но ответ на него у меня был — и частный и generic.

Лично для меня этот вопрос не стоял — т.к. я все равно бы грыз гранит науки в этом направлении (а работу я не ищу). И скорее всего, пересмотрел бы большинство из этих курсов в свободном режиме, без сдачи тестов и пр. — просто в рамках самообразования. Я так иногда делаю — записываюсь на курс только для того, чтобы взглянуть на материалы. Смотрю что нравится и ухожу с него. Я просто пожертвовал flexibility в этом вопросе ради сертификата. Если вы в такой же ситуации, то вопрос будет только в стоимости сертификации.

Для человека, который хочет корочку по Data Science, чтобы получить работу в Data Science, полезность такой сертификации менее очевидна и субъективна.

А. Допустим, вы считаете, что сертификат вам нужен. Тогда можно рассмотреть альтернативы: если не Coursera, то что? Либо ШАД и пр. академические проекты обучения, либо другие MOOC с сертификацией. Если другие MOOC — то чем они лучше coursera придется еще сильно подумать. Если ШАД — то тут я растекусь на еще один абзац.

ШАД

ШАД — это серьезные ребята с фундаментальным академическим подходом, обучением два года в нерабочее время, набором весной. Конечно, лично я их корочку котировал бы куда выше coursera'вских. Но меня остановило:
1. Кто знает о ШАД за бугром? Придется самому всем объяснять как это круто?
2. Набор раз в год, а решение принималось осенью.
3. 2 года учебы вместо 6 мес.
4. Невозможно бежать впереди паровоза — ускорить пункт 3 никак не получится.
5. Трачу время на то, что и так знаю: C++, Java и пр. фундаментальные около data science вещи.
6. Я слишком стар и счастливо забыл многое из того, что нужно показать на вступительном экзамене. По моим прикидкам, месяц мне нужен только на подготовку к нему.

В общем, если вы студент последних курсов ВУЗа — то вам и ШАД и Инфосфера Mail.ru. А для прочих такой метод обучения, возможно, будет чрезмерным.

Б. Допустим сертификат не нужен.
Всем понятно, что дипломы и корочки — это просто ачивки, помогающие HR вас найти и принять решение, т.к. сами они ничего не понимают в вашей предметной области. (В этом плане с ШАД проблемы по п.1, но не большие, т.к. даже иностранные компании используют локальные HR агенства, а не ищут сами). Если вы преодолеете первое собеседование, то далее будут собеседование с людьми, которые знают Data science и будут разбираться в ваших компетенциях по-существу. Т.о. все что вам нужно — повысить свой visibility, чтобы получить шанс поговорить с этими людьми — а дальше visibility вам не поможет. Если у вас есть способы повысить свой visibility без сомнительных корочек (опыт работы в data science, публикации, участие в проектах, связи и пр.) — то вам они, конечно, не нужны. И да, голый сертификат visibility вам не сделает.

Стоит ли оно 11т.р./18т.р./28т.р.? — всецело зависит от вашего текущего/ожидаемого дохода. Рассматривайте это как рискованную венчурную инвестицию исходя из своего финансового положения.

Итого, как видите, ответ получается общим. Если его применить к конкретному человеку, то его степени свободы схлопнутся, и он превратиться в какую-то простую, но никому другому не подходящую инструкцию. Поэтому, я это графоманство и исключил из поста.

Кстати, небольшой инсайд из coursera'вской рассылки:

Well, here we are at the end of the first Data Science Specialization Capstone session. Since April, the specialization has accumulated more than 2.8 million enrollments and issued more than 85,000 verified certificates. More than 500 participants joined this capstone session.

Я не понимаю, откуда эти цифры. От какого апреля считают, как сосчитали 85000 и почему только 500 находятся на capstone. Возможно, большинство дергают единичные verified курсы и не собирают full house из них для специализации, хотя трекаются как проходящие специализацию.

Oksumoron 6 мая 2015 в 19:15

Кстати, сертификаты появляются дня через 2-3 после окончания курса. Хотя, один раз задержка составила 1.5 недели, и публика начала безумствовать.

Хых… Мы по месяцу ждем каждый сертификат по треку :(

RaskolnikOFF 8 мая 2015 в 15:40

А у меня возник другой вопрос — как Вам качество материала, который дается на курсе?
Дело в том, что год назад я пытался проходить некоторые курсы из этой специализации(бесплатно), и мне показалось, что составлены уроки весьма неудачно, по крайней мере, на фоне других курсов с той же курсеры. Например, многие домашние задания зачастую слабо соответствуют теме урока, некоторые просто решаются перепечатыванием кода из лекции. Материал в лекции зачастую зачитывается «галопом по европам», т.е. быстро и без необходимых пояснений, а домашние задания не мотивируют в нем разбираться. В итоге я закончил только один курс(по R).
Естественно, это чисто мое мнение, и я не претендую на объективность. Поэтому мне хотелось бы узнать — как Вы считаете, может ли человек, не сталкивавшийся раньше с R и data science, чему-то реально научиться на этом курсе? Стоит ли оно того с точки зрения полученных знаний, а не корочки как таковой?

Truf 8 мая 2015 в 18:10

Мое личное мнение следующее.
Я бы сделал две оговорки: во-первых я учился по куче источников разом и в голове у меня каша. В смысле, что я уже не смогу сказать откуда я узнал то или иное. Поэтому, про качество обучения на coursera мне, как ни странно, говорить тяжело. Во-вторых, мое представление о западном образовании все же довольно теоретическое.

Как мне кажется, данная специализация, да и любой другой курс на coursera — прекрасный образец западной подготовки кадров.

Про западный подход

Оно не дает фундаментальных знаний — но дает достаточно прикладных. Поэтому, оно не работает (и не предполагается) без допиливания. Под допиливанием я понимаю самообразование, либо систему менторства непосредственно в компании.

В случае coursera:
Во-первых, чтобы быть отличником не обязательно знать всё или ответить на все вопросы. Просто наберите >90%. Это сильно контрастирует с подходом в наших школах.
Во-вторых, материал подается в довольно свободной манере. Некоторые вещи опускаются, по некоторым даются только направления для дальнейшего изучения (ссылки на книги, сайты). Отсюда возникает чувство «галопом по Европам». Я замечал, что в тесте могут попасться вещи, которые в лекции не давались, или давались поверхностно. У нас не принято спрашивать со студента то, что ты ему не объяснял лично. Поэтому преподаватель зачитывает учебник вслух. Но учитывая пункт 1 — это нормально для них. Т.е. студент учит необходимый минимум и, если ему это интересно, или он считает, что ему это нужно — доучивает что-то дополнительно. Доп знания тоже могут оценить, но в любом случае он — отличник. В этом есть своя гибкость.
В-третьих, знания не фундаментальные, а в значительной степени прикладные. Не смотря на слово science в названии, здесь data scientist — это профессия, у которой есть инструменты и которая дает продукт (отчеты). Инструменты и технологии стараются освещать наиболее современные. И гоняют по полной производственной цепочке — сбор данных, обработка, анализ, отчет, публикация отчета/презентации. Все примеры — из какой-то предметной области. То, что в случае другой предметной области может быть совсем по-другому, считается само собой разумеющимся — сами разберетесь. И в этом тоже есть смысл. Но это совсем холиварная тема.

Если по существу

может ли человек, не сталкивавшийся раньше с R и data science, чему-то реально научиться на этом курсе?

Именно такой и может. Я — научился. Особенно в стеке средств R, т.к. это прикладной момент. На нем и фокус был.
Собственно data science, конечно, слишком обширная тема, чтобы ее могли дать глубоко. Я бы даже сказал, что это зоопарк направлений, и термин довольно часто применяется в разных значениях. К примеру. machine learning и natural language processing, затрагиваемые в рамках специализации, также присутствуют в виде отдельных, более подробных курсов от других вузов. И там оно тоже поверхностно. NLP можно год учить отдельно от ML. Любое применение DS к предметной области вытекает в отдельную субдисциплину. В глубину вообще можно уходить бесконечно. Меня лично устраивает глубина, к примеру, видеолекций по машинному обучению от ШАД Яндекса. И то там под конец торопятся и, вероятно, не все интересное успели рассказать. Но на практике такая глубина может быть не нужна — мне, например, более чем достаточно. Тут нужно исходить из того, сколько вам нужно для комфортной работы.
Достаточно ли будет одних курсов для работы в любой компании — вряд ли. В Яндекс точно не возьмут.
А вот если у вас уже есть фундаментальные знание — то coursera'ой вы его не углубите. Оно вообще тяжело дается и редко сильно меняется — на то оно и фундаментальное.

Стоит ли оно того с точки зрения полученных знаний, а не корочки как таковой?

Если есть понимание того, что вам нужен R и иже с ним — то стоит. Если R не нужен, то можно надергать курсов конкретно по ML, data science и (опционально) big data. Поискать их применение в интересующей вас области. Рекомендательные системы, маркетинговые исследования, business intelligence, или там, Genomic Data Science. И раз не нужен R, то скорее всего, потребуется Python. Если нужен big data — учить big data.

Вообще у меня сложилось мнение, что фундаментальными в DS можно назвать только тер. вер., статистику и machine learning с численными методами. Все остальное — техника (R, big data, in memory computing), либо практическое приложение, либо зоопарк (data mining, business intelligence). И это нужно набирать дополнительно как блюда из меню — по мере необходимости.

RaskolnikOFF 10 мая 2015 в 11:37

Спасибо за развернутый ответ

Apatic 27 сен 2016 в 16:28

Сейчас на capston'e.
Truf Скажите, а у вас предсказательный алгоритм насколько сносно работал? Пока гуглил предметную область постоянно натыкался на работы студентов с предыдущих запусков курса — я ни одного рабочего прототипа не увидел, почти всегда точность предсказания была очень низкой.

Truf 27 сен 2016 в 17:08

Также плохо. Я уже не помню детали. Помню, что практически ото всех идей пришлось отказаться, т.к. либо данные не лезли в выделенный на облаке RAM, либо все начинало жутко тормозить и я боялся что тестер просто решит что все зависло, либо долго реализовывать, да и просто не хотелось. Я под спойлером «визг, писк, истерика» в статье об этом писал. Я даже не уверен, был ли у меня там stemming. Биграммы точно были. Stop-list каких-то слов был, вроде. Очень небольшой. Возможно триграммы по минимуму, самые частые, и то вряд ли. Никакого POS detection'а — не влез. Никакого, естественно адаптивного обучения модели под пользователя. А какое качество может быть такими методами? Только вывод наиболее частых окончаний коротких словосочетаний, из очень маленькой БД, составленной по небольшому корпусу. Помню, я заморочился с GUI, чтобы было как на телефоне, и сделал реальное окошко ввода, которое после того, как увидит пробел (конец слова), автоматически делает prediction, и новые suggested words выводит на 5 кнопках под ним. И по нажатию на эти кнопки, слово само вставляется и опять выполнялся prediction. В общем, даже ничего не вводя, а тыкая на эти кнопочки можно было набрать осмысленную фразу. И из этого я заключал, что все работает. И проверял остальных я, вроде, также. Знаешь, что после «I'm going » в топ 5 должен попадать «home» или «to», а после «happy» в suggestions скорее всего должен быть «birthday». Если оно там оказалось, значит какой-то prediction человек сделал. На R в облаке ничего серьезнее я представить не смог. И оно никому не надо, имхо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Опыт получения Data Science specialization на Coursera за 6 месяцев

Комментарии 8

Публикации

Истории