miptgirl Mar 6 2017 at 15:58

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

15 min

413K

Open Data Science corporate blog Python *Data Mining *Data visualization *Machine learning *

+52

Comments 45

couatl Mar 6 2017 at 16:04

А планируется статья про bokeh, folium и другие? Или они уже не торт по сравнению с seaborn и plotly и не стоит про них упоминать?

cotique Mar 6 2017 at 23:39

Или они уже не торт по сравнению с seaborn и plotly

А чём именно не торт?

couatl Mar 7 2017 at 17:18

Так я спрашиваю, а не утверждаю =)
Я до plotly offline пользовался bokeh, чтоб графики были динамичными и с функциями наведения.
Но качество его в сравнении с plotly offline — ужасное. Постоянно моргает, долго грузит.
Вот интересно мнение автора.

yorko Mar 6 2017 at 16:09

Небольшой фидбек по 1 ДЗ, краткая стата по оценкам и решение на GitHub будут сразу после дедлайна.
Также как и список фильмов из первого опроса :)

yorko Mar 7 2017 at 12:09

В целом 1 домашка была легкой.

yorko Mar 7 2017 at 12:09

Meklon Mar 6 2017 at 16:45

Спасибо за публикацию) seaborn очень зацепил в свое время. Все же приятно, когда иллюстрации в научные журналы не только информативные, но и выглядят хорошо.

yorko Mar 7 2017 at 00:55

Рейтинг участников. Будет считаться по домашним заданиям, соревнованиям и, возможно, дополнительным бонусам, оговариваемым заранее и публично.

abliznyuk Mar 7 2017 at 10:44

Можно ли подключится к курсу со второго домашнего задания?

yorko Mar 7 2017 at 13:23

Да, конечно! Правда, и оценки пойдут со второй домашки.

Tsimur_S Mar 7 2017 at 14:37

Может есть смысл сделать что-бы у разных заданий был разный вес(например рассчитывался динамически исходя из количества справившихся с заданием)? Иначе у стартующих после 2 лекции нету никаких шансов догнать, ведь по 1 заданию практически у всех 10.

yorko Mar 7 2017 at 15:10

Правила ведения рейтинга не будут меняться на ходу.

Femistoklov Mar 9 2017 at 11:31

Можно глупый вопрос, а зачем это? В смысле, почему именно курс с оценками и рейтингами, а не просто серия статей с заданиями для самопроверки?

yorko Mar 9 2017 at 11:48

Дальше планируется ряд ништяков, главный из которых – серия лекций (вживую) про state-of-the-art машинного обучения. Темы сложные, требуют некоторого базового уровня. Если приглашать лучших по рейтингу, то почти наверное это обеспечит минимальный уровень слушателей, а также будет служить дополнительной мотивацией участников. Если не хотите участвовать в гонке – без проблем, можно проходить в своем темпе, польза всяко будет.

grubberr Mar 7 2017 at 09:55

не могу скачать https://www.kaggle.com/rush4ratio/video-game-sales-with-ratings
есть идеи где можно еще взять этот dataset?

mephistopheies Mar 7 2017 at 10:05

у вас есть акк на кегле? если не залогиниться, то у меня тоже не качается

miptgirl Mar 7 2017 at 10:43

Все данные для примеров есть еще в репозитории mlcourse_open.

DEM_dwg Mar 7 2017 at 10:44

Собсно вопрос возможно не по теме…
А можно ли изолинии сохранять в dxf формате, с помощью данных библиотек.
Или хотя бы получать координаты изолиний, чтобы потом сохранить в dxf.

devdev Mar 8 2017 at 18:57

Уточните по ДЗ. Вопросы 3-5 относятся ко всем данным или только месяцу из первого вопроса?

yorko Mar 8 2017 at 19:12

Ко всем.

tumikosha Mar 8 2017 at 23:13

Спасибо! Очень интересная статья!

tatakezic Mar 10 2017 at 00:18

Юрий, добрый вечер.
Подскажите, пожалуйста, а нужно ли куда-то отправлять тетрадки с кодами по 2ДЗ?

miptgirl Mar 10 2017 at 00:21

Добрый вечер! Я не Юрий, но отвечу :)
Тетрадки с решениями никуда отправлять не нужно, достаточно ответить на вопросы в google-форме.

BloodyMere Mar 10 2017 at 00:18

В части, касающейся tsne, в коде:

X['International plan'] = pd.factorize(X['International plan'])[0]
X['Voice mail plan'] = pd.factorize(X['Voice mail plan'])[0]

необходимо добавить

sort = True

чтобы факторизация признаков прошла одинаково.

Т.е. должно быть:

X['International plan'] = pd.factorize(X['International plan'], sort = True)[0]
X['Voice mail plan'] = pd.factorize(X['Voice mail plan'], sort = True)[0]

Иначе Yes и No в разных колонках будут факторизованы как (1,0) и (0,1) соответственно, что приведет к невозможности в дальнейшем использовать их для обработки.

yorko Mar 10 2017 at 01:01

да, в тетрадке поменял factorize на map.

justm57 Mar 10 2017 at 00:18

«Еще полезно строить вот такие картинки, где на главной диагонали рисуются распредления признаков, а вне главной диагонали – диаграммы рассеяния для пар признаков. Бывает, что это приводит к каким-то выводам»
А что может быть особенного в них? Откуда берутся выводы?

miptgirl Mar 10 2017 at 00:33

Рекомендую посмотреть на примеры на странице с документацией по функции pairplot в библиотеке seaborn.

По гистограммам можно понять распределение признаков (нормальное оно или нет, сбалансированы ли классы и т.д.)

По scatter plots будет видна, например, линейная зависимость между признаками.

Если же отображать также классы разными цветами, то можно выявить в каком пространстве (паре признаков) классы будут хорошо отделяться друг от друга. Рассмотрим, pairplot для сортов ирисов: видно, классы сливаются в пространстве признаков (sepal_length, sepal_width), а в пространстве (petal_length, petal_width) достаточно легко провести разделяющие гиперплоскости.

Dark_kot Mar 10 2017 at 00:19

При работе с seaborn -ом вылетает в TypeError, что в целом и не удивительно, так как

User_Score         10015 non-null object

Нужно вспомнить первую лекцию и изменить тип колонки, что в целом, даже полезно.

atepeq Mar 11 2017 at 18:03

Вопрос по домашке:

3. Когда лучше всего публиковать статью?
…
На хабре дневные статьи комментируют чаще, чем вечерние

А что есть дневная, а что вечерняя статья? С какого по какое время?

yorko Mar 11 2017 at 18:56

Да, стоило это четче в задании указывать. Но на самом деле нет необходимости: по графикам сразу понятно будет, без двояких трактовок.

Bombus Mar 12 2017 at 10:25

Правильно ли я понимаю, что только второй вопрос в домашнем задании опирается на результат первого вопроса — необходимо исследовать конкретный месяц, остальные вопросы уже относятся ко всему периоду наблюдений?

grubberr Mar 12 2017 at 12:30

у меня тоже вопрос по 2-ой домашке, второй вопрос

2. Проанализируйте публикации в этом месяце ( из вопроса 1 )

имеется ввиду df.month = M или df.month = M & df.year = Y
где M, Y ответы из первого вопроса

miptgirl Mar 12 2017 at 20:17

Имеется в виду конкретный месяц конкретного года: (df.month = M) & (df.year = Y)

miptgirl Mar 12 2017 at 20:15

Да, все последующие вопросы относятся ко всем данным.

Bombus Mar 12 2017 at 20:27

Благодарю.
Прошу разрешить вопрос Шреденгера. Во втором задании второй вопрос. По ощущениям утверждения «На графике не заметны какие-либо выбросы или аномалии» и «Один или несколько дней сильно выделяются из общей картины» затрагивают один и тот же момент — есть ли особые дни. Кажется что различие в вопросах определяются точкой взгляда, т.е. субъективно. Т.е. если день вполне укладывается границы, но при этом не стандартный относительно циклов, то считать ли это аномалией или выбивается ли он в этом случае из общей картины?

yorko Mar 15 2017 at 16:55

Комментарий будет интересен только тем, кто делает домашки, участвует в осуждениях в #mlcourse_open в слэке и следит за рейтингом

Выложил результаты 1 опроса (который был перед стартом курса) – в репозитории data/mlcourse_open_first_survey_data.csv (учел согласие на обработку, убрал е-мейлы)

Объявляется мини-конкурс по визуализации данных. Берете данные опроса, крутите их, вертите, ищите крутые закономерности, рисуете картинку. Кидаете в слэке в #mlcourse_open (обязательно с тегом #vis_contest), чья картинка набирает больше всего плюсов – тому респект и

1 место (по плюсам) – 5 баллов в рейтинг
2 место – 3 балла
3 место – 2 балла

Подсчет баллов будет 28 марта в 00:00, т.е. вместе с результатами 4 домашки.

bredd_owen Apr 23 2017 at 16:21

Спасибо! Отличный туториал.

Есть два вопрос:
На keras blog описан интересный метод: Variational autoencoder (VAE). Я так понял, что это гибкий алгоритм кластеризации. Используется сustom loss (vae_loss). Метод интересный, но достаточно трудный для понимания. Где, по-вашему мнению, данный метод может найти применение?

yorko Sep 18 2017 at 10:12

UPD: Видеозапись лекции по мотивам этой статьи в рамках нового запуска открытого курса (сентябрь-ноябрь 2017).

yorko Dec 18 2017 at 09:36

Новый запуск курса – 5 февраля 2018 г. Регистрация не требуется, но чтобы мы о вас знали, заполните форму. Главные новости будут в группе ВКонтакте, а жизнь во время курса будет теплиться в Slack OpenDataScience (вступить) в канале #mlcourse_open.

jurodivij Feb 11 2018 at 06:58

Метод dropna() нужно использовать до приведения типов — так, как указано у вас в jupyter notebook, иначе будет ошибка.

Plesser Feb 11 2018 at 15:00

Маленькая ошибка в статье. При открытии файла написана инструкция
df = pd.read_csv('data/video_games_sales.csv')
а должна быть
df = pd.read_csv('data/video_games_sales.csv').dropna()

yorko Feb 11 2018 at 23:10

Дальше и так dropna делается

Plesser Feb 12 2018 at 09:14

там сначало преобразование делается — а оно не прокатывает без dropna

yorko May 13 2018 at 22:45

Новый запуск – 1 октября 2018 г., на английском. Подробности – тут.

yorko Jun 13 2018 at 17:26

Теперь курс можно проходить и самостоятельно – появились демо-версии заданий с решениями. Они описываются в конце каждой статьи, но есть и общий cписок. Решения доступны после отправки соотв. веб-формы.