Как стать автором
Обновить
108.68
Open Data Science
Крупнейшее русскоязычное Data Science сообщество

Материалы NLP курса от DeepPavlov

Время на прочтение 4 мин
Количество просмотров 25K

В этой статье вы найдете материалы очных курсов «Deep Learning in NLP», которые запускались командой DeepPavlov в 2018-2019 годах и которые являлись частичной адаптацией Stanford NLP course — cs224n. Статья будет полезна любым специалистам, погружающимися в обработку текста с помощью машинного обучения. Благодарю физтехов, разрабатывающих открытую библиотеку для разговорного искусственного интеллекта в МФТИ, и Moryshka за разрешение осветить эту тему на Хабре в нашем ods-блоге.



C 11-го февраля 2020 года стартовал открытый и бесплатный курс «Deep Learning in NLP».
Курс помогает разобраться в NLP от самого начала до архитектуры классического трансформера. После курса Вы сможете продвигаться дальше в этой теме (NLP постоянно развивается), сможете читать и понимать умные папирусы на архиве. Как бонус, Вы сможете понять, при чем здесь вообще "Улица Сезам". Основа курса — cs224n Стенфорда, который является одним из лучших по NLP (см. лекции 2019 года). Все разборы лекций и дополнительные полезные “ништяки” на семинарах — на русском языке.


image
Рисунок 2. Элмо и GPU — лучшие друзья


Курс требует общего понимания работы алгоритмов машинного обучения, в частности, нейросетей. Начальные знания библиотек глубокого обучения tensorflow или pytorch приветствуются. Самые простые векторизации BagOfWords, TF-iDF не затронуты, рекомендую самостоятельно ознакомиться. Записанные семинары-разборы на русском:


  1. Представления слов в многомерном пространстве (Word embeddings: w2v, fasttext и GloVe)
  2. Нейронные сети прямого распространения (FFNN, backprop)
  3. Рекуррентные и свёрточные сети в NLP (Language Modeling: RNN. И немного про CNN)
  4. Transfer learning (ELMo, ULMFiT)
  5. Механизм внимания на примере задачи нейронного машинного перевода (Attention, seq2seq на примере NMT)
  6. Архитектура трансформера (Self-Attention, Transformer)
  7. Question answering
  8. Unsupervised machine translation

Общий формат курса — inverted classroom. Включает в себя самостоятельный просмотр лекций стенфорда, выполнения тестиков, хождения/просмотра записей семинаров на Youtube, выполнения объемных домашних работ, обсуждение с другими ботающими, финальный проект. Далее подробно про каждый из аспектов:


  • Подготовка к семинарам. Перед каждым семинаром нужно посмотреть определенные лекции cs224n по roadmap. Далее нужно выполнить квиз по прослушанному материалу (советую несколько раз прослушать и разобраться).
  • Семинары. На семинарах происходит обсуждение материала, который Вы ботали дома. Семинарист ответит на вопросы, разберет некоторые фундаментальные вещи еще раз и может быть разберет вопросы из теста. Общаться вживую — очень полезно. В предыдущих запусках курса после выкладывались записи на Youtube, сейчас мб зарелизят и онлайн трансляции. Семинары для меня были супер полезные (пример – transfer learning).
  • Задания с кодом — воркшопы. Задания объемные, в этом плане курс похож на cs231n. Реализуете руками w2v, backprop в RNN и много другого интересного. В предыдущий запуск весной 2019 года был запущен телеграм-бот для проверки заданий в кооперации (peer-reviewed). Т.е. Вы будете смотреть чужой код, а кто-то другой – ваш.
  • Проекты. Курс дает возможность почувствовать себя исследователем (модное слово NLP-Researcher). Каждый участник должен сделать свой проект. Проект можно делать и в команде. В cs224n дефолтный проект — Question Answering. В нем дают бейзлайн для SQuAD 2.0, требуется его улучшить. Также в прошлый запуск предлагались другие возможные темы проектов от лаборатории. Более того, организаторы всегда шли навстречу и разрешали выбрать свой проект не из их списка. В итоге, получилось много интересных проектов форме постеров.
  • Соревнования. Также был inclass competition и в рамках курса – классификация новостей.

Важные ссылки


  1. Основная площадка — Telegram. Объявления и орг. информация тут: https://t.me/dlinnlp2020spring; чат чисто весеннего потока 2020 тут: https://t.me/joinchat/HdGuOk3LL4J3iDqj8x0i6g
  2. Юра yorko создал репозиторий с roadmap курса (пока ребята пилят отдельную страничку на своем сайте, …пилят же?) https://github.com/Yorko/dl_in_nlp_deeppavlov_cs224n_spring2020
  3. Общий чат всех предыдущих запусков, где сидят уже 800+ человек (так сказать, залетайте): https://t.me/dlinnlp_discuss

Q & A


  1. Где официальный road map? — пока его нет. Только тут. Важно следить за официальными объявлениями тут.
  2. Смогу ли я проходить курс, если я не из Москвы? — да, сможете. Для этого и выкладываются записи семинаров.

ODS


Курс стартует при поддержке OpenDataScience, под эгидой которого уже сформировались 2 мощнейших русскоязычных курса по ML и по DL. Приглашаем всех интересующихся DS в огромное (~41к участников) русскоязычное (и не только) сообщество. Доступ в ODS дается по инвайтам после подачи заявки на главной странице с небольшим вступительным тестом. Подаете заявку и скачиваете приложение Slack. Далее ждете письма на почту с приглашением в workspace_ods. Неофициальные обсуждения вопросов по курсу «DL in NLP» будут проходить в канале #class_cs224n Slack.


Отдельная благодарность


Хочу сказать огромное спасибо Владу Лялину. Этот человек тащил на себе не один запуск курса, вложил уйму времени как в семинары, так и в создание телеграм-бота для упрощения проверки заданий. Сейчас он делает PhD в University of Massachusetts Lowell и стажируется в Google. Пожелаем ему удачи и будем держать за него кулачки. Влад – тащи.


image
Рисунок 3. Фото c семинара по RNN


Заключение


От лица сообщества ods.ai посмею заявить, что это максимально топ курс, в который стоит ворваться, пока есть возможность.



Рисунок 1. Лого DeepPavlov

Теги:
Хабы:
+59
Комментарии 6
Комментарии Комментарии 6

Публикации

Информация

Сайт
ods.ai
Дата регистрации
Дата основания
Численность
5 001–10 000 человек
Местоположение
Россия

Истории