Открыть список
Как стать автором
Обновить
21
Карма
0
Рейтинг
Шкарин Сергей @Kouki_RUS

Исследователь данных

Трансферное обучение с Т5

Машинное обучение
Перевод

За последние несколько лет трансферное обучение дало толчок новой волне state-of-the-art результатов в обработке естественного языка (NLP). Эффективность трансферного обучения заключается в предварительном обучении модели на большом доступном неразмеченном корпусе текстов для одной из задач самообучения (self-supervised learning): например, языкового моделирования или заполнения пропусков в тексте. Затем модель может быть дообучена на меньших наборах данных и зачастую показывает (значительно) лучшие результаты, чем в случае обучения на одних только размеченных данных. Об успехах трансферного обучения стало известно еще в 2018 году, когда были представлены такие модели, как GPT, ULMFiT, ELMo, BERT, а в 2019 году успешность такого подхода стала еще более очевидна с разработкой новых моделей вроде XLNet, RoBERTa, ALBERT, Reformer и MT-DNN. Скорость, с которой эта сфера развивается, не позволяет, однако, с уверенностью сказать, какие из разработок оказали наибольшее влияние и насколько эффективно их можно комбинировать.

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры1.1K
Комментарии 1

Разбираем XLNet

Машинное обучение
Перевод

Введение


XLNet – новейшая и самая крупная модель, появившаяся в активно развивающейся сфере обработки естественного языка (Natural Language Processing, NLP). Статья о XLNet объединяет современные достижения в NLP и инновационный подход к решению задачи языкового моделирования. Обученная на огромном корпусе, модель достигает выдающихся результатов в NLP-задачах бенчмарка GLUE.


XLNet представляет собой авторегрессионную языковую модель, которая выдает на выходе вероятность совместной встречаемости последовательности токенов на основе архитектуры рекуррентного Трансформера. Задачей обучения модели является подсчет вероятности для заданного слова (токена), при условии наличия всех других слов в предложении (а не только слов слева или справа от заданного).


Если вам все понятно в описании выше, то этот пост не для вас. Если же нет, то продолжайте читать о том, как работает XLNet и почему он стал стандартом для многих NLP задач.

Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры2.7K
Комментарии 0

Измерение гендерных корреляций в предобученных NLP-моделях

Машинное обучение
Перевод

За последние несколько лет были сделаны значительные успехи в области обработки естественного языка (NLP), где такие модели, как BERT, ALBERT, ELECTRA и XLNet достигли поразительной точности (accuracy) в различных задачах. Во время предварительного обучения (pre-training) на основе обширного корпуса текстов (например, Википедии) формируются векторные представления, которые получают путем маскирования слов и попыток их предсказать (т.н. маскированное языковое моделирование). Получившиеся представления кодируют большой объем информации о языке и отношениях между понятиями, например, между хирургом и скальпелем. Далее начинается второй этап обучения – тонкая настройка (fine-tuning) – на котором модель использует заточенные под определенную задачу данные для того, чтобы с помощью общих предобученных представлений научиться выполнять конкретные задачи вроде классификации. Учитывая широкое использования подобных моделей в разных NLP задачах, критически важно понимать, какая информация в них содержится и как любые выученные отношения влияют на результаты модели в ее приложениях, чтобы обеспечить их соответствие Принципам искусственного интеллекта (ИИ).

Читать дальше →
Рейтинг 0
Просмотры905
Комментарии 0

Переосмысление механизма внимания с Performers

Машинное обучение
Перевод

Модели на основе Трансформера достигли выдающихся результатов в самых разных областях знаний, включая разговорный ИИ, обработку естественного языка, изображений и даже музыки. Главной составляющей любой архитектуры Трансформеров является модуль внимания (attention module), который подсчитывает схожесть для всех пар во входной последовательности. Он, однако, плохо масштабируется с увеличением длины входной последовательности, требуя квадратичного увеличения вычислительного времени для получения всех оценок сходства, а также квадратичного увеличения объема задействованной памяти для построения матрицы для хранения этих оценок.

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры1.6K
Комментарии 2

ALBERT — облегченный BERT для самообучения языковым представлениям

Машинное обучение
Перевод

С тех пор как в 2018 году был представлен BERT, исследования в области обработки естественного языка охвачены новой парадигмой: использованием больших объемов существующего текста для предварительного обучения параметров модели на основе самообучения (self-supervision), не требующего разметки данных. Таким образом, вместо того, чтобы обучать модель для обработки естественного языка (NLP) с нуля, можно взять предобученную модель, уже имеющую некоторое знание о языке. Однако, для успешного применения этого нового подхода в NLP исследователю необходимо иметь некоторое представление о том, что же именно способствует языковому обучению модели: высота нейронной сети (т.е. количество слоев), ее ширина (размер представлений скрытых слоев), критерий обученности для самообучения или что-то совсем иное?

Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры2.1K
Комментарии 0

Reformer — Эффективный Трансформер

Машинное обучение
Перевод


Понимание последовательно организованных данных – будь то язык, музыка или видео – трудная задача, особенно в случаях, когда они сильно зависят от контекста, который их окружает. Например, если человек или какой-либо предмет пропадёт из поля зрения на видеозаписи и появится снова через значительный промежуток времени, многие модели забудут, как он выглядел. В сфере обработки языка нейронные сети с долгой краткосрочной памятью (long short-term memory, LSTM) охватывают достаточный контекст для того, чтобы успешно осуществлять последовательный перевод предложение за предложением. В этом случае контекстное окно (т.е. охват данных, которые модель принимает во внимание при переводе) может содержать от десятка до сотни слов. Более новая модель Трансформера не только улучшила качество последовательного перевода, но может быть использована для генерации целых статей Википедии с помощью суммаризации множества документов. Это возможно благодаря тому, что Трансформер увеличил контекстное окно до тысячи слов. Кроме того, столь обширный рассматриваемый контекст позволяет использовать Трансформер для обработки не только текста, но и пикселей или музыкальных нот, на основе которых можно сгенерировать изображения или музыку.

Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры2K
Комментарии 1

Более эффективное предварительное обучение NLP моделей с ELECTRA

Машинное обучение
Перевод

Последние разработки в области предварительного обучения языковых моделей привели к значительным успехам в сфере обработки естественного языка (Natural Language Processing, NLP), породив такие высокоэффективные модели, как BERT, RoBERTa, XLNet, ALBERT, T5 и многие другие. Эти методы, имеющие различную архитектуру, тем не менее, объединяет идея использования больших объемов неразмеченных текстовых данных для создания общей модели понимания естественного языка, которая затем дообучается и тонко настраивается для решения конкретных прикладных задач, вроде анализа тональности или построения вопросно-ответных систем.

Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры1.6K
Комментарии 2

GPT-3 в картинках: краткий обзор

Машинное обучение
Перевод

Технологический мир охватил новый хайп — GPT-3.


Огромные языковые модели (вроде GPT-3) все больше удивляют нас своими возможностями. И хотя пока доверие к ним со стороны бизнеса недостаточно для того, чтобы представить их своим клиентам, эти модели демонстрируют те зачатки разума, которые позволят ускорить развитие автоматизации и возможностей «умных» компьютерных систем. Давайте снимем ауру таинственности с GPT-3 и узнаем, как она обучается и как работает.


Обученная языковая модель генерирует текст. Мы можем также отправить на вход модели какой-то текст и посмотреть, как изменится выход. Последний генерируется из того, что модель «выучила» во время периода обучения путем анализа больших объемов текста.


Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры9.7K
Комментарии 4

Ваш первый BERT: иллюстрированное руководство

Машинное обучение
Перевод
Tutorial

bert-distilbert-sentence-classification


Прогресс в области машинного обучения для обработки естественного языка существенно ускорился за последние несколько лет. Модели покинули исследовательские лаборатории и стали основой ведущих цифровых продуктов. Хорошей иллюстрацией этому служит недавнее заявление о том, что основным компонентом, стоящим за поиском Google, стала модель BERT. Google верит, что этот шаг (т.е. внедрение передовой модели понимания естественного языка в поисковую систему) представляет собой «величайший прорыв за последние пять лет и один из знаменательнейших во всей истории поисковых систем».


Данная статья – это простое руководство по использованию одной из версий BERT'а для классификации предложений. Пример, рассмотренный нами, одновременно и достаточно простой для первого знакомства с моделью, и достаточно продвинутый для того, чтобы продемонстрировать ключевые концепты.


Помимо этой статьи был подготовлен ноутбук, который можно посмотреть в репозитории или запустить в Colab.

Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры10.5K
Комментарии 3

GPT-2 в картинках (визуализация языковых моделей Трансформера)

Машинное обучение
Перевод

openAI-GPT-2-3


В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.

Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры6.8K
Комментарии 2

BERT, ELMO и Ко в картинках (как в NLP пришло трансферное обучение)

Машинное обучение
Перевод

2018 год стал переломной точкой для развития моделей машинного обучения, направленных на решение задач обработки текста (или, что более корректно, обработки естественного языка (Natural Language Processing, NLP)). Быстро растет концептуальное понимание того, как представлять слова и предложения для наиболее точного извлечения их смысловых значений и отношений между ними. Более того, NLP-сообщество продвигает невероятно мощные инструменты, которые можно бесплатно скачать и использовать в своих моделях и пайплайнах. Эту переломную точку также называют NLP’s ImageNet moment, ссылаясь на тот момент несколько лет назад, когда схожие разработки значительно ускорили развитие машинного обучения в области задач компьютерного зрения.


transformer-ber-ulmfit-elmo


(ULM-FiT не имеет ничего общего с Коржиком, но что-то лучше не пришло в голову)

Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры16.7K
Комментарии 0

Transformer в картинках

Машинное обучение
Перевод

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучшить показатели эффективности приложений нейронного машинного перевода. В данной статье мы рассмотрим Трансформер (Transformer) – модель, которая использует механизм внимания для повышения скорости обучения. Более того, для ряда задач Трансформеры превосходят модель нейронного машинного перевода от Google. Однако самое большое преимущество Трансформеров заключается в их высокой эффективности в условиях параллелизации (parallelization). Даже Google Cloud рекомендует использовать Трансформер в качестве модели при работе на Cloud TPU. Попробуем разобраться, из чего состоит модель и какие функции выполняет.


Впервые модель Трансформера была предложена в статье Attention is All You Need. Реализация на TensorFlow доступна как часть пакета Tensor2Tensor, кроме того, группа NLP-исследователей из Гарварда создали гид-аннотацию статьи с реализацией на PyTorch. В данном же руководстве мы попробуем максимально просто и последовательно изложить основные идеи и понятия, что, надеемся, поможет людям, не обладающим глубоким знанием предметной области, понять данную модель.

Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры19.1K
Комментарии 2

Визуализируя нейронный машинный перевод (seq2seq модели с механизмом внимания)

Машинное обучение
Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи "Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)" автора Jay Alammar.


Sequence-to-sequence модели (seq2seq) – это модели глубокого обучения, достигшие больших успехов в таких задачах, как машинный перевод, суммаризация текста, аннотация изображений и др. Так, например, в конце 2016 года подобная модель была встроена в Google Translate. Основы же seq2seq моделей были заложены еще в 2014 году с выходом двух статей — Sutskever et al., 2014, Cho et al., 2014.


Чтобы в достаточной мере понять и затем использовать эти модели, необходимо сначала прояснить некоторые понятия. Предложенные в данной статье визуализации будут хорошим дополнением к статьям, упомянутым выше.


Sequence-to-sequence модель – это модель, принимающая на вход последовательность элементов (слов, букв, признаков изображения и т.д.) и возвращающая другую последовательность элементов. Обученная модель работает следующим образом:


Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Просмотры10.1K
Комментарии 1

Информация

В рейтинге
5,729-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность