derunat Mar 13 at 15:05

Диффузионные текстовые модели — между двух миров

Medium

3 min

2.1K

НТР corporate blogArtificial Intelligence

Review

Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где-то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.

arXiv:2308.12219 Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning — `arXiv:2308.12219` Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning

Первая проблема, которая здесь возникает, — это, конечно, дискретная природа языка. В принципе, эта проблема решаема и даже не одним способом. Можно по‑разному перевести диффузию на дискретное пространство или наоборот, получать дискретные токены округлением из некоего уже результирующего дискретного пространства. Но и после этого остается другая проблема. LLM, работающие на авторегрессии, дают локальную согласованность, но не смогут выдать длинный качественный текст — согласованность будет экспоненциально убывать и в результате получится что‑то вроде испорченного телефона, где соседи друг с другом связаны, а вот с начальным сигналом уже не очень. Диффузионные модели одновременно и равномерно восстанавливают результат из зашумленных данных, то есть уже по своей природе дают глобальную согласованность. Это одновременно и плюс, и минус. С одной стороны, можно генерировать результат параллельно, а значит быстрее. С другой стороны — локальной согласованности у этого результата может не быть.

Но всё‑таки диффузионные текстовые модели продолжают появляться. На это есть весомые причины. Во‑первых, по самой своей архитектуре диффузионные модели позволяют «отмотать» на несколько шагов назад и уточнить. Так как процесс восстановления из шума итеративный, то на выходе должен получиться результат получше. Во‑вторых, как уже было сказано, теоретически такие модели могут быть быстрее LLM просто потому, что допускают параллельный декодинг. В‑третьих, глобальная согласованность в перспективе поможет генерировать длинные связные тексты. Поэтому задел для прогресса здесь есть, и на это рассчитывают много интересных проектов.

Одна из успешных попыток подружить диффузионные модели и авторегрессию — AR‑DIFFUSION. Она с одной стороны позволяет параллельное декодирование, а с другой — как и авторегрессионная модель в большей степени отвечает последовательной природе языка. Диффузия в модели происходит на двух уровнях — на уровне слов и предложений. Токены слева восстанавливаются за меньшее число шагов и генерируются раньше, чем токены справа. Таким образом есть некоторое приближение к локальной согласованности. Что важно, при сохранении присущей диффузионной модели глобальной согласованности.

Можно сделать по‑другому. Создать дискретный вариант диффузии во вспомогательном пространстве возможных переменных, а обратный ход репараметризовать. На каждом шаге восстановления из шума каждый токен или проходит через шумоподавление, или возвращается к шуму, в зависимости от заданного стохастического маршрутизатора. Этот фреймоворк порождает целое семейство моделей. Пока такие модели ограничены фиксированной длиной предложений (которая прогнозируется отдельным модулем), но задел на предложения произвольной длины есть.

Еще один удачный пример: диффузионные языковые модели можно настроить на осмысленное решение задач. Например, взять предобученную маскированную модель (авторы этой статьи показали, что предобученные MLM можно использовать как предобученную диффузионную модель). Затем провести диффузионную адаптацию MLM и донастроить ее на конкретных задачах или на инструкциях. В последнем случае модель будет понимать даже неизвестные ранее задачи. Важно, что тут по сути удалось масштабировать диффузионную модель и, возможно, приблизить появление больших диффузионных языковых моделей.

Больше обзоров AI‑статей на канале Pro AI.

Tags:

Hubs:

Диффузионные текстовые модели — между двух миров

Articles

Information