Как стать автором
Обновить

DeepMind представила состязательную систему преобразования текста в речь EATS

Время на прочтение 2 мин
Количество просмотров 2.1K
imageФото: deepmind.com

Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.

Процесс синтеза текста в речь сложный и включает несколько этапов обработки, таких как нормализация текста, согласованная лингвистическая адаптация, синтез mel-спектрограмм, синтез необработанных звуковых сигналов и так далее.

Хотя современные системы TTS, подобные тем, которые используются в голосовых помощниках типа Siri, могут похвастаться высокоточным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. Каждый этап требует больших вложений, и системы не могут обучаться синтезу речи сквозным способом, как это происходит в других областях машинного обучения.

Для решения проблемы исследователи DeepMind разработали генеративную модель, обучаемую в состязательном порядке сквозным способом, которая обеспечивает производительность, сопоставимую с моделями SOTA.

Задачей EATS является сопоставление входной последовательности символов или фонем с необработанным звуком с частотой 24 кГц. EATS решает проблему неровного речевого сигнала с помощью двух подмодулей: выравнивателя, который предсказывает длительность каждого входного токена, и декодера, который увеличивает частоту выходного сигнала выравнивателя до полной звуковой частоты.

Модель EATS включает в себя:

image

Вся архитектура генератора является дифференцируемой и проходит сквозную подготовку. Состязательный подход позволяет ему учиться на относительно слабом контрольном сигнале, значительно снижая стоимость процесса. EATS не опирается на авторегрессионную выборку, что помогает избежать смещения экспозиции и снижения параллелизма во время вывода данных.

Исследователи оценили EATS с использованием среднего балла мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи, которые подготовили профессиональные актеры. Пул включал 69 англоязычных текстов североамериканцев.

image

По сравнению с предыдущими моделями EATS требует значительно меньшего контроля, но все же достигает показателя MOS 4.083, приближаясь к уровню SOTA, например GAN-TTS и WaveNet.

Ранее исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Модель обучали на 175 миллиардов параметрах или 570 гигабайтах текста. GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Ему достаточно от 10 до 100 примеров того, как выполнить действие.
См. также:

Теги:
Хабы:
+8
Комментарии 2
Комментарии Комментарии 2

Другие новости

Истории

Работа

Data Scientist
66 вакансий

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн