Комментарии 8
Объясните чайникам, в чём новость? Синтезаторы речи на CPU же с восьмидесятых существуют, если не раньше.
Применение нейронных сетей какое-то важное преимущество даёт?
Судя по первоисточнику, ключевое здесь «To generate humanlike audio, one second of speech can require a TTS system to output as many as 24,000 samples — sometimes even more. The size and complexity of state-of-the-art models require massive computation, which often needs to run on GPUs or other specialized hardware»

Т.е. просто буквы в звуки — не так сложно. А вот чтобы было похоже на человеческую речь, требовалось что-то довольно крутое, вроде специализированных вычислителей. Ну а теперь мы, образно говоря, снова можем смотреть видео на видеомагнитофоне.

Синтезаторы речи с приличным качеством ещё в самых первых Андроидах стояли и не нуждались в GPU. Так что без уточнения что же именно отличает новинку от предыдущих систем, новость не имеет смысла.

Интересуюсь этой темой еще со времен говорящей мыши и драгон диктата. Приличность познается исключительно в сравнении. Синтезаторы речи резко прибавили в качестве с появлением 3G/4G и возможности заливать семпл в облако, для распределённых вычислений. Применение же ML в сочетании с GPU-вычислениями (матрица инструкций, вместо последовательного конвейера инструкций, как в CPU) позволяет значительно уменьшить стоимость обслуживания такого облака, при этом качество самого сервиса может не поменяться, зато поменяется доступность технологии тому же малому бизнесу.

Если кликнуть по ссылке, можно найти несколько примеров речи.

Там же написано, что можно при этом голос изменить имея небольшой набор обучающих данных.

Digalo Russian Nicolai был ещё в начале 2000-х. Не считая ударений вполне годный голос был.

для него можно было подключить библиотеки с ударениями или написать свою. Но чтение 1го эпизода Звездных войн на нем было незабываемо

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.