Comments 8
Применение нейронных сетей какое-то важное преимущество даёт?
Т.е. просто буквы в звуки — не так сложно. А вот чтобы было похоже на человеческую речь, требовалось что-то довольно крутое, вроде специализированных вычислителей. Ну а теперь мы, образно говоря, снова можем смотреть видео на видеомагнитофоне.
Синтезаторы речи с приличным качеством ещё в самых первых Андроидах стояли и не нуждались в GPU. Так что без уточнения что же именно отличает новинку от предыдущих систем, новость не имеет смысла.
Интересуюсь этой темой еще со времен говорящей мыши и драгон диктата. Приличность познается исключительно в сравнении. Синтезаторы речи резко прибавили в качестве с появлением 3G/4G и возможности заливать семпл в облако, для распределённых вычислений. Применение же ML в сочетании с GPU-вычислениями (матрица инструкций, вместо последовательного конвейера инструкций, как в CPU) позволяет значительно уменьшить стоимость обслуживания такого облака, при этом качество самого сервиса может не поменяться, зато поменяется доступность технологии тому же малому бизнесу.
Там же написано, что можно при этом голос изменить имея небольшой набор обучающих данных.
Digalo Russian Nicolai был ещё в начале 2000-х. Не считая ударений вполне годный голос был.
Facebook показала систему преобразования текста в речь в реальном времени на CPU