maybe_elf May 17 2020 at 10:49

Facebook показала систему преобразования текста в речь в реальном времени на CPU

2 min

8.9K

Machine learning*Artificial IntelligenceSoundNatural Language Processing*

+14

Comments 8

APLe May 17 2020 at 13:00

Объясните чайникам, в чём новость? Синтезаторы речи на CPU же с восьмидесятых существуют, если не раньше.
Применение нейронных сетей какое-то важное преимущество даёт?

+10

spc May 17 2020 at 13:08

Судя по первоисточнику, ключевое здесь «To generate humanlike audio, one second of speech can require a TTS system to output as many as 24,000 samples — sometimes even more. The size and complexity of state-of-the-art models require massive computation, which often needs to run on GPUs or other specialized hardware»

Т.е. просто буквы в звуки — не так сложно. А вот чтобы было похоже на человеческую речь, требовалось что-то довольно крутое, вроде специализированных вычислителей. Ну а теперь мы, образно говоря, снова можем смотреть видео на видеомагнитофоне.

ProLimit May 17 2020 at 18:32

Синтезаторы речи с приличным качеством ещё в самых первых Андроидах стояли и не нуждались в GPU. Так что без уточнения что же именно отличает новинку от предыдущих систем, новость не имеет смысла.

keydet May 17 2020 at 23:41

Интересуюсь этой темой еще со времен говорящей мыши и драгон диктата. Приличность познается исключительно в сравнении. Синтезаторы речи резко прибавили в качестве с появлением 3G/4G и возможности заливать семпл в облако, для распределённых вычислений. Применение же ML в сочетании с GPU-вычислениями (матрица инструкций, вместо последовательного конвейера инструкций, как в CPU) позволяет значительно уменьшить стоимость обслуживания такого облака, при этом качество самого сервиса может не поменяться, зато поменяется доступность технологии тому же малому бизнесу.