vladbataev Nov 6 2019 at 18:04

Обзор технологий синтеза речи

7 min

18K

TINKOFF corporate blogMachine learning*Artificial Intelligence

From sandbox

+16

Comments 11

ni-co Nov 6 2019 at 19:14

Статье не хватает хоть какого-нибудь примера работы Вашего голосового движка.

vladbataev Nov 6 2019 at 19:32

Спасибо за комментарий, добавил в конце статьи ссылку, где можно послушать примеры. Также работу нашего движка можно оценить в голосовом помощнике Олеге ;)

SergeyG83 Nov 7 2019 at 13:01

При прочтении статьи почему-то вспомнил о дескриптивистах, которые пытались исследовать древний индийский язык, у которого не было никаких письменных источников. Здорово!

quaer Nov 7 2019 at 13:03

А что у вас поддаётся настройке?
Можно ли влиять на акцентирование разметкой текста?
Какая производительность CPU требуется и сколько памяти, например, для 8 кГц/16 бит, и от чего это зависит?

vladbataev Nov 7 2019 at 13:42

С поддерживаемой управляемостью можно ознакомиться здесь. Да, у нас есть возможность менять ударения специальной разметкой.
По поводу производительности: для данной задачи наиболее важны большой размер кэша CPU и поддержка векторных инструкций, количество памяти не так критично. Для 8 кГц подойдет обычный десктопный процессор с большим L2 кэшом.

quaer Nov 7 2019 at 13:58

Спасибо за ответ! Сколько всё-таки ресурсов требуется для русского/английского языков примерно хотя бы: объём данных, ОЗУ, загрузка процессора при работе в реальном времени?

donpadlo Nov 7 2019 at 13:39

Не хватает бесплатной возможности синтезировать речь из символов. Хотя-бы для оценки. 700 руб / 1мл символов для «потыкать»… жадность душит…

vladbataev Nov 7 2019 at 13:59

К сожалению сейчас у нас нет возможности синтезировать текст в веб интерфейсе, но мы предоставляем бесплатный доступ к API. Вы можете оставить заявку на voicekit.tinkoff.ru.

snakers4 Mar 30 2021 at 08:05

тут выложили недавно качественный синтез как раз на потыкать — https://habr.com/ru/post/549480/ — и не надо покупать никаких дивайсов и ставить приложений

undersunich Nov 7 2019 at 14:33

Вот улица, фонарь, аптека,
А вот Тинькофф с деньгами лезет в душу к человеку,
Пройдем еще немного лет,
И не поймете Вы где свет а где душевный туалет…

F1356c Nov 11 2019 at 16:39

никак не рассмотрена нормализация текста, а ведь в зависимости от языка это может быть очень интересной самостоятельной задачей