Как стать автором
Обновить

Комментарии 8

НЛО прилетело и опубликовало эту надпись здесь
Фреймы обычно делают с перекрытием, потому что нужно уловить не только звуки но и переходы между ними. Длительность всего фрейма 25мс, перекрытие со следующим 15мс.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
делать что то типа железного тензорного процессора не собрались?

Нагрузка именно на тензорное вычисление у вас получится большой…
А как синтез речи в яндексе происходит? Насколько я знаю, есть два с половиной подхода: компоновать заранее записанные фонемы, генерировать спектрограмму, и работающий в 100 раз медленнее реалтайма wavenet. Минус первого — безэмоциональность, минус второго — «железность» звука. Что яндекс делает в этом направлении?

Какой сейчас лучший WER у open source библиотек? Просто интересно, насколько Яндекс лучше?

Насколько результаты распознавания через https://tech.yandex.ru/speechkit/ могут отличаться от распознования приложениями Яндекса?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий