RealSpeaker Aug 7 2014 at 18:35

Перспективы развития систем распознавания речи (выдержка из исследования)

12 min

23K

Sound

+15

Comments 10

IonDen Aug 7 2014 at 19:02

Очень много воды в статье. Фраза про то что «банкинг заинтересован в распозновании речи» встречается в тексте так много раз, что навевает тоску.

RealSpeaker Aug 7 2014 at 19:20

Без проблем, почищу. Как закончу — напишу. Спасибо!

RealSpeaker Aug 8 2014 at 00:04

Исправил повторы. Спасибо!

ZlodeiBaal Aug 8 2014 at 00:59

Блин, ну биометрия по голосу же не работает, ну вот вообще. Там точность чуть ли не такая же плохая как по лицу. И отказов много и ложные верификации есть. Любая динамическая биометрия малонадёжна…

RealSpeaker Aug 8 2014 at 08:40

Согласен, голос можно легко подделать. Мне лично перспективным видится направление аудио-видео верификации, так как микрофоны и видео камеры на большинстве устройств уже есть и не нужно придумывать велосипед. А если система сможет сделать предварительную аутентификацию и сможет задать пользователю уникальный вопрос, на который он знает ответ, то точность идентификации пользователя будет выше.

tasman Aug 8 2014 at 12:58

А есть ссылки на материалы по подделке голоса? Я когда-то бегло смотрел и не нашёл толком ничего. После этого у меня сложилось впечатление, что это сделать довольно сложно (есть люди «имитаторы», но я не встречал исследований качества их имитаций применительно к системам голосовой верификации личности)

RealSpeaker Aug 8 2014 at 13:19

Литература по клонированию речи:
Б. М. Лобанов, Л. И. Цирульник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008, 316 стр.
Abe M., Nakamura S., Shikano K. and Kuwabara H. «Voice conversion through vector quantization», in Proc. of the Int. Conf. on Acoust., Speech and Sig. Proc. ICASSP, New York, USA, Apr. 1988, vol. 1, pp. 655–658.
Patent No.: US 6615174B1, Sep. 2, 2003.
ITU-T Rec. G.729, «Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear — prediction (CS-ACELP)», Mar. 1996.
Levine S. and Smith J.O. «A sines+transients+noise audio representation for data compression and time/pitch scale modifications», in Proc. 105th Conv. Audio Eng. Soc., preprint #4781, Sep. 1998.
Talkin D. «Robust algorithm for pitch tracking» in «Speech Coding and Synthesis», Kleijn, W.B. and Palival, K.K. Eds. Elsevier, Amsterdam, Netherlands, 1995.
Grocholevski S. «First Database for Spoken Polish», in Proc. Int. Conf. On Language Resources and Evaluation, Grenada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, «Statistical Conversion Algorithms of Pitch Contours Based on Prosodic Phrases». Proceedings of the International Conference «Speech Prosody 2004». (SP 2004)", Nara, Japan March 23-26 2004.
Huang X., Acero A., Hon H-W. «Spoken Language Processing: a guide to theory, algorithms, and system development», Prentice Hall, NJ, 2001. — p. 980.
Голос часто подделывают через софт типа ScreamingBee: www.screamingbee.com/
Там есть утилита VoiceChanger. За деталями надо спросить, конечно, у звукооператоров и звукозаписывающих студий.

tasman Aug 8 2014 at 13:24

Спасибо, посмотрю на досуге

1ney Aug 8 2014 at 11:10

Почему люди, купив ноутбук, первым делом не сдирают наклейки?

RealSpeaker Aug 8 2014 at 11:16

Кстати наклейки содрал уже давно. Ноутбук до сих пор служит. Сам сейчас не понимаю как — но наклейки какое-то время висели.

Show the best of all time