loftz0r Mar 28 2012 at 09:52

Мел-кепстральные коэффициенты (MFCC) и распознавание речи

4 min

82K

Programming*Algorithms*

From sandbox

+15

Comments 9

heathen Mar 28 2012 at 10:04

(с восхищением) Вот за что я люблю Хабр — куча формул, ничего не понятно, но зато как круто!

P.S. Это, конечно же, шутка! Спасибо, интересно написано. В курсе по Probabilistic Graphical Model, вроде бы, обещали поговорить и о распознавании речи (хотя пишу по памяти, поэтому могу и ошибиться), посмотрим, какое вариант решения предложат они.

lightcaster Mar 28 2012 at 20:19

Раза два прочел. Многое не понятно.
Не могли бы пояснить:

— Почему все же кепрстральные коэффициенты полезны. В чем их преимущество по сравнению со спектрограммами? Почему они позволяют получать «дикторонезависимый» эффект?
— Что такое мел-ось? Что такое окно и оконная функция?

Спрашиваю не из занудтсва — мне эта тема интересна. Я много знаю продекодинг начиная с морфем, но слабо представляю начальные стадии обработки сигнала.

akindinos Mar 28 2012 at 22:08

Потому что в исходном спектре содержится много компонент не существенных для распознавания. Использование MFCC позволяет сократить представление одного временного окна до 13 коэффициентов, каждый из которых вносит значительный вклад в конечный спектр.

Дикторонезависимый эффект — это, вообще говоря, вопрос: многие системы распознавания диктора как раз, как ни странно, используют кепстральные коэффициенты для идентификации говорящего.

Использование мел-шкалы связано со спецификой восприятия слуха — разрешающей способностью уха.

Окно — это анализируемый сегмент сигнала — то из чего состоит знакомая вам спектрограмма. Оконная функция — технический прием, необходимый для того чтобы преобразование Фурье вычислялось без искажений.

Что вы понимаете под «декодинг начиная с морфем»?

loftz0r Mar 28 2012 at 22:42

На мысль о дикторонезависимом эффекте действительно наталкивает неудачная фраза про «индивидуальные особенности», исправлю это в тексте

lightcaster Mar 28 2012 at 22:59

Спасибо за ответы. Все равно чувствую что не очень понимаю, я не силен в обработке сигналов. Нужно банально почитать книжки :)

>> Что вы понимаете под «декодинг начиная с морфем»?
Заговорился :). С фонем.

В моей картине мира весь декодер состоит из аккустической модели, которая мапится на фонемную модель, которая мапится на модель слов и языка. Обычно такой маппинг делается через HMM или какие-нибудь вероятностные структуры. Есть очень интересные варианты построения декодера, к примеру тут — www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=0CG0QFjAH&url=http%3A%2F%2Fwww.cs.nyu.edu%2F~mohri%2Fpub%2Fcsl01.pdf&ei=tV1zT4_pOJDltQazpLH3DQ&usg=AFQjCNEvN9AcP1PTUL_wltEt3OxhnpundQ&sig2=l09LL1Nij7sCFkjNy_JjfA

Но я очень слабо представляю себе начальный этап обработки сигнала.

loftz0r Mar 28 2012 at 22:09

Речевой аппарат человека можно представить как набор источников сигнала и фильтров, которые накладываются на этот сигнал. Кепстр позволяет в некоторой степени отделить источник от фильтра и получить сведения о состоянии артикуляционного аппарата, которые на спектрограмме незаметны.

Мел ось это та же частотная ось, только выраженная в мелах вместо Герц.

Оконная функция выделяет область сигнала или спектра, которую мы хотим анализировать. Перемножив значения оконной функции и сигнала мы оставляем только те из них, которые попадают в «окно»

если в двух словах, то как-то так

lightcaster Mar 28 2012 at 23:09

Спасибо. Но похоже, я совсем плаваю. Ушел читать…

akindinos Mar 28 2012 at 22:19

Мне кажется, Вам следовало лучше ознакомиться с материалом, прежде чем писать сюда. Ваша статья содержит натяжки и неточности и при этом ровным счетом ничего не проясняет.

krestjaninoff May 15 2014 at 18:56

Не смотря на предыдущий комментарий, статья действительно помогла мне немного пролить свет на происходящее :)

Не могли бы вы прояснить следующие моменты:

— чем обусловлен вид функции f[m]?
— чему равны f(1) и f(h)?
— почему не использовался Хэмминг для DFT?

Буду очень признателен за ответы!

Show the best of all time