Pull to refresh

Comments 9

(с восхищением) Вот за что я люблю Хабр — куча формул, ничего не понятно, но зато как круто!

P.S. Это, конечно же, шутка! Спасибо, интересно написано. В курсе по Probabilistic Graphical Model, вроде бы, обещали поговорить и о распознавании речи (хотя пишу по памяти, поэтому могу и ошибиться), посмотрим, какое вариант решения предложат они.
Раза два прочел. Многое не понятно.
Не могли бы пояснить:

— Почему все же кепрстральные коэффициенты полезны. В чем их преимущество по сравнению со спектрограммами? Почему они позволяют получать «дикторонезависимый» эффект?
— Что такое мел-ось? Что такое окно и оконная функция?

Спрашиваю не из занудтсва — мне эта тема интересна. Я много знаю продекодинг начиная с морфем, но слабо представляю начальные стадии обработки сигнала.

Потому что в исходном спектре содержится много компонент не существенных для распознавания. Использование MFCC позволяет сократить представление одного временного окна до 13 коэффициентов, каждый из которых вносит значительный вклад в конечный спектр.

Дикторонезависимый эффект — это, вообще говоря, вопрос: многие системы распознавания диктора как раз, как ни странно, используют кепстральные коэффициенты для идентификации говорящего.

Использование мел-шкалы связано со спецификой восприятия слуха — разрешающей способностью уха.

Окно — это анализируемый сегмент сигнала — то из чего состоит знакомая вам спектрограмма. Оконная функция — технический прием, необходимый для того чтобы преобразование Фурье вычислялось без искажений.

Что вы понимаете под «декодинг начиная с морфем»?
На мысль о дикторонезависимом эффекте действительно наталкивает неудачная фраза про «индивидуальные особенности», исправлю это в тексте
Спасибо за ответы. Все равно чувствую что не очень понимаю, я не силен в обработке сигналов. Нужно банально почитать книжки :)

>> Что вы понимаете под «декодинг начиная с морфем»?
Заговорился :). С фонем.

В моей картине мира весь декодер состоит из аккустической модели, которая мапится на фонемную модель, которая мапится на модель слов и языка. Обычно такой маппинг делается через HMM или какие-нибудь вероятностные структуры. Есть очень интересные варианты построения декодера, к примеру тут — www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=0CG0QFjAH&url=http%3A%2F%2Fwww.cs.nyu.edu%2F~mohri%2Fpub%2Fcsl01.pdf&ei=tV1zT4_pOJDltQazpLH3DQ&usg=AFQjCNEvN9AcP1PTUL_wltEt3OxhnpundQ&sig2=l09LL1Nij7sCFkjNy_JjfA

Но я очень слабо представляю себе начальный этап обработки сигнала.
Речевой аппарат человека можно представить как набор источников сигнала и фильтров, которые накладываются на этот сигнал. Кепстр позволяет в некоторой степени отделить источник от фильтра и получить сведения о состоянии артикуляционного аппарата, которые на спектрограмме незаметны.

Мел ось это та же частотная ось, только выраженная в мелах вместо Герц.

Оконная функция выделяет область сигнала или спектра, которую мы хотим анализировать. Перемножив значения оконной функции и сигнала мы оставляем только те из них, которые попадают в «окно»

если в двух словах, то как-то так
Спасибо. Но похоже, я совсем плаваю. Ушел читать…
Мне кажется, Вам следовало лучше ознакомиться с материалом, прежде чем писать сюда. Ваша статья содержит натяжки и неточности и при этом ровным счетом ничего не проясняет.
Не смотря на предыдущий комментарий, статья действительно помогла мне немного пролить свет на происходящее :)

Не могли бы вы прояснить следующие моменты:

— чем обусловлен вид функции f[m]?
— чему равны f(1) и f(h)?
— почему не использовался Хэмминг для DFT?

Буду очень признателен за ответы!
Sign up to leave a comment.

Articles

Change theme settings