doxtarzlo Oct 18 2011 at 21:22

Измерение разборчивости речи: модуляционный подход

3 min

8.2K

В предыдущих статьях, посвященных разборчивости речи, я рассмотрел объективные методы и формантный подход. Данный топик будет завершающим, и мы рассмотрим модуляционный подход к измерению разборчивости речи как в системах связи, так и в помещении.

Рождением модуляционного метода можно считать 1970 год. Т. Ходгаст и Г. Стинекенр разработали систему, которая использовала тестовый сигнал в виде шума, модулированного по амплитуде сигналом фиксированной частоты с огибающей прямоугольной формы. Спектр несущего шума был подобен спектру долговременной речи. В результате при оценке разборчивости удавалось учесть влияние шума, клиппирования и реверберации. В последствии, специально разработанное устройство давало возможность измерить индекс передачи речи STI (speech transmission index).

STI

STI – это значение, которое определяет влияние тракта на разборчивость речи. Оно тесно связано с такой характеристикой канала, как функция передачи модуляции MTF (modulation transfer function). MTF – мера того, насколько хорошо сохраняется амплитудная модуляция сигнала в конкретном тракте при его передачи от входа к выходу.

Не будем лезть в дебри физического обоснования и теоретических выкладок. Думаю, достаточно будет просто привести выражение для вычисления MTF:

F – частота модуляции;
T – раннее время реверберации;
S/N – отношение сигнал/шум в дБ;

Первый сомножитель учитывает влияние реверберации, второй – влияние шума. Но вопреки простоте данная формула мне не нравится хотя бы потому, что она получена вследствие использования математических моделей. Посему думаю, что целесообразнее будет вычислять MTF по формуле Шрёдера:

h_e(t) – импульсная характеристика системы;
h_k(t) – импульсная характеристика октавного фильтра;

Теперь у нас есть все, чтобы оценить STI по упрощенной методике в небольшом помещении:

Оцениваем 98 значений MTF для 14 значений частот модуляции (F=0.63; 0.8; 1; 1.25; 1.6; 2; 2.5; 3.15; 4; 5; 6.3; 8; 10; 12.5 Гц) в каждой из семи октавных полос с центральными частотами 125; 250; 500; 1k; 2k; 4k; 8k Гц. Подсчет с разными частотами модуляции обуславливается уникальностью речевого аппарата каждого человека.
Каждое значение MTF пересчитываем в эффективное отношение сигнал/шум (SNR):
Усредняем оценки SNR для каждой октавной полосы:
Вычисляем взвешенное среднее значение:

w_k=0.13; 0.14; 0.11; 0.12; 0.19; 0.17; 0.14.
Вычисляем STI, используя соотношение ниже:

RASTI & STITEL

RASTI (rapid STI) – упрощенная версия метода STI, в которой учитывается вклад в передачу модуляции лишь двух октавных полос с центральными частотами 500 Гц и 2 кГц. При этом частоты модуляции принимают значения 1; 2; 4; 8 Гц для октавной полосы с центральной частотой 500 Гц, и 0.7; 1.4; 2.8; 5.6; 11.2 Гц для октавной полосы 2 кГц. После вычисления MTF для данных частот и полос, далее расчет производится аналогично алгоритму выше.

STITEL (STI для телекоммуникационных систем) – упрощенная версия STI, в которой применяется только одна частота модуляции в каждой из семи октавных полос. Несущий шум для каждой октавной полосы имеет ширину спектра пол октавы (во избежание влияния на смежные полосы) и излучается одновременно в каждой полосе частот. Вследствие упрощений данный метод не учитывает влияние реверберации и нелинейных искажений.

Почти конец

А теперь подвох: описанное выше применимо для западного семейства языков, в частности для английской речи. Причина кроется в следующем: наблюдается хорошее согласование результатов STI с многочисленными субъективными оценками измерения разборчивости английской речи. В случае же русской/украинской речи хорошего совпадения нет. Посему целесообразнее всего будет применение следующего приема:

(S/N)_{ef k} — усредненная оценка эффективного отношения сигнал/шум для каждой полосы частот;
p_k — вероятность пребывания формант в k-ой полосе частот;

Дальнейшие шаги довольно подробно рассмотрены в топике, который был посвящен формантному подходу. Там же описаны некоторые меры для получения более точных результатов.

Теперь уже точно конец

Подвал

Акустическая экспертиза каналов речевой коммуникации. Монография / Дидковский В. С., Дидковская М. В., Продеус А. Н. – Киев, 2008. 420.
D. B. Keele, jr., Evaluation of Room Speech Transmission Index and Modulation Transfer Function by the Use of Time Delay Spectrometry, Techron, Div. Crown International, Inc., Elkhart, Indiana, 46517, USA

Хабраматериалы по теме

Tags:

Hubs:

Sound