Комментарии / Профиль Dino_the

Data Scientist

Профиль Публикации 2Комментарии 5Закладки 6

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Dino_the_dinosaur 21 ноя 2022 в 17:24

Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.

Посмотреть

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Dino_the_dinosaur 20 окт 2021 в 12:49

То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.

Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.

Посмотреть

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Dino_the_dinosaur 20 окт 2021 в 12:26

Спасибо за замечание! Исправила.

Изучала этот материал в основном в английских источниках и не повезло наткнуться на корректный перевод.

Посмотреть

Обзор методов улучшения речи и шумоподавления: от классики к SotA

Dino_the_dinosaur 20 окт 2021 в 12:19

Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.

Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.

Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.

Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.

Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.

Посмотреть

Как адаптировать языковые модели Kaldi? (со смешными животными)

Dino_the_dinosaur 24 мая 2021 в 13:43

Баш он такой здесь, да, однако инструмент командной строки arpa2fst по умолчанию работает без кавычек (и работает нормально) github.com/kaldi-asr/kaldi/blob/master/src/lmbin/arpa2fst.cc

Посмотреть