Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.
То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.
Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.
Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.
Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.
Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.
Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.
Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.
Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.
То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.
Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.
Спасибо за замечание! Исправила.
Изучала этот материал в основном в английских источниках и не повезло наткнуться на корректный перевод.
Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.
Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.
Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.
Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.
Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.