Как стать автором
Обновить
7
0
Olga Yakovenko @Dino_the_dinosaur

Data Scientist

Отправить сообщение

Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.

То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.

Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.

Спасибо за замечание! Исправила.

Изучала этот материал в основном в английских источниках и не повезло наткнуться на корректный перевод.

Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.

Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.

Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.

Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.

Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.

Баш он такой здесь, да, однако инструмент командной строки arpa2fst по умолчанию работает без кавычек (и работает нормально) github.com/kaldi-asr/kaldi/blob/master/src/lmbin/arpa2fst.cc

Информация

В рейтинге
Не участвует
Откуда
Новосибирск, Новосибирская обл., Россия
Работает в
Зарегистрирована
Активность