y_agafonov Nov 13 2019 at 21:56

Как нейронная сеть SincNet выделяет значимые частоты в звуке через Back Propagation

4 min

18K

Python*Machine learning*Sound

Comments 9

Daddy_Cool Nov 13 2019 at 22:21

Спасибо за статью — очень интересно, можно бы и поразвернутей!
Уточню кое-что:

Эксперименты ученых показали, что человеческое ухо более чувствительно к изменениям звука на низких частотах, чем на высоких. То есть, если частота звука изменится со 100 Гц на 120 Гц, человек с очень высокой вероятностью заметит это изменение. А вот если частота изменится с 10000 Гц на 10020 Гц, это изменение мы вряд ли сможем уловить.
В связи с этим была введена новая единица измерения высоты звука — мел.

То что абсолютное изменение частоты в разных диапазонах воспринимается по разному — это давно известно и в общем очевидно, а вот что субъективное ощущение высоты звука зависит не только от частоты звука (что бы на не говорили в музыкальной школе), а еще и от громкости и тембра — вот это некоторая новость — вот для измерения этой субъективной величины и придумали этот «мел».
Субъективная громкость кстати тоже зависит от частоты, а не только от амплитуды.

HardWrMan Nov 14 2019 at 05:24

Ну дык графики восприятия звука для обеспечения тон-коррекции в звуковой аппаратуре существуют практически с истоков:

И в той же музыкальной школе кроме, может, камертона никто чистый синус без гармоник не слушает. А изменение уровня гармоник и приводит к изменению субъективного восприятия высоты тона.

SADKO Nov 14 2019 at 10:22

Неее, всё гораздо интересней, по-хорошему для решения задач распознавания звуков а-ля человек, нужно плясать не от субъективного восприятия, а от самого устройства сенсора, которое весьма занятно.
Скажем так, сигналов без гармоник мы не слышим в принципе, ибо смысл механических элементов внутреннего уха не только в согласовании импеданса и регулировки чувствительности, они ещё и гармоники производят. В итоге частотное разрешение получается сильно выше чем количество рецепторов позволяет.

Chetverovod Feb 12 at 10:00

Вот это интересно. Получается у нас в ухе находится механическая реализация функции активации, как в нейросетях.

progchip666 Nov 14 2019 at 09:12

То есть, если частота звука изменится со 100 Гц на 120 Гц, человек с очень высокой вероятностью заметит это изменение. А вот если частота изменится с 10000 Гц на 10020 Гц, это изменение мы вряд ли сможем уловить.

Неудачный пример. Во втором случае, просто процент, на который изменилась частота, существенно ниже. 20% и 0.2% это две огромные разницы и особенности уха в данном случае совершенно не при чём.

HardWrMan Nov 14 2019 at 18:17

Это правда, но тем не менее, при работе со звуком логарифмическая шкала частоты удобнее. Видимо это из-за природы удваивания подобнозвучащих частот (например ДО первой октавы ровно в 2 раза ниже по частоте ДО второй октавы). Но это не точно.

progchip666 Nov 14 2019 at 22:19

C этим я не собираюсь спорить, просто ваш пример совершенно не иллюстрирует это утверждение.
Аналогом вашему утверждению будет:«Ухо человека устроена так, что разницу между звуками в 100 и 120 Гц оно улавливает лучше чем между 100 и 100,2 Гц». Так это и без логарифмов ежу понятно.

SADKO Nov 14 2019 at 10:11

И что? В чём научная новизна? Ребята изобрели вэйвлеты :-) и причём тут обратное распространение ошибки.
Или эта публикация ради публикации, или учёные в очередной раз гнусно надругались над журналистом.

-3

Celsius Nov 14 2019 at 11:08

Странно, что не оптимизировали подход до конца. Можно ведь генерировать мел-окно, пихать в вектор и подавать нейросети. Затем, после обучения, удалить самые бесполезные параметры. В результате, на нейросеть будет меньше нагрузка и она сама будет меньше, а значит быстрее.

Взять, например MelNet, там очень здорово придумали с повышением размерности, но из-за невозможности применить сжатие гармоник, по скорости она не превосходит tacotron2

Show the best of all time