Разработка интерактивных систем на OpenFrameworks: Интерактивный звук / Comments / Habr

ZlodeiBaal Dec 10 2014 at 18:01

AMR
Данные с потерями, предназначен для хранения речи.Используется в мобильной телефонии (2011).
(аналог в изображениях — png)

PNG — cжатие без потерь ru.wikipedia.org/wiki/PNG

Не совсем понятен смысл такого аппарата по генерации звука. Он же неустойчив к внешним условиям. Изменился свет и всё. Другой пиджак и всё. Терминвокс устойчивее)

amarao Dec 10 2014 at 18:08

Как у вас «ля» квадратным получился, а «ми» синусоидальным? Эм…

nemilya Dec 11 2014 at 00:00

Да, в том то и фишка)

Дело в том, что 'квадратную' проще генерировать. Она состоит из основной гармоники — что определяет ноту, и дополнительных — которые фактически не воспринимаются.

Вот хороший пост про преобразование Фурье
habrahabr.ru/company/achiever/blog/204956

И вот хорошая статья
Процедурная генерация звука в реальном времени. Основы:
www.gamedev.ru/community/rt_proc_sound/articles/rt_softsynth_basics

Квадратная волна — это ШИМ (PWM) — широтно импульсная модуляция
На ардуино с помощью нее играют музыку:
Имперский марш:
vk.com/wall-28407855_2877

Как это закодировано:
www.arduino.cc/en/Tutorial/PlayMelody
Ноты получаются выставлением 1 или 0 — высокого и низкого уровня на один из пинов — к которому подключен Пьезо спикер.

amarao Dec 11 2014 at 00:38

Это не отвечает на вопрос, почему одно квадратное, а другое круглое.

Vordigont Dec 11 2014 at 02:04

Большой роли не играет что ля меандром синтезирована, а ми синусоидой. Человек конечно же почувствует разнице в тембре этих двух звуков, но сможет определить что один звук это именно ля, а другой — ми, так как человек хорошо различает высоту основного тона, а по более высоким гармоникам он как раз таки определяет тембр звука.

nemilya Dec 11 2014 at 03:19

Да, пояснение к квадратному/круглому добавим

dimview Dec 11 2014 at 05:56

Про фундаментальное различие звука и изображений конфуз вышел. Разница там только в том, что у звука одно измерение (время), а у картинки — два (координаты x и y). В остальном вся математика та же, именно поэтому, как правильно отмечено ниже, MP3 похож на JPG.

Изображения по пикселям не сравнивают, для этого есть перцептивные хеши вроде phash. Звук изменять на основании значений соседних отсчётов можно, ту же операцию сглаживания можно делать во временной области безо всякого Фурье, особенно если отклик фильтра недлинный.

alikthename Dec 20 2014 at 10:16

Звук, в широком смысле — упругие волны, продольно распространяющиеся в среде и создающие в ней механические колебания;
в узком смысле — субъективное восприятие этих колебаний специальными органами чувств животных или человека. Как и любая волна, звук характеризуется амплитудой и частотой.

Не вдаваясь в дискуссию о ширине смыслов, теория феномена звук наиболее гармонично представлена в работах К. О Каллахана ukcatalogue.oup.com/product/9780199215928.do

В соответствии с которой звук — процесс возбуждения упругой среды источником. Соответственно, звук не отождествляется с механоакустической звуковой волной, хотя такое рассмотрение существует, и имеет существенное слабое место, именуемое «теорией массовой ошибки»
В любом случае, даже если вы следуете такой концепции, вернее будет не «Представление звука в памяти», а «Представление звуковых сигналов в памяти». В том же духе далее по тексту

Последние два звука звучат одинаково. А их функции амплитуды — существенно различные. Таким образом, человеческое ухо воспринимает спектр звука, то есть состав его частот, а не амплитудное представление звука.

Это не верно. Человек слабо чувствителен к фазовым изменениям в монофоническом сигнале. С восприятием ампитуды все в порядке. Да и если мы дадим два одинаковых звука в разной фазе на разные уши, результат будет замечен большинством.

Учет соседних отсчетов
— сравнивать два звука на похожесть,
— подавлять низкие или высокие частоты,
— добавлять реверберацию.

Это обычно делается не прямо в PCM, а через спектральное представление звука (оконное преобразование Фурье).

Свертка и корреляция в большинстве случаев более эффективны в частотной области. Соответственно, если для первого пункта это верно, то фильтрация и реверберация чаще делается во временной области, за исключением реверберации на основе свертки.

Аддитивный синтез
Аддитивный синтез основан на построении звука с помощью суммирования множества гармоник (т.е. синусоид разной частоты) с изменяющейся громкостью.
.

Гармоника — частота, имеющая целочисленное соотношение с фундаментальной. Здесь речь, об обертонах.

Любой звук можно представить с произвольной точностью как сумму большого числа гармоник с меняющейся громкостью.

… как сумму некоторого числа синусоид с разной частотой, амплитудой и фазой.