Pull to refresh

Comments 30

Ожидал услышать подобие симфоний Баха на полноценных фотографиях :)

Кому как, а я разницы во всех трех звуках не услышал. Везде однотипное биение. С картинкой кота появляются ассоциации, что откуда-то выпрыгнет Чужой :)

А почему бы хабру не добавить на сайт плеер звука идущий из коробки в html5? Я бы послушал эти изображения, а так лень по ссылкам мататься
Осталось понять, почему для этого нет соответствующих кнопочек в редакторе, даже само знание о том что можно встраивать вот так медаиконтент и даже javascript+html5 примеры — уже круто. Даже в документации об этом нет!

По теме — преобразование изображения в звук в статье совершенно не юзабельно!
Главное — это узнаваемость объектов при их перемещении, повороте и изменении размера. Простой обработкой именно на основе пикселов этого не сделать, хотя можно призвать на помощь генеративные нейронные сети…
Третья кнопка справа в редакторе)
Для этого нужно залить на soundcloud файл, и да, нужно ЗНАТЬ об этой возможности.
Я например до сих пор не запомнил, куда нужно залить пример html + javascript чтобы интегрировать его в комментарий на тот же тостер
Можно позвать Boomburum)
Был отличный пост по разметке, но интеграция с внешними ресурсами действительно упоминалась вскользь.
Да, отличный пост, помню. Но вот именно <oembed_></oembed_> тег там очень вскользь упомянут.
Кхм, FFT для этих целей не подходит? Там вроде как даже с нотами мудрить не нужно.

Идея интересная, но подход, как мне кажется, не очень удачный. Человек не "слышит" саму по себе звуковую волну, он воспринимает спектр звука в ней. Получается, что когда вы преобразовываете картинку в волну, а ухо воспринимает спектр этой волны, то человек воспринимает Фурье-преобразование картинки (вытянутой в одну длинную полосу), а не саму картинку. Ну а на Фурье-преобразовании почти любая картинка превращается в бессмысленный набор полос (преобразование Фурье хорошо подходит для выделения периодически повторяющихся паттернов).


Потому, как мне кажется, имеет смысл думать все же над преобразованием картинки в Фурье-спектр звука. Человек также хорошо воспринимает изменения спектра звука, потому он должен быть способен хорошо воспринимать движущееся изображение. Ну и возможно в качестве источника было бы лучше использовать карту глубины, а не обычное изображение.

Да, согласен, попробовать с Фурье можно. Хотя есть опасение, что на выходе получится ODFM и жужжание как у старого модема, из которого ничего не разобрать. Но может ошибаюсь.

Карта глубин это в принципе отдельная задача. На данном этапе упрощенно можно считать, что обработанная картинка уже есть.

Все это игрушки, вот если бы реально распозновались объекты и воспроизводились синтезатором речи, например впереди столб/машина/яма и читались надписи, тогда было бы устройство намного практичнее.

UFO just landed and posted this here
Мне одному кажется, что идея одномерности звука по отношению к человеческому слуху — неверна? Человек без проблем воспринимает множество звуков одновременно. Я, например, могу безошибочно назвать расположение нот в сложном аккорде на слух, а дирижер оркестра способен услышать, как один из десятков инструментов фальшивит. Уверен, что транслировать изображение в звук можно в реальном времени, то-есть все пиксели изображения могут звучать одновременно, и при этом человек может научиться слышать каждый пиксель индивидуально. Предлагаю следующую схему:
1. Чтобы в центре «звуковое зрение» сделать более чётким, чем на периферии, выберем самую комфортную частоту тона для центрального пикселя: пусть это будет 2 КГц. Чем дальше пиксель находится от центра, тем частота его тона ниже.
2. Чтобы различать отдалённость от центра по вертикали и горизонтали, придадим звучащим пикселям следующие свойства:
а) чем левее пиксель, тем больше он звучит в левом наушнике, чем правее, тем его больше в правом наушнике;
б) чем выше пиксель, тем его тембр ближе к звуку «и», чем ниже, тем ближе к носовому звуку «м», в центре пиксели звучат как «а».
3. Чтобы различать цвета пикселей, добавим высокочастотный импульсный дребезг (как у звука виолончели): пусть красный дребезжит шумами в районе 7 КГц, зеленый — 8 КГц, синий — 9 Кгц.
4. Чтобы чувствовать глубину, можно использовать колебания тона (вибрато, как у оперных певцов): чем пиксель ближе, тем вибрато заметнее.
5. Ещё можно использовать имитацию реверберации (восприятие отражений звука), но я пока не придумал для чего.
6. Обучать человека можно постепенно: сначала лишь небольшое количество черно-белых звучащих пикселей без глубины (скажем, 4х4=16), дальше постепенно увеличиваем, потом добавляем «цвет», а позже — «глубину».
Зачем верх\низ кодировать конкретными формантами? Это же можно делать фазой и эквалайзером, как давно в звукозаписи делают.
Мне кажется, что кодирование фазой и эквалайзером приведёт к тому, что симметричные по вертикали пиксели будут плохо отличимы на слух. Хотя, я не звукорежиссёр, могу ошибаться. Можете привести пример такого эффекта?
Более того, я нашёл печальный изъян в предложенной мною схеме: симметричные по горизонтали пиксели будут сливаться на слух! Эту проблему я предлагаю решить при помощи реверберации (имитации отражения волны от воображаемых стен слева и справа), а также при помощи имитации задержки волны из-за разнесения ушей в пространстве. По-идее, это должно решить проблему.
Тут, конечно, надо думать долго и серьёзно, но, на вскидку, я виже задачу так. Картинку надо однозначно брать с привязкой к карте глубины, временнУю раскладку делать не слева-направо, а от переднего плана к заднему(по карте глубины), «звуки пикселей» в одном плане воспроизводятся одновременно, при этом амплитуда зависит от яркости пикселя из обычной картинки, а частота от цвета(но не факт что это не перегрузит восприятие), лево-право рулится раскладкой по стерео, верх-низ эквализацией.

Вертикальная (высотная) локализация
Способность опре­делять направление прихода звука в вертикальной плоскости у человека развита значительно слабее, чем в горизонтальной. Она составляет 10-15° (по сравнению с 3° в горизонтальной). Эту способность связывают обычно с ориентацией и формой ушных ра­ковин. Ушная раковина действует как фильтр, внося максимальные искаже­ния в области 6-16 кГц, при­ чем форма этих искажений зависит от того, спереди или сзади находится источник звука и под каким углом подъема он расположен в медианной плоскости.


Это всё надо моделировать, делать различные примеры и думать, ну и надо учитывать неплохую гибкость человеческого мозга, если долго тренироваться, то можно научиться слышать очень многое.
UFO just landed and posted this here
Кто бы раньше мог подумать, что звуки можно рисовать. Интересно, как бы выглядела какая то композиция в виде набора изображений или же в виде одного изображения.
Мне кажется, что для этого лучше подойдёт HRTF — естественно уже после того, как программно будет получена полноценная карта глубины с распознанными объектами на ней. Различие от естественного звукового фона будет заключаться в том, что:
1) можно фильтровать (вычленять) отдельные звуки и объекты, отделяя значимое от незначимого,
2) можно фильтровать реверберацию, улучшая распознавание (как это уже делают при распознавании голоса),
3) можно кодировать объекты не просто различными тонами, а непосредственно словами,
4) объекты будут не просто озвучиваться — а озвучиваться как минимум с 2D-позиционированием (используя сдвиги фаз в первую очередь),
5) можно озвучивать в том числе и объекты сзади,
6) можно контролировать количество одновременных аудио-визуализируемых объектов и озвучивать их последовательно, а не одновременно,
7) можно использовать данные из ГИС.
3) можно кодировать объекты не просто различными тонами, а непосредственно словами

Думаю при таком развитии у подобных устройств есть будущее, потому что кодирование тонами уж очень специфично. Надо обладать хорошим слухом, чтобы различать небольшие изменения тона, плюс пока мозг сообразит за каким тоном что закодировано… Как по мне это долго и для обучения, и для пользования. А вот озвучка словами в реальном времени даст больше развития технологии. Ну или упростит ее явно для потребителя.
Эмм. Я себе это представлял несколько иначе. Быстрее всего там прикручено распознавание образов. Идешь ты такой — а тебе в ухо: «осторожно табуретка», или «аккуратно невысокая ступенька», или «вы подошли к светофору — цвет сигнала красный». Смысл этой системы — помощь в виде ассистента или поводыря. А у вас это будет какофония в виде шума, сменяющегося, к тому же, раз в 0.37 секунды. Ориентироваться в пространстве с помощью данной штуки будет нереально. Уж лучше прикрутить китайский ультразвуковой дальномер за 1.5$ к ардуине за 10$ и преобразовывать показания расстояния в слышимый звук. Так что, скорее всего, у авторов из той статьи все работает именно как я тут описал.
А как мы в повседневной жизни ориентируемся глазами? Это же мешанина цветов, меняющаяся несколько десятков раз в секунду.
Но ведь младенцы с течением времени учатся распознавать в этой мешанине отдельные образы и объекты. Так и со звуковым описанием, мозг в итоге научится распознавать отдельные объекты, если в описании будут закономерности.
Присоединюсь к мысли, что перевод в одномерность двумерной (а вообще трехмерной) картинки — абстракция чуждая нашему мозгу. Не спорю, натренироваться можно, но очень это не естественно.

В качестве мысленного эксперимента есть предложение сразу работать над аудиовидуальным локатором. Но тут придется прибегнуть к системе выделения объектов. Крупный объект озвучивается низкой частотой. Маленький высокой. Близкий — громко. Далекий — тихо. Чем ровнее объект, тем чище звук. Чем более мелкая у него детализация, тем больше добавляется высокочастотных гармоник. Стереопозиционирование объекта четко по направлению взгляда: крутя головой в наушниках слышим объект точно со стороны его местонахождения. Пока что изучаем не цветные объемные фигуры без освещения.

Дальше можно продвинуться в сторону множества объектов — каждый объект озвучивается независимо и складывается в общею звуковую картинку. Сложный объект обрабатывается как несколько близкорасположеных простых.

Наверное так будет проще «услышать» картинку.
Sign up to leave a comment.

Articles