Comments 30
Как вариант.
По теме — преобразование изображения в звук в статье совершенно не юзабельно!
Главное — это узнаваемость объектов при их перемещении, повороте и изменении размера. Простой обработкой именно на основе пикселов этого не сделать, хотя можно призвать на помощь генеративные нейронные сети…
Идея интересная, но подход, как мне кажется, не очень удачный. Человек не "слышит" саму по себе звуковую волну, он воспринимает спектр звука в ней. Получается, что когда вы преобразовываете картинку в волну, а ухо воспринимает спектр этой волны, то человек воспринимает Фурье-преобразование картинки (вытянутой в одну длинную полосу), а не саму картинку. Ну а на Фурье-преобразовании почти любая картинка превращается в бессмысленный набор полос (преобразование Фурье хорошо подходит для выделения периодически повторяющихся паттернов).
Потому, как мне кажется, имеет смысл думать все же над преобразованием картинки в Фурье-спектр звука. Человек также хорошо воспринимает изменения спектра звука, потому он должен быть способен хорошо воспринимать движущееся изображение. Ну и возможно в качестве источника было бы лучше использовать карту глубины, а не обычное изображение.
Карта глубин это в принципе отдельная задача. На данном этапе упрощенно можно считать, что обработанная картинка уже есть.
Тест-1: cloud.mail.ru/public/2C5Z/5MEQ8Swjo
Тест-2: cloud.mail.ru/public/2dxp/3sz8mjAib
Тест-3: cloud.mail.ru/public/3NjJ/ZYrfdTYrk
В принципе, в этом что-то есть, на слух по крайней мере, звучит приятнее.
Все это игрушки, вот если бы реально распозновались объекты и воспроизводились синтезатором речи, например впереди столб/машина/яма и читались надписи, тогда было бы устройство намного практичнее.
1. Чтобы в центре «звуковое зрение» сделать более чётким, чем на периферии, выберем самую комфортную частоту тона для центрального пикселя: пусть это будет 2 КГц. Чем дальше пиксель находится от центра, тем частота его тона ниже.
2. Чтобы различать отдалённость от центра по вертикали и горизонтали, придадим звучащим пикселям следующие свойства:
а) чем левее пиксель, тем больше он звучит в левом наушнике, чем правее, тем его больше в правом наушнике;
б) чем выше пиксель, тем его тембр ближе к звуку «и», чем ниже, тем ближе к носовому звуку «м», в центре пиксели звучат как «а».
3. Чтобы различать цвета пикселей, добавим высокочастотный импульсный дребезг (как у звука виолончели): пусть красный дребезжит шумами в районе 7 КГц, зеленый — 8 КГц, синий — 9 Кгц.
4. Чтобы чувствовать глубину, можно использовать колебания тона (вибрато, как у оперных певцов): чем пиксель ближе, тем вибрато заметнее.
5. Ещё можно использовать имитацию реверберации (восприятие отражений звука), но я пока не придумал для чего.
6. Обучать человека можно постепенно: сначала лишь небольшое количество черно-белых звучащих пикселей без глубины (скажем, 4х4=16), дальше постепенно увеличиваем, потом добавляем «цвет», а позже — «глубину».
Более того, я нашёл печальный изъян в предложенной мною схеме: симметричные по горизонтали пиксели будут сливаться на слух! Эту проблему я предлагаю решить при помощи реверберации (имитации отражения волны от воображаемых стен слева и справа), а также при помощи имитации задержки волны из-за разнесения ушей в пространстве. По-идее, это должно решить проблему.
Это всё надо моделировать, делать различные примеры и думать, ну и надо учитывать неплохую гибкость человеческого мозга, если долго тренироваться, то можно научиться слышать очень многое.
habr.com/ru/company/intel/blog/251701
У PhonoPaper есть режим проигрывания всего, что видно на экране.
1) можно фильтровать (вычленять) отдельные звуки и объекты, отделяя значимое от незначимого,
2) можно фильтровать реверберацию, улучшая распознавание (как это уже делают при распознавании голоса),
3) можно кодировать объекты не просто различными тонами, а непосредственно словами,
4) объекты будут не просто озвучиваться — а озвучиваться как минимум с 2D-позиционированием (используя сдвиги фаз в первую очередь),
5) можно озвучивать в том числе и объекты сзади,
6) можно контролировать количество одновременных аудио-визуализируемых объектов и озвучивать их последовательно, а не одновременно,
7) можно использовать данные из ГИС.
3) можно кодировать объекты не просто различными тонами, а непосредственно словами
Думаю при таком развитии у подобных устройств есть будущее, потому что кодирование тонами уж очень специфично. Надо обладать хорошим слухом, чтобы различать небольшие изменения тона, плюс пока мозг сообразит за каким тоном что закодировано… Как по мне это долго и для обучения, и для пользования. А вот озвучка словами в реальном времени даст больше развития технологии. Ну или упростит ее явно для потребителя.
Но ведь младенцы с течением времени учатся распознавать в этой мешанине отдельные образы и объекты. Так и со звуковым описанием, мозг в итоге научится распознавать отдельные объекты, если в описании будут закономерности.
В качестве мысленного эксперимента есть предложение сразу работать над аудиовидуальным локатором. Но тут придется прибегнуть к системе выделения объектов. Крупный объект озвучивается низкой частотой. Маленький высокой. Близкий — громко. Далекий — тихо. Чем ровнее объект, тем чище звук. Чем более мелкая у него детализация, тем больше добавляется высокочастотных гармоник. Стереопозиционирование объекта четко по направлению взгляда: крутя головой в наушниках слышим объект точно со стороны его местонахождения. Пока что изучаем не цветные объемные фигуры без освещения.
Дальше можно продвинуться в сторону множества объектов — каждый объект озвучивается независимо и складывается в общею звуковую картинку. Сложный объект обрабатывается как несколько близкорасположеных простых.
Наверное так будет проще «услышать» картинку.
Преобразуем изображение в звук — что можно услышать?