Как стать автором
Обновить

Обработка изображений и видео на смартфонах: handcrafted-алгоритмы против глубокого обучения

Уровень сложностиПростой
Время на прочтение22 мин
Количество просмотров3.9K
Всего голосов 7: ↑7 и ↓0+7
Комментарии36

Комментарии 36

Я "адепт true photo", поэтому пройдусь только по знакомой теме...

В первом же абзаце сразу ряд сомнительных тезисов:

но смартфон однозначно компактнее и удобнее

Компактнее да, удобнее - вообще не факт. Эргономика зеркалок как раз и разрабатывалась под функцию фотосъёмки (в отличие от смартфонов). Эргономика зеркалок - это вообще отдельная тема...

Да, мобильная оптика все еще далека до уровня зеркалок,

Не всё ещё, а априори. Законы физики не обманешь.

Дальше:

Настоящая красота «Real beauty» в воображении Shedevrum.ai более разнообразна

В смысле "более разнообразна"? Там же то же самое лицо встречается))

Карта глубины может использоваться как для навигации роботов, так и для фотоэффектов, например имитации эффекта размытия объектов вне фокуса, который возникает для профессиональных камер с хорошей оптикой.

Оно не работает. Краевой контраст тут же всё "спалит"))

Не всё ещё, а априори. Законы физики не обманешь.

Не то чтоб я был за смартфон (у меня есть зеркалка :)), но про какие законы тут речь? Что есть такого запретного, чтоб не сделать в смартфоне качество как в зеркалке?

Размер сенсора и, соответственно, размер самих линз (оптики).

Меньше сенсор = меньше пиксель = меньше света он воспринимает = больше шума = меньше точность цветопередачи.
Частично это пытаются контрить объединением пикселей в кластеры (В результате 200+ мегапикселей смартфона превращаются в 8-12мп).

Опять-же без большого блока линз невозможно реализовать нормальное увеличение (почти) без потери качества снимка. Аналогично с макро. Поэтому в смартфоны пихают несколько одинаковых модулей, но с разной оптикой, под разные задачи. Фотоаппарат-же обходится одним сенсором. Да и один блок линз может использоваться для гораздо большего спектра задач, чем 3-5 линз/сенсоров смартфона.

Про удобство хвата и прочую эргономику промолчу.

Так это технологические проблемы, а не физические.

Физическое ограничение - размер фотона (И длинна волны, если не ошибаюсь) - дальше уменьшать пиксели уже некуда. А не уменьшая пиксели - не уменьшить и оптику.
А без уменьшения пикселей - не получится встроить компактную оптику с нужными характеристиками (светочувствительность, фокусное расстояние и прочие умные термины)

А если идти в обратку - увеличивать пиксели и оптику, то получаем громоздкий и неудобный "Камерофон".

Особого смысла гнаться за миниатюрностью нет, пока вы не захотите... условно вживлять смартфон в мозг или что то подобное.

А дальше уже и некуда, по сути.
Но главное отличие смартфона от фотоаппарата - миниатюрность (и универсальность).
Отсюда и все ограничения:

Хочешь сравняться с фотиком - увеличивай сенсор и оптику, добавляй стабилизатор, переменный фокус, диафрагму и прочие полезные штуки, которые и позволяют фотику делать снимки лучше, чем на смартфоне.

Миниатюрным современный смартфон не назовешь. Диафрагма, стабилизатор и авто/переменный фокус это уже есть в смартфонах. Для хороших фотографий нужен фотограф. :)

Ну если верить интернету - Переменная диафрагма появилась в смартфонах буквально "Только что" - Первый такой смарт - Xiaomi 14 Pro.
До этого ставили несколько отдельных модулей с фиксированной диафрагмой и апертурой.

Стаб, если и есть, то, как правило, программный, а не механический/оптический.

Автофокус тоже оставляет желать лучшего.

А про съёмку вечером или вообще ночью я лучше промолчу. Без штатива и длительной выдержки - подавляющее кол-во смартфонов не сможет выдать туже картинку, что и Full-frame зеркалка/беззеркалка.

Чтобы смартфон ВСЕГДА выдавал сопоставимые по качеству с фотиком фотографии - надо много шаманить (Штатив, выдержка, доп. освещение, длительный выбор сцены, постобработка и т.д.). В то время, как качественный фотик даже в авторежиме в большинстве случаев выдаёт заметно более лучшее качество, чем смарты.

Только Xiaomi 13-14, да последний iPhone смогли реально приблизиться к проф. фотоаппаратам. Но всё равно в некоторых сценариях будут проигрывать чисто из-за ограничений, связанных с размером сенсоров и оптики (Да и дотягивают они, в основном, за счёт всяких ИИ-улучшайзеров, а не потому, что там сенсор такой вот крутой)

Оптику вам туда нужно вкорячить! Которая будет крыть довольно большую матрицу (с этим ок - поставить её не самая большая проблема). Дальше ещё веселее - для длиннофокусной оптики нужны соответствующие габариты. Никогда не задумывались - почему в смартфонах стоят исключительно "ширики", а "телевики" добавляют крайне опционально и с заниженными ТТХ?

Ну а для хороших фотографий нужен, как минимум, подходящий инструмент.

Все что вы приводите это не физические законы, а технические проблемы. Для маленькой матрицы и объектив нужен меньше, и никто вас не заставляет ограничиваться линейной оптикой. Глаз не идеальное оптическое устройство, но никто не жалуется.

Я вам дал ссылку на самый что ни на есть физический закон, а вы всё твердите "технические проблемы"...

Нелинейная оптика? Хм... Интересно. Осталось дождаться только)) Я думаю прежде всего производители зеркалок будут крайне довольны появлению такой технологии - а то приходится годами(!) варить, остужать и шлифовать крон))

Я вам дал ссылку на самый что ни на есть физический закон, а вы всё твердите "технические проблемы"...

Так почитайте чуть шире... Нет там тех проблем, что вы придумали.

Нелинейная оптика? Хм... Интересно. Осталось дождаться только))

Формально вся оптика нелинейная, "линейная" - это приближение.

Фотоаппарат-же обходится одним сенсором.

Но не обходится одним объективом. Не будут же делать в смартфонах сменные объективы.

И именно поэтому сейчас господствует вычислительная фотография, потому-что это проще, чем пилить кремний. И самое хреновое в этом, что она выигрывает.

Но не обходится одним объективом.

Вполне обходится. Более того, есть фотоаппараты без сменной оптики. Есть в конце-концов, довольно годные зумы.

И я не знаю где там и в чём сейчас выигрывает вычислительная фотография... Вот та, что Луну на небе дорисовывает?))

Но частично вы правы - возможность поменять оптику и делает эти девайсы настолько востребованными. Сенсор ничто - оптика наше всё))

А что до сменных объективов на смартфонах - по-моему уже были попытки это реализовать. Всякие там гибриды со сменными модулями и т.п. Не взлетает))

Это уже исторически пройденный этап. Мыльницы vs. зеркалки. Народу, в массе своей, такое качество избыточно. Им лучше как можно проще.

https://ru.wikipedia.org/wiki/Дифракционный_предел

И это при условии, что научатся производить оптику соответствующего размера с запредельным разрешением.

Во-первых, кто заставляет делать пиксели маленькими? Это же не физический закон?

Во-вторых, там входит показатель преломления, нет физ. запретов на его изменение. По вашей же ссылке можно почитать как можно преодолеть этот предел.

И это при условии, что научатся производить оптику соответствующего размера с запредельным разрешением.

Опять же это тех. проблемы.

Во-первых, кто заставляет делать пиксели маленькими? Это же не физический закон?

Боюсь, тогда выходное разрешение будет несколько меньше того, к которому все привыкли по дефолту))

Ставить матрицу фулфрейм размера? Тогда вы просто получите БЗК с функциями смартфона))

Во-вторых, там входит показатель преломления, нет физ. запретов на его изменение.

*Показатель преломления среды. Атмосферу планеты будете откачивать для каждого кадра?))

Если резюмируя - для нормального качества фотоизображения нужны большие линзы и большой сенсор. Уже лет 20 пыжатся и пытаются что-то придумать - и не фига! Всё что сейчас имеем, это всё то же "не зажимайте диафрагму до минимальных значений, иначе будет мыло".

Боюсь, тогда выходное разрешение будет несколько меньше того, к которому все привыкли по дефолту))

Оно и так меньше того что пишут.

Ставить матрицу фулфрейм размера? Тогда вы просто получите БЗК с функциями смартфона))

Размер матрицы и условное качество связаны только техническими проблемами.

*Показатель преломления среды. Атмосферу планеты будете откачивать?))

Зачем, если по-простому, то достаточно поменять среду для фоторегистратора.

Если резюмируя - для нормального качества фотоизображения нужны большие
линзы и большой сенсор. Уже лет 20 пыжатся и пытаются что-то придумать -
и не фига! Всё что сейчас имеем, это всё то же "не зажимайте диафрагму
до минимальных значений, иначе будет мыло".

Это ж не значит, что по другому невозможно. Раньше алюминий был дороже золота, но все меняется.

Это ж не значит, что по другому невозможно. Раньше алюминий был дороже золота, но все меняется.

Есть отрасли (оптика, как раз одна из них) где уже давно упёрлись именно в физические ограничения и так и топчутся на месте.

Так что боюсь если мы когда-то и получим качество изображения с "маленьких гаджетов" сопоставимое с "большими" - само понятие "смартфона" уже канет в Лету))

Зачем, если по-простому, то достаточно поменять среду для фоторегистратора.

Давно бы уже тогда лепили фотокамеры с вакуумными коробками. Все эти технологии в первую очередь будут (или были) обкатаны именно производителями фототехники, поскольку это в их же интересах.

А вы представляете это так, как будто "большая пятёрка" клепает фототехнику на морально устаревших технологиях, пока не придут "высокотехнологичные производители смартфонов".

Там настолько объёмная матчасть... Даже Сони не рискнула соваться в эту отрасль с нуля, а просто купила Минолту и уже на её наработках продолжила изыскания дальше. А тот же Самсунг нечто подобное попытался проделать с Пентаксом...

А вы представляете это так, как будто "большая пятёрка" клепает фототехнику на морально устаревших технологиях, пока не придут "высокотехнологичные производители смартфонов"

Вот именно так все и происходит. Быстрый гуглеж показывает, что за год продается где-то (в зависимости от источника) совокупно на $2-5 млрд беззеркалок по всему миру. Это на всех вендоров вместе взятых.

Сравним это с продажами одних только айфонов в $200 млрд в год. С учетом того, что стоимость разработки софта, который запустится на миллионе и на миллиарде устройств одинакова, то и бюджет, который готов выделить эпл на софт несравним с тем, что могут Canon/Nikon/Sony. Сюда еще добавить, что, вцелом, производители смартфонов куда больше дружат с разработкой софта, чем производители камер. Для первых это ядро бизнеса, для вторых что-то где-то на периферии, примерно, как отдел по администрированию офисов (должно быть, но функция для топ-менеджмента не сильно понятная и приоритетная), то бишь, даже эффективность каждого потраченного на выпуск ПО $ будет у производителя смартфона буда выше.

Логично, что Давид против Голиафа выходит. Еще и публика сильно разная на этих рынках. К примеру, у айфона из коробки очень мощный HDR выходит, - практически нереально поймать такой кадр, чтобы вышел пере- или недосвет в части кадра. Да, это уродство с точки зрения творчества, и лично я чувствую искреннюю ненависть к создателям (и особенно к тем, кто не сделал кнопку выключения этого чуда, что надо сторонние аппки покупать), но нельзя не признать, что поставленная продактами задача решена на отлично, - создана связка объектив-сенсор-программа, которая практически не дает испортить фото даже при желании. Всегда все будет четко, прорисованы все детали, цвета яркие и насыщенные, фото готово радовать френдов с соцсетях здесь и сейчас. Такой подход явно заходит массовому потребителю. Хотя, к примеру, покупателей полнокадровых камер явно не устроит.

Теперь сравним с лучшей камерой от Canon на данный момент (то бишь, R5, ибо R3 и R5c слишком уж специфические инструменты). Это ж просто позорище в плане мозгов и электроники. Перегрев от съемки сжатого видео в 4K60p (с дропом линий, ибо с даунсемплингом выше 4К30p уже не прыгнешь), отвратительно работающие умные режимы - HDR, и super resolution за счет шатания сенсора стабилизатором, достаточно тупой следящий фокус, теряющий объекты (спасибо, что хоть лицо и глаз неплохо ловит). Фактически, кроме умения находить глаз и лицо, чтобы сфокусироваться, никакого, принимающего решения, или что-то, нетривиальным алгоритмом рассчитывающего софта нет в камере вообще.

Тут, конечно, можно утверждать, что и спасибо за то, что не говнят фото обработкой и не заставляют за тензорные ядра в корпусе камеры доплачивать, но, лично мое мнение, что при таких же бюджетах на R&D, как есть у разработчиков смартфонов, современные камеры могли бы делать сильно больше, намного больше. Просто, бизнес нищебродский, и софт нужного качества не пишется на данном уровне бюджетов, а тот, на который бюджетов хватит, не устроит покупателей. Вот и выходит, что проще вообще забить.

Сравним это с продажами одних только айфонов в $200 млрд в год. С учетом того, что стоимость разработки софта, который запустится на миллионе и на миллиарде устройств одинакова, то и бюджет, который готов выделить эпл на софт несравним с тем, что могут Canon/Nikon/Sony.

А зачем сравнивать продажи? Ну я же привёл пример с Сони (кстати, а чего это вы её так приопустили? Затраты на НИОКР: 4,41 млрд $, 2019) - вы в эту индустрию просто так не войдёт без многолетних наработок, сколько бы денег у вас ни было. Вам просто никто не даст эти технологии))

Сюда еще добавить, что, вцелом, производители смартфонов куда больше дружат с разработкой софта, чем производители камер.

Извините, но чушь! Одни специализируются конкретно на софте для обработке изображений, другие на мобильных ОС в целом...

Перегрев от съемки сжатого видео в 4K60p

Ну пусть Эппл вкорячит фулфрейм матрицу в айфоны - и посмотрим как они проблемы с охлаждением решать будут))

А стабилизатор вообще-то рекомендуется отключать в некоторых режимах (при съёмке со штатива, например) ;)

И прекратите "опускать" фотопроизводителей! Нищеброды))

Их технологии более чем 30-летней давности никак повторить что-то не могут. Вон, кэновская "eye-control" даже сейчас у многих изумление вызывает))

Фактически, кроме умения находить глаз и лицо, чтобы сфокусироваться, никакого, принимающего решения, или что-то, нетривиальным алгоритмом рассчитывающего софта нет в камере вообще.

Ну и что в этом плохого? Камера за меня будет решать в какой момент нажать спуск?

Это совсем другая индустрия! Со своими правилами.

Это как сравнивать конюшню Ф1 и какого-нибудь глобального производителя игрушечных машинок (Hasbro?).

Софтом для постобработки фотовендорам вообще без нужды заниматься - на десктопах обработают!

Кстати, а что такого высокотехнологичного и революционного в смартфонах за всё это время было реализовано? Толщину уменьшили? Сканеры отпечатков поставили? Луну в кадры впечатывать стали? Где все эти миллиарды? На что пошли? Что-то как-то кроме голой капитализации, аргументов "за" я и найти не могу...

UPD: Чуть не забыл))

Пусть производители смартфонов для начала научатся матрицы собственного производства делать, а не покупать их до сих пор у той же Сони! Шах и мат!

Ну, давайте и разберём по пунктам)

Затраты на НИОКР: 4,41 млрд $

Тут непонятно, сколько на что тратят. Все же, много направлений есть. Игровые приставки те же.

вы в эту индустрию просто так не войдёт без многолетних наработок, сколько бы денег у вас ни было

Есть отличный контрпример, - DJI вошёл с ноги, и уже успел сделать фокусировку по лидару, как доп опцию для любой камеры (кстати, а чего ее до сих пор не сделал изнутри индустрии никто?). Лидар же идеально подходит для фокусировки в пределах 5 метров. С ним можно фокусироваться плавно, и точно в цель, без рысканья (как это делают фокус-пуллеры в серьёзных продакшенах). Почему его не встроить в устройство, которое и так стоит $3к+? Почему DJI смог внешним моторчиком крутить объективы, а мастодонты с великой историей не смогли установить лидары и управлять фокусом через встроенный мотор в объектив?

Софтом для постобработки фотовендорам вообще без нужды заниматься

Есть то, что можно на десктопе сделать и есть то, чего нельзя, если минимум работы не сделано во время съёмки. К примеру, даже лог значений гироскопа, так нужный для стабилизации (и, подозреваю, компенсации Rolling shutter тоже лишним не будет), пишут камеры не всех вендоров. Съемку видео с двойным iso, разное iso через кадр, вообще любители, пишущие кастомные прошивки (magic lantern) вынуждены добавлять. А без этой фичи, увы, даже до айфона не прыгнешь по ДД на постообработке. Ибо, если, скажем, небо ушло в пересвет, все. А айфон таки кадры чередует и на лету клеит.

Банальную компенсацию focus breathing только вот-вот начали завозить и только для определенных линз. А там же, в плане софта, почти ничего делать не надо. Все по простым формулам считается. Просто надо в одном месте свести фокусное расстояние, значение зума, табличные данные по модели объектива. Или, хотя-бы, все эти данные вывести в итоговый файл, чтобы десктоп пересчитал сам

Ну пусть Эппл вкорячит фулфрейм матрицу в айфоны - и посмотрим как они проблемы с охлаждением решать будут

Так перегрев не с матрицы идёт. С внешним рекордером даже на 8К перегрева нет. Перегрев идёт именно от обработки сигнала и его записи. А корпус там намного больше, чем айфон.

Кстати, а что такого высокотехнологичного и революционного в смартфонах за всё это время было реализовано

Ну, если, вас не впечатляет чёткость, детализация и динамический диапазон картинки, выданной с сенсора, размером с спичечную головку, то не знаю, что ещё они должны сделать.

не покупать их до сих пор у той же Сони

Тут, наоборот, ещё одно доказательство, что нет магии именно в фотохардваре. Вся сила в софте.

Ну, если, вас не впечатляет чёткость, детализация и динамический диапазон картинки, выданной с сенсора, размером с спичечную головку, то не знаю, что ещё они должны сделать.

Вы издеваетесь? Вот это аляповатое "мыло" меня должно впечатлять? У меня достаточно "насмотренности".

Знаете системы, способные выдать больше с половины квадратного сантиметра сенсора?

Все упирается в материальные затраты. Кому интересны высокотехнологичные оптические устройства? Единицам, а миллионам владельцев смартфонов это не надо.

Интересно, есть ли некий аналог дистилляции LLM, но для CV моделей? Такой трюк можно было бы использовать для облегчения и ускорения работы на мобильных платформах.

Действительно, задача "облегчения" моделей актуальна для их практического использования на мобильных устройствах. Не только время исполнения, но и непосредственно объем занимаемый на устройстве является важным фактором. При этом обязательно возникает проблема поиска компромисса между уменьшением размера модели/время исполнения, сохранения качества работы сети. В этом смысле модели используемые на устройстве стараются максимально оптимизировать применяя такие методы как тренировка с учётом целевой квантизации (quantization aware training), и всевозможные методы сжатия сетей: факторизация с использованием SVD, методы "прореживания" (pruning) и дистилляции моделей. 

Отвечая непосредственно на ваш вопрос, техника дистиляции не является специфичной именно для LLM (где она возможно получила большее распространение в виду того, что модели по определению "большие"), и находит свое примение в случае задач оптимизации моделей компьютерного зрения на основе глубоких свёрточных сетей, и тем более использующих трансформерные архитектуры arXiv:2309.14162, arXiv:2311.01283). 

Спасибо за ответ и за статьи, схоронил себе "на почитать" :)

Я предпочту видеть реальное неидеальное фото, а не нейрофальсификат.

Если верить физиологам, вы всегда видите нейрофальсификат (собственного розлива). :)

Физиологам до нормального понимания процессов восприятия, пока что - как до Луны, не говоря уже о том, что если бы мы видели "фальсификат" то не могли бы нормально ориентироваться в этом мире.

Не, ну по цвету мы действительно "просажены" относительно идеала - тетрахроматы тому доказательство))

Но от фотографии ждёшь реализма как раз относительно своего восприятия. И вот эти, нынче популярные, вырвиглазные хдр-ы, никак этому не способствуют))

Человечество накопило массу оптических иллюзий, т.е. Мы видим не то что есть на самом деле.

Простите, но между двумя этими утверждениями нет логической связи )

Нет и не видеть это не одно и тоже.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий