Comments 72
Нельзя просто так сесть и начать писать код
Напоминает дни, в которые видишь что-то интересное и просто хочется сделать хотя бы «hello world», ничего не предвещает подвоха, а потом недели летят в тартарары:
  • знакомишься с новой интересной штукой
  • на первый взгляд всё выглядит понятно, только… не хватает одной маленькой софтины
  • софтина есть в deb-пакетах, пытаешься её установить, но её зависимости конфликтуют с тем, что у тебя уже установлено
  • гуглишь, пытаешься сделать, чтобы и новое установилось и старое не сломалось, в итоге обновляешь убунту (давно было пора, но всё руки не доходили) всё получается, но неожиданно слетают дрова на видюху
  • проходишь 3 круга ада, вспоминаешь, что подобную проблему ты уже решал пару лет назад и пообещал себе больше никогда не обновлять то что и так нормально работает
  • убиваешь пару вечеров, чтобы вернуть как было
  • убиваешь ещё пару вечеров, чтобы софтина всё таки встала
  • наконец-то пишешь код
  • ничего не работает
  • гуглишь, находишь специальный магический параметр запуска софтины
  • но в последней версии его выпилили
  • ищешь предпоследнюю версию, находишь её в npm, понимаешь, что можно было обойтись без deb-пакета, посыпаешь голову пеплом
  • ставишь из npm, АЛЛИЛУЙЯ, всё работает, но нет крутых фишек, которые добавили в последнюю версию
  • сидишь, пишешь код, чертыхаешься каждый раз, когда не хватает фичи из новой версии
  • спустя 2 недели узнаёшь, что 13 дней назад вышла новая версия софтины, в которой есть все новые фичи и при этом поддерживается нужный тебе старый параметр
  • осознаёшь, что все твои страдания были зря, кроешь диким матом себя, софтину, всё вокруг
  • пытаешься поставить новую версию, читаешь описание, вроде всё просто, ничего не предвещает никаких проблем...
  • правда в зависимостях у софтины в npm появилась одна маленькая новая зависимость… но как раз она стала поперёк горла у гитхаба и npm уже не позволяет выкачать её (наверно делается много запросов) и просит авторизоваться через гитхаб.
  • Пытаешься авторизоваться на гитхабе, вспоминаешь, что используешь двухфакторную авторизацию, а второй фактор у тебя как раз пару дней назад накрылся и в ближайшие пару недель его никак не восстановить.
  • Пытаешься зарегистрировать новый аккаунт на гитхабе, а для него новый email
  • Все имена почтового ящика, которые тебе приходят в голову уже заняты, рандомно стучишь по клаве — всё равно занято, повторяешь несколько раз, находишь свободное имя
  • теперь просят номер телефона, но говорят, что он уже использован в этом почтовом сервисе, укажите другой номер телефона, а другого у тебя его нет.
  • думаешь, что лучше бы я за это всё не брался, а лежал и смотрел сериалы, но как сдаваться тут ведь совсем немнооооожко осталось
  • проходишь ещё пять кругов ада, получаешь результат, в конечной точке обернувшись назад становится ясно, что всё было не зря, все страдания остались где-то там позади, а результат — он вот тут, в руках, осязаем. конечно не совсем оптимальный маршрут получился, но что поделать, в следующий раз вряд ли соберу столько граблей, скорее всего всё заработает из коробки...

Очень знакомо. А для некоторых вещей (по типу десктопного вайбера) даже начинаешь юзать snap, к которому до недавнего времени относился с брезгливостью.

Похоже, что нейросеть не была готова встретить в фильме про броненосец столько мяса: )
Учитывая, что по сюжету оно гнилое — по моему норм получилось. :) А вот спасательные круги она зря синим раскрасила…
А это специальные круги военного времени, для повышения скрытности. Впрочем, в моменте с палаткой они бывают оранжевые
Фотку с кастрюлей обязательно в Apple, пусть сделают современный дизайн и маркетинговый слоган для устройства придумают.
Не супом единым,
Кастрюля полна,
Для мака любимого
Выполняет задачи она!

Это ж баян.

Сейчас разгоряченный модем производства компании
"Кенга и К535РУ Communication Industries" понемногу
остывал, политый водой из остывшего за трое суток чайни-
ка.
Он выпил из чайника немного воды и остальное вы-
лил на яростно дымящуюся крышку модема. Вода зашипела, и
Винни Пух испуганно отскочил, чтобы не обжечься паром.
Он почесал в затылке и решил зажарить на модеме яичницу.

http://lib.ru/ANEKDOTY/9600.txt

У меня, кстати, CDMA2000/EVDO-свисток прилично так грелся при активной передаче данных, так что история по спирали ходит :) Использовать его в качестве кипятильника дури не хватило, впрочем.

А примера «контрольной» раскраски у вас нет? Ну то есть минута цветного видео, превращенного в черно-белое, затем раскрашенного (вслепую, без оглядки на оригинал) — и попиксельная разница с оригиналом?
(По первому ощущению, из самых заметных багов — все время плещут лиловыми оттенками.)
1. Результат будет зависеть от выбора видео и текущей «обученности» модели. Однократный эксперимент ничего не покажет. Мне непонятен смысл, что мы измеряем? Пиксель в пиксель соответствия не будет никогда. Нейросеть «придумывает» цвет исходя из контуров объекта и фактуры, связанной с этими контурами. Например, некоторые странные лица раскрашивались плохо, обратный пример, куча железок уникальной формы раскрашены хорошо.

2. Цвета копируются из видео для обучения, как научите так и будет выглядеть. Нейросеть возвращает полный спектр rgb без перекосов и обрезаний. Дальше ручной цветокоррекцией можно добиться любого вида, как с обычным производством кино
Да это все понятно. Of course, of course это все очень круто, и понятны границы применимости. But maybe все равно было бы забавно посмотреть, где и как сеть ошибается? Ну, лично я бы, если бы столько сил отдал проекту, не мог бы не поиграть, натравливая обученную под «Броненосец» сеть на кусок из каких-нибудь «Приключений Шурика», а потом бы и вовсе пустился в садистские штучки — подсовывая эпизоды из мультиков.
Если наберете в поиске YouTube deoldify, там полно разных роликов. До начала работ играться было очень долго по времени обсчета, а когда появилась видеокарта, уже неинтересно, так как примерно понятно как и что будет выглядеть
А так ли необходим цвет в старых фильмах? Мне кажется, раскрашивая черно-белое наследие, мы больше теряем, чем приобретаем.

Ну и пост был бы не полон без ЭТОЙ картинки.
Картинка
image
Это просто буффонада, гэг, призванный в гротескной форме донести до нас необходимость бережного отношения к культурному наследию. Да, технологии достигли новых вершин, но не нужно Венере Милосской приделывать руки и не надо раскрашивать Аполлона в анатомические цвета!
Не умаляя справедливости вашего тезиса о бережном отношении, но правды ради — судя по всему большинство античных и римских скульптур при современниках были раскрашены.
Ну и Венера без рук осталась при вывозе с территории Греции, находившейся тогда под властью Стамбула. Драка была с турецкими таможенниками. А если бы её тогда не уронили, ну или хотя бы подобрали отломившиеся конечности, известная всем статуя могла бы выглядеть заметно по-другому.
Я думаю правильно рассматривать такие проекты как самостоятельные производные художественные работы. Эмоциональное восприятие картины от раскраски действительно в некоторой степени меняется. И, конечно, не везде от этого фильм приобретает. Например в «Семнадцати Мнговениях» его монохромность исключительно удачно подчеркивает вдумчивую неторопливость размышлений, воспоминаний, и переживания героев. После раскраски фильм хоть в смысловом наполнении ничего и не потерял, но границы восприятия каждой отдельной сцены немного размылись, говоря проще, картина немного «опопсела». Хотя тем кто ее не видел, и сравнивать им не с чем, этого совсем не увидят. Для них это будет возможность приобщиться к культурному наследию. В чем я лично не вижу ничего плохого. Это как пищевой краситель, он просто делает блюдо более привлекательным, не меняя его сути.
Для них это будет возможность приобщиться к культурному наследию. В чем я лично не вижу ничего плохого.

а потом возникает недоумение, и чего это «старичье» от этой попсы тащится и мне про обязательно посмотреть все уши прожужжало. Девальвация ценностей она такая, не навязчивая, прям как окно овертона.
Для них это будет возможность приобщиться к культурному наследию.

Вот только цветная версия отредактирована. Вырезаны некоторые фразы или эпизоды.

Есть версия сделанная умельцами сочетающая в себе цветные кадры и отсутствующие ч/б. На мой взгляд получилось очень круто.
Только меня стабилизация кадра и удаление плёночного «шума» в старых фильмах бесит даже больше, чем цвет?
Слово «это» может относиться только к фразе спросившего человека.
убирая сложность восприятия ч/б изображения современным мозгом
А предки-то наши, оказывается, ого-го! У дедушек-то у наших мозги — настоящие компьютеры были. Не то что нынешние. Всего каких-то 50 лет и вот уже все, мозги атрофировались. Как быстро эволюция взяла свое. @сарказм@
Люди такие же, изменилось информационное окружение. /не_сарказм
Статья просто бомбическая. Восхищает упорство с которым автор шёл к цели. На этапе сгоревшего компа я наверное бы уже сломался. А тут результат есть! И он очень крутой!
Мой респект! Это реально вдохновляет на подвиги.
Скажите пожалуйста, сколько места (итого) на жёстком диске понадобилось под всю обработку данного материала?
80 Гб для активной фазы, учитывая перенос черно-белых исходников на другой диск. Я бы ориентировался на 200 Гб, чтобы ни в чем себе не отказывать. Это если картинка 720p jpeg 95% качества. Папка с одним комплектом кадров занимает условные 16 Гб
Чтобы ни в чем себе не отказывать, я бы все-таки предложил PNG или TIFF, чтобы не терять в качестве на перегонах жпегов туда-сюда.
Если место есть, конечно.
Чисто теоретически поддержу. На практике это увеличивает расход места в 5 раз, может я ошибаюсь в возможностях png, но именно такую разницу я наблюдал. Jpeg 95% даже при 5 пересохранениях превосходит по качеству кадр сжатого видео (речь про вменяемые битрейты). После первого выбрасывания «ненужной» информации, дальнейшие выбрасывания не столь агрессивны. В обществе сложился некий миф, что jpeg это днище. На практике всегда вопрос в мере
На практике это увеличивает расход места в 5 раз, может я ошибаюсь в возможностях png, но именно такую разницу я наблюдал.
Да, примерно так и есть, можно сжать сильнее и потратить больше времени, сэкономив место, но поскольку это быстроживущий proxy, смысла в этом нет, проще с минимальным сжатием сохранять большие файлы, желательно на SSD.
Jpeg 95% даже при 5 пересохранениях превосходит по качеству кадр сжатого видео (речь про вменяемые битрейты).
Тут проблема в том, что по-хорошему сжимать видео нужно через стратегию CRF, и предоставить энкодеру возможность самому решать, что выкидывать, а что оставлять. Если пережатия JPEG-ов — это эдакие «сложения» сжатий, то JPEG -> H.264 — уже их «перемножения», потому что тот же деблокер и прочие SAO H.264\H.265 слыхом не слыхивали о том, как сжимает JPEG, а заточены под сжатие видео. Поэтому артефакты могут полезть оттуда, откуда не ждали. Плюс вылезающая лишняя резкость JPEG-ов (который при понижении качества очень неловко отрабатывает границы объектов) может раздуть требуемый битрейт и, как результат, размер файла.
Так что если позволяет диск, лучше не экономить.

Наши спецы по видеомастерингу все раскадровки в bmp хранили (png тогда ещё не стал популярным форматом, да и процессорного времени потреблял непозволительно много), и даже в таком виде полная раскадровка мастера для VHS/CDi занимала, если не попутал за давностью, около 20 гигов (сейчас грубо прикинул на калькуляторе — получилось вообще 10 гиг на 3 часа при 640*480, что для VHS даже избыточно).

Да, получается не мало — эдак 1-1,5ГБ PNG на каждые 15 секунд 1080P видео, 30 кадров в секунду, yuv420 8 bit. У меня для работы с видео в таком формате отдельный дешевый SSD на QLC, 1ТБ.

С замедлением старых видео есть проблема: кадры в секунду там не фиксированные, потому что оператор вручную управлял этой частотой. Питер Джексон столкнулся с этой проблемой когда восстанавливал материалы с Первой мировой войны. Им приходилось вручную ускорять или замедлять видео и опираться больше на ощущения что такая скорость правильная.


Этот фильм собран из разных документалок. Очень локальная проблема. Сомнительно, что можно столкнуться с художественным фильмом, в котором скорость настолько заметно скачет. Если вы говорите про кинохронику, то там основная сложность вытащить картинку из шума, именно вытащить, а не подавить шум. И с самой картинкой там обычно беда страшная, коррекция скорости на этом фоне не проблема

Эта проблема есть на всех фильмах где снимали камерой с ручным приводом, либо использовали несколько разных камер (у каждой своя частота кадров). Я написал этот комментарий как раз потому что посмотрел какой результат получился и для меня сильно бросилась в глаза разница в скорости воспроизведения. Например на 1:15 начинается как будто бы замедленная съёмка, сравните с 5:47. Не берусь судить что такая разница в скорости вызвана именно этим, данных о том на какую камеру (или камеры) снимали Броненосец Потёмкин я не нашёл.

Спасибо за пояснения. Посыл понятен. Не забывайте про потери кадров. До нас дошел фильм с обрывами. Часть таких обрывов я компенсировал повторным удвоением. Часть дерганных моментов совсем убрал. Возможно, что это замедление вы заметили зорким взглядом. Конечно, ваш вариант с плаванием скорости не исключаем, ни на что не претендую. Меня смутило что википедия считает что снято в 19 фпс. Но по факту получилось как будто 12. Потому что удвоенные кадры только на 24 фпс смотрятся не медленно и не быстро. Загадка.

впечатляет! столько инструментов использовано, но похоже без распознавания самих объектов сложно будет адекватно передать их цвет… задумался какого цвета должно было быть гнилое мясо и понял что моя нейронная сеть недостаточно обучена!
очень круто получилось! интересно, в поточном режиме прямо во время просмотра удастся сделать оцветнение?..

Нужна топовая видеокарта. Прямо совсем. И то будет на грани.
browser.geekbench.com/cuda-benchmarks
У меня 1060, он выдает 3 fps на обработке. По этим тестам он хуже верха в 7 раз. Это мы не обсуждаем сколько сил надо, чтобы это запустить.

Про мясо ремарку не понял, если натренировать на сюжетах с мясом, то и его раскрасит нормально. Ничего нового добавлять в архитектуру не надо
Впечатлил масштаб проделанной работы. Любопытно, чего было больше — настойчивости или прухи.
Вы постеснялись написать слово «дури». Madskillz&otvaga

Если без шуток, весь текст описывает типичную рабочую неделю разработчика нестандартного уникального ПО, так что наверное просто навык
Я долго искал слово, которое бы означало как и искреннюю добровольную внутреннюю мотивация, так и добрую долю отвала башки. Ваше, пожалуй, наиболее точно.
Очень круто, вы молодец!
Но столько мучений из-за слабого железа… я бы стал решать эту проблему не как инженер, а как менеджер: не проще ли было обратиться к коллеге/другу/знакомому с мощным системником и запустить у него эту задачу на ночь?
Зачем делать по уму, если можно через задницу?

Серьезный ответ: в силу разных обстоятельств такой вариант решения проблемы не находился в поле возможных решений
Просто полезная информация: В Microsoft Azure новым клиентам выдают 200$ на 30 дней и у них есть виртуалки с GPU.
Если будете обрабатывать еще видео, можете написать мне, могу поставить на 3900Х+1080ti.
Чем Super-SloMo лучше одного из лучших решений SVP?
Удивительно что авторы SloMo не сравнивают решение с самым известным SVP. Да, я понимаю, это немного другой мир Avisynth, да и библиотека только под Windows, но всё же. Да и вообще, что может дать нейронка, кроме медленной работы, в отрасли Frame Rate Conversion?
Кстати недавно появилась ещё одна очень продвинутая штука DAIN у них улучшение качества FRC идёт за счёт создания карты глубины.

p.s. что за музыка на 45:10?
Я серьезно работаю только под виндоуз и про svp знаю. Мне вот чисто инженерное чутье подсказывает, что математический алгоритм не может дать результат лучше, чем модель, берущая из памяти данные. Вот как вы проинтерполируете ладонь человека, если в первом кадре она к вам повернута узкой стороной, в следующем кадре она в другом месте и повернута пальцами. Алгоритм не сумеет нарисовать ее в полоборота с правильным количеством пальцев.

Svp делает из плавного изображения еще более плавное. А при переходе из 12 в 24 кучи информации о движении просто нет. Хоп и лошадь появилась уже в середине кадра. До этого ее нет

P.s. Это кастомная музыка. Ее в таком же виде нигде больше нет, в отдельном разделе статьи это описано
Так, исторический факт — на первых печатных копиях фильма красный флаг, поднимаемый над «Потемкиным» раскрашивали вручную…
И эта раскраска перенесена копированием цвета. Нейросеть про цвета флагов ничего не знает.
тон цвета скакал между кадрами
А это ведь можно использовать как имитацию NTSC с помехами. Там в основном тон и плывёт. В PAL вместо тона плывёт насыщенность, что не так заметно, а в SECAM ни то, ни другое, но сигналы яркости и цветности часто путаются, приводя к «бахроме» после резких изменений яркости.

Интесно! А вы не пробовали использовать NVidia Jetson Nano (производительность хорошая и цена до 100$, поддержка от NVidia)? Собираюсь ее купить.

то реально круто!!!
реально смотрится. ну конечно видно ИИ и подобные алгоритмы, но тем не менее смотрится!
Работа программистская реально не малая! А главная рассудительная! Тут прям ваще почёт и уважение!

(рекомендация запили прогу содержащую в себе все сделанные тобой наработки и сделай ей цену в 4.99$ или бесплатно вариант с ограниченным функционалом и полная версия за 4.99$ (бесплатно полностью для некоммерческого использования на территории России и бывшего СССР на авторизацию тест на вопросы из старых фильмов ;))) индийцам, кубинцам, северокорейцам, тоже в принципе можно бесплатно :D у них тоже много старого кино) ты конечно можешь даже потрясти так мир видеомонтажа ей с ног на голову врятли перевернёшь (но это будет бомба!!! как минимум петарда заметная у которой есть шанс стать проф продуктом что ППЦ!!!) если ещё будет возможность каждый модуль включать отдельно(отдельно стаб, отдельно цвет, отдельно тональность и т.п.), но для людей в этом мире ты сделаешь реально доброе дело, мак окупишь с лихвой, и народу приятно будет за 4.99$ инструмент такой для работы… это будет шикарно!!!) колво копий ну 10000-100000 реально и больше того, подписка на продукт за символические деньги типа 1$ в год… вообще куче народа будет не в напряг вовсе а вот людям будет приятно!!! ты сделаешь хорошее для этого мира! :)
(вариантов капитализации могу рассказать ВАГОН!!! $_$ )

Знаю малость рынок свадебщиков, видеоператоров, монтажёров и подстать, им реально подобный софт нужен. Т.е. много каких фишечек из перечисленных былибы очень в пользу людям для ряда не сложных задач и их автоматизированного решения. Может в первой версии проги она у тебя и не стала бы лучшей в мире по всем пунктам, но мне кажется год, 2 на этом поприще и у тебя будет уже вполне конкурентный продукт!!! Реально востребованный! (делать из Г вполне приемлемые сладости :) а из сладостей даже реально кулинарные шедевры (ну мне кажется что есть шанс!) )
Об наборах этих фунций меня друг оператор один все время спрашивает о том кто какбы сделал(вплоть даже чтобы на краундфайндинговой основе там организовать чтонть) что либо на эти темы а ты тут прям козырными тузами и джоккерами ходишь )))
у тебя тут вся колода джоккеров!!! :D

П.С. вообще наверно в тонкомпенсации и яркости появляется реально интересная задача, типа создать сеть как глубинную остаточную сеть (deep residual networks, DRN), но по виду работы близкую к потоковой чтобы в ней накапливалось, и в ней одновременно пребывала информация о группе кадров(ну например какойто результат интерполяции в точки группы участков с кадра) и типа пока они там оно это дело вроде как и выбивающиеся нормировало но пока выходит с другой стороны и входящий влияет на выходящий, и выходящий на входящий… слоёв на… хрен знает сколько чтобы там одновременно в ней было под 12-25 кадров. былобы интересно таким макаром попробовать…
одно заранее понятно: стробоскоп — НЕПРОЙДЕТ!!! :D

П.П.С. есть ещё ряд того что можно прикрутить к проге чтобы это стало реально востребованным коммерческим продуктом для реально крутых пацанов! ;)
и вообще былобы интерсно пообщаться на тему такой проги :D
Писать программы для себя и для людей это так же отличается как снимать на телефон Хуавей или Алексу. В планах умирать у меня пока нету.
Прикольно!
Но, в virtualdub-e и avisynthe уже есть большая часть инструментов. И дешейкеры, и построители промежуточных кадров, и шумодавы, и BW корректоры.
Почти все с исходниками.
Да, да, помню-помню, в 2000 году записанные эфиры в нём обрабатывал.

Упорство и стиль изложения бомбические.
Но работать с видео из консоли — это выше моего понимания.

Неудивительно что все так медленно рендерилось если вы код писали на Питоне.
Питон в данном случае только дирижирует. Математика считается через специализированные библиотеки. Язык не имеет значения в данном конкретном случае
Only those users with full accounts are able to leave comments. Log in, please.