Fil Dec 17 2013 at 14:09

Изобретаем JPEG

28 min

172K

Algorithms*Image processing*

Tutorial

+352

Comments 70

Suvitruf Dec 17 2013 at 14:26

Благодарю за очередную интересную статью.

p.s. такую статью в один заход не осилить)

+20

andymitrich Dec 17 2013 at 14:36

Ничего себе. Спасибо вам за такой большущий труд, очень познавательно!

+12

Fil Dec 17 2013 at 14:42

Пожалуйста! Если читателям понравится подобный стиль изложения, то планируются еще статьи.

+39

Suvitruf Dec 17 2013 at 14:45

Я вот особо не углублялся раньше в эту тему, но ваши статьи написаны интересно и понятно. Теперь буду следить за новыми статьями.

Fil Dec 17 2013 at 15:03

Приятно слышать :) Кстати, жду в комментариях пожелания о тематиках статей (прислушаюсь, но не обещаю :)

demoded Dec 17 2013 at 16:06

было бы интересно почитать так же подробно про lossless сжатие звука (flac/ape)
так же очень мало освещена тема wavelet сжатия изображений

merlin-vrn Dec 17 2013 at 16:25

Алгоритм FLAC примерно в таком же духе (только разве что без картинок) рассмотрен в его документации.

Fil Dec 17 2013 at 18:01

Я подумал, скорее буду копать в сторону вейвлетов и MPEG, так как они относительно знакомы и у них есть довольно много общего с jpeg.

demoded Dec 17 2013 at 16:04

нам нравится!

andymitrich Dec 17 2013 at 16:12

Нам действительно нравится, а вы немного обрисуйте темы будущих статей, пожалуйста, если, конечно, есть уже задумки.

Fil Dec 17 2013 at 17:52

Как предлагают ниже, можно затронуть Wavelet-сжатие и JPEG2000. Хотя на Хабре есть хорошие статьи про них. Еще можно про MPEG, у него с JPEG много общего.

UFO just landed and posted this here

Fil Dec 17 2013 at 20:05

Я о них ничего не знаю. Но присмотрюсь.

merlin-vrn Dec 17 2013 at 16:25

Wavelet-сжатие и JPEG2000. С отсылкой к этой статье. Тут можно будет найти много общего :)

Fil Dec 17 2013 at 17:50

Думаю, это очень разумный выбор :)

bmmshayan Dec 17 2013 at 14:40

Думаю даже этого бы хватило, чтобы защитить диссертацию… :)
Спасибо Вам за проделанную работу!

Fil Dec 17 2013 at 14:45

На здоровье! На самом деле в ней нет ничего нового, просто попытка рассказать понятным языком. Хотя поработать пришлось много — систематизировать, описать, придумать примеры и подходы.

alexpogodin Dec 17 2013 at 14:41

Монументально! За такие статьи хабр приплачивать должен…

+23

IonDen Dec 17 2013 at 18:10

Так приплачивает же: habrahabr.ru/ppa/faq/

Fil Dec 17 2013 at 18:12

Через 3 дня должен получить тысячу с небольшим :)

IonDen Dec 17 2013 at 18:14

Маловата сумма, за столь солидный пост! Но с правилами, увы, не поспоришь.

r3s3t Dec 17 2013 at 14:52

Если они различаются по цветам, или видна только одна картинка, то, скорее всего, у вас IE (любой версии).

Или Safari.

Fil Dec 17 2013 at 14:58

Я что-то не подумал еще и о мобильных браузерах. Сейчас проверил — стандартный браузер Андроид не показывает.

r3s3t Dec 17 2013 at 15:06

А я говорю как раз про десктопный. :)

MaxiMonster Dec 17 2013 at 15:07

Отличная статья!

alexeygrigorev Dec 17 2013 at 15:13

Спасибо большое! Иллюстрации просто супер

merlin-vrn Dec 17 2013 at 15:36

Алгоритм Хаффмана создает оптимальные коды по весу символов. Но арифметическое кодирование учитывает еще и их расположение.

Нет. Арифметическое кодирование — тоже исключительно энтропийное. Просто Хаффман ограничил нас только целочисленной длиной символа, а вот арифметическое позволяет делать как бы дробное число бит на символ, как раз ровно, сколько нужно, чтобы получить оптимальный код. Поэтому оно эффективнее.

А данные с распределением вида 4 «a», 2 «b», 1 «c» и 1 «d» (т.е. хорошие для Хаффмана) они закодируют одинаково, арифметическое даст на один бит больше. В принципе реальна такая реализация, что даже выход этих двух алгоритмов совпадёт побитово (за исключением этого лишнего бита).

Fil Dec 17 2013 at 15:51

Да, вы правы, спасибо! Немного подкорректировал.

demoded Dec 17 2013 at 15:58

спасибо огромное! знал как это програмить, но никогда не знал, какие страшные формулы за этим скрываются :)
пишите еще, очень интересно!

UFO just landed and posted this here

Fil Dec 17 2013 at 18:04

Спасибо! Не преподаю. Но нравится поразбираться в чем-то и объяснить это (поэтому написание статей для меня вроде отдушины :) И сам лучше начинаю понимать пока пишу

smilegs Dec 17 2013 at 16:38

Черт, как бы я хотел понимать такие статьи…
Положу пока на полку.

lorc Dec 17 2013 at 16:41

Fil молодец!

bubuq Dec 17 2013 at 16:48

ОМГ, у вас книгу издательство не приняло, наверно, поэтому тут пишете ;)

-5

Tar Dec 17 2013 at 17:16

Можно поподробней про самый первый график? Что значит «два соседних пикселя» (по всем направлениям?) и по какому принципу ставятся синие точки на графике? Не хочется читать дальше не поняв основу.

Tar Dec 17 2013 at 17:18

По графику въехал. Просто путаница из-за того, что градаций серого 256 и картинка 256х256.

UFO just landed and posted this here

Fil Dec 17 2013 at 19:03

Четвертый черный канал загружается, но, в итоге, не используется. Вот если бы мы добавили его ко второй картинке, то цвета стали бы правильными (темнее).

UFO just landed and posted this here

Fil Dec 17 2013 at 19:50

Спасибо за поправку! То есть, если я правильно понимаю, преобразование CMYK -> RGB может производиться по разным формулам?

UFO just landed and posted this here

Fil Dec 17 2013 at 20:17

Получается, что у кодера второй картинки и у большинства декодеров совпадают цветовые профили? И, скорее всего, они (кодер и декодеры) предполагают, что картинка будет отображаться на rgb-экране? И разработчики IE использовали какой-то свой профиль?

UFO just landed and posted this here

Fil Dec 17 2013 at 20:51

Ага профиль нашел

Секция APP2

(9 таких же секций, по одной на каждый скан в прогрессивном кодировании)
Содержимое секций APP не описывается стандартом.

Fil Dec 17 2013 at 21:28

Пишут, что в винде надо запускать хром с ключом --enable-monitor-profile, но у меня все равно картинки одинаковые, что с профилем, что без. Ладно, переживу :)

UFO just landed and posted this here

Fil Dec 17 2013 at 22:00

Спасибо за ликбез! Почитаю, у меня в этой области пробел.

UFO just landed and posted this here

Fil Dec 17 2013 at 19:01

В пункте «цветное изображение» я описал это. Только вместо «субдискретизация» мне нравится использовать слово «прореживание», причем не только мне.

JerryJJ Dec 17 2013 at 21:09

В Safari, кстати, картинки с домиком получились разные

UFO just landed and posted this here

relgames Dec 18 2013 at 03:38

Прочитал статью и понял, насколько я туп… Вот на этой картинке, что по осям?

Скрытый текст

Что значит «значение точки по оси X — значение первого пикселя, по оси Y — второго»? Какого — первого? Какого — второго? Что такое «значение пикселя»? На картинке с енотом есть пиксели, они могут быть представлены как (x,y,a), где a — яркость. Как из этих троек получилась картинка в спойлере?

AraneusAdoro Dec 18 2013 at 06:36

Для начала проверим насколько зависимы два соседних пикселя. <...> Отметим их на координатной плоскости точками так, что значение точки по оси X — значение первого пикселя, по оси Y — второго.

Картинка с енотом у нас чёрно-белая, значит, используется значение единственного параметра K (или как его там в grayscale обозначают).

relgames Dec 18 2013 at 14:47

Каждый пиксель в grayscale можно однозначно определить тремя цифрами — (x,y,k) — где k — это яркость. если мы отводим 1 байт на яркость, то да, это 0..255

На картинке из спойлера каждый пиксель тоже можно определить тройкой чисел — (x', y', k'). Вот мне и интересно, как преобразовыаются пиксели из первой картинки во вторую. У автора написано «для всех пар изображения» — это значит, всего будет (256*256)*(256*256-1)/2 пар. Или я как-то иначе понимаю слова «для всех пар»?

Fil Dec 18 2013 at 14:54

Картинку порезали на блоки 2x1 пикселей. Каждый блок я назвал парой пикселей. И каждую такую пару отметил на графике.

Fil Dec 18 2013 at 09:28

Как уже ответили ниже, значение пикселя серого изображения — одно число от 0 до 255. Мы же рассматриваем по 2 соседних пикселя. На графике одной точке соответствуют именно эти 2 пикселя. По X на графике — значение первого пикселя, по Y — второго.

relgames Dec 18 2013 at 14:41

Все равно туплю. Каких соседних? По горизонтали? Вертикали? Диагонали? Или вообще каждый с каждым?

Fil Dec 18 2013 at 14:50

В данном случае по горизонтали. То есть: x0y0 и x1y0, x2y0 и x3y0..., итого 256*256/2 = 32768 точек. Но вообще, не так уж важно — по вертикали или горизонтали, потому что нас интересует выявление зависимостей между соседними. Попробуйте сделать подобный график но для вертикали и вы увидите, что графики почти не отличаются.

relgames Dec 18 2013 at 14:54

ОК, теперь понятно :) Спасибо.

chibiryaev Dec 18 2013 at 07:40

Не знаю, обсуждалось ли выше, но

Для примера подумайте, как будет выглядеть дискретная функция, коэффициенты разложения которой равны нулю, кроме последнего.

Как же выглядит эта дискретная функция? На ум лишь приходит чередование чёрных и белых пикселей, но тогда 1-й коэффициент будет 0.5? Или я что-то не понимаю?

Fil Dec 18 2013 at 09:32

Правильно понимаете, но тут уже можно думать без привязки к пикселям. Ответ — такая функция полностью совпадает с последним базисом (с точность до коэффициента), а «проекции» функции на остальные базисы равны нулю.

DarkboodZed Dec 18 2013 at 11:11

А теперь, точно так же поделим на четверки и визуально определим базис в четырехмерном пространстве…

Очень подняло настроение. Огромное спасибо за статью.

vden Dec 18 2013 at 14:06

2-мерное преобразование енота [x]

5ap Dec 19 2013 at 13:01

Всё чётко! Красава! =)

-2

mrjj Jan 6 2014 at 20:42

Божественно крутой пост.

salikoff Apr 2 2017 at 03:25

Заметил маленькую ошибку:

Для нашего изображения размером 256 на 256 получим 256*256/2 точек:

Но получим мы 256*255/2 точек.
Количество пар из 256 элементов есть С²_n = n!/(2 × (n-2)!)

Fil Apr 2 2017 at 08:30

Под точкой понимается точка на плоскости XY с координатами:
x = get_pixel(2*n, m);
y = get_pixel(2*n+1, m);
где n ∈ [0, 127], m ∈ [0, 255]
То есть просто рассматриваются соседние пары пикселей

salikoff Apr 2 2017 at 16:53

Спасибо за разъяснение! От понимания этого построения зависят все нижеследующие рассуждения, а у меня на этом месте случился «затык».
Осталось уточнить деталь: а как быть, если строках и столбцах исходного изображения нечетное количество пикселей?
Моё собственное предположение: считывать пары не строкам слева направо, а в попеременном направлении, методом «бустрофедон».

Fil Apr 2 2017 at 17:15

Да, можно так. Но задумываться над такими тонкостями нужно только для реализации (не очень хорошей) альтернативы JPEG, в которой разбитие изображение производится не по 8x8, а по 2x1. В контексте этой статьи это не важно. Целью являлось показать то, что на фотографиях существует корреляция соседних пикселей. И, грубо говоря, если есть корреляция, значит есть избыточность, которую мы можем убрать для уменьшения размера.
Кстати, если JPEG-ом закодировать изображение со сторонами не кратными 8, то оно будет расширено кодером до кратного и заполнено каким-либо цветом, или просто мусором, чтобы не тратить время на очистку буфера. Этот излишек просто не показывается просмотрщиками.

salikoff Apr 3 2017 at 00:26

Понял, спасибо!

Show the best of all time