agorkov 16 окт 2011 в 21:40

Арифметическое кодирование

3 мин

97K

Алгоритмы*

+53

Комментарии 39

yeputons 16 окт 2011 в 23:02

Теория ясна, спасибо.
А каким образом потом это число записывается и с какой необходимой точностью, чтобы обогнать Хаффмана?
Если даже никак, то есть ли какие-нибудь теоретические обоснования того, что этот алгоритм работает лучше?

vanxant 16 окт 2011 в 23:30

Оно не «потом» записывается, оно сразу записывается. Когда вы получили диапазон 0.11-0.14, 0.1 можно записать и забыть. По факту хранятся и обсчитываются последние 16-32 бита диапазона, всё остальное уже записано.

Pastafarianist 17 окт 2011 в 00:38

Число записывается следующим образом: внутри полученного полуинтервала

выбирается полуинтервал

, где n — наименьшее из возможных, и в выходной файл пишется число

в виде двоичной дроби — всё, что стоит после «0,».

Pastafarianist 17 окт 2011 в 00:46

Автор, кстати, забыл упомянуть, что на словах этот алгоритм чрезвычайно прост, но когда дело доходит до реализации, всплывает невероятное количество подводных камней. Нам в школе давали в качестве домашнего задания реализовать этот алгоритм на Haskell, и у меня ушло 3 недели, чтобы заставить его вменяемо работать, при том что перед глазами у меня был код на C.
P.S.: на задание реализовать PPMc, являющийся идейным наследником и обобщением арифмокодера, я благополучно забил :)

Ramzeska 17 окт 2011 в 05:50

Что же за школы у вас такие??!

+19

Pastafarianist 17 окт 2011 в 22:01

habrahabr.ru/blogs/study/87800/

Статья, честно говоря, отстойная, поэтому расскажу свою версию, вкратце:

Питерская, частная, но бесплатная школа. Основной упор на математику и, меньше, программирование. Лично я сейчас учусь в 11 классе. На основном курсе математики (матанализ) только что начали рассказывать интегралы. На программировании весь прошлый год изучали алгоритмы сжатия (Шеннон, Хаффман, LZ77/78, LZW, арифметик, PPM, BZ2), с обязательным условием написания их на Haskell. В конце года начали заниматься Java, сейчас продолжаем. Летом, в лагере, были курсы: обязательный «Ряды в банаховых пространствах» и один из трёх на выбор: частичные группоиды, теория Галуа или теория групп. Сейчас ведутся ещё штук 5 (необязательных) спецкурсов с похожими названиями. Как-то так :)

Если интересно, могу попробовать написать свою статью, но ничего не обещаю.

merlin-vrn 17 окт 2011 в 22:30

Жесть. Из вас что, из каждого планируют вырастить Ландау? :)

Godless 18 окт 2011 в 08:00

Грамотно у Вас учителя подходят к обучению. Респект им.

d3sire 25 окт 2011 в 01:29

Подходят-то грамотно, но за свою психику после матана с 8ого класса неручаюсь.

Godless 25 окт 2011 в 08:51

Держитесь, сударь. Еще вся жизнь впереди.

impwx 17 окт 2011 в 11:08

Почему же у нас в школе только задания типа «вывести четные числа от 1 до 100» на бейсике были? :(

tesseract 17 окт 2011 в 11:46

суровые челябинские дети.

tronix286 16 окт 2011 в 23:13

Скорость VS размер. Ничего нового, всегда приходилось выбирать из наиболее важного. Скажем, с трудом вы покодируете арифметическим сжатием на каком-нибудь Z80 с приемлемой скоростью (без аппаратного деления целых, про вещественные числа я не упоминаю). Хотя на компах нонешных — это конечно не проблема.

vanxant 16 окт 2011 в 23:33

Арифметика быстрее Хаффмана, как ни странно, примерно раза в два. Деление целых ни разу не проблема, оно делается сдвигами. Более того, на старых х86 (8086-80286) процессорах оптимизированное вручную деление сдвигами работало быстрее аппаратной команды. Борландовские компиляторы, например, аппаратным DIV не пользовались.

tronix286 17 окт 2011 в 11:46

Более того, на старых х86 (8086-80286) процессорах оптимизированное вручную деление сдвигами работало быстрее аппаратной команды. Борландовские компиляторы, например, аппаратным DIV не пользовались.

Сдвиги на старых процах пользовали только в случаях деления/умножения на степень двойки. Во всех остальных случаях — стандартные DIV и MUL. Борландовские компиляторы так и делали

gUst 17 окт 2011 в 11:57

А нельзя ли пример деления сдвигами скажем X/237?

Nordvind 17 окт 2011 в 10:01

Теорию категорий тоже в школе брали?

Dragonizer 17 окт 2011 в 11:56

Судя по всему, ваш комментарий относится к ветке выше (Pastafarianist).

Pastafarianist 17 окт 2011 в 22:02

Вы удивитесь, но да. Правда, только в качестве необязательного спецкурса, но я лично знаю человека, который отсидел его целиком. И это не я.

pda1983 16 окт 2011 в 23:16

Мало кто знает? Это же один из самых известных алгоритмов

xdr 17 окт 2011 в 18:24

Согласен. Если я не ошибаюсь, то первая практическая реализация
арифметического кодирования была описана (аж) в 1987 году:

www.stanford.edu/class/ee398a/handouts/papers/WittenACM87ArithmCoding.pdf

Boctopr 16 окт 2011 в 23:49

Алгоритмы это хорошо есть ли что-нибудь в действующим варианте? Например как Rar, 7-zip.

Pastafarianist 17 окт 2011 в 00:28

Насколько мне известно, одной из частей алгоритма RAR является арифметическое кодирование, точнее, его обобщение — один из алгоритмов семейства PPM. 7-zip тоже умеет использовать PPM (а именно, PPMd), наряду с другими алгоритмами, типа LZMA.

elw00d 17 окт 2011 в 18:33

LZMA, если я не ошибаюсь, использует разновидность арифметического кодирования — интервальное кодирование (оно работает быстрее). Да и в любых LZ-based архиваторах выходная последовательность дожимается либо арифметиком, либо хаффманом. В обычном Zip вроде бы используется хаффман.

dbf 17 окт 2011 в 09:11

Не знаю есть ли архиваторы, использующие только арифметическое сжатие, но оно используется для дожатия без потерь на одном из шагов в jpeg-2000 и h264.

naryl 17 окт 2011 в 12:21

Dirac.

ЕМНИП на арифметическое кодирование, в отличие от Хаффмана, до сих пор не все патенты истекли.

merlin-vrn 17 окт 2011 в 21:35

зато его вариант — range coding — свободен

Ramzeska 17 окт 2011 в 05:44

Освоил алгоритм Хаффмана очень быстро, даже реализовал адаптивные улучшения для него, а вот арифметическое сжатие мне долго не давалось из-за туговатых статей на 50 страниц. Спасибо за краткое и внятное объяснение. Наконец-то все встало на свои места.

gUst 17 окт 2011 в 11:45

Вроде бы Quantized Indexing дает лучшее сжатие для энтропии засчет меньших накладных расходов. К тому же никто не использует Arithmetic Coding в чистом виде. Как правило народ берёт Range Coder который быстрее, патентно-чист, и жмет чуть хуже за счет округлений. Как пример реализации советую посмотреть RC Дмитрия Шкарина (Shkarin).

SFx 17 окт 2011 в 12:08

Спасибо за статью (+), Хаффмана я как то даже писал на pascal во времена учебы. Но вот арифметическое кодирование я не смог раскусить на моменте реализации. По теории было все понятно. То что описано является основой, но большие вопросы занимает именно реализация, представления чисел с столь длинными хвостами после запятой.
я начинал было делать, но меня хватило лишь на размеры фраз до переполнения float :)
было бы здорово удивить продолжение стать, содержащем в себе ключ к реализации и ключ симбиозу арифметическому кодированию и адаптивного Хаффмана.

gUst 17 окт 2011 в 12:12

en.wikipedia.org/wiki/Range_encoding дает хорошее объяснение реализации «почти AC». Хотя, конечно, краткий обзор применений было бы хорошо.

SFx 17 окт 2011 в 21:56

Жаль этой ссылки не было в 2002 году…

merlin-vrn 17 окт 2011 в 21:41

Так адаптивное кодирование делается примерно так же, как адаптивный Хаффман. Только в Хаффмане дерево перестраивается, а тут — таблица-статистика.

Для упрощения работы с дробями можно делать адаптацию не на каждый входной символ, а на каждый 1/2/4/8-й и т. д. (степень двойки) символ. Тогда фактически статистические веса, т.е. длины интервалов, сопоставляемых отдельным символам, будут конечными двоичными дробями, и можно работать в арифметике с фиксированной запятой — правда, ценой некоторой потери эффективности.

SFx 17 окт 2011 в 21:48

ну зато с fixed_point можно аппаратное решение реализовать в приемлемых ресурсах. LZRW вон сделали…

DjOnline 17 окт 2011 в 12:34

Из-за грёбанных патентов в jpeg до сих пор не применяется арифметическое сжатие.
А есть ведь ещё разработки типа типа PackJPG (и другие), обеспечивающие на 30% лучшее сжатие чем обычный jpeg при абсолютном байт-в-байт сходстве распакованной картинки, но тоже проблема — никаких плагинов для браузеров/просмотрщиков/редакторов.

masai 17 окт 2011 в 17:05

Тут ещё можно вспомнить и JPEG2000, который тоже из-за патентов в народ так и не вышел, хоть и неплох,

Godless 17 окт 2011 в 14:13

Спасибо за статью. Есть книжка «Методы сжатия данных», к сожалению не помню авторов, там их целая могучая кучка выпускников МГУ. Если не ошибаюсь, 3е издание должно быть уже. Дак вот там для тех, кому интересно, расписаны и показаны огромное количество методов преобразований для сжатия, так и самого сжатия. Очень рекомендую к прочтению. Единственное — написана конечно тяжело. Но там и материал такой не для домохозяек…

pda1983 17 окт 2011 в 16:42

Авторы: Дмитрий Ватолин, Александр Ратушняк, Максим Смирнов и Юкин (имени не помню).

Частично книгу можно взять на сайте compression.ru

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Арифметическое кодирование

Комментарии 39

Публикации

Истории