FFormula 18 окт 2019 в 13:22

Балансировка красно-чёрных деревьев — Три случая

3 мин

48K

Блог компании OTUSПрограммирование*Алгоритмы*Поисковая оптимизация*

+25

Комментарии 29

Magikan 18 окт 2019 в 18:56

За статью спасибо.
Правда мне всегда было интересно зачем все это извращение с бинарными деревьями(кроме фана для души), когда существует более эффективное семейство B-деревьев.

GlukKazan 18 окт 2019 в 21:14

Красно-чёрное дерево можно рассматривать (немножко под другим углом) как 2-3 дерево — частный случай B-дерева. Широко используется для хранения данных в оперативной памяти. В STL, если мне склероз не изменяет, использовались.

igor_suhorukov 19 окт 2019 в 12:48

Каждой задаче свой инструмент: для структур в памяти подходят почти сбалансированные двоичные деревья, а B-деревьев для внешней памяти. Как часто используемый пример красно-черных деревьев в стандартной библиотеке Java -TreeMap
https://docs.oracle.com/javase/8/docs/api/java/util/TreeMap.html

bgnx 22 окт 2019 в 09:07

Что внешняя память что оперативка имеет один и тот же параметр — размер блока и понятие локальности когда работать с размерами меньше этого блока не имеет смысла потому что любое обращение к памяти будет грузить или записывать весь этот блок. Соотвественно B-деревья походят не только для внешней памяти а и для структур в памяти поскольку нет смысла делать узел меньше чем размер блока (для оперативной памяти вместо блока используется название "кеш-линия") — то есть для современных процессоров нет смысла делать узел дерева размером меньше 64 байта (размер кеш-линии в x64 и arm). И узнать какой будет ранг у б-дерева можно просто поделив 64 байта на размер указателя на другие узлы (указатели тоже можно закодировать более компактно если ограничить их общее количество)

ukt 18 окт 2019 в 21:40

Можно уточнить по какому именно параметру B-деревья эффективнее?

bgnx 22 окт 2019 в 09:19

B-деревья эффективнее работают с кешем процессора

kovserg 22 окт 2019 в 19:37

Без тестов не убедительно.

FFormula 19 окт 2019 в 13:21

Все эти «извращения» возникают из желания придумать простой способ балансировки для такой простой идеи, как двоичное дерево поиска. К сожалению, просто не получается. Лично мне из всех попыток балансировки больше всего нравится рандомизированные деревья, которые уравновешиваются законом распределения случайных чисел.

kovserg 19 окт 2019 в 10:45

Замечательно, а где удаление элемента?

FFormula 19 окт 2019 в 13:18

Про удаление следует написать ещё одну статью примерно такого же объёма, там тоже 3 разных случая и нюансы.

vintage 19 окт 2019 в 11:43

Красно-чёрное дерево — это как сортировка пузырьком в мире деревьев. Более расточительную по памяти структуру придумать сложно.

DmitryKoterov 19 окт 2019 в 13:04

Какова альтернатива для std::map, например?

FFormula 19 окт 2019 в 13:19

В чём же расточительство? Элемент NIL хранится в единственном экземпляре и подвешивается везде, где нужно, увеличение объёма только в одном бите цвета на каждую вершину. Или вы в чём-то ещё видите расточительство?

vintage 19 окт 2019 в 16:25

NIL вообще не хранится и является нулевым указателем, что даёт нам +8 байт на каждый узел в дереве, а число узлов равно числу ключей. Даже если мы введём 4 типа узлов разного размера (разветвление, левая полуветка, правая полуветка, лист), то это даст +2 бита на каждый узел (вместе с цветом =3). И при этом балансировка оставляет желать лучшего.

vintage 19 окт 2019 в 16:31

Для сравнения: 2-3 B-дерево потребует всего 1 бит на каждый узел для указания его размера, число узлов будет в среднем в полтора раза меньше числа ключей, а с балансировкой там всё в порядке.

НЛО прилетело и опубликовало эту надпись здесь

vintage 19 окт 2019 в 21:07

Половина узлов — одинарные, имеют два указателя.

Половина узлов — листовые, не имеют указателей. Указатели имеют лишь ветви. Так как глубина листьев всегда одинаковая, достаточно отдельно хранить глубину дерева, чтобы понимать какие ссылки указывают на ветки, а какие на листья.

И это всё при условии, что у нас узлы 2-3 дерева динамически меняются по размеру, что требует постоянных обращений к аллокатору памяти.

Уменьшать нет смысла (всё-равно придётся снова увеличивать или удалять целиком), а если только увеличивать, то число аллокаций в худшем случае будет равным rb-tree. Но даже если выделять памяти с запасом, экономия на листьях с лихвой перекроет эти затраты.

И не забывайте, для чего вообще эти деревья нужны — для ускорения поиска и вставки всё же.

Так с поиском у rb-tree тоже всё плохо. Вот на скринах, например, для поиска 14 узла нужно сделать 5 хопов против 2.

НЛО прилетело и опубликовало эту надпись здесь

vintage 19 окт 2019 в 23:37

Ок, тогда можно сделать как, собственно вы же и написали — хранить два бита для определения типа узла.

И тогда мы получим те же проблемы с аллокациями памяти.

Если мы не будем уменьшать, то тогда у нас лишняя память как раз и будет стоить те самые выигранные биты.

В худшем случае.

А как в 2-3 дереве получили 2 сравнения?

Сравнения ничего не стоят. Стоят хопы — переходы по указателям.

Важно как характеристика ведёт себя логарифмически на больших числах.

Интуитивная оценка: до двух крат разницы по глубине между узлами, что даёт в среднем процентов на 30 больше хопов по сравнению с оптимально сбалансированным деревом.

НЛО прилетело и опубликовало эту надпись здесь

Deosis 21 окт 2019 в 08:29

Какое-то странное у вас дерево. Обычно, в 2-3 В-дереве узел размера 1 может быть только в вырожденном случае: дерево из одного элемента.

vintage 21 окт 2019 в 09:56

Размер узла считается по числу ссылок на поддеревья. Число ключей в таком узле на 1 меньше.

Deosis 21 окт 2019 в 12:09

У вас листы содержат всего один элемент.

vintage 21 окт 2019 в 12:22

Они содержат 1 или 2 ключа, что соответствует 2 или 3 поддеревьям. Ссылки на эти поддеревья не хранятся по причинам, озвученным мной выше.

GlukKazan 19 окт 2019 в 13:38

Легко. AVL-деревья более расточительные, поскольку им требуется хранить большее количество служебной информации, для выполнения балансировки.

vintage 19 окт 2019 в 16:07

Там нужно хранить лишь 2 бита для разницы высот вместо 1 бита цвета. В этом плане разница с красно-чёрным незначительна.

wataru 19 окт 2019 в 13:49

Еще есть декартовы деревья, они же treap. Там память нужна аж для двух ключей и оно еще и рандомизированное. Но зато его писать в несколько раз легче любых других деревьев.

vintage 19 окт 2019 в 23:41

Думаю можно присудить вам победу в этой специальной олимпиаде.)

-1

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий