alexeyminkin 6 мая в 13:36

Древовидные структуры в SQL в одну таблицу

Средний

11 мин

11K

PostgreSQL*SQL*

Из песочницы

+52

Комментарии 29

RichardBlanck 6 мая в 13:52

Автор проспал первые два курса вуза? А, просто неуч.

-18

Akina 6 мая в 14:51

Я как-то не понял, почему потребовалось придумывать какой-то "идентификатор всего дерева" (который, кстати, ещё надо как-то задавать - этот момент стыдливо опущен... а зря) вместо совершенно очевидного решения использовать в качестве атрибута принадлежности дереву идентификатор корневого узла. При таком решении части преодолеваемых далее по тексту проблем просто не существует...

К слову, наличие такого идентификатора никак не решает задачу "как получить все дерево из базы" - вы можете получить только (несортированный) список всех узлов дерева, который сам по себе деревом, увы, не является.

Ну и вместо parent_ids_with_it имхо как-то логичнее было бы это поле назвать parent_ids_with_self .

IvanG 9 мая в 10:22

Я так понял, что идентификатор дерева может быть внешним ключём, когда его нет/нет необходимости привязываться к чему-то снаружи, то версия с использованием рутового узла в целом валидна (но может доставить проблем, если рутовый узел может меняться на другой)

Akina 9 мая в 10:43

может доставить проблем, если рутовый узел может меняться на другой

Да ладно! Если используем идентификатор рута, то почти очевидно, что это будет внешняя ссылка. А, значит, ничто не мешает организовать каскадное обновление. Правда, при изменении на другой и при этом уже существующий в таблице узел придётся вместо простого запроса использовать пляски с приседаниями (внешняя ссылка ссылается на инстанс записи в таблице, а не на само значение в ней), но если загнать логику в хранимку, проблем представлять не будет.

aelaa 6 мая в 14:56

без использования триггеров, блокировок, дополнительных таблиц (представлений) и внешних инструментов

Но с кучей констрейнтов, и решением лишних задач в базе.

Materialized path в помощь.

Akina 6 мая в 15:02

Ну по сути рождённый в муках parent_ids и есть эдакий недо-materialized path.

FanatPHP 8 мая в 21:03

А почему недо-? По мне так наоборот - обычный строковый материализованный путь выглядит колхозом по сравнению с этим. Или я что-то не знаю про правильные материализованные пути? Последний раз сталкивался лет 10 назад и в mysql

Akina 8 мая в 23:32

В отличие от классического материализованного пути массивы PostgreSQL, использованные автором, весьма затруднительно сравнивать на предмет A[] > B[], а также проверять, что A[] является префиксом B[]. А это - основные операции при работе с материализованными путями.

Ivan22 6 мая в 16:06

про "без блокировок" поржал. Тут таблица спроектирована на максимально возможное количество блокировок на каждый чих

IvanG 9 мая в 10:24

parent_ids/Materialized path это все постгрешное? В mssql/mysql есть аналоги? (Во время чтения статьи была мысль, что parent_ids можно заменить ещё одной внешней таблицей)

Akina 9 мая в 10:50

В mssql/mysql есть аналоги?

MS SQL - hierarchyid. См. напр. https://habr.com/ru/articles/27774/

MySQL - встроенные средства отсутствуют.

alexhott 6 мая в 16:00

а CTE отменили в той СУБД в которой автор это делал?

Не знаю как в постгре но в MS SQL и в oracle
дерево из таблицы легко собрать через обобщенные табличные выражения

еще и специальные оконные функции есть, позволяюще условия поиска корня задать и связку

Тут тебе по корню все дерево до последнего уровня еще и с номером уровня и с проверкой на цикличность при выборке

MetaDone 6 мая в 17:09

а это не то?

https://postgrespro.ru/docs/postgresql/12/ltree

Akina 6 мая в 19:04

Увы, там ограничение на 256 байт.

MetaDone 6 мая в 21:05

Метка — это последовательность алфавитно-цифровых символов и знаков подчёркивания (например, в локали C допускаются символы A-Za-z0-9_). Метки должны занимать меньше 256 символов.
Примеры: 42, Personal_Services
Путь метки — это последовательность из нуля или нескольких разделённых точками меток (например, L1.L2.L3), представляющая путь от корня иерархического дерева к конкретному узлу. Путь не может содержать больше 65535 меток.
Пример: Top.Countries.Europe.Russia

из той же статьи, как понимаю именно на одну метку 256 символов, а меток будет не одна, так что вполне нормально выходит

Akina 7 мая в 07:36

Ну да, с учётом того, что у автора ноды кодируются интами, моя ремарка неактуальна.

Kahelman 6 мая в 19:08

Рекомендую к прочтению -сегодня уже классика:

http://www.ibase.ru/treedb/

Кстати у Ibase много полезных статей по SQL. Так что вместо переизобретения велосипеда давайте оттуда статьи перепостим

skthn 6 мая в 23:57

Казалось бы, дал нам боженька документные бд, ту же монгу, например, куда дерево прекрасно ложится без всяких извращений.

Но нет, почему-то надо использовать реляционную структуру, которая для этого не предназначена, напихать костылей, потратить кучу времени, запихивая круглую штуку в квадратное отверстие.

-4

Kahelman 7 мая в 00:24

А реляционные данные предлагаете в отдельной БД хранить? И как там у моего с поддержкой транзакции и всего что с ними связано?

skthn 7 мая в 01:38

Как правило данные можно держать где угодно. Реляционные базы лучше предназначены для много-ко-комногим. Если в данных не очень много таких отношений и не нужна нормализация до упора, то гораздо проще использовать документные бд, так как данные в бизнес-логике часто представлены в виде объектов, а документы к объектам гораздо ближе, чем строки таблиц, поэтому конверсия проходит гораздо проще.

И что с транзакциями? Они там есть.

-4

Kahelman 7 мая в 08:17

До версии 4.0 запросы по индексу не были атомарными, если верить ВИКИ.

Версия 4.2.6 не прошла тестов на изоляцию snapshot—во.

В общем не надо путать свой карман с государственным, т.е. проверенную БД типа PostgreSQL с поделкой типа Mongo.

FanatPHP 8 мая в 21:06

Как правило данные можно держать где угодно

Как правило, осознание несостоятельности этого утверждения бывает очень болезненным.

piton_nsk 7 мая в 02:52

Но нет, почему-то надо использовать реляционную структуру, которая для этого не предназначена, напихать костылей, потратить кучу времени, запихивая круглую штуку в квадратное отверстие.

Если остальные данные в РСУБД, зачем заводить отдельную базу для хранения деревьев?

nronnie 7 мая в 06:48

Хм... А как вы дерево в общем случае положите в Mongo "без извращений" - всё дерево в один документ? А если там миллион узлов?

Ivan22 7 мая в 10:25

ну это логичное развитие похода - "запихаем все дерево в один json"

nronnie 7 мая в 06:46

Представление дерева с помощью parent_id это самый очевидный и примитивный способ представления, но он далеко не единственный и во многих (наверное, даже очень) случаях не самый удобный и эффективный.

ABIDB 8 мая в 20:27

Попробуйте иерархический идентификатор нодов ,содержащий полный путь айдишников дерева до этого нода. Айдишники можно добить нулями слева до фиксированной длины, скажем, символов 5 (вряд ли нужно больше) для облегчения парсинга. Может понравиться

nronnie 9 мая в 06:45

Это называется "Path enumeration pattern". В общем-то все эти вещи хорошо описаны в книге Билла Корвина "SQL Antipatterns". Автор статьи просто изобретает велосипед.

pinigin55 9 мая в 21:36

Думал тут будет красивое и элегантное решение)

Честно, решение выглядит скорее как академический велосипед. В продуктовой разработке я бы такое не делал, просто по тому что ты коллегам свое решение не объяснишь, никто не поймет)

Мы используем ltree для решения подобных задач.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время