zzeng Jan 8 2019 at 06:09

Lambda-функции в SQL… дайте подумать

13 min

9.6K

Comments 30

sshikov Jan 8 2019 at 09:53

>Не сравнить с монументальными творениями гигантских комитетов,
Если вы PL/1 упомянули как творение комитета, то мне кажется это мимо, потому что это было а) произведение исключительно IBM б) на то время это был весьма приличный язык, уж всяко лучше Алгола, где авторы полностью позабыли про ввод-вывод. С десятками реализаций, диалектами, и всем таким.

zzeng Jan 8 2019 at 13:01

Да, детище IBM, настолько монструозное, что всех его возможностей наверняка не знали даже его создатели :)

sshikov Jan 8 2019 at 13:41

Да ладно, ничего особо монструозного там не было. Намного проще чем C++, к примеру. Язык конечно сложный, одно управление памятью чего стоит (в трех вариантах, насколько я помню). Структуры данных не особо удобные. В тоже время, вполне можно было пользоваться либо подмножеством, либо писать достаточно сложные вещи типа компиляторов, лазать по структурам ОС почти без ассемблера, и т.п.

Вполне практичный язык был, иными словами. На то время (а это 1964 год, между прочим). Уж что было творение комитета — так это Алгол-60. Забыть ввод-вывод — это надо было суметь.

zzeng Jan 9 2019 at 04:07

Вероятно, не забыли, а не сумели договориться.
Да, вы правы.

UFO just landed and posted this here

zzeng Jan 8 2019 at 14:03

Либо хэш, либо сортировка, я так и написал.
Если у вас нет оперативной памяти на хранение всех идентификаторов строк,
что происходит при организации хэша,
без сортировки не обойтись.

-1

UFO just landed and posted this here

zzeng Jan 8 2019 at 14:22

А без шпаргалки, вот у вас миллиард записей, нужно сделать
сделать GROUP BY по двум вычисляемым значениям.
Предложите алгоритм.

qw1 Jan 8 2019 at 14:53

Но ведь ваше решение на awk тоже использует хеш.
Чем оно принципиально лучше, чем group by через хеш на сервере?

zzeng Jan 8 2019 at 14:59

Тем что этот хэш строится на моём компе и никому не мешает :)
На самом деле, хэш — это отличный вариант, к сожалению SQL процессор не всегда может сообразить что можно построить именно хэш, а не временный индекс.
А в варианте с lambda функциями даже и хэш не нужен, можно обойтись двумерным массивом.

-3

UFO just landed and posted this here

qw1 Jan 8 2019 at 15:07

Вы разменяли один ресурс (память на сервере) на другой (ширину канала к серверу). Т.е. частное решение для очень конкретной ситуации. С другой стороны, если такие запросы типичные, то постоянный fullscan большой таблицы даст большие нагрузки. Возможно, стоит хранить агрегаты в отдельной таблице (и поддерживать триггерами), либо смотреть в сторону OLAP-решений, если заранее неизвестно, какие будут агрегаты.

А в варианте с lambda функциями даже и хэш не нужен, можно обойтись двумерным массивом.

И что? Снова кушаем память на сервере, от чего вы хотели избавиться. Но асимптотическая оценка на хранение промежуточных данных остаётся одинаковой, что для хеша, что для массива.

zzeng Jan 8 2019 at 15:35

Не совсем так, с lambda функциями мне нужна только память под счетчики попаданий (я ведь гистограмму строю).
В случае groupby через хэш — под идентификаторы строк.

qw1 Jan 8 2019 at 15:42

В случае groupby через хэш — под идентификаторы строк.

Зачем?! Всё точно так же — нужна память под строки-группы, и не более.

zzeng Jan 8 2019 at 15:49

Делаем groupby по двум вычисляемым значениям, соответствующего индекса нет, максимум можем рассчитывать на статистику.
Что вы называете строками-группы?

qw1 Jan 8 2019 at 16:01

Делаем groupby по двум вычисляемым значениям, соответствующего индекса нет, максимум можем рассчитывать на статистику.

И зачем серверу делать хеш с количеством узлов, равное количеству строк в исходнике? Как это ему поможет посчитать суммы по группам?

Сервер делает ровно то же самое, что вы предложили делать вручную — определяет состав ключа (это выражения, по которым группируем) и составляет хеш именно по ключам группировки.

За исключением случаев, когда есть готовый индекс, полностью покрывающий ключ группировки (например, нашёлся индекс по полям X,Y,Z, когда GROUP BY указан по X,Y). В этом случае можно идти по индексу, но часто это оказывается медленнее, чем новое построение хеша. В этом случае можно добавить хинт «не испольуй индекс».

Что вы называете строками-группы?

Строки-группы, это строки, которые выходят как результат запроса.

zzeng Jan 8 2019 at 16:12

Во примерно за этим.
— размер ячейки 100 x 100
SELECT
count(), round(x, -2) AS cx,
round(y, -2) AS cy
FROM samples GROUP BY cx, xy

qw1 Jan 8 2019 at 19:16

Не улавливаю ход ваших мыслей. Допустим, в таблице 1e9 записей. Зачем создавать временный хеш на 1e9 записей? Что он даст такого, чего нет в таблице-источнике?

zzeng Jan 9 2019 at 04:05

Вы правы, я ошибался, изменил текст статьи.

qw1 Jan 8 2019 at 15:15

хэш не нужен, можно обойтись двумерным массивом.

Если данные разрежены, хеш сохранит их компактнее, чем двумерный массив всех возможных пар координат.
Если возможных пар координат мало (например, поле 1000x1000 при источнике в 1e12 строк), то с практической точки зрения, затраты на хранение промежуточного результата что в хеше, что в массиве пренебрежимо малы по сравнению с необходимостью считать все строки источника. Тут group by на сервере памяти мало съест

zzeng Jan 8 2019 at 15:26

Конечно. Но в этом и прелесть lambda функций что я пишу код, который актуален только здесь и сейчас. Мне не нужен общий случай.
Если исходя из структуры данных я ЗНАЮ, что двумерный массив подойдёт, использую его, иначе хэш.

qw1 Jan 8 2019 at 15:34

Но вы пишете код с той же асимптотикой по времени и памяти.
Если условный GROUP BY не подходит под ваши задачи, а кастомное решение, которое жрёт всего лишь в 4 раза меньше памяти — подходит, то проект в большой опасности. У меня так получается, что с каждым годом растёт скорость роста баз. И значит, если нет запаса по таким запросам хотя бы 10-кратного (а SQL-сервер страхует тем, что сам может понять, хватает ему места в памяти, или надо выгружать во внешние файлы), в неожиданный момент и кастомное оптимизированное решение рухнет (там нет такой подстраховки).

zzeng Jan 8 2019 at 15:39

Асимптотика по памяти всё же разная, ответил выше.
При построении гистограммы она константа, при groupby через хэш — зависит от размера выборки.

qw1 Jan 8 2019 at 15:42

Уверен, вы ошибаетесь. Ответил выше ))

zzeng Jan 9 2019 at 04:06

Вы правы, я ошибался, изменил текст статьи.

zzeng Jan 9 2019 at 04:10

alexhott Jan 8 2019 at 16:54

Таблиц с миллиардами строк в наших базах нет, но сотни миллионов запросто.
Пока все выборки (а они весьма извращенные) удается решать стандартными способами ms sql.
При разработке и анализе никто не мешает насоздавать каких угодно индексов и определится что в итоге нам нужно. А затем все грохнуть и создать вычисляемые поля, поля для группировки (хоть триггером заполнять) и тому подобное.
При выборке там где планировщик запросов идет не по тому пути всегда можно хинтом намекнуть.
В общем я пока остаюсь при мнении что велосипед уже изобретен.

springimport Jan 8 2019 at 17:52

Сотни миллионов не далеко стоят от миллиарда.

UFO just landed and posted this here

Show the best of all time