Статьи / Профиль Kilor / Хабр

Как стать автором

Боровиков Кирилл @Kilor

Архитектура ИС: PostgreSQL, Node.js и highload

Профиль Публикации 142Комментарии 606Закладки

Kilor 2 апр в 12:50

Курс «PostgreSQL для начинающих»: #4 — Анализ запросов (ч.1 — как и зачем читать планы)

Средний

16 мин

17K

Блог компании ТензорPostgreSQL*Анализ и проектирование систем*SQL*Администрирование баз данных*

Туториал

Продолжаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

В этой лекции мы узнаем, что такое план выполнения запроса, как и зачем его читать (и почему это совсем непросто), и о каких проблемах с производительностью базы он может сигнализировать. Разберем, что такое Seq Scan, Bitmap Heap Scan, Index Scan и почему Index Only Scan бывает нехорош, чем отличается Materialize от Memoize, а Gather Merge от "просто" Gather.

Как обычно, для предпочитающих смотреть и слушать, а не читать - доступна видеозапись (часть 1, часть 2).

Читать далее

+32

Kilor 15 мар в 09:00

SQL HowTo: один индекс на два диапазона

Средний

3 мин

3.7K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Туториал

В прошлой статье я показал, как условие с парой однотипных неравенств, плохо поддающееся индексации с помощью btree, можно переделать на эффективно gist-индексируемое в PostgreSQL условие относительно диапазонных типов, а наш сервис анализа планов запросов explain.tensor.ru подскажет, как именно это сделать.

Но что делать, если неравенств у нас не два, а целых четыре, да еще и с разными типами участвующих полей? Например, для целей бизнеса это может быть задачей вроде "найди мне все продажи за декабрь на сумму 10-20K", что на SQL будет выглядеть примерно так:

dt >= '2023-12-01'::date AND dt <= '2023-12-31'::date AND

sum >= 10000::numeric AND sum <= 20000::numeric

Читать далее

+21

Kilor 11 мар в 15:00

Бьемся с индексацией парных неравенств в PostgreSQL

Средний

6 мин

4K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Туториал

Я уже не раз писал, что условия с несколькими неравенствами (<, <=, >=, >) обычно плохо подходят для индексирования "классическим" btree, вызывают "тормоза", и необходимо придумывать различные нетривиальные подходы в PostgreSQL, чтобы добиться хорошей производительности подобного запроса.

В этой статье мы не только рассмотрим способы решения подобных задач "в общем виде", но и покажем, как нам удалось автоматизировать их решение в рамках функционала рекомендаций индексов нашего сервиса анализа планов explain.tensor.ru и его новых возможностях.

Читать далее

+18

Kilor 10 янв в 15:30

Курс «PostgreSQL для начинающих»: #3 — Сложные SELECT

Средний

12 мин

26K

Блог компании ТензорPostgreSQL*SQL*Администрирование баз данных*

Мнение

Продолжаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

В этой лекции углубимся в расширенные возможности команды SELECT : как можно "сложить" и "вычесть" выборки (UNION/INTERSECT/EXCEPT), или запомнить и использовать в рекурсивных запросах (CTE), что дают оконные функции (WINDOW) и соединения (JOIN).

Как обычно, для предпочитающих смотреть и слушать, а не читать - доступна видеозапись.

Читать далее

+34

Kilor 25 дек 2023 в 11:32

PostgreSQL в «Тензоре» — публикации за год (#4)

Простой

2 мин

2.8K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Обзор

Под занавес уходящего года предлагаю традиционно вспомнить, про какие интересные возможности и особенности работы с PostgreSQL мы рассказали в нашем блоге.

Если не видели дайджест за прошлый год — время наверстать упущенное!

Читать далее

+5

Kilor 20 дек 2023 в 16:50

SQL HowTo: итоги по строкам и столбцам «в одно действие»

Средний

4 мин

14K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Туториал

Немного отвлечемся от простых SELECT и посмотрим на реальной бизнес-задаче построения различных "тепловых карт" и "шахматок", как знание возможностей SQL может облегчить жизнь и разработчику, и его базе.

Читать далее

+27

Kilor 19 дек 2023 в 08:30

Курс «PostgreSQL для начинающих»: #2 — Простые SELECT

Простой

14 мин

17K

Блог компании ТензорPostgreSQL*SQL*Администрирование баз данных*

Мнение

Продолжаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

Сегодня поговорим о самых простых, но важных, возможностях команды SELECT, наиболее часто используемой при работе с базами данных - формировании выборок (VALUES), их ограничении (LIMIT/OFFSET/FETCH), фильтрации (WHERE/HAVING), сортировке (ORDER BY), уникализации (DISTINCT) и группировке (GROUP BY).

Как обычно, для предпочитающих смотреть и слушать, а не читать - доступна видеозапись.

Читать далее

+13

Kilor 12 дек 2023 в 08:30

Курс «PostgreSQL для начинающих»: #1 — Основы SQL

Простой

13 мин

43K

Блог компании ТензорPostgreSQL*SQL*Администрирование баз данных*

Мнение

Этим постом я запускаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

В программе: рассказ об основах SQL, возможностях простых и сложных SELECT, анализ производительности запросов, разбор [не]эффективного применения индексов и особенностей работы транзакций и блокировок в этой СУБД.

Курс не претендует на лавры "войти в айти", поэтому подразумевает наличие у слушателя опыта программирования или работы с другими СУБД, и, главное, желания самостоятельно изучать тему работы с PostgreSQL глубже.

Для тех, кому комфортнее смотреть и слушать, а не читать - доступна видеозапись.

Читать далее

+33

Kilor 28 ноя 2023 в 10:20

SQL HowTo: TOP-N на субинтервалах

Простой

3 мин

4.4K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Кейс

Периодически сталкиваюсь с однотипными задачами вида "показать TOP-N позиций на каждом из вложенных интервалов некоторого периода".

Это может быть "5 лучших по успеваемости студентов в каждом семестре за последний учебный год", или "помесячная динамика позиции 10 наиболее продающихся товаров", или, как у нас в сервисе визуализации PostgreSQL-планов explain.tensor.ru, "3 наиболее активных страны за каждый день":

Читать далее

+11

Kilor 2 ноя 2023 в 09:45

PostgreSQL Antipatterns: ходим по JSON-граблям

Простой

3 мин

14K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Кейс

Недавно попался на глаза примерно такой кусок запроса, и тут прекрасно примерно все:

• множество чтений из CTE (хоть и единственной записи, но все же);

• извлечение по каждому ключу текста с раскастовкой в jsonb;

• извлечение каждого отдельного json-ключа в каждое отдельное одноименное поле;

• "ручное" преобразование текстового представления массива в json в текстовое представление PostgreSQL.

А как - правильно?

Читать далее

+26

Kilor 13 сен 2023 в 09:35

SQL HowTo: ближайший общий предок в дереве (LCA)

Средний

5 мин

4.1K

Блог компании ТензорPostgreSQL*SQL*Алгоритмы*Администрирование баз данных*

Туториал

В иерархических структурах регулярно возникает потребность определить ближайшего общего предка в дереве, он же наименьший общий предок (Lowest (Least) Common Ancestor).

Правда, "классические" алгоритмы для решения этой задачи работают лишь с парой узлов (раз, два, три, четыре), а мы, используя всю мощь PostgreSQL, будем решать задачу сразу для нескольких узлов.

Читать далее

+13

Kilor 31 июл 2023 в 18:06

Всегда ли хорош Index Only Scan?

Средний

5 мин

9.1K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Кейс

Среди применяемых в PostgreSQL методов доступа к данным Index Only Scan стоит особняком, считаясь у многих разработчиков "волшебной пилюлей" для ускорения работы запроса - мол, "Index Scan - плохо, Index Only Scan - хорошо, как только получим его в плане - все станет замечательно".

Как минимум, это утверждение неверно. Как максимум, при определенных условиях может вызвать проблемы чуть ли не на ровном месте.

Читать далее

+25

Kilor 25 мая 2023 в 09:25

Кэш в JavaScript: не все Map'ы одинаково полезны

Простой

2 мин

5.9K

Блог компании ТензорВысокая производительность*JavaScript*Программирование*Node.JS*

Кейс

При разработке приложений регулярно возникает задача кэширования каких-то данных, которые из хранилища должны читаться много чаще, чем писаться. Давайте рассмотрим на примере простого теста, когда и на каком механизме эффективнее организовать его для JavaScript-приложения - на Map или на Object.

Читать далее

+14

Kilor 11 мая 2023 в 17:40

SQL HowTo: замена в строке по набору

Простой

2 мин

4.2K

Блог компании ТензорНенормальное программирование*PostgreSQL*Программирование*SQL*

Туториал

Решим сегодня простую, казалось бы, задачу: как на PostgreSQL можно в строке провести замены по набору пар строк. То есть в исходной строке 'abcdaaabbbcccdcba' заменить, например, 'а' -> 'x', 'bb' -> 'y', 'ccc' -> 'z' и получить 'xbcdxxxybzdcbx'.

Фактически, мы попробуем создать аналог str_replace или strtr.

Читать далее

+9

Kilor 21 фев 2023 в 08:35

SQL HowTo: крупицы золота в реестре

Сложный

7 мин

8.7K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Алгоритмы*

Туториал

В большинстве учетных систем, типа нашего СБИС, рано или поздно возникает проблема быстрого отображения реестра, в который по просьбам бизнес‑пользователей накручено несколько комбинируемых фильтров с очень редкой выборкой, ну никак не ложащихся в вашу красивую структуру базы данных и индексов базовой таблицы реестра — что‑нибудь типа "список продаж покупателям, чей день рождения выпадает на 29 февраля".

Универсального способа сделать «хорошо» тут нет, но я расскажу про модель запроса, которая позволит вам дать пользователю быстрый отклик, но при этом весьма эффективно с точки зрения PostgreSQL.

Читать далее

+18

Kilor 19 янв 2023 в 15:31

Node.js: Клонирование ключей. Is eval() evil?

5 мин

3K

Блог компании ТензорВысокая производительность*JavaScript*Программирование*Node.JS*

Туториал

На примере простой задачи клонирования ключей объекта посмотрим, есть ли реальные альтернативы по производительности столь презираемой JavaScript-разработчиками функции eval().

Подобная задача возникает, если оригинальное значение ключа надо оставить у объекта, а как-то обработанное - положить рядом в новый соответствующий ключ. То есть, для начала, из {"a" : 1, "b" : 2} надо получить {"a" : 1, "a-copy" : 1, "b" : 2, "b-copy" : 2}.

Пару лет назад я уже рассказывал, почему максимальная производительность подобных операций на JavaScript важна для нашего сервиса потокового анализа логов PostgreSQL, как можно поускорять парсинг с помощью WebAssembly, и вот сегодня - продолжение.

Читать далее

+12

Kilor 13 янв 2023 в 15:40

PostgreSQL Antipatterns: Индиана Джонс и максимальное значение ключа, или В поисках «последних» записей

2 мин

9.9K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Туториал

Сегодняшняя задача вполне традиционна для любых учетных систем - поиск записей, содержащих максимальное значение по каждому из ключей. Что-то вроде "покажи мне последний заказ по каждому из клиентов", если переводить в прикладную область.

Кажется, что тут и споткнуться-то негде в реализации - но все оказывается совсем не тривиально.

Читать далее

+20

Kilor 26 дек 2022 в 10:25

PostgreSQL в «Тензоре» — публикации за год (#3)

3 мин

3.5K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Под занавес уходящего года предлагаю традиционно вспомнить, про какие интересные возможности и особенности работы с PostgreSQL мы рассказали в нашем блоге.

Если не видели дайджест за прошлый год — время наверстать упущенное!

Читать далее

+6

Kilor 8 дек 2022 в 16:25

DBA: хранение списков — таблица, массив, строка?

4 мин

13K

Блог компании ТензорPostgreSQL*SQL*Администрирование баз данных*ERP-системы*

Достаточно часто при проектировании схемы БД возникает задача сохранить по основной сущности некоторый набор простых второстепенных данных.

Например, это могут быть ФИО сотрудников, принимающих участие во встрече, список приложенных к сообщению файлов или перечень отгружаемых по документу позиций.

Во всех этих случаях мы заранее понимаем, что список этот меняется редко и ни индексировать эти данные, ни искать по ним, ни извлекать отдельно от основной сущности (встречи, сообщения или документа), мы не захотим.

Давайте посмотрим, какие варианты хранения таких данных мы можем использовать в PostgreSQL, и какой из них окажется в разы более эффективным.

Читать далее

+14

Kilor 1 дек 2022 в 16:16

PostgreSQL Antipatterns: простой(?) INSERT… VALUES

3 мин

16K

Блог компании ТензорВысокая производительность*PostgreSQL*SQL*Администрирование баз данных*

Представим, что у вас есть некоторая табличка статистики, куда вы периодически скидываете таймстамп последнего "текущего" состояния в паре координат - например, (ID организации, ID сотрудника).

Как больно наступить на грабли в совсем простом, казалось бы, запросе?

Читать далее

+35

1

2 3 ...