Hacker13ua Mar 13 2015 at 18:07

Очень большой Postgres

9 min

85K

PostgreSQL*

From sandbox

+48

Comments 28

velvetcat Mar 13 2015 at 18:51

Интересно было бы посмотреть на результат теста с джойном таблиц, целиком расположенных на разных нодах, или с джойном таблиц, размазанных по нескольким нодам.

+12

Hacker13ua Mar 13 2015 at 21:22

Добавил пример с объединением размазанных таблиц. А разносить таблицы по разным узлам, чтоб потом их потом сджойнить смысла не вижу.

velvetcat Mar 13 2015 at 23:53

Собственно, если бы в статье не было утверждения

Для клиента, который подключается в базе, нет никакой разницы, работает он с единственным инстансом PostgreSQL или с кластером Postgres-XL

, то я бы не так настаивал :)

А разносить таблицы по разным узлам, чтоб потом их потом сджойнить смысла не вижу

Это не совсем корректный тезиз. Вы нормализовывали базу как раз для того, чтобы потом можно было собирать данные любым необходимым образом. Более того, по Вашей логике, вынести на отдельный сервер можно только таблицу, на которую гарантированно никто не ссылается. А это либо странно для реляционной БД, либо это логически самостоятельное хранилище и тогда его спокойно можно подключить из приложения.

Так что вопрос остается открытым.

Hacker13ua Mar 14 2015 at 00:13

Завтра попробую — обязательно отпишусь о результатах.
Не могу придумать ситуацию в которой нужно было чтоб логически связанные таблицы находились на разных серверах. Имеет смысл или размазывать все таблицы или часть из них, а часть реплицировать.

VolCh Mar 15 2015 at 11:46

Все таблицы логически связаны, например через таблицу пользователей.

Hacker13ua Mar 14 2015 at 19:19

Результат для джойна таблиц с разных узлов такой же, как и для распределенных. Ожидал несколько худшего результата, может что-то не учел в процессе тестирования

kinguru Mar 14 2015 at 19:47

Вы писали, что это горизонтальное масштабирование. Что-то его у вас мало в статье )
Обычной репликацией удивить сложно.

dcheklov Feb 12 2016 at 14:06

Шардирование — и есть горизонтальное масштабирование. Репликация в статье приводится для общего обзора. Читайте внимательнее)

dezconnect Mar 13 2015 at 21:09

Больше интересно когда они уже ядро то актуализируют до 9.3 хотябы =) а так отличное решение…

igor_suhorukov Mar 13 2015 at 22:46

Postgres-XC, GridSQL, Stado, StormDB, Postgres-XL настоящий зверинец!!!)))

Вообще уважаю проект Postgres! Это моя первая БД в коммерческой разработке ПО, гибкость, конфигурируемость, огромное число модулей, технологий и огромное комьюнити

igor_suhorukov Mar 13 2015 at 22:51

Вроде бы предком проекта был Postgres-XC

Global Transaction Manager(GTM) and some of coordinator are equipped with Infiniband connection to be used when Gigabit network is not sufficient(стр. 24)

Nastradamus Mar 14 2015 at 03:18

Интересно узнать число запросов в секунду на изменение у автора. По моему опыту, для большинства больших проектов хватает связки: 1 мастер + много слэйвов на чтение (pgbouncer + haproxy + ospf).

Nastradamus Mar 14 2015 at 17:07

Я к тому, что у меня в «хозяйстве» есть кластер, у которого постоянных 6к транзакций в секунду. При этом, примерно 400 туплей в секунду пишется на мастер. Это 4 сервера, по 8 ядер на каждом, 64 ГБ оперативки и хорошие Intel SSD в зеркале (400 ГБ dataset на каждой ноде).

Интересна статистика автора.

muxx Mar 21 2015 at 22:29

Мастер + слейв спасают от большой нагрузки, но не от больших данных. Тут и приходит шардинг на Postgres-XL, как я понимаю.

Nastradamus Mar 21 2015 at 22:37

Как-то невнятно оно выглядит. Мне больше нравится шардинг при помощи PL/Proxy. Но тут надо уметь на pl/sql правильно писать, чтобы соблюсти ACID. Но в таком случае, всё происходящее будет прозрачно для разработчиков и админов. Ну и к версии 9.2 нет привязки.

guyfawkes Mar 14 2015 at 09:38

Подскажите, верно ли я понимаю, что у постгреса или какого-то его расширения есть функциональность, которая позволяет выбрать по некоторому условию данных из таблицы, которая «размазана» по разным узлам?

lesovsky Mar 14 2015 at 12:51

веселье начинается с момента когда отвалилась нода с данными и надо ее вернуть на место.

Nastradamus Mar 14 2015 at 17:03

ноды с данными нужно реплицировать же :)

lesovsky Mar 14 2015 at 19:42

Про какую репликацию вы говорите? Репликацию таблиц в XL/XC или нативную потоковую репликацию что изначально есть в постгресе?
Если про первое, то имхо это вобще сомнительная идея (с точки зрения производительности) держать копию таблицы на всех узлах кластера. Если про второе (подпирать каждую датаноду своим стендбаем), то тут репликация совсем не гарантирует консистентность (т.к. нет нативного мониторинга отвалов нод и авто-файловеров) особенно при шардинге таблиц.

Nastradamus Mar 14 2015 at 20:34

Я про второе. Авто-фэйловер и мониторинг в любом случае самому писать нужно для конкретного случая.

Nastradamus Mar 14 2015 at 17:16

Автор приводит в пример в качестве балансировщика нагрузки pgpool-II. В связи с этим, у меня возникают сомнения в том, что автор видел большой highload в PostgreSQL. По моему опыту, эта программа (pgpool-ii) перестаёт нормально работать уже на 100 транзакциях в секунду: просто тормозит, жрёт процессор и плохо реагирует на сигналы. Например, при такой нагрузке, рестарт pgpool-ii приходилось делать с помощью kill -9. Уверяю, pgpool-ii был максимально затюнен под нужную производительность.

Hacker13ua Mar 14 2015 at 18:43

А Вы давно pgpool пользовали? Спрашиваю потому что, в продакшине используем именно его и никаких нареканий не было (нагрузка 1000 tps). Я так понимаю, что в качестве альтернативы Вы предлагаете pgbouncer и haproxy?

Nastradamus Mar 14 2015 at 20:25

У меня есть базюлька, где он и сейчас раскидывает читающие запросы на слэйвы, а пишущие на мастер. Дистрибутив где-то годовалой свежести.

Разговаривал на конференции по постгресу в яндексе с человеком, который работает в крупном интеграторе (коммитеры в postgres): он тоже говорит, что pgpool — ужасная программа, и они тоже используют pgbouncer + haproxy.

grossws Mar 14 2015 at 23:11

Если уж это решение горизонтально масштабируемое, то интересно:
— как оно ведет себя при добавлении узлов (при никуда не пропадающей нагрузке на запись);
— есть ли decommissioning координаторов и узлов с данными;
— есть ли ребалансировка шард при изменении количества узлов (ручная или автоматическая)?

Кроме того, исходя из статьи возможности крутить фактор репликации нет, что выглядит в общем случае странно, если надо масштабироваться на более чем 3 узла.

javist Apr 28 2015 at 21:42

Спасибо за пост, очень интересно.
А есть данные как себя ведет Postgres-XL при работе в разных сетях (разных ЦОДах, разных стран) или он обязательно в одной локальной сети должен быть?

У нас например, в проекте (Cackle) используется потоковая репликация в разные дата-центры (http://habrahabr.ru/company/cackle/blog/255013/), но есть проблема слишком быстрого роста данных и в этом варианте Postgres-XL, как раз то, что надо, но интересно как он ведет себя в разных сетях, разных стран.

Hacker13ua Apr 29 2015 at 09:52

Нет, геораспределенные топологии не поддерживаются. Может имеет смысл посмотреть в сторону TransLattice Elastic Database (TED)

akalend Nov 15 2022 at 10:54

Интересно, почему не взлетел такой перспективный проект и давно заброшен?

x-wao Dec 29 2022 at 13:47

Очень сложный. Трудоемко поддерживать и особенно мёрждить новые изменения из апстрима постгреса.

Show the best of all time