grobbelaar Nov 16 2012 at 00:27

Переход на Percona XtraDB Cluster. Одна из возможных конфигураций

7 min

29K

MySQL*

+27

Comments 59

frol Nov 16 2012 at 01:40

Я правильно понимаю, что единственное отличие от Master-Slave заключается в том, что есть возможность быстрого перекючения ноды С в режим чтения-записи из режима только запись?
Пробовали ли вы такой случай расматривать:
1) Нода Б вылетела, нода С проработала сама час/сутки/двое/…
2) Нода Б вернулась
3) Произойдёт автоматическое восстановление? Есть несколько возможных проблем, например, если запись на ноду Б происходит не после того, как эта запись была добавлена на ноду А, то есть вероятность, что всплывут записи, о которых система не подозревала и начнутся проблемы индексов…

grobbelaar Nov 16 2012 at 01:44

В описанном вами случае произойдет автоматическое восстановление ноды Б, точнее синхронизация содержащихся в ней данных либо с одной из живых нод, либо с конкретной нодой, если мы укажем это в конфиге.
Пробовал, и неоднократно — все так и есть. Конечно, случались и некоторые глюки, часть из которых описана в статье.

grobbelaar Nov 16 2012 at 02:10

насчет возможной проблемы из п.3 я пока еще думаю, пытаюсь понять как это возможно

frol Nov 16 2012 at 02:17

1) INSERT/UPDATE… приходит на ноду Б
2) нода Б выполняет запись в БД и записывает изменения в лог, в соответствии с которым, остальные ноды в последствии накатывают изменения себе
3) пыщ-пыщ, нода Б вылетела, а лог никто не успел вычитать
4) прошло время и нода Б стартует, у неё в базе одно записано, а ей синхронизируют дубли по ИД
Этого можно избежать, если HAProxy будет запросы на запись слать всем серверам сразу самостоятельно или нода Б будет ждать подтвержения от ноды А о том, что данные она приняла и записала и только после этого записывать у себя, на ноде Б.

grobbelaar Nov 16 2012 at 02:32

Тут другая схема, ноды не ходят друг к другу в лог за изменениями. Каждая транзакция перед физическим локальным коммитом передается на все удаленные ноды. Вот схема: www.percona.com/doc/percona-xtradb-cluster/_images/XtraDBClusterUML1.png

frol Nov 16 2012 at 02:40

А, вот это меня и интересовало, спасибо.

icCE Nov 16 2012 at 08:44

Так percona синхронная репликация, проблем быть не должно.

icCE Nov 16 2012 at 08:49

>Мы намеренно решили использовать для LB и VIP те же железки, что и для кластера.

А можно как то более подробно?

Мне вот кажется логичным LB вынести не отдельные машины, которые будут заниматся балансировкой не только perona, но и например http трафика или чего-то еще.

grobbelaar Nov 16 2012 at 09:58

В идеале да. Но 2 отдельные машины — это все-таки 2 отдельные машины, их тоже нужно просить у руководства. Возможно, когда веб-серверы у нас тоже будут жить в кластере, озаботимся этим вопросом.

icCE Nov 16 2012 at 10:01

Я сейчас как раз озабочен, как правильно сделать кластер из web :)
Упирается все в нехватки знаний.
Хочется некое единое место хранение, где хранится контент, или думать как все это хозяйтсво синхронихировать, при выходе новой версии сайта.

ToSHiC Nov 16 2012 at 10:40

git, или банальные пакеты. Раскатывать тем же, чем рулите кластером (puppet, chef). Быстро, удобно, не зависит от количества серверов, легко делать prod-like среду для тестирования.

icCE Nov 16 2012 at 10:45

Да, но если кол-во серверов будет рости, с таким подходом будут определенные проблемы.
На текущий момент у нас git.

grobbelaar Nov 16 2012 at 14:08

Я тоже слежу за этой темой. Тут основная проблема в user-generated контент, где хранить его.
Решение чаще всего в кластерных ФС, но эта тема посложнее MySQL кластера будет )

icCE Nov 16 2012 at 14:22

Нормальное кластерная ФС, эта ocfs2. Ну или платные решения.
Есть еще распределенные ФС типа ceph и glusterfs, но они не кластырные :)

grobbelaar Nov 16 2012 at 14:25

ну и как, пробовали? годится для размазывания user-generated данных по серверам в синхронном режиме?

icCE Nov 16 2012 at 15:09

Пробывал что? если ocfs2, то мы используем для своих вещей. У ocfs2 есть асинхронный режим работы, но мы используем прямой доступ.

Если про ceph и gluster, то не использовал. Все у меня в стадии тетирования.
Хотя тут habrahabr.ru/post/157029/, человек использует glusterfs.

noma4i Nov 16 2012 at 02:54

От себя добавлю:
Мы перешли на перкона кластер с месяц назад. Переходили под чутким руководством саппорта. Платный саппорт оказался просто отличным.

grobbelaar Nov 16 2012 at 10:01

Спасибо, будем знать.

grobbelaar Nov 16 2012 at 13:30

А можно несколько вопросов?
1) большой у вас кластер?
2) пишите тоже на одну ноду в кластере?
3) для балансировки что используете?

noma4i Nov 18 2012 at 10:21

Завтра админа допрошу и в личку скину ответ.

unwrecker Nov 16 2012 at 08:33

Хорошая работа, раскрыто много нюансов.
А с проблемой временной рассинхронизации данных не столкнулись?
Вот тут описывал: habrahabr.ru/post/152969/#comment_5364691

icCE Nov 16 2012 at 08:52

>Почему рекомендуется писать на одну ноду из всех доступных в кластере? Ведь казалось бы, это противоречит идее мульти-мастер репликации.

Вы пишите на 1 ноду?

grobbelaar Nov 16 2012 at 10:00

именно

grobbelaar Nov 16 2012 at 10:04

кажется понял, это вопрос не ко мне )

unwrecker Nov 16 2012 at 10:50

Да. И при последующем чтении данные не успевают реплицироваться на другую.

grobbelaar Nov 16 2012 at 10:01

Нет, пока не натыкался. Попробую воспроизвести.

ToSHiC Nov 16 2012 at 09:35

А можете прокомментировать пункт 3 отсюда? Можно ли расположить ноды в разных сетях (потенциально — в разных дц)? Тестировали производительность при наличии некоторой небольшой задержки (единицы миллисекунд) в линках между нодами?

grobbelaar Nov 16 2012 at 13:35

1) падение по записи действительно есть, но на моих тестах все же не в 10 раз, как у автора, сейчас точно не могу сказать, продолжаю эксперименты, планирую покопаться в этом вопросе поглубже
2) не вижу проблем в размещении в другом ДЦ
3) пока нет, не думаю что для нас узким местом станет сеть, вернее думаю мы найдем по пути много других граблей, пока дойдем до сети

ToSHiC Nov 16 2012 at 14:15

Ой, простите, пункт 2 конечно же интересовал, в контексте разных ДЦ. Последний мой вопрос — туда же, т.е. на сколько деградирует синхронная запись при увеличении задержки канала между нодами. Есть ощущение, что именно это может стать узким местом.

grobbelaar Nov 16 2012 at 14:18

Ну в случае с разными ДЦ канал наверняка станет узким местом №1.
Я, кстати, тоже в ближайшее время буду пробовать это, просто ради интереса. Отпишусь.

akalend Nov 16 2012 at 12:03

а mysql_proxy не рассмотривали в качестве балансировщика?

grobbelaar Nov 16 2012 at 12:05

Поначалу приглядывался, но когда понял что HAProxy умеет гораздо больше, рассматривать перестал.

akalend Nov 16 2012 at 18:01

принято, спасибо
пригляжусь к HAProxy

UFO just landed and posted this here

grobbelaar Nov 16 2012 at 18:59

Я в очередь из читателей! )

Уточнение: а что, вы ALTER TABLE в транзакции оборачиваете? или я неправильно понял?
Мне кажется одиночный ALTER на большой таблице при потере ноды HAProxy уже никуда не будет перенаправлять.

Какой вам видится чекалка консистентности, в каком виде?

UFO just landed and posted this here

grobbelaar Nov 16 2012 at 22:59

Кстати, вчера вышел новый релиз Percona Xtradb Cluster:
www.mysqlperformanceblog.com/2012/11/15/announcing-percona-xtradb-cluster-5-5-28-23-7/

icCE Nov 19 2012 at 10:09

Кстати, человек которому дал статью, обратил внимание, что нету примера конфигурации keepalived. Человеку помог настроить, но все же можно было бы добавить в статью?

icCE Nov 19 2012 at 14:24

поправте keepalived

Убежала v

>rrp_script chk_haproxy {
vrrp_script chk_haproxy {

grobbelaar Nov 19 2012 at 14:26

поправил, спасибо

icCE Nov 19 2012 at 16:11

Еще кстати вопрос.

>vrrp_instance VI_1 {
> interface eth0
> state MASTER
>

Это можно проигнорировать, но не лучше ли на другой машине указать backup :?
Хотя по сути, это не принцепиально.

icCE Dec 12 2012 at 14:41

У меня тут вопрос возник. Тут вы указываете, что node a знает о всех нодах.
node b,c знает только о node a.

те если упадет node a, то все встало? в чем смысл? (ну кроме как распределить нагрузку)

grobbelaar Dec 12 2012 at 14:59

Присоединившись к кластеру, используя любую из уже существующих нод, присоединяемая нода (JOINER) «узнает» обо всех нодах в кластере, а не только о DONOR-е. Это очень легко можно проверить, почитав error_log на JOINER-e.

В описанной здесь конфигурации проблемное место в том, что если упадет А, потом B и C, то все встанет, пока мы не поднимем A. На самом деле я уже почти отказался от схемы с Reference Node, когда всего 3 ноды в кластере, снимать нагрузку полностью с одного из узлов слишком расточительно. Кстати, мы еще не запустили PXC в продакшен, планирую скоро продолжить цикл статей о том, на какие грабли наступили и как преодолели.

icCE Dec 12 2012 at 15:17

> На самом деле я уже почти отказался от схемы с Reference Node, когда всего 3 ноды в кластере
И что выбрали?

у меня на PXC просто время появилось поковырять. Три машины уже поднял. Буду дальше
Использую в качестве точки взлета статью www.percona.com/doc/percona-xtradb-cluster/howtos/3nodesec2.html
Там как раз используются все 3 узла.

Цикл ждем. По крайне мере я точно жду :)

grobbelaar Dec 12 2012 at 15:29

Остановился на том, что все 3 ноды доступны на чтение, а запись только на одну, рулит этим HAProxy.

В статье, что вы взяли за точку взлета указан только самый минимум действий, чтобы получить работающий кластер. А вот дальше пойдут ньюансы, и вот тут уже дойдете до статей на mysqlperfomanceblog, благо там они есть.

Рад что у вас появилось время на PXC, надеюсь что будет возможность поделиться мнениями.

icCE Dec 12 2012 at 15:34

Ну я пока что пришел к этой же схеме.

HAProxy раскидывает чтение по кластеру, запись на 1 из кластеров. Если он падает, пишем в другой.

Правда я HAProxy сделал на отдельных двух машинах с 4 ip адресами.

dovecot Jan 26 2013 at 23:27

Сам по себе haproxy распарсивать запросы чтение/запись не умеет. У Вас приложение умеет обращаться на чтение/запись к разным серверам, или Вы вносили изменения в код и для указывали разные сервера для разных запросов.

UFO just landed and posted this here

dovecot Jan 27 2013 at 00:32

Это понятно, но в таком случае веб-движок должен отправлять запросы на чтение на порт 3306 (например), а на запись на 3307?

UFO just landed and posted this here

icCE Jan 28 2013 at 16:27

Кстати, а не подскажете или может быть ткнуть что почитать.

keepalived на одной машине с HAproxy, keepalived поднят виртуальный интерфейс, но запросы на percona с haproxy приходят с реальных ip, что не совсем хорошо.

Может быть есть способ как то сказать haproxy отправлять ip виртуальный на percona?

icCE Jan 28 2013 at 16:16

От себя добавлю, мы ушли от этого. Все как то и так прекрасно работает.

akalend Dec 14 2012 at 16:58

> возможность коммерческой поддержки от Percona
используете?
а чем не устраивает коммерческая поддержка от Oracle?

grobbelaar Dec 14 2012 at 17:31

пока не пользуемся
как только поймем, что готовы запустить кластер в продакшен, скорее всего закажем поддержку
от руководства принципиальное согласие получено

у Oracle нет версии mysql сервера с wsrep-хуками и поддержкой Galera

А вообще я лично никакой платной поддержки продуктов такого уровня не пробовал, не с чем сравнить.
Будет первый опыт, если повезет.