nikiasi Sep 17 2013 at 14:57

Fault tolerance: как предоставлять надежный сервис в случае сбоя оборудования

7 min

13K

VK corporate blogProgramming*

+49

Comments 20

Porfel Sep 17 2013 at 16:03

А сие чудо (капрон) — это часть tarantool или существует в отдельном виде? Opensource? Хотелось-бы посмотреть на нее в контексте балансировки MySQL.

nikiasi Sep 17 2013 at 16:22

Это отдельное приложение. Не опенсорс. Возможно, когда-нибудь вынесем в опенсорс, но пока там внутри слишком много нашей внутримейлрушной бизнес-логики. Балансировка MySQL пока не поддерживается.

SmartT Sep 17 2013 at 16:32

А как вы определяете доступность сервера?

nikiasi Sep 17 2013 at 16:40

Успел или нет сервер уложиться в таймаут.

eXTreMeHawk Sep 18 2013 at 10:05

Недостаток такой архитектуры — наличие единой точки отказа в виде лоад бэлэнсера, который у вас называется Капроном. Если упадет Капрон, упадет вся система. Вероятность, что упадет сервер с Капроном, грубо говоря, такая же, что и вероятность, что упадет один из слейвов. Или я не понял и у каждого веб сервера свой собственный Капрон?

nikiasi Sep 18 2013 at 11:55

Да, у каждого сервера запущен свой процесс Капрона. Это локальная прокся.

eXTreMeHawk Sep 18 2013 at 13:20

Тогда понятно.

А данные (каждого пользователя, например) хранятся всегда только на одном сервере или дублируются на N серверов для надёжности?

nikiasi Sep 18 2013 at 13:32

Все данные дублируются минимум на двух серверах (мастер и реплика).

eXTreMeHawk Sep 18 2013 at 14:30

Если в результате какого-то сбоя данные на мастере будут отличаться от тех же данных на слейве, восстановление консистентности будет происходить в автоматическом режиме (и если да, то как?) или это надо будет делать вручную?

nikiasi Sep 18 2013 at 14:57

Синхронизация данных выполняется автоматически на стороне тарантула. Каждое состояние базы данных имеет свой числовой идентификатор. При изменении состояния идентификатор инкрементируется. На реплике крутится процесс синхронизации, который запрашивает и применяет к своей копии данных все изменения, произошедшие с мастером (изменения применяются последовательно, при этом наследуется идентификатор состояния).
В случае сетевых или других проблем синхронизация может произойти позднее, но в конце концов обязательно происходит.

nhekfqn Sep 18 2013 at 14:25

Выставляем таймаут на обработку 1 секунду, а сетевой таймаут в Капроне — 2 секунды.

Что если мастер применит апдейт, но ответ веб-серверу дойдет позже, чем 2 секунды (лаг сети, gc)?

ждем от разработчиков Тарантула синхронную мастер-мастер-репликацию

Я правильно понял, что ответ веб-серверу не возвращается, пока изменение не применено на обоих мастерах? Тогда для отказа системы достаточно падения линка между мастерами. Как планируете обрабатывать такую ситуацию?

nikiasi Sep 18 2013 at 15:24

Что если мастер применит апдейт, но ответ веб-серверу дойдет позже, чем 2 секунды (лаг сети, gc)?

В этом случае мы ответим клиенту, что не смогли применить изменения, хотя на самом деле их применили.
Вводя ограничения на время обработки команды, мы не избавляемся на сто процентов от подобных ситуаций, но сильно уменьшаем вероятность их возникновения.

По поводу синхронной мастер-мастер-репликации. Смысл подобной репликации в другом. Сейчас все запросы делаются в мастер (чтобы избежать рассогласованности данных). Даже на чтение. Синхронная репликация позволит делать запросы в любую из мастер-копий данных, выравнивая тем самым нагрузку на каждый из них. Т.к. разные мастера будут стоять в разных дата-центрах, то можно будет не ходить за данными за тридевять земель.
В случае поломки линка между ДЦ, не будут работать команды на модификацию, это правда. Но линки между ДЦ ломаются очень редко и за их здоровьем очень следят.

nhekfqn Sep 18 2013 at 22:26

Синхронная репликация позволит делать запросы в любую из мастер-копий данных, выравнивая тем самым нагрузку на каждый из них. Т.к. разные мастера будут стоять в разных дата-центрах, то можно будет не ходить за данными за тридевять земель.

Т.е. вы оптимизируете чтение (можно читать из ближайшего мастера) ценой удорожания записи — любая запись не быстрее, чем запись в дальний мастер, на самом деле еще медленее, ведь нужно сходить в ближайший мастер, оттуда во второй и потом весь путь обратно?

Не очень понял за счет чего уменьшается нагрузка, ведь каждая запись должна быть сделана в каждый мастер?

nikiasi Sep 19 2013 at 01:03

Если операций чтения сильно больше операций записи, оптимизация чтения за счет удорожания записи оправдана.

В текущей схеме все операции чтения идут на мастер, а реплика простаивает. Операции записи производятся и на мастере, и на реплике, просто на реплику они доезжают с задержкой.
В случае синхронной репликации чтение можно будет производить с любого сервера и нагрузка от чтения поделится между ними поровну. Запись будет по-прежнему производиться на обоих серверах, но уже синхронно. Это увеличит время, затрачиваемое на запись (из-за необходимости дожидаться, пока изменения доедут до второго сервера), но лишнюю нагрузку это создать не должно.

Получается, что нагрузка падает с (w + r) до (w + 0.5r) на первом сервере, и возрастает с (w) до (w + 0.5r) на втором. В целом максимальная нагрузка, которую сможет выдержать кластер, возрастает практически вдвое.

Если же хранилище практически write-only, то такая схема уже не работает. Это да. Ну так ее никто и не будет использовать для таких хранилищ.

nhekfqn Sep 19 2013 at 13:06

Хотел еще спросить в чем преимущество такой схемы перед синхронной мастер-слэйв репликации, но понял сам — можно ходить по более оптимальному маршруту для записи. Если до мастера А ближе, чем до В, мы идем С-А-В-А-С, где С — клиент кластера, вместо С-В-А-В-С, если бы В был единственным мастером.

nikiasi Sep 19 2013 at 17:25

Да, вы правы. Плюс не нужно разделять запросы на пишущие и читающие. Всегда идешь в любой из серверов и не паришься, мастер это или реплика.

sic Sep 19 2013 at 16:18

А что происходит, ежели при записи на одну из реплик, по какой-либо из причин запись «не пройдет» (и в то же время, на мастере будет успешно выполнена)?

nikiasi Sep 19 2013 at 17:35

Клиент пишет только в один из серверов. Дальнейшей репликацией занимается сам Тарантул. В зависимости от политики (синхронная или асинхронная репликация) ответ на запрос клиент получит сразу или после успешной синхронизации мастеров.

Если репликация не пройдет, в синхронном случае клиенту вернется ошибка, а в асинхронном случае попытки синхронизации будут продолжаться до победного конца.

sic Sep 19 2013 at 17:42

Спасибо.

Получается, в асинхронном случае, возможно временная рассогласованность данных; когда мастер еще не успел перелить апдейты на реплики, однако сказал клиенту, что изменения сохранены, а потом «умер». Мы лезем на реплику и зачитываем еще не обновленные («старые») варианты данных, а клиент думает, что они уже обновлены. Или все-таки это не так критично в данном случае?

nikiasi Sep 19 2013 at 21:28

Да, в асинхронном случае реплика может немного отставать. Именно поэтому все запросы (и на чтение, и на запись) делаются на мастере. Реплика используется только в случае физического выхода из сторя сервера с мастером.