Comments / Profile of GMogilev / Habr

Григорий Могилёв @GMogilev

Инженер департамента вычислительных систем КРОК

Profile Publications 1Comments 9Bookmarks 2

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 5 2016 at 08:56

Stratus FT гарантирует отказоустойчивость и высокую производительность как при нормальной работе, так и при failover'е. Причем для подъема FT кластера нужно произвести минимум настроек, таким образом исключаем ошибку со стороны человека, настраивавшего систему. Отдельно отмечу дополнительные потери вычислительных ресурсов при использовании Soft FT кластера, у Stratus FT они минимальны. Где именно можно и нужно применять данное решение, написано в самом конце статьи.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 5 2016 at 08:55

Лицензия на Oracle действительно потребуется на один сервер, причем не нужно будет покупать дополнительную лицензию на кластеризацию. Данное правило работает и на все остальные поддерживаемые OS: Windows, Linux и ESXi.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 5 2016 at 08:55

При критичной ошибке выводит из работы и переключает роль Primary на здоровую половинку. Чтобы руками ввести в работу меченный компонент, потребуется скинуть счетчик MTBF.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 5 2016 at 08:54

Тут все зависит от типа расхождения, если оно критичное, то больная нода будет тут же выведена из строя с нотификацией на передней панели кластера, а админ и поддержка Stratus получат на почту алерт. Максимально подробно можно будет увидеть причину поломки и как система пыталась ее устранить в логах, зайдя на ftSys.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 5 2016 at 08:53

Не обязательно пользоваться SW генератором, HW также отлично будет работать. При работе кластера происходит полная синхронизация Secondary ноды с Primary.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 4 2016 at 13:47

Синхронизацией дисков занимается виртуальный драйвер, который видит диски в обоих половинках и объединяет их в пары (RAID1). Правила чтения и записи соответствуют обычному рэйду.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 4 2016 at 13:46

Замечено будет сразу. Lockstep проверяет каждый такт. Дальше в работу вступит Stratus Albireo, он выступает в роли арбитра, который и выбирает исправный компонент. Причем делает он это на основе большего количества параметров и цепочек событий (более 500). Как детально работает технология, сам Stratus к сожалению не раскрывает — информация закрытая по коммерческой тайне.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 4 2016 at 10:53

В первую очередь Stratus Albireo проверяет потоки данных на консистентность, получаемые с обоих половинок. Как только система поймет, что поправить ошибку нельзя, произойдёт переключение на исправную ноду.

Look

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

GMogilev Aug 4 2016 at 10:42

Если я правильно понял, вопрос заключатся в том, какое значение будет на второй ноде при выполнении операции чтения из /dev/random на первой ноде. На самом деле на второй ноде не происходит чтения из генератора случайных чисел. Вместо этого данные реплицируются с Primary ноды.

Look