it_man Oct 29 2014 at 09:56

Краш-тест облачной платформы высокой доступности

4 min

13K

MWS corporate blog

+11

Comments 31

foxnet Oct 29 2014 at 10:34

Было бы интересно еще увидеть реакцию на катастрофическое отключение и корректность восстановления работы после него.

Alexufo Oct 29 2014 at 11:49

Думал посмотрю как грузовик таранит датацентр.)

it_man Oct 29 2014 at 12:33

Это не на хабре :-)

UFO just landed and posted this here

it_man Oct 29 2014 at 18:26

Сделали еще один краш-тест. Результаты позже…

JDima Oct 29 2014 at 12:53

Поочередное отключение Inter Switch Link между коммутаторами Cisco Nexus 5548

А почему весь peer-link не погасили? Это ведь тоже единая точка отказа, так как единый логический интерфейс. Вы ведь, надеюсь, не забыли протянуть peer-keepalive link?

Что будет, если к примеру сбрендившая сетевая карта контроллера начнет слать броадкасты на скорости в 10G? Предусмотрели storm control на edge портах?

Допустим, кто-то повредит один из оптических линков (ну там стяжкой перетянули например, или загрязнили коннектор), и на нем начнут теряться пакеты (но линк не пропадет). Как на это отреагирует сервис?

Да и вообще, площадка по размеру детская какая-то.

it_man Oct 29 2014 at 16:24

Peer-keepalive link там есть. Можно протестировать обрыв обоих пир-линков и убедиться, что трафик ходит только через первый нексус. Спасибо за замечание.

В стенде еще 16 серверов Cisco UCS.

JDima Oct 29 2014 at 16:55

В стенде еще 16 серверов Cisco UCS.

Фигня какая-то, а не облако, честно говоря…

-1

it_man Oct 29 2014 at 17:02

А вы бы хотели, чтобы мы пятую по счету площадку запустили сразу на полную мощность? Для запуска этого вполне достаточно.

JDima Oct 29 2014 at 17:04

А масштабировать и сегментировать как планируете? И кстати — наружу как ходить? На том участке ведь тоже что-то может сломаться.

netvolart Oct 29 2014 at 17:59

Peer-keepalive link у них, наверно, через интерфейсы mgmt0 настроены. И они подключены в какую то отдельный менеджмент Vlan через отдельный switch. Просто на схеме это не показано.

JDima Oct 29 2014 at 18:10

Peer-keepalive link у них, наверно, через интерфейсы mgmt0 настроены. И они подключены в какую то отдельный менеджмент Vlan через отдельный switch.

Фишка в том, что те интерфейсы рекомендуется задействовать исключительно под keepalive-link (не под общий менеджмент), настроить на них сеть 1.1.1.0/24 (снова официальная рекомендация черным по белому) и соединять напрямую патч-кордом, без промежуточных свитчей. Этот линк должен быть настолько надежным, насколько это вообще возможно. Если умрут все агрегированные линки между свитчами, то те несчастные 8 медных жил будут способны превратить катастрофу с даунтаймом в небольшое падение пропускной способности сети.

netvolart Oct 29 2014 at 18:33

Согласен. Просто часто жалко бывает отдавать под Peer-keepalive link два 10G интерфейса, но надежно.

lumenous Oct 30 2014 at 09:33

Именно так там и сделано — прямой линк между двумя mgmt0 интерфейсами, адреса сразу на них. Без вланов, коммутаторов и прочего.

la0 Oct 29 2014 at 14:13

Интересно было бы притащить немного промышленных печек и погреть ДЦ.
А до кучи в этот момент в ДЦ еще и проводное электричество вырубить.
Вот это тест так тест.

Tyleesa Oct 29 2014 at 14:52

В таких тестированиях и схемах, я обычно задаюсь одним, наверняка дилетантским, вопросом: почему отключение отдельных узлов проверяется последовательно? Расчет на низкую вероятность одновременного сбоя в двух узлах-«коллегах»?

JDima Oct 29 2014 at 16:02

Именно так. Этот расчет зачастую ошибочен, так как для тех двух узлов обязательно (см. законы Мерфи) найдется нечто общее, способное положить оба разом.

Да и серьезные сбои оборудования чаще происходят не из-за «устройство отключилось», а из-за «устройству надо было отключиться, но оно НЕ отключилось». Допустим, любое из нарисованных в схеме устройств начнет терять половину пакетов, но полностью не отключится, т.е. нет триггера для быстрого автоматического переключения на резерв…

it_man Oct 29 2014 at 16:40

Если устройство начнет терять половину пакетов, наши системы мониторинга это сразу обнаружат. Далее проблему будут решать инженеры.

JDima Oct 29 2014 at 16:58

Если устройство начнет терять половину пакетов, наши системы мониторинга это сразу обнаружат.

Но потребуется ручное исправление проблемы. Т.е. время восстановления взлетает с секунд до минут или десятков минут.

А еще, в случае к примеру сбойного линка, на cut-through свитчах вроде N5K инженеры должны уметь локализовывать проблему, потому что в счетчиках show int дропы будут расти где угодно кроме того места, где пакеты бьются.

it_man Oct 29 2014 at 17:37

Вы не беспокойтесь, локализуют и исправят.

JDima Oct 29 2014 at 17:47

Так этот же подход работает и в случае «подключить всё к одному свитчу, а если умрет — быстро заменить».

И получается, что фраза «инфраструктура облачного провайдера действительно не имеет единой точки отказа» — преднамеренная ложь. Вы скрываете тот факт, что отказы бывают всякие, не только «отключилось питание на одном свитче», что скучно и неинтересно.

it_man Oct 29 2014 at 17:59

Так этот же подход работает и в случае «подключить всё к одному свитчу, а если умрет — быстро заменить».

Разочарую вас, подключить к одному свичу — это не подход.

И рассмотренная инфраструктура действительно отказоустойчива и надежна. Если у вас есть конкретные предложения по улучшению или какое-то новое инженерное решение, будем рады услышать.

А повеселить может только грузовик, таранящий датацентр. :-)

JDima Oct 29 2014 at 18:06

подключить к одному свичу — это не подход.

Почему не подход? Вполне подход. Зависит от требований к доступности и к времени восстановления. И что самое смешное — с большой вероятностью с тем свитчем ничего не случится в течение нескольких лет…

И рассмотренная инфраструктура действительно отказоустойчива и надежна.

Но утверждения о том, что она совершенно надежна и не имеет точек отказа — ложь. Предложения по повышению надежности? Ну например отказ от vPC, потому что это — единый management plane и повышенный риск положить одним багом оба свитча.

Fantod Oct 29 2014 at 18:11

Где все были, когда эти ребята собирали замечания к плану тестирования?
habrahabr.ru/post/234213/

it_man Oct 29 2014 at 17:38

Вероятность отказа всего и сразу равна вероятности конца света.

JDima Oct 29 2014 at 17:52

Любопытное утверждение. Вы исключаете возможность существования факторов, влияющих сразу на все задействованные в некоторой системе компоненты? Вот пример, способный разом грохнуть оба несуса (а так как конфиги vPC надо править через conf sync, огромное число багов может ударить сразу по двум устройствам). И вы исключаете существование пакета смерти, который пройдет через один свитч, вызовет его сбой, топология перестроится, и тот же пакет прикончит второй свитч с идентичными железом, софтом и конфигом? А я с таким пакетом сталкивался, он как-то положил мне два резервирующих друг друга ASR1k, было неприятно.

Я бы побоялся доверять что-то важное людям, которые то ли врут мне в лицо, то ли действительно некомпетентны.

lumenous Oct 30 2014 at 09:45

Я думаю никто здесь не отрицает, что вероятность таких факторов всегда и всегда присутствует. Я не представляю схемы резервирования, при которой будет стопроцентная отказоустойчивость, так как в самой системе отказоустойчивости всегда могут быть сбои, всегда где-то найдется один кабель, один блок питания, одна mng plane. Но для таких случаев есть SLA.
А вам, судя по всему, нравится через призму ретроспективы указывать на эксклюзивные баги, вызывающие сбои, с которыми вы лично раньше сталкивались, но, как видно из сообщений, заранее их вероятность никак не предусматривали.

JDima Oct 30 2014 at 10:04

Я думаю никто здесь не отрицает, что вероятность таких факторов всегда и всегда присутствует.

Так ведь ТС отрицает. Говорит, что вероятность наступления такого события равна вероятности конца света. Парой комментариев выше. И в самом топике заявляют, что нет у них ни одного SPOF. Так что же это — ложь или некомпетентность?

заранее их вероятность никак не предусматривали

Вероятность предусматривалась. Я знал, что когда друг друга резервируют два одинаковых устройства, то такое событие рано или поздно произойдет, но если от такого страховаться — существенно повысится сложность сопровождения, снизится штатная надежность, функционал, да и другие свои болячки появятся. И событие произошло. В итоге — около 10 минут даунтайма большой порции региональной сети на ровном месте посреди дня (один раз за много лет), именно столько времени оба резервирующих друг друга устройства лежали одновременно, но удалось угадать с воркараундом и предотвратить повторные падения. Да, это — серьезная проблема, но я продолжаю считать, что страховаться от такого события было нецелесообразно, та страховка только снизила бы надежность.

Но в любом случае получается, что два совершенно независимых с точки зрения control plane и management plane (т.е. ситуация лучше, чем на нексусах) устройства имели единую точку отказа в виде общего data plane (от этого вообще никуда не денешься) и одинаковой версии control plane с примерно одинаковой конфигурацией и одинаковыми багами.

The_Kf Oct 29 2014 at 16:36

Плохо размыли и не везде. Зачем вообще размывать? Закрашивайте плашками или удаляйте.

Fantod Oct 29 2014 at 16:39

И чем плашки хуже размытости? Так хоть структуру видно.

netvolart Oct 29 2014 at 18:39

А вообще ребята молодцы. Провели и описали хороший тест, основываясь на используемых технологиях резервирования. Адский нестандартный треш все равно заранее не предвидеть (Например глюки в NX-OS), но для этого у них есть специалисты.