Как стать автором
Обновить

Комментарии 7

Спасибо! Очень занятно!
Про кафку причину я угадал (сервис дискавери через ENV).
Про ZK:


Однажды ночью намертво завис один из гипервизоров, на которых запущены виртуалки ZooKeeper’а.

Ну, е-мае, зачем все яйца в одну корзину складывать? Как вообще с этим боретесь (все члены кластера на одном гипере или все реплики сервиса на одной кубера)?


Ну, и КДПВ как всегда топчик )))

На самом деле яйца не в одной корзине: виртуалки зукипера на разных серверах, в кубах — pod anti-affinity. Но проблема с MTU, которую не отловили сразу, привела к полной недоступности ZK. В статье еще забыт момент о том, что в конфигах netplan был указан нужный MTU, однако он не применялся.
а можно немного деталей про перегрев процессора на баре-метал?
>> поочередный вывод узлов из кластера и координация наших действий с сотрудниками в ДЦ, меняющими кулеры
это какой то блейд был? и
к несчастью, нет. это были чудесные сервера одного немецкого дата-центра, который мы не будем называть.
то есть получается у них массово пошли на выход куллеры. мдя, красавцы они)
ну мы решили, что дело было в конкретном машинном зале, поскольку все железки в одной стойке, естественно точно нам никто не подтвердил. может быть кондиционер вышел из строя, может быть просто строительные работы или что-то такое рядом.

Про кафку есть вариант с отключением дискаверинга через env — enableServiceLinks.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий