Wimbo Nov 20 2019 at 11:12

3 истории сбоев Kubernetes в production: anti-affinity, graceful shutdown, webhook

8 min

14K

Флант corporate blogSystem administration*DevOps*Kubernetes*

Translation

+37

Comments 12

UFO just landed and posted this here

shurup Nov 20 2019 at 12:42

Авторы так и не раскрыли эту тайну до конца (на момент написания постмортема):

Мы продолжаем работать с ребятами из Google над поиском и устранением причины сбоев в ядре ОС на узлах.

Amet13 Nov 20 2019 at 15:10

Тоже поймали такую штуку как во второй истории, и так же фиксили.
Сервис на Django если вдруг кому пригодится.

maxim_ge Nov 20 2019 at 15:22

Pod завершает работу только тогда, когда истекает период «изящного» ожидания и он убивается SIGKILL.

А что будет с активными запросами? Ingress-контроллер их перепошлет незаметно для «внешнего мира»? Или предполагается, что за это время их уже не будет?

Stamm Nov 20 2019 at 20:10

Зависит от настроек, по дефолту еще 2 раза перепошлет запрос, если он идемпотетный (считай не POST).
Можно перенастроить https://kubernetes.github.io/ingress-nginx/user-guide/nginx-configuration/configmap/#proxy-next-upstream-tries

seasadm Nov 20 2019 at 18:11

У нас был кейс, аналогичный п.1. ТОлько там был aws и ClusterAutoscaler. ClusterAutoscaler навешивает taint на ноду перед тем, как её удалить (scale down cluster). И из-за сбоя, некоторое количество нод оказалось с тэйнтом. Поды съезжались на ноды без тэйнтов и благополучно их вешали, после чего ноды убивались, заказывались новые и итерация повторялась.

Eugene_Burachevskiy Nov 23 2019 at 17:20

Хм, а почему поды загружали имеющиеся ноды по максимуму, а не cluster autoscaler создавал бы для них новые ноды? Автоскейлинг группа воркеров была уже на максимуме?

iwram Nov 21 2019 at 03:28

Немного дежавю github.com/hjacobs/kubernetes-failure-stories

shurup Nov 21 2019 at 09:43

Ссылка на этот репозиторий указана во введении к статье от переводчика (второй абзац).

iwram Nov 21 2019 at 09:49

Извините сударь, что то не заметил.

gecube Nov 21 2019 at 10:41

"Изящное" выключение — очень интересный перевод. Я бы до такого не догадался. Звучит круто. Но по мне — это скорее "безопасное" выключение (аналогично "безопасному" извлечению USB-устройств). Все-таки русская терминология до сих пор хромает ((((

shurup Nov 21 2019 at 12:06

Согласен: перевод здесь не совсем привычный, но остановились на таком варианте конкретно в этом материале для сохранения авторского стиля/настроения*. Этот стиль начинается с заголовка «Grace is overrated» и картинки, которую мы не оставили в тексте:

А вот — лучшая иллюстрация красоты словесных оборотов в оригинале:

We’ve got pod disruption budgets coming out of our ears, our statefulsets are very stately, and rolling node replacements run without a hitch.