Pull to refresh

Comments 12

UFO just landed and posted this here
Авторы так и не раскрыли эту тайну до конца (на момент написания постмортема):

Мы продолжаем работать с ребятами из Google над поиском и устранением причины сбоев в ядре ОС на узлах.
Тоже поймали такую штуку как во второй истории, и так же фиксили.
Сервис на Django если вдруг кому пригодится.
Pod завершает работу только тогда, когда истекает период «изящного» ожидания и он убивается SIGKILL.


А что будет с активными запросами? Ingress-контроллер их перепошлет незаметно для «внешнего мира»? Или предполагается, что за это время их уже не будет?
У нас был кейс, аналогичный п.1. ТОлько там был aws и ClusterAutoscaler. ClusterAutoscaler навешивает taint на ноду перед тем, как её удалить (scale down cluster). И из-за сбоя, некоторое количество нод оказалось с тэйнтом. Поды съезжались на ноды без тэйнтов и благополучно их вешали, после чего ноды убивались, заказывались новые и итерация повторялась.

Хм, а почему поды загружали имеющиеся ноды по максимуму, а не cluster autoscaler создавал бы для них новые ноды? Автоскейлинг группа воркеров была уже на максимуме?

Ссылка на этот репозиторий указана во введении к статье от переводчика (второй абзац).
Извините сударь, что то не заметил.

"Изящное" выключение — очень интересный перевод. Я бы до такого не догадался. Звучит круто. Но по мне — это скорее "безопасное" выключение (аналогично "безопасному" извлечению USB-устройств). Все-таки русская терминология до сих пор хромает ((((

Согласен: перевод здесь не совсем привычный, но остановились на таком варианте конкретно в этом материале для сохранения авторского стиля/настроения*. Этот стиль начинается с заголовка «Grace is overrated» и картинки, которую мы не оставили в тексте:



А вот — лучшая иллюстрация красоты словесных оборотов в оригинале:

We’ve got pod disruption budgets coming out of our ears, our statefulsets are very stately, and rolling node replacements run without a hitch.
Sign up to leave a comment.