Comments

… к слову о централизации интернета.


Когда одна компания контроллирует львиную долю траффика — даже без злого умысла одна такая ошибка кладёт кучу сайтов.


И странно что их архитектура не отрабатывает автоматически разрыв связи между ДЦ и перераспределение нагрузки.

Статья оставляет ощущение, что всё висит на соплях и не очень квалифицированных дежурных инженерах.


Интересно, сколько сотен гигабит маршрутизировал неверно настроенный агрегат?

Видать, те же проблемы, что и у Боинга — наняли индусов с сертификатами?

Отдельные случаи, пусть даже неприятные — не показатель общего уровня. В очень сложной системе это почти неизбежно, по крайней если систему создали люди и пока они ей управляют.


Это примерно как с водителем автобуса — он может много лет ездить плавно и быть вежливым (и об этом никто слова не скажет), но стоит ему всего один раз (за все эти годы) резко затормозить или кому-то нагрубить — сразу начнутся разговоры в духе "совсем водители автобусов охренели", а о годах плавных вежливых поездок вспомнят разве что единицы.

Только у Cloudflare это уже третий случай падения за прошедший год.
Правда до этого у них 6 лет всё нормально работало (как они сами заявляют во время первого падения в июле 2019).

Три случая аж за год, да ещё при их масштабах… И это с учётом того что многие пользуются их услугами совершенно бесплатно — это, безусловно, ужасно плохой сервис, никто больше никогда такого у себя не допускает (наверное).

«Ничто так не поднимает боевой дух солдата, как вид его товарища, севшего в калошу».

BGP… Протокол динамической маршрутизации…
Он должен динамически перестроить маршруты, а не ждать когда инженер(?) с левым конфигом сломает интернет.

BGP настраивается вручную с помощью правил и сетевых политик, их задают сетевые администраторы. Они задают, например, номер автономной системы и как найти соседние автономные системы и их номера. Нет какого-то единого центра, который раздает топологию Интернета всем остальным. Отсюда вывод: сбои в Интернете были, есть и будут происходить и дальше.

BGP настраивается и он работает. Канал отрубился и BGP перестраивает маршруты. Так? С этим спорить не будете?
Зачем лезть куда-то с кривыми конфигами, если правильно настроенный BGP должен сам отработать отваливание канала!?

У них в блоге совсем недавно была новость об открытии многих новых ДЦ в новых странах. Так что я предполагаю, никто не успел допилить конфиг до нужного состояния после масштабирования...

Смотрите: канал отвалился между Ньюарком и Чикаго. Нагрузка автоматически перераспределилась между Атлантой и Вашингтоном. Всё замечательно.
Но администратор видит, что датацентр в Атланте не справляется с возросшей нагрузкой, BGP этого не понимает, поскольку маршрут всё таки есть. Человек переписывает правила BGP, чтобы снизить эту нагрузку и делает ошибку в командах. Может, не те строки скопировал из инструкции, абзацем ошибся. И всё, теперь BGP работает неправильно.

Старая шутка: на то он и отказоустойчивый кластер, чтобы падать:)

Забавно, столько сервисов недоступных перечислено и ни слова про 1.1.1.1, недоступность которого просто убила доступность всего остального «живого» интернета. Лично у меня оно просто перестало даже отвечать на пинги, при этом проверил с рабочего ПК (хотя провайдер тот же по сути) — там оно было доступно.

Такие косяки просто недопустимы когда ты «замкнул» на себе половину интернета.
Гораздо интереснее, что аналогичным образом себя вел днс от гугла, который 8.8.8.8. Причем мой местный провайдерский тоже лег, с теми же симптомами — выдавал таймаут на бОльшую часть запросов и всё. Единственный, кто работал — днс от яндекса (но они, видимо, просто не успели обновить?)

И вот у меня вопрос: ладно, «исчезли» все, кто пользовался сервисами Cloudflare — это понятно и объяснимо, они или пользовались их днс или сидели за серверами, которые пользовались их днс. Но! Почему mail.ru не резолвился? Они же типа тут, местные.
DNS от Yandex тоже не работал, как раз dig'ал в этот момент все, что помнил, пытаясь найти рабочие.
Ну, значит мне повезло — я 77.88.8.8 использовал пока сбой шел, всё нужное — работало

Справедливости ради, это выбор каждого — использовать 1.1.1.1 (а также остальные сервисы) или нет, никто насильно не заставляет, недоступность ресурсов которые через них проксируются — косяк не только Cloudflare но также и владельцев ресурсов.


Хочется HA — не стоит расчитывать на одного провайдера независимо от его крутизны и обещаний, у меня по умолчанию стоит ещё и 8.8.8.8 — и всё работало (теперь, наверное, ещё кого-то добавлю).


Что интересно — на пинги 1.1.1.1 таки отвечал, только вот время ответа было сначала ~130ms и чуть позже ~380ms (с потерями около 50%) вместо обычных 15ms, я сначала подумал что таки накрыло их мощнейшей DoS...

Cloudflare заявила, что сожалеет об этом неумышленном сбое.

Работаю в сетевой компании и когда происходят какие-то аварии, потребители само собой начинают звонить диспетчеру, так вот не было ни одной(со слов диспетчеров) серьезной аварии, чтобы кто-нибудь из звонивших не сказал «вы должны были нас заранее предупредить что сегодня авария будет».

Изменения в конфигурации конечно же шли через патч в гите с автоматическим апдейтом после мержа и конечно патч сначала ревьюил кто-то еще.
Если все так, то волноваться нечего.)

UFO landed and left these words here
Only those users with full accounts are able to leave comments. Log in, please.