Pull to refresh

Comments 27

Прослеживается тенденция — крупные веб-сервисы падают из-за проблем с сетевыми настройками. Что Яндекс, что Амазон — примерно одна и та же история.
Может быть, это переходящий админ зла ходит по крупным сервисам и портит им настройки? :)
Чорный Админ? Он ходит из компании в компанию и портит им настройки.
На собеседовании:
— Где вы раньше работали?
— Во многих крупных компаниях, Яндекс, Амазон.
— О, это здорово, мы берём вас.
*зловещий хохот*
«индусы» с кучей сертификатов по циски/джунипер.
Можно им только позавидовать. На порядок более сложные вещи, как-то производительность, масштабируемость, конфигурируемость, бэкапы реализованы отлично, остаются такие мелочи как сетевые настройки.
(с) От всего не упасешься :) За то теперь исправят корявое место
Я думаю не спали там не только админы, но архитекторы этой системы.
Деньги вернули одновременно с публикации сообщения.

У нас правда ещё одна жалоба к ним, или просьба — в следствии экстренного переезда из «зоны бедствия» в другую — потеряли деньги на зарезервированных инстансах, за которые недавно внесли плату. Попросили их перенести в другую зону. Вроде как сказали, что решат.
Да уж, а вы все «Клодо упал, клодо упал» :)
Клодо за текущий год падал уже как минимум 2 раза разными способами. Амазон пока, кажется, в первый раз.
UFO just landed and posted this here
Ну так «большому кораблю — большая торпеда» :(
Вольнодумающтй такой трафик получился.
— Джон, интерфейс для трафика en0 или en1?
— Не знаю, Фил, попробуй en1.
Прямо теория катастроф… Система расшатывается из-за небольшого изменения параметров.
Я думаю это просто DMZ-раздолбайство.
Это когда в интранете нет параноидальных админов.
10 дней пользования инстансом это одно, а как насчет убытков за 2 дня простоя? Сомневаюсь что речь идет про эквивалентные суммы.
Эффект бабочки. Одна система, пытаясь выжить начинает тянуть ко дну другую, другая третью и все рушится в одночасье…

Мне кажется у них сделана грамотная система резервирования и подстраховки для каждой системы в отдельности, но нет какой-то общей мониторинговой тулзы, которая бы отслеживала такие изменения в структуре и давала бы алерт как сотрудникам, так и сама бы пыталась остановить стихию. Видимо это и хотел сказать Амазон в своей итоговой фразе.
Чем-то напомнило Саяно-Шушенскую ГЭС…
По стилю читается как хроника Чернобыльской аварии
Строго говоря ничего нового, по крайней мере для опытных.
Очередное подтверждение аксиом, что никакие вложенные деньги, никакие умные головы в штате и правильная архитектура, никакое отстутствие single point of failure в конструкции, не гарантирует абсолютную надежность системы в целом.

И еще одно подтверждение тому, что человек в таки системах — самое слабое звено, а человеческая ошибка — наиболее частая причина аварии.
Хоть сейчас все интернеты и кроют амазон на чём свет стоит, я всё же считаю, что не ошибаются только боги. И эти 2 дня оффтайма в итоге всем пойдут на пользу. И амазон пересмотрит многое в своей работе (хотелось бы конечно, чтобы ещё и на деньги влетел, дабы не был настолько самоуверенным) и станет стабильнее (особенно EBS), да и юзеры поймут, что амазон — не панацея для фэйловера и не стоит намертво привязываться к структуре конкретного облака.
«некая недосказанность относительно первоначального сбоя, то есть какая именно была ошибка в сетевых настройках, об этом ничего не сказано»
Это как? :) Они-же честно сказали что именно переадресация в вторичную сеть всё и сломала. Или народ требует конкретных портов на цисках?

Если уж и жаловаться на что, так это на отсутствие своевременных и полезных сообщений о том, что там происходило во время аварии. Вот тут, например народ жаловался на то, что сообщения были не техническими и полезными, а из серии «Ну вот упало, но пока мы всё ещё в пределах разрешённого даунтайма согласно соглашению на обслуживание, так что не психуйте».
Sign up to leave a comment.

Articles