ETegro_Technologies 12 ноя 2012 в 16:55

Падения облаков

3 мин

4.7K

В рамках подготовки к анонсу ETegro Therascale, нашего нового комплексного решения для ЦОД, ориентированных на облачные сервисы (мы постараемся о нем рассказать подробно в самое ближайшее время) мы заинтересовались таким моментом, как случаи падения крупнейших облачных сервисов. Итоговый набор информации показался нам настолько интересным, что мы решили поделиться им с вами. Никаких открытий и секретов в нем нет, более того, список не претендует на максимальную полноту, но, возможно, заставит задуматься об облачных сервисах.

Начнем мы, правда, далеко не с крупнейшего, но хорошо известного Хабралюдям Selectel. Вечером 24 сентября у них из-за проблем с коммуникаторами начался комплексный сбой, длившийся 11 часов. Мы не будем приводить подробности – они отлично изложены в блоге компании.

Сравнительно недавно произошел в некоторой степени анекдотичный случай с Windows Azure. 2 августа этот облачный сервис в течение двух с половиной часов был недоступен пользователям из Западной Европы. Причиной сбоя стал защитный механизм «safety valve», призванный предотвращать каскадные сбои в сетевой структуре, некорректно сработавший при увеличении мощностей.

В июне Amazon страдал от проблем с питанием и регулярным выходом из строя генераторов. В итоге 29 числа это вылилось в 20-минутное отключение серверов и последующее полуторачасовое восстановление их работоспособности. Это затронуло 7 % инстансов в одной AZ US-East-1 региона. В числе пострадавших оказались и такие известные компании, как Netflix и Instagram. Любопытно отметить, что в результате сбоя обнаружился баг в ELB, который значительно снизил скорость перевода нагрузки в другие AZ.

29 февраля примерно 7 часов был недоступен Windows Azure. Проблемой в данном случае была дата, вызвавшая ошибку в работе сертификата безопасности (ну просто-таки «проблема 2K наносит ответный удар»).

А 20 января проблемы в датацентре Equinix в небезызвестной Силиконовой долине на несколько часов испортили жизнь 5 миллионам пользователей сервисов Zoho. Питания в датацентре не было всего несколько секунд, но вот исправление баз данных заняло не в пример большее время.

И это все только за этот год. А из 2011 сходу можно вспомнить многое.

Например, проблемы 7 августа с 10-кВт генератором в Ирландском ЦОД, ошибочно сперва приписанные удару молнией, на 3 часа выбившие из строя Microsoft Business Productivity Online Suite и Amazon EC2 и потребовавшие от Amazon более суток на восстановление работоспособности. И последовавшие на следующий день проблемы у них же уже в Американском регионе из-за проблем с сетевыми каналами.

И предшествующие 13-часовые проблемы все того же Amazon EC2 в US-East-1 регионе проблемы с EBS (Elastic Block Storage). Отдельной шуткой стало то, что это произошло 21 апреля 2011 года – ровно в тот день, когда в одном всем известном фильме Skynet объявил войну человечеству. Искусственный интеллект оказался, конечно же, не при чем, но инстансы в Северной Вирджинии удалось восстановить только через 3 дня.

Но что мы все про Amazon. В сентябре 2011 года с разницей в день сперва полчаса были недоступны Google Docs, а потом на несколько часов рухнули почти все облачные сервисы Microsoft: Skydrive, Hotmail, Office365.

Стоит вспомнить и про gmail, 0,02 % пользователей которого в последних числах февраля 2011 года обнаружили, что их ящики пусты. По счастью, обошлось без потерь: данные были восстановлены в течение 30 часов. Зато это происшествие еще раз напомнило IT-миру, что программные ошибки способны влиять даже на несколько копий одних и тех же данных, а бекап на ленточные накопители способен спасти даже от такого, в силу их особенностей функционирования.

И все это далеко не полный список, а лишь крупнейшие случаи. Анализируя статистику отказов несложно заметить, что большая часть случаев происходит по двум причинам: ошибки с питанием или программные ошибки. Радует, что железо, которым, мы, собственно, занимаемся, в этих «сводках» не упоминается, и все обошлось без серьезных потерь данных, хотя, конечно же, вряд ли кто в силах оценить потери от простоев. Однако мы нарочно воздержимся от вынесения собственных оценок, а вместо этого зададим вопрос вам. А вы, лично вы и ваша компания насколько доверяете облачным сервисам и готовы их использовать, или уже используете?

Теги:

Хабы:

Блог компании ETegro Technologies

Падения облаков

Публикации

Информация

Истории