Как стать автором
Обновить

Причина масштабного сбоя облака Microsoft 365 определена — единой точкой отказа стала Azure Active Directory

Время на прочтение3 мин
Количество просмотров12K


Согласно информации издания Register, причиной недавнего масштабного сбоя многих облачных сервисов Microsoft, включая Office 365, стал сервис Azure Active Directory (AAD). Компания слишком понадеялась на надежность своего облачного сервиса, который фактически стал единой точкой отказа. Из-за проблем внутри AAD пользователи более пяти часов не могли войти в свои аккаунты, получать почту и работать с офисными приложениями, были недоступны сервисы OneDrive и SharePoint.

Облачная служба Azure Active Directory контролирует все, от электронной почты Outlook до Teams и портала Azure, используемого для управления другими облачными службами Microsoft. Проблема затронула даже локальные установки Microsoft Office и Visual Studio — система писала, что не может проверить, что эти продукты лицензированы и, следовательно, они не будут работать далее, пока не подтвердиться факт покупки лицензии.

По некоторым данным, пострадали системы службы экстренной помощи 911 в США. Эта система основана на Rapid Deploy Nimbus Dispatch и является автоматизированной платформой диспетчеризации на базе Microsoft Azure.

Таким образом, в AAD произошла нештатная ситуация, когда возникла серьезная проблема в проверке подлинности многих приложений. Причем отказоустойчивость системы подвела — переключение трафика на сервера в других регионах для Azure не помогло.

Официальная причина, озвученная Microsoft — изменение конфигурации AAD повлияло на работу систем внутреннего хранилища, что вызвало задержку запросов аутентификации.

Далее компания пыталась объяснить действия своих сотрудников по устранению проблемы — «мы откатили изменение, которое, вероятно, является источником воздействия», «мы не наблюдаем увеличения количества успешных подключений после отката недавнего изменения», «мы перенаправляем трафик в альтернативную инфраструктуру, чтобы улучшить взаимодействие с пользователями», «мы наблюдаем улучшения в работе нескольких служб после применения мер по снижению рисков».

Причем часть проблем так и не была оперативно решена — некоторые корпоративные пользователи и далее не могли получить доступ к SharePoint Online или OneDrive. Позже Microsoft пояснила, что пересматривает процедуры развертывания и подготовки облачных сервисов, чтобы предотвратить подобные проблемы в будущем.

Ранее в августе этого года технический директор Azure Марк Руссинович пояснил, что компания осознает печальную реальность, заключающуюся в том, что, учитывая глобальные масштабы клиентских операций и необходимость в изменениях многих сервисов, нельзя полностью избежать отключений в облачной инфраструктуре.

Microsoft сейчас как никогда обеспокоена общей архитектурой и реализацией Azure, несмотря на усилия, направленные на обеспечение устойчивости, и улучшение показателей доступности услуг этого облачного сервиса за последний год.

Сейчас специалисты Microsoft, которые так много сделали сервисов, поддерживающих Azure Active Directory, понимают, что это единственная точка отказа. Компании планирует сделать эту систему более устойчивой, чтобы отказ в ее работе минимально сказывался на пользователях и сервисах. Однако, это будет сделать сложно. Возможно, что компании стоит подумать о постепенном снижении зависимости такого количества сервисов от одного облачного решения.

Microsoft также рассказала об инциденте и шагах по его устранению у себя на портале. Скрытый дефект кода в системе безопасного развертывания (SDP) серверной службы Azure AD привел к тому, что обновление было развернуто непосредственно в нашей производственной среде, пройдя внутренний процесс проверки. Azure AD предназначена для географического распределения и развертывания с несколькими разделами в нескольких центрах обработки данных по всему миру и построена с несколькими границами изоляции. Сбой в работе обновления привел к нарушению этих границ.

В течение пяти минут после появления проблемы инженеры Microsoft поняли, что что-то не так. Далее в следующие 30 минут Microsoft начала принимать меры по устранению проблемы путем переноса некоторых служб Azure AD в систему обработки нагрузки и переключения определенных нагрузок на резервную систему Azure AD. К сожалению, автоматический откат конфигурации Microsoft не удался из-за повреждения метаданных SDP. Поэтому инженеры вручную обновляли конфигурацию сервиса, минуя систему SDP в течение двух часов.

28 сентября 2020 года многие пользователи Microsoft Office 365 в США, Австралии и Японии столкнулись с невозможностью войти в свой аккаунт в сервисе, пропал доступ к к электронной почте. У них отображалась ошибка «AADSTS90033: A transient error has occurred. Please try again». Microsoft пояснила, что эта проблема на их стороне, и часть пользователей действительно могут не иметь доступа к нескольким службам Microsoft 365, использующим Azure Active Directory (AAD), включая Outlook, Microsoft Teams, Live Events Teams, а также Office.com. Кроме того, этот инцидент повлиял на работоспособность Power Platform и Dynamics365.
Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+14
Комментарии18

Другие новости

Изменить настройки темы

Истории

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн