Huawei_Russia Mar 13 2019 at 15:50

AIOps на практике — что может Huawei FabricInsight

5 min

1.6K

Huawei corporate blogSystem Analysis and Design*IT Infrastructure*Network technologies*Network hardware

В ответ на рост количества работающих приложений и числа сетевых устройств повышается пропускная способность сетей и ужесточаются требования к доставке пакетов. В масштабах критически важных для бизнеса облачных ЦОД традиционный подход к обслуживанию инфраструктуры уже не позволяет решать типовые задачи. Поэтому родилась концепция AIOps (Algorithmic IT Operations).

По прогнозу Gartner, уже к следующему году AIOps будут использовать порядка 50% компаний. О том, что могут подобные инструменты уже сегодня, рассказываем на примере Huawei FabricInsight — сетевого анализатора, входящего в состав комплексного решения для ЦОД Huawei CloudFabric.

Цифровая трансформация предприятий дает новые возможности — внедрение анализа Big Data, развитие алгоритмов машинного обучения — уже не просто дань моде, а осознанная потребность, закрытие которой приносит реальные прибыли. Однако новые внедрения влекут за собой многократное повышение сложности инфраструктуры, что одновременно ставит новые задачи по части ее обслуживания.

Основная проблема содержания крупной инфраструктуры сегодня — объем данных, которые необходимо собирать и перерабатывать для получения информации о состоянии ЦОД, а также скорость, с которой надо выдавать релевантный ответ причинах сбоев. С одной стороны, количество отслеживаемых параметров постоянно растет, с другой — время играет против организаций, ведь цель любой компании — как можно быстрее восстановить доступность своих услуг, если что-то пошло не так (особенно учитывая жесткие требования SLA). Скорость «подъема» сервиса после краха во многом определяется быстротой расследования инцидента. А она в свою очередь зависит от полноты информации о происходящем. Но если в ЦОДе установлено хотя бы 50 — 100 серверных стоек, стандартные механизмы мониторинга в условиях высоких требований к пропускной способности и своевременной доставке пакетов не справляются.

Почему не справляется SNMP?

Стандартные механизмы — SNMP и xFlow — собирают данные лишь раз в 5-15 минут, сэмплируя информацию. Они изначально разрабатывались с оглядкой на ограничения постобработки аккумулируемых данных без задачи выявления проблем в режиме реального времени. И даже такой ограниченный сбор данных отражается на работе сетевых устройств.

Учитывая, что проблемный трафик составляет лишь 3,65%, традиционный подход по итогам анализа позволяет выявить лишь 30% сетевых проблем, 70% оказываются не видны системам мониторинга.

Для выявления корня проблемы по данным, собранным SNMP и xFlow, нужны опытные администраторы, которые знают, что и где искать. Проблемы приходится выявлять, анализируя огромные логи и множественные сообщения об ошибках, а потом вручную вносить изменения в конфигурацию. Но с развитием SDN, с виртуализацией физических ресурсов, ручное конфигурирование уходит в прошлое. Сегодня даже целый штат системных администраторов уже не может обеспечить непрерывное соответствие параметров инфраструктуры требованиям бизнеса.

FabricInsight работает иначе

Платформа сетевого анализа FabricInsight предлагает иной подход, автоматизируя процессы обслуживания сети и выявления точек сбоя. FabricInsight анализирует поведение приложений, выявляет задействованные ими сетевые пути и отслеживает статус устройств на них.

Данный подход основывается на двух ключевых компонентах — сборе всех доступных данных и их автоматическом анализе. Дополненный функциональной визуализацией и политикой открытости данных, этот подход позволяет решать многие из тех задач, что ранее были тупиковыми.

Сбор всех доступных данных

Ключом к быстрому реагированию на ситуацию является полная картина происходящего внутри ЦОД на уровне сети. FabricInsight использует механизм подписки на телеметрию в push-режиме для своевременного сбора всех сервисных данных второго уровня без сэмплирования. Для получения полной сетевой картины собираются данные о работе устройств, приложений и прохождении сетевого трафика (пакеты TCP SYN, FIN и RST) — поддерживаются ERSPAN для зеркального отражения пакетов без использования CPU устройства и GRPC от Google для отчетов о производительности самих устройств.

Собранные данные через FabricInsight LEAF передаются в FabricInsight Collector, который отслеживает временные параметры прохождения пакета по сети. Данные по сетевому трафику Collector снабжает временными отметками, кодирует и отправляет по HTTP в FabricInsight Analizer. Такой подход позволяет собрать максимум информации о сети, фиксируя даже короткие по времени всплески трафика, которые не могут быть обнаружены «классическими» решениями.
При этом FabricInsight не заглядывает внутрь IP-пакетов (не захватывает их содержание), используя в своей работе только заголовки. Таким образом он может использоваться в критичных для бизнеса областях, например, там, где идет работа с персональными данными.

Анализ в режиме реального времени

Вторым неотъемлемым элементом системы является FabricInsight Analyzer. Получая собранные данные, он выявляет пути трафика и запускает алгоритмы, анализирующие ситуацию практически в режиме реального времени. В целом FabricInsight Analyzer соотносит сетевой трафик с приложениями, что позволяет быстрее выявлять и исправлять проблемы. За счет machine learning алгоритмы «обучаются» для выявления нормального и аномального поведения инфраструктуры.

Результаты анализа сети FabricInsight отражает в своем интерфейсе в виде карт состояния сети, взаимодействия приложений, аналитики по отдельным приложениям и т.п., обновляемым в режиме реального времени. Интерфейс реализован таким образом, чтобы визуально связать уровень приложений и конкретные физические устройства, отвечающие за работоспособность сети, что ускоряет поиск неисправностей и методов их решения.

При обнаружении любых аномалий в автоматическом режиме сохраняется исходная информация, по которой были выявлены проблемы (длительность хранения настраивается), при необходимости — FabricInsight предупреждает пользователя. Кроме того, инициализируются процедуры исправления ситуации «в один клик мышкой» через графический интерфейс. При этом для поиска наиболее релевантного подхода анализируются различные шаблоны исправления ошибок.

Кейсы

Для выявления аномалий поведения ЦОД используется корреляционный анализ работы приложений, устройств и путей прохождения трафика, таким образом фиксируются различные типы аномалий — как временные, так и продолжительные.

Кстати, большая часть временных аномалий, приведенных выше, не может быть зафиксирована при помощи классического подхода. Это относится и к некоторым продолжительным аномалиям. Довольно распространенный пример — «кривое» обновление софта. Предположим, в ЦОДе функционировало некое приложение, генерирующее определенный трафик. После его обновления резко изменился объем этого трафика, например, уменьшилась пропускная способность приложения, выросли задержки. Эта аномалия будет зафиксирована FabricInsight.

Еще один пример — постепенная деградация оптического модуля связи (падение производительности), предшествующая выходу из строя. Деградация определяет нестабильность передачи, что на длительных промежутках времени может свидетельствовать о необходимости скорой замены оборудования. Но выявить это стандартным подходом крайне сложно.

В качестве ответа на эту проблему в интерфейсе FabricInsight отображаются статусы всех оптических модулей в системе вместе с оценкой вероятности их выхода из строя.

Интеграция

Хотя на российском рынке FabricInsight появился в январе этого года, он уже развернут в ICBC, China UnionPay, China Merchants Bank, PICC и в других крупных ЦОД на базе инфраструктуры Huawei.

Пока решение поддерживает только наши коммутаторы (на чипсетах Broadcom), но в будущем планируется выйти за рамки экосистемы одного производителя. Также в работе над FabricInsight мы изначально ориентировались на открытые стандарты, чтобы его можно было нормально подружить со сторонними инструментами. Например, для экспорта данных из FabricInsight может использоваться Druid, через который можно отправить информацию в сторонние средства визуализации. Также FabricInsight уже интегрирован с открытым инструментом визуализации Grafana.

В целом инструменты AIOps, подобные нашему FabricInsight, — логичный путь развития средств мониторинга и обслуживания инфраструктуры. Как нам кажется, только так можно продолжать соблюдать SLA для сервисов.

Tags:

FabricInsight

Hubs: