99,88
Рейтинг
19 октября

Зонтичная система мониторинга и ресурсно-сервисные модели в обновленном DX Operations Intelligence от Broadcom (ex. CA)

Блог компании Gals SoftwareСистемное администрированиеIT-инфраструктураМашинное обучениеМикросервисы
В этом сентябре Broadcom (бывшая CA) выпустила новую версию 20.2 своего решения DX Operations Intelligence (DX OI). На рынке этот продукт позиционируется как зонтичная система мониторинга. Система способна получать и объединять данные от систем мониторинга различных доменов (сеть, инфраструктура, приложения, базы данных) как CA так и сторонних производителей, в том числе, open source решений (Zabbix, Prometheus и других).



Основная функция DX OI — создание полноценной ресурсно-сервисной модели (РСМ) на базе конфигурационных единиц (КЕ), наполняющих инвентарную базу при интеграции со сторонними системами. В DX OI реализованы функции Machine Learning и Artificial Intelligence (ML и AI) над поступающими в платформу данными, что позволяет оценить/спрогнозировать вероятность отказа конкрентной КЕ и степень влияния отказа на бизнес-сервис, в основе которого лежит конкретная КЕ. Кроме того, DX OI — единая точкой сбора событий мониторинга и, соответственно, интеграции с системой Service Desk, что является неоспоримым преимуществом использования системы в единых центрах мониторинга дежурными сменами организаций. В этой статье мы расскажем подробнее о функционале системы и покажем интерфейсы пользователя и администратора.

Архитектура решения DX OI


Платформа DX имеет микросервисную архитектуру, устанавливается и работает под управлением Kubernetes или OpenShift. На следующем рисунке приведены компоненты решения, которые могут использоваться как самостоятельные инструменты мониторинга, либо могут быть заменены на уже имеющиеся системы мониторинга со сходными функциями (на рисунке есть примеры таких систем) и далее подключаться к зонтику DX OI. На схеме ниже:

  • Мониторинг мобильных приложений в DX App Experience Analytics;
  • Мониторинг производительности приложений в DX APM;
  • Мониторинг инфраструктуры в DX Infrastructure Manager;
  • Мониторинг сетевых устройств в DX NetOps Manager.



Компоненты DX работают под управлением кластера Kubernetes и масштабируются простым запуском новых POD. Ниже верхнеуровневая схема решения.



Администрирование, масштабирование и обновление платформы DX выполняется в административной консоли. Из одной консоли можно управлять мультитенантной архитектурой, которая может охватывать нескольких предприятий или нескольких бизнес-единиц в рамках компании. В этой модели каждое предприятие может быть настроено индивидуально как арендатор со своим собственным набором конфигураций.

Консоль администрирования — это веб-инструмент для управления операциями и системой, который предоставляет администраторам согласованный унифицированный интерфейс для выполнения задач по управлению кластером мониторинга.



Новые тенанты для бизнес-единиц или предприятия в составе компании разворачиваются за считанные минуты. Этот дает преимущество, если вы хотите иметь единую систему мониторинга, но при этом на уровне платформы (а не прав доступа) разграничить объекты мониторинга между подразделениями.



Ресурсно-сервисные модели и мониторинг бизнес-сервисов


DX OI имеет встроенные механизмы для создания сервисов и разработки классических РСМ с заданием логики влияния и весов между компонентами сервиса. Также имеются механизмы экспорта РСМ из внешней CMDB. На рисунке ниже встроенный редактор РСМ (обратите внимание на веса связей).



DX OI дает целостную картину ключевых показателей функционирования бизнес-услуг или ИТ-услуг с детализацией, включая доступность сервисов и прогнозирование рисков отказа. Инструмент также может дать понимание влияния проблемы производительности или изменения в структуре IT-компонентов (приложения или инфраструктуры) на бизнес-сервис. На рисунке ниже интерактивный дашборд, отображающий состояние всех сервисов.



Рассмотрим подробности на примере сервиса Digital Banking. По клику по названию сервиса переходим в детальную РСМ сервиса. Видим, что статус сервиса Digital Banking зависит от состояния инфраструктурных и транзакционных подсервисов с различными весами. Работа с весами и их отображение — занятное преимущество DX OI.



Топология — важный элемент оперативного мониторинга предприятия, позволяет операторам и инженерам анализировать взаимосвязи между компонентами, находить первопричину и влияние.

DX OI Topology Viewer — это сервис, который использует в работе топологические данные, поступающие от доменных систем мониторинга, осуществляющих сбор данных непосредственно с объектов мониторинга. Инструмент предназначен для поиска в нескольких слоях хранилищ топологии и отображения карты отношений, зависящую от контекста. Для расследования проблем можно перейти в проблемный подсервис Backend Banking и увидеть топологию и проблемные компоненты. Также по каждому компоненту можно анализировать аварийные сообщения и метрики производительности.



При анализе транзакционных компонентов Payments (пользовательских транзакций) можем отслеживать значения бизнес-KPI, которые также учитываются при расчете статуса доступности и здоровья сервиса. Пример бизнес-KPI приведен ниже:





Событийная аналитика (Alarm Analytics)


Алгоритмическое шумоподавление за счет кластеризации аварий


Одна из ключевых функций DX OI при обработке событий — кластеризация. Механизм работает над всеми оповещениями, поступающими в систему, чтобы идентифицировать шаблоны на основе различных контекстов и объединять их в группы. Эти кластеры являются самообучающимися, их не нужно конфигурировать вручную.



Таким образом, кластеризация позволяет пользователям объединять и группировать огромное количество событий и анализировать только те, которые имеют общий контекст. Например, набор событий, представляющих инцидент, влияющий на работу приложений или центра обработки данных. Ситуации создаются с использованием алгоритмов кластеризации на основе машинного обучения, использующих для анализа временную корреляцию, топологическую взаимосвязь и обработку естественного языка (native language). На рисунках ниже приведены примеры визуализации кластерных групп сообщений, так называемые Situations Alarms, и Evidence Timeline, отображающие основные параметры группировки и процесс уменьшения количества шумовых событий.





Анализ корневых проблем и корреляция аварий


В современной гибридной среде пользовательская транзакция может затрагивать несколько систем, которые используются динамически. В результате может быть создано несколько предупреждений из разных систем, но связанных с одной и той же проблемой или инцидентом. DX OI использует запатентованные механизмы для подавления избыточных и дублирующийся оповещений и корреляции связанных оповещений для улучшения обнаружения критических проблем и более быстрого решения.

Разберем пример, когда в систему поступают многочисленные аварийные сообщения по разным объектам (КЕ), лежащим в основе одного сервиса. В случае воздействия на доступность и работоспособность сервиса система сгенерирует сервисную аварию (Service Alarm), укажет и обозначит вероятную корневую причину (проблемный КЕ и аварийное сообщение по КЕ), которое способствовало снижению производительности или отказу сервиса. На рисунке ниже приведена визуализация аварийной ситуации для сервиса Webex.



DX OI позволяет работать с событиями посредством интуитивно понятных действий в web-интерфейсе системы. Пользователи могут вручную назначать события на ответственного сотрудника для устранения неполадок, сбрасывать/подтверждать оповещения, создавать заявки или отправлять уведомления по электронной почте, запускать автоматизированные сценарии для устранения аварийной ситуации (Remediation Workflow, об этом чуть позже). Таким образом, DX OI позволяет операторам дежурных смен сосредоточиться на корневом аварийном сообщении, а также помочь упростить процесс сортировки сообщений на кластерные массивы.

Машинные алгоритмы обработки метрик и анализ данных по производительности


Машинное обучение позволяет отслеживать, агрегировать и визуализировать ключевые показатели производительности за любой конкретный период времени, что дает пользователю следующие преимущества:

  • Обнаружение узких мест и аномалий производительности;
  • Сравнение несколько показателей для одних и тех же устройств, интерфейсов или сетей;
  • Сравнение одинаковых показателей на нескольких объектах;
  • Сравнение различных показателей по одному и нескольким объектам;
  • Сравнение многомерных метрик по нескольким объектам.

Для анализа поступающих в систему метрик DX OI использует функции машинной аналитики с применением математических алгоритмов что способствует сокращению времени при настройке статических порогов и генерации предупреждений при возникновении аномалий.



Результатом применения математических алгоритмов является построение так называемых вероятностных распределений значения метрики (Rare, Probable, Center, Mean, Actual). На рисунках выше и ниже представлены вероятностные распределения.



На двух графиках выше отображены следующие данные:

  • Фактические данные (Actual). Фактические данные отображаются на графике в виде сплошной черной линии (нет сигналов тревоги) или цветной сплошной линии (состояние тревоги). Линия рассчитывается на основе фактических данных для метрики. Сравнивая фактические данные и медианное значение, вы можете быстро увидеть вариации метрики. Когда возникает событие, черная линия меняется на цветную сплошную линию, которая соответствует критичности события и отображает значки с соответствующей критичностью над графиком. Например, красный цвет для критической аномалии, оранжевый для значительной аномалии и желтый для незначительной аномалии.
  • Среднее значение показателя (Mean value). Среднее значение или среднее значение для показателя показано на диаграмме серой линией. Среднее значение отображается, когда не хватает исторических данных.
  • Медианное значение показателя (Center value). Медианная линия является серединой диапазона и показана зеленой пунктирной линией. Зоны, ближайшие этой линии, наиболее близки к типичным значениям показателя.
  • Общие данные (Common Value). Данные общей зоны отслеживают ближайшую к центральной линии или норму для вашего показателя и отображаются в виде темно-зеленой полосы. Аналитические расчеты помещают общую зону на один процентиль выше или ниже нормы.
  • Вероятностные данные. Данные вероятностной зоны показаны на графике зеленой полосой. Система помещает вероятностную зону на два процентиля выше или ниже нормы.
  • Редкие данные. Данные о редких зонах показаны на графике в виде светло-зеленой полосы. Система помещает зону с редкими значениями метрики на три процентиля выше или ниже нормы и сигнализирует о поведении показателя за пределами нормального диапазона при этом система генерирует так называемый Anomaly Alert.

Аномалия — это измерение или событие, несовместимое с нормальными показателями метрики. Обнаружение аномалий для выявления проблем и понимания тенденций в инфраструктуре и приложениях — ключевая особенность DX OI. Обнаружение аномалий позволяет как распознавать необычное поведение (например, сервер, который отвечает медленнее, чем обычно, или необычную сетевую активность, вызванную взломом), так и соответствующим образом реагировать (заведение инцидента, запуск автоматического сценария Remediation).

Функция обнаружения аномалий DX OI предоставляет следующие преимущества:

  • Не нужно устанавливать пороговые значения. DX OI самостоятельно сопоставит данные и выявит аномалии.
  • DX OI включает более десяти алгоритмов искусственного интеллекта и машинного обучения, в том числе EWMA (Exponentially-Weighted—Moving-Average) и KDE (Kernel Density Estimation). Эти алгоритмы позволяют выполнять быстрый анализ первопричин и прогнозировать будущие значения метрик.

Предиктивная аналитика и оповещение о возможных отказах


Predictive Insights — функция, которая использует возможности машинного обучения для выявления закономерностей и тенденций. На основе этих тенденций система прогнозирует события, которые могут произойти в будущем. Данные сообщения указывают на необходимость принятия действий до того, когда значения метрик выйдут за пределы нормальных значений, что окажет влияние на критически важные бизнес сервисы. Predictive Insights изображены на рисунке ниже.



А это визуализация предиктивных предупреждений для конкретной метрики.



Прогнозирование загрузки вычислительных мощностей с функцией задания сценариев нагрузки


Функция планирования мощностей Capacity Analytics помогает управлять ИТ-ресурсами, обеспечивая правильный размер ресурсов для удовлетворения текущих и будущих потребностей бизнеса. Вы сможете оптимизировать производительность и эффективность имеющихся ресурсов, спланировать и оправдать любые финансовые вложения.

Функция Capacity Analytics в DX OI дает следующие преимущества:

  • Прогнозирование мощностей в пиковые сезоны;
  • Определение момента, когда потребуются дополнительные ресурсы для обеспечения качественного функционирования сервиса;
  • Закупка дополнительных ресурсов только при необходимости;
  • Эффективное управление инфраструктурой и сетями;
  • Устранение излишних затрат на электроэнергию за счет выявления недоиспользуемых ресурсов;
  • Выполнение оценки нагрузки на ресурсы в случае запланированного увеличения потребностей в сервисе или ресурсе.

На странице Capacity Analytics DX OI (рисунок ниже) есть следующие виджеты:

  • Состояние емкости ресурса (Resource Capacity Status);
  • Контролируемые группы/службы (Monitored Groups/Services);
  • Крупные потребители ресурсов (Top Capacity Consumers).



Основная страница Capacity Analytics показывает компоненты ресурсов, которые избыточно загружены и у которых заканчивается емкость. Эта страница помогает администраторам платформы находить чрезмерно используемые ресурсы и помогает им изменять размер и оптимизировать ресурсы. Состояние ресурсов можно проанализировать на основе цветовых кодов и их соответствующих значений. Ресурсы классифицируются в зависимости от степени их перегруженности на странице состояния емкости ресурсов. Можно щелкнуть на каждый из цветов, чтобы просмотреть список компонентов, входящих в выбранную категорию. Далее отобразится тепловая карта со всеми объектами и прогнозами на 12 месяцев, что позволяет выявить ресурсы, которые вот-вот будут исчерпаны.



Для каждой из метрик в Capacity Analytics можно указать фильтры, которые DX Operational Intelligence использует для составления прогнозов (рисунок ниже).



Доступны следующие фильтры:

  • Metric. Метрика, которая будет использоваться для прогноза.
  • Base on. Выбор объема исторических данных, которые будут использованы для построения прогнозов на будущее. Это поле используется для сравнения и анализа тенденций за последний месяц, тенденций за последние 3 месяца, тенденций за год и т. д.
  • Growth. Ожидаемая скорость роста рабочей нагрузки, которую хотите использовать для моделирования прогноза мощности. Эти данные можно использовать для прогнозирования роста сверх прогнозов. Например, ожидается, что использование ресурса вырастет еще на 40 процентов из-за открытия нового офиса.

Анализ логов


Функция анализа логов DX OI обеспечивает:

  • сбор, агрегацию логов из разных источников (в том числе полученных агентским и безагентским способами);
  • парсинг и нормализацию данных;
  • анализ на соответствие поставленным условиям и генерацию событий;
  • корреляцию событий на основе логов, в том числе с событиями, полученными в результате мониторинга ИТ-инфраструктуры;
  • визуализацию данных на основе анализа в DX Dashboards;
  • выводы о доступности сервисов на основе анализа данных из логов.



Сбор логов безагентным методом выполняется системой для Windows Event logs и Syslog. Агентным способом собираются текстовые логи.

Функция автоматизированного разрешения аварийных ситуаций (Remediation)


Автоматизированные действия по исправлению аварийной ситуации (Remediation Workflow) позволяют решить проблемы, вызвавшие генерацию события в DX OI. Например, проблема загрузки ЦП генерирует аварийное сообщение, процесс исправления (Remediation Workflow) решает проблему путем перезапуска сервера, на котором возникла проблема. Интеграция между DX OI и системой автоматизации позволяет запускать процессы исправления из консоли событий в DX Operational Intelligence и отслеживать их в консоли системы автоматизации.

После интеграции c системой автоматизации можно запускать автоматические действия по исправлению любой аварийной ситуации в консоли DX OI из контекста аварийного сообщения. Вы можете просмотреть рекомендованные действия вместе с информацией о процентах достоверности (вероятности устранения ситуации путем выполнения действия).





Изначально, когда отсутствует статистика по результатам выполнения Remediation Workflow, механизм рекомендаций предлагает потенциальные варианты на основе поиска, по ключевым словам, затем используются результаты машинного обучения, и механизм начинает рекомендовать методику исправления на основе эвристики. Как только вы начнете оценивать результаты полученных подсказок точность рекомендаций улучшится.



Пример обратной связи от пользователя: пользователь выбирает понравившееся или не понравившееся предложенное действие, а система учитывает этот выбор при дальнейших рекомендациях. Лайк/дизлайк:



Рекомендуемые корректирующие действия для конкретной тревоги основаны на комбинации обратной связи, которая определяет, является ли действие приемлемым. DX OI поставляется с готовой интеграцией с системой автоматизации Automic Automation.

Интеграция DX OI со сторонними системами


Останавливаться подробно на интеграции данных из нативных продуктов мониторинга Broadcom (DX NetOps, DX Infrastructure Management, DX Application Performance Management) мы не будем. Вместо этого рассмотрим как интегрируются данные из сторонних 3rd-party систем и разберем пример интеграции с одной из наиболее популярных систем — Zabbix.

Для интеграции со сторонними системами используется компонент DX Gateway. DX Gateway состоит из 3 компонентов — On-Prem Gateway, RESTmon и Log Collector (Logstash). Вы можете установить все 3 компонента или только тот, который нужен, изменив общий файл конфигурации при установке DX Gateway. На рисунке ниже архитектура DX Gateway.



Рассмотрим назначение компонентов DX Gateway отдельно.

On-Prem Gateway. Это интерфейс, который собирает аварийные сигналы от платформы DX и отправляет события об авариях в сторонние системы. On-Prem Gateway действует как поллер, который периодически собирает данные о событиях из DX OI, используя API запросов по протоколу HTTPS, затем отправляет предупреждения на сторонний сервер, который интегрирован с платформой DX, используя вебхуки.



DX Log Collector принимает syslog от сетевых устройств или серверов и загружает их в OI. DX Log Collector позволяет разделить программное обеспечение, которое генерирует сообщения, систему, которая их хранит, и программное обеспечение, которое сообщает и анализирует их. Каждое сообщение помечается кодом объекта, указывающим тип программного обеспечения, генерирующего сообщение, и ему назначается уровень критичности. В DX Dashboards это всё потом можно посмотреть.

DX RESTmon интегрируется со сторонними продуктами/услугами через REST API и передает данные в OI. На рисунке ниже представлена схема функционирования DX RESTmon на примере интеграции с системами мониторинга Solarwinds и SCOM.



Ключевые функции DX RESTmon:

  • Подключение к любому стороннему источнику данных для приема данных:

    • PULL: подключение и извлечение данных из общедоступных REST API;
    • PUSH: поток данных в RESTmon через REST.
  • Поддержка форматов JSON и XML;
  • Прием метрик, предупреждений, групп, топологии, инвентаризации и журналов;
  • Готовые коннекторы для различных инструментов/технологий, также возможно разработать коннектор к любому источнику с открытым API (список коробочных коннекторов на рисунке ниже);
  • Поддержка базовой аутентификации (по умолчанию) при доступе к интерфейсу Swagger и API;
  • Поддержка HTTPS (по умолчанию) для всех входящих и исходящих сообщений;
  • Поддержка входящих и исходящих прокси;
  • Мощные возможности синтаксического анализа текста для журналов, полученных через REST;
  • Настраиваемый синтаксический анализ с помощью RESTmon, обеспечивающий эффективный анализ и визуализацию журналов;
  • Поддержка извлечения информации о группах устройств из приложений мониторинга и загрузки в OI для анализа и визуализации;
  • Поддержка возможности сопоставления с регулярными выражениями. Это может использоваться для синтаксического анализа и сопоставления сообщений логов, полученных через REST, а также для генерации или закрытия событий на основе определенных условий регулярного выражения.



Теперь рассмотрим процесс настройки интеграции DX OI с Zabbix через DX RESTmon. Коробочная интеграция забирает из Zabbix следующие данные:

  • инвентарные данные;
  • топология;
  • проблемы;
  • метрики.

Поскольку коннектор для Zabbix доступен из коробки, всё, что нужно сделать для настройки интеграции — это обновить профайл, указав IP адрес API сервера Zabbix и учетную запись, а затем загрузить профайл через web-интерфейс Swagger. Пример на двух следующих рисунках.





После настройки интеграции, для поступающих из Zabbix данных будут доступны аналитические функции DX OI, описанные выше, а именно: Alarm Analytics, Performance Analytics, Predictive Insights, Service Analytics и Remediation. На рисунке ниже приведен пример анализа метрик производительности по объектам, интегрированным из Zabbix.



Заключение


DX OI — современный инструмент аналитики, который обеспечит значительную операционную эффективность IT-подразделений, позволит принимать более быстрые и правильные решения для повышения качества ИТ-услуг и бизнес-сервисов за счет междоменного контекстного анализа. Для владельцев приложений и бизнес-подразделений DX OI рассчитает показатель доступности и качество сервисов не только в контексте технологических IT-показателей, но и бизнес-KPI, извлекаемых из транзакционной статистики по конечным пользователям.

Если вы хотите узнать больше об этом решении, оставьте заявку на демонстрацию или пилотный проект удобным для вас способом на нашем сайте.
Теги:gals softwareгалс софтвэрзонтичная система мониторингасервисно-ресурсная модельресурсно-сервисная модельмашинное обучениеzabbixмониторинг инфраструктурымониторинг приложениймикросервисыkubernetesopenshift
Хабы: Блог компании Gals Software Системное администрирование IT-инфраструктура Машинное обучение Микросервисы
+9
1,1k 6
Комментарии 2
Похожие публикации
Лучшие публикации за сутки