Инциденты автоматически собирают картину того, что произошло в системе: какие метрики отклонились, какие сервисы затронуты, и как это связано. Вместо ручного анализа десятков графиков — одна карточка с ответами на вопросы «что случилось?» и «на что повлияло?».
Система непрерывно отслеживает отклонения метрик от базовой линии. Когда срабатывает алерт, можно сформировать инцидент — система автоматически найдёт связанные аномалии и соберёт их в карточку. Карточка показывает: какие метрики отклонились, какие сервисы затронуты, и предлагает объяснение причины.
Корреляция аномалий выполняется двумя способами:
- Статический анализ — берёт все аномалии сервисов, указанных в алерте
- ML-алгоритм — обучается на обратной связи пользователя, чтобы показывать более релевантные аномалии
- Просмотр таймлайна алертов — хронология алертов системы
- Формирование инцидента из алерта или выбранного участка на таймлайне
- Автоматическое обогащение инцидента контекстом: релизы, хосты, контейнеры, внешние сервисы
- Карточка инцидента — визуализация отклонений, затронутых сервисов и возможных причин
- Два движка корреляции: статический анализ и ML-алгоритм
- Materialized Outliers — предвычисление выбросов для снижения нагрузки и ускорения детектирования
- Обратная связь для обучения ML-модели — отметьте релевантные и нерелевантные аномалии, объедините или разделите инциденты, модель переобучится
- Присвоение собственного имени инциденту
- Приём алертов из внешних систем мониторинга (Zabbix, SolarWinds и др.)
- Оценка влияния инцидента на SLO и бизнес-функции
- Создание алерта из инцидента — отправка очищенного уведомления
- Автоматическое создание инцидентов без ручного действия
- Управление жизненным циклом инцидента (статусы, severity)
- Экспорт инцидента во внешнюю ITSM-систему
- Интеграция с CMDB для обогащения контекста и улучшения корреляции
- Настройка — подключение алертов Grafana, настройка движков корреляции
- Использование — пошаговые инструкции по работе с инцидентами