Инциденты

Инциденты автоматически собирают картину того, что произошло в системе: какие метрики отклонились, какие сервисы затронуты, и как это связано. Вместо ручного анализа десятков графиков — одна карточка с ответами на вопросы «что случилось?» и «на что повлияло?».

Как это работает

Система непрерывно отслеживает отклонения метрик от базовой линии. Когда срабатывает алерт, можно сформировать инцидент — система автоматически найдёт связанные аномалии и соберёт их в карточку. Карточка показывает: какие метрики отклонились, какие сервисы затронуты, и предлагает объяснение причины.

Корреляция аномалий выполняется двумя способами:

Статический анализ — берёт все аномалии сервисов, указанных в алерте
ML-алгоритм — обучается на обратной связи пользователя, чтобы показывать более релевантные аномалии

Возможности

Просмотр таймлайна алертов — хронология алертов системы
Формирование инцидента из алерта или выбранного участка на таймлайне
Автоматическое обогащение инцидента контекстом: релизы, хосты, контейнеры, внешние сервисы
Карточка инцидента — визуализация отклонений, затронутых сервисов и возможных причин
Два движка корреляции: статический анализ и ML-алгоритм
Materialized Outliers — предвычисление выбросов для снижения нагрузки и ускорения детектирования
Обратная связь для обучения ML-модели — отметьте релевантные и нерелевантные аномалии, объедините или разделите инциденты, модель переобучится

Планируемые возможности

Присвоение собственного имени инциденту
Приём алертов из внешних систем мониторинга (Zabbix, SolarWinds и др.)
Оценка влияния инцидента на SLO и бизнес-функции
Создание алерта из инцидента — отправка очищенного уведомления
Автоматическое создание инцидентов без ручного действия
Управление жизненным циклом инцидента (статусы, severity)
Экспорт инцидента во внешнюю ITSM-систему
Интеграция с CMDB для обогащения контекста и улучшения корреляции

Настройка — подключение алертов Grafana, настройка движков корреляции
Использование — пошаговые инструкции по работе с инцидентами

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Инциденты

Как это работает

Возможности

Планируемые возможности

Далее

FilesExpand file tree

incidents.md

Latest commit

History

incidents.md

File metadata and controls

Инциденты

Как это работает

Возможности

Планируемые возможности

Далее