Skip to content

Latest commit

 

History

History
37 lines (27 loc) · 4.29 KB

File metadata and controls

37 lines (27 loc) · 4.29 KB

Инциденты

Инциденты автоматически собирают картину того, что произошло в системе: какие метрики отклонились, какие сервисы затронуты, и как это связано. Вместо ручного анализа десятков графиков — одна карточка с ответами на вопросы «что случилось?» и «на что повлияло?».

Как это работает

Система непрерывно отслеживает отклонения метрик от базовой линии. Когда срабатывает алерт, можно сформировать инцидент — система автоматически найдёт связанные аномалии и соберёт их в карточку. Карточка показывает: какие метрики отклонились, какие сервисы затронуты, и предлагает объяснение причины.

Корреляция аномалий выполняется двумя способами:

  • Статический анализ — берёт все аномалии сервисов, указанных в алерте
  • ML-алгоритм — обучается на обратной связи пользователя, чтобы показывать более релевантные аномалии

Возможности

Планируемые возможности

  • Присвоение собственного имени инциденту
  • Приём алертов из внешних систем мониторинга (Zabbix, SolarWinds и др.)
  • Оценка влияния инцидента на SLO и бизнес-функции
  • Создание алерта из инцидента — отправка очищенного уведомления
  • Автоматическое создание инцидентов без ручного действия
  • Управление жизненным циклом инцидента (статусы, severity)
  • Экспорт инцидента во внешнюю ITSM-систему
  • Интеграция с CMDB для обогащения контекста и улучшения корреляции

Далее

  • Настройка — подключение алертов Grafana, настройка движков корреляции
  • Использование — пошаговые инструкции по работе с инцидентами