Skip to content

Latest commit

 

History

History
116 lines (77 loc) · 9.17 KB

File metadata and controls

116 lines (77 loc) · 9.17 KB

Инциденты — Использование

Просмотреть таймлайн алертов

Таймлайн показывает хронологию алертов системы — точки входа для формирования инцидентов.

  1. В боковом меню GMONIT нажмите Инциденты
  2. Откроется страница с тремя панелями:
    • Алерты — таймлайн алертов Grafana. По строкам — пары «сервис + метрика» (например, api-services APMApdex). Красные полоски — периоды, когда алерт находился в состоянии alerting
    • Выбросы — таймлайн аномальных отклонений метрик. По строкам — имена сервисов. Цветные полоски — обнаруженные выбросы
    • Список инцидентов — таблица сформированных инцидентов с колонками: Имя, Начало, Конец, Длительность, Кол-во алертов, Приложения
  1. Вверху страницы:
    • Движок — выбор движка корреляции (выпадающий список)
    • Временной диапазон — период отображения данных с кнопками навигации по времени (по умолчанию «Последние 24 часа»)

Сформировать инцидент из алертов

Из одного или нескольких алертов можно запустить корреляцию аномалий и сформировать инцидент.

  1. На странице Инциденты выберите движок корреляции в выпадающем списке «Движок» вверху страницы:
    • [GMONIT] Unified anomaly grouping — статический алгоритм (по умолчанию)
    • [GMONIT] Anomaly correlation — ML-алгоритм (если включён)
  1. Нажмите на красную полоску алерта в панели Алерты. Появится всплывающее окно с информацией:
    • Временной диапазон алерта
    • Название метрики и состояние (alerting)
    • Длительность алерта
    • Ссылка «Проанализировать период»
  1. Нажмите «Проанализировать период» — система запустит корреляцию аномалий за выбранный период с помощью указанного движка
  2. После обработки инцидент появится в таблице Список инцидентов внизу страницы

Если в выбранном временном окне несколько алертов, они автоматически группируются в один инцидент.

Просмотреть карточку инцидента

Карточка собирает все данные об инциденте: отклонения метрик, затронутые сервисы, возможные причины.

Нажмите на строку инцидента в таблице Список инцидентов — откроется карточка.

Карточка состоит из следующих секций (сверху вниз):

Статистика (верхняя полоса):

  • Алерты — количество алертов в инциденте
  • Сервисы — количество затронутых приложений
  • Продолжительность — общая длительность инцидента
  • Начало инцидента / Конец инцидента — временные границы

Пиковые метрики (три панели):

  • Пиковый RPM — максимальное и минимальное число запросов в минуту по затронутым сервисам с процентом отклонения от нормы
  • Пиковое время обработки запросов — макс. и мин. время отклика с процентом отклонения
  • Пики ошибок в транзакциях — пиковая частота ошибок (или «Нет ошибок»)

Таймлайн инцидента — хронологический список событий:

  • Обнаружение инцидента
  • Начало и завершение каждого алерта (с указанием метрики)
  • Конец инцидента

Радиус поражения — визуализация затронутых сервисов в виде кольцевой диаграммы. Показывает RPM и среднее время отклика каждого сервиса. Размер и цвет сегментов отражают степень влияния.

Дополнительные секции:

  • Группы трассировок — связанные группы трейсов за период инцидента
  • Транзакции — затронутые транзакции
  • Частота ошибок транзакций по приложениям — графики ошибок
  • Отчёты об ошибках — детальные отчёты об ошибках

Дать обратную связь на инцидент

Если корреляция включила нерелевантные данные или пропустила важные — можно обучить ML-модель через обратную связь.

Обратная связь доступна только для инцидентов, созданных ML-движком ([GMonit] Anomaly correlation).

  1. Откройте карточку инцидента
  2. Нажмите кнопку «Оценка» в правом верхнем углу карточки
  1. Интерфейс переключится в режим обратной связи:

    • В таймлайне инцидента появится колонка «Фидбек» с тремя кнопками для каждого события:
      • ✅ — событие релевантно инциденту
      • 🚫 — событие нерелевантно, не относится к инциденту
      • 🚀 — переместить событие в другой инцидент
    • Вверху появятся кнопки действий:
      • «Слияние» — объединить текущий инцидент с другим
      • «Отправить» — отправить обратную связь
      • «Отменить» — выйти без сохранения
  2. Отметьте релевантность каждого события, нажимая соответствующие кнопки

  3. Нажмите «Отправить»

После отправки ML-модель переобучится с учётом вашей обратной связи. Результат корреляции обновится — состав аномалий в инциденте может измениться.