Таймлайн показывает хронологию алертов системы — точки входа для формирования инцидентов.
- В боковом меню GMONIT нажмите Инциденты
- Откроется страница с тремя панелями:
- Алерты — таймлайн алертов Grafana. По строкам — пары «сервис + метрика» (например,
api-services APMApdex). Красные полоски — периоды, когда алерт находился в состоянииalerting - Выбросы — таймлайн аномальных отклонений метрик. По строкам — имена сервисов. Цветные полоски — обнаруженные выбросы
- Список инцидентов — таблица сформированных инцидентов с колонками: Имя, Начало, Конец, Длительность, Кол-во алертов, Приложения
- Алерты — таймлайн алертов Grafana. По строкам — пары «сервис + метрика» (например,
- Вверху страницы:
- Движок — выбор движка корреляции (выпадающий список)
- Временной диапазон — период отображения данных с кнопками навигации по времени (по умолчанию «Последние 24 часа»)
Из одного или нескольких алертов можно запустить корреляцию аномалий и сформировать инцидент.
- На странице Инциденты выберите движок корреляции в выпадающем списке «Движок» вверху страницы:
- [GMONIT] Unified anomaly grouping — статический алгоритм (по умолчанию)
- [GMONIT] Anomaly correlation — ML-алгоритм (если включён)
- Нажмите на красную полоску алерта в панели Алерты. Появится всплывающее окно с информацией:
- Временной диапазон алерта
- Название метрики и состояние (
alerting) - Длительность алерта
- Ссылка «Проанализировать период»
- Нажмите «Проанализировать период» — система запустит корреляцию аномалий за выбранный период с помощью указанного движка
- После обработки инцидент появится в таблице Список инцидентов внизу страницы
Если в выбранном временном окне несколько алертов, они автоматически группируются в один инцидент.
Карточка собирает все данные об инциденте: отклонения метрик, затронутые сервисы, возможные причины.
Нажмите на строку инцидента в таблице Список инцидентов — откроется карточка.
Карточка состоит из следующих секций (сверху вниз):
Статистика (верхняя полоса):
- Алерты — количество алертов в инциденте
- Сервисы — количество затронутых приложений
- Продолжительность — общая длительность инцидента
- Начало инцидента / Конец инцидента — временные границы
Пиковые метрики (три панели):
- Пиковый RPM — максимальное и минимальное число запросов в минуту по затронутым сервисам с процентом отклонения от нормы
- Пиковое время обработки запросов — макс. и мин. время отклика с процентом отклонения
- Пики ошибок в транзакциях — пиковая частота ошибок (или «Нет ошибок»)
Таймлайн инцидента — хронологический список событий:
- Обнаружение инцидента
- Начало и завершение каждого алерта (с указанием метрики)
- Конец инцидента
Радиус поражения — визуализация затронутых сервисов в виде кольцевой диаграммы. Показывает RPM и среднее время отклика каждого сервиса. Размер и цвет сегментов отражают степень влияния.
Дополнительные секции:
- Группы трассировок — связанные группы трейсов за период инцидента
- Транзакции — затронутые транзакции
- Частота ошибок транзакций по приложениям — графики ошибок
- Отчёты об ошибках — детальные отчёты об ошибках
Если корреляция включила нерелевантные данные или пропустила важные — можно обучить ML-модель через обратную связь.
Обратная связь доступна только для инцидентов, созданных ML-движком (
[GMonit] Anomaly correlation).
- Откройте карточку инцидента
- Нажмите кнопку «Оценка» в правом верхнем углу карточки
-
Интерфейс переключится в режим обратной связи:
- В таймлайне инцидента появится колонка «Фидбек» с тремя кнопками для каждого события:
- ✅ — событие релевантно инциденту
- 🚫 — событие нерелевантно, не относится к инциденту
- 🚀 — переместить событие в другой инцидент
- Вверху появятся кнопки действий:
- «Слияние» — объединить текущий инцидент с другим
- «Отправить» — отправить обратную связь
- «Отменить» — выйти без сохранения
- В таймлайне инцидента появится колонка «Фидбек» с тремя кнопками для каждого события:
-
Отметьте релевантность каждого события, нажимая соответствующие кнопки
-
Нажмите «Отправить»
После отправки ML-модель переобучится с учётом вашей обратной связи. Результат корреляции обновится — состав аномалий в инциденте может измениться.