tencent cloud

腾讯云可观测平台

动态与公告
产品动态
产品简介
产品概述
产品优势
基本功能
基本概念
应用场景
使用限制
购买指南
云产品监控
应用性能监控
终端性能监控
前端性能监控
云拨测
Prometheus 监控服务
Grafana 服务
事件总线
云压测
快速入门
监控概览
实例分组
云产品监控
应用性能监控
云拨测
云压测
Prometheus 监控服务
Grafana 服务
创建 Dashboard
事件总线
告警服务
云产品监控
云产品监控指标
控制台操作指南
云服务器监控组件
云产品监控对接 Grafana
故障处理
实践教程
应用性能监控
应用性能监控简介
接入指南
控制台操作指南
实践教程
参考信息
常见问题
终端性能监控
终端性能监控概述
控制台操作指南
接入指南
实践教程
前端性能监控
前端性能监控简介
控制台操作指南
接入指南
常见问题
云拨测
产品简介
控制台操作指南
常见问题
云压测
云压测概述
控制台操作指南
实践教程
JavaScript API 列表
常见问题
Prometheus 监控
Prometheus 监控简介
接入指南
控制台操作指南
实践教程
Terraform
常见问题
Grafana 服务
产品简介
控制台操作指南
Grafana 平台常用功能指引
常见问题
Dashboard
什么是 Dashboard
控制台操作指南
告警管理
控制台操作指南
故障处理
常见问题
事件总线
事件总线简介
控制台操作指南
实践教程
常见问题
报表管理
常见问题
腾讯云可观测平台常见问题
告警服务相关
一般性问题
监控图表相关
云服务器监控组件相关
动态阈值告警相关
云监控对接 Grafana 相关
文档阅读指南
相关协议
应用性能监控服务等级协议
APM 隐私协议
APM 数据处理和安全协议
前端性能监控服务等级协议
终端性能监控服务等级协议
云拨测服务等级协议
Prometheus 监控服务服务等级协议
Grafana 服务服务等级协议
云压测服务等级协议
云压测使用限制
Cloud Monitor Service Level Agreement
词汇表

告警抑制

PDF
聚焦模式
字号
最后更新时间: 2024-08-22 16:19:17

前言

为了避免由于相同问题导致的成百上千的相似告警通知带来额外的运维工作量,我们增加了告警抑制功能。告警抑制指的是若某种类型的告警被触发,则抑制与之相关的其他相似告警。例如:如果告警内容是某个集群无法访问,则可以配置 Inhibition 规则,静默与该集群相关的所有其他告警。

操作步骤

2. 在 Prometheus 实例列表中,单击实例 ID/名称
3. 进入 Prometheus 管理中心,在顶部导航栏中单击告警管理 > Inhibit Rules > 新建



4. 跳转到新建页面后,根据页面提示配置抑制规则,配置完点击保存即可。




参数说明

参数
说明
源(Source Matcher)
触发的告警,选择标签名称、条件、标签值。
目标(Target Matcher)
需要被静默的告警,选择标签名称、条件、标签值。
条件(Equal)
目标和源告警对于匹配条件中的标签名称必须具有相同的标签值,选择标签名称。
说明:
Inhibition 规则设置:当存在满足某种规则的告警(源)时,抑制规则会静默满足另一种规则的告警(目标)。目标和源告警对于匹配条件中的标签名称必须具有相同的标签值。
为了防止警报自我抑制,与规则的目标端和源端都匹配的告警不能被与目标端和源端都匹配的其他告警(包括其自身)抑制。因此,建议告警的源和目标规则设计上要确保不会有任何告警同时匹配源规则和目标规则。

示例

使用场景:服务器 CPU 高负载告警

场景描述:

在一个监控系统中,配置了两个告警:
告警 A:CPU 负载超过90%。
告警 B:系统响应时间超过500ms。
这两个告警都是由于同一原因引起的,即服务器 CPU 高负载,导致系统性能下降。 告警 A 的策略规则如下: alert: HighCPUUsage expr: avg(rate(cpu_usage_seconds_total[5m])) by (instance) > 0.9 告警 B 的策略规则如下: alert: HighResponseTime expr: avg(response_time_seconds) by (instance) > 0.5 则 Inhibition 规则配置方式如下:
源:alert=HighCPUUsage
目标:alert=HighResponseTime
匹配条件:instance

整体效果:

cpu_usage_seconds_total 指标在5分钟内的平均速率为95%,该指标的标签 instance=instanceX,则会触发告警 A,发送告警通知;
response_time_seconds 指标的平均值为0.8s,该指标的标签 instance=instanceX,则会触发告警 B,但由于匹配上了 Inhibition 规则,所以不会发送告警通知。



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈