指标名称 | 单位 | 推荐关注级别 | 告警建议配置 | 说明 | 告警处理建议 |
实例生产带宽百分比 | % | P0(默认告警) | 统计周期1分钟,>80%,持续5个周期,每10分钟告警一次 | 实例生产带宽占配额百分比,百分比占比过高可能导致生产被限流或延迟,影响消息实时性。 | |
实例消费带宽百分比 | % | P0(默认告警) | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 实例消费带宽占配额百分比,百分比占比过高可能消费者被限流或延迟。 | |
实例连接数 | Count | P0(默认告警) | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 客户端和服务器的连接数,可以反映集群的稳定性和性能。 | |
磁盘使用百分比 | % | P0(默认告警) | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 磁盘使用率表示集群各节点磁盘使用率的平均值。磁盘使用率过高会导致节点没有足够的磁盘空间容纳分配到该节点上,从而导致消息无法落盘。 | |
未消费的消息条数 | Count | P0(默认告警) | 统计周期5分钟,>8000,持续10个周期,每30分钟告警一次 | 堆积过多的消息会导致 Broker 节点磁盘使用率迅速上涨,无法再接入更多消息,服务会停止。 | 建议配置消费者客户端监控并优化消费能力,当堆积量持续超过5000条时: 1. 扩容消费者实例或提升单实例消费线程数; 2. 检查消费者组是否存在宕机实例或消费卡顿; 3. 设置弹性动态消息保留策略,防止积压对磁盘产生影响。 |
指标名称 | 单位 | 推荐关注级别 | 告警建议配置 | 说明 | 处理建议 |
ZK 断联次数 | Count | P0(默认告警) | 统计周期1分钟,>3count,持续5个周期,每30分钟告警一次 | Broker 和 Zookeeper 之间的长连接断开重连的次数。网络波动或者集群负载较高有可能会引起连接断开&重连,出现时会发生 leader 切换。 无正常值范围。该值是一个累加值,Broker 启动后,断连一次加1,只有 Broker 重启才会置0。 ZK 断连次数是累加的,次数大不表示集群有问题。需观察 ZK 断联频率,若ZK断联情况出现较频繁,则需进一步排查处理。 | |
ISR 扩充次数 | Count | P0(默认告警) | 统计周期1分钟,>10count,持续5个周期,每30分钟告警一次 | 无正常值范围,当集群出现波动时,会出现扩充。 非频繁波动(如每小时<3次)无需干预,若该值持续增加需要排查。 | 建议保障集群负载水位处于80%以下,超过建议升配处理。具体操作请参考升级集群规格。 若集群水位正常,客户端可以优化生产端参数,调整 linger.ms 不为0,同时设置 ack=1,保证吞吐情况下,减少集群的同步压力。 如若频繁出现 ISR,生产或消费受到影响,且长时间未恢复,请联系我们。 |
ISR 收缩次数 | Count | P0(默认告警) | 统计周期1分钟,>3count,持续5个周期,每30分钟告警一次 | 无正常值范围,当集群出现波动时,会出现收缩。 瞬时波动无影响。若长期频繁出现,则需检查。 | 建议保障集群负载水位处于80%以下,超过建议升配处理。 如集群水位正常,建议对高负载分区进行手动分区平衡。 对于带 key 的消息,通过设置分区策略保障写入均衡。 如果单分区出现瓶颈,则增加分区提高写入并行度。 |
未同步副本数 | Count | P0(默认告警) | 统计周期1分钟,>3count,持续5个周期,每30分钟告警一次 | 为了保证您的实例正常运行,CKafka 为其设置了部分内置 Topic。这些 Topic 在某些情况下处于离线状态,但会被计入未同步副本数中,这并不影响您的业务正常运行。 正常情况下,未同步副本数应在5以下。如果曲线水位长期大于5,表示需要进行处理。 Broker 偶尔波动,曲线值凸起后,一段时间后,又回归平稳,属于正常现象。 | 当实例存在未同步副本,通常情况下是由于 Broker 节点异常或网络因素,可通过 Broker 日志来排查原因。 |
节点异常 | Count | P0(默认告警) | 统计周期1分钟,>3count,持续5个周期,每30分钟告警一次 | 节点异常原始指标来源于BrokerMetrics,如果当前节点的Metrics 信息为空,则认为当前节点异常。 常见情况为底层节点自身异常,不响应网络请求。 |
指标名称 | 单位 | 推荐关注级别 | 告警建议配置 | 说明 | 告警处理建议 |
实例最大生产流量 | MB/s | P1(建议告警) | 根据购买规格设定,推荐阈值为规格带宽×80%,统计周期1分钟,持续5个周期,每30分钟告警一次 | 实例单个副本的生产消息峰值带宽,反映业务吞吐量,提示带宽成本。超过购买规格可能会导致限流,需要及时调整。 | |
实例最大消费流量 | MB/s | P1(建议告警) | 根据购买规格设定,推荐阈值为规格带宽×80%,统计周期1分钟,持续5个周期,每30分钟告警一次 | 实例消费峰值带宽,反映消费端处理能力。超过购买规格可能导致限流,需要及时调整。 | |
实例落盘的消息总条数 | Count | P1(建议告警) | 根据实际业务规格设定,推荐阈值为磁盘容量/平均消息大小×60%,统计周期1分钟,持续5个周期,每30分钟告警一次 | 实例落盘的消息总条数(不包含副本),数值过高可能代表消费者消费能力不足,需优化消费者处理速度或进行磁盘扩容。 | |
Topic 最大生产流量 | MB/s | P1(建议告警) | 根据购买规格设定,推荐阈值为 Topic 规格带宽×80%,统计周期1分钟,持续5个周期,每30分钟告警一次 | Topic 的实际生产流量在单位时间内最大值(不包含副本产生的流量)。 | |
Topic 最大消费流量 | MB/s | P1(建议告警) | 根据购买规格设定,推荐阈值 Topic 规格带宽×80%,统计周期1分钟,持续5个周期,每30分钟告警一次 | Topic 的实际消费流量在单位时间内最大值(不包含副本产生的流量)。 | |
Topic 落盘的消息总条数 | Count | P1(建议告警) | 根据实际业务规格设定,推荐阈值为磁盘容量/Topic 数量/平均消息大小×60%,统计周期1分钟,持续5个周期,每30分钟告警一次 | Topic 实际落盘的消息总条数(不包含副本),持续增长可能代表订阅 Topic 的消费能力不足,需检查消费者组状态或缩短消息保留时间。 |
指标名称 | 单位 | 推荐关注级别 | 告警建议配置 | 说明 | 告警处理建议 |
Broker 节点存活 | % | P1(建议告警) | 统计周期1分钟,<100%,持续5个周期,每30分钟告警一次 | 各 Broker 节点服务状态,通过心跳机制检测节点可用性。 若节点存活率小于正常值,即存在 Broker 宕机情况,将触发 ISR 收缩。 告警与默认告警策略即将上线。 | 当节点状态异常时,建议立即重启故障节点并检查系统资源占用情况。 若多次重启失败,请联系在线客服。 |
集群负载 | % | P1(建议告警) | 统计周期1分钟,>80%,持续5个周期,每30分钟告警一次 | 集群整体负载情况,所有节点中取最大值。 单 AZ 部署,集群负载< 70% 。2 AZ 部署时,集群常态负载< 35% 。3 AZ 部署时,集群常态负载<47% 。 如果带宽使用率低但是集群负载高,需要结合集群负载指标进行集群带宽扩容。 告警与默认告警策略即将上线。 |




文档反馈