tencent cloud

消息队列 CKafka 版

动态与公告
新功能发布记录
Broker 版本升级记录
公告
产品简介
TDMQ 产品系列介绍与选型
什么是消息队列 CKafka 版
产品优势
应用场景
技术架构
产品系列介绍
开源 Kafka 版本支持说明
与开源 Kafka 对比
高可用
使用限制
地域和可用区
相关云服务
产品计费
计费概述
价格说明
计费示例
按小时付费转包年包月
续费说明
查看消费明细
欠费说明
退费说明
快速入门
入门流程指引
准备工作
VPC 网络接入
公网域名接入
用户指南
使用流程指引
配置账号权限
创建实例
配置 Topic
连接实例
管理消息
管理消费组
管理实例
变更实例规格
配置限流
配置弹性伸缩策略
配置高级特性
查看监控和配置告警
使用连接器同步数据
实践教程
集群资源评估
客户端实践教程
日志接入
开源生态对接
替换支撑路由(旧)
迁移指南
迁移方案概述
使用开源工具迁移集群
故障处理
Topic 相关
客户端相关
消息相关
API 参考
History
Introduction
API Category
Making API Requests
Other APIs
ACL APIs
Instance APIs
Routing APIs
DataHub APIs
Topic APIs
Data Types
Error Codes
SDK 参考
SDK 概述
Java SDK
Python SDK
Go SDK
PHP SDK
C++ SDK
Node.js SDK
连接器相关 SDK
安全与合规
权限管理
网络安全
删除保护
事件记录
云 API 审计
常见问题
实例相关
Topic 相关
Consumer Group 相关
客户端相关
网络问题
监控相关
消息相关
服务协议
服务等级协议
联系我们
词汇表

查看监控和配置告警

PDF
聚焦模式
字号
最后更新时间: 2026-01-20 15:56:37

操作场景

CKafka 连接器支持对您账户下的数据同步任务态进行日常监控,您可以通过控制台实时查看详细的监控数据,了解任务的健康状况。同时您也可以针对关键指标配置告警规则,当监控指标达到设定的报警阈值时,可观测平台会通过邮件、短信、微信、电话等方式通知您,帮助您及时发现集群问题并进行处理,保障任务的稳定运行。

监控指标及含义

指标类型
任务指标
含义
单位
读取端
读速率
从数据源端 Kafka Topic 每秒读取的消息条数
Count/s
读流量
从数据源端 Kafka Topic 的每秒读取消息量
MB/s
数据读取失败数
从数据源端 Kafka Topic 读取失败的消息数量
Count/s
未读取数据堆积数量
消息已经生产但是还没有被读取的数量
Count
写入端
写速率
消息每秒写入到数据目标的数量
Count/s
写流量
消息每秒写入到数据目标的总流量
MB/s
任务同步延迟时间
消息从读取到写入完成的最大时间差
ms
任务性能指标
并发数
任务活跃的并发数量
Count
任务健康状态
1表示健康,0表示非健康(异常、失败等)
None
目标连接健康状态
数据同步任务所属连接的状态,1表示健康,0表示非健康(异常、从配置变更失败等)
None

查看监控数据

1. 登录 CKafka 控制台
2. 连接器 > 任务列表页面,单击目标任务的“ID”,进入基本信息页面。
3. 在基本信息页面,选择顶部的监控页签,设置好时间范围后,可以查看对应的监控指标。
在监控页面,您可以进行如下操作:
操作
图标
说明
时间对比



同环比对比按钮,单击可选择同比(上周同时段)、环比(昨天同时段)或自定义日期来对比集群状态在不同时段的变化情况。
刷新间隔



刷新选项,单击左侧刷新按钮可刷新图表内容,单击右侧下拉选项可选择图表整体自动刷新时间,支持1分钟和5分钟。
复制到Dashboard



单击可将图表复制到 Dashboard,关于 Dashboard 请参见 什么是 Dashboard
显示图例



勾选后可在图表上显示图例信息。

告警配置建议

本节为您介绍在使用 CKafka 连接器过程中需要重点关注的一些指标及其告警建议配置:
指标
告警配置建议
告警处理建议
数据读取失败数
统计粒度1分钟,“数据读取失败数”数值 > 100 Count/s,持续3个数据点,每15分钟告警一次
1. 排查上游系统是否运行正常,是否可以正常读取数据;
2. 排查上游是否存在网络问题,网络故障可能导致无法读取数据;
3. 排查上游系统的数据格式是否有调整;
排除掉上述原因后,仍然异常,请联系我们
任务健康状态
统计粒度1分钟,“任务健康状态”数值 = 0,持续3个数据点,每15分钟告警一次
排查上下游系统是否运行正常,如果上下游系统正常,读写也正常,而任务状态异常,请联系我们
源连接健康状态
统计粒度1分钟,“源连接健康状态”数值 = 0,持续3个数据点,每15分钟告警一次
排查上游(源端)系统是否服务正常,如果服务正常,网络正常,而连接状态异常,请联系我们
目标连接健康状态
统计粒度1分钟,“目标连接”数值 = 0,持续3个数据点,每15分钟告警一次
排查下游(目标端)系统是否服务正常,如果服务正常,网络正常,而连接状态异常,请联系我们

配置告警策略

1. 进入告警页面,您可以在以下两个入口中任选一个:
入口一:登录 CKafka 控制台,在连接器 > 任务列表页面,单击目标任务的“ID”,进入基本信息页面。顶部选择监控页签,单击监控图表右上角的配置告警按钮可以跳转到告警配置页面,页面默认设定的告警对象是跳转前对应的任务类型。

入口二:登录腾讯云可观测平台控制台,在告警配置页面单击新建策略,监控类型选择云产品监控,策略类型选择消息队列CKafka/连接器任务

2. 在“告警对象”处选择您要设置告警的任务对象。
3. 设置告警触发条件,支持选择模板手动配置,默认选择手动配置。
手动配置
选择模板
指标:例如“任务健康状态”,选择统计粒度为1分钟,则在1分钟内,任务健康状态连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
1. 勾选选择模板后,单击新建触发条件模板,跳转到设置触发条件模板页面。
2. 在左上角单击新建触发条件模板,在新建模板页面,配置告警策略。
策略类型:选择 消息队列CKafka/连接器任务 类目下的策略类型。
触发条件:根据我们提供的告警策略建议或者您实际的业务需求,设置好告警策略。

3. 确认无误后,单击保存,返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。

说明:
关于配置告警策略功能的更多介绍,请参考配置指标告警文档。
4. 单击下一步:配置告警通知,配置告警通知人。
您可以选择系统预设的通知模板,预设模板的告警对象通常为主账号负责人。如您需要通知到实例负责人或其他人员,也可以单击新建模板来新建通知模板,设置告警接收对象和接收渠道。
新建通知模板的详细操作请参考新建通知模板
5. 确认信息无误后,单击完成,即完成告警规则配置。



帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈