tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

监控任务下新增规则

PDF
聚焦模式
字号
最后更新时间: 2026-02-26 11:10:58

前置说明

类型
说明
数据源类型
目前 WeData 支持以下数据源类型:
EMR:EMR-Hive、EMR-StarRocks、EMR-iceberg、
DLC
TCHouse-P
TCHouse-X
TCHouse-D
Doris
新增方式
目前 WeData 支持以下三种新增方式:
创建监控任务-新增规则:在监控下创建质量规则。
只能在一张表下新增规则(监控任务只能监控一张表)。
一次可添加多个规则。
多表新增:针对同一个数据源的多张表的多个字段批量创建监控规则。
一次可选择多张表、多个字段。
一次只可选择一个监控规则。
批量上传:上传 Excel 模板,批量导入。
一次只可针对同一种数据源类型。
只能支持自定义 SQL(不支持内置模板和自定义模板)。
一次只可上传100条。

创建质量监控任务

进入治理中心 > 数据监控 > EMR 界面,单击新增监控,开始新增一个质量监控。


步骤一:配置监控信息

监控对象

进入新建监控界面,依次选择监控对象的数据源类型,数据源,数据库,监控表。


基础信息

填入监控名称,默认监控名称为监控表名_创建监控时间戳
说明:
建议填入易于辨别的监控名称,方便理解监控任务实例中检测结果的业务意义。
例如:监控名称为“华北地区销量表每月例行检测”时,运维管理中将展示“华北地区销量表每月例行检测”每次运行是检测成功或检测失败。
同时,为了方便解读,您也可以加入业务描述。


执行策略



元素
说明
执行引擎
此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。
计算资源
选择 default
此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
执行资源
此处的执行资源即项目已经绑定的调度资源组。
应用参数
支持对Spark引擎设置应用参数。
举例:--executor-cores 2 --executor-memory 4G --num-executors 10 --driver-cores 1 --driver-memory 1G --conf spark_task_maxFailures=3
说明:
1. 如果【项目管理-存算引擎配置-EMR-队列信息】中选择了项目配置优先, 应用参数中输入的--queue参数将不会生效,任务会使用任务配置中选择的资源队列。
2. 广州地域暂时不支持该功能。
执行方式
此处可选择关联生产调度离线周期检测

关联生产调度:将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量监控任务。如发现异常,会第一时间通知处理人进行处理,并根据监控下规则级别阻塞下游任务执行避免问题数据扩展:
说明:
同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。
离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。
关联任务
此处可选择需要关联的生产任务所属的模块,开发空间数据集成,最多只能关联5个任务
开发空间:展示开发空间中的目录树结构,支持搜索文件夹或任务名称
数据集成:展示数据集成中的任务列表
单击下一步后,监控创建完毕,进入关联规则界面。

步骤二:关联规则

关联规则展示在同一张表下,未关联其他监控任务的规则。支持对质量规则进行编辑或关联(可选)。
注意:
未关联监控的质量规则将不会执行。

若已有规则无法满足业务需要,单击关联已有规则
展示已关联此监控的所有规则,之前关联的所有质量规则将会在此处回显。

新建规则

单击规则列表上的新建规则,弹出新建规则弹窗,支持选择进行质量校验。
支持一次性新增多个规则,新增的规则将会直接关联该监控。

解释说明:
元素
说明
规则类型
可选择系统模板、自定义模板、自定义 SQL(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
系统模板:WeData 已经内置了76个规则模板,可免费使用。其中有20个模板适用于推理表。各个模板的详细介绍说明可参考系统模板说明
自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明
自定义 SQL:可直接填写 SQL 语句作为检测规则,详细操作指导可参考新增质量规则
监控对象
监控对象可分为:表级和字段级(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
表级,可对表行数,表大小(仅支持 Hive 表)进行监控。
字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。
选择模板
WeData 已经内置了56个规则模板,可免费使用。各个模板的详细介绍说明可参考系统模板说明
(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数)
检测范围
可以选择全表条件扫描
全表:质量规则将对表下的全量数据进行校验
条件扫描:质量规则将只对此处填写的检测范围进行校验
例如:
pt_date='${yyyy-MM-dd-1d}'
说明:
此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。
具体时间变量的替换逻辑可参考 时间参数说明
触发条件
比较符:选择小于。
比较值:填入1。
表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
说明:
此处填写的触发条件为异常值,即:触发告警的条件。
触发等级
选择
触发等级可分为:高、中、低。
高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。
中:仅触发告警。
低:不触发告警,仅结果展示异常。

试运行

1. 选择希望试运行的规则,单击试运行。
2. 修改调度时间,并单击开始试运行,试运行结束后,您可单击点击查看运行结果
说明:
由于插入数据时,填写的数据分区为2024 - 05 - 01,此处可填写2024 - 05 - 02。


查看试运行结果

1. 进入执行实例与结果页面后,可单击左侧下拉三角形,展开规则明细。
2. 单击某一条监控的执行历史,查看历史运行结果。


批量解除关联

批量解除所选规则与该监控的关联。
注意:
未关联监控的质量规则将不会执行。
若想重新关联此规则,可在关联规则页面中进行操作。


配置订阅

当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
进入订阅设置界面,勾选订阅方式,设置接收人,单击保存即可。


开启监控

根据监控的试运行结果,可在监控状态列开启关闭监控(监控在创建后默认开启)
说明:
只有启用状态的监控任务,才会自动运行。




附:推理表模板使用说明

针对推理表,支持20个内置模板,不同模版填写的参数有差异。根据参数差异,将模版归为3个类别,本文档在3个类别分别取一个模版作为样例说明。

类别1: 取“卡方检验”作为样例。
新增参数有特征列、基线数据表。必填
注意:
特征列需选择表内的标签列的字段,基线数据表需选择基线表。若所选字段不对,会有三种可能的结果:
1. 任务直接报错。
2. 计算结果为空,无数据(页面表现为“-”)。
3. 有数据,但是对模型训练没啥实际参考意义。

类别2: 取“准确率”作为样例。
新增参数有 标签列和预测列,必填。
注意:
标签列和预测列需选择表内的标签列和预测列的字段,若所选字段不对,会有三种可能的结果:
1. 任务直接报错。
2. 计算结果为空,无数据(页面表现为“-”)。
3. 有数据,但是对模型训练没啥实际参考意义。

类别3: 取“预测奇偶性”作为样例。
新增参数有 标签列、正类标签值、预测列、对比列、保护值,必填。
注意:
标签列、正类标签值、预测列、对比列、保护值需选择表内的正类标签值、预测列、对比列、保护值的字段,若所选字段不对,会有三种可能的结果:
1. 任务直接报错。
2. 计算结果为空,无数据(页面表现为“-”)。
3. 有数据,但是对模型训练没啥实际参考意义。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈