tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

数据质量

PDF
聚焦模式
字号
最后更新时间: 2026-03-12 10:37:07
数据质量监控节点可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。对数据源表的质量(如脏数据)进行监控,并支持自定义调度策略以周期性执行校验任务。本文为您介绍如何使用数据质量监控节点进行任务监控。

使用场景

数据质量功能,旨在及时感知源数据变更与ETL过程中产生的脏数据,自动拦截问题任务,阻断脏数据向下游扩散。这能有效避免因数据质量问题导致的决策偏差,同时减少因任务重跑带来的时间与资源消耗。详情请参见数据质量

使用限制

支持监控的表类型:EMR-hive/iceberg/starrocks、DLC、Doris、TCHouse-D/P/X
支持监控的表范围:
仅支持监控当前节点(即数据质量监控节点)所在工作空间绑定的数据源中的表。
每个节点仅支持监控一张表数据,但支持配置多个监控规则;说明:若您需要监控多张表,请创建多个节点使用。
仅支持在项目模式为简单模式且调度模式为任务调度的项目下使用
在数据开发(DataStudio)创建的数据质量监控规则,仅支持在数据开发运行,并执行修改、发布等管理操作。该规则也可在数据质量模块中查看,但不能触发调度运行,不允许执行相关管理操作。
若修改数据质量监控节点中配置的监控规则,且发布节点,则该节点原来生成的监控规则会被替换。

前提条件

已创建业务流程。数据开发基于工作流程执行不同开发操作,因此,创建节点前需先创建工作流,操作详情请参见周期工作流通用开发流程
已创建数据源并绑定至当前项目,且该数据源中已创建待监控表。执行数据质量监控任务前,您需先创建监控节点所要监控的数据源表。
已创建资源组。

创建步骤

步骤一:创建数据质量监控节点

1. 登录 WeData 控制台,切换至目标地域后,进入离线开发页面。单击左侧导航栏的离线开发 > 编排空间,在下拉框中选择对应项目。
2. 右键单击目标工作流,选择新建节点 > 数据质量 > 数据质量监控。

3. 在新建节点对话框输入节点名称,单击确认,节点创建完成,您可在节点中进行对应任务的开发与配置。


步骤二:配置数据质量监控规则

监控对象

进入新建监控界面,依次选择监控对象的数据源类型,数据源,数据库,监控表。


步骤三:配置执行策略


元素
说明
执行引擎
此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。
计算资源
选择 default
此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
执行资源
此处的执行资源即项目已经绑定的调度资源组。

步骤四:配置质量监控规则

单击规则列表上的新建规则,弹出新建规则弹窗,支持选择规则进行质量校验。支持一次性新增多个规则,新增的规则将会直接关联该监控。

元素
说明
规则类型
可选择系统模板、自定义模板、自定义 SQL(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
系统模板:WeData 已经内置了76个规则模板,可免费使用。其中有20个模板适用于推理表。各个模板的详细介绍说明可参考系统模板说明
自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明
自定义 SQL:可直接填写 SQL 语句作为检测规则。
监控对象
监控对象可分为:表级和字段级(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
表级,可对表行数,表大小(仅支持 Hive 表)进行监控。
字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。
选择模板
WeData 已经内置了76个规则模板,可免费使用。
(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数)
检测范围
可以选择全表条件扫描
全表:质量规则将对表下的全量数据进行校验
条件扫描:质量规则将只对此处填写的检测范围进行校验
例如:
pt_date='${yyyy-MM-dd-1d}'
说明:
此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。
具体时间变量的替换逻辑可参考 时间参数说明
触发条件
比较符:选择小于。
比较值:填入1。
表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
说明:
此处填写的触发条件为异常值,即:触发告警的条件。
触发等级
选择
触发等级可分为:高、中、低。
高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。
中:仅触发告警。
低:不触发告警,仅结果展示异常。

支持在规则列表单个/批量设置规则订阅信息;
支持在规则列表编辑/删除规则。

步骤五:配置任务调度

如您需要周期性执行创建的节点任务,可单击节点编辑页面右侧的调度配置,根据业务需求配置该节点任务的调度信息。配置详情请参见调度设置。


步骤六:任务保存、提交、审批、运行

您可根据需要执行如下调试操作,查看任务是否符合预期。
1. 保存并提交任务。
2. 运行任务。任务运行完成后,您可在节点编辑界面下方查看运行结果。若运行失败,可根据相应报错进行排查处理。
3. 高级运行(可选),如您希望运行时可修改调度时间,可选择高级运行。

4. 任务审批(可选)。
若您希望质量节点上线前由专人审批,可以登录 WeData 控制台,在项目管理 > 基本信息配置 > 审批配置中开启任务审批,并选择审批人。

开启后,质量节点提交前,会走审批流程,由审批人同意后方可提交上线。
说明:
开启审批后,若您是项目管理员或审批人是您自己,那么您提交任务时不会弹出审批页面。

后续步骤

任务运维:任务提交发布后,会基于节点的配置周期性运行,您可单击节点编辑界面右上角的运维,进入运维中心查看周期任务的调度运行情况(例如,节点运行状态、触发规则详情等)。详情请参见任务运维
数据质量:数据质量监控节点发布后,您也可进入数据质量模块查看该表的监控详情,但不允许执行修改、删除等管理操作。详情请参见数据质量监控列表。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈