动态发布记录(2026年)
类型 | 说明 |
数据源类型 | 目前 WeData 支持以下数据源类型: EMR:EMR-Hive、EMR-StarRocks、EMR-iceberg、 DLC TCHouse-P TCHouse-X TCHouse-D Doris |
新增方式 | 目前 WeData 支持以下三种新增方式: 创建监控任务-新增规则:在监控下创建质量规则。 只能在一张表下新增规则(监控任务只能监控一张表)。 一次可添加多个规则。 多表新增:针对同一个数据源的多张表的多个字段批量创建监控规则。 一次可选择多张表、多个字段。 一次只可选择一个监控规则。 批量上传:上传 Excel 模板,批量导入。 一次只可针对同一种数据源类型。 只能支持自定义 SQL(不支持内置模板和自定义模板)。 一次只可上传100条。 |




元素 | 说明 |
执行引擎 | 此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。 |
计算资源 | 选择 default 此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。 |
执行资源 | 此处的执行资源即项目已经绑定的调度资源组。 |
应用参数 | 支持对Spark引擎设置应用参数。 举例:--executor-cores 2 --executor-memory 4G --num-executors 10 --driver-cores 1 --driver-memory 1G --conf spark_task_maxFailures=3 说明: 1. 如果【项目管理-存算引擎配置-EMR-队列信息】中选择了项目配置优先, 应用参数中输入的--queue参数将不会生效,任务会使用任务配置中选择的资源队列。 2. 广州地域暂时不支持该功能。 |
执行方式 | 此处可选择关联生产调度和离线周期检测: 关联生产调度:将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量监控任务。如发现异常,会第一时间通知处理人进行处理,并根据监控下规则级别阻塞下游任务执行避免问题数据扩展: 说明: 同一个质量检测任务可以关联多个生产任务;同一个生产任务也可以关联多个质量检测任务。 离线周期检测:即独立调度。对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。 |
关联任务 | 此处可选择需要关联的生产任务所属的模块,开发空间或数据集成,最多只能关联5个任务: 开发空间:展示开发空间中的目录树结构,支持搜索文件夹或任务名称 数据集成:展示数据集成中的任务列表 |


元素 | 说明 |
规则类型 | 可选择系统模板、自定义模板、自定义 SQL(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数): 系统模板:WeData 已经内置了76个规则模板,可免费使用。其中有20个模板适用于推理表。各个模板的详细介绍说明可参考系统模板说明。 自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明。 自定义 SQL:可直接填写 SQL 语句作为检测规则,详细操作指导可参考新增质量规则。 |
监控对象 | 监控对象可分为:表级和字段级(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数): 表级,可对表行数,表大小(仅支持 Hive 表)进行监控。 字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。 |
选择模板 | (如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数) |
检测范围 | 可以选择全表或条件扫描。 全表:质量规则将对表下的全量数据进行校验 条件扫描:质量规则将只对此处填写的检测范围进行校验 例如:
说明: 此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。 SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。 例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。 |
触发条件 | 比较符:选择小于。 比较值:填入1。 表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。 说明: 此处填写的触发条件为异常值,即:触发告警的条件。 |
触发等级 | 选择中。 触发等级可分为:高、中、低。 高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。 中:仅触发告警。 低:不触发告警,仅结果展示异常。 |










文档反馈