tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

弹性 MapReduce(EMR)

PDF
聚焦模式
字号
最后更新时间: 2025-06-10 11:53:31
WeData 支持集成 EMR 计算引擎创建 Hive、MR、Spark、Trino 和 Kyuubi 等任务,实现 EMR 中的表管理和任务配置。本文介绍 WeData 在 EMR 集群上进行任务开发的注意事项。

使用背景

弹性 MapReduce (EMR) 是基于云原生技术和泛 Hadoop 生态开源技术的安全、低成本、高可靠的开源大数据平台。提供易于部署及管理的 Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio 等开源大数据组件,帮助客户高效构建云端企业级数据湖技术架构。基于 WeData 和 EMR 可以快速构建基于开源大数据的数据仓库。详情请参见 EMR 创建和管理集群

使用限制

限制类型
限制说明
弹性 MapReduce(EMR)集群类型
目前 WeData 支持 EMR on CVM 及 EMR on TKE 集群。
目前 EMR 支持创建的版本如下:
"EMR-V2.0.1"
"EMR-V2.2.0"
"EMR-V2.3.0"
"EMR-V2.5.0"
"EMR-V2.6.0"
"EMR-V2.7.0"
"EMR-V3.0.0"
"EMR-V3.1.0"
"EMR-V3.2.0"
"EMR-V3.2.1"
"EMR-V3.3.0"
"EMR-V3.4.0"
"EMR-V3.5.0"
WeData 功能
WeData 数据开发中支持的 EMR 任务类型包括:HiveSQL、SparkSQL、Spark、MapReduce、PySpark、Shell、Impala、Trino。其中 Kyuubi 数据源需要使用 SparkSQL 类型的任务来使用。

使用流程

在 WeData 中使用 EMR 的主要流程包括以下步骤:

准备工作

准备类别
操作说明
参考链接
弹性 MapReduce(EMR)
为了保证在 WeData 中顺利使用 EMR 相关的建表和数据开发功能,需要保证 EMR 集群满足基本的配置。至少需要 EMR 集群中安装 Hive 和 Spark 服务。其他服务如果在WeData 中使用也需要在 EMR中 做相应的开启。例如,ranger、Kyuubi 等。
-

WeData
绑定 EMR 的集群,从 EMR 集群中获取最新的集群配置。配置对应的认证方式和账号映射。



-

任务开发

创建工作流
任务开发基于数据工作流编排实现计算任务的流程化执行,创建计算任务前需要创建数据工作流,然后在工作流中编排计算任务运行流程。
创建 EMR 节点
WeData 基于 EMR 引擎进行任务开发,EMR 集群上不同类型的组件服务在 WeData 中默认作为系统数据源接入(Hive、Trino、kyuubi 和 Impala),用户可以根据业务需要选择合适的组件创建 EMR 服务资源,将 EMR 集群与 WeData 中的项目进行绑定。创建 EMR 组件服务,详情请参见 EMR 新增组件
任务开发
完成 EMR 引擎与 WeData 项目绑定后,在已创建的数据工作流中创建 EMR 支持的计算任务类型,在任务节点的配置过程中,使用 EMR 提供的系统数据源进行任务开发、调试。
任务提交
使用 EMR 系统源数据配置调试无误后,保存对应的计算任务,再将计算任务所在的工作流提交发布后,即可在运维中心调度运行。

后续操作

EMR 任务开发完成后,可以在 WeData 进行 EMR 数据资产管理、数据质量监控与数据安全管理,保证 EMR 数据能够正常产出,并进行数据质量与数据安全方面的流程把控。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈