tencent cloud

弹性 MapReduce

动态与公告
产品动态
产品公告
安全公告
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
约束与限制
技术支持范围
产品发行版
购买指南
EMR on CVM 计费说明
EMR on TKE 计费说明
EMR Serverless HBase 计费说明
快速入门
EMR on CVM 快速入门
EMR on TKE 快速入门
EMR on CVM 操作指南
规划集群
管理权限
配置集群
管理集群
管理服务
监控告警
智能管家
EMR on TKE 操作指南
EMR on TKE 简介
配置集群
管理集群
管理服务
监控运维
应用分析
EMR Serverless HBase 操作指南
EMR Serverless HBase 产品简介
配额与限制
规划实例
管理实例
监控告警
开发指南
EMR 开发指南
Hadoop开发指南
Spark 开发指南
HBASE开发指南
Phoenix on Hbase 开发指南
Hive 开发指南
Presto开发指南
Sqoop 开发指南
Hue 开发指南
Oozie 开发指南
Flume 开发指南
Kerberos 开发指南
Knox 开发指南
Alluxio 开发指南
Kylin 开发指南
Livy 开发指南
Kyuubi 开发指南
Zeppelin 开发指南
Hudi 开发指南
Superset 开发指南
Impala 开发指南
Druid 开发指南
Tensorflow 开发指南
Kudu 开发指南
Ranger 开发指南
Kafka 开发指南
Iceberg 开发指南
StarRocks 开发指南
Flink 开发指南
JupyterLab 开发指南
MLflow 开发指南
实践教程
EMR on CVM 运维实践
数据迁移实践
自定义伸缩实践教程
API 文档
History
Introduction
API Category
Cluster Resource Management APIs
Cluster Services APIs
User Management APIs
Data Inquiry APIs
Scaling APIs
Configuration APIs
Other APIs
Serverless HBase APIs
YARN Resource Scheduling APIs
Making API Requests
Data Types
Error Codes
常见问题
EMR on CVM常见问题
服务等级协议
联系我们

Oozie 开发指南

PDF
聚焦模式
字号
最后更新时间: 2025-02-12 16:49:07
Apache Oozie 是一个开源的工作流引擎,被设计将 hadoop 生态组件的任务编排成 Workflow,然后对其进行调度、执行、监控。本文简单介绍如何在 EMR 上使用 Oozie,详细的使用文档请参考官网,另外这里建议用户通过 Hue 的图像化界面来使用 Oozie,使用文档请移步 Hue 开发文档。

前提条件

已创建弹性 MapReduce(简称EMR)的 Hadoop 集群,并选择了 Oozie 服务,详情请参见 创建 EMR 集群

访问 Oozie WebUI

如果您在购买集群时勾选了开启集群节点外网,就可以在 EMR 控制台上通过单击 WebUI 链接来访问。
对于国内用户,建议将 WebUI 时区设置为 GMT+08:00。


sharelib 的更新

在 EMR 集群中,已安装了 sharelib,所以您使用 Oozie 提交 Workflow 作业时,不需要再安装 sharelib。当然您也可以对 sharelib 进行编辑与更新,操作步骤如下:
cd /usr/local/service/oozie
tar -xf oozie-sharelib.tar.gz添加jar包到解压出的share目录下要支持的action对应的目录下bin/oozie-setup.sh sharelib create -fs hdfs://active-namenode-ip:4007 -locallib shareoozie admin --oozie http://oozie-server-ip:12000/oozie -sharelibupdate

在非 Kerberos 环境下提交 Workflow

在 oozie 的安装目录/usr/local/service/oozie,对文件 oozie-examples.tar.gz 进行解压,里面有 Oozie 支持的组件的 Workflow 示例:
tar -xf oozie-examples.tar.gz
这里以 action hive2来进行举例:
su hadoop。
cd examples/apps/hive2/。
修改 job.properties。
namenode 设置为 core-site.xml 下fs.defaultFS的值。
resourceManager 的值在 HA 模式下设置为 yarn-site.xml 下yarn.resourcemanager.ha.rm-ids的值,非 HA 模式下为yarn.resourcemanager.address的值。
jdbcURL 的值为jdbc:hive2://hive2-server:7001/default
hadoop fs -put examples。
oozie job -debug -oozie http://oozie-server-ip:12000/oozie -config examples/apps/hive2/job.properties -run。
oozie job -info 上一步返回的Job ID(或者通过WebUI查看) 。

在 Kerberos 环境下提交 Workflow

仍然以 action hive2 来进行举例,其它的注意事项请查看 hive2目录下的 README,此处不再赘述。
kinit -kt /var/krb5kdc/emr.keytab hadoop 的 principal && su hadoop。
cd examples/apps/hive2/。
mv job.properties.security job.properties && mv workflow.xml.security workflow.xml。
修改 job.properties:
namenode 设置为 core-site.xml 下fs.defaultFS的值。
resourceManager 的值在 HA 模式下设置为 yarn-site.xml 下yarn.resourcemanager.ha.rm-ids的值,非 HA 模式下为yarn.resourcemanager.address的值。
jdbcURL 的值为jdbc:hive2://hive2-server:7001/default
jdbcPrincipal 的值为hive.server2.authentication.kerberos.principal的值。
hadoop fs -put examples。
oozie job -debug -oozie http://oozie-server-ip:12000/oozie -config examples/apps/hive2/job.properties -run。
oozie job -info 上一步返回的 Job ID(或者通过 WebUI 查看)。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈