动态与公告
- 产品动态
- 产品公告
- 安全公告
产品简介
- 产品概述
- 产品优势
- 产品架构
- 产品功能
- 应用场景
- 约束与限制
- 技术支持范围
- 产品发行版
购买指南
- EMR on CVM 计费说明
- EMR on TKE 计费说明
- EMR Serverless HBase 计费说明
- EMR Serverless TCBase 计费说明
快速入门
- EMR on CVM 快速入门
- EMR on TKE 快速入门
EMR on CVM 操作指南
- 规划集群
- 管理权限
- 配置集群
- 管理集群
- 管理服务
- 监控告警
- 智能管家
EMR on TKE 操作指南
- EMR on TKE 简介
- 配置集群
- 管理集群
- 管理服务
- 监控运维
- 应用分析
EMR Serverless HBase 操作指南
- EMR Serverless HBase 产品简介
- 配额与限制
- 规划实例
- 管理实例
- 监控告警
- 开发指南
EMR Serverless TCBase 操作指南
- EMR Serverless TCBase 产品简介
- 管理实例
- 管理服务
- 监控告警
EMR 开发指南
- Hadoop开发指南
- Spark 开发指南
- HBASE开发指南
- Phoenix on Hbase 开发指南
- Hive 开发指南
- Presto开发指南
- Sqoop 开发指南
- Hue 开发指南
- Oozie 开发指南
- Flume 开发指南
- Kerberos 开发指南
- Knox 开发指南
- Alluxio 开发指南
- Kylin 开发指南
- Livy 开发指南
- Kyuubi 开发指南
- Zeppelin 开发指南
- Hudi 开发指南
- Superset 开发指南
- Impala 开发指南
- Druid 开发指南
- Tensorflow 开发指南
- Kudu 开发指南
- Ranger 开发指南
- Kafka 开发指南
- StarRocks 开发指南
- Flink 开发指南
- JupyterLab 开发指南
- MLflow 开发指南
实践教程
- EMR on CVM 运维实践
- 数据迁移实践
- 自定义伸缩实践教程
API 文档
- History
- Introduction
- API Category
- Cluster Resource Management APIs
- Cluster Services APIs
- User Management APIs
- Data Inquiry APIs
- Scaling APIs
- Configuration APIs
- Other APIs
- Serverless HBase APIs
- YARN Resource Scheduling APIs
- Making API Requests
- Data Types
- Error Codes
常见问题
- EMR on CVM常见问题
服务等级协议
联系我们

Hive 访问 Hudi 数据

Download

聚焦模式

字号

最后更新时间： 2024-10-30 11:43:24

开发准备
确认您已经开通了腾讯云，并且创建了一个 EMR 集群，详情参考创建集群。
在创建 EMR 集群时在软件配置界面选择 Hive、Spark、Hudi 组件。
通过 spark 读写 Hudi 
登录 master 节点并切换 hadoop 用户，使用 SparkSQL 的 HoodieSparkSessionExtension 扩展进行数据读写：
spark-sql --master yarn \\
--num-executors 2 \\
--executor-memory 1g \\
--executor-cores 2 \\
--jars /usr/local/service/hudi/hudi-bundle/hudi-spark3.3-bundle_2.12-0.13.0.jar \\
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \\
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' \\
--conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog'
说明：
其中 --master 表示您的 master URL，--num-executors 表示 executor 数量，--executor-memory 表示 executor 的储存容量，以上参数也可以根据您的实际情况作出修改。 --jars 使用的依赖包版本在不同 EMR 版本中可能存在差异，请在 /usr/local/service/hudi/hudi-bundle 目录下查看并使用正确的依赖包。
建表：
-- 创建COW非分区表
﻿
﻿
spark-sql> create table hudi_cow_nonpcf_tbl (
  uuid int,
  name string,
  price double
) using hudi
tblproperties (
  primaryKey = 'uuid'
);
﻿
﻿
-- 创建COW分区表
﻿
﻿
spark-sql> create table hudi_cow_pt_tbl (
  id bigint,
  name string,
  ts bigint,
  dt string,
  hh string
) using hudi
tblproperties (
  type = 'cow',
  primaryKey = 'id',
  preCombineField = 'ts'
 )
partitioned by (dt, hh);
﻿
﻿
-- 创建MOR分区表
﻿
﻿
spark-sql> create table hudi_mor_tbl (
  id int,
  name string,
  price double,
  ts bigint,
  dt string
) using hudi
tblproperties (
  type = 'mor',
  primaryKey = 'id',
  preCombineField = 'ts'
)
partitioned by (dt);
写入数据：
-- insert into non-partitioned table
spark-sql> insert into hudi_cow_nonpcf_tbl select 1, 'a1', 20;
﻿
﻿
-- insert dynamic partition
spark-sql> insert into hudi_cow_pt_tbl partition (dt, hh) select 1 as id, 'a1' as name, 1000 as ts, '2021-12-09' as dt, '10' as hh;
﻿
﻿
-- insert static partition
spark-sql> insert into hudi_cow_pt_tbl partition(dt = '2021-12-09', hh='11') select 2, 'a2', 1000;
spark-sql> insert into hudi_mor_tbl partition(dt = '2021-12-09') select 1, 'a1', 20, 1000;
使用 Hive 查询 Hudi 表
登录 Master 节点并切换 hadoop 用户，执行以下命令连接 hive：
hive
添加 hudi 依赖包：
hive> add jar /usr/local/service/hudi/hudi-bundle/hudi-hadoop-mr-bundle-0.13.0.jar;
查看表：
hive> show tables;
OK
hudi_cow_nonpcf_tbl
hudi_cow_pt_tbl
hudi_mor_tbl
hudi_mor_tbl_ro
hudi_mor_tbl_rt
Time taken: 0.023 seconds, Fetched: 5 row(s)
查询数据：
hive> select * from hudi_cow_nonpcf_tbl;
OK
20230905170525412       20230905170525412_0_0   1               8d32a1cc-11f9-437f-9a7b-8ba9532223d3-0_0-17-15_20230905170525412.parquet        1       a1      20.0
Time taken: 1.447 seconds, Fetched: 1 row(s)
﻿
hive> set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
hive> select * from hudi_mor_tbl_ro;
OK
20230808174602565	20230808174602565_0_1	id:1	dt=2021-12-09	af40667d-1dca-4163-89ca-2c48250985b2-0_0-34-1617_20230808174602565.parquet	1	a1	20.0	1000	2021-12-09
Time taken: 0.159 seconds, Fetched: 1 row(s)
﻿
﻿
hive> set hive.vectorized.execution.enabled=false;
hive> select name, count(*) from hudi_mor_tbl_rt group by name;
a1	1
Time taken: 17.618 seconds, Fetched: 1 row(s)
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

弹性 MapReduce

Hive 访问 Hudi 数据

开发准备

通过 spark 读写 Hudi

使用 Hive 查询 Hudi 表

帮助和支持