tencent cloud

数据开发治理平台 WeData

产品动态
动态发布记录(2026年)
产品简介
产品概述
产品优势
产品架构
产品功能
应用场景
购买指南
计费概述
产品版本购买说明
执行资源购买说明
购买方式
欠费说明
退费说明
准备工作
账号和权限管理概述
添加白名单/安全组(可选)
通过 Microsoft Entra ID(Azure AD)单点登录(SSO)WeData
操作指南
管理控制台
项目管理
数据集成
Studio
数据开发
数据分析
数据科学
数据治理(with Unity Semantics)
API 文档
History
Introduction
API Category
Making API Requests
Smart Ops Related Interfaces
Project Management APIs
Resource Group APIs
Data Development APIs
Data Asset - Data Dictionary APIs
Data Development APIs
Ops Center APIs
Data Operations Related Interfaces
Data Exploration APIs
Asset APIs
Metadata Related Interfaces
Task Operations APIs
Data Security APIs
Instance Operation and Maintenance Related Interfaces
Data Map and Data Dictionary APIs
Data Quality Related Interfaces
DataInLong APIs
Platform Management APIs
Data Source Management APIs
Data Quality APIs
Platform Management APIs
Asset Data APIs
Data Source Management APIs
Data Types
Error Codes
WeData API 2025-08-06
服务等级协议
相关协议
隐私协议
数据处理和安全协议
联系我们
词汇表

Kudu 数据源

PDF
聚焦模式
字号
最后更新时间: 2024-11-01 17:12:17

使用限制

1. Kudu reader 必须配置 upperBound 和 lowerBound,并发设置才有效。
2. upperBound 和 lowerBound 在 kudu reader 中为 long 型,因此只有时间类型或整型字段才支持被设置为 Bound。
3. reader 利用 kudu-client 直连 Kudu server 读取数据,where 条件不支持 Impala SQL 语法。
4. 增量同步时,where 条件语法: create_time>= '${yyyy-MM-dd-1d HH:mm:ss}' and create_time < '${yyyy-MM-dd HH:mm:ss}'
Bound 目前支持整型和日期函数配置。日期函数配置使用方法:
// 转化为13位时间戳(毫秒)
TimestampMillis('yyyy-MM-ddTHH:mm:00+0800')
TimestampMillis('2023-07-10T00:00:00+0800')
TimestampMillis('2023-07-10 00:00:00')
TimestampMillis('2023-07-10')

// 转化为10位时间戳(秒)
TimestampSeconds('yyyy-MM-ddTHH:mm:00+0800')
TimestampSeconds('2023-07-10T00:00:00+0800')
TimestampSeconds('2023-07-10 00:00:00')
TimestampSeconds('2023-07-10')

Kudu 离线单表读取节点配置




参数
说明
数据来源
可用的 Kudu 数据源。
支持选择、或者手动输入需读取的库名称。
默认将数据源绑定的数据库作为默认库,其他数据库需手动输入库名称。
当数据源网络不联通导致无法直接拉取库信息时,可手动输入数据库名称。在数据集成网络连通的情况下,仍可进行数据同步。
支持选择、或者手动输入需读取的表名称。
切割键
指定用于数据分片的字段,指定后将启动并发任务进行数据同步。您可以将源数据表中某一列作为切分键,建议使用主键或有索引的列作为切分键。
筛选条件(选填)
在实际业务场景中,通常会选择当天的数据进行同步,将 where 条件指定为 gmt_create>$bizdate。where 条件可以有效地进行业务增量同步。如果不填写 where 语句,包括不提供 where 的 key 或 value,数据同步均视作同步全量数据。
upperBound
分区上限。
若 sql 建表语句中 partition “5”<= values <=“10”,则 lowerbound为“5” ,upperbound 为“10”;
若 sql 建表语句中 partition value =“x”,则 lowerbound 为“x”,upperbound 为“x\\000”;
lowerBound
分区下限。
若 sql 建表语句中 partition “5”<= values <=“10”,则 lowerbound为“5” ,upperbound 为“10”;
若 sql 建表语句中 partition value =“x”,则 lowerbound为“x”,upperbound 为“x\\000”;

Kudu 离线单表写入节点配置




参数
说明
数据去向
需要写入的 Kudu 数据源。
支持选择、或者手动输入需写入的库名称
默认将数据源绑定的数据库作为默认库,其他数据库需手动输入库名称。
当数据源网络不联通导致无法直接拉取库信息时,可手动输入数据库名称。在数据集成网络连通的情况下,仍可进行数据同步。
支持选择、或者手动输入需写入的表名称
当数据源网络不联通导致无法直接拉取表信息时,可手动输入表名称。在数据集成网络连通的情况下,仍可进行数据同步。
是否清空表
在写入该 Kudu 数据表前可以手动选择是否清空该数据表。
写入模式
Kudu 写入支持三种模式:
Append: 当主键/唯一性索引冲突时,冲突行无法写入
Overwrite:主键/唯一性索引冲突时,会先删除原有行,再插入新行
On duplicate key:主键/唯一性索引冲突时,新行会替换已指定的字段的语句
批量提交大小
一次性批量提交的记录数大小,该值可以极大减少数据同步系统与 Kudu 的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程 OOM 异常。

数据类型转换支持

读取

Kudu 数据类型
内部类型
int8、int16、int32、int64
Long
float、double、decimal
Double
string、varchar
String
unixtime_micors、date
Date
binary
Bytes
bool
Boolean

写入

内部类型
Kudu 数据类型
Long
int8、int16、int32、int64
Double
float、double、decimal
String
string、date
Date
unixtime_micors、varchar
Bytes
binary
Boolean
bool


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈