tencent cloud

腾讯云数据仓库 TCHouse-P

产品动态
产品简介
产品概述
应用场景
节点规格
集群架构
购买指南
计费概述
购买方式
欠费说明
快速入门
操作指南
管理集群
访问数据仓库
监控告警
访问管理
性能指标
TPC-B
工具及下载
数据接入
使用 DataX 离线导入 TencentDB 数据
DataX 增量同步导入 MySQL 数据
使用外表高速导入或导出 COS 数据
使用外表同步 EMR 数据
使用 rule 规则实现云数据仓库 PostgreSQL upsert 操作
数仓开发
云上搭建 Airflow
API 文档
History
Introduction
API Category
Making API Requests
Information Query APIs
Instance APIs
Query APIs
Cluster Management APIs
Cluster Operation APIs
Data Types
Error Codes
实践教程
数仓表开发
表分布键选择
表存储格式选择
表分区使用
插件使用
冷备数据
统计信息和空间维护
常见问题
联系我们
文档腾讯云数据仓库 TCHouse-P数据接入使用 DataX 离线导入 TencentDB 数据

使用 DataX 离线导入 TencentDB 数据

PDF
聚焦模式
字号
最后更新时间: 2024-11-27 15:36:05
DataX 是一个开源的命令行工具,支持将 TencentDB 中全量或增量数据导入到腾讯云数据仓库 TCHouse-P 中。工具采用 Java 开发,用 JDBC 连接源数据库与目标数据库,可在 Windows 与 Linux 下运行,使用前需安装 Java 运行环境。
DataX 工具安装:
1. DataX 官网 下载源码进行编译。
2. 直接使用已编译好的版本,datax-v1.0.4-hashdata.tar.gz
下文主要介绍由 HashData 公司修改过的 DataX,其导入腾讯云数据仓库 TCHouse-P 效率更高,经测试可达到每秒10W条以上。以 MySQL 导入到腾讯云数据仓库 TCHouse-P 为例,配置文件如下:
{
"job": {
"setting": {
"speed": {
"channel": 3,
"byte": 1048576,
"record": 1000
},
"errorLimit": {
"record": 2,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "****",
"password": "****",
"column": [
"*"
],
"splitPk": "id",
"connection": [
{
"table": [
"test1"
],
"jdbcUrl": [
"jdbc:mysql://***:***/db1?serverTimezone=Asia/Shanghai"
]
}
]
}
},
"writer": {
"name": "gpdbwriter",
"parameter": {
"username": "******",
"password": "******",
"column": [
"*"
],
"preSql": [
"truncate table test1"
],
"postSql": [
"select count(*) from test2"
],
"segment_reject_limit": 0,
"copy_queue_size": 2000,
"num_copy_processor": 1,
"num_copy_writer": 1,
"connection": [
{
"jdbcUrl": "jdbc:postgresql://****:**/db1",
"table": [
"test1"
]
}
]
}
}
}
]
}
}
参数说明:
1. writer 需选择 gpdbwriter。使用 postgresqlwriter 也可写入腾讯云数据仓库 TCHouse-P,但插入效率会很低。
2. 参数具体含义和调优可以参考 DataX
3. mysqlreader 的 jdbc url 建议加上 serverTimezone=Asia/Shanghai 参数,避免时区问题导致的数据不一致。

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈