tencent cloud

腾讯云数据仓库 TCHouse-P

产品动态
产品简介
产品概述
应用场景
节点规格
集群架构
购买指南
计费概述
购买方式
欠费说明
快速入门
操作指南
管理集群
访问数据仓库
监控告警
访问管理
性能指标
TPC-B
工具及下载
数据接入
使用 DataX 离线导入 TencentDB 数据
DataX 增量同步导入 MySQL 数据
使用外表高速导入或导出 COS 数据
使用外表同步 EMR 数据
使用 rule 规则实现云数据仓库 PostgreSQL upsert 操作
数仓开发
云上搭建 Airflow
API 文档
History
Introduction
API Category
Making API Requests
Information Query APIs
Instance APIs
Query APIs
Cluster Management APIs
Cluster Operation APIs
Data Types
Error Codes
实践教程
数仓表开发
表分布键选择
表存储格式选择
表分区使用
插件使用
冷备数据
统计信息和空间维护
常见问题
联系我们
文档腾讯云数据仓库 TCHouse-P数据接入DataX 增量同步导入 MySQL 数据

DataX 增量同步导入 MySQL 数据

PDF
聚焦模式
字号
最后更新时间: 2024-11-27 15:36:05
本文主要介绍使用 HashData 公司修改过的 DataX,将其 MySQL 中的数据增量同步到腾讯云数据仓库 TCHouse-P。
使用 DataX 将 MySQL 中的数据增量同步到腾讯云数据仓库 TCHouse-P 中,具体步骤如下:
1. 从本地文件读取上次同步成功之后的最大时间 MaxTime(初始同步时,可以结合业务选取指定一个初始时间值)。
2. 将 MaxTime 作为本次同步时间 LastTime(增量同步的下限),将当前时间 CurTime 作为同步增量的上限。
3. 修改 datax.json 配置,指定同步表的时间区间(SQL 的 where 条件)为:[LastTime, CurTime)
4. 执行 datax 同步,同步成功后,将 CurTime 写入本地文件供下次同步使用。
5. 循环执行1 - 4实现多次增量同步。
datax.json 配置文件示例如下:
{
"job": {
"setting": {
"speed": {
"channel": 3,
"byte": 1048576,
"record": 1000
},
"errorLimit": {
"record": 2,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"username": "******",
"password": "******",
"connection": [
{
"jdbcUrl": [
"jdbc:mysql://***:***/test?serverTimezone=Asia/Shanghai"
],
"querySql": [
"select * from cdw_test_table where updateTime >= '${lastTime}' and updateTime < '${currentTime}'"
]
}
]
}
},
"writer": {
"name": "gpdbwriter",
"parameter": {
"username": "******",
"password": "******",
"column": [
"*"
],
"segment_reject_limit": 0,
"copy_queue_size": 2000,
"num_copy_processor": 1,
"num_copy_writer": 1,
"connection": [
{
"jdbcUrl": "jdbc:postgresql://***:***/***",
"table": [
"ods_cdw_test_table"
]
}
]
}
}
}
]
}
}

帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈