Sap Hana 数据迁移同步优化(二)
创作时间:
作者:
@小白创作中心
Sap Hana 数据迁移同步优化(二)
引用
CSDN
1.
https://m.blog.csdn.net/wankaimingzj/article/details/139178245
CloudCanal近期对SAP Hana源端链路进行了新一轮优化,主要涉及表级别CDC表、表级别任务位点和表级别触发器等方面。这些优化显著提升了数据同步的效率和可靠性,为数据库管理员和开发人员提供了更强大的工具。
简述
CloudCanal近期对Hana源端链路做了新一轮优化,这篇文章简要做下分享。本轮优化主要包含:
- 表级别CDC表
- 表级别任务位点
- 表级别触发器
单CDC表的问题
CloudCanal在实现Hana源端增量同步时,最初采用的是单CDC表的模式。即所有订阅表的增量数据(插入、更新、删除)通过触发器统一写入同一张CDC表。这样设计的初衷是简化架构和实现,但是同时也带来了一些问题。
- 触发器执行效率低:采用单个CDC表时,我们将订阅表的字段值拼接成JSON字符串;虽然这种方式统一,但增加了触发器的复杂性。当字段数量超过300个时,会导致触发器效率显著下降,影响同步性能。
- 增量数据积压:所有订阅表的变更数据集中写入单个CDC表,当A表增量数据较多而B表较少时,混合写入会导致无法及时处理B表数据,造成B表数据积压,影响同步及时性。
优化点
表级别CDC表
本次优化实现了表级别的CDC表设计,每张源表都对应一张CDC表,CDC表的结构仅在原表结构的基础上增加了几个位点字段,用于增量同步。
原表:
CREATE COLUMN TABLE "SYSTEM"."TABLE_TWO_PK" (
"ORDERID" INTEGER NOT NULL ,
"PRODUCTID" INTEGER NOT NULL ,
"QUANTITY" INTEGER,
CONSTRAINT "FANQIE_pkey_for_TA_171171268" PRIMARY KEY ("ORDERID", "PRODUCTID")
)
CDC表:
CREATE COLUMN TABLE "SYSTEM"."SYSTEMDB_FANQIE_TABLE_TWO_PK_CDC_TABLE" (
"ORDERID" INTEGER,
"PRODUCTID" INTEGER,
"QUANTITY" INTEGER,
"__$DATA_ID" BIGINT NOT NULL ,
"__$TRIGGER_ID" INTEGER NOT NULL ,
"__$TRANSACTION_ID" BIGINT NOT NULL ,
"__$CREATE_TIME" TIMESTAMP,
"__$OPERATION" INTEGER NOT NULL
);
-- other index
触发器(INSERT):
CREATE TRIGGER "FANQIE"."CLOUD_CANAL_ON_I_TABLE_TWO_PK_TRIGGER_104" AFTER INSERT ON "SYSTEM"."TABLE_TWO_PK" REFERENCING NEW ROW NEW FOR EACH ROW
BEGIN
DECLARE EXIT HANDLER FOR SQLEXCEPTION BEGIN END;
IF 1=1 THEN
INSERT INTO "SYSTEM"."SYSTEMDB_FANQIE_TABLE_TWO_PK_CDC_TABLE" (__$DATA_ID, __$TRIGGER_ID, __$TRANSACTION_ID, __$CREATE_TIME, __$OPERATION, "ORDERID","PRODUCTID","QUANTITY")
VALUES(
"SYSTEM"."CC_TRIGGER_SEQ".NEXTVAL,
433,
CURRENT_UPDATE_TRANSACTION(),
CURRENT_UTCTIMESTAMP,
2,
:NEW."ORDERID" ,
:NEW."PRODUCTID" ,
:NEW."QUANTITY"
);
END IF;
END;
这样的设计CDC表的好处如下:
- 表级别CDC表更加独立,方便进行多次订阅。
- 触发器只需要执行INSERT语句,因此对于字段较多的表也能够快速执行。
- 扫描消费CDC数据时,不需要做额外的处理,消费更简单。
表级别任务位点
表级CDC确实带来了许多好处,但在增量同步时,每个表都有自己的位点,原有的单一位点无法满足这种同步需求。因此,CloudCanal引入了表级别的增量同步位点,确保每个表能够消费各自对应的增量同步位点。位点的具体体现为:
[
{
"db": "SYSTEMDB",
"schema": "FANQIE",
"table": "TABLE_TWO_PK",
"dataId": 352,
"txId": 442441,
"timestamp": 1715828416114
},
{
"db": "SYSTEMDB",
"schema": "FANQIE",
"table": "TABLE_TWO_PK_2",
"dataId": 97,
"txId": 11212,
"timestamp": 1715828311123
},
...
]
这样做的好处如下:
- 位点精细控制:每个表都有自己的增量同步位点,使得增量任务可以针对特定表进行增量重放,而不是重放所有表的数据。这样可以实现更加精细的控制,减少不必要的数据传输和处理,提高同步效率。
- 数据并行处理:由于每个表有自己的位点,可以实现表级别的并行处理。不同表的增量数据可以同时进行处理,避免了单一位点导致的串行处理瓶颈,从而加快了同步速度。
核心同步原理
对于一个增量任务来说,源端涉及到扫描多个CDC表,需要保证单个表变更数据的顺序。增量消费基础处理模型如下:
- 根据源端订阅表数量,初始化相应数量的Table Worker工作线程。
- 每个Table Worker根据位点消费对应的CDC表数据。
实际的Table Worker工作线程会根据事务ID计算本次扫描范围,判断该范围是否有未提交的事务:
- 如果有未提交事务:扫描线程进入等待队列,等待下一轮扫描。
- 如果没有未提交事务:根据确定的范围消费增量数据,并更新单表任务位点。
未来方向
表级别位点产品化
位点状态在增量同步过程中至关重要,但针对表级别的位点,目前尚未提供可视化的界面;包括重置位点等功能都尚未支持产品化能力,后续会逐步完善。
总结
本文简要介绍了CloudCanal近期对Hana源端数据同步的优化,以及链路未来的方向,希望对读者有所帮助。
热门推荐
73平钢铁房成本揭秘:每平米造价多少?
企业数据安全合规的风险管理新思路
二里头遗址博物馆全面展示夏朝文明,2024年新发现再添实证
二里头遗址博物馆:展现中国最早王朝文明
丹参成分揭秘:复方丹参滴丸的科学价值
数字经济下的企业管理策略创新
英伟达H20芯片降价20%,AI算力市场格局生变
日行万步是骗局?警惕暴走后的这种脚跟痛!5个方法缓解→
慢性足跟痛和踝关节扭伤
健康饮食新宠:鲈鱼、鲫鱼、三文鱼大比拼
秋季最强体质提升秘籍:这4种鱼不可错过
东汉创立,唐代鼎盛:道教发展关键期
国家电网智能化:迈向能源新时代的创新之路
水电气一体化联控支付方案
UCL 2025年本科招生新政:新增5专业,语言要求收紧
牛津大学登顶最新《卫报》排名,学生满意度成关键
趣味数学游戏进课堂:激发小学生学习兴趣与团队协作
打破传统教学模式,小学数学合作学习效果显著
公馆扣肉:从苏东坡的“东坡肉”到合浦的文化名片
新旧小区门禁费用分摊有别,律师解析业主疑问
民主决策+科学管理:社区治理体系建设指南
物业管理费构成:九项开支详解
什么是地支?十二地支与生肖五行
郑州普瑞眼科医院白内障手术黑科技揭秘:从“看得见”到“看得清”
眼睛疲劳才会有红血丝?当心这些眼病前兆
机场巴士、高铁、地铁……青岛胶东国际机场十大交通方式全攻略
咸宁浪口温泉:冬季养生新宠
《辐射4》高智商劝说流:让敌人缴械投降的最强攻略
金弹子养殖方法和开花保果技巧详解
肾癌患者术后饮食指南:10大注意事项