TiDB CDC性能优化，搞定延迟不是梦！

创作时间:

作者:

@小白创作中心

TiDB CDC性能优化，搞定延迟不是梦！

引用

CSDN

等

来源

https://blog.csdn.net/weixin_42073629/article/details/120108929

https://tidb.net/blog/tag/performance-evaluation

https://developer.aliyun.com/ask/623625

https://tidb.net/blog/b4b41c79

https://cn.pingcap.com/blog/tidb-in-zhihu-2024/

https://tidb.net/blog/tag/practical-case

https://developer.aliyun.com/article/1460020

https://cn.pingcap.com/article/post/17188.html

https://tidb.net/blog/e933b8b8

随着企业数据量的持续增长，实时数据同步和处理的需求日益迫切。作为一款优秀的分布式数据库，TiDB通过其Change Data Capture（CDC）功能，为企业提供了高效的数据同步解决方案。然而，在实际应用中，如何优化TiDB CDC的性能，减少同步延迟，一直是技术人员关注的重点。本文将结合具体案例，分享针对TiDB CDC v5.3.0版本的性能优化实践，帮助读者掌握关键参数调优和监控方法，实现高达12倍的性能提升。

TiDB CDC原理概述

TiDB CDC是TiDB数据库的变更数据捕获组件，主要用于实时捕获TiDB集群中的数据变更，并将这些变更数据输出到下游系统。其核心功能包括：

实时数据同步：将数据变更实时同步到下游系统，如Kafka、MySQL等。
数据备份：为数据恢复和历史数据查询提供支持。
数据集成：为数据仓库和大数据平台提供实时数据源。

TiDB CDC的工作流程主要包括三个阶段：

Puller阶段：从TiKV中拉取数据变更日志。
Sorter阶段：对拉取到的数据进行排序和缓存。
Sink阶段：将排序后的数据输出到下游系统。

关键参数调优

要优化TiDB CDC的性能，关键在于合理配置相关参数。以下是一些核心参数的调优建议：

per-table-memory-quota：控制每个表在排序阶段可使用的最大内存。适当增加该值可以提升处理效率，但需避免因设置过高导致系统资源耗尽。
worker-count：调整Sink阶段的并发数，以优化数据写入下游的速度。通过测试找到最佳并发数量，在保证性能的同时避免资源浪费。
max-batch-size 和 max-batch-memory：限制发送到Kafka消息的最大行数和内存使用，平衡处理速度与资源消耗，根据网络状况和下游处理能力进行调整。
超时相关参数：如dial-timeout、read-timeout和write-timeout，可根据实际网络环境进行优化。
其他重要参数：
- enable-old-value：开启后记录变更前的数据，对性能有一定影响，按需启用。
- mounter-worker-num和sink-worker-num：分别控制Mounter和Sink阶段的并发数，默认为8和16，可通过调整进一步优化性能。

监控与评估

要确保TiDB CDC的性能优化效果，需要关注以下关键指标：

Changefeed checkpoint lag：反映从上游数据变更到下游完成同步的时间差，正常情况下应小于10秒。
Changefeed resolved ts lag：表示TiCDC内部处理进度与上游的差距，过高可能意味着瓶颈。
QPS：关注同步任务的吞吐量，如达到60k QPS则表明性能较优。

实战案例分析

某企业在使用TiDB CDC进行数据同步时，遇到了明显的延迟问题。通过分析发现，主要瓶颈在于Sorter阶段的内存使用和Sink阶段的并发处理能力。以下是具体的优化过程：

调整Sorter阶段内存参数：
- 将per-table-memory-quota从默认的128MB提升至512MB，以支持更大的数据排序需求。
- 同时调整max-batch-memory至256MB，确保数据批处理的效率。
优化Sink阶段并发配置：
- 将sink-worker-num从默认的16提升至32，以增强并发处理能力。
- 调整worker-count至8，以平衡资源使用和处理速度。
网络和超时参数优化：
- 根据实际网络环境，将dial-timeout和read-timeout均设置为10秒。
- write-timeout设置为5秒，以快速响应写入异常。