资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Apache Kafka性能调优：提升数据处理效率的实战技巧

创作时间:

作者:

@小白创作中心

Apache Kafka性能调优：提升数据处理效率的实战技巧

引用

CSDN

等

来源

https://blog.csdn.net/qq_28410283/article/details/111263768

https://m.blog.csdn.net/qq_46028493/article/details/130129595

https://cloud.baidu.com/article/3190558

https://blog.csdn.net/qq_40124555/article/details/129323461

https://blog.csdn.net/u010002184/article/details/113354392

https://zhuanlan.zhihu.com/p/112536851

https://m.blog.csdn.net/2401_85379453/article/details/140491700

https://developer.aliyun.com/article/548198

https://www.cnblogs.com/listenfwind/p/12465409.html

10.

https://www.cnblogs.com/freeweb/p/18144606

11.

https://www.cnblogs.com/gxc2015/p/9835837.html

12.

https://m.toutiao.com/article/7116400326013764107/

Apache Kafka作为一款分布式流处理平台，以其高吞吐量、低延迟和可扩展性在实时数据处理领域广受欢迎。然而，要充分发挥其性能优势，合理的配置和优化至关重要。本文将从Broker配置、分区与副本设置以及生产者和消费者优化等多个维度，深入探讨Kafka的性能调优技巧。

Kafka架构与基本概念

在深入性能调优之前，我们先简要回顾Kafka的核心组件和工作原理：

Broker：Kafka集群中的服务器实例，负责消息的存储和传输。
Topic：消息的主题，用于对消息进行分类。
Partition：分区，是Kafka实现并行处理的关键，每个Topic可以有多个Partition。
Replica：副本，用于实现数据冗余和高可用性。
Producer：生产者，负责向Kafka发送消息。
Consumer：消费者，负责从Kafka读取消息。

Broker配置优化

Broker是Kafka集群的核心组件，其配置直接影响系统性能。以下是一些关键配置参数：

JVM优化

Java相关系统自然离不开JVM的优化。首先想到的肯定是Heap Size的调整。推荐配置：一般HEAP SIZE的大小不超过主机内存的50%。

vim bin/kafka-server-start.sh
调整KAFKA_HEAP_OPTS="-Xmx16G -Xms16G”的值

网络和IO操作线程配置

num.network.threads：broker处理消息的最大线程数。推荐配置为CPU核数加1。
num.io.threads：broker处理磁盘IO的线程数。推荐配置为CPU核数的2倍，最大不超过3倍。

num.network.threads=9
num.io.threads=16

Socket Server配置

socket.request.max.bytes：防止OOM异常的socket server可接受数据大小。根据业务数据包大小适当调整，但不能超过int类型范围（2147483647）。

socket.request.max.bytes=2147483600

日志刷盘策略

log.flush.interval.messages：producer写入消息数达到该值时刷盘。
log.flush.interval.ms：时间间隔刷盘。推荐配置分别为10000条消息和1秒。

log.flush.interval.messages=10000
log.flush.interval.ms=1000

日志保留策略

log.retention.hours：日志保留时长。推荐保留3天。
log.segment.bytes：段文件大小。配置为1GB有利于快速回收磁盘空间。

log.retention.hours=72
log.segment.bytes=1073741824

Replica复制配置

num.replica.fetchers：拉取线程数。推荐适当调大。
replica.fetch.min.bytes：最小字节数。默认值即可。
replica.fetch.max.bytes：最大字节数。推荐5MB。
replica.fetch.wait.max.ms：最大等待时间。建议使用默认值。

num.replica.fetchers=3
replica.fetch.min.bytes=1
replica.fetch.max.bytes=5242880

分区数量配置

num.partitions：默认partition数量。如果topic在创建时没有指定partition数量，默认使用此值。推荐配置为5。

num.partitions=5

分区与副本设置

分区机制是Kafka实现高吞吐的关键，但需要合理配置：

分区个数选择

分区越多，资源消耗越大。推荐配置为broker机器数量的2-3倍。如果无法估算，可以通过基准测试确定最优值。

分区写入策略

Kafka支持三种分区策略：

轮询策略：默认策略，按顺序轮流分配消息到每个分区。
随机策略：较老版本的默认策略，均衡性不如轮询策略。
按键保存策略：根据消息键的hashCode值分配分区，适用于需要顺序存储的场景。

自定义分区

可以通过实现Partitioner.class类来自定义分区策略。例如：

package kafkaconf;

import java.util.List;
import java.util.Map;
import java.util.concurrent.ThreadLocalRandom;
import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;
import org.apache.kafka.common.PartitionInfo;

public class MyParatitioner implements Partitioner {
    @Override
    public void configure(Map<String, ?> configs) {
    }

    @Override
    public int partition(String topic, Object key, byte[] keyBytes,
                         Object value, byte[] valueBytes, Cluster cluster) {
        // 自定义分区逻辑
    }
}