Kafka架构和原理机制（图文全面详解）

创作时间:

作者:

@小白创作中心

Kafka架构和原理机制（图文全面详解）

引用

来源

https://cloud.tencent.com/developer/article/2146785

Apache Kafka是一种分布式发布-订阅消息系统，最初由LinkedIn开发，现已成为Apache顶级开源项目。本文将全面解析Kafka的基本架构、工作原理、Zookeeper的作用、核心特性以及典型应用场景。

一、Kafka简介

Apache Kafka是一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka的主要应用场景包括日志收集系统和消息系统。

二、Kafka基本架构

Kafka的架构主要包括以下组件：

话题（Topic）：特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名；
生产者（Producer）：能够发布消息到话题的任何对象；
服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或Kafka集群；
消费者（Consumer）：可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息；

上图中可以看出，生产者将数据发送到Broker代理，Broker代理有多个话题topic，消费者从Broker获取数据。

三、Kafka基本原理

生产者将数据生产出来，交给Broker进行存储，消费者需要消费数据时，就从Broker中去拿出数据来，然后完成一系列对数据的处理操作。

多个Broker协同合作，Producer和Consumer部署在各个业务逻辑中被频繁的调用，三者通过Zookeeper管理协调请求和转发，这样一个高性能的分布式消息发布订阅系统就完成了。图上有个细节需要注意，Producer到Broker的过程是push，也就是有数据就推送到Broker，而Consumer到Broker的过程是pull，是通过Consumer主动去拉数据的。

四、Zookeeper在Kafka的作用

无论是Kafka集群，还是Producer和Consumer，都依赖于Zookeeper来保证系统可用性集群保存一些meta信息。
Kafka使用Zookeeper作为其分布式协调框架，可以很好地将消息生产、消息存储、消息消费的过程结合在一起。
Kafka借助Zookeeper，让生产者、消费者和Broker在内的所有组件，在无状态的情况下，建立起生产者和消费者的订阅关系，并实现生产者与消费者的负载均衡。

五、Kafka的特性

高吞吐量、低延迟：Kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition，consumer group对partition进行consume操作。
可扩展性：Kafka集群支持热扩展。
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失。
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）
高并发：支持数千个客户端同时读写。

六、Kafka的应用场景

日志收集：一个公司可以用Kafka收集各种服务的log，通过Kafka以统一接口服务的方式开放给各种consumer，例如：hadoop、Hbase、Solr等。
消息系统：解耦和生产者和消费者、缓存消息等。
用户活动跟踪：Kafka经常被用来记录web用户、或者app用户的各种活动，例如：浏览网页、搜索、点击等活动。这些活动信息，被各个服务器发布到Kafka的topic中，订阅者再通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。
运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈等，例如：报警和报告。
流式处理：例如：spark streaming、storm。