Apache Kafka：高吞吐分布式消息系统

需积分: 0 100 浏览量更新于2024-06-25 收藏 2.92MB PDF 举报

"分布式消息系统Kafka.pdf" Apache Kafka是一个高度可扩展的分布式消息系统，以其高吞吐、低延迟和容错性而闻名。它由Scala和Java编写，主要用于在分布式环境中实现实时数据流处理。Kafka设计的核心目标是提供一种高效的数据传递机制，使得大量数据可以在生产者和消费者之间快速流动。 Kafka系统架构主要包括三个关键组件：生产者（Producer）、消费者（Consumer）和代理（Broker）。生产者负责创建和发送消息到主题（Topic），消费者则从主题中消费消息。代理是Kafka集群的核心，它们接收并存储生产者发送的消息，并向消费者提供消息。每个主题可以被划分为多个分区（Partition），分区是物理上的概念，分布在不同的broker上，以实现水平扩展和负载均衡。 Kafka的应用场景广泛，例如： 1. 用户活动追踪：大型电商平台如淘宝、京东会记录用户的每一次交互，通过Kafka将这些事件消息实时处理或存储到大数据分析系统中，用于用户行为分析和个性化推荐。 2. 日志聚合：系统日志数据可以通过Kafka进行收集和集中处理，提高日志管理和分析的效率。 3. 限流削峰：在高并发场景下，Kafka可以作为缓冲区，避免后端系统因瞬间流量过大而崩溃。 Kafka的高吞吐率得益于以下几个关键特性： - 顺序读写：消息在分区中按照顺序写入，这大大提高了磁盘I/O效率。 - 零拷贝：通过内核空间到用户空间的直接数据传输，减少了不必要的数据复制，提高了效率。 - 批量发送：生产者可以批量发送消息，减少网络通信的开销。 - 消息压缩：支持对消息进行压缩，减少存储和传输的负担。在Kafka的工作流程中，每个主题可以有多个分区，每个分区有一个主副本（Leader）和零个或多个从副本（Follower）。如果主副本失败，一个从副本将被选举为新的主副本，确保服务的连续性。此外，消费者使用消费组（Consumer Group）模型，每个消息仅被组内的一个消费者消费，实现消息的唯一处理。 Kafka的这些特性使其成为大数据和实时处理领域的重要工具，适用于各种需要实时数据流处理和消息传递的场景。

2.1.15 HW

与

LEO

HW，HighWatermark，高水位，表示 Consumer 可以消费到的最高 partition 偏移量。HW

保证了 Kafka 集群中消息的一致性。确切地说，是在 broker 集群正常运转的状态下，保证了

partition 的 Follower 与 Leader 间数据的一致性。

LEO，Log End Offset，日志最后消息的偏移量。消息是被写入到 Kafka 的日志文件中的，

这是当前最后一个写入的消息在 Partition 中的偏移量。

对于 leader 新写入的消息，consumer 是不能立刻消费的。leader 会等待该消息被所有

ISR 中的 partition follower 同步后才会更新 HW，此时消息才能被 consumer 消费。

2.1.16 Broker Controller

Kafka 集群的多个 broker 中，有一个会被选举为 controller，负责管理整个集群中 partition

和副本 replicas 的状态。

当 partition leader 宕机后，broker controller 会从 ISR 中选举出一个 Follower 做为新的

leader。所谓选举就是从 ISR 中找到第一个 Follower，直接让其当选新的 leader。

Broker Controller 是由 zk 选举出来的。

2.1.17 Zookeeper

Zookeeper 负责维护和协调 broker，负责 Broker Controller 的选举。

2.1.18 Coordinator

Coordinator 一般指的是运行在每个 broker 上的 group Coordinator 进程，用于管理

Consumer Group 中的各个成员，主要用于 offset 位移管理和 Rebalance。一个 Coordinator 可

以同时管理多个消费者组。

Kafka

工作原理与过程

2.2

2.2.1

消息路由策略

在通过 API 方式发布消息时，生产者是以 Record 为消息进行发布的。Record 中包含 key

与 value，value 才是我们真正的消息本身，而 key 用于路由消息所要存放的 Partition。消息

要写入到哪个 Partition 并不是随机的，而是有路由策略的。

1) 若指定了 partition，则直接写入到指定的 partition；

2) 若未指定 partition 但指定了 key，则通过对 key 的 hash 值与 partition 数量取模，该取模

结果就是要选出的 partition 索引；

3) 若 partition 和 key 都未指定，则使用轮询算法选出一个 partition。

2.2.2

消息写入算法

消息生产者将消息发送给 broker，并形成最终的可供消费者消费的 log，是一个比较复

杂的过程。

1) producer 向 broker 集群提交连接请求，其所连接上的任意 broker 都会向其发送 broker

controller 的通信 URL，即 broker controller 主机配置文件中的 listeners 地址

2) 当 producer 指定了要生产消息的 topic 后，其会向 broker controller 发送请求，请求当前

topic 中所有 partition 的 leader 列表地址

3) broker controller 在接收到请求后，会从 zk 中查找到指定 topic 的所有 partition 的 leader，

并返回给 producer

4) producer 在接收到 leader 列表地址后，根据消息路由策略找到当前要发送消息所要发送

的 partition leader，然后将消息发送给该 leader

5) leader 将消息写入本地 log，并通知 ISR 中的 followers

6) ISR 中的 followers 从 leader 中同步消息后向 leader 发送 ACK

7) leader 收到所有 ISR 中的 followers 的 ACK 后，增加 HW，表示消费者已经可以消费到该

位置了

剩余36页未读，继续阅读

icwx_7550592

粉丝: 20
资源: 7163

Apache Kafka：高吞吐分布式消息系统

分布式消息通信Kafka源码解析与实践

分布式消息通信Kafka基础入门指南

Apache Kafka：分布式日志系统与消息中间件解析

开课吧-05分布式消息系统Kafka.pdf

开课吧-01分布式消息系统Kafka.pdf

基于NS3的分布式消息系统Kafka的仿真实现.pdf

基于分布式Kafka队列和...的铁道供电监控实时处理研究__铁道供电相关专业论文毕业设计范文.pdf

使用KafkaStreams和SpringBoot实现微服务Saga分布式事务-Piotr.pdf

集中式应用系统分布式改造方案研究.pdf

分布式消息系统研究综述.pdf

最新资源