Apache Kafka：分布式日志系统与消息中间件解析

需积分: 5 52 浏览量更新于2024-07-15 收藏 4.35MB PDF 举报

"Kafka学习笔记.pdf" Kafka是一个由LinkedIn最初开发的分布式消息系统，后来成为Apache基金会的顶级开源项目。它是一个分布式、分区、多副本的日志系统，同时也可作为消息中间件使用，主要用于日志收集和消息服务。Kafka的核心设计目标包括高效的消息持久化、高吞吐量、保持partition内消息顺序、支持离线和实时数据处理以及在线水平扩展。 1. **消息系统基础** - **消息传递模式**：消息系统负责在应用间传递数据，提供异步通信。Kafka采用发布-订阅模式，不同于点对点模式，其中消息会被多个消费者消费，而点对点模式下消息只被一个消费者消费一次。 2. **Kafka的特点** - **解耦**：Kafka通过中间消息层使得生产者和消费者之间不需要直接交互，降低了系统间的耦合度，允许系统独立扩展。 - **容错性**：通过多副本机制，Kafka能够在节点故障时自动切换，确保服务连续性。 - **高性能**：O(1)的消息持久化和高吞吐率使其在大数据处理场景中表现出色。 - **消息顺序保证**：每个partition内的消息按顺序存储和消费，确保特定业务场景下的数据一致性。 - **可扩展性**：Kafka集群可以通过添加更多服务器进行水平扩展，以应对更大的负载。 3. **发布-订阅模式** - 在这种模式下，消息被发送到特定的主题(topic)，订阅了该主题的消费者可以接收到消息。这允许一个消息可以被多个订阅者消费，提高了数据复用性。 4. **Kafka的使用场景** - **日志收集**：Kafka可以高效地收集和分发来自各种源的日志数据，如web服务器日志、应用程序日志等。 - **流处理**：Kafka结合Spark Streaming或Flink等工具，实现数据的实时处理和分析。 - **事件驱动架构**：Kafka作为事件总线，连接各个系统，使得系统之间的通信更加灵活。 5. **Kafka组件** - **Producer**：生产者负责发布消息到特定的主题。 - **Broker**：Kafka服务器，存储和转发消息。 - **Consumer**：消费者订阅主题，处理消息。 - **Zookeeper**：协调Kafka集群，管理元数据和集群状态。 6. **Kafka的消费者组** - 消费者通过加入消费者组来共享主题中的消息，每个分区只能被组内的一个消费者消费，确保无重复处理。 7. **Kafka的数据保留策略** - Kafka可以根据时间或大小设置数据保留策略，超出范围的数据将被自动删除。 8. **Kafka的API** - Kafka提供了Java、Scala和C++等多种语言的API，方便不同平台和语言的应用集成。 Kafka的这些特性使其在大数据、实时处理和微服务架构中广泛应用，为系统提供了高效、可靠的实时数据流转能力。

上图中表明了test-group这个组当前的消费情况。

3.2 位移提交

老版本的位移是提交到zookeeper中的，图就不画了，总之目录结构是：/consumers/[group.id](http://

group.id/)/offsets//，但是zookeeper其实并不适合进行大批量的读写操作，尤其是写操作。因此kafka

提供了另一种解决方案：增加consumeroffsets topic，将offset信息写入这个topic，摆脱对

zookeeper的依赖(指保存offset这件事情)。consumer_offsets中的消息保存了每个consumer group

某一时刻提交的offset信息。依然以上图中的consumer group为例，格式大概如下：

__consumers_offsets topic配置了compact策略，使得它总是能够保存最新的位移信息，既控制了该

topic总体的日志容量，也能实现保存最新offset的目的。compact的具体原理请参见：Log Compaction

至于每个group保存到consumers_offsets的哪个分区，如何查看的问题请参见这篇文章：[Kafka 如何

读取offset topic内容 (consumer_offsets)](http://www.cnblogs.com/huxi2b/p/6061110.html)

4 Rebalance

4.1 什么是rebalance？

rebalance本质上是一种协议，规定了一个consumer group下的所有consumer如何达成一致来分配订

阅topic的每个分区。比如某个group下有20个consumer，它订阅了一个具有100个分区的topic。正常

情况下，Kafka平均会为每个consumer分配5个分区。这个分配的过程就叫rebalance。

4.2 什么时候rebalance？

这也是经常被提及的一个问题。rebalance的触发条件有三种：

组成员发生变更(新consumer加入组、已有consumer主动离开组或已有consumer崩溃了——这

两者的区别后面会谈到)

订阅主题数发生变更——这当然是可能的，如果你使用了正则表达式的方式进行订阅，那么新建匹

配正则表达式的topic就会触发rebalance

订阅主题的分区数发生变更

4.3 如何进行组内分区分配？

之前提到了group下的所有consumer都会协调在一起共同参与分配，这是如何完成的？Kafka新版本

consumer默认提供了两种分配策略：range和round-robin。当然Kafka采用了可插拔式的分配策略，

你可以创建自己的分配器以实现不同的分配策略。实际上，由于目前range和round-robin两种分配器都

有一些弊端，Kafka社区已经提出第三种分配器来实现更加公平的分配策略，只是目前还在开发中。我们

这里只需要知道consumer group默认已经帮我们把订阅topic的分区分配工作做好了就行了。

简单举个例子，假设目前某个consumer group下有两个consumer： A和B，当第三个成员加入时，

kafka会触发rebalance并根据默认的分配策略重新为A、B和C分配分区，如下图所示：

4.4 谁来执行rebalance和consumer group管理？

Kafka提供了一个角色：coordinator来执行对于consumer group的管理。坦率说kafka对于

coordinator的设计与修改是一个很长的故事。最新版本的coordinator也与最初的设计有了很大的不

同。这里我只想提及两次比较大的改变。

首先是0.8版本的coordinator，那时候的coordinator是依赖zookeeper来实现对于consumer group的

管理的。Coordinator监听zookeeper的/consumers//ids的子节点变化以及/brokers/topics/数据变化

来判断是否需要进行rebalance。group下的每个consumer都自己决定要消费哪些分区，并把自己的决

定抢先在zookeeper中的/consumers//owners//下注册。很明显，这种方案要依赖于zookeeper的帮

助，而且每个consumer是单独做决定的，没有那种“大家属于一个组，要协商做事情”的精神。

剩余37页未读，继续阅读

YMY6666

粉丝: 10
资源: 10

Apache Kafka：分布式日志系统与消息中间件解析

kafka学习详细文档笔记

kafka实战pdf

kafka介绍(内部培训).pptx

Kafka学习笔记.rar

手写“Kafka笔记”.pdf

Kafka最新完整学习笔记.pdf

Kafka全套学习笔记.zip

微服务学习笔记.pdf

大数据学习笔记.pdf

大数据项目之反爬随堂笔记.pdf

最新资源