KafkaConsumer详解：ConsumerGroup与HighLevelConsumer

114 浏览量更新于2024-08-27 收藏 1.01MB PDF 举报

"Kafka设计解析（五）-KafkaConsumer设计解析" KafkaConsumer是Apache Kafka的核心组件之一，它负责从Kafka主题中消费消息。本文深入解析了KafkaConsumer，特别是HighLevelConsumer的设计和其在Kafka生态系统中的角色。在Kafka中，消费者不再是一个独立的实体，而是作为ConsumerGroup的一部分进行工作。 HighLevelConsumer是为了解决应用程序对消息消费的复杂需求而设计的。它提供了一种高层次的抽象，允许消费者专注于数据处理，而不必关注消息偏移量（offset）的管理。消息偏移量是消费者跟踪其在主题分区中消费位置的关键指标。HighLevelConsumer自动将这些offset存储在Zookeeper（0.8.2版之前）或者从0.8.2版开始支持的专用Kafka主题中，以确保消费状态的持久化。 ConsumerGroup是KafkaConsumer设计的另一个关键概念。每个HighLevelConsumer实例都属于一个特定的ConsumerGroup，即使没有显式指定，也会自动加入默认的组。当多个消费者属于同一个ConsumerGroup时，它们共同消费主题的分区，形成一种负载均衡的方式。每个分区只能由组内的一个消费者进行消费，这样确保了消息的独占消费，防止重复处理。在ConsumerGroup中，如果一个消费者失败，其负责的分区将由组内的其他消费者接管，这就是ConsumerRebalance过程。当消费者加入、离开或因故障转移时，会触发重平衡，以保持整个组的均衡状态。然而，这可能导致SplitBrain或Herd问题，即在网络分区或消费者集群扩展收缩时，同一组内的消费者可能对offset管理产生冲突。为解决这些问题，未来版本的Kafka引入了ConsumerCoordinator，它协调ConsumerGroup的行为，确保一致性并避免冲突。 LowLevelConsumer则提供了更底层的API，允许开发者更细粒度地控制消息消费，但需要自行管理offset。它适用于需要更多定制功能的场景，比如自定义的负载均衡策略或者更复杂的消费逻辑。 Kafka的一个独特之处在于，它并不删除已经消费的消息，而是保持消息在 brokers 中持久化，以便于回溯或者重放。为了实现类似传统消息队列（MessageQueue）中消息仅被消费一次的语义，Kafka通过ConsumerGroup和offset管理来确保消息的唯一消费。这意味着每个消息在同一个ConsumerGroup中只会被一个消费者消费一次，即使消息被多次拉取，也不会重复处理。在实际应用中，根据需求可以选择HighLevelConsumer的简单性和易用性，或者LowLevelConsumer的灵活性。Kafka的Consumer设计使得它能够适应各种分布式系统的需求，从简单的日志收集到复杂的实时数据流处理。理解Consumer的工作原理和特性对于构建高效、可靠的Kafka消费端应用至关重要。

Kafka设计解析（五）设计解析（五）-KafkaConsumer设计解析设计解析

本文是系列文章的第4篇，

第一篇 "Kafka设计解析（一）- Kafka背景及架构介绍"

第二篇 Kafka设计解析（二）- Kafka High Availability （上）

第三篇 Kafka设计解析（三）- Kafka High Availability （中）

第四篇 Kafka设计解析（四）- Kafka High Availability （下）

本文主要介绍了Kafka High Level Consumer，Consumer Group，Consumer Rebalance，Low Level Consumer实现的语

义，和适用场景。以及未来版本中对High Level Consumer的重新设计——使用Consumer Coordinator解决Split Brain和Herd

等问题。

High Level Consumer

很多时候，客户程序只是希望从Kafka读取数据，不太关心消息offset的处理。同时也希望提供一些语义，例如同一条消息只被

某一个Consumer消费（单播）或被所有Consumer消费（广播）。因此，Kafka Hight Level Consumer提供了一个从Kafka消

费数据的高层抽象，从而屏蔽掉其中的细节并提供丰富的语义。　　

Consumer Group

High Level Consumer将从某个Partition读取的最后一条消息的offset存于Zookeeper中(Kafka从0.8.2版本开始同时支持将

offset存于Zookeeper中与将offset存于专用的Kafka Topic中)。这个offset基于客户程序提供给Kafka的名字来保存，这个名字

被称为Consumer Group。Consumer Group是整个Kafka集群全局的，而非某个Topic的。每一个High Level Consumer实例都

属于一个Consumer Group，若不指定则属于默认的Group。Zookeeper中Consumer相关节点如下图所示

很多传统的Message Queue都会在消息被消费完后将消息删除，一方面避免重复消费，另一方面可以保证Queue的长度比较

短，提高效率。而如上文所述，Kafka并不删除已消费的消息，为了实现传统Message Queue消息只被消费一次的语

义，Kafka保证每条消息在同一个Consumer Group里只会被某一个Consumer消费。与传统Message Queue不同的是，Kafka

还允许不同Consumer Group同时消费同一条消息，这一特性可以为消息的多元化处理提供支持。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38688956

粉丝: 4

KafkaConsumer详解：ConsumerGroup与HighLevelConsumer

Kafka设计解析-郭俊

kafka-python-2.0.2.tar.gz

最新版kafka kafka_2.12-2.6.0.tgz

如何查看kafka报文

from kafka import KafkaConsumer报错SyntaxError: invalid syntax

c#通过本地麦克风获取语音数据上传服务器kafka，解析成文字，完整代码

如何查看kafka中数据的LogAppendTime时间

kettle想要使用kafka consumer 组件,应该如何进行kerberos认证

最新资源