Kafka实战：消息传递与Topic、Producer、Consumer详解

需积分: 0 118 浏览量更新于2024-08-04 收藏 548KB DOCX 举报

Kafka实战1深入解析高性能消息传递系统 Kafka是一种高吞吐量的分布式发布订阅消息系统，由LinkedIn开发并开源，主要使用Scala语言实现。它在设计上借鉴了Java Message Service (JMS)规范的理念，但又不完全受其约束，提供了一种独特且高效的消息处理架构。消息处理的核心概念包括： 1. **Topic**：Kafka的核心概念之一，Topic是消息的分类容器，类似于邮箱，所有与同一主题相关的信息都被归类到同一个Topic下。Producers（生产者）负责将消息发布到指定的Topic。 2. **Producer**：生产者是向Kafka系统发送消息的应用程序，它们将数据作为消息发布到特定的Topic，这是消息的源头。 3. **Consumer**：消费者是接收和处理Topic中消息的应用程序，它们从Topic中订阅感兴趣的消息，并对其进行处理或分析。 4. **Broker**：Kafka集群由多个代理（Broker）组成，每个Broker是一个独立运行的服务实例，负责存储和分发消息。Broker之间的通信主要通过TCP协议进行。 5. **Partition**：每个Topic在Kafka中被划分为多个逻辑上的分区，分区是一个有序的消息序列，消息按照顺序添加到一个称为commitlog的持久化文件中。每个分区有一个唯一的offset，用于标识分区中消息的位置。 6. **Commitlog**：是Kafka存储分区消息的主要机制，每个分区对应一个commitlog文件，消息在这里以有序的方式存储。尽管不同分区的消息可能具有相同的offset值，但每个分区内的消息offset是唯一的，确保了消息的有序性。 7. **分布式架构**：Kafka采用分布式部署，使得系统能够扩展处理大量的消息流量，同时保持高可用性和容错性。在实际应用中，Kafka的设计允许实时数据处理和分析，常用于构建实时流处理系统，如日志收集、监控报警、数据聚合等场景。通过使用Kafka，开发者可以轻松地构建可扩展、可靠和高效的分布式消息传递解决方案。

对 log 进行分区（partitioned），有以下目的。首先，当 log 文件大小超过系统文件系统

的限制时，可以自动拆分。每个 partition 对应的 log 都受到所在机器的文件系统大小的限

制，但是一个 Topic 中是可以有很多分区的，因此可以处理任意数量的数据。另一个方面

，是为了提高并行度。

Distribution

log 的 partitions 分布在 kafka 集群中不同的 broker 上，每个 broker 可以请求备份其他

broker 上 partition 上的数据。kafka 集群支持配置一个 partition 备份的数量。

针对每个 partition，都有一个 broker 起到“leader”的作用，0 个多个其他的 broker 作为

“follwers”的作用。leader 处理所有的针对这个 partition 的读写请求，而 followers 被动

复制 leader 的结果。如果这个 leader 失效了，其中的一个 follower 将会自动的变成新的

leader。每个 broker 都是自己所管理的 partition 的 leader，同时又是其他 broker 所管理

partitions 的 followers，kafka 通过这种方式来达到负载均衡。

Producers

生产者将消息发送到 topic 中去，同时负责选择将 message 发送到 topic 的哪一个 partition

中。通过 round-robin 做简单的负载均衡。也可以根据消息中的某一个关键字来进行区

分。通常第二种方式使用的更多。

Consumers

传统的消息传递模式有 2 种：队列( queuing)和（ publish-subscribe）。

在 queuing 模式中，多个 consumer 从服务器中读取数据，消息只会到达一个 consumer。

在 publish-subscribe 模型中，消息会被广播给所有的 consumer。Kafka 基于这 2 种模式提

供了一种 consumer 的抽象概念：consumer group。

每个 consumer 都要标记自己属于哪一个 consumer group。发布到 topic 中的 message 中

message 会被传递到 consumer group 中的一个 consumer 实例。consumer 实例可以运行在

不同的进程上，也可以在不同的物理机器上。

如果所有的 consumer 都位于同一个 consumer group 下，这就类似于传统的 queue 模式，

并在众多的 consumer instance 之间进行负载均衡。

如果所有的 consumer 都有着自己唯一的 consumer group，这就类似于传统的 publish-

subscribe 模型。

更一般的情况是，通常一个 topic 会有几个 consumer group，每个 consumer group 都是一

个逻辑上的订阅者（ logical subscriber ）。每个 consumer group 由多个 consumer

instance 组成，从而达到可扩展和容灾的功能。这并没有什么特殊的地方，仅仅是将

publish-subscribe 模型中的运行在单个进程上的 consumers 中的 consumer 替换成一个

consumer group。如下图所示：

剩余11页未读，继续阅读

WaiyuetFung

粉丝: 710
资源: 316

Kafka实战：消息传递与Topic、Producer、Consumer详解

Kafka-Vip-高性能消息中间件Kafka实战(1)1

01-VIP-高性能消息中间件Kafka实战1

kafka实战pdf

Kafka 高级实战

Kafka 实战演练 3

Kafka实战开源消息队列的坑与对策-刘喆

Apache Kafka实战.7z

从 0 开始带你成为消息中间件实战高手.rar

从 0 开始带你成为消息中间件实战高手.txt

Kafka实战技术分享：中间件原理与配置操作指南

最新资源