Kafka分布式流处理详解：Java实现与架构解析

需积分: 0 180 浏览量更新于2024-06-15 收藏 4.72MB PDF 举报

"Kafka是Apache软件基金会开发的一个开源分布式事件流处理平台，常用于大数据场景中的消息队列，提供高性能的数据管道、流分析和数据集成功能。它支持发布订阅模型，具有高并发、高性能和高可用性特性。Kafka集群结合Zookeeper进行管理，消息根据分区策略分布在不同服务器的partition上，且每个partition有副本以防止单点故障。Java客户端是与Kafka交互的主要方式，包括leader-follower机制和consumergroup概念，以及利用Zookeeper进行服务发现和协调。" Kafka是一个强大的分布式消息中间件，它主要由以下核心概念构成： 1. **消费模式**： - **点对点模型（Queue）**：消费者主动拉取消息，消息被消费后立即从队列中移除，这种模式适用于简单的请求-响应场景。 - **发布订阅模型（Topic）**：一个主题可以被多个消费者独立订阅，消息会被所有订阅者接收到。Kafka仅支持Topic模式，不支持Queue模式。 2. **Kafka架构**： - **Kafka集群**：消息根据分区策略存储在多个服务器的不同partition上，以实现水平扩展和高并发。 - **Partition与Replica**：每个partition有一个主副本（leader），多个从副本（follower）。如果leader失败，一个follower会晋升为新的leader，确保服务不间断。 - **Zookeeper**：在版本2.8.0之前，Zookeeper用于协调Kafka集群和管理元数据，但现在已逐渐去Zookeeper化。 3. **Java客户端**： - **Leader-Follower机制**：生产者和消费者只与leader节点交互，leader负责数据写入，然后同步到followers。 - **Consumer Group**：消费者通过消费组协同工作，组内的消费者并行消费不同partition，提高消费效率。同一消费组内的消费者不会同时消费同一个partition，避免消息重复。 - **Zookeeper的角色**：Zookeeper记录服务器状态、leader-follower信息，以及在旧版本中，它是Kafka运行的必要组件，但新版本逐渐摆脱了对Zookeeper的依赖。为了使用Kafka，开发者通常需要添加对应的依赖库，如Apache Kafka的Java客户端库，版本号为3.7.0。通过这个库，开发者可以编写代码来创建生产者、消费者，以及管理它们与Kafka集群的交互。 Kafka是一个强大的工具，适用于需要高效处理大量实时数据流的场景，例如日志收集、网站活动跟踪、流式处理等。通过理解上述核心概念，开发者能够更好地理解和使用Kafka构建实时数据处理系统。

4. RecordAccumulator

缓存队列：producer产⽣的已经分区好的数据，先在本地的Queue中进⾏缓存，后续发往对应分区

假如对应partition较多扩⼤缓冲区

默认⼤⼩：32M

5. Sender-Thread

将上⾯RecordAccumulator中的数据，发送到Kafka的cluster中

# DefaultPartitioner：默认分区策略

- 指定分区： ! 如果指定分区，则使⽤

- 按照key： ! 如果不指定分区，但是存在key，则⽤key的hash对分区数取模（⽐如key的hash为5，分区数量

为3，则就存在2号分区内）

- Stick Partition：若不指定分区，不存在key，则使⽤

! ! ! ! ! ! ! ! ! ! !1.随机选择⼀个分区，并尽可能⼀直使⽤该分区

! ! ! ! ! ! ! ! ! ! !2.等到该分区的batch已满(batch.size)或已经完成(linger.ms)，则再随机选⼀个

分区(和上⼀次分区不同)

# 2. ⾃定义分区器：

# ! 2.1. 实现对应的package org.apache.kafka.clients.producer.Partitioner接⼝

# ! 2.2. 重写partition()⽅法

# ! 2.3 写⼊Producer的config中

- ⽐如根据key，不同数据库的数据，⽤表名做为key，存放在不同分区

- 过滤脏数据

# 两个条件只要达到，就会被后⾯的sender-thread，从缓冲区中拉取发送到kafka cluster

!# batch.size:

! ! ! ! !- 数据以批次的形式进⾏发送

! ! ! ! !- 当数据积累到batch.size后，sender才会拉取数据

! ! ! ! !- 默认 16k

!# linger.ms

! ! ! ! !- 如果数据迟迟没有达到batch size，等到linger.ms时间后，sender也会将数据当作⼀个批次，

进⾏拉取

! ! ! ! !- 单位为ms，默认0ms，即⽆延迟发送，但效率较低 !

! ! ! ! !

# memory pool

- Dequeue从memory pool中申请内存

- 数据发送成功后，Dequeue的内存再还回到memory pool中

# 1. Sender-Thread

- NetworkClient: 负责拉取数据发往kafka server

# 2. Selector

- 将数据发送到对应的broker的对应partition

穿靴⼦的猫 wechat: sz1037289945

No. 6 / 29

剩余28页未读，继续阅读

飞翔荷兰号

粉丝: 60
资源: 3

Kafka分布式流处理详解：Java实现与架构解析

kafka学习资料合集

Kafka学习笔记，全网最全

Kafka全套学习视频

Kafka最新完整学习笔记.pdf

kafka教程_kafka_教程

kafka基础学习教程

Kafka视频教程

kafka视频教程

Kafka视频教程-从入门到实战轻松学Kafka系统教程(13讲)

大数据kafka学习教程_入门到进阶.zip

最新资源