尚硅谷大数据：Kafka详解——消息队列与解耦关键

需积分: 11 36 浏览量更新于2024-07-16 收藏 1.48MB PDF 举报

《大数据技术之Kafka》是一份由尚硅谷大数据研发部编写的文档，专注于介绍Kafka这一关键的大数据技术。Kafka是一款分布式流处理平台，它主要以消息队列的形式提供高效、可靠、实时的数据传输服务。本文档共分为两部分：第一章节概述了Kafka的基本概念和工作模式。 1.1 消息队列及其内部实现原理 Kafka支持两种主要模式：点对点模式和发布/订阅模式。点对点模式强调一对一的通信，客户端主动拉取消息，消息一旦被接收就从队列中移除；发布/订阅模式则是多对多的，生产者将消息推送给所有订阅者，不论其是否在线。这种设计提供了解耦、冗余、扩展性和灵活性，能够处理峰值负载，确保数据的顺序传递和缓冲机制。 - 解耦：通过消息队列，应用程序之间的依赖关系被分解，各个组件可以根据需要独立扩展或修改，只需保持接口的一致性。 - 冗余：Kafka通过持久化消息来防止数据丢失，采用"插入-获取-删除"的机制，只有在处理确认后才删除消息，确保数据安全。 - 扩展性：由于消息队列的解耦特性，可以通过增加处理节点来应对业务增长，提升系统吞吐量。 - 峰值处理能力：在流量激增时，应用仍能正常运行，因为Kafka能处理高并发和临时的流量波动。 1.2 为何选择Kafka Kafka被广泛应用于大数据场景，原因在于其强大的功能和优势。除了上述的解耦和冗余特性外，还有其他重要因素： - 可恢复性：Kafka支持持久化的日志存储，即使系统崩溃，也能从备份中恢复数据，提高系统的可靠性。 - 顺序保证：Kafka保证消息的顺序处理，这对于需要按时间顺序处理的系统至关重要。 - 异步通信：通过异步模型，Kafka减少了系统的响应时间和资源消耗，提升了整体性能。《大数据技术之Kafka.pdf》文档深入剖析了Kafka的核心概念和应用场景，对于理解和使用Kafka在大数据处理中的角色具有重要的参考价值。如果你需要了解更多关于Java、大数据、前端、Python等领域的资料，可以访问尚硅谷官网获取更多资源。

尚硅谷大数据技术之 Kafka

—————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

我们可以看到，每个 Partition 中的消息都是有序的，生产的消息被不断追加到 Partition

log 上，其中的每一个消息都被赋予了一个唯一的 offset 值。

1）分区的原因

（1）方便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器，而一个 topic

又可以有多个 Partition 组成，因此整个集群就可以适应任意大小的数据了；

（2）可以提高并发，因为可以以 Partition 为单位读写了。

2）分区的原则

（1）指定了 patition，则直接使用；

（2）未指定 patition 但指定 key，通过对 key 的 value 进行 hash 出一个 patition；

（3）patition 和 key 都未指定，使用轮询选出一个 patition。

DefaultPartitioner 类

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[]

valueBytes, Cluster cluster) {

List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);

int numPartitions = partitions.size();

if (keyBytes == null) {

int nextValue = nextValue(topic);

List<PartitionInfo> availablePartitions =

cluster.availablePartitionsForTopic(topic);

尚硅谷大数据技术之 Kafka

—————————————————————————————

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

if (availablePartitions.size() > 0) {

int part = Utils.toPositive(nextValue) % availablePartitions.size();

return availablePartitions.get(part).partition();

} else {

// no partitions are available, give a non-available partition

return Utils.toPositive(nextValue) % numPartitions;

}

} else {

// hash the keyBytes to choose a partition

return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;

}

3.1.3 副本（Replication）

同一个 partition 可能会有多个 replication （对应 server.properties 配置中的

default.replication.factor=N）。没有 replication 的情况下，一旦 broker 宕机，其上所有 patition

的数据都不可被消费，同时 producer 也不能再将数据存于其上的 patition。引入 replication

之后，同一个 partition 可能会有多个 replication，而这时需要在这些 replication 之间选出一

个 leader，producer 和 consumer 只与这个 leader 交互，其它 replication 作为 follower 从 leader

中复制数据。

3.1.4 写入流程

producer 写入消息流程如下：

Producer写入流程

Producer

Zookeeper

broker state

1） producer先从

Zookeeper的

“/brokers/../state”节点

找到该partition的Leader

3）leader将

消息写入本

地log

log

Leader

4）followers从Leader pull消

息

6）leader收到所有

replication的ACK后，

并向producer发送ACK

2）producer将消息

发送给该leader

followers

log

5）写入本地log后向Leader发送ack

log

Kafka Cluster

1）producer 先从 zookeeper 的 "/brokers/.../state"节点找到该 partition 的 leader

2）producer 将消息发送给该 leader

3）leader 将消息写入本地 log

4）followers 从 leader pull 消息，写入本地 log 后向 leader 发送 ACK

剩余44页未读，继续阅读

smileNicky

粉丝: 2w+
资源: 407

尚硅谷大数据：Kafka详解——消息队列与解耦关键

尚硅谷大数据技术之Kafka（笔记+代码+资料）.rar

尚硅谷大数据技术之Kafka.pdf

09_尚硅谷大数据技术之Kafka.doc

大数据组件Kafka讲解.pdf

大数据Kafka架构原理.pdf

2021年各大企业大数据技术面试题.pdf

什么叫大数据大数据的概念.pdf

大数据共1页.pdf.zip

大数据Flume架构原理.pdf

大数据推荐系统架构.pdf

最新资源