Kafka：分布式消息队列与日志系统解析

kafka

5星 · 超过95%的资源需积分: 9 7 浏览量更新于2024-07-19 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Kafka学习资料提供了关于Kafka的详细知识，包括其背景、设计目标、优点和使用场景。Kafka是一个分布式消息系统，最初由LinkedIn开发，具备高吞吐、消息持久化和分布式消费等特性，广泛应用于各种日志处理。" 在深入探讨Kafka的知识点之前，首先理解Kafka的基本概念至关重要。Kafka作为一个分布式消息队列，它在生产者与消费者之间扮演着中介角色，允许数据高效地流动。以下是对Kafka核心特性的详细解释： 1. **分布式架构**：Kafka集群由多个服务器（Broker）组成，这些服务器之间通过复制和分区策略实现数据的分布和冗余，确保系统的高可用性和容错性。 2. **分区与副本**：Kafka将数据分成多个Partition（分区），每个Partition在集群中的多个Broker之间分布。每个Partition还有一个或多个副本（Replica），以确保数据的容错性。主副本负责接收并写入数据，其他副本则同步主副本的数据，当主副本失败时，其中一个副本会接管成为新的主副本。 3. **消息持久化**：Kafka能够以O(1)的时间复杂度持久化消息，即使处理TB级以上的数据也能保持高效的读写性能。数据会被保存在磁盘上，并且可以通过配置来控制保留时间或大小。 4. **高吞吐**：Kafka的设计目标是提供高吞吐量，即使在普通的硬件环境下，也能达到每秒处理数十万条消息的能力。 5. **顺序保证**：在每个Partition内部，消息按照发送顺序存储和消费，保证了消息的顺序性。 6. **发布/订阅模型**：Kafka支持发布者（Producer）向主题（Topic）发布消息，以及多个订阅者（Consumer）订阅并消费这些消息。每个主题可以有多个订阅者，订阅者可以按需选择订阅所有消息或只关注部分消息。 7. **离线与实时处理**：Kafka既支持批量离线处理（例如，通过批处理工具如Apache Spark或Hadoop进行大数据分析），也支持实时流处理（例如，通过Apache Flink或Kafka Streams进行实时计算）。 8. **解耦与冗余**：Kafka作为中间件，使得生产者和消费者之间解耦，提高了系统的灵活性和容错性。消息持久化防止了数据丢失，冗余的副本则保障了服务的持续性。 9. **扩展性**：随着消息处理需求的增长，可以轻松添加更多的服务器（Broker）和消费者实例，而不影响现有系统的运行。 10. **灵活性与峰值处理**：Kafka能够处理突发流量，保证在高并发下系统的稳定运行，避免了因资源准备不足导致的服务中断。 11. **送达保证**：根据配置，Kafka可以提供不同的消息送达保证，如At-Least-Once（至少一次）、Exactly-Once（精确一次）或At-Most-Once（最多一次），满足不同业务场景的需求。了解这些核心特性后，学习Kafka还包括熟悉它的API用法，如何创建和管理主题，如何配置生产者和消费者，以及如何进行数据的摄取和消费。此外，还需要掌握Kafka的管理和监控工具，如Kafka Connect用于集成外部系统，Kafka Admin API用于动态管理集群，以及Kafka Metrics和Kafka Connectors等。Kafka是一个强大的工具，广泛应用于日志收集、实时流处理、数据集成等多种场景，对于构建现代大数据处理系统有着不可忽视的作用。

资源详情

资源推荐

由于发送调用是异步的，它返回的Future被指定给该消息的RecordMetadata。如果future调用get()，将阻塞消息，直到相关请求

完成并返回该消息的元数据，或抛出异常。

如果要模拟一个简单的阻塞调用，你可以立刻调用get()方法。

1. byte[] key = "key".getBytes();

2. byte[] value = "value".getBytes();

3. ProducerRecord<byte[],byte[]> record = new ProducerRecord<byte[],byte[]>("my-topic"

, key, value)

4. producer.send(record).get();

完全无阻塞的话,可以利用回调参数提供的请求完成时将调用的回调通知。

1. ProducerRecord<byte[],byte[]> record = new ProducerRecord<byte[],byte[]>("my-topic

", key, value);

2. producer.send(record,

3. new Callback() {

4. public void onCompletion(RecordMetadata metadata, Exception e) {

5. if(e != null)

6. e.printStackTrace();

7. System.out.println("The offset of the record we just sent is:

" + metadata.offset());

8. }

9. });

注意：callback一般在生产者的I/O线程中执行，所以是相当的快的，否则会影响其他的线程的消息发送。如果你需要执行阻塞

或计算昂贵（消耗）的回调，建议使用自己的Executor在callback body中并行处理。

此外，客户端控制消息发布到哪个parition，可以随机，实现一种负载平衡，或者也可以通过语义分区函数，可以通过实现公

共接口，去指定分区的key和使用hash分区（如果需要，重写分区函数）。例如：如果选择的key是用户ID，然后对给定的用

户ID的所有数据将被发送到这个分区。这种设计风格，让消费者对敏感性的消息局部处理。如下：

1. import kafka.producer.Partitioner;

2. import kafka.utils.VerifiableProperties;

4. public class SimplePartitioner implements Partitioner {

5. public SimplePartitioner (VerifiableProperties props) {

7. }

9. public int partition(Object key, int a_numPartitions) {

10. int partition = 0;

11. String stringKey = (String) key;

12. int offset = stringKey.lastIndexOf('.');

13. if (offset > 0) {

14. partition = Integer.parseInt( stringKey.substring(offset+1)) % a_numParti

tions;

15. }

16. return partition;

17. }

18. }

这段逻辑的关键，我们得到的IP地址，取得最后一个字节，并进行分区数模运算，得出相应的分区，好处是相同的源ip划分到

相同的分区里。

2.4.Consumer

在0.9.0版本，增加了一个新的Java消费者替换现有的基于zookeeper的高级和低级消费者。为了确保用户平滑升级，仍然维护

旧的0.8版本的消费者客户端继续在0.9集群上工作，我们先介绍两个老的0.8 API的消费者（包括高级Consumer group和低级

SimpleConsumer）然后再介绍新的Java API的消费者。

首先我们要知道为什么当初会有这么一个区分高级和低级的API。

最开始我们使用Kafka的时候需要自己去维护偏移量，自己总是希望能够掌控全局。使用SimpleConsumer我们可以比较容易

的：

1. 多次读取消息

2. 在一个处理过程中只消费Partition其中的一部分消息

3. 添加事务管理机制以保证消息被处理且仅被处理一次

但是这样也产生了很多弊端，比如：

1. 必须在程序中跟踪offset值。

2. 必须找出指定Topic(主题)的Partition(分区)中的lead broker。

3. 必须处理broker的变动。

所以这些弊端最终使得大部分如果不是特别需要完成一些特殊要求的用户选择了使用更高抽象的实现。

有时，我们消费Kafka的消息，并不关心偏移量，我们仅仅关心数据能被消费就行。High Level Consumer(高级消费者)提供了

消费信息的方法而屏蔽了大量的底层细节。

首先要知道的是，高级消费者在zookeeper的特定分区存储最后的偏离。这个偏移当kafka启动时准备完毕。这一般是指消费者

组（Consumer group）。对于kafka集群消费群体的名字是全局的，任何的“老”逻辑的消费者应该被关闭，然后运行新的代

码。当一个新的进程拥有相同的消费者群的名字，kafka将会增加进程的线程消费topic并且引发的“重新平衡（reblannce）”。

在这个重新平衡中，kafka将分配现有分区到所有可用线程，可能移动一个分区到另一个进程的消费分区。如果此时同时拥有

旧的的新的代码逻辑，将会有一部分逻辑进入旧得Consumer而另一部分进入新的Consumer中的情况.

那么我们来具体看看使用这些消费者的流程。

SimpleConsumer

1. 寻找 Lead Broker 的Topic(主题)和Partition(分区)

这些不需要broker在集群中，你可以开始寻找活着的broker来查询Leader的信息。

1. private PartitionMetadata findLeader(List<String> a_seedBrokers, int a_port, String

a_topic, int a_partition) {

2. PartitionMetadata returnMetaData = null;

3. loop:

4. for (String seed : a_seedBrokers) {

5. SimpleConsumer consumer = null;

剩余36页未读，继续阅读

ykm77777

粉丝: 0
资源: 4

Kafka：分布式消息队列与日志系统解析

Kafka学习笔记.pptx

黑马JavaEE大数据整套课程（最新）

kafka深入学习资料

分享一下kafka streams的学习资料

我想快速学习 ES, kafka等中间件，你有什么好的网站给我吗

rocketmq和rabbitmq和kafka区别与优缺点

rabbitmq学习资料

尚硅谷大数据技术之高频面试题8.0.9.docx

canal 官方文档

PayPal case study

阿里巴巴 druid官方文档

flink入门与实战 pdf

RocketMQ的优势？

docker 安装zookeeeper集群

rk3588 Video层和UI层融合场景

kafka--summary:kafka学习总结，源码剖析

Kafka学习资源

kafka入门学习资料

Kafka学习

kafka学习资料.zip

最新资源