Kafka消息中间件特性详解：分区、顺序消费与高可用性

下载需积分: 0 | PDF格式 | 201KB | 更新于2024-08-05 | 3 浏览量 | 举报

"Kafka是一种分布式消息中间件，用于高效地处理大规模实时数据流。它将消息分为不同的主题（Topic），每个主题可以进一步划分为多个分区（Partition），以提高并发访问能力。分区在各个服务器间均衡分布，确保负载均衡。" 在Kafka中，消息的存储和消费机制具有以下特点： 1. **主题与分区**：消息根据类别被划分到不同的主题，每个主题可以被细分为多个分区。这样设计有助于数据的管理和并行处理，因为每个分区内的消息会被有序地消费。 2. **消费者与分区**：消费者按照顺序从分区中读取消息，不支持随机读取。然而，通过修改存储在Zookeeper中的偏移量（Offset），消费者可以从任意位置开始读取，实现了消息的定位消费。 3. **消息存储与清除策略**：Kafka服务器的消息不会一直保存，而是设定定时清除策略。即使消息未被消费，也会根据配置自动删除，以节省存储空间。 4. **数据冗余与高可用**：每个分区可以设置备份到其他服务器上的副本数量，通过主从复制（Leader-Follower）确保数据的可用性。当主分区出现问题时，Follower可以接管成为新的Leader。 5. **Zookeeper的作用**：Zookeeper作为协调组件，存储Kafka服务器和客户端的状态信息，确保系统的轻量化和高可靠性。 6. **消费者组**：在Kafka中，一个分区只能被消费者组中的一个消费者消费，而消费者组内的消费者消息消费相互独立。消费者组的概念类似于“订阅者”，每个Topic的分区由一个“订阅者”中的一个消费者消费。 7. **负载均衡与发布-订阅模式**：如果所有消费者属于同一组，消息将在消费者之间负载均衡，类似队列模式。若消费者属于不同组，则进入“发布-订阅”模式，消息会被广播给所有消费者。 8. **持久化与缓冲**：Kafka在接收消息后先将其缓冲，达到一定阈值后再写入磁盘，以减少磁盘I/O。同时，它依赖操作系统的文件系统，但对文件系统本身的优化空间有限。 9. **网络I/O优化**：除了磁盘I/O，Kafka还考虑了网络I/O，通过批量发送和接收消息以及压缩消息来提高效率。 10. **拉取模式**：与传统的JMS（Java消息服务）Topic模型的推送方式不同，Kafka采用拉取（Pull）模式。消费者主动从broker获取消息，这允许消费者根据自身处理能力灵活控制消息消费，并通过offset管理消费进度。 11. **批量消费与控制**：消费者可以批量fetch消息，以提升效率，并能良好控制消费速率和数量。 12. **无状态消费记录**：Kafka不需记录所有消费者的消费状态，而是由消费者自己维护其在Zookeeper中的offset，简化了系统复杂性。 Kafka作为高性能的消息中间件，其设计旨在满足大数据实时处理的需求，提供高效、可扩展、高可用的消息传递解决方案。通过主题和分区的划分、消费者组的机制以及拉取模式，Kafka在保证数据一致性和可用性的同时，实现了消息的高效分发和消费。

1. kafka：

1.消息分类按同类别,分成同的Topic,Topic拆分成多个

partition,每个partition均衡分散到同的服务(提󰷼并发访问的能)

2.消费者按顺序从partition中读取,持随机读取数据,但可通过改变保

存到zookeeper中的offset位置实现从任意位置开始读取

3.服务消息定时清除(管有没有消费)

4.每个partition还可以设置备份到其他服务上的个数以保证数据的可󰉁

性。通过Leader,Follower式

5.zookeeper保存kafka服务和客户端的所有状态信息.(确保实际的客户

端和服务轻󰮢级)

6.在kafka中,个partition中的消息只会被group中的个consumer消

费;每个group中consumer消息消费互相独󰐩;我们可以认为个group是

个"订阅"者,个Topic中的每个partions,只会被个"订阅者"中的个

consumer消费,过个consumer可以消费多个partitions中的消息

7.如果所有的consumer都具有相同的group,这种情况和queue模式很像;

消息将会在consumers之间负载均衡.

8.如果所有的consumer都具有同的group,那这就是"发布-订阅";消息将

会播给所有的消费者.

9.持久性,当收到的消息时先buffer起来,等到定的阀值再写磁盘

件,减少磁盘IO.在定程度上依赖OS的件系统(对件系统本身优化乎可

能)

10.除磁盘IO,还应考虑󰕲络IO，批󰮢对消息发送和接收,并对消息进󰢩压

缩。

11.在JMS实现中,Topic模型基于push式,即broker将消息推送给

consumer端.过在kafka中,采󰉁pull式,即consumer在和broker建󰐩连

接之后,主动去pull(或者说fetch)消息;这种模式有些优点,󰶳先consumer端可

以根据󰙵的消费能适时的去fetch消息并处󰇹,且可以控制消息消费的进度

(offset);此外,消费者可以良好的控制消息消费的数󰮢,batch fetch.

12.kafka需记录消息是否接收成功,是否要重新发送等,所以kafka的

producer是󰴬常轻󰮢级的,consumer端也只需要将fetch后的offset位置注册

到zookeeper,所以也是󰴬常轻󰮢级的.

--kafka使󰉁场景

对于些常规的消息系统,kafka是个错的选

择;partitons/replication和容错,可以使kafka具有良好的扩展性和性能优

势.

过到󰋴前为,我们应该很清楚认识到,kafka并没有提供JMS中的"事务

下载后可阅读完整内容，剩余3页未读，立即下载

杏花朵朵

粉丝: 712

Kafka消息中间件特性详解：分区、顺序消费与高可用性

flink-connector-kafka-0.10-2.11-1.10.0-API文档-中文版.zip

flink-sql-connector-kafka-2.12-1.13.1.jar

08.2、消息中间件--kafka(5题)1

kafka消息中间件-学习笔记

fluent-bit-kafka-output-plugin:Kafka FluentBit输出插件

systems-toolbox-kafka:Kafka系统的生产者和消费者组件-工具箱

li-apache-kafka-clients:li-apache-kafka-clients是Apache Kafka香草客户端的包装库。 它在开源Apache Kafka中提供了其他功能，例如大消息支持以及对Java生产者和消费者的审核。

camel-archetype-rabbitmq-kafka-connector:扩展camel-rabbitmq-kafka-connector的项目，以便可以通过kafka连接器配置以无缝方式传递地图配置

fk-apache-camel-kafka-async:Apache Camel Kafka组件-使用Kafka异步生产器

kafka-console-ui-kafka

最新资源

li-apache-kafka-clients:li-apache-kafka-clients是Apache Kafka香草客户端的包装库。它在开源Apache Kafka中提供了其他功能，例如大消息支持以及对Java生产者和消费者的审核。