Kafka实战：分布式消息系统的关键技术与应用

需积分: 0 53 浏览量更新于2024-08-05 收藏 1.42MB PDF 举报

Kafka是LinkedIn公司早期开发的分布式消息系统，于2010年由LinkedIn贡献给Apache基金会，并成为其顶级开源项目。Kafka的特点包括分布式、分区（partition）支持和多副本（replica）设计，以及基于Zookeeper的协调机制。它旨在处理海量实时数据，适用于多种场景，如批处理系统、实时流处理、日志收集与分析、用户活动跟踪以及运营指标监控。 Kafka的核心设计允许它作为一个消息代理，提供消息的发布订阅模式。其核心组件包括： 1. **Broker**: Kafka中的消息中间件处理节点，也称为Broker，是集群中的一个实例。一个或多个Broker组成一个Kafka集群，负责接收、存储和转发消息。 2. **Topic**: Kafka通过Topic对消息进行分类，就像文件夹一样，每个发布到Kafka的消息都必须关联到一个特定的Topic。Topic是Kafka中消息组织和分发的基本单元。 3. **Producer**: 发布消息的客户端，负责将数据发送到指定的Topic。Producer可以根据配置设置数据的持久化策略。 4. **Consumer**: 消费消息的客户端，从Broker获取数据。Consumer可以是单个实例，也可以属于一个Consumer Group，允许多个消费者消费同一份消息，但一个Group内的消费者之间通常是并发安全的。 5. **Consumer Group**: 消费者逻辑上的集合，一条消息可以被多个Consumer Group消费，但每个Group内只有一台消费机器能接收到这条消息，实现消息的顺序处理。 Kafka的独特之处在于它设计为高吞吐量和低延迟，适合实时处理。例如，在日志收集场景中，它能统一接口提供给各种分析工具，如Hadoop、HBase和Solr等。在用户活动跟踪和运营指标监控方面，Kafka可以帮助企业实时监控用户行为和系统性能，以便进行即时决策和分析。此外，Kafka借鉴了Java消息服务（JMS）的某些理念，但并非完全遵循，这体现了其在设计上对于性能优化和灵活性的追求。Kafka凭借其强大的功能和灵活的设计，已成为现代分布式系统中不可或缺的一部分，被广泛应用于大数据和云计算领域。

Partition是一个有序的message序列，这些message按顺序添加到一个叫做commitlog的文件中。每个partition中的

消息都有一个唯一的编号，称之为offset，用来唯一标示某个分区中的message。

提示：每个partition，都对应一个commitlog文件。一个partition中的message的offset都是唯一的，但是不同的

partition中的message的offset可能是相同的。

可以这么来理解Topic，Partition和Broker

一个topic，代表逻辑上的一个业务数据集，比如按数据库里不同表的数据操作消息区分放入不同topic，订单相关操作消

息放入订单topic，用户相关操作消息放入用户topic，对于大型网站来说，后端数据都是海量的，订单消息很可能是非常

巨量的，比如有几百个G甚至达到TB级别，如果把这么多数据都放在一台机器上可定会有容量限制问题，那么就可以在

topic内部划分多个partition来分片存储数据，不同的partition可以位于不同的机器上，每台机器上都运行一个Kafka的

进程Broker。

kafka集群，在配置的时间范围内，维护所有的由producer生成的消息，而不管这些消息有没有被消费。例如日志保留(

logretention)时间被设置为2天。kafka会维护最近2天生产的所有消息，而2天前的消息会被丢弃。kafka的性能与保留

的数据量的大小没有关系，因此保存大量的数据(日志信息)不会有什么影响。

每个consumer是基于自己在commitlog中的消费进度(offset)来进行工作的。在kafka中，消费offset由consumer自

己来维护；一般情况下我们按照顺序逐条消费commitlog中的消息，当然我可以通过指定offset来重复消费某些消息，

或者跳过某些消息。

这意味kafka中的consumer对集群的影响是非常小的，添加一个或者减少一个consumer，对于集群或者其他consumer

来说，都是没有影响的，因为每个consumer维护各自的offset。所以说kafka集群是无状态的，性能不会因为

consumer数量受太多影响。kafka还将很多关键信息记录在zookeeper里，保证自己的无状态，从而在水平扩容时非常

方便。

为什么要对Topic下数据进行分区存储？

1、commitlog文件会受到所在机器的文件系统大小的限制，分区之后，理论上一个topic可以处理任意数量的数据。

2、为了提高并行度。

分布式Distribution

log的partitions分布在kafka集群中不同的broker上，每个broker可以请求备份其他broker上partition上的数据。kafka

集群支持配置一个partition备份的数量。

针对每个partition，都有一个broker起到“leader”的作用，0个或多个其他的broker作为“follwers”的作用。

leader处理所有的针对这个partition的读写请求，而followers被动复制leader的结果。如果这个leader失效了，其中

的一个follower将会自动的变成新的leader。

Producers

生产者将消息发送到topic中去，同时负责选择将message发送到topic的哪一个partition中。通过roundrobin做简单的

负载均衡。也可以根据消息中的某一个关键字来进行区分。通常第二种方式使用的更多。

Consumers

传统的消息传递模式有2种：队列(queue)和（publish-subscribe）

queue模式：多个consumer从服务器中读取数据，消息只会到达一个consumer。

publish-subscribe模式：消息会被广播给所有的consumer。

剩余10页未读，继续阅读

天使的梦魇

粉丝: 39
资源: 321

Kafka实战：分布式消息系统的关键技术与应用

Kafka实战技术分享：中间件原理与配置操作指南

掌握消息中间件：RabbitMQ实战教程

Apache Kafka 实战：构建高效消息系统

Kafka-Vip-高性能消息中间件Kafka实战(1)1

高性能消息中间件Kafka实战1

kafka实战pdf

Kafka 高级实战

Kafka实战开源消息队列的坑与对策-刘喆

Kafka 实战演练 3

Apache Kafka实战.7z

最新资源