Kafka入门教程：分布式消息系统的理论与实践

需积分: 17 191 浏览量更新于2024-09-09 收藏 361KB PDF 举报

"大数据Kafka入门--理论+实践" Kafka是一种分布式流处理平台，由LinkedIn开发并后来贡献给了Apache基金会。它最初设计为一个高吞吐量、低延迟的消息中间件，主要用于构建实时数据管道和流应用。Kafka的核心特性包括其分布式缓存能力、消息持久化以及对多种编程语言的支持。 1. **分布式缓存** Kafka作为一个分布式系统，可以在多个节点上复制数据，提供高可用性和容错性。它将消息持久化到硬盘上，利用磁盘的顺序访问优势，因为顺序访问比随机访问内存更快。此外，操作系统还支持预读和后写策略，进一步优化了读写性能。 2. **消息系统** Kafka是一个基于发布/订阅的消息系统，允许生产者发布消息到主题（topics），消费者则订阅这些主题来消费消息。消息在生产者和消费者之间传输时，直接持久化在硬盘上，确保即使在消费者不可用时，消息也不会丢失。 3. **消息模型** - **Producer**：生产者负责将消息发布到特定的主题，并可以选择将消息分配到特定的分区。生产者可以采用同步或异步的方式发送消息，同步模式保证实时性，而异步模式则更注重吞吐量。 - **Consumer**：消费者从Kafka服务器读取消息，每个消费者都会维护自己的偏移量（offset）来跟踪已经消费过的消息。消费者必须自行管理offset，以保持消费状态的一致性。 - **ConsumerGroup**：多个消费者可以组成一个消费组，共同消费一个主题，通过一致性哈希将消息分发给组内的消费者。这种方式使得负载均衡和容错成为可能。 4. **Topic与Partition** - **Topic**：主题是消息的分类，生产者向特定主题写入消息，消费者从主题中读取。不同的生产者可以写入不同的主题，消费者可以从多个主题中选择性地读取。 - **Partition**：主题进一步细分为分区，每个分区在物理上是独立的，并且只能被一个消费者实例同时访问。分区提高了并发性和负载均衡能力，也简化了消息的顺序处理。 5. **数据存储** 每个分区都包含一个索引文件（indexlog）和消息日志文件（messagelogs）。索引文件用于快速定位消息，通过二分查找找到消息在段文件中的位置，而消息日志文件存储实际的数据。这种结构允许高效的数据检索和处理。 6. **语言支持** Kafka提供了丰富的SDK，支持Java、PHP、Python、C++等多种编程语言，方便开发者在不同平台上集成和使用。 7. **扩展性** Kafka的分布式特性使其可以通过添加更多的Broker节点来提高系统的吞吐量和容量，实现水平扩展。 Kafka作为大数据领域的重要工具，以其高效的性能、强大的扩展能力和灵活的设计，广泛应用于实时数据处理、日志收集、流式计算等多个场景。对于初学者，理解Kafka的基础理论和实践经验是进入大数据行业的良好起点。

kafka

概述

分布式缓存

分布式、基于发布/订阅的消息系统

消息直接持久化到硬盘上

对磁盘的顺序访问、比对内存的随机访问要快

操作系统：预读、后写

每秒百万级消息读写(百)

分布式，扩展能力强

多种语言支持：Java、php、python、c++等

kafka数据单位：message

目标：成为队列平台，支撑离线和在线

实时性

Producer写到topic的message，立即可被Consumer读

组件

Broker---节点

producer可以自己指定往哪个broker上写

增加节点数量可以，增大集群的吞吐能力

Producer---message生产者，主动往Kafka Server写数据

生产者可以发布数据到它指定的topic中，并可以指定topic里哪些消息分

配到哪些分区（比如简单的轮流分发各个分区或通过指定分区语义分配

key到对应分区）

直接把消息发送给对应分区的broker，而不需要任何路由层

批处理发送，当message积累到一定数量或等待一定时间后进行发送

模式type

sync(同步)--实时

async(异步)--达到一定条件（时间/数据量）

Consumer---消息的消费者，主动从Kafka server读数据

读消息时会使oﬀset值线性的增长

必须自己维护已消费的状态信息（oﬀset）

Kafka不要维护oﬀset，使得系统实现更简单，稳定

Consumer Group

下载后可阅读完整内容，剩余7页未读，立即下载

键盘|书生

粉丝: 3
资源: 3

Kafka入门教程：分布式消息系统的理论与实践

Kafka教学视频百度网盘资源.txt

Kafka全套学习笔记.zip

2020最全Kafka教程合集（笔记+视频）.rar

基于Kafka和Redis的应用场景架构图

KAFKA中部署探针，ｄａ和ｄｒ可以提供一个拓扑图吗

[root@kylin20210728+netperf-2.7.0]#+netperf+-H+192.168.8.77+-l+60+ establish+control:+are+you+sure+t

再加上ELK 呢，能做个拓扑图吗，还有探针

大数据kafka面试题

查看kafka-server-start.sh路径

kafka kafka-server-stop.sh

最新资源