Kafka 1.0官方文档详解：实时流处理与关键概念

需积分: 10 100 浏览量更新于2024-07-17 收藏 852KB DOCX 举报

Apache Kafka 1.0 是一个分布式流处理平台，于2019年4月25日前为最新版本。Kafka的设计初衷是提供一个高吞吐量、低延迟、可扩展的解决方案，适用于实时数据流的处理和传输。以下是Kafka 1.0的主要特性及应用场景： 1. **核心特性与概念** - Kafka作为集群运行在多台服务器上，实现高可用性和负载均衡。 - 主题 (Topic) 是数据分类的基础，类似于消息队列，用于组织和传递数据流。 - 每条记录由key、value和timestamp组成，确保数据的唯一性和时间戳顺序。 - Kafka提供了四大核心API：Producer API用于数据发布，Consumer API用于数据订阅和处理，Streams API用于流式数据处理，而Connector API则用于与其他系统集成，如数据库。 2. **API与工作流程** - Producer API允许应用程序将数据发送到一个或多个主题，创建数据流。 - Consumer API支持订阅多个主题，实时处理接收到的数据。 - Streams API允许开发人员设计复杂的流处理逻辑，处理数据流并将其转换为新的输出流。 - Connector API为开发者提供了构建插件的能力，实现Kafka与外部系统的无缝集成。 3. **数据模型与管理** - Kafka维护每个主题的一个或多个人工分区的日志，保证了数据的有序性和可靠性。 - 多订阅者模式使得一个主题可以被多个消费者同时访问，提高并发处理能力。 4. **协议与客户端支持** - Kafka采用简单、高效、跨语言的TCP协议，确保兼容性和易用性。 - 提供了Java客户端，同时也支持其他多种编程语言的客户端。 5. **应用场景** - Kafka适用于实时流数据管道，确保数据在系统间可靠传输。 - 可用于构建实时流处理应用，通过对数据进行转换或分析来驱动业务决策。通过深入理解这些概念和API，开发人员能够有效地利用Kafka构建高性能的实时数据处理系统。随着技术的发展，后续版本的Kafka可能会引入更多功能和优化，但1.0版本仍具有重要的参考价值。如果你需要获取最新的Kafka文档，建议定期关注作者的博客获取更新。

度量

Kafka 通常用于监控数据。这涉及到从分布式应用程序中汇总数据，然后生成可操

作的集中数据源。

日志聚合

许多人使用 Kafka 来替代日志聚合解决方案。日志聚合系统通常从服务器收集物

理日志文件，并将其置于一个中心系统（可能是文件服务器或 HDFS）进行处理。

Kafka 从这些日志文件中提取信息，并将其抽象为一个更加清晰的消息流。这样

可以实现更低的延迟处理且易于支持多个数据源及分布式数据的消耗。与 Scribe

或 Flume 等以日志为中心的系统相比，Kafka 具备同样出色的性能、更强的耐用性

（因为复制功能）和更低的端到端延迟。

流处理

许多 Kafka 用户通过管道来处理数据，有多个阶段：从 Kafka topic 中消费原始输

入数据，然后聚合，修饰或通过其他方式转化为新的 topic，以供进一步消费或处

理。例如，一个推荐新闻文章的处理管道可以从 RSS 订阅源抓取文章内容并将其

发布到“文章”topic; 然后对这个内容进行标准化或者重复的内容，并将处理完的文

章内容发布到新的 topic; 最终它会尝试将这些内容推荐给用户。这种处理管道基

于各个 topic 创建实时数据流图。从 0.10.0.0 开始，在 Apache Kafka 中，Kafka

Streams可以用来执行上述的数据处理，它是一个轻量但功能强大的流处理库。除

Kafka Streams 外，可供替代的开源流处理工具还包括 Apache Storm和 Apache

Samza.

采集日志

Event sourcing

是一种应用程序设计风格，按时间来记录状态的更改。Kafka 可以

存储非常多的日志数据，为基于event sourcing 的应用程序提供强有力的支持。

提交日志

Kafka 可以从外部为分布式系统提供日志提交功能。日志有助于记录节点和行为

间的数据，采用重新同步机制可以从失败节点恢复数据。Kafka 的日志压缩功能

支持这一用法。这一点与 Apache BookKeeper项目类似。

1.3 快速开始

本教程假定您是一只小白，没有 Kafka 或 ZooKeeper 方面的经验。Kafka 控制脚

本在 Unix 和 Windows 平台有所不同，在 Windows 平台，请使用bin\

windows\而不是 bin/, 并将脚本扩展名改为.bat.

Step 1: 下载代码

下载1.0.0 版本并解压缩。.









Step 2: 启动服务器

Kafka 使用ZooKeeper如果你还没有 ZooKeeper 服务器，你需要先启动一个

ZooKeeper 服务器。您可以通过与 kafka 打包在一起的便捷脚本来快速简单地创

建一个单节点 ZooKeeper 实例。









 !""#$ %!&'()*+,-"

./,,-0,,-123



现在启动 Kafka 服务器：









 !"" #$4&'()*56.,75713

 !"" #$!&'()*16,86 4!#9.,75713



Step 3: 创建一个 topic

让我们创建一个名为“test”的 topic，它有一个分区和一个副本：

 77"47

现在我们可以运行 list（列表）命令来查看这个 topic：





777"4



或者，您也可将代理配置为：在发布的 topic 不存在时，自动创建 topic，而不是手

动创建。

Step 4: 发送一些消息

Kafka 自带一个命令行客户端，它从文件或标准输入中获取输入，并将其作为

message（消息）发送到 Kafka 集群。默认情况下，每行将作为单独的 message

发送。

运行producer，然后在控制台输入一些消息以发送到服务器。







7,777"%%

:-

:-

Step 5: 启动一个 consumer

Kafka 还有一个命令行 consumer（消费者），将消息转储到标准输出。







7,-77"%%-

:-

:-

如果您将上述命令在不同的终端中运行，那么现在就可以将消息输入到生产者终端

中，并将它们在消费终端中显示出来。

所有的命令行工具都有其他选项；运行不带任何参数的命令将显示更加详细的使用

信息。

Step 6: 设置多代理集群

到目前为止，我们一直在使用单个代理，这并不好玩。对Kafka 来说，单个代理只

是一个大小为一的集群，除了启动更多的代理实例外，没有什么变化。为了深入

了解它，让我们把集群扩展到三个节点（仍然在本地机器上）。

首先，为每个代理创建一个配置文件(在 Windows 上使用 copy命令来代替)：









现在编辑这些新文件并设置如下属性：







"

;;;;<

;;;;7<1=>'(:?@:""%%

剩余63页未读，继续阅读

乐行人生

粉丝: 3
资源: 2

Kafka 1.0官方文档详解：实时流处理与关键概念

Kafka官方中文文档.pdf

Kafka_2.11-1.1.0

kafka_2.11-0.10.1.0.tgz

ELK日志归集 - 搭建及使用说明文档V1.0.docx

Kafka技术参考手册.docx

KafKa安装使用手册.docx

妳那伊抹微笑_云计算之ClouderaManager以及CHD5.1.0集群部署安装文档V1.0.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.89.docx

Technical Design Specification_RealTime Enrolment v1.0.docx

微服务架构技术栈选型指南.docx

最新资源