Kafka入门教程：核心概念与消息发送方式

189 浏览量更新于2024-08-29 收藏 368KB PDF 举报

"kafka企业级入门，包括kafka概述、角色介绍、集群环境搭建、生产者与消费者操作、消息发送方式以及消息的存储和查询机制。" Kafka是一个广泛应用于现代企业级应用的消息中间件，它设计的目标是提供高吞吐量、低延迟的数据传输服务。作为一个分布式发布订阅消息系统，Kafka能够处理海量的数据流，使得实时数据处理成为可能。在Kafka的角色体系中，有几个关键的概念： - Broker：这是Kafka集群的基础单元，由一个或多个服务器组成，负责存储和转发消息。 - Topic：消息的分类，每个主题可以有多个Partition。 - Message：消息由消息头和消息体两部分构成，其中消息体可以携带实际的数据。 - Partition：物理上的存储单位，每个Topic可以划分为多个Partition，分布在不同的Broker上，确保负载均衡和高可用性。 - Producer：负责将消息发布到Kafka Broker的客户端。 - Consumer：消息的消费者，每个Consumer属于一个Consumer Group，消费消息的方式基于Group进行。 Kafka集群环境的搭建通常包括以下步骤： 1. 集群主机规划，根据业务需求确定服务器数量和配置。 2. 安装Zookeeper集群，Zookeeper用于协调Kafka集群的状态信息。 3. 在规划好的主机上安装Kafka集群，配置集群间通信和数据复制。生产者和消费者是Kafka中的核心组件，生产者通过API连接到Kafka集群，创建生产者实例，然后将消息Record发送到指定的主题。消费者则需要配置Kafka集群的地址，创建消费者实例，通过循环调用来获取和处理消息。消息的发送方式有三种： - 同步阻塞发送：保证消息发送的成功，保持消息顺序，但可能影响吞吐量。 - 异步发送（发送并忘记）：高吞吐量，不保证消息发送结果，也不保证顺序。 - 异步发送（发送并回调）：兼顾发送可靠性与一定的吞吐量，但不保证全局消息顺序。 Kafka的消息存储机制依赖于Partition，每个Partition是一个有序的、不可变的消息序列。日志文件会根据大小或时间滚动切割成Log Segments，每个Segment包含数据文件和索引文件，保证了快速查找和读取消息的能力。由于Kafka只保证在同一Partition内的消息顺序，所以全局的消息顺序无法得到保证。查询消息时，用户可以根据消息的键（key）或偏移量（offset）来定位并读取特定的消息。这种高效的消息存储和查询机制使得Kafka成为大数据处理、实时分析和流处理等场景的理想选择。

kafka企业级入门企业级入门

1.kafka概述

什么是kafka？

kafka是一个消息系统，消息中间件，是一个高吞吐量的分布式发布订阅消息系统。

2.kafka角色介绍

broker：kafka集群包含一个或多个服务器，服务器即broker

topic：每条发布到kafka集群的消息都有一个类别，类别即topic

message：消息，由定长的消息头和变长的消息体组成

partition：partition是物理上的概念，每个topic包含一个或多个partition

producer：消息生产者，负责发布消息到kafka broker

consumer：每个consumer属于一个特定的consumer group。如果没有指定group name，则属于默认的group

consumer group：每一个消费者组，会选择一个broker作为协调者

3.kafka集群环境搭建：

集群主机规划

安装zookeeper集群

安装kafka集群

4.kafka生产者与消费者

生产者：

连接kafka集群地址

创建生产者主体

生产消息信息record

消费者：

配置地址信息

创建消费者主体

循环取消息

5.发送消息的三种方式：

同步阻塞发送

使用场景：发送消息不能出错，发送消息的顺序不能出错，不关心高吞吐量

异步发送（发送并忘记）

使用场景：发送消息不管会不会出错，发送消息错乱没有关系，只关心高吞吐量

异步发送（发送并回调）

使用场景：发送消息不能出错，但是我不关心消息的具体顺序

6.消息的存储和查询机制

topic：

每条发布到kafka集群的消息都有一个类别，该类别就是topic

partition：

partition是物理上的概念，每个topic包含一个或多个partition

每个分区由一系列有序的不可变的消息组成，是一个有序队列

每个分区在物理上是一个文件夹，分区命名规则：topicname-partitionId

分区目录下，存储该分区的日志段。包含一个数据文件和两个索引文件

每条消息被追加到对应的分区中，是顺序写磁盘。这也是kafka高吞吐量的重要保证

kafka是局部有序，即只保证一个分区内的消息顺序性，不保证全局有序

logSegment：

日志文件按照大小，或者时间滚动，切分成一个或者多个日志段（logSegment），日志段大小默认1gb

消息的查询：

根据文件存储的有序性，通过二分查找先找到文件，再找文件中具体的消息

7.三种数据发送策略

指定分区发送

不指定分区，没有key，轮询发送

不指定分区，有key，hash发送

8.消费者负载均衡策略

消费者与partition的对应关系：同一个分区的数据，只能被一个消费组中的一个消费者消费

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38691006

粉丝: 3
资源: 942

Kafka入门教程：核心概念与消息发送方式

大数据Spark企业级实战

Kafka学习笔记.pdf

Kafka实战快速入门指南

Kafka Streams实战入门与进阶指南

Kafka深度解析：从入门到精通企业级消息队列

kafka入门介绍

三小时急速入门springboot—企业级微博项目实战

Apache Kafka.pdf

kafka官方文档-中文

Kafka入门与详解：分布式消息系统

最新资源