Kafka入门详解：概念、分组与数据完整性保障

需积分: 50 68 浏览量更新于2024-09-07 1 收藏 4KB TXT 举报

Kafka是一个分布式流处理平台，它基于发布/订阅模型，类比于JMS消息队列中的点对点模式，但支持多个消费者主动拉取数据。Kafka的核心组件包括Producer（生产者）、Broker（中间件）和Topic（主题）以及Consumer Group（消费者组）。 **1、Kafka的基本概念** - **生产者(Producer)**：负责数据的生产和发布，它的代码通常与业务系统的任务系统整合，生产者可以根据需要自定义数据分发策略。默认情况下，生产者会根据key的哈希值对消息进行分区，通过`defaultPartitionUtils.abs(key.hashCode)%numPartitions`计算分区号。 - **Broker**：是Kafka集群中的节点，主要负责数据的存储，每个Broker都有唯一的brokerid，确保集群内的唯一性。Broker负责维护消息的复制（replication），每个Topic的partition可以配置多个副本，确保数据的高可用性和容错性。 - **Topic**：消息的发布目的地，逻辑上可以划分为多个分区，每个分区由多个segment（包含索引和日志）组成，大小默认为1GB。Topic的每个partition有一个leader副本，负责处理所有的读写请求，区别于数据库中的主从模式，Kafka的读写操作都发生在leader上。 - **消费者组(Consumer Group)**：消费者组由多个消费者线程组成，它们共享同一主题的数据，但组内成员之间互不重复消费，确保数据的有序消费。 **2、Kafka生产数据的分组策略** 默认情况下，生产者使用key的哈希值来决定消息的分区，这有助于将相关的数据分发到相近的分区，提高数据的消费效率。例如，`producer.send(KeyedMessage(topic, myPartitionKey, messageContent))`中的`myPartitionKey`就是用来指定分区的键。 **3、Kafka数据的完全生产保障** Kafka通过`ack（确认）`机制来保证数据的完整性和可靠性。当生产者发送数据时，可以选择以下几种确认策略： - **ack=0**：不等待任何确认，牺牲可靠性以换取更高的吞吐量。 - **ack=1**：等待Broker确认消息已被保存到磁盘，至少有一台Broker接收到并记录了数据，这提供了一定程度的持久化，但不能保证所有副本都已收到。总结来说，Kafka作为实时流处理平台，通过其分布式架构、数据分区、复制机制和确认策略，实现了高效、可靠的消息传输。理解这些基本概念对于使用Kafka进行数据处理和系统集成至关重要。

1、kafka是什么
类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。
kafka是一个生产-消费模型。
Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。
数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode) % numPartitions
Broker：当前服务器上的Kafka进程,俗称拉皮条。只管数据存储，不管是谁生产，不管是谁消费。
在集群中每个broker都有一个唯一brokerid，不得重复。
Topic:目标发送的目的地，这是一个逻辑上的概念，落到磁盘上是一个partition的目录。partition的目录中有多个segment组合(index,log)
一个Topic对应多个partition[0,1,2,3]，一个partition对应多个segment组合。一个segment有默认的大小是1G。
每个partition可以设置多个副本(replication-factor 1),会从所有的副本中选取一个leader出来。所有读写操作都是通过leader来进行的。
特别强调，和mysql中主从有区别，mysql做主从是为了读写分离，在kafka中读写操作都是leader。
ConsumerGroup：数据消费者组，ConsumerGroup可以有多个，每个ConsumerGroup消费的数据都是一样的。
可以把多个consumer线程划分为一个组，组里面所有成员共同消费一个topic的数据，组员之间不能重复消费。

2、kafka生产数据时的分组策略
默认是defaultPartition Utils.abs(key.hashCode) % numPartitions
上文中的key是producer在发送数据时传入的，produer.send(KeyedMessage(topic,myPartitionKey,messageContent))

3、kafka如何保证数据的完全生产
ack机制：broker表示发来的数据已确认接收无误，表示数据已经保存到磁盘。
0：不等待broker返回确认消息
1：等待topic中某个partition leader保存成功的状态反馈
-1：等待topic中某个partition 所有副本都保存成功的状态反馈

4、broker如何保存数据
在理论环境下，broker按照顺序读写的机制，可以每秒保存600M的数据。主要通过pagecache机制，尽可能的利用当前物理机器上的空闲内存来做缓存。
当前topic所属的broker，必定有一个该topic的partition，partition是一个磁盘目录。partition的目录中有多个segment组合(index,log)

5、partition如何分布在不同的broker上
int i = 0

下载后可阅读完整内容，剩余1页未读，立即下载

春眠不觉晓h

粉丝: 8
资源: 6

Kafka入门详解：概念、分组与数据完整性保障

Kafka框架基础概念

kafka基础知识及集群搭建

kafka面试知识点

kafka集群命令汇总

kafka创建topic命令_kafka常用命令总结

大数据开发工程师知识kafka

kafka和kafkaconnect

kafka转发到其它kafka

停止kafka和启动kafka

kafka和kafka共识

最新资源