Kafka高可用性解析：DataReplication与Leader选举

100 浏览量更新于2024-08-27 收藏 552KB PDF 举报

"Kafka设计解析（二）-KafkaHighAvailability（上）" Kafka作为一款高吞吐量的分布式消息系统，其在0.8版本之前并未提供高可用性（High Availability, HA）机制。这意味着如果一个或多个Broker（Kafka中的服务器节点）发生故障，那么在其上的所有Partition（数据分片）将无法正常服务，可能导致数据丢失。为了实现数据持久化和提升系统的稳定性，Kafka从0.8版本开始引入了HA机制，包括Data Replication和Leader Election两个关键方面。 Data Replication是解决单点故障问题的关键策略。在Kafka中，每个Partition都有多个副本（Replicas），分布在不同的Broker上，形成复制集。这样，即使某个Broker宕机，其他副本仍能提供服务，确保数据的连续性和可用性。在0.8版本之前，没有Replication时，Producer在遇到Broker故障时，可能会导致数据丢失或者系统性能下降。引入Replication后，Producer可以将消息发送到其他可用的副本，避免了这种问题。 Leader Election是HA机制的另一重要组成部分，主要是为了在Replica之间选举出一个领导者来负责处理读写请求。在Kafka中，每个Partition只有一个活跃的Leader，其他副本称为Followers。当Leader失效时，需要快速选举一个新的Leader以确保Partition的服务不间断。Leader Election通常基于ZooKeeper等协调服务进行，保证选举过程的正确性和效率。选举过程尽可能快速地完成，以减少服务中断时间，维持系统的高可用性。在选举过程中，通常会选择具有最新数据的Replica作为新的Leader，以保证数据一致性。同时，Kafka还提供了不同的复制策略，如同步复制和异步复制，以平衡数据安全性和系统性能。同步复制要求所有副本都确认收到消息后才认为消息已成功发送，保证强一致性但可能影响性能；而异步复制则允许部分副本确认即可，提高吞吐量但可能容忍一定数据丢失。 Kafka的High Availability机制通过Data Replication和Leader Election确保了即使在部分Broker故障的情况下，系统仍然能够正常运行，提供服务，并最大限度地减少了数据丢失的风险。随着集群规模的增长，这两个机制的重要性更加凸显，成为Kafka在大规模分布式环境下的基石。

Kafka设计解析（二）设计解析（二）-KafkaHighAvailability（上）（上）

本文是系列文章的第二篇，第一篇 "Kafka设计解析（一）- Kafka背景及架构介绍"。

摘要

Kafka在0.8以前的版本中，并不提供High Availablity机制，一旦一个或多个Broker宕机，则宕机期间其上所有Partition都无法

继续提供服务。若该Broker永远不能再恢复，亦或磁盘故障，则其上数据将丢失。而Kafka的设计目标之一即是提供数据持久

化，同时对于分布式系统来说，尤其当集群规模上升到一定程度后，一台或者多台机器宕机的可能性大大提高，对于Failover

机制的需求非常高。因此，Kafka从0.8开始提供High Availability机制。本文从Data Replication和Leader Election两方面介绍

了Kafka的HA机制。

为何需要Replication

在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可被消费，这与

Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都不能再将数据存于这些Partition中。

如果Producer使用同步模式则Producer会在尝试重新发送message.send.max.retries（默认值为3）次后抛出Exception，用户

可以选择停止发送后续数据也可选择继续选择发送。而前者会造成数据的阻塞，后者会造成本应发往该Broker的数据的丢失。

如果Producer使用异步模式，则Producer会尝试重新发送message.send.max.retries（默认值为3）次后记录该异常并继续发

送后续数据，这会造成数据丢失并且用户只能通过日志发现该问题。

由此可见，在没有Replication的情况下，一旦某机器宕机或者某个Broker停止工作则会造成整个系统的可用性降低。随着集群

规模的增加，整个集群中出现该类异常的几率大大增加，因此对于生产系统而言Replication机制的引入非常重要。

为何需要Leader Election

（本文所述Leader Election主要指Replica之间的（Leader Election）

引入Replication之后，同一个Partition可能会有多个Replica，而这时需要在这些Replication之间选出一个Leader，Producer

和Consumer只与这个Leader交互，其它Replica作为Follower从Leader中复制数据。

因为需要保证同一个Partition的多个Replica之间的数据一致性（其中一个宕机后其它Replica必须要能继续服务并且即不能造

成数据重复也不能造成数据丢失）。如果没有一个Leader，所有Replica都可同时读/写数据，那就需要保证多个Replica之间互

相（N×N条通路）同步数据，数据的一致性和有序性非常难保证，大大增加了Replication实现的复杂性，同时也增加了出现异

常的几率。而引入Leader后，只有Leader负责数据读写，Follower只向Leader顺序Fetch数据（N条通路），系统更加简单且

高效。

如何将Replica均匀分布到整个集群

为了更好的做负载均衡，Kafka尽量将所有的Partition均匀分配到整个集群上。一个典型的部署方式是一个Topic的Partition数

量大于Broker的数量。同时为了提高Kafka的容错能力，也需要将同一个Partition的Replica尽量分散到不同的机器。实际上，

如果所有的Replica都在同一个Broker上，那一旦该Broker宕机，该Partition的所有Replica都无法工作，也就达不到HA的效

果。同时，如果某个Broker宕机了，需要保证它上面的负载可以被均匀的分配到其它幸存的所有Broker上。

Kafka分配Replica的算法如下：

将所有Broker（假设共n个Broker）和待分配的Partition排序

将第i个Partition分配到第（i mod n）个Broker上

将第i个Partition的第j个Replica分配到第（(i + j) mode n）个Broker上

Data Replication

Kafka的Data Replication需要解决如下问题：

怎样Propagate消息

在向Producer发送ACK前需要保证有多少个Replica已经收到该消息

怎样处理某个Replica不工作的情况

怎样处理Failed Replica恢复回来的情况

Propagate消息

Producer在发布消息到某个Partition时，先通过Zookeeper找到该Partition的Leader，然后无论该Topic的Replication Factor为

多少（也即该Partition有多少个Replica），Producer只将该消息发送到该Partition的Leader。Leader会将该消息写入其本地

Log。每个Follower都从Leader pull数据。这种方式上，Follower存储的数据顺序与Leader保持一致。Follower在收到该消息并

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38693967

粉丝: 3
资源: 891

Kafka高可用性解析：DataReplication与Leader选举

kafka-schema-registry-client-6.2.2.jar

kafka-clients-2.4.1-API文档-中文版.zip

kafka-clients-2.0.0-API文档-中文版.zip

翻译代码/opt/tiger/kafka_2.11-2.1.1/bin/kafka-console-consumer.sh --bootstrap-server $(sd config kafka_vpc) --topic test_topic

kafka0.8的kafka-run-class.sh 使用样例

kafka-topics.sh --create --topic kafka_direct0 --partitions 3--replication-factor 1 --zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 Missing required argument "[replication-factor]"这个报错如何解决？

kafka kafka-run-class kafka.tools.GetOffsetshell

查看kafka-server-start.sh路径

kafka kafka-server-stop.sh

[ys@hadoop102 flume]$ flume-ng agent --conf-file /path/to/file-flume-kafka.conf --name kafka-flume-agent -Dflume.root.logger=INFO,console bash: flume-ng: 未找到命令...

最新资源