Kafka面试精华：高吞吐、低延迟的分布式消息平台

需积分: 19 145 浏览量更新于2024-07-15 1 收藏 344KB DOCX 举报

Apache Kafka是一个开源的消息代理应用程序，主要用于实时流处理，由Apache软件基金会开发。它的核心设计是基于分布式、高吞吐量和低延迟的日志式架构，特别适合于处理大规模数据和实时事件。 Kafka的关键组件包括： 1. **主题（Topics）**：Kafka的核心概念，类似于数据库中的表，是一组相关消息的集合。 2. **生产者（Producers）**：负责将数据发布到主题中，支持批量发送，实现高吞吐量。 3. **消费者（Consumers）**：订阅主题并接收消息，可以属于不同的消费者组，每个组内的消费者实例分布在不同位置，提高并行处理能力。 4. **经纪人（Brokers）**：负责存储和路由消息，是Kafka集群的核心服务节点。偏移量（Offset）是每个分区中的消息的唯一标识，用于跟踪消费者对消息的消费进度。 **消费者组（Consumer Group）**是Kafka特有的概念，一组共享相同订阅主题的消费者组成一个组，这样可以实现消息的负载均衡和故障恢复。 Kafka的重要特性包括： - **高吞吐量**：Kafka设计使得它能在不需要昂贵硬件的情况下处理大量数据，支持每秒数千条消息的传输。 - **低延迟**：通过优化设计，Kafka能够实现极低的毫秒级延迟，满足实时应用的需求。 - **容错性**：Kafka设计允许集群中的单个节点故障不会导致整个系统崩溃，通过消息复制机制提高可用性。 - **耐久性**：消息被复制到多个副本，即使某个节点故障，消息也不会丢失。 - **可扩展性**：Kafka支持水平扩展，无需停机即可添加更多节点来处理增长的数据量。 Kafka提供了四个主要API，分别是生产者API、消费者API、流API和连接器API，分别服务于数据的生产、消费和集成。最后，生产者在队列满或达到最大限制时可能会抛出`QueueFullException`，这通常发生在生产者试图以超出代理处理能力的速度发送消息时，需要进行适当的配置和监控以避免这个问题。

的 7*的特殊的方法也可用（CA)##)#AD"#和 C #$D"#）

问题 67：讲讲 kafka 维护消费状态跟踪的方法

大部分消息系统在 (端的维护消息被消费的记录：一个消息被分发到 #9后

(就马上进行标记或者等待 *9的通知后进行标记。这样也可以在消息在消费后

立马就删除以减少空间占用。

但是这样会不会有什么问题呢？如果一条消息发送出去之后就立即被标记为消费过的，旦

#9处理消息时失败了（比如程序崩溃）消息就丢失了。为了解决这个问题，很多消

息系统提供了另外一个个功能：当消息被发送出去之后仅仅被标记为已发送状态，当接到

#9已经消费成功的通知后才标记为已被消费的状态。这虽然解决了消息丢失的问题，

但产生了新问题，首先如果 #9 处理消息成功了但是向 (发送响应时失败了，

这条消息将被消费两次。第二个问题时，(必须维护每条消息的状态，并且每次都要

先锁住消息然后更改状态然后释放锁。这样麻烦又来了，且不说要维护大量的状态数据，

比如如果消息发送出去但没有收到消费成功的通知，这条消息将一直处于被锁定的状态，

 采用了不同的策略。 C)  被分成了若干分区，每个分区在同一时间只被一个

#9消费。这意味着每个分区被消费的消息在日志中的位置仅仅是一个简单的整数：

7*。这样就很容易标记每个分区消费状态就很容易了，仅仅需要一个整数而已。这样消

费状态的跟踪就很简单了。

这带来了另外一个好处：#9可以把 7*调成一个较老的值，去重新消费老的消息。

这对传统的消息系统来说看起来有些不可思议，但确实是非常有用的，谁规定了一条消息

只能被消费一次呢？

问题 68：讲一下主从同步

问题 69：kafka 数据传输的事务定义有哪三种？

（%）最多一次消息不会被重复发送，最多被传输一次，但也有可能一次不传输

（-）最少一次消息不会被漏发送，最少被传输一次，但也有可能被重复传输8

（;）精确的一次（ !*:#）不会漏传输也不会重复传输>每个消息都传输被一次而

且仅仅被传输一次，这是大家所期望的

问题 72：kafka 分布式（不是单机）的情况下，如何保证消息的顺序消费?

分布式的单位是 ""#，同一个 ""#用一个 4)*$A组织，所以可以保

证 J的顺序。不同 ""#之间不能保证顺序。但是绝大多数用户都可以通过 9A

:来定义，因为同一个 :的 9A可以保证只发送到同一个 ""#。

中发送 %条消息的时候，可以指定*)>""#>:;个参数。"*#和 :是可

选的。如果你指定了 ""#，那就是所有消息发往同 % 个 ""#，就是有序的。并且

在消费端，保证，%个 ""#只能被 %个 #9消费。或者你指定 :（比如

$)$），具有同 %个 :的所有消息，会发往同 %个 ""#。

问题 73：kafka 的高可用机制是什么？

问题 74：kafka 如何减少数据丢失？

 到底会不会丢数据$*K通常不会，但有些情况下的确有可能会发生。下面的参

数配置及 *" 列表可以较好地保证数据的持久性当然是 *$7，牺牲了吞吐量。

(8#8(783*



*)+<LMNO

9!8)#8P)A*86*88##"#%

使用 $8#$$>(

( 逻辑中显式关闭 $：&

##8$8"#8#(3

)"#83*;

9)#8)#:#8)-

)"#83*?9)#8)#:#8)

#(8*899)*3

消息处理完成之后再提交位移

问题 75：producer 是否直接将数据发送到 broker 的 leader(主节点)？

$ 直接将数据发送到 ( 的 $主节点，不需要在多个节点进行分发，为了帮

助 $ 做到这点，所有的  节点都可以及时的告知哪些节点是活动的，目标 *)

目标分区的 $ 在哪。这样 $ 就可以直接将消息发送到目的地了

问题 76：Kafa consumer 是否可以消费指定分区消息？

3#9 消费消息时，向 ( 发出Q3*Q请求去消费特定分区的消息，#9 指

定消息在日志中的偏移量（7*），就可以消费从这个位置开始的消息，*9 拥有了

7* 的控制权，可以向后回滚去重新消费之前的消息，这是很有意义的

问题 77：Kafka 存储在硬盘上的消息格式是什么？

消息由一个固定长度的头部和可变长度的字节数组组成。头部包含了一个版本号和 D'D;-

校验码。

R消息长度(:*0%#

R版本号%(:*

RD'D 校验码(:*

R具体的消息#(:*

问题 78：Kafka 高效文件存储设计特点

%8 把 *) 中一个 )"# 大文件分成多个小文件段，通过多个小文件段，就容易定

期清除或删除已经消费完文件，减少磁盘占用。

-8通过索引信息可以快速定位 9A 和确定 # 的最大大小。

;8通过 )#$! 元数据全部映射到 99:，可以避免 A9#*S 的 J 磁盘操作。

8通过索引文件稀疏存储，可以大幅降低 )#$! 文件元数据占用空间大小。

问题 79：Kafka 创建 Topic 时如何将分区放置到不同的 Broker 中

R副本因子不能大于 的个数；

R第一个分区（编号为 &）的第一个副本放置位置是随机从 (N)*选择的；

R其他分区的第一个副本放置位置相对于第 & 个分区依次往后移。也就是如果我们有  个

， 个分区，假设第一个分区放在第四个 上，那么第二个分区将会放在第五

个 上；第三个分区将会放在第一个 上；第四个分区将会放在第二个 

上，依次类推；

剩余42页未读，继续阅读

q20072918

粉丝: 83
资源: 3

Kafka面试精华：高吞吐、低延迟的分布式消息平台

2019尚硅谷周阳互联网面试题第2季.html

大数据面试题

Kafka常见23道面试题以答案.docx

尚硅谷大数据技术之高频面试题8.0.9.docx

class org.apache.kafka.common.serialization.StringSerializer is not an instance of org.apache.kafka.common.serialization.Deserializer

error fatal error during kafkaserver startup. prepare to shutdown (kafka.server.kafkaserver) kafka.zookeeper.zookeeperclienttimeoutexception: timed out waiting for connection while in state: connecting

kafka启动报错 error exiting kafka (kafka.server.kafkaserverstartable)

kafka.kerberos.service.name=kafka

[2023-09-19 06:52:28,690] ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)

failed to start bean 'org.springframework.kafka.config.internalkafkalistenerendpointregistry'; nested exception is org.apache.kafka.common.kafkaexception: failed to construct kafka consumer

最新资源