Kafka面试深度解析：高效机制与存储原理

需积分: 3 165 浏览量更新于2024-08-04 收藏 111KB DOCX 举报

"Kafka面试题与答案，涵盖了Kafka的高效读写、分布式特性、文件存储机制以及清理策略" 1、Kafka的高效读写数据能力主要体现在以下几个方面： - **分布式集群**：Kafka设计为分布式系统，支持多分区和副本，这允许数据并行处理，从而提高整体性能和可用性。 - **稀疏索引**：Kafka使用稀疏索引来加速数据查找，只记录关键位置的索引，减少索引文件大小，提升查找效率。 - **顺序IO**：Kafka将消息追加写入分区，利用磁盘的顺序写入优势，提高写入速度。顺序写入的速度远高于随机写入。 - **零拷贝和页缓存**：Kafka利用操作系统的内存映射技术（mmap）和页缓存（pageCache），减少数据在内存和磁盘之间的复制，同时通过sendfile系统调用实现从kernel到socket的直接数据传输，避免了用户空间到内核空间的拷贝。 - **批处理和压缩**：消息被批量发送和消费，降低网络传输开销，同时支持消息压缩，减少网络传输的数据量，提高传输效率。 2、Kafka的文件存储机制包括： - **逻辑与物理结构**：Topic是逻辑概念，Partition是物理实现，每个Partition对应一个log文件。Partition内的数据按顺序追加。 - **Segment机制**：Partition进一步细分为多个Segment，每个Segment包含.log、.index和.timeindex文件。这种分片有助于管理和检索大量数据。 - **索引文件**：索引文件为稀疏索引，大约每4KB数据写入一次索引，用于快速定位消息。索引文件中的offset是相对offset，便于节省存储空间。 - **文件清理策略**：Kafka会根据设定的时间或大小策略删除旧的日志段。默认保留7天的数据，可通过配置调整。清理过程遵循一定的检查周期，并优先考虑时间限制。 3、Kafka的日志清理策略有： - **清理周期**：默认每天清理，但也可以按分钟或毫秒设置，优先级为小时<分钟<毫秒。 - **删除策略**：基于时间的删除策略是默认开启的，以Segment中最大时间戳为准，如果所有消息超过保存时间则删除该Segment。以上内容详细解释了Kafka在性能优化、数据存储和清理策略方面的核心知识点，这些是理解Kafka工作原理和高效使用的关键。在面试中，了解并能深入讨论这些点将展示出对Kafka的深刻理解和实践经验。

1、 kafka 为什么比较快

高效读写数据

分布式集群： kafka 本身是分布式集群，可采用分区技术，并行度高

稀疏索引：读数据采用稀疏索引，能够快速定位到要消费的数据

顺序 IO： kafka 写数据到分区采用追加的方式（顺序写入），所以这个速度非常快；物理上

采用磁盘和固态硬盘区别不大；官网数据：顺序读写 600M/s,随机只有 100K/s

零拷贝和页缓存： kafka 在写入消息的时候通过 mmap 内存映射的方式，上层有写操作的

时候，操作系统只将数据写入 pageCache，发生读操作时，先从 pageCache 查找，找不到再

去磁盘查找，实际上 pageCache 尽可能多的将空闲内存作为磁盘缓存使用；kafka 的数据加

工由生产者和消费者处理，broker 应用不关心存储数据，所以数据不走应用层，通过 sendfile

实现零拷贝，将数据直接发送到 consumer

批处理和压缩： kafka 在发送和消费消息的时候，是一批一批处理数据；且可对消息进行压

缩，缩小消息体积，可以一次性传输更多消息

2、 kafka 文件存储机制

1、Topic 是逻辑上的概念，Partition 是物理上的概念，每个 Partition 对应一个 log 文件（即

生产数据）。Partition 产生的数据会被追加到 log 文件末尾（顺序写入）。

2、为了防止 log 过大导致数据定位效率低下，kafka 采用分片和索引机制，将每个 Partition

分割成多个 Segement，每个 Segement 包括“.index”文件，“.log”文件和“.timeindex”等

文件，统一位于 topic+分区编号目录下

注：index 和 log 文件以当前 segement 的第一条消息的 offset 命名

3、Log&Index：

index 为稀疏索引，大约每往 log 写入 4kb 数据，往 index 写入一条索引，参数

log.index.interval.bytes 默认 4kb

index 文件中保存 offset 为相对 offset，这样确保 offset 的值占用空间不会过大，因此将 offset

的值控制在固定大小（真实 offset=文件名数据+文件内 offset）

4、文件清理策略

清理周期：默认日志保存时间为 7 天，还可以设置清理间隔为分钟、毫秒，优先级：小时

<分钟<毫秒；检查周期默认 5mins

delete 策略：

基于时间：默认打开，以 segement 中所有记录的最大时间戳作为文件的时间戳

基于大小：默认关闭，超过设置日志总大小，删除最早的 segement

compat 策略：

下载后可阅读完整内容，剩余9页未读，立即下载

中本王

粉丝: 169
资源: 319

Kafka面试深度解析：高效机制与存储原理

Kafka高频面试题系列之一（30道）

Kafka高频面试题系列之三（30道）.docx

kafka的高频面试题

kafka 常见面试题

kafka相关面试题

kafka经典面试题

kafka常见面试题

资深kafka专家面试题及答案

kafka基础面试题

大数据kafka面试题

最新资源