Kafka面试精华：23道经典问题详解与应用

需积分: 48 95 浏览量更新于2023-03-03 收藏 22KB DOCX 举报

Kafka是一种分布式流处理平台，主要用于实时数据处理和消息传输，其设计初衷是为了支持大规模、高吞吐量的消息生产与消费。以下是关于Kafka的一些核心概念和面试题的解答： 1. **用途与应用场景** Kafka常用于异步处理，如网站活动追踪、实时数据流处理、日志聚合、事件采集等。它能够实现系统解耦，使得不同服务间的数据交换更为高效。通过高吞吐量和可扩展性，Kafka还能帮助削峰，即在流量高峰时分摊压力，以及提高系统响应速度。此外，Kafka的广播功能使得单个事件可以快速传递给多个接收者。 2. **关键概念** - **ISR (In-SyncReplicas)**：ISR代表同步复制副本，是活跃在集群中的与 leader 节点保持数据同步的副本。在Kafka中，ISR的伸缩指的是动态调整 ISR 中副本的数量，以维持系统的可用性和性能。 - **AR (AssignedReplicas)**：所有副本的集合，包含 ISR 和 OSR（Out-of-SyncReplicas，即未同步的副本）。 - **HW (HighWatermark)**：表示某个分区中最新的已确认消息位置，消费者不能消费超过这个位置的消息。 - **LEO (LogEndOffset)**：日志文件的结束位置，用于确定分区的最新消息位置。 - **LSO (LastStableOffset)**：事务完成后的位置，对于已完成的事务，LSO与HW相同；对于未完成的事务，LSO记录事务的第一条消息位置。 - **LW (LowWatermark)**：AR中最低的日志起始位置。 3. **消息顺序性** Kafka保证每个分区内部的消息顺序，但整个主题（topic）的全局消息顺序则取决于分区数量。若需确保主题有序，应将分区设置为1个。 4. **组件理解** - **分区器**：决定消息的物理存储位置，根据规则将消息分配到不同的分区。 - **序列化器**：负责将消息转换为可以跨网络传输的格式，保证数据一致性。 - **拦截器**：允许用户自定义消息处理逻辑，插入在序列化器和分区器之间，执行预处理或后处理操作。 5. **生产者客户端** Kafka生产者通常使用2个线程：一个负责发送数据到分区，另一个负责管理发送缓冲，确保数据的连续性和可靠性。掌握这些知识点有助于深入理解Kafka的核心功能和在实际项目中的应用，对于面试时展示你的技术能力和经验至关重要。

史上最全的 Java 面试题独家整理

Kafka 常见 23 道面试题以答案

1、Kafka 的用途有哪些？使用场景如何？

总结下来就几个字:异步处理、日常系统解耦、削峰、提速、广播

如果再说具体一点例如:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等

2、Kafka 中的 ISR、AR 又代表什么？ISR 的伸缩又指什么

ISR:In-Sync Replicas 副本同步队列

AR:Assigned Replicas 所有副本

ISR 是由 leader 维护， follower 从 leader 同步数据有一些延迟（包括延迟时间

replica.lag.time.max.ms 和延迟条数 replica.lag.max.messages 两个维度, 当前最新的版本 0.10.x

中只支持 replica.lag.time.max.ms 这个维度），任意一个超过阈值都会把 follower 剔除出 ISR, 存入

OSR（Outof-Sync Replicas）列表，新

加入的 follower 也会先存放在 OSR 中。AR=ISR+OSR。

3、Kafka 中的 HW、LEO、LSO、LW 等分别代表什么？

下载后可阅读完整内容，剩余3页未读，立即下载

shalaoq

粉丝: 3
资源: 21

Kafka面试精华：23道经典问题详解与应用

2019尚硅谷周阳互联网面试题第2季.html

阿里面试题总结和答案整理

09_尚硅谷大数据技术之Kafka.doc

尚硅谷大数据技术之高频面试题8.0.9.docx

kafka常见面试题

kafka 常见面试题

kafka常见的面试题

kafka面试题及答案

kafka消息队列面试题

kafka相关面试题

最新资源