Kafka面试精华：30道高频问题详解与答案

需积分: 3 44 浏览量更新于2024-08-04 收藏 18KB DOCX 举报

Kafka是一个强大的分布式流处理平台，其设计目标是为了处理大量实时数据，并提供高吞吐量和低延迟。以下是关于Kafka的一些关键知识点： 1. **最佳特性**： Kafka的“各种各样的用例”特性使其在众多场景下表现出色，包括日志聚合（如收集和整合来自不同服务的系统日志）、Web活动跟踪，以及实时数据流处理。它的设计允许高效地处理大量数据，并确保数据的持久性和可扩展性。 2. **术语解释**： - **Log Anatomy**：Kafka将日志视作分区，每个分区是一个逻辑上的数据容器，允许多个消费者并行读取，提高并发性和吞吐量。数据源向特定分区写入消息，提供了消息持久化和可扩展的读取机制。 3. **典型用例**： - **监控与质控**：Kafka用于收集分布式应用的操作数据，生成汇总报告，监控系统的性能。 - **日志聚合**：作为重要的日志管理工具，Kafka能集中存储和处理来自多个服务的实时日志，便于数据分析和审计。 - **流处理**：Kafka的持久性和高吞吐特性使其在实时流处理场景中发挥核心作用，如实时分析、实时通知等。 4. **生产者客户端**： Kafka生产者客户端包含main线程和sender线程。main线程负责消息的预处理，包括拦截器、序列化和分区，而sender线程负责将分区后的数据发送给指定的分区。这体现了生产者对并发和性能的关注。 5. **ISR概念**： ISR代表In-sync replicas，即同步副本。它们是一组保持与领导者节点同步的消息副本，确保数据的可靠性和一致性。 6. **分区管理**：分区数可以在某些情况下增加，但不建议减少。因为减少分区可能导致复杂性增加、消息处理问题和数据完整性风险。相反，可以通过创建新的分区来扩展容量，谨慎地迁移旧主题的数据。 7. **业务场景**： Kafka常用于以下业务场景： - **实时监控**：实时收集系统日志和性能指标，快速发现异常。 - **消息队列**：异步通信，降低系统的响应延迟。 - **物联网(IoT)**：收集和处理来自设备的传感器数据。 - **数据流处理**：实时分析和处理大量的流式数据。 - **事件驱动架构**：支持事件的发布-订阅模式，促进微服务间的解耦。 8. **集群管理**： Kafka的管理包括调整分区、副本数，以及使用`kafka-reassign-partition.sh`脚本进行动态资源分配。 Kafka凭借其出色的性能和灵活的设计，已经成为大数据处理和实时流处理不可或缺的组件，在企业级应用中扮演着关键角色。理解和掌握Kafka的这些特性与概念是准备Kafka面试的关键。

1、说一下 kafka 的最佳特征是什么？？

kafka 的最佳特征是：“各种各样的用例” 意味着 kafka 能够管理各种各样的用例，这些用

例对于数据池来说特别常见，例如日志聚合、web 活动跟踪等

2、解释术语 “log Anatomy”？

我们将日志视为分区，基本上数据源将消息写入日志，优点是：在任何时候，都有一个或多

个消费者，从他们选择的日志中进行读取数据

3、解释 kafka 的用例有哪些？？

kafka 有很多用例

A kafka 的指标：可以使用 kafka 记性操作质控数据。此外，为了生成操作数据集中提要，它

涉及到从分布式应用程序聚合统计信息

B kafka 日志聚合：从组织中的多个服务收集日志

C.流处理：在流处理过程中，kafka 的耐久性非常有用

4、 Kafka 生产者客户端的整体结构是什么样子的？使用了几个线程来处理？分别是什么？

main 线程负责：拦截器—>序列化器—>分区器 sender 线程负责：将分区后的数据发送给对

于分区

5、 ISR 在 kafka 环境中代表着什么？

ISR 指的是同步副本。这些通常被分类为一组消息副本，他们被同步为领导者

6、 topic 的分区数可不可以增加？可不可以减少？为什么？

分区数可以增加，不可以减少按照 Kafka 现有的代码逻辑而言，此功能完全可以实现，不

过也会使得代码的复杂度急剧增大。实现此功能需要考虑的因素很多，比如删除掉的分区中

的消息该作何处理？如果随着分区一起消失则消息的可靠性得不到保障；如果需要保留则又

需要考虑如何保留。直接存储到现有分区的尾部，消息的时间戳就不会递增，如此对于

Spark、Flink 这类需要消息时间戳（事件时间）的组件将会受到影响；如果分散插入到现有

的分区中，那么在消息量很大的时候，内部的数据复制会占用很大的资源，而且在复制期间，

此主题的可用性又如何得到保障？与此同时，顺序性问题、事务性问题、以及分区和副本的

状态机切换问题都是不得不面对的。反观这个功能的收益点却是很低，如果真的需要实现此

类的功能，完全可以重新创建一个分区数较小的主题，然后将现有主题中的消息按照既定的

逻辑复制过去即可。虽然分区数不可以减少，但是分区对应的副本数是可以减少的，这个其

实很好理解，你关闭一个副本时就相当于副本数减少了。不过正规的做法是使用

kafka-reassign-partition.sh 脚本来实现，(具体用法可以自行搜索)

7、列出所有 kafka 的业务有哪些？

A. 添加和删除 kafka 的主题

B.如何修改 kafka 的主题

下载后可阅读完整内容，剩余6页未读，立即下载

中本王

粉丝: 171
资源: 322

Kafka面试精华：30道高频问题详解与答案

大数据技术之高频面试题.docx

Kafka高频面试题系列之五（30道）.docx

Kafka高频面试题系列之四（30道）.docx

Kafka高频面试题系列之六（30道）.docx

大数据技术之高频面试题8.0.8(1)(1).docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.77.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.83.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.89.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.37.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.19.docx

最新资源