Java大数据面试深度解析：Kafka与Hadoop Shuffle详解

版权申诉

5星 · 超过95%的资源 127 浏览量更新于2024-07-21 收藏 418KB PDF 举报

"这份资料主要包含了2021年唯品会Java大数据开发工程师面试的相关问题，涉及了Kafka和Hadoop等关键技术的深入理解。" 在Java大数据领域，熟悉Kafka和Hadoop的运作机制是至关重要的。让我们逐一探讨这些知识点。首先，Kafka是一种高吞吐量的分布式消息系统，它的核心概念是Message。每条Message包含两部分：header和body。header部分由一个字节的magic标识文件格式，以及四个字节的CRC32用于校验消息体的完整性。当magic值为1时，header中还会有一个attributes字段，用于存储如压缩方式等消息属性。Body则包含了实际的key/value数据。查看Kafka的offset，对于0.9及以上版本，可以使用Consumer client的API，如`consumer.seekToEnd()`或`consumer.position()`来获取当前最新offset，这对于消费者跟踪消息进度至关重要。其次，我们讨论Hadoop的shuffle过程，这是MapReduce模型中的关键步骤。Map端的shuffle涉及到数据的处理和排序。Map任务处理输入数据生成中间结果，并将其暂存于内存缓冲区。当缓冲区满时，数据会被溢写到磁盘，形成spill文件。在溢写前，数据会根据partition进行排序，同一partition内的数据再按key排序，以利于后续Reduce阶段的分发。如果配置了combiner，它会在溢写到磁盘前对数据进行局部聚合，减少磁盘I/O。最终，所有spill文件会被归并成一个文件，完成Map端的shuffle。 Reduce端的shuffle则分为copy、sort(merge)和reduce三个阶段。Reduce任务会通过网络复制Map任务产生的结果，这个过程称为copy。接着，复制的数据会被按照key排序，这个过程叫做sort。排序后，数据被分块，合并成几个大文件，以便于reduce函数处理。最后，reduce阶段执行实际的聚合操作，将排序后的数据处理成最终结果。掌握这些知识点对于理解Java大数据处理流程以及在面试中脱颖而出至关重要。对于唯品会这样的大厂，深入理解并能灵活运用这些技术将大大提升面试的成功率。在准备面试时，除了理论知识，还需要对实际项目经验、问题解决能力以及对新技术的敏感度有所准备。

4、namenode 返回 3 个 datanode 服务器 ABC

5、client 请求 3 台 dn 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline），

A 收到请求会继续调用 B，然后 B 调用 C，将真个 pipeline 建立完成，逐级返回客户端

6、client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 p

acket 为单位，A 收到一个 packet 就会传给 B，B 传给 C；A 每传一个 packet 会放入一个

应答队列等待应答

7、当一个 block 传输完成之后，client 再次请求 namenode 上传第二个 block 的服务器。

6、RDD 中 reduceBykey 与 groupByKey 哪个性能好，为什么

reduceByKey：reduceByKey 会在结果发送至 reducer 之前会对每个 mapper 在本地

进行 merge，有点类似于在 MapReduce 中的 combiner。这样做的好处在于，在 map 端

进行一次 reduce 之后，数据量会大幅度减小，从而减小传输，保证 reduce 端能够更快的

进行结果计算。

groupByKey：groupByKey 会对每一个 RDD 中的 value 值进行聚合形成一个序列

(Iterator)，此操作发生在 reduce 端，所以势必会将所有的数据通过网络进行传输，造成不

必要的浪费。同时如果数据量十分大，可能还会造成 OutOfMemoryError。

通过以上对比可以发现在进行大量数据的 reduce 操作时候建议使用 reduceByKey。不仅

可以提高速度，还是可以防止使用 groupByKey 造成的内存溢出问题。

7、spark2.0 的了解

剩余15页未读，继续阅读

Java天下第1

粉丝: 563
资源: 65

Java大数据面试深度解析：Kafka与Hadoop Shuffle详解

大数据工程师面试题

2019年BAT面试题包括阿里、天猫、蚂蚁、唯品会

大数据开发笔试.docx

2021Java大厂面试题——大厂真题之蚂蚁金服-Java高级.pdf

大厂面试真题广州-唯品会-Java大数据开发工程师

大厂真题之唯品会-Java大数据开发工程师.pdf

2021Java大厂面试题——大厂真题之银盛支付-Java中级.pdf

2021Java大厂面试题——大厂真题之拼多多-Java高级.pdf

2021Java大厂面试题——大厂真题之携程-Java高级.pdf

大厂Java面试真题——并发面试专题

最新资源