揭秘唯品会Java大数据开发面试真题：Kafka消息结构与Hadoop Shuffle详解

版权申诉

141 浏览量更新于2024-07-21 收藏 418KB PDF 举报

在大厂真题之唯品会的Java大数据开发工程师面试中，考察了以下几个关键知识点： 1. **Kafka消息结构**: Kafka的消息由固定的header和可变长度的body组成。header包含一个魔术字节（magic）和一个CRC32校验码，用于确保body数据的完整性。魔术字节值为1时，会额外有一个属性字节，存储如压缩类型等信息；值为0则无属性。Body则是实际的键值对数据。 2. **Kafka偏移量查看**: Kafka 0.9及以上版本的Consumer客户端提供了查看偏移量的方法，如`consumer.seekToEnd()`和`consumer.position()`。它们可以帮助开发者获取消费者当前消费到的消息位置。 3. **Hadoop Shuffle过程**: Hadoop的shuffle是MapReduce模型中的一个重要步骤，分为Map端和Reduce端。 - **Map端shuffle**: 在Map阶段，数据经过处理后会形成中间结果，并暂存于内存缓冲区。当数据量达到一定阈值时，会进行spill操作，将数据排序（首先按分区，然后按键），这有助于分区均衡和Reducer的负载分配。如果有Combiner设置，会在写入磁盘前进行预处理，减少数据量。spill文件存放在`mapred.local.dir`指定的本地目录，任务完成后会被删除，并通过多路归并合并成单个文件。 - **Reduce端shuffle**: Reduce阶段的shuffle包含copy、sort（merge）和reduce三个步骤。首先，Map任务的输出数据会被复制到所有Reduce任务的实例上。接着，数据在Reduce节点进行排序（merge）以进一步优化，然后Reducer负责接收和处理这些已排序的数据，完成最终的聚合计算。理解并掌握这些知识点对于应聘Java大数据开发工程师的角色至关重要，因为它们涉及到了数据处理的核心组件Kafka和Hadoop的内部工作原理，面试官会关注求职者对这些技术的实际应用和理解深度。

ne 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mes

os 环境，也是很方便部署的。

standalone(集群模式)：典型的 Mater/slave 模式，不过也能看出 Master 是有单点故障的；

Spark 支持 ZooKeeper 来实现 HA

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spar

k 负责任务调度和计算

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，

Spark 负责任务调度和计算

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon 的 S

3;Spark 支持多种分布式存储系统：HDFS 和 S3

5、HDFS 读写数据的过程

读：

1、跟 namenode 通信查询元数据，找到文件块所在的 datanode 服务器

2、挑选一台 datanode（就近原则，然后随机）服务器，请求建立 socket 流

3、datanode 开始发送数据（从磁盘里面读取数据放入流，以 packet 为单位来做校验）

4、客户端以 packet 为单位接收，现在本地缓存，然后写入目标文件

写：

1、根 namenode 通信请求上传文件，namenode 检查目标文件是否已存在，父目录是否

存在

2、namenode 返回是否可以上传

3、client 请求第一个 block 该传输到哪些 datanode 服务器上

剩余14页未读，继续阅读

Java天下第1

粉丝: 563
资源: 65

揭秘唯品会Java大数据开发面试真题：Kafka消息结构与Hadoop Shuffle详解

Java大数据面试深度解析：Kafka与Hadoop Shuffle详解

Java大数据面试题及答案大厂真题解析

互联网大厂Java大数据面试深度解析：Kafka与Hadoop Shuffle

2021Java大厂面试题——大厂真题之唯品会-Java大数据开发工程师.pdf

大厂面试真题广州-唯品会-Java大数据开发工程师

大厂真题之京东-Java实习生.pdf

大厂真题之百度-Java中级.pdf

大厂真题之乐信-Java高级.pdf

【大厂面试资料】-Java 集合 72 道.pdf

【大厂面试资料】-Java 综合 84 道.pdf

最新资源