2020大数据面试精华：Kafka消息结构与Hadoop Shuffle详解

版权申诉

5星 · 超过95%的资源 107 浏览量更新于2024-07-21 收藏 395KB PDF 举报

本文档是一份针对2020年的大数据面试题集，主要针对初学者设计，旨在帮助学习者复习和准备面试。内容涵盖了Kafka消息结构、Kafka偏移量查看方法以及Hadoop MapReduce中shuffle过程的详细解释。 1. **Kafka消息结构** Kafka消息由header和body两部分组成。Header部分包含一个固定的magic字节（标识文件格式）和四个字节的CRC32校验和，用于确认消息体的完整性。当magic值为1时，header还包括一个attributes字段，存储如压缩格式等附加信息。Body则是实际的数据，包含key和value。 2. **查看Kafka偏移量** 在0.9版本以上的Kafka中，使用新版本的Consumer客户端，可以调用consumer.seekToEnd()或consumer.position()方法获取最新offset。这有助于跟踪消息消费进度。 3. **Hadoop MapReduce shuffle过程** - **Map端shuffle**：Map任务处理输入数据后，将其转换为中间结果，并暂存于内存缓冲区。一旦数据量达到阈值，数据会被写入本地磁盘spill文件，同时进行两次排序：分区级别（根据partition）和键值级别（保证Reducer的负载均衡）。如果有combiner设置，它会预处理数据，减少写入磁盘的数据量。spill文件位于{mapred.local.dir}目录，并在Map任务完成后删除。 - **Reduce端shuffle**：主要包括三个步骤：copy（将Map输出复制到Reduce节点）、sort/merge（对数据进行排序并合并）和reduce（执行Reduce操作，将数据进一步聚合）。整个过程确保了数据的有效分发和处理。通过理解和掌握这些问题，面试者可以展示他们对大数据处理技术（如Kafka和Hadoop MapReduce）的深入理解，这对于求职者在大数据领域获得成功至关重要。同时，这份面试题集也适合备考者作为复习资料，提升自己的技术能力和实践经验。

环境，也是很方便部署的。

standalone(集群模式)：典型的 Mater/slave模式，不过也能看出 Master是有单点故障的；

Spark支持 ZooKeeper来实现 HA

onyarn(集群模式)：运行在 yarn资源管理器框架之上，由 yarn负责资源管理，Spark

负责任务调度和计算

onmesos(集群模式)：运行在 mesos资源管理器框架之上，由 mesos负责资源管理，

Spark负责任务调度和计算

oncloud(集群模式)：比如 AWS的 EC2，使用这个模式能很方便的访问 Amazon的 S3;

Spark支持多种分布式存储系统：HDFS和 S3

5、HDFS读写数据的过程

读：

1、跟 namenode通信查询元数据，找到文件块所在的 datanode服务器

2、挑选一台 datanode（就近原则，然后随机）服务器，请求建立 socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以 packet为单位来做校验）

4、客户端以 packet为单位接收，现在本地缓存，然后写入目标文件

写：

1、根 namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存

在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些 datanode服务器上

4、namenode返回 3个 datanode服务器 ABC

剩余14页未读，继续阅读

herosunly

粉丝: 7w+
资源: 170

2020大数据面试精华：Kafka消息结构与Hadoop Shuffle详解

大数据技术高频面试题

尚硅谷大数据技术之HBase.docx

大数据技术之高频面试题.docx

2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套就够了.zip

2020大数据面试题集锦

Java版水果管理系统源码-bigdata-interview:2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套

大数据高频面试题.docx

2020 java经典面试题总汇.zip

2020大数据面试精华：Java基础与多线程知识点总结

2020唯品会Java大数据面试：Kafka消息结构与Hadoop Shuffle详解

最新资源