2022大数据面试深度解析：Hadoop、Hive、Spark关键点

版权申诉

5星 · 超过95%的资源 146 浏览量更新于2024-07-05 1 收藏 1.24MB PDF 举报

"这份文档是2022年的大数据面试宝典，涵盖了Hadoop、MapReduce、YARN、Hive和Spark等关键技术的面试重点。它深入探讨了这些技术的关键概念、工作流程以及可能遇到的问题及其解决方案。" **Hadoop** Hadoop是大数据处理的核心框架，主要包括分布式文件系统HDFS和MapReduce计算模型。在HDFS中： 1. **HDFS读写流程**：读取文件时，客户端首先与NameNode通信获取文件块位置，然后直接与DataNode交互读取数据；写入文件时，客户端将数据分割成块并分别写入不同的DataNode，最后更新NameNode的元数据。 2. **HDFS容错机制**：如果在读取时发现某个块损坏，HDFS会尝试从其他副本中恢复数据。 3. **上传文件时的故障处理**：在上传过程中DataNode挂掉，HDFS会尝试将数据写入其他可用的DataNode。 4. **NameNode启动**：NameNode启动时会加载元数据，并进行检查点操作。 5. **SecondaryNameNode**：辅助NameNode定期合并fsimage和editlog，减少NameNode启动时的元数据加载时间，但无法替代NameNode存储的所有数据。 6. **NameNode数据安全**：通过多份副本和NameNode HA（高可用）来保证数据安全。 7. **NameNode HA中的脑裂问题**：当网络分区导致两个NameNode都认为自己是主节点时，会出现脑裂，解决办法包括Zookeeper仲裁和Heartbeat检测。 8. **小文件过多的危害**：增加NameNode的负担，降低系统效率，解决方案包括归档小文件或使用Hadoop Archive（HAR）。 9. **HDFS组织架构**：由NameNode（元数据管理）、DataNode（数据存储）和客户端组成。 **MapReduce** 10. **MapTask**：负责数据的分片、映射和排序。 11. **ReduceTask**：接收MapTask的结果，进行聚合和输出。 12. **Shuffle阶段**：MapTask的输出经过分区和排序后，被传递给ReduceTask。 13. **Shuffle阶段数据压缩**：可以提高数据传输效率，减少网络负载。 14. **使用规约**：在Map阶段就进行部分聚合，减少数据传输量。 15. **YARN架构与工作原理**：作为资源管理系统，YARN将资源分配和作业调度分离，由ResourceManager、ApplicationMaster和NodeManager协同工作。 16. **YARN任务提交流程**：应用程序提交到ResourceManager，后者分配ApplicationMaster，ApplicationMaster负责任务的调度和监控。 17. **YARN资源调度模型**：包括Capacity Scheduler、FIFO Scheduler和Fair Scheduler。 **Hive** 18. **Hive内部表和外部表**：内部表由Hive管理生命周期，外部表只管理元数据，数据删除时不会影响源数据。 19. **Hive索引**：Hive不支持传统数据库的索引，但可以通过分区、桶等优化查询。 20. **Hive调度**：可以通过Hive的SQL语句控制执行计划，或者使用Tez或Spark作为执行引擎。 21. **列式存储**：ORC和Parquet等列式格式能大幅提高查询效率。 22. **数据仓库分层**：通过ODS、DW、DM等层次进行数据清洗和抽象，优化分析效率。 23. **JSON解析**：Hive支持JSON串解析，但效率相对较低。 24. **sortby与orderby**：sortby仅保证分区内的排序，orderby保证全局排序。 25. **数据倾斜**：通过负载均衡、分区优化和自定义分区策略解决。 26. **Hive优化**：包括分区、 bucketing、压缩、Join优化等方法。 **Spark** 27. **Spark运行流程**：基于DAG的计算模型，数据以弹性分布式数据集（RDD）形式存储。 28. **Spark组件**：包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX。 29. **RDD机制**：RDD是不可变的、分区的记录集合，支持转换和行动操作。 30. **reduceByKey与groupByKey**：reduceByKey在shuffle前聚合，性能通常优于groupByKey。 31. **cogroup操作**：用于两个或多个RDD的键值对聚合，适用于数据联合分析。 32. **宽窄依赖**：宽依赖会导致全shuffle，而窄依赖可以在同一stage内完成。 33. **设计宽窄依赖**：为了优化任务调度，减少不必要的数据交换。 34. **DAG**：表示任务间的依赖关系。 35. **Stage划分**：基于宽窄依赖，一个stage内的任务可以在同一个Executor上并行执行。 36. **Stage划分算法**：根据RDD的宽窄依赖关系和数据本地性原则进行划分。以上内容详细解释了Hadoop生态中的重要组件及其工作原理，以及Spark的特性和优化策略，是大数据面试者的重要参考资料。

展开

本文档来自公众号：五分钟学大数据

13 / 78

2. 将输入文件切分为 block 之后，由 RecordReader 对象 (默认是

LineRecordReader) 进行读取，以 \n 作为分隔符, 读取一行数据, 返回

<key，value>， Key 表示每行首字符偏移值，Value 表示这一行文本内

容。

3. 读取 block 返回 <key,value>, 进入用户自己继承的 Mapper 类中，执

行用户重写的 map 函数，RecordReader 读取一行这里调用一次。

4. Mapper 逻辑结束之后，将 Mapper 的每条结果通过 context.write 进行

collect 数据收集。在 collect 中，会先对其进行分区处理，默认使用

HashPartitioner。

5. 接下来，会将数据写入内存，内存中这片区域叫做环形缓冲区(默认 100M)，

缓冲区的作用是批量收集 Mapper 结果，减少磁盘 IO 的影响。我们的

Key/Value 对以及 Partition 的结果都会被写入缓冲区。当然，写入之前，

Key 与 Value 值都会被序列化成字节数组。

6. 当环形缓冲区的数据达到溢写比列(默认 0.8)，也就是 80M 时，溢写线程

启动，需要对这 80MB 空间内的 Key 做排序 (Sort)。排序是 MapReduce

模型默认的行为，这里的排序也是对序列化的字节做的排序。

7. 合并溢写文件，每次溢写会在磁盘上生成一个临时文件 (写之前判断是否

有 Combiner)，如果 Mapper 的输出结果真的很大，有多次这样的溢写发

生，磁盘上相应的就会有多个临时文件存在。当整个数据处理结束之后开

始对磁盘中的临时文件进行 Merge 合并，因为最终的文件只有一个写入

磁盘，并且为这个文件提供了一个索引文件，以记录每个 reduce 对应数

据的偏移量。

11. 请说下 MR 中 Reduce Task 的工作机制

简单描述：

Reduce 大致分为 copy、sort、reduce 三个阶段，重点在前两个阶段。

copy 阶段包含一个 eventFetcher 来获取已完成的 map 列表，由 Fetcher 线

程去 copy 数据，在此过程中会启动两个 merge 线程，分别为 inMemoryMerger

和 onDiskMerger，分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行

merge。待数据 copy 完成之后，copy 阶段就完成了。

开始进行 sort 阶段，sort 阶段主要是执行 finalMerge 操作，纯粹的 sort 阶

段，完成之后就是 reduce 阶段，调用用户定义的 reduce 函数进行处理。

本文档来自公众号：五分钟学大数据

14 / 78

详细步骤：

1. Copy 阶段：简单地拉取数据。Reduce 进程启动一些数据 copy 线程

(Fetcher)，通过 HTTP 方式请求 maptask 获取属于自己的文件（map task

的分区会标识每个 map task 属于哪个 reduce task ，默认 reduce task

的标识从 0 开始）。

2. Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对

内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

merge 有三种形式：内存到内存；内存到磁盘；磁盘到磁盘。默认情况下

第一种形式不启用。当内存中的数据量到达一定阈值，就直接启动内存到

磁盘的 merge。与 map 端类似，这也是溢写的过程，这个过程中如果你设

置有 Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。

内存到磁盘的 merge 方式一直在运行，直到没有 map 端的数据时才结束，

然后启动第三种磁盘到磁盘的 merge 方式生成最终的文件。

3. 合并排序：把分散的数据合并成一个大的数据后，还会再对合并后的数据

排序。

4. 对排序后的键值对调用 reduce 方法：键相等的键值对调用一次 reduce 方

法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入

到 HDFS 文件中。

12. 请说下 MR 中 Shuffle 阶段

shuffle 阶段分为四个步骤：依次为：分区，排序，规约，分组，其中前三个步

骤在 map 阶段完成，最后一个步骤在 reduce 阶段完成。

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce

阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称

作 shuffle。

1. Collect 阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，

保存的是 key/value，Partition 分区信息等。

2. Spill 阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入

本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果

配置了 combiner，还会将有相同分区号和 key 的数据进行排序。

3. MapTask 阶段的 Merge：把所有溢出的临时文件进行一次合并操作，以确

保一个 MapTask 最终只产生一个中间数据文件。

本文档来自公众号：五分钟学大数据

15 / 78

4. Copy 阶段：ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点

上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当

内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。

5. ReduceTask 阶段的 Merge：在 ReduceTask 远程复制数据的同时，会在后

台开启两个线程对内存到本地的数据文件进行合并操作。

6. Sort 阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶

段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的

最终整体有效性即可。

Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区

越大，磁盘 io 的次数越少，执行速度就越快。

缓冲区的大小可以通过参数调整, 参数：

mapreduce.task.io.sort.mb

默认 100M

13. Shuffle 阶段的数据压缩机制了解吗

在 shuffle 阶段，可以看到数据通过大量的拷贝，从 map 阶段输出的数据，都要

通过网络拷贝，发送到 reduce 阶段，这一过程中，涉及到大量的网络 IO，如果

数据能够进行压缩，那么数据的发送量就会少得多。

hadoop 当中支持的压缩算法：

gzip、bzip2、LZO、LZ4、Snappy，这几种压缩算法综合压缩和解压缩的速率，

谷歌的 Snappy 是最优的，一般都选择 Snappy 压缩。谷歌出品，必属精品。

14. 在写 MR 时，什么情况下可以使用规约

规约（combiner）是不能够影响任务的运行结果的局部汇总，适用于求和类，不

适用于求平均值，如果 reduce 的输入参数类型和输出参数的类型是一样的，则

规约的类可以使用 reduce 类，只需要在驱动类中指明规约的类即可。

15. YARN 集群的架构和工作原理知道多少

YARN 的基本设计思想是将 MapReduce V1 中的 JobTracker 拆分为两个独立的服

务：ResourceManager 和 ApplicationMaster。

ResourceManager 负责整个系统的资源管理和分配，ApplicationMaster 负责单

个应用程序的的管理。

本文档来自公众号：五分钟学大数据

16 / 78

1. ResourceManager： RM 是一个全局的资源管理器，负责整个系统的资源管

理和分配，它主要由两个部分组成：调度器（Scheduler）和应用程序管

理器（Application Manager）。

调度器根据容量、队列等限制条件，将系统中的资源分配给正在运行的应用程序，

在保证容量、公平性和服务等级的前提下，优化集群资源利用率，让所有的资源

都被充分利用应用程序管理器负责管理整个系统中的所有的应用程序，包括应用

程序的提交、与调度器协商资源以启动 ApplicationMaster、监控

ApplicationMaster 运行状态并在失败时重启它。

2. ApplicationMaster：用户提交的一个应用程序会对应于一个

ApplicationMaster，它的主要功能有：

 与 RM 调度器协商以获得资源，资源以 Container 表示。

 将得到的任务进一步分配给内部的任务。

 与 NM 通信以启动/停止任务。

 监控所有的内部任务状态，并在任务运行失败的时候重新为任务申

请资源以重启任务。

3. NodeManager： NodeManager 是每个节点上的资源和任务管理器，一方面，

它会定期地向 RM 汇报本节点上的资源使用情况和各个 Container 的运行

状态；另一方面，他接收并处理来自 AM 的 Container 启动和停止请求。

4. Container： Container 是 YARN 中的资源抽象，封装了各种资源。一个应

用程序会分配一个 Container，这个应用程序只能使用这个 Container 中描

述的资源。不同于 MapReduceV1 中槽位 slot 的资源封装，Container 是一

个动态资源的划分单位，更能充分利用资源。

16. YARN 的任务提交流程是怎样的

当 jobclient 向 YARN 提交一个应用程序后，YARN 将分两个阶段运行这个应用程

序：一是启动 ApplicationMaster;第二个阶段是由 ApplicationMaster 创建应

用程序，为它申请资源，监控运行直到结束。具体步骤如下:

1. 用户向 YARN 提交一个应用程序，并指定 ApplicationMaster 程序、启动

ApplicationMaster 的命令、用户程序。

2. RM 为这个应用程序分配第一个 Container，并与之对应的 NM 通讯，要求

它在这个 Container 中启动应用程序 ApplicationMaster。

剩余77页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

安全方案

粉丝: 2801

2022大数据面试深度解析：Hadoop、Hive、Spark关键点

大数据面试指南：从找工到精通

大数据面试必备：Linux、Shell、Hadoop到数据湖全面解析

JAVA技术全面面试宝典：提升JAVA技能

2022年大数据面试宝典.pdf

2021年度大数据面试宝典.pdf

五分钟学大数据_超全大数据面试宝典.pdf

大数据-面试宝典.pdf

大数据面试宝典-精简版.pdf

大数据基础面试宝典.zip

超全大数据面试宝典-大数据面试有这套就够了.pdf

最新资源