2023大数据面试深度解析：涵盖Hadoop, Spark, Hive, HBase等

需积分: 5 99 浏览量更新于2024-06-25 收藏 1.6MB DOCX 举报

"这篇文档包含了2023年最新的大数据面试题，重点涵盖了Hadoop、Spark、Hive、HBase、Flink、Kafka等多个领域，并新增了数据仓库、算法、数据湖、必备SQL题、Clickhouse和Doris等相关内容。文档旨在帮助面试者准备80%以上的大数据面试问题，提供了详细的HDFS读写流程解析，以及Hadoop的分布式存储、计算框架和资源调度框架的相关知识。" 本文档主要针对大数据领域的面试者，详细列举了各种可能的面试问题，尤其关注了Hadoop生态系统的组件。Hadoop作为大数据处理的基础，其HDFS（Hadoop Distributed File System）的读写流程是面试中常见的技术点。HDFS的写入流程包括客户端请求NameNode、文件切分、DataNode的选择与pipeline建立、数据包的传输与确认应答等步骤。而读取流程则涉及客户端向NameNode询问文件位置、NameNode返回DataNode地址、客户端从DataNode读取数据等环节。此外，文档还提到了MapReduce作为Hadoop的分布式计算框架，通常会考察其工作原理，包括map阶段和reduce阶段的数据处理。YARN（Yet Another Resource Negotiator）作为资源调度框架，面试中可能会询问关于任务调度、容器管理和资源管理的问题。 Spark作为一个高效的并行计算框架，面试中可能涉及Spark Core、Spark SQL、Spark Streaming、Spark MLlib等模块，以及Shuffle过程、RDD持久化、宽依赖和窄依赖等核心概念。 Hive和HBase是大数据存储和查询的常用工具，面试者需要了解Hive的元数据管理、SQL到MapReduce的转换以及HBase的列式存储、分布式特性等。 Flink作为实时流处理框架，面试中可能探讨其窗口机制、状态管理、事件时间处理和容错机制等内容。 Kafka作为消息中间件，会测试对发布/订阅模型的理解、Kafka Topic和Partition的工作方式、Kafka与Spark Stream的集成等知识点。数据仓库和算法是面试中另一类重要的问题，可能会询问数据建模、星型和雪花模式、OLAP操作，以及排序、查找和图算法等基础知识。数据湖和必备SQL题则是近年来新兴的热点，面试者需掌握数据湖架构原理、数据湖与数据仓库的区别，以及SQL查询优化、JOIN操作和子查询等技能。 Clickhouse和Doris作为高性能的分析型数据库，面试者需要了解它们在实时分析和大数据查询上的优势，以及如何进行数据导入、查询优化和集群管理。这份文档全面覆盖了大数据领域的多个关键知识点，为面试者提供了一份宝贵的准备材料。

第 17

页

置有 Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。内存

到磁盘的 merge 方式一直在运行，直到没有 map 端的数据时才结束，然

后启动第三种磁盘到磁盘的 merge 方式生成最终的文件。

合并排序：把分散的数据合并成一个大的数据后，还会再对合并后的数据

排序。

对排序后的键值对调用reduce 方法：键相等的键值对调用一次 reduce 方法，

每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到

HDFS 文件中。

12.

请说下 MR 中 Shuffle 阶段

shuffle 阶段分为四个步骤：依次为：分区，排序，规约，分组，其中前三个步骤

在

map 阶段完成，最后一个步骤在 reduce 阶段完成。

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce

阶

段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程

称作shuffle。

Collect 阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，

保存的是 key/value，Partition 分区信息等。

Spill 阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本

地

磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置

了 combiner，还会将有相同分区号和 key 的数据进行排序。

MapTask 阶段的Merge：把所有溢出的临时文件进行一次合并操作，以确

保一个 MapTask 最终只产生一个中间数据文件。

阶段：

启动

线程到已经完成

Map

的节

点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，

当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。

ReduceTask 阶段的 Merge：在 ReduceTask 远程复制数据的同时，会在后

台开启两个线程对内存到本地的数据文件进行合并操作。

Sort 阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶

段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数

据的

最终整体有效性即可。

第 19

页

程序的提交、与调度器协商资源以启动 ApplicationMaster、监控

ApplicationMaster

运行状态并在失败时重启它。

ApplicationMaster：用户提交的一个应用程序会对应于一个

ApplicationMaster，它的主要功能有：

�

与 RM 调度器协商以获得资源，资源以 Container 表示。

�

将得到的任务进一步分配给内部的任务。

�

与 NM 通信以启动/停止任务。

�

监控所有的内部任务状态，并在任务运行失败的时候重新为任务申

请资源以重启任务。

NodeManager： NodeManager 是每个节点上的资源和任务管理器，一方面，

它会定期地向 RM 汇报本节点上的资源使用情况和各个 Container 的运行

状态；另一方面，他接收并处理来自 AM 的 Container 启动和停止请求。

Container： Container 是 YARN 中的资源抽象，封装了各种资源。一个

应

用程序会分配一个

，这个应用程序只能使用这个

中描述

的

资源。不同于 MapReduceV1 中槽位 slot 的资源封装，Container 是一

个动

态资源的划分单位，更能充分利用资源。

16.

YARN 的任务提交流程是怎样的

当 jobclient 向 YARN 提交一个应用程序后，YARN 将分两个阶段运行这个应用程

序：一是启动 ApplicationMaster;第二个阶段是由 ApplicationMaster 创建应用程序，

为它申请资源，监控运行直到结束。具体步骤如下:

用户向 YARN 提交一个应用程序，并指定 ApplicationMaster 程序、启

动

ApplicationMaster 的命令、用户程序。

RM 为这个应用程序分配第一个 Container，并与之对应的 NM 通讯，要

求

它在这个 Container 中启动应用程序 ApplicationMaster。

ApplicationMaster 向 RM 注册，然后拆分为内部各个子任务，为各个内

部

任务申请资源，并监控这些任务的运行，直到结束。

AM 采用轮询的方式向 RM 申请和领取资源。

RM 为 AM 分配资源，以 Container 形式返回。

AM 申请到资源后，便与之对应的 NM 通讯，要求 NM 启动任务。

NodeManager 为任务设置好运行环境，将任务启动命令写到一个脚本中，

并通过运行这个脚本启动任务。

第 20

页

各个任务向 AM 汇报自己的状态和进度，以便当任务失败时可以重启任务。

应用程序完成后，ApplicationMaster 向 ResourceManager 注销并关闭自己。

17.

YARN 的资源调度三种模型了解吗

在 Yarn 中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，

Fair

Scheduler。

Apache 版本的 hadoop 默认使用的是 Capacity Scheduler 调度方式。CDH 版本

的默

认使用的是 Fair Scheduler 调度方式

FIFO Scheduler（先来先服务）：

FIFO Scheduler 把应用按提交的顺序排成一个队列，这是一个先进先出队列，在

进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用

需求满足后再给下一个分配，以此类推。

FIFO Scheduler 是最简单也是最容易理解的调度器，也不需要任何配置，但它并

不适用于共享集群。大的应用可能会占用所有集群资源，这就导致其它应用被阻

塞，比如有个大任务在执行，占用了全部的资源，再提交一个小任务，则此小任务

会一直被阻塞。

Capacity Scheduler（能力调度器）：

对于 Capacity 调度器，有一个专门的队列用来运行小任务，但是为小任务专门设

置一个队列会预先占用一定的集群资源，这就导致大任务的执行时间会落后于使

用 FIFO 调度器时的时间。

Fair Scheduler（公平调度器）：

在 Fair 调度器中，我们不需要预先占用一定的系统资源，Fair 调度器会为所有运

行

的 job 动态的调整系统资源。

比如：当第一个大 job 提交时，只有这一个 job 在运行，此时它获得了所有集群

资源；当第二个小任务提交后，Fair 调度器会分配一半资源给这个小任务，让这

两个任务公平的共享集群资源。

需要注意的是，在 Fair 调度器中，从第二个任务提交到获得资源会有一定的延迟，

因为它需要等待第一个任务释放占用的 Container。小任务执行完成之后也会释放

自己占用的资源，大任务又获得了全部的系统资源。最终的效果就是 Fair 调度器

即得到了高的资源利用率又能保证小任务及时完成。

剩余142页未读，继续阅读

谁能挡我峰爷

粉丝: 2
资源: 5

2023大数据面试深度解析：涵盖Hadoop, Spark, Hive, HBase等

2023年Vue3面试题汇总

Linux运维常见面试题汇总

Java面试题解惑大全：基础语法运算符面试题汇总

最新Net程序员面试题汇总

vue面试题+web前端笔试题面试题汇总+前端优化总结+《Vue-框架开发》真题

最常见的36个Python面试题(Python面试题汇总一)

Vue最新面试题、常见面试题及答案解析汇总

Spring面试题汇总

Java基础面试题（总结最全面的面试题！！！）

最新Java面试题汇总 高清 目录 书签

最新资源

最新Java面试题汇总高清目录书签