"大数据Spark面试题全解，79道题详解"

需积分: 0 143 浏览量更新于2024-04-02 5 收藏 307KB PDF 举报

大数据Spark面试题汇总共包含79道面试题以及题目的解答，涵盖了Spark的基础知识、优化技巧、部署模式等方面。在面试中，这些问题可以帮助面试者深入了解Spark的相关知识，并展现自己的专业能力和技术水平。以下是其中几道题目的内容概述： 1. Spark 的有几种部署模式，每种模式特点？ Spark有三种部署模式，包括：standalone模式、Mesos模式和YARN模式。Standalone模式是Spark自带的资源管理器，适用于快速部署和简单设置；Mesos模式可以与其他框架共享资源，并支持多种任务类型；YARN模式则可以与Hadoop集成，灵活管理资源，适用于大规模部署。 2. Spark 为什么比 mapreduce 快？ Spark比MapReduce快的原因主要包括以下几点：首先，Spark将数据保存在内存中，减少了磁盘IO开销；其次，Spark引入了DAG（有向无环图）执行引擎，优化了任务之间的依赖关系；最后，Spark支持更多的操作类型，如交互式查询、流式处理等，提高了处理效率。 5. Spark 的优化怎么做？ Spark的优化可以从多个方面进行，包括调优参数、合理设计数据处理流程、使用缓存机制、避免shuffle操作等。此外，还可以通过调整并行度、合理使用数据本地性等方式提高Spark的性能。 7. RDD 的弹性表现在哪几点？ RDD（弹性分布式数据集）的弹性表现在于：可以在内存和磁盘之间自由切换；可以容错恢复数据；可以在集群中动态调整分区数等特点。 9. Spark 的shuffle 过程？ Spark的Shuffle过程是指在数据处理过程中发生数据重分区的过程，包括Shuffle Write和Shuffle Read两个阶段。Shuffle Write阶段将数据重新分区并写入磁盘或内存中，Shuffle Read阶段则将数据从各个分区中读取并合并。 12. 介绍一下 join 操作优化经验？进行join操作时，可以通过优化Skew数据、合理选择join策略、使用Broadcast变量等方式提高性能。如针对Skew数据，可以采用拆分、打散等手段，避免数据倾斜导致性能低下。以上仅为其中几道面试题的内容概述，大数据Spark面试题汇总涵盖了广泛的话题，帮助面试者全面了解Spark的相关知识和技能要求。在应对面试时，可以根据这些问题针对性准备，并展现自己的专业能力和技术水平。通过不断学习和实践，不断提升对Spark等大数据技术的理解和应用能力，才能在竞争激烈的行业中脱颖而出，取得更好的职业发展机会。

10. Spark 的数据本地性有哪几种？

Spark 中的数据本地性有三种：

1）PROCESS_LOCAL 是指读取缓存在本地节点的数据

2）NODE_LOCAL 是指读取本地节点硬盘数据

3）ANY 是指读取非本地节点数据

通常读取数据 PROCESS_LOCAL>NODE_LOCAL>ANY ，尽量使数据以 PROCESS_LOCAL 或

NODE_LOCAL 方式读取。其中 PROCESS_LOCAL 还和 cache 有关，如果 RDD 经常用的话将该 RDD

cache 到内存中，注意，由于 cache 是 lazy 的，所以必须通过一个 action 的触发，才能真

正的将该 RDD cache 到内存中。

11. Spark 为什么要持久化，一般什么场景下要进行 persist

操作？

为什么要进行持久化？

spark 所有复杂一点的算法都会有 persist 身影，spark 默认数据放在内存，spark 很多内

容都是放在内存的，非常适合高速迭代，1000 个步骤只有第一个输入数据，中间不产生临

时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd 出错或者分片可以根据血

统算出来，如果没有对父 rdd 进行 persist 或者 cache 的化，就需要重头做。

以下场景会使用 persist

1）某个步骤计算非常耗时，需要进行 persist 持久化

2）计算链条非常长，重新恢复要算很多步骤，很好使，persist

3）checkpoint 所在的 rdd 要持久化 persist。checkpoint 前，要持久化，写个 rdd.cache

或者 rdd.persist，将结果保存起来，再写 checkpoint 操作，这样执行起来会非常快，不

需要重新计算 rdd 链条了。checkpoint 之前一定会进行 persist。

4）shuffle 之后要 persist，shuffle 要进性网络传输，风险很大，数据丢失重来，恢复

代价很大

5）shuffle 之前进行 persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

12. 介绍一下 join 操作优化经验？

join 其实常见的就分为两类： map-side join 和 reduce-side join。当大表和小表 join

时，用 map-side join 能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的

用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操

作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。

造成大量的网络以及磁盘 IO 消耗，运行效率极其低下，这个过程一般被称为

reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关

剩余22页未读，继续阅读

修破立生

粉丝: 4290
资源: 4

"大数据Spark面试题全解，79道题详解"

大数据面试题精华汇总：从经典框架到新兴技术深度解析

大数据面试题全解析：Spark、Flink、Hadoop等技术要点

Java与大数据开发面试关键知识点汇总

外企大数据开发面试题汇总

大数据开发面试题，吐血整理

2020大数据面试题总汇

2021年大数据常见面试题.pdf

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

最热门的大数据面试题汇总

01-2022年北京大数据面试题汇总.pdf

最新资源