Spark部署模式与技术栈解析

129 浏览量更新于2024-08-29 收藏 204KB PDF 举报

"Spark面试知识详解" Apache Spark作为一款强大的大数据处理框架，其核心特性在于快速和通用性。在面试中，理解Spark的部署模式、技术栈以及组件功能是至关重要的。 1. **Spark部署模式** - **本地模式**：适合于开发和调试，有三种类型：`local`（单Executor），`local[k]`（k个Executor），`local[*]`（与CPU核心数相同数量的Executor）。 - **Standalone模式**：Spark自包含的分布式集群，Spark自身负责资源管理和任务监控，是其他模式的基础。 - **Spark on YARN模式**：在Hadoop YARN上运行Spark，资源和任务调度由YARN管理，提供cluster和client两种运行模式，前者适合生产环境，后者适合调试。 - **Spark on Mesos模式**：支持粗粒度和细粒度资源分配，细粒度模式在Spark 2.0后逐渐被弃用。 2. **Spark技术栈组件** - **Spark Core**：Spark的核心，包括DAG（有向无环图）、弹性分布式数据集（RDD）、血缘关系（Lineage）、缓存（Cache）和广播变量（Broadcast）等功能，适用于基础数据处理任务。 - **Spark Streaming**：处理实时数据流，通过微批处理实现高吞吐和容错，适用于实时监控和分析场景。 - **Spark SQL**：结合了SQL查询和DataFrame/Dataset API，支持与传统数据库交互，适用于数据仓库和数据分析。 - **MLlib (Machine Learning Library)**：提供了广泛的机器学习算法和工具，简化了机器学习流程，适用于数据挖掘和预测模型构建。 - **GraphX**：用于图计算，支持图操作和图并行计算，适用于社交网络分析、推荐系统等领域。 3. **Spark组件角色** - **Master**：管理整个Spark集群，负责分配资源和任务调度，不直接参与计算。 - **Worker**：执行计算任务的工作节点，每个Worker可包含多个Executor，Executor是实际执行任务的单元。 - **Executor**：在Worker节点上运行，负责执行Task，持有RDD缓存，是数据处理的执行者。 - **Driver**：提交Spark作业的应用程序进程，创建SparkContext并与Master通信，管理作业的生命周期。在面试中，还需要关注Spark的内存管理（如内存参数设置、内存碎片和磁盘碎片的处理）、RDD的转换和行动操作、Stage划分、Shuffle过程以及如何优化性能等方面的知识。理解这些概念和机制对于解决实际问题和提高Spark应用效率至关重要。

spark用户提交的任务：application

一个application对应一个sparkcontext，app中存在多个job

每触发一次action操作就会产生一个job

这些job可以并行或串行执行

每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的

每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行

executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。

hadoop的job只有map和reduce操作，表达能力比较欠缺

在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。

spark的迭代计算都是在内存中进行的

API中提供了大量的RDD操作如join，groupby等

通过DAG图可以实现良好的容错

18.简单说一下简单说一下hadoop和和spark的的shuffle相同和差异？相同和差异？

high-level角度：

两者并没有大的差别都是将 mapper（Spark: ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的

reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask）

Reducer 以内存作缓冲区，边 shuffle 边 aggregate 数据，等到数据 aggregate 好以后进行 reduce()。

low-level 角度：

Hadoop MapReduce 是 sort-based，进入 combine() 和 reduce() 的 records 必须先 sort。

好处：combine/reduce() 可以处理大规模的数据

因为其输入数据可以通过外排得到

mapper 对每段数据先做排序

reducer 的 shuffle 对排好序的每段数据做归并

Spark 默认选择的是 hash-based，通常使用 HashMap 来对 shuffle 来的数据进行 aggregate，不提前排序

如果用户需要经过排序的数据：sortByKey()

实现角度：

Hadoop MapReduce 将处理流程划分出明显的几个阶段：map(), spilt, merge, shuffle, sort, reduce()

Spark 没有这样功能明确的阶段，只有不同的 stage 和一系列的 transformation()，spill, merge, aggregate 等操作需要蕴含在

transformation() 中

19. 简单说一下简单说一下hadoop和和spark的的shuffle过程过程

hadoop：map端保存分片数据，通过网络收集到reduce端

spark：spark的shuffle是在DAGSchedular划分Stage的时候产生的，TaskSchedule要分发Stage到各个worker的executor，减

少shuffle可以提高性能

20.partition和和block的关联的关联

hdfs中的block是分布式存储的最小单元，等分，可设置冗余，这样设计有一部分磁盘空间的浪费，但是整齐的block大小，便

于快速找到、读取对应的内容

Spark中的partition是RDD的最小单元，RDD是由分布在各个节点上的partition组成的。

partition是指的spark在计算过程中，生成的数据在计算空间内最小单元

同一份数据（RDD）的partion大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定

block位于存储空间；partion位于计算空间，block的大小是固定的、partion大小是不固定的，是从2个不同的角度去看数据。

21.Spark为什么比为什么比mapreduce快？快？(重点面试题重点面试题)

基于内存计算，减少低效的磁盘交互

高效的调度算法，基于DAG

容错机制Linage

22.Mapreduce操作的操作的mapper和和reducer阶段相当于阶段相当于spark中的哪几个算子？中的哪几个算子？

相当于spark中的map算子和reduceByKey算子，区别：MR会自动进行排序的，spark要看具体partitioner

23.RDD机制机制

分布式弹性数据集，简单的理解成一种数据结构，是spark框架上的通用货币

剩余11页未读，继续阅读

weixin_38557768

粉丝: 7
资源: 923

Spark部署模式与技术栈解析

大数据面试录音07.zip

大数据面试题及面试经验分享.zip

大数据面试题——spark面试题（一）

大数据面试题——spark数据倾斜调优（五）

大数据知识点问答汇编——50个最受欢迎的大数据面试问题(阿里巴巴等大公司必过).docx

2021Java大厂面试题——大厂真题之唯品会-Java大数据开发工程师.pdf

1小时快速入门大数据 ——从面试题还原学习流程

大数据常见面试题之spark core

Framework-Of-BigData:大数据面试题，从0到1走向架构师之路。Flink、Spark、Hive、HBase、Hadoop、Kettle、Kafka..

java面试——广州-唯品会-Java大数据开发工程师.zip

最新资源