Spark内核解析：部署模式与Shuffle深度揭秘

需积分: 9 193 浏览量更新于2024-07-16 收藏 3.44MB PDF 举报

"Spark大数据内核天机解密- to 丁立清.pdf" 该文档深入讲解了Apache Spark的大数据处理核心机制以及性能调优的方法，是Spark开发者和研究者的宝贵资料。书中详细介绍了Spark的不同部署模式，从基础的local模式到分布式部署的Spark Standalone、Spark on YARN等，对每个模式的配置、工作原理和内部消息机制进行了深入剖析。在部署模式部分，书中的第3章详细阐述了Spark应用程序的部署流程，包括脚本解析和源码分析。特别强调了local模式及其变体，如local[*]和local[N]，这些模式在单机测试和小型实验中非常常见。接着，书中详细解读了local-cluster部署，介绍了如何配置executor的数量和内存，这对于理解和优化本地多线程测试环境至关重要。此外，还详述了Spark Standalone集群的部署，包括Master和Worker节点的设置，以及高可用性（HA）Master的部署，这些都是大规模生产环境中的关键步骤。对于YARN（Hadoop的资源管理系统）上的Spark部署，书中也给出了详细的指导，包括YARN的部署架构和Spark应用程序在YARN上的运行方式，这对于那些已经拥有Hadoop集群的用户来说非常实用。在Shuffle机制方面，书的第7章深入探讨了这一核心组件，它是Spark并行计算的关键环节。Shuffle过程涉及数据重排，确保数据能在正确的位置进行下一步计算。书中不仅介绍了Shuffle的演变历程和基本框架，还对不同类型的Shuffle，如HashBasedShuffle、SortedBasedShuffle以及TungstenSortedBasedShuffle的实现进行了源码级别的解析。这部分内容对于理解Spark的内部工作原理，尤其是数据流管理和效率优化至关重要。这本书是Spark开发者深入理解系统内核、提升性能调优能力的必备参考，涵盖了从基础概念到高级技术的全面知识，有助于读者在实际工作中更好地利用Spark处理大数据任务。

11.

val totalCores: Int)

在此简单给出内部实现流程的解析，具体步骤如下所示：

）

对应的初始化代码在前面提到的

SparkContext

类中的主要流程的

createTaskScheduler

方法中，构建

TaskScheduler

实例（这里具体子类为

TaskSchedulerImpl

）后，在该实例的初始化时传入同时构建的

SchedulerBackend

实

例（这里具体子类为

LocalBackend

）。

）

构建出

TaskScheduler

实例后，会调用实例的

start

方法，在该方法中首先会调用

SchedulerBackend

的

start

方法。

）

在

SchedulerBackend

的

start

方法中，会构建出一个

LocalEndpoint

实例，在该实例

中就会实例化出一个

Executor

，

Executor

实例负责具体的任务执行。

）

之后就是

TaskScheduler

进行作业调度，调用

SchedulerBackend

的

reviveOffers()

方法，

然后由该方法向

LocalEndpoint

实例发送

ReviveOffers

消息。

）

最终在

LocalEndpoint

实例处理

ReviveOffers

消息时，启动

Task

，其他处理类似。

对应

Task

的启动代码如下：

def reviveOffers() {

val offers = Seq(new WorkerOffer(localExecutorId, localExecutorHostname, freeCores))

for (task <- scheduler.resourceOffers(offers).flatten) {

在

Executor

中会使用线程池的方式调度任务，而对应的作业调度是通过

判断当前可用

Cores

个数是否符合每个任务（

Task

）所需的

Cores

个数。

当符合该条件时更新当前可用

Cores

数

freeCores

，然后启动任务（

Task

）

freeCores -= scheduler.CPUS_PER_TASK

executor.launchTask(executorBackend, taskId = task.taskId, attemptNumber =

task.attemptNumber,

task.name, task.serializedTask)

10.

}

11.

}

其中

Task

的调度控制代码参考

TaskSchedulerImpl

的

resourceOfferSingleTaskSet

方法，

其他调度的具体信息可以参考本书的调度章节。

上述三种

local

的部署模式，可以通过图

3-1

来加深理解：

图

3-1

三种

local

的部署模式图

其中，

askScheduler

与

SchedulerBackend

的具体子类的具体子类分为为

askSchedulerImpl

与

LocalBackend

，具体的

Task

仍然在

Executor

中执行。

3.3.4 local-cluster[S, C, M]部署

格式如

local-cluster[numSlaves, coresPerSlave, memoryPerSlave]

的这种模式称为本地伪

分布式部署模式，由于当前使用的是本地部署模式，因此不存在所谓的集群，所以在模拟伪

分布式部署模式时，需要构建出一个模拟的集群模式。模拟的集群模式在代码中对应

LocalSparkCluster

实例。

在本地伪分布式部署模式中，构建的作业调度器同其他三种本地模式一样，也是实例化

具体子类

TaskSchedulerImpl

，但同时构建的

SchedulerBackend

实例是和真实的

Spark

Standalone

集群是一样的，也是实例化了

SparkDeploySchedulerBackend

子类。这说明本地伪

分布式部署模式仅仅在集群组件构建的方式上有所差异，其他方面都是相同的。

对应的集群模拟，可以查看

LocalSparkCluster

的

start

方法，其中构建了

Master

和多个

Worker

实例来模拟分布式集群。模拟时使用的参数，也是参考

Spark Standalone

集群，通过

numSlaves

指定模拟集群中的

Slaves

节点个数，通过

coresPerSlave

指定模拟集群中各个

Slave

节点上的内核数，以及通过

memoryPerSlave

指定模拟集群中各个

Slave

配置的内存大小。

另外，本地模式在其他细节方面的影响，可以查看

SparkContext

中的本地模式控制变量

的设置，对应变量定义的代码如下所示：

def isLocal: Boolean = (master == "local" || master.startsWith("local["))

通过查看

isLocal

所控制的地方，即可找到与本地模式相关的内容。

3.4 Spark Standalone 部署

3.4.1 部署框架

在详细解析之前，首先查看下官网上给出的集群部署组件图，如图

3-2

所示。

图

3-2

集群部署组件图

其中各个术语及相关术语的描述如下：

）

Driver Program

运行

Application

的

main

函数并且新建

SparkContext

实例的程序，称为驱动程序（

Driver

Program

）。通常可以使用

SparkContext

来代表驱动程序（

Driver Program

）。

）

Cluster Manager

集群管理器（

Cluster Manager

），是集群资源管理的外部服务，在

Spark

上现在主要有

Standalone

、

YARN

、

Mesos

等三种集群资源管理器，

Spark

自带的

Standalone

模式能够满足

绝大部分纯粹的

Spark

计算环境中对集群资源管理的需求，基本上只有在集群中运行多套计

算框架的时候才建议考虑

YARN

和

Mesos

。

）

Worker Node

集群中可以运行

Application

代码的工作节点（

Worker Node

），相当于

Hadoop

的

Slave

节点。

）

Executor

在

Worker Node

上为

Application

启动的一个工作进程，在进程中负责任务（

Task

）的运

行，并且负责将数据存放在内存或磁盘上，在

Executor

内部通过多线程的方式（即线程池）

并发处理应用程序的具体任务。

每个

Application

都有各自独立的

Executors

，因此应用程序之间是相互隔离的。

）

Task

任务（

Task

）是指被

Driver

送到

Executor

上的工作单元，通常情况下一个任务（

Task

）

会处理一个

Partition

的数据，每个

Partition

一般就是一个

HDFS

的

Block

块的大小。

）

Application

是创建了

SparkContext

实例对象的

Spark

用户程序，包含了一个

Driver

program

和集群中多个

Worker

上的

Executor

）

Job

和

Spark

的

action

相对应，每一个

action

，如

count

、

savaAsTextFile

等都会对应一个

Job

实例，每个

Job

会拆分成多个

Stages

，对一个

Stage

中包含一个任务集（

TaskSet

），任务集

中的各个任务（

Task

）通过一定的调度机制发送到工作单位（

Executor

）上并行执行。

3.4.2 应用程序的部署

和其他常见的分布式集群类似，

Spark Standalone

集群的部署也是采用典型的

Master/Slave

架构。其中，

Master

节点负责整个集群的资源管理与调度，

Worker

节点（也可

以称

Slave

节点）在

Master

节点的调度下启动

Executor

，负责执行具体工作（包括应用程序

以及应用程序提交的任务）。

从前面的分析中抽取出

Spark Standalone

模式部署的

askScheduler

与

SchedulerBackend

具体子类的实例构建信息，如表

3-8

所示：

表

3-8

Spark Standalone

模式部署具体子类的构建

部署模式

(master)

实例对应的类

备注

Spark Standalone

taskScheduler

：

TaskSchedulerImpl

_schedulerBackend

：

SparkDeploySchedulerBackend

Spark Standalone

对应

Spark

原生的完全分布式集群。

因此，此种方式下不需要像上面的本地伪分布式集群那样，

构建一个虚拟的本地集群。

下面以提交请求的行为为例，结合应用程序提交时所使用的不同部署模式，给出详细的

框架及其描述，对应在框架中的其他请求与此类似，可以自行解析。

以

Client

的部署模式提交应用程序

在

Client

的部署模式提交时，直接在提交点运行应用程序，即对应的驱动程序是在当前

节点启动的。启动一个应用程序后，就涉及到各个相关的方面，包含应用运行的环境、应用

元数据的清理、状态监听、

DAG

调度、任务调度等等。这些具体的内容，在后续的章节中

都会分别给出有针对性的解析，故此处仅针对必要的信息，来加深对

Spark Standalone

集群

部署方面的理解。

对应的部署与执行框架如图

3-3

所示：

18.

client.start()

19.

launcherBackend.setState(SparkAppHandle.State.SUBMITTED)

20.

waitForRegistration()

21.

launcherBackend.setState(SparkAppHandle.State.RUNNING)

其中，

AppClient

实例在调用方法

start

时，会构建一个

RPC

通信终端，即

ClientEndpoint

实例，实例化后再自动调用

onStart()

，这时候就会将封装的

ApplicationDescription

实例进一

步封装到消息

RegisterApplications

的实例中，然后由该

RPC

通信终端将该信息发送到

Master

的

RPC

通信终端。

）

Master

的

RPC

通信终端在收到

RegisterApplications

消息后，通过资源调度方法，最

终会调用

launchExecutor

方法，在该方法中再向调度所分配到的

Worker

节点的

RPC

通信终端发送

LaunchExecutor

消息。

）

Worker

的

RPC

通信终端在收到

LaunchExecutor

消息后，会实例化

ExecutorRunner

对象，然后启动一个线程，在线程中解析

RegisterApplications

消息封装的

ApplicationDescription

实例所携带的

Command

实例。也就是前面封装的

CoarseGrainedExecutorBackend

类，最后启动

CoarseGrainedExecutorBackend

类的进

程。进程的入口就是

CoarseGrainedExecutorBackend

伴生对象的

main

函数。

）

在入口处，即

CoarseGrainedExecutorBackend

伴生对象的

main

函数中，会解析参数，

然后调用

run

函数，在该

run

函数中会构建

CoarseGrainedExecutorBackend

实例，也

就是构建一个

RPC

通信终端。

Run

方法中的关键代码如下所示：

env.rpcEnv.setupEndpoint("Executor", new CoarseGrainedExecutorBackend(

env.rpcEnv, driverUrl, executorId, sparkHostPort, cores, userClassPath, env))

workerUrl.foreach { url =>

env.rpcEnv.setupEndpoint("WorkerWatcher", new WorkerWatcher(env.rpcEnv,

url))

}

其中，

driverUrl

是封装

CoarseGrainedExecutorBackend

到

Command

时设置的，可以回

到前面

SparkDeploySchedulerBackend

实例的

start

方法，在构建

Command

之前，设置了一

些参数，对应代码如下：

// The endpoint for executors to talk to us

val driverUrl = rpcEnv.uriOf(SparkEnv.driverActorSystemName,

RpcAddress(sc.conf.get("spark.driver.host"), sc.conf.get("spark.driver.port").toInt),

CoarseGrainedSchedulerBackend.ENDPOINT_NAME

)

val args = Seq(

"--driver-url", driverUrl,

"--executor-id", "{{EXECUTOR_ID}}",

"--hostname", "{{HOSTNAME}}",

"--cores", "{{CORES}}",

10.

"--app-id", "{{APP_ID}}",

11.

"--worker-url", "{{WORKER_URL}}")

其中，第

、

行就是封装的与

CoarseGrainedExecutorBackend

进行通信的终端及其对

应参数的选项名称，也就是前面的

CoarseGrainedSchedulerBackend

实例的

driverEndpoint :

DriverEndpoint

成员，对应在

Spark Standalone

部署模式下，就是具体子类

SparkDeploySchedulerBackend

。

）

对应

CoarseGrainedExecutorBackend

的

RPC

通信终端，在实例化时自动调用

onStart

剩余114页未读，继续阅读

harli

粉丝: 9

Spark内核解析：部署模式与Shuffle深度揭秘

SparkSql实现小案例——代码部分（一）

本人的spark项目代码以及数据，请下载查看

分享的spark简单的应用代码（入门级）

Spark github源码 例子很有价值

Spark最全操作完整示例代码

spark全案例

【大数据课设】p105出租车数据可视化分析-大数据-实训大作业.zip

TypeScript 入门教程

人脸识别_课堂考勤_OpenCV_服务端系统_1741777828.zip

历届电赛试题及综合测评（真题+模拟题）

最新资源

Spark github源码例子很有价值