Spark源码分析：Task运行期函数调用与数据流程

需积分: 9 89 浏览量更新于2024-09-10 收藏 360KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"Apache Spark源码走读之3 -- Task运行期之函数调用关系分析" 在深入探讨Apache Spark源码的Task运行期函数调用关系之前，先了解一下基础背景。Spark是一个快速、通用且可扩展的大数据处理框架，它通过弹性分布式数据集（Resilient Distributed Datasets, RDDs）提供了并行计算的能力。Task是Spark工作单元，它们在Executor中运行，执行DAGScheduler分解的任务阶段（Stages）。 Apache Spark源码走读系列的第三部分专注于Task运行期间的函数调用关系分析。这个话题对于理解Spark的工作机制至关重要，因为Task的执行过程涉及到数据的获取、处理和返回。以下是关于Task运行过程中的关键组件和流程的详细说明： 1. SparkContext初始化： Spark应用的核心是SparkContext，它是与Spark集群交互的入口点。SparkContext负责初始化Spark环境（SparkEnv），创建BlockManager、MapOutputTracker、 ShuffleFetcher和ConnectionManager等核心组件。这些组件协同工作，确保数据的存储、传输和调度。 2. DAGScheduler： DAGScheduler将用户提交的Job分解为一系列Stage。Stage是由一组Task组成的，这些Task共享相同的输入数据集，并且可以并行执行。DAGScheduler分析任务依赖，生成Stage图，并将其提交给TaskScheduler。 3. TaskSchedulerImpl： TaskSchedulerImpl负责将DAGScheduler生成的Stage转化为具体的Task实例，并决定哪些Task应在哪个Executor上运行。这涉及到Executor分配策略，例如基于资源可用性和负载均衡的决策。 4. SchedulerBackend： SchedulerBackend是TaskScheduler与底层资源管理器（如YARN、Mesos或standalone cluster）之间的接口。在本地模式下，使用LocalBackend；在集群模式下，使用SparkDeploySchedulerBackend。 5. TaskRunner： TaskRunner是实际运行Task的组件。它接收TaskScheduler分配的任务，加载必要的上下文信息，执行Task的业务逻辑。Task的输入数据可以从BlockManager获取，而处理后的结果可能需要通过MapOutputTracker和BlockManager返回。 6. Executor： Executor是Spark运行Task的进程，它们负责执行Task、缓存中间结果、存储数据和提供网络通信能力。Executor上的BlockManager持有RDD分区，TaskRunner会从这里读取数据进行处理。 7. 数据获取和返回： Task的输入数据通常通过ShuffleFetcher从其他Executor的BlockManager获取，特别是当存在shuffle操作时。处理后的结果可以通过BlockManager写回，或者通过MapOutputTracker告知其他Task它们需要在哪里查找结果。理解Spark Task运行期的函数调用关系有助于优化性能、调试问题以及开发自定义调度策略。Spark源码的深度阅读可以帮助开发者更好地掌握系统内部的工作原理，从而更有效地利用Spark进行大数据处理。

资源详情

资源推荐

2015/1/1 Apache Spark源码走读之3 -- Task运行期之函数调用关系分析 - 徽沪一郎 - 博客园

http://www.cnblogs.com/hseagle/p/3673132.html 1/5

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

欢迎转载，转载请注明出处，徽沪一郎。

概要

本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。

准备

1. spark已经安装完毕

2. spark运行在local mode或local-cluster mode

local-cluster mode

local-cluster模式也称为伪分布式，可以使用如下指令运行

MASTER=local[1,2,1024] bin/spark-shell

[1,2,1024]分别表示，executor number, core number和内存大小，其中内存大小不应小于默认的512M

Driver Programme的初始化过程分析

初始化过程的涉及的主要源文件

1. SparkContext.scala 整个初始化过程的入口

2. SparkEnv.scala 　　创建BlockManager, MapOutputTrackerMaster, ConnectionManager, CacheManager

3. DAGScheduler.scala 任务提交的入口，即将Job划分成各个stage的关键

4. TaskSchedulerImpl.scala 决定每个stage可以运行几个task，每个task分别在哪个executor上运行

5. SchedulerBackend

1. 最简单的单机运行模式的话，看LocalBackend.scala

2. 如果是集群模式，看源文件SparkDeploySchedulerBackend

初始化过程步骤详解

步骤1：根据初始化入参生成SparkConf，再根据SparkConf来创建SparkEnv, SparkEnv中主要包含以下关键性组件 1. BlockManager 2. MapOutputTracker 3.

ShuffleFetcher 4. ConnectionManager

private[spark] val env = SparkEnv.create(

conf,

"",

conf.get("spark.driver.host"),

conf.get("spark.driver.port").toInt,

isDriver = true,

isLocal = isLocal)

SparkEnv.set(env)

步骤2：创建TaskScheduler,根据Spark的运行模式来选择相应的SchedulerBackend，同时启动taskscheduler，这一步至为关键

private[spark] var taskScheduler = SparkContext.createTaskScheduler(this, master, appName)

taskScheduler.start()

TaskScheduler.start目的是启动相应的SchedulerBackend，并启动定时器进行检测

override def start() {

backend.start()

if (!isLocal && conf.getBoolean("spark.speculation", false)) {

logInfo("Starting speculative execution thread")

import sc.env.actorSystem.dispatcher

sc.env.actorSystem.scheduler.schedule(SPECULATION_INTERVAL milliseconds,

SPECULATION_INTERVAL milliseconds) {

checkSpeculatableTasks()

}

步骤3：以上一步中创建的TaskScheduler实例为入参创建DAGScheduler并启动运行

下载后可阅读完整内容，剩余4页未读，立即下载

poolpoolpool

粉丝: 5
资源: 64

Spark源码分析：Task运行期函数调用与数据流程

Apache Spark源码走读之2 -- Job的提交与运行

Apache Spark源码走读之5 -- DStream处理的容错性分析

spi_nor_read_data函数走读

java具体如何做代码走读

python代码走读方法

统计学生、老师、走读学生数量输出结果，并去除学生和走读学生重复后，输出学生、老师、走读学生合计总数

用JAVA写一个可以计算下一天日期的函数nextDate()，并写出详细的使用代码检查法、逻辑覆盖法、基本路径测试法对函数 nextDate()进行测试的过程

Linux内核网络协议相关代码走读

测试工程师如何进行代码走读，需要关注的点有哪些

uboot下norflash读写代码走读

mt7981cpuuboot下norflash读写代码走读

@MapperScan(" ")

1.如何保证测试进度，质量等具体措施，如早晚会，问题单分析，联合开发代码走读代码，提高自动化率等；

代码静态测试和动态测试

写一个类名字为clownn口有三个属性分别为10分秒，有两个方法分别为走读和显示时间。

springboot 代码走读

登录模块测试思维导图

vscode dask

软件测试工程师校招面试题

jieba 词性标注代码

最新资源