Spark源码深度解析：DAG模型与性能优化

需积分: 9 128 浏览量更新于2024-07-20 收藏 1.11MB DOCX 举报

Spark源码阅读笔记深入探讨了Apache Spark这一强大的数据处理计算框架，它由伯克利AMP实验室开发，旨在简化并行程序的开发与集群部署。Spark支持多种编程语言接口，如Java、Scala、Python和R，以适应不同开发者的需求。 Spark的设计和实现巧妙地结合了成熟的技术和创新思维。它采用了Akka和Netty作为通信框架，这些技术在工业界已经得到广泛验证，能够提供高效和可靠的通信。Shuffle操作在Spark中被重新设计，虽然沿用了MapReduce Shuffle的概念，但在细节上有所改进，以提高性能。 Spark底层的资源调度借鉴了YARN和Mesos的机制，这使得Spark能够更有效地管理集群资源。相比于Hadoop，Spark引入了DAG（有向无环图）编程模型，将复杂的任务分解为多个阶段（Stage），每个阶段包含多个并行执行的任务。这种设计减少了对HDFS的I/O操作，提升了数据处理速度，尤其是对于较长的数据处理链路。在资源申请方面，Spark的Executor对应一个JVM实例，而Task则在Executor的线程中并发执行，这允许Executor复用资源，降低了资源的申请次数。相比之下，MapReduce的每个Task都独立运行，资源消耗更大。 Spark引入了RDD（弹性分布式数据集）的缓存机制，对于重复使用的中间结果，会存储在内存中，避免了重复计算，特别适合迭代式任务，显著提升效率。此外，Spark通过依赖管理和检查点机制，实现了容错处理。当某个Task失败时，系统能根据依赖关系快速恢复，降低了故障带来的影响。 Spark是对Hadoop的增强版本，通过DAG模型、资源优化、缓存机制和容错策略，提供了更灵活、高效和易于维护的数据处理环境。学习和理解Spark源码，不仅有助于掌握大数据处理的最佳实践，还能深入理解现代分布式计算的核心原理。

5#&6&;

56;

#1(+6;<

@@!I5%##&**?S4#*

@@(&##*4(&

#* 5,(<

3>O

#>

5 #8+6;

*84&>

#* 5,><

5(&(&6F3F,F8=B I'F, 8,F-3B I, MBF3,I L8=?

F3F,F8=B I'F, 8,F-3B I, MBF3,I L8=?? #1(+;

E

6B;>O

#F6G3#(4#((?(GH

G4(&5G;

E

程序清单 2.4 worke 节点的启动和注册

master 节点收到注册请求后，会将 worker 的信息进行封装成

WorkerInfo，并将 WorkerInfo 加入到 master 节点上相应的数据结构上以作

记录，同时 master 节点对应的持久化引擎也会记录 worker 信息以作主备切

换。然后 master 会向 worker 发送的注册进行相应，报告 woker 节点已经注

册成功，由于有新的 worker 节点加入，资源的增加会触发新一轮的调度，调

度策略比较复杂，我们后边再讲。主要过程源码如程序清单 2 .5 所示。

 #16?2?D??5?CD?&%8;

#F6G ##R7R(R?R 8+G6

2?D??C*#%5,#65;;;

6>> 5,83!)M;<

@@#?S

E6,16;;<

Q #1K6G!&F!G;

E<

>1F6?2?D??5?

?CD?&%8;

6#16;;<

I#16;

Q #16C?1%CC;

(&6;

E<

8>(

#1#6G1#*840#GH

G7GH8;

Q #1K6G840#7G

H8;

E

E

程序清单 2.5 maser 节点注册 worker

woker 节点收到 maser 发送的注册信息成功后，会立即对 maser 信息的

进行保存，例如 master 的 URI，maser 对应的 actor 等，然后会关闭重复向

mster 节点发送注册信息的定时器，同时 woker 节点开启一个调度任务默认每

隔 15s 向 master 节点发送心跳信号，表示 worker 节点的存活状态，源码如

程序清单 2 .6。

 #16C?1%CC;>O

#F6G&&5#(GHC;

#>&

(#+6C?1%CC;

5(&(&6?2I8 ,)I8,B+F==F??2%;

6=I83CDBI38)=I!;<

#F6G1&%T*%7U!G;

5(&(&6=I83CDBF3,I L8=B+F==F?

=I83CDBF3,I L8=B+F==F??1!&;

E

程序清单 2.6 worker 注册成功后开始向 master 发送心跳信号

master 收到 woker 心跳信号后，会更新收到 worker 心跳信号的最后时

间，用来检测 worker 是否超时或者失效。

这里分析一下 worker 心跳超时的情况，我们前边讲到 maser 节点启动后

会同时启动一个调度定时器，这个定时器调度会不间断的检查每个 worker 的

心跳信号是否超时，如果心跳信号距离上次心跳超时 60s,会默认这个 worker

已经失效，maser 节点会把这个节点标记为 dead，同时移除这个 woker 节点

上的 Excutor 进程，然后通知 driver 在另外的机器上重新分配 excutor 进程，

如果心跳信号距离上次心跳超过 16 分钟，就认为这个 worker 彻底 dead,就更

新 wokers 信息，并通过 web UI 显示出来，源码如程序清单 2 .7 所示。

*-&!16;<

@@5(5S5((((*#(&#(

&,>5&,+6;

 >V6B2%W&,01- JI B,F+I-C,;85

6W0 ;<

6Q>1!I8!;<

#1#6G #R%&#(%RG6

?1- JI B,F+I-C,@;;

16;

E<

62%W&,066 I8DI BF,I 8,F-3H;A1- JI B,F+I-C,;;<

0>@@S(!I8!(CF?#&#(T&

E

E

E

程序清单 2.7 处理 worker 心跳信号是否超时

至此，通过在不同的机器上启动 maser 和 worker 进程，我们就可以逐渐

搭建这个 spark 的 standalone 模式下的集群。另外我们注意 maser 节点其

实可以启动两个以作主备切换，而且这两个一般是分布在不同的主机

剩余63页未读，继续阅读

wbcshy

粉丝: 1
资源: 7

Spark源码深度解析：DAG模型与性能优化

spark源码阅读笔记(详)

读书笔记：IDEA上导入spark源码阅读步骤即在IDEA上对scala程序编译.zip

SparkInternals:学习Apache Spark源代码的笔记-spark source code

InsideSourceCode:读Spark源码的笔记

jqBlogs:保存一些个人笔记，包括Redis原始阅读笔记以及Spark调优笔记-源码包

spark:spark学习笔记

百度地图毕业设计源码-Spark:调优笔记

Spark-:Spark学习笔记

spark1.6.3:自己查看的spark1.6.3的源码，一些笔记记录等

07-尚硅谷大数据技术之Spark源码1

最新资源