Spark设计与实现解析：从逻辑到物理执行的深度探讨

3星 · 超过75%的资源需积分: 7 35 浏览量更新于2024-07-19 2 收藏 25.2MB PDF 举报

"Apache Spark 设计与实现 PDF 中文版" Apache Spark 是一个开源的大数据处理框架，它专注于提供快速、通用且可扩展的数据处理能力。本文档深入探讨了Spark的设计理念、工作原理、架构实现以及性能优化策略，并对比了Spark与Hadoop MapReduce在设计和实现上的差异。 1. **总体介绍** Spark的核心设计理念是内存计算，通过将数据存储在内存中，减少磁盘I/O，从而实现高效的迭代计算和交互式数据分析。它的设计目标是提供低延迟和高吞吐量的计算能力。 2. **Job逻辑执行图** Job的逻辑执行图（Logical Plan）展示了任务的计算逻辑，它是一个有向无环图（DAG），反映了数据的依赖关系。在这个阶段，Spark将用户编写的DataFrame或Dataset操作转换为一系列的transformations和actions。 3. **Job物理执行图** 在逻辑执行图的基础上，Spark生成物理执行图（Physical Plan），这是实际执行的任务结构。这个过程涉及到对DAG的优化，例如通过Stage划分和Task生成，最小化数据传输和重用计算结果。 4. **Shuffle过程** Shuffle是Spark中关键的数据重新分布过程，它发生在数据需要跨分区重新排列时。Shuffle会导致数据在网络间传输，并可能导致磁盘临时文件的生成，因此理解和优化shuffle对于提升性能至关重要。 5. **系统架构** Spark的架构包括Driver程序、Executor和Cluster Manager。Driver负责构建和调度作业，Executors在工作节点上运行任务并管理内存，而Cluster Manager（如YARN或Mesos）负责资源分配。 6. **Cache和Checkpoint功能** Spark提供了两种数据持久化机制：cache（内存缓存）和checkpoint（持久化到磁盘）。它们用于加速计算，特别是对于需要重复使用的数据集，通过缓存可以避免重复计算。 7. **Broadcast功能** 广播变量（Broadcast Variables）是Spark为了节省网络带宽而设计的特性，它可以将大对象一次性发送到每个executor，而不是每次任务执行时都发送，这对于广播小但大的常量数据非常有用。 8. **Job调度** Spark的调度系统负责决定何时以及如何执行任务。它可以根据资源需求、优先级和公平性策略进行调度，例如FIFO（先进先出）和FAIR（公平调度）调度器。文档作者采用问题驱动的方式，从实际问题出发，逐步揭示Spark的工作流程，这种方式有助于读者更好地理解Spark的内在机制。由于Spark社区的快速发展，文档会随着Spark的新版本进行更新，确保内容的时效性。尽管目前主要讨论的是Spark Core Standalone模式下的核心功能，但作者鼓励社区成员共同参与，丰富和完善文档内容。通过本文档，读者可以深入了解Spark如何处理大数据任务，以及如何进行性能调优，这对于想要深入研究Spark或者在实际项目中应用Spark的开发者来说，是一份非常有价值的参考资料。

perform？每个RDD里有compute()方法，负责接收来自上一个RDD或者数据源的inputrecords，perform

transformation()的计算逻辑，然后输出records。

产生哪些RDD与transformation()的计算逻辑有关，下面讨论一些典型的transformation()及其创建的RDD。官网上已经解

释了每个transformation的含义。iterator(split)的意思是foreachrecordinthepartition。这里空了很多，是因为那些

transformation()较为复杂，会产生多个RDD，具体会在下一节图示出来。

Transformation GeneratedRDDs Compute()

map(func) MappedRDD iterator(split).map(f)

filter(func) FilteredRDD iterator(split).filter(f)

flatMap(func) FlatMappedRDD iterator(split).flatMap(f)

mapPartitions(func) MapPartitionsRDD f(iterator(split))

mapPartitionsWithIndex(func) MapPartitionsRDD f(split.index,iterator(split))

sample(withReplacement,

fraction,seed)

PartitionwiseSampledRDD

PoissonSampler.sample(iterator(split))

BernoulliSampler.sample(iterator(split))

pipe(command,[envVars]) PipedRDD

union(otherDataset)

intersection(otherDataset)

distinct([numTasks]))

groupByKey([numTasks])

reduceByKey(func,

[numTasks])

sortByKey([ascending],

[numTasks])

join(otherDataset,[numTasks])

cogroup(otherDataset,

[numTasks])

cartesian(otherDataset)

coalesce(numPartitions)

repartition(numPartitions)

RDD之间的数据依赖问题实际包括三部分：

RDD本身的依赖关系。要生成的RDD（以后用RDDx表示）是依赖一个parentRDD，还是多个parentRDDs？

RDDx中会有多少个partition？

RDDx与其parentRDDs中partition之间是什么依赖关系？是依赖parentRDD中一个还是多个partition？

第一个问题可以很自然的解决，比如

x=rdda.transformation(rddb)(e.g.,x=a.join(b))就表示RDDx同时依赖于RDDa和

RDDb。

第二个问题中的partition个数一般由用户指定，不指定的话一般取

max(numPartitions[parentRDD1],..,

numPartitions[parentRDDn])。

第三个问题比较复杂。需要考虑这个transformation()的语义，不同的transformation()的依赖关系不同。比如map()是

1:1，而groupByKey()逻辑执行图中的ShuffledRDD中的每个partition依赖于parentRDD中所有的partition，还有更复杂

2.如何建立RDD之间的联系？

ApacheSpark的设计与实现

11Job逻辑执行图

本文档由Linux公社 www.linuxidc.com 整理

的情况。

再次考虑第三个问题，RDDx中每个partition可以依赖于parentRDD中一个或者多个partition。而且这个依赖可以是完全

依赖或者部分依赖。部分依赖指的是parentRDD中某partition中一部分数据与RDDx中的一个partition相关，另一部分数

据与RDDx中的另一个partition相关。下图展示了完全依赖和部分依赖。

前三个是完全依赖，RDDx中的partition与parentRDD中的partition/partitions完全相关。最后一个是部分依赖，RDDx

中的partition只与parentRDD中的partition一部分数据相关，另一部分数据与RDDx中的其他partition相关。

在Spark中，完全依赖被称为NarrowDependency，部分依赖被称为ShuffleDependency。其实ShuffleDependency跟

MapReduce中shuffle的数据依赖相同（mapper将其output进行partition，然后每个reducer会将所有mapper输出中属

于自己的partition通过HTTPfetch得到）。

第一种1:1的情况被称为OneToOneDependency。

第二种N:1的情况被称为N:1NarrowDependency。

第三种N:N的情况被称为N:NNarrowDependency。不属于前两种情况的完全依赖都属于这个类别。

第四种被称为ShuffleDependency。

对于NarrowDependency，具体RDDx中的partitoini依赖parrentRDD中一个partition还是多个partitions，是由RDDx

中的

getParents(partitioni)决定（下图中某些例子会详细介绍）。还有一种RangeDependency的完全依赖，不过该依

赖目前只在UnionRDD中使用，下面会介绍。

所以，总结下来partition之间的依赖关系如下：

NarrowDependency(使用黑色实线或黑色虚线箭头表示)

OneToOneDependency(1:1)

NarrowDependency(N:1)

ApacheSpark的设计与实现

12Job逻辑执行图

本文档由Linux公社 www.linuxidc.com 整理

剩余74页未读，继续阅读

phphhhp

粉丝: 63
资源: 65

Spark设计与实现解析：从逻辑到物理执行的深度探讨

大数据处理统一引擎Apache Spark研究.pdf

ApacheSpark设计与实现.pdf+ApacheSpark源码剖析.pdf+Spark原著中文版.pdf

Apache Spark：大数据处理统一引擎.pdf

《ApacheSpark设计与实现》.zip

apache spark的设计与实现

Apache Spark Graph Processing. pdf

Learning Apache Spark with Python.pdf

Mastering Apache Spark(掌握Apache Spark)英文版.pdf

Apache+Spark的设计与实现

Big Data with Apache Spark and Python 无水印pdf

最新资源