理解Spark理论基石：Zaharia博士论文中文版解析

需积分: 9 191 浏览量更新于2024-07-19 1 收藏 3.02MB PDF 举报

Spark奠基者Matei Zaharia博士的这篇论文《大型集群上的快速和通用数据处理架构》（UCB/EECS-2014-12），深入探讨了在大数据时代背景下，如何设计一个高效、通用的分布式数据处理框架。该论文发表于加州大学伯克利分校电气工程和计算机科学系，是Spark项目的重要理论基石，为理解Spark的核心理念提供了关键视角。论文概述了过去几年计算系统领域的发展趋势，尤其是分布式系统的广泛应用，以应对日益增长的数据量和处理需求。互联网、企业和科研机构都面临着海量数据的挑战，单机处理能力已经无法满足这些需求，因此，将计算能力扩展到大规模集群变得至关重要。Spark正是在这种背景下诞生，它旨在提供一种在大型集群上实现快速、灵活和通用数据处理的方法。论文的核心贡献在于提出了一种新的架构设计，即基于内存计算模型的Spark，它强调了实时处理和容错性。Spark的核心组件包括Resilient Distributed Datasets (RDDs)，这种持久化数据结构使得数据可以在集群节点之间高效共享；Stage-structured computation，通过将任务划分为多个阶段并行执行，优化了数据处理流程；以及Executor和Worker的部署模型，确保了任务的并发执行和资源管理。此外，论文还讨论了Spark的shuffle操作和容错机制，这些都是其性能的关键所在。Spark的设计目标是通过减少数据传输次数、利用内存计算的优势，以及利用现代硬件的并行能力，显著提高数据处理速度，同时保持高度的灵活性，适应各种数据处理任务。论文的翻译工作由CSDN CODE翻译社区组织，集合了众多译者和审校者的努力，体现了开源社区的协作精神。版权方面，论文的原文和翻译版本都受到严格的版权保护，仅限于非商业用途和个人或课堂教学的使用，任何形式的复制、转发或再版都需要获得作者和翻译团队的明确授权。 Matei Zaharia博士的这篇论文不仅是Spark技术的理论基础，也为理解和实践分布式数据处理提供了重要的参考，对于IT行业的初学者和从业者来说，深入学习和研究这篇论文有助于掌握大数据时代的分布式处理策略。

计算提出这样一个抽象。

特别提出的是，以前的这些集群容错处理模型，像 MapReduce、Dryad，将计算转换为一个有向

非循环图（DAG）的任务集合。这使得它们能够高效地重复执行 DAG 里的其中一部分任务来完成容

错恢复。但对于一个独立的计算，（例如在一个迭代过程中），这些模型除了可复制的文件系统外

没有提供其他存储的概念，这就导致因为在网络上进行数据复制而增加了大量的消耗。RDDs 是一

个可以避免复制的容错分布式存储概念。取而代之，每一个 RDD 都会记住由构建它的那些操作所

构成的一个图，类似于批处理计算模型，可以有效地重新计算因故障丢失的数据。由于创建 RDDS

的操作是相对粗粒度的，即单一的操作应用于许多数据元素，该技巧比通过网络复制数据更高效。

RDDs 很好地运用于当前广泛的数据并行算法和处理模型中，所有的这些对多个任务使用同一种操

作。

现在它看起来很神奇，只是增加数据共享却极大地提高了 MapReduce 的通用性，那就让我们从

几个方面探讨为什么会这样。首先，从表现力的角度来说，我们了解到 RDDs 可以效仿任何一种分

布式系统，并且会在容许网络延迟的条件下做的非常高效。这是因为，一旦增加了快速数据共享

机制，MapReduce 可以效仿并行计算中的 Bulk Synchronous Parallel (BSP) [108] 模型，而主

要的缺陷是每个 MapReduce 的阶段会有延迟。根据经验，在我们的 Spark 系统中，这可以低至 50

〜100 毫秒。其次，从系统的角度来说，不像普通的 MapReduce，RDDs 在大多数集群计算中会给应

用足够的控制以便优化资源瓶颈（特别是网络和存储 I/O）。因为这些资源经常占据主要的执行时

间，通常仅控制它们(例如，通过控制数据位置）就能达到使用相同资源的独立系统的性能。

除了这种探索，我们还实证研究表明，使用 RDDs 我们可以实现多种目前使用的专用模型，以

及新的编程模型。我们的实现能达到专业系统的性能，同时提供丰富的容错特性和组合。

1.3 基于 RDD 机制实现的模型

我们使用 RDD 机制实现了多类模型，包括多个现有的集群编程模型和之前模型所没有支持的新

应用。在这些模型中，RDD 机制不仅在性能方面能够和之前系统相匹配，在其他方面，他们也能加

入现有的系统所缺少的新特性，比如容错性，straggler 容忍和弹性。我们讨论以下四类模型。

迭代式算法一种目前已经开发的针对特定系统最常见的的工作模式是迭代算法，比如应用于图

处理，数值优化，以及机器学习中的算法。RDD 可以支持广泛类型的各种模型，包括 Pregel[72]，

像 HaLoop 和 Twister 这类的迭代式 MapReduce 模型[22， 37]，以及确定版本的 GraphLab 和

PowerGraph 模型[71,48]。

关系查询在 MapReduce 集群中的首要需求中的一类是执行 SQL 查询，长期运行或多个小时的批量

计算任务和即时查询。这促进了很多在商业集群中应用的并行数据库系统的发展[95, 60, 75]。

MapReduce 相比并行数据库在交互式查询[84]有非常大的缺陷，例如 MapReduce 的容错机制模型，

而我们发现通过在 RDD 操作中实现很多常用的数据库引擎的特性（比如，列处理），这样能够达到

相当可观的性能。由上述方式所构建的系统，Shark[113]，提供完整的容错机制，能够在短查询

和长查询中很好的扩展，同时也能在 RDD 之上提供复杂分析函数的调用(例如, 机器学习)。

MapReduce RDD 通过提供 MapReduce 的一个超集，能够高效地执行 MapReduce 程序，同样也可以指

向比如 DryadLINQ 这样常见的机遇 DAG 数据流的应用[115]。

流式数据处理我们的系统与定制化系统最大的区别是我们也使用 RDD 实现了流式处理。流式数据

处理已经在数据库和系统领域进行了很长时间研究，但是实现大规模流式数据处理仍然是一项挑

战。当前的模型并没有处理在大规模集群中频繁出现的 straggler 的问题，同时对故障恢复的方

式也非常有限，需要大量的复制或浪费很长的恢复时间。特别是，当前的系统是基于一种持续操

作的模型，这就需要长时间的有状态的操作处理每一个到达的记录。为了恢复一个丢失的节点，

当前的系统需要保存每一个操作符的两个副本，或通过一系列耗费大量开销的串行处理来对上游

的数据进行重放。

我们提出了一个新的模型，离散数据流(D-Streams),来解决这样的问题。对使用长期状态处理

的过程进行替换，D-Streams 把流式计算的执行当做一系列短而确定性的批量计算的序列，将状态

保存在 RDD 里。D-Stream 模型通过根据相关 RDD 的依赖关系图进行并行化恢复，就能达到快速的

故障恢复，

这样不需要通过复制

。另外，它通过推测(Speculative)来支持对 straggler

迁移执行

[36]，例如，对那些慢任务运行经过推测的备份副本。尽管 D-Stream 将计算转换为许多不相关联

的 jobs 来运行从而增加了部分延迟，然而我们证明了 D-Stream 能够被达到次秒级延时的实现，

这样能够达到以前系统单个节点的性能，并能线性扩展到 100 个节点。D-Stream 的强恢复特性让

他们成为了第一个处理大规模集群特性的流式处理模型，并且他们基于 RDD 的实现使得应用能够

有效的整合批处理和交互式查询。

通过将这些模型整合到一起，RDD 还能支持一些现有系统不能表示的新的应用。例如，许多数

据流应用程序还需要加入历史数据的信息；通过使用 RDD 可以在同一程序中同时使用批处理和流

式处理，这样来实现在所有模型中数据共享和容错恢复。同样的，流式应用的操作者常常需要在

数据流的状态上执行即时查询；在 D-Stream 中的 RDD 能够如静态数据形式进行查询。我们使用一

些在线机器学习 (第 4.6.3 节) 和视频分析(第 4.6.3 节)的实际应用来说明了这些用例。更一般

的说，每一个批处理应用常常需要整合多个处理类型：比如，一个应用可能需要使用 SQL 提取一

个数据集，在数据集上训练一个机器学习模型，之后对这个模型进行查询。由于计算的大部分时

间花在系统之间共享数据的分布式文件系统的 I/O 开销上，因此使用当前多个系统组合而成的工

作流的效率非常的低下。使用一个基于 RDD 机制的系统，这些计算可以在同一个引擎中紧接着执

行，而不需要额外的 I/O。

图 1.2.Spark 栈和定制化系统在代码量和性能上的比较

Spark 的代码量和定制化系统是相近的，然而这些模型在 Spark 上的实现代码量明显要少。尽

管如此，在选定的应用中的 Spark 的性能可以和定制化系统相媲美。

1.4 总结

我们在托管于 Apache 孵化器而且已经用于多个商业部署的开源系统 Spark 中实现了 RDDs。尽

管 RDD 很通用，但 Spark 相对较小:共 34，000 行 Scala(公认的高级语言)代码，在同一范围内把

它作为专业的集群计算系统。更重要的是，建立于 Spark 上的专业模型比它们单独运行的时候小

得多：我们用几百行代码实现 Pregel 和交互性的 MapReduce，8000 行代码实现了离散 Stream,12000

行代码实现一个以 Apache Hive 作为 Spark 前段进行查询的 SQL 系统 Shark。这些基于 spark 的系

统比单独的特定实现小几个数量级且支持各种方法的混合模型，但是在性能上仍然比得上专业系

统。简短总结一下，图 1.2 从性能和代码规模上对 Spark 及建立于 Spark 上的 3 个系统（Shark,Spark

Streaming,GraphX）[113,119,112]，和广受欢迎的专业系统（Impala，Amazon Redshift—处理

SQL 的 DBMS;Storm—流处理;Giraph—图处理）[60,5,14,10]进行了比较。

除了这些实际的结果，我们也包括通过 RDD 实现复杂处理函数的通用技术以及讨论为什么 RDD 模型

如此受欢迎。尤其是在 1.2 章节中表述的那样，我们发现 RDD 模型可以与任何分布式系统竞争，且

第二章弹性分布式数据集

2.1 简介

在本章中，我们提出了弹性分布式数据集（RDD）的抽象概念，论文其余部分基于此建

立了一个通用的集群计算栈。RDD 对 MapReduce [36] 和 Dryad [61]提出的数据流编程模型

进行了扩展，这些模型是目前大数据分析使用最为广泛的编程模型。数据流系统取得了成功，

很重要的因素是用户通过使用比较高级的操作进行计算而无需担心任务分布和系统的容错

问题。然而，随着集群负载的增加，数据流系统在很多重要的应用场景出现了低效率问题，

比如迭代算法，交互式查询和流式处理。这引发了大量针对这些应用而定制的计算框架的发

展[72, 22, 71,95, 60,14, 2]。

我们的工作源于观察到很多数据流模型不适用的应用场景所共有的一个特征：在计算

过程中都需要高效率的数据共享。例如，迭代算法，如 PageRank, K-means 聚类，或逻辑

回归，都需要进行多次访问相同的数据集；交互数据挖掘经常需要对于同一数据子集进行多

个特定的查询；而流式应用下则需要随时间对状态信息进行维护和共享。不幸的是，尽管数

据流框架支持大量的计算操作运算，但是它们缺乏针对数据共享的高效原语。在这些框架中，

实现计算之间(例如，两个的 MapReduce 作业之间)数据共享只有一个办法，就是将其写到一

个稳定的外部存储系统，如分布式文件系统。这会引入数据备份、磁盘 I/O 以及序列化，这

些都会引起大量的开销，从而占据大部分的应用执行时间。

事实上，在针对这些新应用而定制的框架进行研究的过程中，我们的确有发现它们会对

数据共享进行优化。例如，Pregel[72]是一种针对图迭代计算的系统，它会将中间状态保存

在内存中。而 HaLoop[22]是一种迭代 MapReduce 的系统，它会在各步骤中都以一种高效率

的方式对数据进行分区。不幸的是，这些框架只能支持特定的计算模式（例如，循环一系

列的 MapReduce 的步骤），并对用户屏蔽了数据共享的方式。它们不能提供一种更为通用的

抽象模式，例如，允许一个用户可以加载几个数据集到内存中并进行一些跨数据集的即时查

询。

相反，我们所提出的弹性分布式数据集（RDDs），这种全新的抽象模式令用户可以直接

控制数据的共享。RDD 具有可容错和并行数据结构特征，这使得用户可以指定数据存储到硬

盘还是内存、控制数据的分区方法并在数据集上进行种类丰富的操作。他们提供了一个简单

剩余123页未读，继续阅读

ffl_2018

粉丝: 2
资源: 8

理解Spark理论基石：Zaharia博士论文中文版解析

Matei Zaharia：Spark的现状和未来

钱学森博士论文 钱学森博士论文

CCF2016十大经典博士论文

理解Spark架构：Zaharia博士论文中文版详解

Spark基础与Spark集群搭建

解密spark集群的核心组件：Spark Master与Spark Worker

Spark编程：使用Spark构建推荐引擎

Spark编程：监控与调优Spark应用程序

Spark编程基础：Spark环境搭建和配置指南

spark权威指南pdf 中文

最新资源

钱学森博士论文钱学森博士论文