Spark核心技术：弹性分布式数据集(RDD)详解

3星 · 超过75%的资源需积分: 10 108 浏览量更新于2024-07-22 收藏 981KB PDF 举报

"深入浅出 Spark" Spark 是一种先进的大数据处理框架，它的核心特性在于引入了弹性分布式数据集（RDD，Resilient Distributed Datasets），这是一种创新的内存计算抽象，旨在提升集群计算的效率和容错能力。RDD设计的目标是解决MapReduce等传统数据流模型在处理特定类型应用时的效率问题，特别是对于迭代式算法和交互式数据挖掘场景。 RDD 的主要特点包括： 1. **只读性和容错性**：RDD 是不可变的，意味着一旦创建，就不能被修改。这种设计简化了错误恢复机制，因为RDD可以通过其依赖关系历史来重建。如果某个计算节点失败，Spark可以重新执行失败任务所依赖的RDD转换，从而恢复数据。 2. **批处理操作**：RDD 只能通过批处理操作（如 map、filter 和 reduce）从其他RDD衍生出来，这保证了计算的可预测性和可优化性。这样的设计允许Spark在内存中高效地处理数据，减少磁盘I/O，显著提高性能。 3. **迭代计算优化**：对于需要多次迭代的算法，如机器学习和图处理，Spark的RDD可以在内存中保留中间结果，避免了重复计算，极大地提高了速度。与Hadoop MapReduce相比，Spark在迭代计算中表现出显著的性能优势。 4. **交互式查询**：由于数据可以驻留在内存中，Spark 还支持快速的交互式查询。用户可以迅速地对TB级别的数据进行分析，响应时间通常在几秒钟内，提供了类似SQL的工作体验。 5. **编程模型**：Spark 提供了一个简单易用的API，使得开发者能够方便地构建复杂的数据处理任务，支持多种编程语言，如Scala、Java、Python和R。 6. **位置感知调度**：Spark 自动考虑数据的位置，将计算任务调度到数据所在的节点，减少了数据传输的开销，进一步提升了性能。 7. **容错机制**：通过血统（Lineage）机制，Spark 能够跟踪每个RDD的创建过程，当数据丢失时，可以从源数据或前一个RDD恢复，实现容错。 8. **扩展性**：Spark 可以在各种集群管理器上运行，如YARN、Mesos或者独立模式，具有良好的可扩展性，能够适应不同规模的集群环境。 Spark 的这些特性使其成为大数据处理领域的热门选择，特别是在需要高效迭代计算和快速交互式查询的场景下。通过RDD这一强大的抽象，Spark成功地平衡了计算效率、容错性和易用性，为大数据分析带来了革命性的提升。

图1示例中第三个查询的Lineage图。（方框表示RDD，箭头表示转换）

2.5RDD与分布式共享内存

为了进一步理解RDD是一种分布式的内存抽象，表1列出了RDD与分布式共享内存（DSM，

DistributedSharedMemory）[24]的对比。在DSM系统中，应用可以向全局地址空间的任意

位置进行读写操作。（注意这里的DSM，不仅指传统的共享内存系统，还包括那些通过分布式哈

希表或分布式文件系统进行数据共享的系统，比如Piccolo[28]）DSM是一种通用的抽象，但这

种通用性同时也使得在商用集群上实现有效的容错性更加困难。

RDD与DSM主要区别在于，不仅可以通过批量转换创建（即“写”）RDD，还可以对任意内存位

置读写。也就是说，RDD限制应用执行批量写操作，这样有利于实现有效的容错。特别地，RDD

没有检查点开销，因为可以使用Lineage来恢复RDD。而且，失效时只需要重新计算丢失的那些

RDD分区，可以在不同节点上并行执行，而不需要回滚整个程序。

表1RDD与DSM对比

对比项目 RDD 分布式共享内存（DSM）

读批量或细粒度操作细粒度操作

写批量转换操作细粒度操作

一致性不重要（RDD是不可更改的）取决于应用程序或运行时

容错性细粒度，低开销（使用

Lineage）

需要检查点操作和程序回滚

落后任务的处理任务备份很难处理

任务安排基于数据存放的位置自动实现取决于应用程序（通过运行时

实现透明性）

如果内存不够与已有的数据流系统类似性能较差（交换？）

注意，通过备份任务的拷贝，RDD还可以处理落后任务（即运行很慢的节点），这点与

MapReduce[12]类似。而DSM则难以实现备份任务，因为任务及其副本都需要读写同一个内存

位置。

与DSM相比，RDD模型有两个好处。第一，对于RDD中的批量操作，运行时将根据数据存放的

位置来调度任务，从而提高性能。第二，对于基于扫描的操作，如果内存不足以缓存整个RDD，

就进行部分缓存。把内存放不下的分区存储到磁盘上，此时性能与现有的数据流系统差不多。

最后看一下读操作的粒度。RDD上的很多动作（如count和collect）都是批量读操作，即扫描整

个数据集，可以将任务分配到距离数据最近的节点上。同时，RDD也支持细粒度操作，即在哈希

或范围分区的RDD上执行关键字查找。

3.Spark编程接口

Spark用Scala[5]语言实现了RDD的API。Scala是一种基于JVM的静态类型、函数式、面向对

象的语言。我们选择Scala是因为它简洁（特别适合交互式使用）、有效（因为是静态类型）。

但是，RDD抽象并不局限于函数式语言，也可以使用其他语言来实现RDD，比如像Hadoop[2]

那样用类表示用户函数。

要使用Spark，开发者需要编写一个driver程序，连接到集群以运行Worker，如图2所示。

Driver定义了一个或多个RDD，并调用RDD上的动作。Worker是长时间运行的进程，将RDD分

区以Java对象的形式缓存在内存中。

图2Spark的运行时。用户的driver程序启动多个worker，worker从分布式文件系统中读取数据块，并将计

算后的RDD分区缓存在内存中。

再看看2.4中的例子，用户执行RDD操作时会提供参数，比如map传递一个闭包（closure，函

数式编程中的概念）。Scala将闭包表示为Java对象，如果传递的参数是闭包，则这些对象被序

列化，通过网络传输到其他节点上进行装载。Scala将闭包内的变量保存为Java对象的字段。例

如，varx=5;rdd.map(_+x)这段代码将RDD中的每个元素加5。总的来说，Spark的语言

集成类似于DryadLINQ。

RDD本身是静态类型对象，由参数指定其元素类型。例如，RDD[int]是一个整型RDD。不过，

剩余25页未读，继续阅读

xjl219

粉丝: 0
资源: 7

Spark核心技术：弹性分布式数据集(RDD)详解

大数据-spark

spark

Learning Spark

Spark Contributor陈超分享深入浅出Spark

Spark Contributor陈超：深入浅出Spark

深入浅出spark.pptx

深入浅出Spark性能优化指南

深入浅出Spark技术分享与赚钱项目探讨

深入浅出Spark结合Hadoop, Hive, HBase实践

深入浅出spark-第一章（spark简介）

最新资源