Spark RDD深度解析：容错分布式数据集的关键特性

5星 · 超过95%的资源 159 浏览量更新于2024-08-30 收藏 124KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Spark源码系列文章的第二部分，主要探讨Spark的核心数据结构——RDD（Resilient Distributed Dataset），这是Spark并行计算的基础。 1、RDD的定义与特性 RDD是Spark中的基本数据抽象，它代表不可变、分区的元素集合，并且在集群中以容错方式存储。RDD具有以下关键特性： 1. 分片列表：每个RDD由多个分区组成，这些分区可以在集群的不同节点上并行处理。分片通常与存储系统（如HDFS）的块对齐，以优化数据读取。 2. 计算函数：每个分区都有一个compute函数，用于在给定的分区上执行实际的计算任务。 3. 依赖关系：RDD可以依赖于其他RDD，这些依赖关系用于确定任务调度和数据恢复策略。依赖分为两类：窄依赖（一个父RDD分区只被一个子RDD分区使用）和宽依赖（一个父RDD分区被多个子RDD分区使用）。 4. 分区策略：对于键值对类型的RDD，可以使用Partitioner定义键的分区规则，类似于MapReduce的Paritioner接口，确保相同键的数据位于同一分区。 5. 优先计算位置：每个分区可以有优先计算位置，通常是数据存储的位置，以减少网络传输。在RDD的实现中，可以通过以下方法访问和操作这些特性： - getPartitions：获取RDD的分区信息 - compute：执行分区的计算逻辑 - getDependencies：查看RDD的依赖关系 - partitioner：获取或设置RDD的分区器 - getPreferredLocations：获取每个分区的首选执行位置 2、RDD转换与操作 Spark提供了丰富的API，允许用户通过转换操作（如map、filter、reduceByKey等）创建新的RDD。例如，`sc.textFile(args(1))`是创建一个从指定HDFS路径读取文本文件的RDD，每个分区包含文件的一部分行。转换操作通常产生新的RDD，而行动操作（如count、collect）触发实际的计算。例如，`hdfsFile.count()`会计算文件中的行数，`hdfsFile.map(_.length).reduce(_ + _)`则会计算所有行的总长度。 3、RDD的持久化与容错为了提高性能，RDD支持缓存（persist）到内存或磁盘，以便多次重用。通过调用`cache()`或`persist()`方法，Spark会在执行第一次计算后将结果保存。如果节点故障，Spark利用依赖信息和已存储的分区数据来恢复丢失的部分，保证容错性。总结，RDD是Spark并行计算的核心，理解其特性和操作对于深入学习和使用Spark至关重要。通过RDD的转换和持久化机制，Spark能够在大规模数据集上实现高效、容错的计算。

资源详情

资源推荐

Spark源码系列（二）源码系列（二）RDD详解详解

1、什么是RDD？

上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的

数据。

RDD的全名是Resilient Distributed Dataset，意思是容错的分布式数据集，每一个RDD都会有5个特征：

1、有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。

2、有一个函数计算每一个分片，这里指的是下面会提到的compute函数。

3、对其他的RDD的依赖列表，依赖还具体分为宽依赖和窄依赖，但并不是所有的RDD都有依赖。

4、可选：key-value型的RDD是根据哈希来分区的，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce。

5、可选：每一个分片的优先计算位置（preferred locations），比如HDFS的block的所在位置应该是优先计算的位置。

对应着上面这几点，我们在RDD里面能找到这4个方法和1个属性，别着急，下面我们会慢慢展开说这5个东东。

//只计算一次

protected def getPartitions: Array[Partition]

//对一个分片进行计算，得出一个可遍历的结果

def compute(split: Partition, context: TaskContext): Iterator[T]

//只计算一次，计算RDD对父RDD的依赖

protected def getDependencies: Seq[Dependency[_]] = deps

//可选的，分区的方法，针对第4点，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce

@transient val partitioner: Option[Partitioner] = None

//可选的，指定优先位置，输入参数是split分片，输出结果是一组优先的节点位置

protected def getPreferredLocations(split: Partition): Seq[String] = Nil

2、多种RDD之间的转换

下面用一个实例讲解一下吧，就拿我们常用的一段代码来讲吧，然后会把我们常用的RDD都会讲到。

val hdfsFile = sc.textFile(args(1))

val flatMapRdd = hdfsFile.flatMap(s => s.split(" "))

val filterRdd = flatMapRdd.filter(_.length == 2)

val mapRdd = filterRdd.map(word => (word, 1))

val reduce = mapRdd.reduceByKey(_ + _)

这里涉及到很多个RDD，textFile是一个HadoopRDD经过map后的MappredRDD，经过flatMap是一个FlatMappedRDD，经过

filter方法之后生成了一个FilteredRDD，经过map函数之后，变成一个MappedRDD，通过隐式转换成 PairRDD，最后经过

reduceByKey。

我们首先看textFile的这个方法，进入SparkContext这个方法，找到它。

def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = {

hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], minPartitions).map(pair => pair._2.toString)

}

看它的输入参数，path，TextInputFormat，LongWritable，Text，同志们联想到什么？写过mapreduce的童鞋都应该知道

哈。

1、hdfs的地址

2、InputFormat的类型

3、Mapper的第一个类型

4、Mapper的第二类型

这就不难理解为什么立马就对hadoopFile后面加了一个map方法，取pair的第二个参数了，最后在shell里面我们看到它是一个

MappredRDD了。

那么现在如果大家要用的不是textFile，而是一个别的hadoop文件类型，大家会不会使用hadoopFile来得到自己要得到的类型

呢，不要告诉我不会哈，不会的赶紧回去复习mapreduce。

言归正传，默认的defaultMinPartitions的2太小了，我们用的时候还是设置大一点吧。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38530536

粉丝: 4
资源: 970

Spark RDD深度解析：容错分布式数据集的关键特性

Spark源码剖析

spark最新源码以及二次开发教程

spark源码系列(一) rdd详解以及部分算子源码解析

[spark学习] spark rdd详解

java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD

【spark】架构原理rdd使用详解

spark-spark函数详解rdd转换与操作

spark sql和spark rdd对比的优势

如何学习spark源码？

scala spark 大数据集上rdd转dataframe的效率

spark运行时出现错误caused by: java.lang.classnotfoundexception: org.apache.spark.rdd.rdd

Spark核心数据集RDD主要有几类操作至少列举出每类操作中的两个函数

error: type mismatch; found : org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint] required: org.apache.spark.sql.Dataset[_] val model = nb.fit(train)

spark dataframe转rdd

spark、spark-core、rdd 总结

【Spark】Spark-空RDD判断与处理

spark rdd血统容错

import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD

解决value sortbykey is not a member of org.apache.spark.rdd.rdd[any, org.apache.spark.sql.row]报错！...

简述spark重要术语：RDD;DAG;Executor;Application;Task;Job;Stage

最新资源