Spark RDD详解:原理、属性和应用

需积分: 10 1 下载量 149 浏览量 更新于2024-09-10 收藏 554KB DOCX 举报
Spark RDD 详解 Spark RDD(Resilient Distributed Dataset,弹性分布式数据集)是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。 RDD 的属性: 1. 一组分片(Partition),即数据集的基本组成单位。对于 RDD 来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目。 2. 一个计算每个分区的函数。Spark 中 RDD 的计算是以分片为单位的,每个 RDD 都会实现 compute 函数以达到这个目的。compute 函数会对迭代器进行复合,不需要保存每次计算的结果。一个 function 作用在一个分片上。 3. RDD 之间的依赖关系。RDD 的每次转换都会生成一个新的 RDD,所以 RDD 之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,Spark 可以通过这个依赖关系重新计算丢失的分区数据,而不是对 RDD 的所有分区进行重新计算。 4. 一个 Partitioner,即 RDD 的分片函数。当前 Spark 中实现了两种类型的分片函数,一个是基于哈希的 HashPartitioner,另外一个是基于范围的 RangePartitioner。只有对于于 key-value 的 RDD,才会有 Partitioner,非 key-value 的 RDD 的 Partitioner 的值是 None。Partitioner 函数不但决定了 RDD 本身的分片数量,也决定了 parentRDDShuffle 输出时的分片数量。 5. 一个列表,存储存取每个 Partition 的优先位置(preferred location)。对于一个 HDFS 文件来说,这个列表保存的就是每个 Partition 所在的块的位置。按照“移动数据不如移动计算”的理念,Spark 在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。 创建 RDD 的方式有多种: 1. 由一个已经存在的 Scala 集合创建:val rdd = sc.parallelize(data) 2. 通过读取外部数据源创建:val rdd = sc.textFile("hdfs://...") 3. 通过转换其他 RDD 创建:val rdd = otherRdd.map(x => x * 2) RDD 的优点: 1. 高效:RDD 可以将计算任务分配到多个节点上,并行计算,提高计算效率。 2. 弹性:RDD 可以自动容错,重新计算丢失的分区数据。 3. 可扩展:RDD 可以根据需要增加或减少计算节点,提高计算能力。 RDD 的应用场景: 1. 数据处理:RDD 可以用于处理大规模数据,例如数据清洁、数据转换、数据聚合等。 2. 机器学习:RDD 可以用于机器学习算法的训练和测试,例如逻辑回归、决策树、随机森林等。 3. 图计算:RDD 可以用于图计算,例如PageRank、图聚类等。 RDD 是 Spark 中最基本的数据抽象,具有高效、弹性、可扩展的特点,广泛应用于数据处理、机器学习和图计算等领域。