Spark Core：理解RDD：弹性分布式数据集与操作原理

需积分: 10 63 浏览量更新于2024-07-15 收藏 1.39MB DOCX 举报

Spark Core中的核心概念是RDD（Resilient Distributed Dataset，弹性分布式数据集）。RDD是Spark编程模型的基础，它是一种抽象数据结构，代表了一个不可变、可分区且元素可以并行计算的集合。它在设计上具有以下关键特性： 1. 分区与依赖关系： - RDD由一系列分区组成，这些分区是数据的基本单元，可以分布在集群的不同节点上。每个分区都有一个计算函数，用于处理其上的数据。 - RDD之间的依赖关系非常关键，表示一个新RDD如何从原始RDD生成，这种依赖关系决定了计算的执行顺序。如果依赖链过长，Spark会利用持久化机制（如Caching）来优化性能。 2. 只读性与转换操作： - RDD被设计为只读，这意味着不能直接修改它的内容。所有对数据的更改都是通过调用转换操作（transformations）来生成新的RDD，从而保持原有数据的不变性。 - Spark提供了丰富的转换算子，如map、filter、flatMap、reduceByKey等，允许开发者以更灵活的方式处理数据，而不局限于map和reduce操作。 3. 分区机制： - 计算过程中，RDD的每个分区是逻辑上的独立存在，compute函数负责根据指定的方式（文件系统或转换逻辑）获取或生成分区数据。 - 如果RDD源自文件系统，compute可能涉及文件I/O操作；如果是转换生成，那么就是执行转换逻辑对已有RDD的数据进行处理。 4. 血缘关系与延迟计算： - RDD的执行遵循血缘依赖原则，即先执行上游RDD的计算，然后基于其结果执行下游RDD。这使得Spark能够有效地进行任务调度和数据划分，避免不必要的重复计算。 5. 窄依赖与宽依赖： - 依赖关系分为两种类型：窄依赖和宽依赖。窄依赖对应一对一的分区映射，而宽依赖则涉及到多个下游分区与单个上游分区的多对多关系。Spark通过高效的图算法处理这些依赖，优化任务的并行度和资源利用率。理解并掌握RDD是使用Spark进行大数据处理的关键，因为它为分布式计算提供了高效、灵活和容错的数据处理框架。通过熟练运用RDD的特性，开发人员可以构建出复杂的并行计算应用程序，应对大规模数据处理挑战。

大数据技术之 SparkCore

—————————————————————————————

scala> indexRdd.collect

res2: Array[(Int, Int)] = Array((0,1), (0,2), (1,3), (1,4))

2.3.1.4 flatMap(func) 案例

1. 作用：类似于 map，但是每一个输入元素可以被映射为 0 或多个输出元素（所以 func 应

该返回一个序列，而不是单一元素）

2. 需求：创建一个元素为 1-5 的 RDD，运用 flatMap 创建一个新的 RDD，新的 RDD 为原

RDD 的每个元素的 2 倍（2，4，6，8，10）

（1）创建

scala> val sourceFlat = sc.parallelize(1 to 5)

sourceFlat: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at

<console>:24

（2）打印

scala> sourceFlat.collect()

res11: Array[Int] = Array(1, 2, 3, 4, 5)

（3）根据原 RDD 创建新 RDD（1->1,2->1,2……5->1,2,3,4,5）

scala> val flatMap = sourceFlat.flatMap(1 to _)

flatMap: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[13] at flatMap at <console>:26

（4）打印新 RDD

scala> flatMap.collect()

res12: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5)

2.3.1.5 map()和 mapPartitions()的区别

1. map()：每次处理一条数据。

2. mapPartitions()：每次处理一个分区的数据，这个分区的数据处理完后，原 RDD 中分区

的数据才能释放，可能导致 OOM。

3. 开发指导：当内存空间较大的时候建议使用 mapPartitions()，以提高处理效率。

2.3.1.6 glom 案例

1. 作用：将每一个分区形成一个数组，形成新的 RDD 类型时 RDD[Array[T]]

2. 需求：创建一个 4 个分区的 RDD，并将每个分区的数据放到一个数组

（1）创建

scala> val rdd = sc.parallelize(1 to 16,4)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24

（2）将每个分区的数据放到一个数组并收集到 Driver 端打印

scala> rdd.glom().collect()

res25: Array[Array[Int]] = Array(Array(1, 2, 3, 4), Array(5, 6, 7, 8), Array(9, 10, 11, 12),

Array(13, 14, 15, 16))

大数据技术之 SparkCore

—————————————————————————————

2.3.1.7 groupBy(func)案例

1. 作用：分组，按照传入函数的返回值进行分组。将相同的 key 对应的值放入一个迭代器。

2. 需求：创建一个 RDD，按照元素模以 2 的值进行分组。

（1）创建

scala> val rdd = sc.parallelize(1 to 4)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24

（2）按照元素模以 2 的值进行分组

scala> val group = rdd.groupBy(_%2)

group: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at

<console>:26

（3）打印结果

scala> group.collect

res0: Array[(Int, Iterable[Int])] = Array((0,CompactBuffer(2, 4)), (1,CompactBuffer(1, 3)))

2.3.1.8 filter(func) 案例

1. 作用：过滤。返回一个新的 RDD，该 RDD 由经过 func 函数计算后返回值为 true 的输入

元素组成。

2. 需求：创建一个 RDD（由字符串组成），过滤出一个新 RDD（包含”xiao”子串）

（1）创建

scala> var sourceFilter = sc.parallelize(Array("xiaoming","xiaojiang","xiaohe","dazhi"))

sourceFilter: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10] at parallelize at

<console>:24

（2）打印

scala> sourceFilter.collect()

res9: Array[String] = Array(xiaoming, xiaojiang, xiaohe, dazhi)

（3）过滤出含” xiao”子串的形成一个新的 RDD

scala> val filter = sourceFilter.filter(_.contains("xiao"))

filter: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at filter at <console>:26

（4）打印新 RDD

scala> filter.collect()

res10: Array[String] = Array(xiaoming, xiaojiang, xiaohe)

2.3.1.9 sample(withReplacement, fraction, seed) 案例

1. 作用：以指定的随机种子随机抽样出数量为 fraction 的数据，withReplacement 表示是抽

出的数据是否放回，true 为有放回的抽样，false 为无放回的抽样，seed 用于指定随机数生

成器种子。

2. 需求：创建一个 RDD（1-10），从中选择放回和不放回抽样

（1）创建 RDD

剩余41页未读，继续阅读

嗯就是我

粉丝: 0
资源: 1

Spark Core：理解RDD：弹性分布式数据集与操作原理

hadoop&spark使用教程.docx

SparkCore&SparkSQL练习.docx

my presentation on RDD & Spark.pptx

Spark笔记1.docx

SparkCore.docx

02_SparkCore.docx

spark官方文档.docx

Spark内核解析.docx

Spark概述1.0.docx

spark学习文档.docx

最新资源