SparkCore入门：理解RDD的概念与特性

需积分: 6 80 浏览量更新于2024-07-17 收藏 2.52MB DOCX 举报

"SparkCore是Apache Spark的核心组件，主要负责数据处理和计算。本文档详细介绍了SparkCore中的关键概念——RDD（Resilient Distributed Dataset），以及其相关特性、操作和依赖关系。" SparkCore的学习主要围绕RDD展开，RDD是Spark的基础数据结构，它是一个分布式、不可变、可分区的集合，支持并行计算。RDD的设计目的是为了提供容错性和高效的数据处理能力。 1. RDD的属性： - 分区：RDD由多个分区组成，每个分区是一个数据块，可以分布在集群的不同节点上。 - 计算函数：每个分区都有一个用于计算的函数，用于在需要时生成分区数据。 - 依赖关系：RDD之间通过转换操作建立依赖，记录了RDD是如何从其他RDD衍生出来的。 - 分片函数（Partitioner）：定义了RDD的分区策略，决定了数据如何在集群中分布。 - 优先位置列表：存储了每个分区的最佳执行位置，有利于数据本地化，提高效率。 2. RDD的特点： - 只读性：RDD一旦创建，就不能直接修改。所有的更改都是通过创建新RDD实现的，新RDD保存了变化的历史记录。 - 血缘关系：RDD之间的转换形成了一种血缘关系，根据这些关系，Spark可以回溯并重新计算丢失的数据。 - 持久化：当血缘关系链过长时，通过持久化RDD可以避免重复计算，提高性能。 3. RDD的分区： - 分区数据既可以来源于文件系统，也可以由其他RDD转换而来。每个分区都有一个compute函数，负责在需要时生成数据。 4. 只读性质： - RDD的只读特性确保了数据的一致性和安全性，同时也方便了容错处理。通过转换操作，如map、filter等，可以创建新的RDD，而不是直接修改旧的。 5. 操作算子： - transformations：如map、filter、flatMap等，它们创建新的RDD而不立即执行计算，仅记录转换过程。 - actions：如count、collect、save等，触发实际计算或返回结果，或把结果写入外部存储。 6. 依赖关系： - 窄依赖：下游RDD的每个分区只依赖上游RDD的一个或少数分区，可以并行化计算，优化执行效率。 - 宽依赖：所有下游分区都依赖所有上游分区，通常会导致全 shuffle，是性能瓶颈。了解这些基本概念后，SparkCore的学习还包括理解DAG（有向无环图）调度、任务调度、内存管理、错误恢复机制等内容，这些构成了Spark高效处理大规模数据的核心。通过熟练掌握SparkCore，开发者能够有效地设计和实施大数据处理应用，实现快速、弹性且容错的数据分析任务。

尚硅谷大数据技术之 SparkCore

—————————————————————————————

scala> val sourceFlat = sc.parallelize(1 to 5)

sourceFlat: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at

<console>:24

（2）打印

scala> sourceFlat.collect()

res11: Array[Int] = Array(1, 2, 3, 4, 5)

（3）根据原 RDD 创建新 RDD（1->1,2->1,2……5->1,2,3,4,5）

scala> val flatMap = sourceFlat.flatMap(1 to _)

flatMap: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[13] at flatMap at <console>:26

（4）打印新 RDD

scala> flatMap.collect()

res12: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 5)

2.3.1.5 map()和 mapPartition()的区别

1. map()：每次处理一条数据。

2. mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原 RDD 中分区的

数据才能释放，可能导致 OOM。

3. 开发指导：当内存空间较大的时候建议使用 mapPartition()，以提高处理效率。

2.3.1.6 glom 案例

1. 作用：将每一个分区形成一个数组，形成新的 RDD 类型时 RDD[Array[T]]

2. 需求：创建一个 4 个分区的 RDD，并将每个分区的数据放到一个数组

（1）创建

scala> val rdd = sc.parallelize(1 to 16,4)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24

（2）将每个分区的数据放到一个数组并收集到 Driver 端打印

scala> rdd.glom().collect()

res25: Array[Array[Int]] = Array(Array(1, 2, 3, 4), Array(5, 6, 7, 8), Array(9, 10, 11, 12),

Array(13, 14, 15, 16))

2.3.1.7 groupBy(func)案例

1. 作用：分组，按照传入函数的返回值进行分组。将相同的 key 对应的值放入一个迭代器。

2. 需求：创建一个 RDD，按照元素模以 2 的值进行分组。

（1）创建

scala> val rdd = sc.parallelize(1 to 4)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24

（2）按照元素模以 2 的值进行分组

scala> val group = rdd.groupBy(_%2)

group: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at

<console>:26

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 SparkCore

—————————————————————————————

（3）打印结果

scala> group.collect

res0: Array[(Int, Iterable[Int])] = Array((0,CompactBuffer(2, 4)), (1,CompactBuffer(1, 3)))

2.3.1.8 filter(func) 案例

1. 作用：过滤。返回一个新的 RDD，该 RDD 由经过 func 函数计算后返回值为 true 的输入

元素组成。

2. 需求：创建一个 RDD（由字符串组成），过滤出一个新 RDD（包含”xiao”子串）

（1）创建

scala> var sourceFilter = sc.parallelize(Array("xiaoming","xiaojiang","xiaohe","dazhi"))

sourceFilter: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10] at parallelize at

<console>:24

（2）打印

scala> sourceFilter.collect()

res9: Array[String] = Array(xiaoming, xiaojiang, xiaohe, dazhi)

（3）过滤出含” xiao”子串的形成一个新的 RDD

scala> val filter = sourceFilter.filter(_.contains("xiao"))

filter: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at filter at <console>:26

（4）打印新 RDD

scala> filter.collect()

res10: Array[String] = Array(xiaoming, xiaojiang, xiaohe)

2.3.1.9 sample(withReplacement, fraction, seed) 案例

1. 作用：以指定的随机种子随机抽样出数量为 fraction 的数据，withReplacement 表示是抽

出的数据是否放回，true 为有放回的抽样，false 为无放回的抽样，seed 用于指定随机数生

成器种子。

2. 需求：创建一个 RDD（1-10），从中选择放回和不放回抽样

（1）创建 RDD

scala> val rdd = sc.parallelize(1 to 10)

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at parallelize at <console>:24

（2）打印

scala> rdd.collect()

res15: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

（3）放回抽样

scala> var sample1 = rdd.sample(true,0.4,2)

sample1: org.apache.spark.rdd.RDD[Int] = PartitionwiseSampledRDD[21] at sample at

<console>:26

（4）打印放回抽样结果

scala> sample1.collect()

res16: Array[Int] = Array(1, 2, 2, 7, 7, 8, 9)

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

剩余48页未读，继续阅读

chenrensha8595

粉丝: 0
资源: 4

SparkCore入门：理解RDD的概念与特性

"解析文件1_NOTE20230512190239.docx中的内容

"华师大网络教育公共英语三平时作业答案.docx汇总及解析

NET智能docx模板引擎TemplateEngine.Docx使用教程

SparkCore.docx

Spark介绍.docx

RDD&SparkCore笔记.docx

03_SparkSql.docx

基于Spark的大数据挖掘技术分析_1.docx

2 Hadoop安装_20211127220518.docx

SparkCore&SparkSQL练习.docx

最新资源