SparkCore：理解RDD与迭代计算在大数据中的革新

需积分: 10 146 浏览量更新于2024-07-16 收藏 4.39MB DOCX 举报

SparkCore是尚硅谷大数据技术系列教程的一部分，专注于Spark框架的核心概念——弹性分布式数据集（RDD）。该文档的V1.1版本详细介绍了RDD在Spark中的重要性和设计理念。 1. RDD产生的背景： Spark的设计初衷是为了改进Hadoop MapReduce的工作模式，后者主要针对一次性数据处理，对于迭代式算法和交互式数据挖掘的支持不足。MapReduce模式下，数据的共享主要依赖于磁盘，导致在处理重复查询或迭代计算时效率低下。因此，Spark引入了RDD，它是一个基于工作集而非数据集的工作模式，旨在提供高效的数据共享和迭代计算能力。RDD通过将数据划分为多个分区，分布在集群的不同节点上，实现了并行计算，同时具备位置感知、容错和负载均衡的特性。 2. RDD的概念与特性： RDD是Spark的核心抽象，它代表一个不可变、可分区的集合，其中的元素可以并行处理。Spark操作数据的方式主要是通过创建新的RDD（如map和filter）、转化现有RDD，以及调用RDD操作来获取结果。由于数据流模型的特性，RDD支持自动容错，即在数据丢失时能够自动恢复；位置感知性调度意味着任务根据数据分布自动分配，提高计算效率；而可伸缩性使得RDD能适应不断变化的集群规模。 3. RDD的操作类型： RDD支持两种主要操作：转化操作（如map和filter），这些操作不改变原始数据，而是生成一个新的RDD；行动操作（如count和first），这些操作会触发实际的计算，并返回结果或写入外部系统。Spark的懒计算模式意味着除非在行动操作中被使用，否则RDD不会立即计算，这为优化整个计算流程提供了可能。 4. 惰性计算与优化： Spark采用惰性计算策略，只有在实际需要结果时才会触发计算，这样可以减少不必要的计算开销。默认情况下，每次对RDD执行行动操作时，Spark都会重新计算，但可以通过设置缓存机制来保留中间结果，以便后续查询重用，从而提高查询速度。 SparkCore文档深入剖析了RDD在大数据处理中的核心地位，强调了其在解决迭代计算和数据共享问题上的优势，并介绍了如何利用RDD进行高效的数据操作和优化计算过程。这对于理解Spark的底层工作机制和实践大数据分析至关重要。

尚硅谷大数据技术之 Spark 基础解析

—————————————————————————————

2.2 RDD 创建

在 Spark 中创建 RDD 的创建方式大概可以分为三种：从集合中创建 RDD；从外部存储

创建 RDD；从其他 RDD 创建。

由一个已经存在的 Scala 集合创建，集合并行化。



而从集合中创建 RDD，Spark 主要提供了两种函数：parallelize 和 makeRDD。我们可以先

看看这两个函数的声明：

 !"

######$%$"

######&'(%)&*'*+(,--"

(.,-- !"

######$%$"

######&'(%)&*'*+(,--"

(.,-- !"$%$%$%*&!"",--"

　　我们可以从上面看出 makeRDD 有两种实现，而且第一个 makeRDD 函数接收的参

数和 parallelize 完全一致。其实第一种 makeRDD 函数实现是依赖了 parallelize 函数的实现，

来看看 Spark 中是怎么实现这个 makeRDD 函数的：

(.,-- !"

####$%$"

####&'(%)&*'*+(,--"/*0%12

##$&'(%

　　我们可以看出，这个 makeRDD 函数完全和 parallelize 函数一致。但是我们得看看

第二种 makeRDD 函数函数实现了，它接收的参数类型是 Seq[(T, Seq[String])]，Spark 文档

的说明是：

Distribute a local Scala collection to form an RDD, with one or more location preferences

(hostnames of Spark nodes) for each object. Create a new partition for each collection item.

原来，这个函数还为数据提供了位置信息，来看看我们怎么使用：

4!'!'5*

!'!'1!0.,--)&*"+ 1*1&,--6"

**71&14

4!'!'(.,--5*

!'!'1!0.,--)&*"+ 1*1&,--"

*(.,--*71&14

4    $    5*  5*8689  

5*868

$5*)&*5*%*&!""5*5*6

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Spark 基础解析

—————————————————————————————

#5*6

4!'!'(.,--$

!'!'1!0.,--)&*"+ 1*1&,--"

*(.,--*71&14

4!'!'51*1&!'!'**1&

%$%*&!"5*6

4!'!'51*1&!'!'**1&6

%$%*&!"5*6

4!'!'51*1&!'!'**1&6

%$%*&!"5*

我们可以看到，makeRDD 函数有两种实现，第一种实现其实完全和 parallelize 一致；

而第二种实现可以为数据提供位置信息，而除此之外的实现和 parallelize 函数也是一致的，

如下：

 !"

####$%$"

####&'(%)&*'*+(,--"/*0%12

##*:1*%*1

##&/  + 1*1&,--"*0  $  &'(%  ;)&*

%$%*&!""

  (.,--  !"$  %$  %$%*&!""  ,--"  

/*0%12

##*:1*%*1

##  &<1+    $=*0)&<(*  4  *>

*>>*1;

##&/  + 1*1&,--"*0  $(>>  $

&<1+

都是返回 ParallelCollectionRDD，而且这个 makeRDD 的实现不可以自己指定分区的数

量，而是固定为 seq 参数的 size 大小。

由外部存储系统的数据集创建，包括本地的文件系统，还有所有 Hadoop 支持的数据

集，比如 HDFS、Cassandra、HBase 等

4*!'!'*<*?80@@0116A666@,B5B%B8

*!'!'  1!0.,--%*&!"    0@@

0116A666@,B5B%B  ;+**1&,--"  *  *<*?  *

71&14

2.3 TransFormation

2.3.1 map(func)

返回一个新的 RDD，该 RDD 由每一个输入元素经过 func 函数转换后组成

41'*16

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

尚硅谷大数据技术之 Spark 基础解析

—————————————————————————————

1'  1!0.,--)&*"    + 1*1&,--"

**71&14

41'1*

)&*"A6

4(1'(>C

(  1!0.,--)&*"    ;+**1&,--A"  *

(*71&14

4(1*

)&*"66

2.3.2 mapPartitions(func)

类似于 map，但独立地在 RDD 的每一个分片上运行，因此在类型为 T 的 RDD 上运行时，

func 的函数类型必须是 Iterator[T] => Iterator[U]。假设有 N 个元素，有 M 个分区，那么

map 的函数的将被调用 N 次,而 mapPartitions 被调用 M 次,一个函数一次处理所有分区

4        5*8.188(8

81188(88(1D&88(88'88(8

  1!0.,--%*&!  %*&!"  

+ 1*1&,--"**71&14

4*

@@B&*&!*(1*E-*1&0

  **1&?'&*    )**1%*&!%*&!"  

)**1%*&!"2

/1(&5*%*&!"

/0*0:<*2

&<**&<*

&<*(*02

>8(84/1(&&<*>/1(&

>4

3

3

/1(&**1

@@B<*&!*(1&1/&**&!

**1&?'&*)**1%*&!%*&!")**1%*&!"

4'*(+**1&**1&?'&

'*  1!0.,--%*&!"    ;+**1&,--"

*(+**1&*71&14

4'*1*

%*&!".1'

2.3.3 glom

将每一个分区形成一个数组，形成新的 RDD 类型时 RDD[Array[T]]

4*1

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网

剩余60页未读，继续阅读

wzcwangxiaozhang

粉丝: 1
资源: 46

SparkCore：理解RDD与迭代计算在大数据中的革新

spark 2 笔记

spark尚硅谷视频教程

2018年尚硅谷大数据技术文档汇总

02_SparkCore.docx

Spark介绍.docx

RDD&SparkCore笔记.docx

SparkCore&SparkSQL练习.docx

Linux下搭建spark.docx

Spark笔记1.docx

spark搭建手册.docx

最新资源