Spark学习笔记：RDD和共享变量介绍

需积分: 12 92 浏览量更新于2024-01-13 收藏 864KB DOCX 举报

Spark是一个开源的分布式计算系统，用于处理大规模数据处理任务。它提供了高效的数据处理方式，使得用户能够轻松地在集群上执行并行操作。本文将围绕Spark的几个关键点展开介绍，包括Spark的简介、RDD（弹性分布式数据集）和共享变量的使用。首先，让我们来了解一下Spark的简介。每个Spark应用程序都包含一个驱动程序，该程序运行用户的主要功能并在集群上执行各种并行操作。Spark提供的主要抽象是RDD，它是跨群集节点分区的元素集合，可以并行操作。用户可以通过从Hadoop文件系统或驱动程序中现有的集合来创建RDD，并对其进行转换。另外，用户还可以要求Spark将RDD保存在内存中，以便在并行操作中有效地重用它。值得一提的是，RDD还具有自动从节点故障中恢复的功能。接下来，让我们详细了解一下RDD。RDD是Spark中的核心概念之一，它是一个不可变的、可分区的集合，可以并行操作。用户可以从不同的数据源（如Hadoop文件系统）或已有的集合来创建RDD，并对其进行各种转换操作，例如映射、过滤和聚合等。RDD是按需计算的，只有在执行操作时才会计算结果，并且计算结果可以被缓存到内存中，以便在后续操作中复用。此外，RDD还支持一些高级功能，如分区、持久化和序列化等。此外，Spark还支持共享变量的使用。共享变量用于在任务之间或任务与驱动程序之间共享数据。Spark提供了两种类型的共享变量：广播变量和累加器。广播变量可以让用户在所有节点上缓存内存中的值，以便在并行操作中高效地使用。而累加器则是一种只能“添加”（如计数器和总和）的变量，可以在任务之间进行累加操作。总结来说，Spark是一个开源的分布式计算系统，提供了高效的数据处理方式。它以RDD作为核心抽象，使得用户可以方便地进行并行操作，并在节点故障时自动恢复数据。同时，Spark还支持广播变量和累加器等共享变量的使用，以便在任务之间和任务与驱动程序之间共享数据。这些功能使得Spark成为处理大规模数据处理任务的理想选择。

当使用自定义对象作为键值对操作中的键时，必须确保自定义 +,（）方法伴随着

匹配的 55（）方法。

C） &$% 操作

下表列出了  支持的一些常见转换。有关详细信息，请参阅 8, 文档

（，（V+"!#!4W"

#），

，）和  函数 !（，（V+"!#

!4W"#））。

=Bfunc?：

(!Bfunc

!I"?

与  类似，但每个输入项可以映射到  个或更多的输出项（所以 $ 应该返回一个

I 而不是单个项）。

$44Bfunc?：

与  类似，但是在  的每个分区（块）上分别运行，所以 $ 在类型 & 的  上

运行时必须是 1&2-2,162类型

$44>-5. Bfunc?：

类似于 %%，但也提供 $ 代表分区索引的整数值，所以 $ 在 & 型  上

运行时必须是B,(,1&2?-2,162类型。

BwithReplacement(fracon(seed?：

$%fracon$!(''(""!

"!使用给定的随机数发生器种子对数据的一小部分进行采样，有或没

有替换。

,-BotherDataset?

返回一个新的数据集，其中包含源数据集中的元素和参数的联合。

-4BotherDataset?

返回一个新的 ，其中包含源数据集中的元素和参数的交集。

-4B;numTasks=??

0,(9?9B;numTasks=?

当调用（J，K）对的数据集时，返回 BJ(,1K2?对的数据集。

注意：如果您正在分组以便对每个  执行聚合（例如总和或平均），则使用

!>J 或 """>J 将会产生更好的性能。

注意：默认情况下，输出中的并行级别取决于父  的分区数。您可以传递可选的

,; 参数来设置不同数量的任务。

,(9?9Bfunc(;numTasks=?

当调用在（J，K）对的数据集时，返回（J，K）对的数据集，其中使用给定的 !

函数 $ 聚合每个键的值，该函数必须是类型（K，K）-2K与 ">J 一样，! 任

务的数量可通过可选的第二个参数进行配置。

000(9?9BzeroValue?BseqOp(combOp(;numTasks=?

当调用在（J，K）对的数据集时，返回（J，6）对的数据集，其中使用给定的组合函

数和中性“AG值聚合每个键的值。允许与输入值类型不同的聚合值类型，同时避免不必要

的分配。和 ">J 一样，! 任务的数量可以通过可选的第二个参数来配置。

(9?9B;ascending=(;numTasks=?

当调用在 J 实现了 E!! 的（J，K）对数据集时，返回按键升序或降序排序的

（J，K）对的数据集，如 ascending 参数中所指定。

@-BotherDataset(;numTasks=?

当调用在类型（J，K）和（J，L）的数据集时，返回（J，（K，L））对的数据集以

及每个键的所有元素对。通过 XE，"E 和 $E 支持外连接。

0,BotherDataset(;numTasks=?

在类型（J，K）和（J，L）的数据集上调用时，返回BJ(B,1K2(,1L2??元

组的数据集。这个操作也被称为 "L。

-BotherDataset?：笛卡尔积

当调用类型 & 和 6 的数据集时，返回（&，6）对的数据集（所有元素对）。

-Bcommand([envVars]?

BnumParons?

减少  中的分区数量为 %%。用于过滤大型数据集后更高效地运行操作。

44BnumParons?

随机重新调整  中的数据以创建更多或更少的分区并在它们之间进行平衡。这总是

通过网络混洗所有数据。

44>-5-$44Bparoner?

根据给定的分区程序对  进行重新分区，并在每个生成的分区内按键对记录进行排

序。这比调用重新分区，然后在每个分区内进行排序更有效率，因为它可以将排序压入洗

牌机器。

剩余38页未读，继续阅读

ppjinjin

粉丝: 7
资源: 13

Spark学习笔记：RDD和共享变量介绍

尚硅谷大数据技术之Kafka（笔记+代码+资料）.rar

Spark：内核机制解析及性能调优

spark尚硅谷视频教程

Spark学习笔记 Spark学习笔记 Spark学习笔记

spark:spark学习笔记

spark学习笔记

Spark学习笔记

Spark SQL学习笔记

Spark-:Spark学习笔记

Spark学习笔记三

最新资源