Spark2.1.0官方教程：理解与应用核心概念

需积分: 9 122 浏览量更新于2024-07-18 收藏 911KB DOCX 举报

Spark 2.1.0 是Apache Spark开源大数据处理框架的一个重要版本，它提供了高效且可扩展的大规模数据处理能力。Spark的设计理念是基于内存计算，通过弹性分布式数据集（RDDs）和共享变量来实现快速迭代计算。以下是关于Spark 2.1.0的一些关键知识点： 1. **Spark概念** - **驱动程序**：Spark应用程序的核心是驱动程序，它执行用户代码并在集群上执行并行操作。 - **弹性分布式数据集（RDDs）**：Spark的主要抽象，它是分布式节点上的数据集合，支持并行操作。用户可以通过读取Hadoop文件系统或本地数据创建RDD，并能持久化在内存中以提高效率。 - **并行操作和共享变量**：Spark支持函数式编程，函数中的变量可以被复制到每个任务中，但可以通过广播变量（Broadcast Variables）或累加器（Accumulators）实现全局共享。 2. **语言支持** - **Scala Shell**：Spark的交互式Shell，提供了一种方便的方式来探索和实践Spark功能。 - **Java集成**：Spark 2.1.0要求Java 7及以上版本，对于Java 8用户，可以利用lambda表达式简化函数编写。然而，从Spark 2.0.0起，对Java 7的支持逐渐减弱，可能在后续版本中完全移除。 - **Maven依赖**：Java应用需通过以下Maven坐标引入Spark库： ``` groupId: org.apache.spark artifactId: spark-core_2.11 version: 2.1.0 ``` - **HDFS访问**：为了连接Hadoop分布式文件系统，还需要额外引入`hadoop-client`库。 3. **升级建议** - 在选择Spark版本时，注意Java版本兼容性，确保新版本的Spark与你的项目环境相匹配。 - 对于性能敏感的应用，理解RDD的生命周期管理（如何时创建、何时持久化、何时销毁）至关重要。 Spark 2.1.0是一个强大的工具，尤其适合处理大规模数据，提供了丰富的API和灵活的数据处理方式。掌握其核心概念、依赖管理以及语言集成，可以帮助开发人员更有效地利用Spark进行大数据分析和处理。

与  类似，但是在  的每个分区（块）上分别运行，所以 $ 在类型 & 的  上

运行时必须是 1&2-2,152类型

&44>-5.#?func=：

类似于 %%，但也提供 $ 代表分区索引的整数值，所以 $ 在 & 型  上

运行时必须是?,(,1&2=-2,152类型。

?withReplacement(fracon(seed=：

$%fracon$!(''(""!

"!使用给定的随机数发生器种子对数据的一小部分进行采样，有或没

有替换。

,-?otherDataset=

返回一个新的数据集，其中包含源数据集中的元素和参数的联合。

-4?otherDataset=

返回一个新的 ，其中包含源数据集中的元素和参数的交集。

-4?:numTasks<==

0,)9?9?:numTasks<=

当调用（J，K）对的数据集时，返回 ?J(,1K2=对的数据集。

注意：如果您正在分组以便对每个  执行聚合（例如总和或平均），则使用

!@J 或 """@J 将会产生更好的性能。

注意：默认情况下，输出中的并行级别取决于父  的分区数。您可以传递可选的

,; 参数来设置不同数量的任务。

,)9?9?func(:numTasks<=

当调用在（J，K）对的数据集时，返回（J，K）对的数据集，其中使用给定的 !

函数 $ 聚合每个键的值，该函数必须是类型（K，K）-2K与 "@J 一样，! 任

务的数量可通过可选的第二个参数进行配置。

000)9?9?zeroValue=?seqOp(combOp(:numTasks<=

当调用在（J，K）对的数据集时，返回（J，5）对的数据集，其中使用给定的组合函

数和中性“>G值聚合每个键的值。允许与输入值类型不同的聚合值类型，同时避免不必要

的分配。和 "@J 一样，! 任务的数量可以通过可选的第二个参数来配置。

)9?9?:ascending<(:numTasks<=

当调用在 J 实现了 E!! 的（J，K）对数据集时，返回按键升序或降序排序的

（J，K）对的数据集，如 ascending 参数中所指定。

@-?otherDataset(:numTasks<=

当调用在类型（J，K）和（J，L）的数据集时，返回（J，（K，L））对的数据集以

及每个键的所有元素对。通过 XE，"E 和 $E 支持外连接。

返回包含数据集的前  个元素的数组。

?withReplacement(num(:seed<=

使用数据集的  个元素的随机样本返回一个数组，有或没有替换，可选地预先指定

随机数生成器种子。

B?n([ordering]=

使用自然顺序或自定义比较器返回  的前  个元素。

";#(-?path=

将数据集的元素作为文本文件（或文本文件集）写入本地文件系统，/0 或任何其他

/! 支持的文件系统的给定目录中。  将在每个元素上调用 " 将其转换为文

件中的一行文本。

"+,(-?path=?!=

将数据集的元素作为 /!I0 写入本地文件系统，/0 或任何其他

/! 支持的文件系统的给定路径中。这可以在实现 /! 的 L 接口的键值对的

 上使用。在  中，它也可用于可隐式转换为 L 的类型（ 包含

,，，" 等基本类型的转换）。

"B6@(-?path=?!=

使用  序列化以简单的格式写入数据集的元素，然后使用

*3#0（）加载该序列化。

,)9?9?=

仅适用于类型（J，K）的 。用（J，,）对的  返回每个键的计数。

5?func=

在数据集的每个元素上运行函数 $。

7, 还公开了一些动作的异步版本，例如 $7，源于 $，它立

即将 07% 返回给调用者，而不是在完成动作时阻塞。这可以用于管理或等待操作

的异步执行。

） Z 操作

 中的某些操作会触发一个称为 Z 的事件。Z 是  重新分配数据的机

制，以便在不同分区之间进行分组。这通常涉及在执行者和机器之间复制数据，使得

Z 成为复杂而昂贵的操作。

）背景

在  中，数据通常不会跨分区进行分布，无法在特定操作的必要位置进行分配。

剩余45页未读，继续阅读

ppjinjin

粉丝: 7
资源: 13

Spark2.1.0官方教程：理解与应用核心概念

spark尚硅谷视频教程

SparkCore.docx

大数据spark笔记.zip

Spark学习笔记 Spark学习笔记 Spark学习笔记

spark:spark学习笔记

spark学习笔记

Spark学习笔记

Spark-:Spark学习笔记

Spark Core 笔记02

spark学习笔记一

最新资源