Spark广播变量与累加器详解及代码示例

7 浏览量更新于2024-08-30 收藏 85KB PDF 举报

Spark是一个强大的分布式计算框架，它在处理大规模数据时提供了高效的计算和共享变量机制。本文将详细介绍Spark中的两种重要共享变量：广播变量和累加器，以及它们在实际应用中的使用方法。 1. 广播变量广播变量是Spark提供的一种特殊类型的数据共享机制，主要用于在集群中存储只读数据，避免不必要的网络传输。当函数在远程节点上执行时，Spark会将广播变量的副本分发给每个任务。这在处理大型数据集时非常有用，因为它可以减少节点间的数据交换，提高性能。创建广播变量的步骤如下： ```scala val sc = SparkContext.getOrCreate() // 创建SparkContext val broadcastVar = sc.broadcast(Array(1, 2, 3)) // 将数组作为只读数据广播 val broadcastValue = broadcastVar.value // 访问广播变量的副本 ``` 使用广播变量时，需要注意的是，一旦广播后，对象v不应在后续操作中被修改，以确保所有节点的副本保持一致。 2. 累加器累加器则是在Spark中执行聚合操作的另一种共享变量类型。它们支持在分布式环境中进行累加，常用于计数器和求和等操作。Spark的累加器支持数字类型，并且可以设置名称以便在Spark UI中跟踪每个阶段的进程。Python API中可能暂不支持直接创建带有名称的累加器，但在Scala中可以这样操作： ```scala val accumulator = sc.accumulator(0) // 初始化一个整数累加器 // 在任务中累加 val result = accumulator += 5 ``` 使用累加器时，每次迭代或map操作都会对累加器进行更新，最后的结果可以在Spark应用程序的生命周期内保持同步。总结来说，广播变量和累加器是Spark中优化性能的关键工具。广播变量适用于静态数据的分发，减少数据复制；而累加器则适合于执行需要累加的分布式计算任务。通过合理利用这两种共享变量，可以显著提升Spark应用程序的效率和性能。

Spark的广播变量和累加器使用方法代码示例的广播变量和累加器使用方法代码示例

一、广播变量和累加器一、广播变量和累加器

通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的

副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读

写的共享变量是低效的。尽管如此，Spark提供了两种有限类型的共享变量，广播变量和累加器。

1.1 广播变量：广播变量：

广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点

一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。

Spark的动作通过一系列的步骤执行，这些步骤由分布式的shuffle操作分开。Spark自动地广播每个步骤每个任务需要的通用

数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同

的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

通过在一个变量v上调用SparkContext.broadcast(v)可以创建广播变量。广播变量是围绕着v的封装，可以通过value方法访问

这个变量。举例如下：

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))

broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)

scala> broadcastVar.value

res0: Array[Int] = Array(1, 2, 3)

在创建了广播变量之后，在集群上的所有函数中应该使用它来替代使用v.这样v就不会不止一次地在节点之间传输了。另外，

为了确保所有的节点获得相同的变量，对象v在被广播之后就不应该再修改。

1.2 累加器：累加器：

累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。Spark原生地只支

持数字类型的累加器，编程者可以添加新类型的支持。如果创建累加器时指定了名字，可以在Spark的UI界面看到。这有利于

理解每个执行阶段的进程。（对于python还不支持）

累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法

在累加器上进行累加操作。但是，它们不能读取它的值。只有驱动程序能够读取它的值，通过累加器的value方法。

下面的代码展示了如何把一个数组中的所有元素累加到累加器上:

scala> val accum = sc.accumulator(0, "My Accumulator")

accum: spark.Accumulator[Int] = 0

scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)

...

10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s

scala> accum.value

res2: Int = 10

尽管上面的例子使用了内置支持的累加器类型Int,但是开发人员也可以通过继承AccumulatorParam类来创建它们自己的累加器

类型。AccumulatorParam接口有两个方法：

zero方法为你的类型提供一个0值。

addInPlace方法将两个值相加。

假设我们有一个代表数学vector的Vector类。我们可以向下面这样实现：

object VectorAccumulatorParam extends AccumulatorParam[Vector] {

def zero(initialValue: Vector): Vector = {

Vector.zeros(initialValue.size)

}

def addInPlace(v1: Vector, v2: Vector): Vector = {

v1 += v2

}

// Then, create an Accumulator of this type:

val vecAccum = sc.accumulator(new Vector(...))(VectorAccumulatorParam)

在Scala里，Spark提供更通用的累加接口来累加数据，尽管结果的类型和累加的数据类型可能不一致（例如，通过收集在一

起的元素来创建一个列表）。同时,SparkContext..accumulableCollection方法来累加通用的Scala的集合类型。

累加器仅仅在动作操作内部被更新，Spark保证每个任务在累加器上的更新操作只被执行一次，也就是说，重启任务也不会更

新。在转换操作中，用户必须意识到每个任务对累加器的更新操作可能被不只一次执行，如果重新执行了任务和作业的阶段。

累加器并没有改变Spark的惰性求值模型。如果它们被RDD上的操作更新，它们的值只有当RDD因为动作操作被计算时才被更

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38622467

粉丝: 4
资源: 946

Spark广播变量与累加器详解及代码示例

spark 累加器，广播变量.docx

累加器与广播变量pdf讲义

Spark广播变量与累加器的使用与优化

groovy-spark-sample:使用 Groovy 的 Spark 示例应用程序

scala开发spark代码

spark资料，spark相关提高资料

spark全案例

spark 2 笔记

Spark学习笔记三

Spark2中的累加器使用与自定义实现解析

最新资源