SparkCore累加器与广播变量详解：高效聚合与共享信息

需积分: 0 82 浏览量更新于2024-08-05 收藏 395KB PDF 举报

在Spark编程中，累加器（Accumulator）和广播变量（Broadcast Variable）是两种重要的共享内存机制，用于在分布式环境中进行数据聚合和同步。它们的主要区别在于数据的复制方式和更新规则。 **累加器**： 1. **数据隔离性**：工作节点上的任务（Worker Tasks）不能直接访问累加器的值，这是因为它们运行在独立的进程中，以提高并行性。这保证了数据的安全性，防止任务之间干扰。 2. **更新策略**：Spark确保对累加器的更新只在一个地方发生，即驱动器（Driver）端。当你在map()或filter()等操作中使用累加器时，它会将每个任务对累加器的改变仅应用一次。例如，在上面的例子中，当遍历文本文件的每一行，如果遇到空行，累加器的计数器会增加1，但这个增量不会反映到其他任务的副本上，直到最终的reduce或collect操作完成。 3. **使用场景**：累加器适用于需要在整个RDD处理过程中累积全局状态的情况，如统计某个指标的总和、计数等。 **系统累加器示例**：在给定的示例中，通过`sc.accumulator()`创建了一个累加器来统计空行数。首先读取文本文件，然后初始化累加器为0。接着，使用flatMap操作遍历文件内容，如果遇到空行，累加器的计数器加1。最后，通过`count()`获取RDD中的非空行数，`value`属性获取累加器的实际值，即空行总数。 **广播变量**：与累加器不同，**广播变量**（Broadcast Variables）是将驱动器端的值复制到所有工作节点，但不会像累加器那样更新。这意味着每个工作节点都有一个相同的副本，这对于频繁且无变化的数据共享非常有用，如配置信息、大的常量数据等。总结：在Spark中，理解累加器和广播变量的关键在于它们如何处理共享数据和数据更新的方式。累加器用于需要线性累加的场景，而广播变量适用于无需更新的静态数据。掌握这两种工具可以帮助开发者更高效地设计分布式应用程序，并充分利用Spark的并行处理能力。

再次强调，不要去记忆你不理解的内容

RDD累加器和广播变量

累加器

累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 ﬁlter()

传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的

一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量(问题所在)。如果我们想实现所

有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。

系统累加器

需求：针对一个输入的日志文件，我们需要计算文件中所有空行的数量，我们可以编写以下程序

1）读取文件

2）注册累加器

3）使用累加器，遇到空行则自增1

4）打印RDD中的数量

5）打印累加器的值,即文件中的空行数

scala> val notice = sc.textFile("./NOTICE")

notice: org.apache.spark.rdd.RDD[String] = ./NOTICE MapPartitionsRDD[40] at

textFile at <console>:32

scala> val blanklines = sc.accumulator(0)

warning: there were two deprecation warnings; re-run with -deprecation for

details

blanklines: org.apache.spark.Accumulator[Int] = 0

scala> val tmp = notice.flatMap(line => {

 |  if (line == "") {

 |  blanklines += 1

 |  }

 |  line.split(" ")

 | })

tmp: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[41] at flatMap at

<console>:36

scala> tmp.count()

res31: Long = 3213

scala> blanklines.value

res32: Int = 171

下载后可阅读完整内容，剩余3页未读，立即下载

王佛伟

粉丝: 21
资源: 319

SparkCore累加器与广播变量详解：高效聚合与共享信息

Spark core 源码解读与扩展

Spark-Core学习知识笔记整理

spark-core-2.zip

spark 2 笔记

大数据-spark

spark全案例

Spark Streaming解析

Spark-Fundamentals:Spark基础知识I-Spark简介

Spark介绍.docx

scala开发spark代码

最新资源