SparkStreaming数据清理机制深入解析

50 浏览量更新于2024-08-28 收藏 107KB PDF 举报

"SparkStreaming源码解读之数据清理内幕彻底解密" SparkStreaming是Apache Spark的一个模块，用于处理实时流数据。在SparkStreaming中，数据被分成一系列小的时间窗口（Batch Durations），每个窗口生成一个新的RDD（弹性分布式数据集）。RDD是Spark的核心抽象，它们是不可变、分区的数据集合，可以并行计算。随着SparkStreaming运行，RDD的数量会持续增加，占用大量内存，因此数据清理成为关键。一、背景 SparkStreaming的数据清理机制旨在管理内存中的RDD，防止内存溢出。由于每个Batch Duration都会创建新的RDD，这些RDD包含元数据和实际数据，如果不进行清理，内存将不断增长。SparkStreaming通过一种类似垃圾回收（GC）的机制来管理这些RDD，确保只保留必要的数据，并释放不再使用的资源。二、如何研究SparkStreaming数据清理要深入理解SparkStreaming的数据清理，首先要从DStream着手。DStream是SparkStreaming的高级接口，它是由一系列连续的RDD组成的。DStream的每个操作都会生成新的RDD，而DStream之间的依赖关系定义了RDD的生命周期。在Kafka作为数据源的场景下，Direct Approach被用来访问Kafka，DStream会在内存中维护一个HashMap，根据时间窗口存储和删除RDD。三、源码解析在源码中，`generatedRDDs` 是一个存储RDD的关键数据结构，它按照Batch Duration来管理RDD。这个HashMap记录了每个时间窗口对应的RDD，当不再需要某个时间窗口的RDD时，它会被自动清理。 ```scala @transient private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]]() ``` 在这个HashMap中，Time对象代表批处理时间，RDD[T]是特定时间窗口生成的RDD。SparkStreaming会根据窗口策略和内存限制来决定何时从generatedRDDs中移除旧的RDD，以保持内存的高效利用。 SparkStreaming的数据清理过程涉及多个组件和算法，包括DStream的依赖管理、时间窗口策略、RDD的持久化和反序列化等。它借鉴了JVM的垃圾回收机制，但又有所不同，因为Spark需要考虑流式计算的特性和容错需求。在实际开发中，理解这一机制有助于优化SparkStreaming应用的性能和内存使用，避免因内存溢出导致的系统不稳定。通过调整批处理间隔、设置合适的持久化级别以及合理控制RDD的依赖关系，开发者可以更好地控制数据清理过程，确保系统在处理高数据速率和长时间运行时的稳定性和效率。

SparkStreaming源码解读之数据清理内幕彻底解密源码解读之数据清理内幕彻底解密

本篇博客的主要目的是：

1. 理清楚Spark Streaming中数据清理的流程

组织思路如下：

a) 背景

b) 如何研究Spark Streaming数据清理？

c) 源码解析

一：背景

Spark Streaming数据清理的工作无论是在实际开发中，还是自己动手实践中都是会面临的，Spark Streaming中Batch

Durations中会不断的产生RDD，这样会不断的有内存对象生成，其中包含元数据和数据本身。由此Spark Streaming本身会有

一套产生元数据以及数据的清理机制。

二：如何研究Spark Streaming数据清理？

操作DStream的时候会产生元数据，所以要解决RDD的数据清理工作就一定要从DStream入手。因为DStream是RDD的模

板，DStream之间有依赖关系。

DStream的操作产生了RDD,接收数据也靠DStream，数据的输入，数据的计算，输出整个生命周期都是由DStream构建的。

由此，DStream负责RDD的整个生命周期。因此研究的入口的是DStream。

基于Kafka数据来源，通过Direct的方式访问Kafka,DStream随着时间的进行，会不断的在自己的内存数据结构中维护一个

HashMap,HashMap维护的就是时间窗口，以及时间窗口下的RDD.按照Batch Duration来存储RDD以及删除RDD.

Spark Streaming本身是一直在运行的，在自己计算的时候会不断的产生RDD，例如每秒Batch Duration都会产生RDD,除此之

外可能还有累加器，广播变量。由于不断的产生这些对象，因此Spark Streaming有自己的一套对象，元数据以及数据的清理

机制。

Spark Streaming对RDD的管理就相当于JVM的GC.

三：源码解析

generatedRDDs:安照Batch Duration的方式来存储RDD以及删除RDD。

// RDDs generated, marked as private[streaming] so that testsuites can access it

@transient

private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] ()

我们在实际开发中，可能手动缓存，即使不缓存的话，它在内存generatorRDD中也有对象，如何释放他们？不仅仅是RDD本

身，也包括数据源(数据来源)和元数据(metada),因此释放RDD的时候这三方面都需要考虑。

释放跟时钟Click有关系，因为数据是周期性产生，所以肯定是周期性释放。

因此下一步就需要找JobGenerator

RecurringTimer: 消息循环器将消息不断的发送给EventLoop

private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds,

longTime => eventLoop.post(GenerateJobs(new Time(longTime))), "JobGenerator")

2. eventLoop：onReceive接收到消息。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38612909

粉丝: 4

SparkStreaming数据清理机制深入解析

Spark-2.3.1源码解读

Scala代码积累之spark streaming kafka 数据存入到hive源码实例

spark Streaming和structed streaming分析

spark streaming 源码

spark-sql执行源码解读

spark streaming 读取hive

spark1.6源码安装包

postgresql 源码解读 csdn

PostgreSQL 源码解读（1）- 插入数据#1

如何学习spark源码？

最新资源