揭秘Spark分布式缓存底层实现：弱引用与时间戳映射

125 浏览量更新于2024-08-27 收藏 170KB PDF 举报

在Spark源码系列的第五部分，我们深入探讨了Spark的分布式缓存机制。首先，`RDD`类中的`persist`方法用于将数据持久化，确保其在任务执行期间不会因为任务调度而重复计算。该方法接受一个`StorageLevel`参数，用来定义数据存储的持久性和内存管理策略。当调用`persist`时，如果之前已经设置了存储级别且尝试改变，会抛出异常，因为一旦分配了存储级别就不能随意修改。接下来，`RDD`对象会被注册到`SparkContext`的`cleaner`中，以便于基于垃圾回收的自动清理。存储级别被更新为传入的新级别后，`RDD`实例返回自身。在底层实现上，`RDD`的持久化涉及到`private[spark] def persistRDD(rdd: RDD[_])`方法，这里使用了一个`TimeStampedWeakValueHashMap[Int, RDD[_]]`类型的HashMap来存储数据。弱引用被用于减少内存占用，因为弱引用的对象只有在没有任何其他强引用指向它们时才会被垃圾回收。这个HashMap将`RDD`实例隐式转换为弱引用并添加到`ConcurrentHashMap`中，虽然看起来没有立即保存，但实际上这是一个预加载过程，等待实际任务执行时才开始进行缓存。真正的缓存操作发生在`Task`的`runTask`方法中，具体在`ResultTask`类的`iterator`方法中。当存储级别不为`NONE`时，`SparkEnv.get.cacheManager.getOrCompute`方法会负责获取或者计算数据。这个方法实际上是实现了缓存数据的逻辑，当首次迭代器请求数据时，如果数据尚未存在，就会触发计算并将结果存储到缓存中。后续对同一分区的迭代请求可以直接从缓存中读取，从而提高性能。总结来说，Spark的分布式缓存机制通过`StorageLevel`管理数据的持久化，利用弱引用和`ConcurrentHashMap`来优化内存占用，实际的缓存操作在任务执行时由`Task`中的`runTask`和`iterator`方法触发。这种设计允许Spark在保持数据可用性的同时，控制内存使用，提升了大数据处理的效率。

Spark源码系列（五）分布式缓存源码系列（五）分布式缓存

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。

def persist(newLevel: StorageLevel): this.type = {

// StorageLevel不能随意更改

if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {

throw new UnsupportedOperationException("Cannot change storage level of an RDD after it was already assigned a level")

}

sc.persistRDD(this)

// Register the RDD with the ContextCleaner for automatic GC-based cleanup

// 注册清理方法

sc.cleaner.foreach(_.registerRDDForCleanup(this))

storageLevel = newLevel

this

}

它调用SparkContext去缓存这个RDD，追杀下去。

private[spark] def persistRDD(rdd: RDD[_]) {

persistentRdds(rdd.id) = rdd

}

它居然是用一个HashMap来存的，具体看这个map的类型是TimeStampedWeakValueHashMap[Int, RDD[_]]类型。把存进去

的值都隐式转换成WeakReference，然后加到一个内部的一个ConcurrentHashMap里面。这里貌似也没干啥，这是有个鸟蛋

用。。大神莫喷，知道干啥用的人希望告诉我一下。

CacheManager

现在并没有保存，等到真正运行Task运行的时候才会去缓存起来。入口在Task的runTask方法里面，具体的我们可以看

ResultTask，它调用了RDD的iterator方法。

final def iterator(split: Partition, context: TaskContext): Iterator[T] = {

if (storageLevel != StorageLevel.NONE) {

SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)

} else {

computeOrReadCheckpoint(split, context)

}

一旦设置了StorageLevel，就要从SparkEnv的cacheManager取数据。

def getOrCompute[T](rdd: RDD[T], split: Partition, context: TaskContext, storageLevel: StorageLevel): Iterator[T] = {

val key = RDDBlockId(rdd.id, split.index)

blockManager.get(key) match {

case Some(values) =>

// 已经有了，直接返回就可以了

new InterruptibleIterator(context, values.asInstanceOf[Iterator[T]])

case None =>

// loading包含这个key表示已经有人在加载了，等到loading被释放了，就可以去blockManager里

面取到了

loading.synchronized {

if (loading.contains(key)) {

while (loading.contains(key)) {

try {

loading.wait()

} catch {

case e: Exception =>

logWarning(s"Got an exception while waiting for another thread to load $key", e)

}

// 别人成功拿到了，我们直接取结果就是了，如果别人取失败了，我们再来取一次

blockManager.get(key) match {

case Some(values) =>

return new InterruptibleIterator(context, values.asInstanceOf[Iterator[T]])

case None =>

loading.add(key)

}

} else {

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38735790

粉丝: 4
资源: 899

揭秘Spark分布式缓存底层实现：弱引用与时间戳映射

Spark源码剖析

apache spark源码阅读环境搭建

spark是如何实现分布式计算的

如何学习spark源码？

spark源码系列(一) rdd详解以及部分算子源码解析

07-尚硅谷大数据技术之spark源码

idea导入spark源码，并修改、编译、打包

spark（第一节—1）spark简介、spark运行模式介绍、spark源码编译

idea spark源码

spark源码系列(一)：spark作业提交流程

最新资源