揭秘Spark分布式缓存底层实现：弱引用与时间戳映射

128 浏览量更新于2024-08-30 收藏 170KB PDF 举报

在Spark源码系列的第五部分中，我们主要探讨了Spark的分布式缓存机制。RDD（Resilient Distributed Dataset，弹性分布式数据集）中的`persist`方法是核心关注点，它允许将计算结果持久化以提高性能。当调用`RDD.persist(newLevel: StorageLevel)`时，首先会检查存储级别是否可以更改，如果已分配了存储级别，则不允许改变。 `StorageLevel`是一个关键概念，它定义了数据在集群中的存储方式、复制策略和内存管理。在`persist`方法中，如果存储级别不为`NONE`，则会通过`SparkContext.persistRDD(this)`将RDD与Spark上下文关联起来。这样，即使原始RDD被回收，由于注册在cleaner中的自动垃圾收集机制，仍然能确保其持久化数据的可用性。底层实现上，`RDD`的持久化使用了一个私有成员变量`persistentRdds`，该变量实际上是一个`TimeStampedWeakValueHashMap[Int, RDD[_]]`类型的HashMap。这个HashMap用于存储RDD及其对应的键值对，其中的值被隐式转换为`WeakReference`。`WeakReference`是一种引用类型，它使得数据可以在垃圾收集过程中被安全地释放，只有当没有其他强引用指向这个对象时，才会被清除。这样做的目的是为了在内存管理上达到一定的平衡，既保留了数据的持久性，又避免了过度占用内存。真正的缓存动作发生在`Task`的执行阶段，即`runTask`方法中。当`iterator`方法被调用时，如果数据已经持久化，`SparkEnv.get.cacheManager.getOrCompute`会根据存储级别决定是否从缓存中获取数据，或者重新计算。这个过程只有在实际任务执行时才会触发，从而实现了数据的延迟加载和复用，显著提升了Spark的性能。总结来说，Spark的分布式缓存机制是一个巧妙的设计，它通过`StorageLevel`管理数据存储策略，利用弱引用实现内存效率，同时在任务执行时动态地决定是否从缓存获取数据。这个机制对于减少数据传输开销、提高数据访问速度以及优化计算性能至关重要。

Spark源码系列（五）分布式缓存源码系列（五）分布式缓存

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。

def persist(newLevel: StorageLevel): this.type = {

// StorageLevel不能随意更改

if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {

throw new UnsupportedOperationException("Cannot change storage level of an RDD after it was already assigned a level")

}

sc.persistRDD(this)

// Register the RDD with the ContextCleaner for automatic GC-based cleanup

// 注册清理方法

sc.cleaner.foreach(_.registerRDDForCleanup(this))

storageLevel = newLevel

this

}

它调用SparkContext去缓存这个RDD，追杀下去。

private[spark] def persistRDD(rdd: RDD[_]) {

persistentRdds(rdd.id) = rdd

}

它居然是用一个HashMap来存的，具体看这个map的类型是TimeStampedWeakValueHashMap[Int, RDD[_]]类型。把存进去

的值都隐式转换成WeakReference，然后加到一个内部的一个ConcurrentHashMap里面。这里貌似也没干啥，这是有个鸟蛋

用。。大神莫喷，知道干啥用的人希望告诉我一下。

CacheManager

现在并没有保存，等到真正运行Task运行的时候才会去缓存起来。入口在Task的runTask方法里面，具体的我们可以看

ResultTask，它调用了RDD的iterator方法。

final def iterator(split: Partition, context: TaskContext): Iterator[T] = {

if (storageLevel != StorageLevel.NONE) {

SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)

} else {

computeOrReadCheckpoint(split, context)

}

一旦设置了StorageLevel，就要从SparkEnv的cacheManager取数据。

def getOrCompute[T](rdd: RDD[T], split: Partition, context: TaskContext, storageLevel: StorageLevel): Iterator[T] = {

val key = RDDBlockId(rdd.id, split.index)

blockManager.get(key) match {

case Some(values) =>

// 已经有了，直接返回就可以了

new InterruptibleIterator(context, values.asInstanceOf[Iterator[T]])

case None =>

// loading包含这个key表示已经有人在加载了，等到loading被释放了，就可以去blockManager里

面取到了

loading.synchronized {

if (loading.contains(key)) {

while (loading.contains(key)) {

try {

loading.wait()

} catch {

case e: Exception =>

logWarning(s"Got an exception while waiting for another thread to load $key", e)

}

// 别人成功拿到了，我们直接取结果就是了，如果别人取失败了，我们再来取一次

blockManager.get(key) match {

case Some(values) =>

return new InterruptibleIterator(context, values.asInstanceOf[Iterator[T]])

case None =>

loading.add(key)

}

} else {

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38642735

粉丝: 3
资源: 951

揭秘Spark分布式缓存底层实现：弱引用与时间戳映射

Spark源码剖析

Spark源码倒腾

大数据Spark源码

spark源码阅读笔记

Apache Spark源码剖析

spark 源码解读迷你书

Apache_Spark源码走读

spark源码分析.pdf

spark-sourcecodes-analysis:Spark源码剖析

spark源码以及官方的示例（方便阅读源码学习）

最新资源