Spark Core：深入理解RDD持久化与优化

需积分: 35 151 浏览量更新于2024-09-08 收藏 3KB TXT 举报

"Spark Core中的RDD持久化机制是Spark性能优化的关键特性之一，它允许用户将中间结果存储在内存中，以便后续任务可以直接重用，避免重复计算，提高计算效率。RDD（弹性分布式数据集）是Spark的核心抽象，代表不可变、分区的记录集合。RDD具有容错性，可以通过血统(lineage)来恢复丢失的数据。" Spark Core深入解析RDD持久化： 1. **RDD的创建与转换**：RDD可以通过从HDFS、HBase或其他数据源读取创建，或者通过现有RDD执行转换操作（如map、filter、reduceByKey等）创建。一旦创建，RDD就被分割成多个分区，分布在集群的各个节点上。 2. **RDD的持久化级别**：Spark提供了多种持久化级别，用户可以根据需求选择。例如： - `MEMORY_ONLY`：默认级别，只将数据存储在内存中。如果空间不足，数据将无法保存，可能会导致丢失。 - `MEMORY_ONLY_2`：类似，但保留两份副本，增加容错性。 - `MEMORY_AND_DISK`：内存满时，数据写入磁盘。 - `MEMORY_AND_DISK_2`：同上，但有两份副本。 - `MEMORY_ONLY_SER`和`MEMORY_ONLY_SER_2`：序列化数据存储，节省内存空间，但读取速度较慢。 - `DISK_ONLY`和`DISK_ONLY_2`：仅在磁盘上存储数据。 - `OFF_HEAP`：使用堆外内存存储，减少GC压力。 3. **持久化操作**：使用`cache()`或`persist()`方法可以将RDD持久化。`cache()`等同于`persist(MEMORY_ONLY)`，`persist(newLevel)`则允许指定自定义的持久化级别。 4. **缓存策略**：Spark使用LRU（最近最少使用）策略管理内存中的缓存。当内存不足时，会自动清除最不常使用的数据以释放空间。 5. **容错机制**：如果某个节点上的数据丢失，Spark会根据RDD的血统（即创建该RDD的操作序列）重新计算丢失的分区。如果数据已持久化，Spark将从持久化存储中恢复，无需重新计算。 6. **持久化优化**：对于需要多次使用的RDD，使用序列化存储（如`MEMORY_ONLY_SER`）可以降低内存占用，但会增加CPU开销。此外，`TACHYON`或`ALLUXIO`等外部内存系统可以作为额外的持久化层，提供更快的访问速度。 7. **checkpointing**：除了基本的持久化，Spark还提供了checkpoint功能，定期将RDD写入可靠的存储系统（如HDFS），进一步增强容错性。这在深度迭代作业中特别有用，因为checkpointed的RDD不再依赖血统，降低了计算复杂性。 8. **Spark Shuffle过程中的持久化**：在shuffle操作（如`reduceByKey`、`join`等）中，Spark会自动将中间结果持久化到磁盘，以避免内存溢出。 9. **动态内存管理**：Spark会动态调整内存分配，平衡计算和存储的需求，确保高效利用资源。通过灵活的持久化策略和高效的内存管理，Spark Core的RDD持久化机制使得大规模数据处理变得更加高效，尤其在需要迭代计算的场景下，如机器学习和图计算，性能优势更为明显。

RDD的持久化

1、RDD通过血统关系来进行RDD的恢复。

2、RDD的缓存
1、cache： def cache(): this.type = persist() 就是MEMORY——ONLY的persist
2、persist： def persist(newLevel: StorageLevel)
object StorageLevel {
val NONE = new StorageLevel(false, false, false, false)
val DISK_ONLY = new StorageLevel(true, false, false, false)
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

几种方式：1、是存在磁盘还是内存？ 2、是否序列化 3、是否有副本 4、是否非堆存储

3、RDD的检查点机制

1、通过检查点机制能够把RDD的数据保存到一个非易失存储上，配合HDFS使用，
2、检查点会切断RDD的血统关系。

3、如果需要使用，则需要通过sparkcontext设置一个检查点目录： sc.setCheckpointDir("hdfs://master01:9000/checkpoint")

下载后可阅读完整内容，剩余1页未读，立即下载

想追求完美的梦

粉丝: 22
资源: 15

Spark Core：深入理解RDD持久化与优化

spark-core-1.zip

SparkCore快速入门详解

Spark RDD持久化策略详解

Spark大数据计算引擎与RDD编程模型详解

spark-core核心机制PPT讲解

大数据-spark

spark cook book

spark运行原理解析

Spark2.0新特性

02Spark编程模型和解析

最新资源