Spark开发技巧：RDD函数与对象序列化解析

需积分: 0 79 浏览量更新于2024-08-05 收藏 1.15MB PDF 举报

"SparkCore篇04：RDD函数传递和依赖关系1，讲解了RDD中的函数传递和依赖，以及在处理过程中序列化的重要性。" 在Spark编程中，RDD（弹性分布式数据集）是核心概念之一，它是一个不可变、分区的数据集合，可以在集群中并行操作。RDD的主要特点是其计算过程的懒惰执行和容错性，这得益于它的依赖关系和函数传递机制。 1. **RDD函数传递**：在Spark中，用户定义的函数（UDF）经常被用来对RDD执行特定操作。例如，在给定的代码片段中，`Searcher`类定义了一个`isMatch`方法，用于检查字符串是否包含查询子串。在`main`方法中，我们创建了一个`RDD`并调用了`searcher.getMatchedRDD1(rdd)`来过滤包含特定子串的字符串。这里的关键点在于，`getMatchedRDD1`方法内部调用了`isMatch`方法，这实际上意味着`Searcher`对象需要被传递到Executor端执行。 2. **跨进程通信与序列化**：因为Spark应用是分布式运行的，Driver程序在主节点上运行，而计算任务在Executor进程中执行。因此，当我们在Driver端定义的对象（如`Searcher`实例）需要在Executor上使用时，就需要通过网络进行进程间的通信。这种通信涉及到对象的序列化和反序列化。在Scala或Java中，如果对象需要在网络间传递，它必须是可序列化的。在上述示例中，如果没有实现序列化，就会导致`java.io.NotSerializableException`，因为`this`对象不能被正确地传输。 3. **Spark的序列化策略**： Spark默认使用Java的序列化机制，但这效率较低。为了提高性能，可以配置使用更高效的序列化库，如Kryo。Kryo提供了更快的序列化速度，但需要注册所有可能被序列化的自定义类型，以避免运行时错误。 4. **依赖关系**：每个RDD都有一个依赖于其父RDD的依赖关系。在上述例子中，`result`RDD依赖于`rdd`，并且这个依赖关系是通过`filter`操作建立的。Spark利用这些依赖关系来制定执行计划，决定如何划分工作负载和重试失败的任务。 5. **宽依赖与窄依赖**： - **窄依赖**：如果每个分区的输出只被父RDD的一个分区使用，那么这就是窄依赖。在上述代码中，`filter`操作就是窄依赖，因为它仅依赖于输入RDD的单个分区。 - **宽依赖**：如果一个分区的输出被多个父RDD的分区使用，那么这是宽依赖，如`join`操作。宽依赖会导致shuffle操作，增加了数据传输和计算的复杂性。理解RDD的函数传递和依赖关系是优化Spark应用性能的关键。通过使用窄依赖和有效的序列化策略，可以减少网络通信开销，提高整体处理效率。在编写Spark应用程序时，应该尽可能设计窄依赖的转换，以利用其并行性和效率优势。

在一个孤立系统里，如果没有外力做功，其总混乱度（即熵）会不断增大

RDD函数传递和依赖关系

RDD中的函数传递

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工

作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是

需要序列化的。

跨进程通信，对象传递，序列化

传递一个方法

直接运行程序会发现报错:没有初始化.因为rdd.ﬁlter(isMatch)用到了对象this的方法isMatch，所以对象

this需要序列化，才能把对象从driver发送到executor。【其实就是对象在进程间传输需要序列化】

import org.apache.spark.{SparkConf， SparkContext}

import org.apache.spark.rdd.RDD

object SerDemo {

 def main(args: Array[String]): Unit = {

   valconf:SparkConf=new SparkConf()

.setAppName("SerDemo")

.setMaster("local[*]")

   val sc = new SparkContext(conf)

   val rdd: RDD[String] = sc.parallelize(Array("hello world"， "hello

zhutian"， "zhutian"， "hahah")， 2)

   val searcher = new Searcher("hello")

   val result: RDD[String] = searcher.getMatchedRDD1(rdd)

   result.collect.foreach(println)

 }

}

//需求: 在 RDD 中查找出来包含 query 子字符串的元素

// query 为需要查找的子字符串

class Searcher(val query: String){

 // 判断 s 中是否包括子字符串 query

 def isMatch(s : String) ={

   s.contains(query)

 }

 // 过滤出包含 query字符串的字符串组成的新的 RDD

 def getMatchedRDD1(rdd: RDD[String]) ={

   rdd.filter(isMatch) //

 }

 // 过滤出包含 query字符串的字符串组成的新的 RDD

 def getMatchedRDD2(rdd: RDD[String]) ={

   rdd.filter(_.contains(query))

 }

}

下载后可阅读完整内容，剩余4页未读，立即下载

乐居买房

粉丝: 25
资源: 311

Spark开发技巧：RDD函数与对象序列化解析

sparkRDD函数大全

【SparkCore篇01】RDD编程入门1

Spark Core 应用解析

spark-core核心机制PPT讲解

大数据-spark

Ch10-Spark系统及其编程技术简介1

mastering-apache-spark

Spark与Kafka集成实践指南

深度学习结合大数据：TensorFlow与Spark的高级应用探索

【大数据对决】：Apache Hadoop与Spark应用优劣对比分析

最新资源