Spark RDD、DataFrame与DataSet详解及转换

需积分: 5 154 浏览量更新于2024-08-04 收藏 53KB DOCX 举报

"这篇文章主要探讨了Spark中的三个核心数据抽象：RDD、DataFrame和DataSet，以及它们之间的关系和使用方法。" Spark的这三个概念是其大数据处理能力的核心，它们各自有其特性和适用场景。 1. **RDD（Resilient Distributed Datasets）**：RDD是Spark最初的抽象数据模型，是不可变的、分区的、只读的数据集合。它们是Spark的基础，支持并行操作，特别适合处理无结构或半结构化的数据。RDD提供了容错机制，即使在集群中某个节点故障时，也能恢复数据。然而，由于RDD不包含元数据信息，用户需要手动指定数据结构，这可能导致更多的编程错误。 2. **DataFrame**：DataFrame是对RDD的一种优化，它将数据组织成列的形式，类似于关系数据库的表。DataFrame提供了schema（模式），使得Spark可以理解数据的结构，允许执行更复杂的查询。DataFrame支持SQL-like查询，适用于结构化和半结构化数据，但对数据类型的检查是在运行时进行的，这意味着可能出现运行时错误。 3. **DataSet**：DataSet是DataFrame的增强版，引入了类型安全和面向对象的编程模型。它结合了RDD的高效性和DataFrame的结构特性，使用编译时类型检查，减少了运行时错误的可能性。DataSet通过Catalyst优化器提供高效的查询执行，并且可以以JVM对象的形式表示数据，这使得它更适合处理结构化和非结构化数据。 4. **数据转换**：RDD、DataFrame和DataSet之间可以互相转换。例如，一个RDD可以通过创建Schema或者通过toDF()方法转化为DataFrame；DataFrame可以通过SparkSession的createDataset()方法转化为DataSet；而DataSet可以通过toDF()方法转化为DataFrame，再通过rdd()方法转化为RDD。这些转换提供了灵活性，可以根据需求选择最适合的数据模型。 5. **WordCount示例**：WordCount是大数据处理中的经典问题，用于演示数据处理的基本步骤。在RDD中实现WordCount，通常涉及map、flatMap和reduceByKey等操作。DataFrame和DataSet则提供了更高级的API，可以直接进行分组、聚合等操作，简化了实现过程。总结来说，RDD适合基本的分布式数据处理，DataFrame提供了一种声明式的数据处理方式，而DataSet则在DataFrame的基础上增加了类型安全和面向对象的优势。理解这三者的关系和特点，有助于在Spark项目中选择合适的数据抽象，提高开发效率和程序的稳定性。

val spark = SparkSession

.builder()

.appName("topn")

.master("local[2]")

.getOrCreate()

// val df = rddToDataFrame(spark)

// df.printSchema()

// df.select("_1", "_2").show()

// val ds = rddToDataSet(spark)

// ds.createTempView("wordcount")

// spark.sql("select word,count(word) as count from wordcount group by word order

by count desc limit 5").show()

// val df = dataSetToDataFrame(spark)

// df.select("word", "count").groupBy("word").count().show()

//dataSetToRDD(spark)

// dataFrameToRDD(spark)

// dataSetToRDD(spark)

// rddToDataFrame(spark)

dataSetToDataFrame(spark)

}

/**

* dataFrame 转 RDD

def dataFrameToRDD(spark:SparkSession)={

import spark.implicits._

val df = spark.read.json("F:\\code\\hadoop\\data\\people.json")

df.show()

df.printSchema()

df.select("name").show()

df.createTempView("people")

val result = spark.sql("select name from people where age >=13 and age <=19")

result.rdd.foreach(println)

}

/**

* dataset 转 RDD

* scala 中正则表达式 \s 是用来匹配任何空白字符，当\放在最前面，前面得再放个\，

或者在 scala 中用"""\s+"""

剩余11页未读，继续阅读

jasmine_wxy

粉丝: 16

Spark RDD、DataFrame与DataSet详解及转换

掌握PySpark: Python中的RDD、DataFrame与Dataset实战教程

SparkSQL深度解析：DataFrame, DataSet与Hive集成

Spark SQL入门指南：DataFrame与Dataset详解

RDD DataFrame和DataSet有什么区别？、

rdd和dataframe和dataset

spark rdd dataframe dataset

rdd dataframe dataset区别

spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql

RDD 、DataFrame 、DataSet.pptx

pyspark-examples:Python语言中的Pyspark RDD，DataFrame和Dataset示例

最新资源