Spark SQL数据加载与保存实例深度解析

158 浏览量更新于2024-09-02 收藏 91KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Spark SQL数据加载和保存是Apache Spark中一个关键的功能，它允许用户在Spark DataFrame之间进行高效的数据操作和迁移。Spark SQL提供了内置的`save`和`load`方法，使得数据的读取和存储变得简单易行，尤其适用于处理大规模数据集。前置知识详解 1. DataFrame基础： DataFrame是Spark SQL的核心数据结构，它是键值对的集合，每一对键值对应一个列。DataFrame提供了方便的数据转换和分析功能，包括过滤、聚合、连接等操作。`save`和`load`方法正是在此基础上实现数据的持久化。 2. `save`方法： `save`方法用于将DataFrame保存到磁盘或其他存储系统，支持多种文件格式，如CSV、JSON、Parquet、Hive等。通过调用`sqlContext.read().format(formatName)`获取相应的读取器（DataFrameReader），然后调用`load(path)`加载数据，将DataFrame写入指定路径。 3. `load`方法： `load`方法则相反，它从文件或数据库中读取数据并返回一个DataFrame。通过指定文件的格式（如`format("json")`），Spark SQL能够识别并解析不同格式的数据。代码实战以下是一个简单的Java代码示例，展示了如何使用Spark SQL进行数据加载和保存： ```java SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("SparkSQLLoadSaveOps"); JavaSparkContext jsc = new JavaSparkContext(sparkConf); SQLContext sqlContext = new SQLContext(jsc); // 数据加载 DataFrame peopleDF = sqlContext.read() .format("json") // 指定文件格式为JSON .load("E:\\Spark\\Sparkinstanl"); // 读取路径 // 数据保存 peopleDF.write() .format("parquet") // 另一个例子，可能保存为Parquet格式 .save("path/to/save"); // 写入路径，这里省略具体路径这段代码首先初始化Spark环境，然后通过`read().format()`指定数据源格式（在这个例子中是JSON），`load`方法加载数据到DataFrame `peopleDF`。接着，`write().format()`用于指定保存目标格式（这里可能是Parquet），最后调用`save`方法将DataFrame保存到指定路径。 Spark SQL的`save`和`load`功能是数据分析工作流程中的重要组成部分，通过灵活选择不同的文件格式和操作，可以有效地管理数据的输入输出，提高大数据处理的效率。学习和掌握这些操作对于Spark开发者来说是至关重要的。

资源详情

资源推荐

Spark SQL数据加载和保存实例讲解数据加载和保存实例讲解

主要以实例讲解的方式为大家详细介绍了Spark SQL数据加载和保存的相关资料,具有一定的参考价值，感兴趣的小伙伴们可以参考一下

一、前置知识详解一、前置知识详解

Spark SQL重要是操作DataFrame，DataFrame本身提供了save和load的操作，

Load：可以创建DataFrame，

Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。

二、二、Spark SQL读写数据代码实战读写数据代码实战

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.*;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import java.util.ArrayList;

import java.util.List;

public class SparkSQLLoadSaveOps {

public static void main(String[] args) {

SparkConf conf = new SparkConf().setMaster("local").setAppName("SparkSQLLoadSaveOps");

JavaSparkContext sc = new JavaSparkContext(conf);

SQLContext = new SQLContext(sc);

/**

* read()是DataFrameReader类型，load可以将数据读取出来

DataFrame peopleDF = sqlContext.read().format("json").load("E:\Spark\Sparkinstanll_package\Big_Data_Software\spark-1.6.0-bin-hadoop2.6\examples\src\main\resources\people.json");

/**

* 直接对DataFrame进行操作

* Json: 是一种自解释的格式，读取Json的时候怎么判断其是什么格式？

* 通过扫描整个Json。扫描之后才会知道元数据

//通过mode来指定输出文件的是append。创建新文件来追加文件

peopleDF.select("name").write().mode(SaveMode.Append).save("E:\personNames");

}

读取过程源码分析如下：

1. read方法返回DataFrameReader，用于读取数据。

/**

* :: Experimental ::

* Returns a [[DataFrameReader]] that can be used to read data in as a [[DataFrame]].

* {{{

* sqlContext.read.parquet("/path/to/file.parquet")

* sqlContext.read.schema(schema).json("/path/to/file.json")

* }}}

* @group genericdata

* @since 1.4.0

@Experimental

//创建DataFrameReader实例，获得了DataFrameReader引用

def read: DataFrameReader = new DataFrameReader(this)

2. 然后再调用DataFrameReader类中的format，指出读取文件的格式。

/**

* Specifies the input data source format.

* @since 1.4.0

def format(source: String): DataFrameReader = {

this.source = source

this

}

3. 通过DtaFrameReader中load方法通过路径把传入过来的输入变成DataFrame。

/**

* Loads input in as a [[DataFrame]], for data sources that require a path (e.g. data backed by

* a local or distributed file system).

* @since 1.4.0

// TODO: Remove this one in Spark 2.0.

def load(path: String): DataFrame = {

option("path", path).load()

}

至此，数据的读取工作就完成了，下面就对DataFrame进行操作。

下面就是写操作！！！

1. 调用DataFrame中select函数进行对列筛选

/**

* Selects a set of columns. This is a variant of `select` that can only select

* existing columns using column names (i.e. cannot construct expressions).

* {{{

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38628150

粉丝: 4
资源: 936

Spark SQL数据加载与保存实例深度解析

《Spark SQL编程指南》

基于大数据 Spark SQL的日志分析 视频教程 虚拟主机 和 data文件

spark sql 数据倾斜

mongodb on spark sql 统计数据并保存到mysql

spark sql 与 spark sql on hive 区别

learning spark sql :目录

give me some examples about spark sql

小白学习spark05-spark sql

spark sql和spark core

大数据技术之_19_spark学习_03_spark sql 应用解析 + spark sql 概述、解析 、数据源、实战 + 执行 spark ...

spark sql面试内容

spark sql精华及与hive的集成（spark sql原理，api,操作外部源数据，sql函数）

教程：apache spark sql入门及实践指南！

spark sql 支持读写那些类型数据

spark sql 转odps sql

spark sql｜spark，从入门到精通

oracle和spark sql的对比

spark SQL和sparkDSL的区别

【spark】（八）spark sql 操作外部数据源

spark sql 外部数据源（external datasource）

最新资源

基于大数据 Spark SQL的日志分析视频教程虚拟主机和 data文件

大数据技术之_19_spark学习_03_spark sql 应用解析 + spark sql 概述、解析、数据源、实战 + 执行 spark ...