Spark SQL四大数据源详解：操作与实战示例

138 浏览量更新于2024-08-31 收藏 89KB PDF 举报

Spark SQL是一种基于DataFrame和Dataset的数据处理API，它扩展了Apache Spark的核心计算能力，使得在大规模数据集上进行复杂查询和操作变得更加高效。本文将详细介绍Spark SQL常见的四种数据源，这些数据源对于数据加载、处理和存储至关重要。 1. Parquet数据源 - Spark SQL默认的数据源是Parquet格式，这是一种列式存储格式，优化了读写性能，特别适合大数据处理。使用`load`函数可以从HDFS等分布式文件系统加载Parquet文件，并通过DataFrame API执行各种操作。例如，以下代码展示了如何加载和保存Parquet文件： ```scala val df = spark.read.load("hdfs://hadoop001:9000/namesAndAges.parquet") df.select("name").write.save("names.parquet") ``` 当然，用户可以通过配置`spark.sql.sources.default`来更改默认数据源格式。 2. 自定义数据源格式 - 当数据源格式不是Parquet时，需要明确指定数据源的格式。例如，使用`format`方法配合加载和保存JSON数据： ```scala val peopleDF = spark.read.format("json").load("hdfs://hadoop001:9000/people.json") peopleDF.write.format("parquet").save("hdfs://hadoop001:9000/namesAndAges.parquet") ``` 对于内置格式，如csv、jdbc、orc、libsvm等，只需提供简短的名称即可。 3. 文件系统直接SQL操作 - Spark SQL还支持直接在文件上执行SQL查询，无需先将文件转换为DataFrame。例如，`val sqlDF = spark.sql("SQL Query on file directly")`，这种方式适用于简单的查询，但不适用于复杂的操作。 4. 灵活性与扩展性 - DataFrame接口的强大之处在于其灵活性，可以无缝地处理不同格式的数据源。用户可以根据需求选择合适的读写方法，无论是通用的`load`和`save`，还是直接在文件上执行SQL。此外，Spark SQL也允许用户自定义数据源，通过实现`InputFormat`和`OutputFormat`接口，扩展对其他数据格式的支持。总结来说，Spark SQL的四种常见数据源提供了丰富的数据操作手段，从默认的Parquet到自定义格式，再到直接对文件的SQL查询，都体现了其在处理大规模数据集时的高效性和灵活性。掌握这些数据源的使用，对于在实际项目中有效利用Spark SQL进行数据处理和分析具有很高的价值。

Spark SQL常见常见4种数据源详解种数据源详解

主要介绍了Spark SQL常见4种数据源(详细),文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学

习价值，,需要的朋友可以参考下

通用通用load/write方法方法

手动指定选项手动指定选项

Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把

DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。

Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作。

修改配置项spark.sql.sources.default，可修改默认数据源格式。

scala> val df = spark.read.load("hdfs://hadoop001:9000/namesAndAges.parquet")

df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> df.select("name").write.save("names.parquet")

当数据源格式不是parquet格式文件时，需要手动指定数据源的格式。数据源格式需要指定全名（例如：org.apache.spark.sql.parquet），

如果数据源格式为内置格式，则只需要指定简称json, parquet, jdbc, orc, libsvm, csv, text来指定数据的格式。

可以通过SparkSession提供的read.load方法用于通用加载数据，使用write和save保存数据。

scala> val peopleDF = spark.read.format("json").load("hdfs://hadoop001:9000/people.json")

peopleDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

scala> peopleDF.write.format("parquet").save("hdfs://hadoop001:9000/namesAndAges.parquet")

scala>

除此之外，可以直接运行SQL在文件上:

val sqlDF = spark.sql("SELECT * FROM parquet.`hdfs://hadoop001:9000/namesAndAges.parquet`")

sqlDF.show()

文件保存选项文件保存选项

可以采用SaveMode执行存储操作，SaveMode定义了对数据的处理模式。需要注意的是，这些保存模式不使用任何锁定，不是原子操作。

此外，当使用Overwrite方式执行时，在输出新数据之前原数据就已经被删除。SaveMode详细介绍如下表：

Scala/Java Any Language Meaning

SaveMode.ErrorIfExists(default) “error”(default) 如果文件存在，则报错

SaveMode.Append “append” 追加

SaveMode.Overwrite “overwrite” 覆写

SaveMode.Ignore “ignore” 数据存在，则忽略

Parquet文件文件

Parquet读写

Parquet格式经常在Hadoop生态圈中被使用，它也支持Spark SQL的全部数据类型。Spark SQL 提供了直接读取和存储 Parquet 格式文件

的方法。

// Encoders for most common types are automatically provided by importing spark.implicits._

import spark.implicits._

val peopleDF = spark.read.json("examples/src/main/resources/people.json")

// DataFrames can be saved as Parquet files, maintaining the schema information

peopleDF.write.parquet("hdfs://hadoop001:9000/people.parquet")

// Read in the parquet file created above

// Parquet files are self-describing so the schema is preserved

// The result of loading a Parquet file is also a DataFrame

val parquetFileDF = spark.read.parquet("hdfs://hadoop001:9000/people.parquet")

// Parquet files can also be used to create a temporary view and then used in SQL statements

parquetFileDF.createOrReplaceTempView("parquetFile")

val namesDF = spark.sql("SELECT name FROM parquetFile WHERE age BETWEEN 13 AND 19")

namesDF.map(attributes => "Name: " + attributes(0)).show()

// +------------+

// | value|

// +------------+

// |Name: Justin|

// +------------+

解析分区信息解析分区信息

对表进行分区是对数据进行优化的方式之一。在分区的表内，数据通过分区列将数据存储在不同的目录下。Parquet数据源现在能够自动发

现并解析分区信息。例如，对人口数据进行分区存储，分区列为gender和country，使用下面的目录结构：

path

└── to

└── table

├── gender=male

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38627826

粉丝: 5
资源: 939

Spark SQL四大数据源详解：操作与实战示例

Spark 外部数据源调用代码

田毅-多种场景下spark和不同数据源组合来快速开发应用

掌握Spark SQL：数据处理与接口详解

Spark SQL中的DataFrame和DataSet详解

spark sql介绍

Spark SQL DataFrames与Datasets编程详解

Spark SQL入门：DataFrame与SQL接口详解

Spark SQL入门指南：DataFrame与Dataset详解

Spark SQL深度解析：常用聚合函数详解

Spark多数据源分析与优化技术详解

最新资源