Spark SQL入门指南：DataFrame与Dataset详解

需积分: 10 168 浏览量更新于2024-07-10 收藏 2.31MB PDF 举报

Spark SQL简易教程深入介绍了Apache Spark中的SQL工具包，用于处理结构化数据。Spark SQL作为Spark的一个核心模块，它显著增强了Spark对SQL查询的支持，使得开发者可以无缝地结合SQL语句与Spark编程模型。以下是该教程中的关键知识点： 1. **语言支持**：Spark SQL提供跨语言的接口，支持Scala、Java、Python和R等语言，这意味着开发者可以根据自己的喜好选择熟悉的语言进行数据处理。 2. **DataFrame和Dataset**： - **DataFrame**：Spark SQL的核心数据结构，类似于关系数据库中的表或编程语言中的dataframe，它是一个由命名列组成的结构化数据集。DataFrame的使用场景主要是处理结构化数据，其内部的Schema（列名和类型）使数据读取更高效，并优化执行计划。 - **Dataset[T]**：Scala语言中的主要抽象，是DataFrame的泛型表示形式，用于处理不同类型的数据。与RDD相比，DataFrame提供了更好的性能和更高的抽象级别。 - **RDDs vs DataFrame**：RDDs（弹性分布式数据集）更适合非结构化数据和函数式编程，而DataFrame针对结构化数据，尤其是在性能优化方面具有优势。对于半结构化的日志数据，也推荐使用DataFrame。 3. **数据源支持**：Spark SQL兼容多种外部数据源，包括Hive、Avro、Parquet、ORC、JSON和JDBC等，这使得数据集成变得更加灵活。 4. **Hive集成**：Spark SQL支持HiveQL语法，可以利用Hive的SerDes（序列化和反序列化）和UDFs（用户自定义函数），方便访问和处理现有的Hive仓库。 5. **连接性**：提供标准的JDBC和ODBC连接，便于与其他系统的交互。 6. **高级特性**：Spark SQL具有优化器、列式存储和代码生成等特性，有助于提高查询性能和容错性。 7. **DataSet**：在Spark 1.6引入的DataSet是一个更高级的数据集抽象，它结合了RDD和DataFrame的优势，拥有强类型性和Lambda函数支持，但在Scala环境中使用更为便利。总结来说，Spark SQL教程涵盖了如何在Spark中使用SQL进行结构化数据处理，通过DataFrame和DataSet的不同特点，帮助开发者根据数据类型和应用场景选择最合适的工具。此外，它还展示了Spark SQL如何与Hive集成，以及其在连接性、性能优化和容错性方面的优势。

1.2 创建Dataset

Spark 支持由内部数据集和外部数据集来创建 DataSet，其创建方式分别如下：

1. 由外部数据集创建

2. 由内部数据集创建

1.3 由RDD创建DataFrame

Spark 支持两种方式把 RDD 转换为 DataFrame，分别是使用反射推断和指定 Schema 转换：

1. 使用反射推断

// 1.需要导入隐式转换

import spark.implicits._

// 2.创建 case class,等价于 Java Bean

case class Emp(ename: String, comm: Double, deptno: Long, empno: Long,

       hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由外部数据集创建 Datasets

val ds = spark.read.json("/usr/file/emp.json").as[Emp]

ds.show()

// 1.需要导入隐式转换

import spark.implicits._

// 2.创建 case class,等价于 Java Bean

case class Emp(ename: String, comm: Double, deptno: Long, empno: Long,

       hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由内部数据集创建 Datasets

val caseClassDS = Seq(Emp("ALLEN", 300.0, 30, 7499, "1981-02-20 00:00:00",

"SALESMAN", 7698, 1600.0),

          Emp("JONES", 300.0, 30, 7499, "1981-02-20 00:00:00",

"SALESMAN", 7698, 1600.0))

         .toDS()

caseClassDS.show()

// 1.导入隐式转换

import spark.implicits._

// 2.创建部门类

case class Dept(deptno: Long, dname: String, loc: String)

// 3.创建 RDD 并转换为 dataSet

val rddToDS = spark.sparkContext

.textFile("/usr/file/dept.txt")

.map(_.split("\t"))

.map(line => Dept(line(0).trim.toLong, line(1), line(2)))

.toDS() // 如果调用 toDF() 则转换为 dataFrame

https://github.com/heibaiying

剩余34页未读，继续阅读

zhb31415926

粉丝: 12
资源: 49

Spark SQL入门指南：DataFrame与Dataset详解

Spark从入门到精通

Spark SQL 入门到精通到项目实战的世界，日志文件100行

Spark SQL 教学讲解PPT

Spark rdd 简易教程

Learning Spark SQL - Aurobindo Sarkar

Spark_SQL 电影受众分析系统数据

spark详细教程课件

SparkRPC简单代码实现.pdf

Apache Spark：大数据处理统一引擎.pdf

简易证券交易系统源码

最新资源