Spark SQL 深入理解与应用

需积分: 10 37 浏览量更新于2024-07-15 收藏 789KB PDF 举报

"Spark SQL PDF" Spark SQL 是 Apache Spark 的一个模块，专门用于处理结构化数据，它将 Spark 的强大计算能力与 SQL 查询语言相结合，提供了丰富的数据分析功能。Spark SQL 提供了两种主要的数据抽象：Dataset 和 DataFrame。这两个概念是 Spark 1.6 版本后引入的，它们在 Spark 2.0 版本中得到了进一步强化。 1. SparkSQL 的数据操作： - Dataset：这是一个类型安全、可编译的数据集合，它结合了 RDD（弹性分布式数据集）的灵活性和函数式编程的优点。Dataset 可以通过 Scala、Java 或 Python 的 API 来创建和操作，提供强类型支持，允许静态类型检查。 - DataFrame：DataFrame 是一种无模式的表格数据集，可以看作是 Schema-RDD（有模式的 RDD）。DataFrame 支持 SQL 查询，并且跨语言兼容，包括 Scala、Java、Python 和 R。DataFrame 在不同语言中的实现都提供了相同的 API，使得跨语言的开发更加方便。 2. Dataset 与 DataFrame 的关系： - Dataset 是 DataFrame 的一种扩展，它提供了更高级别的抽象，可以视为有类型信息的 DataFrame。在 Scala 和 Java 中，Dataset 提供了编译时类型检查和优化，而在 Python 中，虽然没有编译时类型检查，但仍然具有 Dataset 的大部分优点。 - 在 Spark SQL 中，DataFrame 可以通过 SQL 查询语句或 DataFrame API 转换为 Dataset，反之亦然。DataFrame 是 Dataset 的一种通用表示，可以在各种语言之间共享。 3. Spark 2.0 中的 SQLContext 与 SparkSession： - SQLContext：在 Spark 1.x 中，SQLContext 是使用 SQL 进行查询的主要入口点，它允许将数据注册为临时表，然后通过 SQL 查询这些表。 - SparkSession：在 Spark 2.0 及更高版本中，SQLContext 被 SparkSession 替代，成为所有 SQL 和 DataFrame 功能的统一入口点。SparkSession 不仅包含了 SQLContext 功能，还添加了对 Hive 的支持，以及更强大的元数据管理能力。 - SparkSession.builder：创建 SparkSession 的主要方式是通过 SparkSession.builder，这允许用户配置应用程序名称、设置 Spark 配置项，以及连接到 Hive 等。以下是一些基本的 SparkSession 配置示例： ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("PythonSparkSQLBasicExample") \ .config("spark.some.config.option", "value") \ .getOrCreate() ``` 在这个例子中，我们创建了一个名为 "PythonSparkSQLBasicExample" 的 Spark 应用程序，并设置了一个配置项 "spark.some.config.option" 的值为 "value"。`getOrCreate()` 方法会检查当前是否有已存在的 SparkSession，如果有则返回，否则创建一个新的。 Spark SQL 的强大之处在于它的并行计算能力、高效的数据处理和广泛的数据源支持，包括 Hive、Parquet、JSON 等。它允许开发者使用 SQL 查询语言或者 API 对大规模数据进行复杂分析，同时保持了 Spark 的高性能和易用性。

options 󰋒

󰫍󹥫 DataFrame 

󰎰

3.4.2 󰉁󰪚

1. .csv() 󰪚 csv 󰫍 DataFrame 

2. .jdbc() 󰪚󰋒󰢳



url  JDBC URL  jdbc:subprotocol:subname

table 󰢳

column 󰥧󰉁󰥧󰣊󰥂󰕾󰬯

numPartitionslowerBoundupperBound 󰉁󰖳󰈿 where 󰢳󰫂

󰥧

lowerBound  column 󰋒󹥫󰉁󰋒󰲊

upperBound  column 󰋒󹥫󰉁󰋒󰲊

numPartitions 󰋒󰮢

predicates 󰓏󰋒󰢳󰫂󰉁 where 󰢳󰫂

DataFrame 󰋒

properties 󰉁 JDBC 󰫔󰫸󰙸 { 'user'

: 'SYSTEM', 'password' : 'mypassword'}

󰫍 DataFrame 

3. .json() 󰪚 json 󰫍 DataFrame 

spark_session.read.format('json').load(['python/test_support/sql

/people.json',

'python/test_support/sql/people1.json'])

.csv(path, schema=None, sep=None, encoding=None, quote=None,

escape=None, comment=None, header=None, inferSchema=None,

ignoreLeadingWhiteSpace=None, ignoreTrailingWhiteSpace=None,

nullValue=None, nanValue=None, positiveInf=None, negativeInf=None,

dateFormat=None, timestampFormat=None, maxColumns=None,

maxCharsPerColumn=None, maxMalformedLogPerPartition=None, mode=None,

columnNameOfCorruptRecord=None, multiLine=None)

.jdbc(url, table, column=None, lowerBound=None, upperBound=None,

numPartitions=None, predicates=None, properties=None)

剩余39页未读，继续阅读

hiHins

粉丝: 7
资源: 103

Spark SQL 深入理解与应用

Spark SQL优化实践：提升性能与效率

提升Spark SQL查询性能：Parquet优化与过滤策略

Spark SQL替代HIVE实现高效ETL作业

藏经阁-GeoMesa on Spark SQL.pdf

Spark SQL源码概览.pdf

Spark SQL最佳实践.pdf

藏经阁-Apache Kudu & Apache Spark SQL.pdf

Spark SQL编程指南pdf格式下载.rar

Spark编程基础：Spark SQL单元测验与答案.pdf

spark sql 数据倾斜 - 处理篇.pdf

最新资源