SparkSQL：从Shark演进到高效结构化数据处理

27 浏览量更新于2024-08-31 收藏 724KB PDF 举报

Spark计算引擎之SparkSQL详解深入剖析了Spark SQL的起源、发展以及其在大规模数据处理中的重要性。Spark SQL是Apache Spark项目中的一个关键组件，最初源于Shark，一个专为Spark设计的数据仓库系统，旨在加速Hive查询并提供更好的性能和维护性。Shark的问题在于其庞大的代码基础和对Spark版本的依赖，这限制了其进一步优化。 Spark SQL的核心目标是简化结构化数据处理，通过提供DataFrame（一种类似表格的数据结构）和Dataset API，它将SQL查询与Spark的分布式计算能力相结合。DataFrame是对RDD的改进，它包含了更丰富的元数据，使得Spark SQL能够基于这些信息进行优化，从而提高数据操作的效率和易用性。学习Spark SQL的主要原因包括： 1. **效率提升**：相较于Hive的MapReduce，Spark SQL利用RDD的并行计算优势，显著提高了查询执行速度。 2. **易用性**：通过SQL接口，开发者可以更直观地编写和理解数据处理逻辑，无需直接操作底层分布式计算。 3. **无缝整合**：Spark SQL支持多种编程语言API，如Java、Scala、Python和R，使得数据处理更加灵活。 4. **数据访问一致性**：无论是连接本地还是远程数据源，Spark SQL提供了统一的数据访问方式，兼容Hive SQL语法。 5. **标准连接**：通过JDBC和ODBC接口，Spark SQL符合行业标准，便于与其他系统集成。 DataFrame是Spark SQL的核心数据结构，它是键值对的集合，每一列都有一个特定的数据类型，类似于关系数据库表。DataFrame的设计使得数据处理更加高效，且易于理解和维护。与RDD相比，DataFrame提供了更丰富的API，例如DataFrame的创建、操作（如过滤、分组、聚合等）、联接和转换等，这些都是为了更好地支持结构化数据的处理和分析任务。总结来说，Spark SQL是Spark生态系统中的重要组成部分，它不仅提供了对结构化数据的强大处理能力，还通过DataFrame简化了数据操作，使得大数据分析变得更加高效和易用，对于大数据工程师和数据分析师来说，理解和掌握Spark SQL是提高工作效率的关键。

Spark计算引擎之计算引擎之SparkSQL详解详解

一、Spark SQL

1．Spark SQL概述

1.1．Spark SQL的前世今生

Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理

执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Shark很难

优化和维护，同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限，以及集成SQL的一些复杂的分析功能，我们

发现Hive的MapReduce设计的框架限制了Shark的发展。在2014年7月1日的SparkSummit上，Databricks宣布终止对Shark的

开发，将重点放到SparkSQL上。

1.2．什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的

作用。

相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优

化，使对结构化数据的操作更加高效和方便。

有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基

于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点，看你喜欢那种风格。

1.3．为什么要学习Spark SQL

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群中去执行，大大简化了编写MapReduce程序的复杂

性，由于MapReduce这种计算模型执行效率比较慢，所以Spark SQL应运而生，它是将Spark SQL转换成RDD，然后提交到

集群中去运行，执行效率非常快！

1.易整合

将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。

2.统一的数据访问

以相同的方式连接到任何数据源。

3.兼容Hive

支持hiveSQL的语法。

4.标准的数据连接

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38705762

粉丝: 6
资源: 905

SparkSQL：从Shark演进到高效结构化数据处理

Spark和TiDB (Spark on TiDB)

spark计算引擎的介绍

SparkSQL的分布式执行引擎(Spark ThriftServer)

SparkSql技术

03_SparkSql.docx

Spark专刊：Scala入门详解，揭秘大数据计算未来

Spark大数据处理技术详解

Spark入门与框架详解：统一分析引擎与Hadoop对比

大数据分析引擎Spark：入门、模块与实战详解

Spark架构设计与编程入门详解（第3章）

最新资源