SparkSQL物理计划解析：从LogicalPlan到PhysicalPlan

12 浏览量更新于2024-08-28 收藏 315KB PDF 举报

"SparkSQLCatalyst源码分析之PhysicalPlan" 在Spark SQL的执行流程中，Catalyst优化器在解析、分析和优化SQL语句之后，会生成一个Physical Plan，这是Spark作业执行前的最后一个步骤。Physical Plan是逻辑计划（Logical Plan）经过优化后的具体执行方案，它详细描述了数据如何在Spark集群中实际操作和传输。在Catalyst的框架下，Physical Plan的生成由`SparkPlanner`负责。当`Optimizer`完成了对`AnalyzedLogicalPlan`的优化后，`SparkPlanner`会接手并将其转化为一系列可能的`PhysicalPlan`实例。`SparkPlanner`继承自`SparkStrategies`，而`SparkStrategies`又继承自`QueryPlanner`。 `SparkPlanner`的核心功能在于其内部定义的`strategies`序列，这是一个包含多种策略（Strategy）的集合。每种策略都是`QueryPlanner`中定义的`Strategy`类型的子类，它们接受一个逻辑计划，并生成一个或多个物理计划。这些策略包括： 1. `CommandStrategy`: 处理SQL命令，如创建表、删除表等。 2. `TakeOrdered`: 实现按指定顺序取数据的操作。 3. `PartialAggregation`: 执行部分聚合操作，通常用于分布式计算中的局部预处理。 4. `LeftSemiJoin`: 处理左半连接操作，只保留左表中的匹配行。 5. `HashJoin`: 使用哈希连接算法实现两个表的连接操作。 6. `InMemoryScans`: 处理内存中的数据扫描，如DataFrame或RDD的读取。 7. `ParquetOperation`: 针对Parquet格式的数据进行操作，如读取或写入。 `SparkPlanner`在选择物理计划时，会根据这些策略生成的备选计划，然后根据具体配置和性能考量选取最适合的执行计划。在这个过程中，可能会涉及分区、并行度、数据源特性和内存管理等多个因素。 `SparkPlanner`和其策略集合是将优化后的逻辑计划转化为实际操作指令的关键组件，它们确保Spark SQL能够高效地执行复杂的查询和数据处理任务。理解这一过程对于优化Spark应用的性能和调试SQL查询异常至关重要。

SparkSQLCatalyst源码分析之源码分析之PhysicalPlan

前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程，以及Catalyst包内的SqlParser，Analyzer和Optimizer，最

后要介绍一下Catalyst里最后的一个Plan了，即Physical Plan。物理计划是Spark SQL执行Spark job的前置，也是最后一道计

划。

如图：

一、SparkPlanner

话接上回，Optimizer接受输入的Analyzed Logical Plan后，会有SparkPlanner来对Optimized Logical Plan进行转换，生成

Physical plans。

lazy val optimizedPlan = optimizer(analyzed)

// TODO: Don't just pick the first one...

lazy val sparkPlan = planner(optimizedPlan).next()

SparkPlanner继承了SparkStrategies，SparkStrategies继承了QueryPlanner。

SparkStrategies包含了一系列特定的Strategies，这些Strategies是继承自QueryPlanner中定义的Strategy，它定义接受一个

Logical Plan，生成一系列的Physical Plan

@transient

protected[sql] val planner = new SparkPlanner

protected[sql] class SparkPlanner extends SparkStrategies {

val sparkContext: SparkContext = self.sparkContext

val sqlContext: SQLContext = self

def numPartitions = self.numShufflePartitions //partitions的个数

val strategies: Seq[Strategy] = //策略的集合

CommandStrategy(self) ::

TakeOrdered ::

PartialAggregation ::

LeftSemiJoin ::

HashJoin ::

InMemoryScans ::

ParquetOperations ::

BasicOperators ::

CartesianProduct ::

BroadcastNestedLoopJoin :: Nil

etc......

}

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38654415

粉丝: 4
资源: 1015

SparkSQL物理计划解析：从LogicalPlan到PhysicalPlan

揭秘SparkSQL Catalyst PhysicalPlan：从逻辑到物理执行的关键步骤

SparkSQL Catalyst源码解析：TreeNode Library深度探索

SparkSQL Catalyst源码解析：TreeNodeLibrary详解

SparkSQLCatalyst源码分析之Analyzer

SparkSQLCatalyst源码分析之Optimizer

SparkSQLCatalyst源码分析之TreeNodeLibrary

SparkSQL源码分析之PhysicalPlan到RDD的具体实现

SparkSQL Analyzer深度解析：转化与优化LogicalPlan

AVR单片机项目-ADC键盘（源码+仿真+效果图）.zip

java毕设项目之基于SpringBoot的失物招领平台的设计与实现(完整前后端+说明文档+mysql+lw).zip

最新资源