SparkSQL物理执行计划各操作实现_sparksql执行计划 - CSDN文库

109 浏览量更新于2023-05-03 评论收藏 369KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

SparkSQL物理执行计划各操作实现物理执行计划各操作实现

SparkStrategy: logical to physical

Catalyst作为一个实现无关的查询优化框架，在优化后的逻辑执行计划到真正的物理执行计划这部分只提供了接口，没有提供

像Analyzer和Optimizer那样的实现。

本文介绍的是Spark SQL组件各个物理执行计划的操作实现。把优化后的逻辑执行计划映射到物理执行操作类这部分由

SparkStrategies类实现，内部基于Catalyst提供的Strategy接口，实现了一些策略，用于分辨logicalPlan子类并替换为合适的

SparkPlan子类。

SparkPlan继承体系如下。接下里会具体介绍其子类的实现。

SparkPlan

主要三部分：LeafNode、UnaryNode、BinaryNode

各自的实现类：

提供四个需要子类重载的方法

// TODO: Move to `DistributedPlan`

/** Specifies how data is partitioned across different nodes in the cluster. */

def outputPartitioning: Partitioning = UnknownPartitioning(0) // TODO: WRONG WIDTH!

/** Specifies any partition requirements on the input data for this operator. */

def requiredChildDistribution: Seq[Distribution] =

Seq.fill(children.size)(UnspecifiedDistribution)

def execute(): RDD[Row]

def executeCollect(): Array[Row] = execute().collect()

Distribution和Partitioning类用于表示数据分布情况。有以下几类，可以望文生义。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

评论0

weixin_38500948

粉丝: 3
资源: 915

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈