没有合适的资源?快使用搜索试试~ 我知道了~
首页Apache Spark3.0特性介绍.pdf
本pdf是对spark3.0新增特性的讲解描述,主要包括以下几个方面: 1,Dynamic Partition Pruning(动态分区裁剪) 2,Adaptive Query Execution(自适应查询执行) 3,Accelerator-aware Scheduling(加速器感知调度) 4,Apache Spark DataSource V2(数据源API稳定版) 5,SparkR向量化读写 6,更好的 ANSI SQL 兼容 7,其他 8,参考文献 9,扩展(数据湖)
资源详情
资源评论
资源推荐
Apache Spark3.0 新特性介绍
1、 Dynamic Partition Pruning(动态分区裁剪)
动态分区裁剪启用条件:
1) spark.sql.optimizer.dynamicPartitionPruning.enabled 参数必须设置为 true
2) 需要裁减的表必须是分区表,而且分区字段必须在 join 的 on 条件里面
3) Join 类型必须是 INNER, LEFT SEMI (左表是分区表), LEFT OUTER
(右表是分区表), RIGHT OUTER (左表是分区表)
4) 以上条件并不会一定发生动态分区裁剪,还需要满足以下两个参数综合评
估一个进行动态分区裁减是否有益的值,满足了才会进行动态分区裁减。
spark.sql.optimizer.dynamicPartitionPruning.useStats
spark.sql.optimizer.dynamicPartitionPruning.fallbackFilterRatio
动态分区裁剪原理:
以执行下面 sql 为例:
SELECT t1.id,t2.pKey FROM t1 JOIN t2 ON t1.pKey=t2.pKey AND t2.id<2;
(启用前)
不启用动态分区裁剪,t2 需要先执行 scan 操作,然后再执行 Filter 算子;t1 全局
扫描后再与 t2 进行 join,中间效率低下(注:t2 表一般会先执行 Filter 算子,然
后再执行 scan,此过程为静态分区裁剪)。
(启用后)
启用动态分区裁剪后,t2 先进行静态分区裁剪,t1 会先对表中的 pKey 字段进行
一次过滤,减少无用数据,然后再和 t2 进行 join。当 t1 表有大量无用数据时,
查询效率会提升 2-18 倍。
2、 Adaptive Query Execution(自适应查询执行)
(SparkSQL 执行流程)
2.1、动态设置 Shuffle Partition
原有 Spark Shuffle 模型:
原有 Shuffle 存在的问题:
Partition 个数不宜设置过大;
Reducer(代指 Spark Shuffle 过程中执行 Shuffle Read 的 Task) 个数过多,每个
Reducer 处理的数据量过小。大量小 Task 造成不必要的 Task 调度开销与可能
的资源调度开销(如果开启了 Dynamic Allocation);
Reducer 个数过大,如果 Reducer 直接写 HDFS 会生成大量小文件,从而造成
大量 addBlock RPC,Name node 可能成为瓶颈,并影响其它使用 HDFS 的应用;
过多 Reducer 写小文件,会造成后面读取这些小文件时产生大量 getBlock RPC,
对 Name node 产生冲击;
Partition 个数不宜设置过小
每个 Reducer 处理的数据量太大,Spill 到磁盘开销增大;
Reducer GC 时间增长;
剩余18页未读,继续阅读
qiangzi_lg
- 粉丝: 13
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- stc12c5a60s2 例程
- Android通过全局变量传递数据
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0