Spark资源调优与Hive Fetch任务转换解析
需积分: 31 35 浏览量
更新于2024-08-06
收藏 5.69MB PDF 举报
"运行资源调优-[门老师教你快速看懂电子电路图].门宏.扫描版"
在Spark作业的开发过程中,运行资源调优是一个关键环节。调优旨在确保作业能够高效、稳定地运行,避免因资源配置不当导致的性能瓶颈或资源浪费。Spark的资源参数可以通过`spark-submit`命令进行配置,这对于新手来说可能是一项挑战,因为他们可能不清楚哪些参数是重要的,或者如何合理设置这些参数。不正确的资源配置可能导致作业执行效率低下,甚至引发失败。
在Spark中,主要的资源参数包括:
1. **executor-memory**(执行器内存):这是每个工作节点上为每个executor分配的内存,用于执行任务并缓存数据。合理设置能防止内存溢出,提升作业稳定性。
2. **executor-cores**(执行器核心):定义了每个executor可以并发运行的任务数量。增加核心数可以提高并发处理能力,但过多可能导致资源碎片化。
3. **driver-memory**(驱动器内存):驱动器进程的内存,负责管理作业生命周期和协调executor。不足可能导致驱动器崩溃。
4. **num-executors**(执行器数量):决定并行度,需要根据集群资源和作业需求来设定。
5. **spark.default.parallelism**(默认并行度):当未指定分区数时,将使用此值,应与executor数量相匹配。
6. **spark.storage.memoryFraction**和**spark.shuffle.memoryFraction**:分别定义内存中用于存储和shuffle的数据比例,合理设置可优化数据缓存策略。
除了Spark的资源调优,Hive也有自己的优化策略,如Fetch抓取。Fetch抓取是一种优化机制,允许Hive在特定条件下直接从存储层读取数据,避免MapReduce的执行,从而提高查询速度。在`hive.fetch.task.conversion`配置项中,有三个级别:
- `none`:关闭Fetch任务转换,所有查询都将通过MapReduce执行。
- `minimal`:仅在简单的查询(如选择星号、基于分区列的过滤和LIMIT操作)中启用Fetch任务转换。
- `more`:扩展转换,支持更多类型的选择、过滤和LIMIT,包括TABLESAMPLE和虚拟列。
将`hive.fetch.task.conversion`设置为`more`可以大大提高查询效率,但需要注意,如果查询涉及聚合、去重、笛卡尔积、子查询、连接或 lateral views,Fetch任务转换可能无法应用。
案例实操展示了当`hive.fetch.task.conversion`设置为`none`时,即使是简单的查询,Hive也会执行完整的MapReduce流程。这演示了配置对查询性能的影响,也强调了理解并正确配置这些参数的重要性。
无论是Spark的资源调优还是Hive的Fetch抓取优化,都需要深入理解作业的工作原理和系统配置,以便为不同的查询场景提供最佳性能。对于初学者,通过实践和学习,逐渐掌握这些高级调优技巧,能够显著提升大数据处理的效率和体验。
196 浏览量
2018-09-29 上传
134 浏览量
LI_李波
- 粉丝: 64
- 资源: 4001
最新资源
- 淡蓝商业营销公司网页模板
- 电子-SD.rar
- Cometica:护理伦理委员会(投诉模块)
- fpe(未完成).e.rar
- linter-formatter-config:React JS项目的Eslint和更漂亮的配置
- libxml:轻量级的XML读取器和写入器
- 仿网页交互简约时尚UI风格动画ppt模板.zip
- 宽广天地商务公司网页模板
- shut.rar_C/C++_
- fieanafer.github.io
- VisualSVN-Server-4.2.1-x64增加在线修改用户密码的功能.zip
- 法明顿克里克批次
- COSC4353
- 乘风破浪 2017个人年终工作总结ppt模板.rar
- c.rar_Windows编程_C/C++_
- Fotushop.rar