Hive性能优化策略与问题深度解析

版权申诉

PDF格式 | 250KB | 更新于2024-07-08 | 84 浏览量 | 举报

Hive性能优化复习总结文档深入探讨了Hadoop计算框架在处理大规模数据时可能遇到的问题，特别是数据倾斜、job数过多导致的效率低下和特定聚合函数如count(distinct)的性能瓶颈。以下是关键知识点的详细解析： 1. **Hadoop计算框架特性与问题**: - 数据量大本身并非问题，但数据倾斜（数据在节点间的分布不均）会导致性能下降，因为mapreduce作业的初始化时间较长。 - 多次关联和汇总操作会产生多个jobs，这会显著降低整体执行速度。 2. **优化手段**: - **良好的模型设计**：合理的设计可以大幅减少不必要的计算，例如避免不必要的join和复杂查询。 - **解决数据倾斜**：通过调整mapreduce task数量，设置`hive.groupby.skewindata=true`来尝试自动优化，但开发人员需要根据具体业务场景调整。 - **减少job数**：通过优化查询逻辑，合并任务或使用其他聚合函数替代count(distinct)来减少job的数量。 - **合理设置task数**：避免过度分配资源，如对于10万级别的计算，160个reduce任务可能是浪费，应根据实际需求调整。 - **合并小文件**：合并文件有助于提高调度效率，保持文件数量适中，有利于整体性能提升。 3. **性能优化策略**: - 将HiveQL视为MapReduce程序看待，从底层运行机制出发思考优化，而非仅限于代码替换。 - **RAC（Real Application Cluster）的应用**：将Hive部署在真正的分布式集群环境中，理解其动态性和灵活性，能够更有效地应对性能挑战。 4. **性能根源分析**: - 性能低下往往源于深层次的系统和数据分布问题，而非单纯代码层面的优化。理解数据分布特征，结合业务逻辑，是找出性能瓶颈的关键。通过这些优化手段，开发人员可以有效地提升Hive在大数据处理中的性能，实现整体系统的最优运行状态。在实际工作中，持续监控和调整策略至关重要，以确保在不断变化的数据和环境条件下，保持最佳的计算效率。

* FROM

(

SELECTT

al,

COUNT(1) FROM T GROUP BY al

)subq U

建议贴边写，这样容易检查是否是中文括号!

WHERE subq. prtn=100;

(多余分区)

SELECT

* FROM

T1 JOIN

(

SELECT

FROM T2

)subq ON (Tl. al=subq. a2) WHERE subq.prtn=100;

查询语句若将

“subq. prtn

二

100”

条件放入子查询中更为高效，可以减少

读入的分区数目。

Hive

自动执行这种裁剪优化。

分区参数为：

hive, optimize. pruner=true

(默认值为真)

补充：实际集群操作过程中，加分区是重中之重，不加分区的后果非常可能把整个

队列资源占满，而导致

读写异常，无法登陆服务器及

hive!

切记切记分区操作和

limit

操作

JOIN 操作

在编写带有

join

操作的代码语句时，应该将条目少的表/子查询放在

Join

操作符的左边。因为在

Reduce

阶段，位于

Join

操作符左边的表的内容会被

加载进内存，载入条目较少的表可以有效减少

OOM (out of memory)

即内存溢

出。所以对于同一个

key

来说，对应的

value

值小的放前，大的放后，这便

是“小表放前” 原则。若一条语句中有多个

Join,

依据

Join

的条件相同与否，

有不同的处理方法。

JOIN

原则

在使用写有

Join

操作的查询语句时有一条原则：应该将条目少的表/子查询

放在

Join

操作符的左边。原因是在

Join

操作的

Reduce

阶段，位于

Join

操作

符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少

发生

00M

错误的几率。对于一条语句中有多个

Join

的情况，如果

Join

的条

件相同，一句话就是小表在左边比如查询：

剩余20页未读，继续阅读

Rose520817

粉丝: 1

Hive性能优化策略与问题深度解析

hive性能优化

HDP平台的Hive性能调优——Hive高性能最佳实践

hive优化经典.pdf

Hive权限设置说明文档.doc

Hive基础入门与实战.doc

hive语法和常用函数.doc

Hive的HBase存储接口.doc

hive基础知识复习笔记.zip

Hive日常积累优化技巧.pdf

大数据技术基础实验报告-Hive安装配置与应用.doc

最新资源