Hive开发规范：优化join操作与表管理

需积分: 46 146 浏览量更新于2024-07-14 收藏 953KB PPT 举报

"这篇文档是关于Hive开发规范的指南，涵盖了表的命名规范、生命周期管理、表分区字段的统一命名、集群计算资源的利用以及表的存储格式选择。" 在Hive开发中，遵循一定的规范能提升代码的可读性、性能以及资源管理效率。以下是一些关键点的详细说明： 1. **表的命名规范**： - 临时表以`t_temptable`开头，这类表通常用于中间计算，应定期清理，只保留最近一天的数据。 - 源表（s_sourcetable）存储来自其他系统的原始数据，不做删除，确保数据源的完整性。 - 结果表（r_resulttable）用于最终结果或长期保存，若非必要，不应删除。 2. **表的生命周期管理**： - 表的生命周期应记录在系统中，临时表一般保留一天，特殊情况需备案。 - 源表和结果表原则上不删除，但考虑存储空间，部分只需保留一定时间的表可特殊处理。 3. **分区字段命名**： - 分区字段统一定名为`pt`，简化书写，便于统一管理。 - 分区格式：按天分区使用`yyyy-MM-dd`，按小时分区采用`yyyyMMddHH`。 4. **集群计算资源利用**： - 查询时应包含分区限制，以缩小查询范围，提高查询速度。 - 通过监控页面（如http://ubs-hadoop-01:50030/jobtracker.jsp）跟踪作业状态，及时终止不必要的作业，释放资源。 5. **表存储格式**： - 推荐使用`rcfile`格式，因其在存储效率和查询性能上有优势。此外，对于join操作的书写，有以下几点需要注意： - **Join操作规范**： - Where条件应写在各自表的子句中，提高执行效率。 - 避免在select中使用`*`，应明确列出所需字段，以利用Hive的列裁剪优化。 - 使用临时表存储中间结果，提高代码可读性和性能分析。 - 小表应放在join操作的左边，以减少内存溢出风险，因为Hive会将join前的表加载到内存中。遵循这些规范，可以显著提升Hive开发的效率和系统的稳定运行，同时也有利于团队协作和后期的维护工作。

4 、集群计算资源方面

集群计算资源方面：

查询时记得带上分区限制，有利于减少查询的数据的范围，提高查询速度。

http://ubs-hadoop-01:50030/jobtracker.jsp

从以上页面了解自己提交的作业的信息

如果已经启动了某个作业，又不想运行了，就及时杀掉这个作业 hadoop job

-kill 作业 ID

因为之前观察到某些作业，提交上去后，运行了 2 个小时多，才跑了 20% 的进

度，可能提交作业的人都已经不想运行这个作业了，或者已经前台退出了

。

但实际上这个作业后台还是在运行的。所以要及时杀掉这样的作业，腾出计算资

源。

剩余20页未读，继续阅读

getsentry

粉丝: 28
资源: 2万+

Hive开发规范：优化join操作与表管理

Hadoop-Hive：动态分区、分桶、函数详解与DDL操作

mustached-hive-udfs: 探索和应用Hive的UDF和UDAF

深入学习tw-hive：掌握Hive API与数据操作技巧

apache-hive资源 apache-hive-2.3.2-bin tar文件

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

hive-笔记--hive常用用法

Apache Hadoop---Hive.docx

HIVE-SQL开发规范.zip

HIVE-SQL开发规范.docx

Hive4--HIVE元数据库.pdf

最新资源