Hive开发规范:集群计算资源管理和表设计

需积分: 46 78 下载量 111 浏览量 更新于2024-07-14 收藏 953KB PPT 举报
集群计算资源方面-Hive开发规范 本文档主要介绍了Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面。以下是对每个方面的详细说明: 1. 表的命名规范 在Hive中,表的命名规范是非常重要的。根据表的用途,可以将表分为三类:临时表(t_temptable)、源表(s_sourcetable)和结果表(r_resulttable)。临时表用于存储中间结果,源表用于存储原始数据,结果表用于存储最终结果。每种表都有其特定的命名规则和生命周期管理策略。 2. 表的生命周期管理 表的生命周期管理是指对表的创建、使用和删除的管理。对于临时表,通常只需要保存最近一天的数据,因此可以定期清理临时表,删除不需要的数据。对于源表和结果表,原则上是不做删除操作的,但是在考虑到存储空间的问题时,可以根据业务需求删除一些特别大的结果表。 3. 表分区字段统一命名 为了方便表的管理和查询,表分区字段统一命名为pt(partition的缩写)。同时,日期格式统一为yyyy-MM-dd,如果分区是按小时分区,则与ubs的小时分区保持一致,yyyyMMddHH。 4. 集群计算资源方面 在集群计算资源方面,查询时需要带上分区限制,以减少查询的数据范围和提高查询速度。同时,需要了解自己提交的作业的信息,可以通过http://ubs-hadoop-01:50030/jobtracker.jsp页面了解作业的信息。如果已经启动了某个作业,但不想运行了,就需要及时杀掉这个作业,以腾出计算资源。 5. 表存储格式统一使用RCFile RCFile是一种高效的存储格式,具有较高的存储优势。因此,在Hive中,表存储格式统一使用RCFile,以提高存储效率和查询速度。 本文档提供了一个详细的Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面,为Hive开发提供了一个有价值的参考。