Hive开发规范:集群计算资源管理和表设计
需积分: 46 88 浏览量
更新于2024-07-14
收藏 953KB PPT 举报
集群计算资源方面-Hive开发规范
本文档主要介绍了Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面。以下是对每个方面的详细说明:
1. 表的命名规范
在Hive中,表的命名规范是非常重要的。根据表的用途,可以将表分为三类:临时表(t_temptable)、源表(s_sourcetable)和结果表(r_resulttable)。临时表用于存储中间结果,源表用于存储原始数据,结果表用于存储最终结果。每种表都有其特定的命名规则和生命周期管理策略。
2. 表的生命周期管理
表的生命周期管理是指对表的创建、使用和删除的管理。对于临时表,通常只需要保存最近一天的数据,因此可以定期清理临时表,删除不需要的数据。对于源表和结果表,原则上是不做删除操作的,但是在考虑到存储空间的问题时,可以根据业务需求删除一些特别大的结果表。
3. 表分区字段统一命名
为了方便表的管理和查询,表分区字段统一命名为pt(partition的缩写)。同时,日期格式统一为yyyy-MM-dd,如果分区是按小时分区,则与ubs的小时分区保持一致,yyyyMMddHH。
4. 集群计算资源方面
在集群计算资源方面,查询时需要带上分区限制,以减少查询的数据范围和提高查询速度。同时,需要了解自己提交的作业的信息,可以通过http://ubs-hadoop-01:50030/jobtracker.jsp页面了解作业的信息。如果已经启动了某个作业,但不想运行了,就需要及时杀掉这个作业,以腾出计算资源。
5. 表存储格式统一使用RCFile
RCFile是一种高效的存储格式,具有较高的存储优势。因此,在Hive中,表存储格式统一使用RCFile,以提高存储效率和查询速度。
本文档提供了一个详细的Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面,为Hive开发提供了一个有价值的参考。
2021-04-27 上传
2012-06-08 上传
2012-11-29 上传
2022-04-29 上传
2024-04-08 上传
2023-03-14 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
getsentry
- 粉丝: 24
- 资源: 2万+
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析