Hive开发规范:集群计算资源管理和表设计
需积分: 46 111 浏览量
更新于2024-07-14
收藏 953KB PPT 举报
集群计算资源方面-Hive开发规范
本文档主要介绍了Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面。以下是对每个方面的详细说明:
1. 表的命名规范
在Hive中,表的命名规范是非常重要的。根据表的用途,可以将表分为三类:临时表(t_temptable)、源表(s_sourcetable)和结果表(r_resulttable)。临时表用于存储中间结果,源表用于存储原始数据,结果表用于存储最终结果。每种表都有其特定的命名规则和生命周期管理策略。
2. 表的生命周期管理
表的生命周期管理是指对表的创建、使用和删除的管理。对于临时表,通常只需要保存最近一天的数据,因此可以定期清理临时表,删除不需要的数据。对于源表和结果表,原则上是不做删除操作的,但是在考虑到存储空间的问题时,可以根据业务需求删除一些特别大的结果表。
3. 表分区字段统一命名
为了方便表的管理和查询,表分区字段统一命名为pt(partition的缩写)。同时,日期格式统一为yyyy-MM-dd,如果分区是按小时分区,则与ubs的小时分区保持一致,yyyyMMddHH。
4. 集群计算资源方面
在集群计算资源方面,查询时需要带上分区限制,以减少查询的数据范围和提高查询速度。同时,需要了解自己提交的作业的信息,可以通过http://ubs-hadoop-01:50030/jobtracker.jsp页面了解作业的信息。如果已经启动了某个作业,但不想运行了,就需要及时杀掉这个作业,以腾出计算资源。
5. 表存储格式统一使用RCFile
RCFile是一种高效的存储格式,具有较高的存储优势。因此,在Hive中,表存储格式统一使用RCFile,以提高存储效率和查询速度。
本文档提供了一个详细的Hive开发规范,涵盖了表的命名规范、表的生命周期管理、表分区字段统一命名、集群计算资源方面和表存储格式统一使用RCFile五个方面,为Hive开发提供了一个有价值的参考。
2021-04-27 上传
2012-06-08 上传
2012-11-29 上传
2022-04-29 上传
2024-04-08 上传
2023-03-14 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
getsentry
- 粉丝: 28
- 资源: 2万+
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载