Hive开发规范:表分区字段统一为pt
需积分: 46 82 浏览量
更新于2024-07-14
收藏 953KB PPT 举报
"Hive开发规范旨在提高数据管理和查询效率,包括表命名规范、生命周期管理、分区字段命名、集群计算资源利用以及存储格式的选择。"
1. **表的命名规范**
Hive中的表命名遵循一定的规则,以提高可读性和管理性。临时表前缀为`t_temptable`,这些表通常只保留最近一天的数据,并且有一个自动清理过程。源表(s_sourcetable)用于计算,不做删除,而结果表(r_resulttable)用于导入Oracle或长期保存,通常不删除,除非有特定的存储空间需求。
2. **表的生命周期管理**
表的生命周期管理建议通过系统跟踪,记录表名、数据路径和保存周期。临时表一般只保留一天数据,特殊情况需备案。源表和结果表原则上不删除,但若业务需求允许,可以针对大表进行有限期的删除以节省存储。
3. **表分区字段统一命名为pt**
为了简化书写和提高一致性,新的Hive表分区字段都命名为`pt`,替代了如ubs系统的`log_time_pariod`等较长字段名。日期格式根据分区级别有所不同,按天分区使用`yyyy-MM-dd`,按小时分区则采用`yyyyMMddHH`。
4. **集群计算资源方面**
在查询时应充分利用分区限制来缩小数据处理范围,提升查询速度。开发人员可以通过监控页面(如http://ubs-hadoop-01:50030/jobtracker.jsp)查看作业状态,并及时杀死不再需要的作业,释放计算资源。
5. **表存储格式统一使用RCFile**
RCFile(Record Columnar File)是Hive推荐的存储格式,因为它提供了较高的存储效率和查询性能。这种格式优化了列式存储,适合大数据分析场景。
总结起来,Hive开发规范是为了确保数据管理的有效性、一致性,并优化集群资源使用。通过标准化的命名、生命周期管理、分区策略以及存储格式选择,可以提高开发效率,降低维护成本,同时提升数据分析的速度和准确性。
2022-06-19 上传
2022-06-06 上传
2022-06-23 上传
2017-07-17 上传
2024-02-26 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
涟雪沧
- 粉丝: 19
- 资源: 2万+
最新资源
- 新型智能电加热器:触摸感应与自动温控技术
- 社区物流信息管理系统的毕业设计实现
- VB门诊管理系统设计与实现(附论文与源代码)
- 剪叉式高空作业平台稳定性研究与创新设计
- DAMA CDGA考试必备:真题模拟及章节重点解析
- TaskExplorer:全新升级的系统监控与任务管理工具
- 新型碎纸机进纸间隙调整技术解析
- 有腿移动机器人动作教学与技术存储介质的研究
- 基于遗传算法优化的RBF神经网络分析工具
- Visual Basic入门教程完整版PDF下载
- 海洋岸滩保洁与垃圾清运服务招标文件公示
- 触摸屏测量仪器与粘度测定方法
- PSO多目标优化问题求解代码详解
- 有机硅组合物及差异剥离纸或膜技术分析
- Win10快速关机技巧:去除关机阻止功能
- 创新打印机设计:速释打印头与压纸辊安装拆卸便捷性