Hive开发规范与最佳实践

5星 · 超过95%的资源 需积分: 46 91 下载量 76 浏览量 更新于2024-07-29 2 收藏 953KB PPT 举报
"该文件是关于Hive开发规范的PPT,主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源管理和表的存储格式等关键点,旨在帮助理解Hadoop集群和Hive数据库的使用和管理。" 1. **表的命名规范** - `t_temptable` 用于表示临时表,这类表通常会被定期清理,仅保留最近的数据。 - `s_sourcetable` 指源表,是从其他系统(如Oracle)同步至HDFS的表,一般不做删除操作。 - `r_resulttable` 是结果表,用于导入Oracle或长期保存,供其他程序使用,原则上也不删除,但增量结果表可保留每天数据,全量结果表可保存最近1周或1月。 2. **表的生命周期管理** - 管理策略建议通过系统记录表信息和保存周期。 - 临时表保留最近一天数据,特殊情况需备案。 - 源表和结果表一般不删除,但考虑存储空间,可针对特定业务需求删除部分大表。 3. **表分区字段命名** - 统一使用 `pt` 作为分区字段名,简化书写。 - 分区日期格式:按天分区用 `yyyy-MM-dd`,按小时分区用 `yyyyMMddHH`。 4. **集群计算资源管理** - 查询时应限定分区,以缩小数据范围,提升查询效率。 - 可通过 `http://ubs-hadoop-01:50030/jobtracker.jsp` 监控作业信息。 - 需取消作业时,使用 `hadoop job -kill 作业ID` 杀死作业,避免资源浪费。 5. **表存储格式** - 统一采用 `rcfile` 存储格式,因其具有较好的存储效率和性能优势。 6. **其他考虑** - 对于长时间运行且进度缓慢的作业,应主动终止,释放计算资源。 总结来说,这份资料提供了Hive开发中的一套完整规范,包括如何命名和管理表,如何优化查询,以及如何有效利用集群资源,对于理解和实践Hive开发具有指导意义。同时,它强调了良好的数据管理和资源利用率在大数据处理中的重要性。