Hive开发规范与最佳实践

5星 · 超过95%的资源需积分: 46 76 浏览量更新于2024-07-29 2 收藏 953KB PPT 举报

"该文件是关于Hive开发规范的PPT，主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源管理和表的存储格式等关键点，旨在帮助理解Hadoop集群和Hive数据库的使用和管理。" 1. **表的命名规范** - `t_temptable` 用于表示临时表，这类表通常会被定期清理，仅保留最近的数据。 - `s_sourcetable` 指源表，是从其他系统（如Oracle）同步至HDFS的表，一般不做删除操作。 - `r_resulttable` 是结果表，用于导入Oracle或长期保存，供其他程序使用，原则上也不删除，但增量结果表可保留每天数据，全量结果表可保存最近1周或1月。 2. **表的生命周期管理** - 管理策略建议通过系统记录表信息和保存周期。 - 临时表保留最近一天数据，特殊情况需备案。 - 源表和结果表一般不删除，但考虑存储空间，可针对特定业务需求删除部分大表。 3. **表分区字段命名** - 统一使用 `pt` 作为分区字段名，简化书写。 - 分区日期格式：按天分区用 `yyyy-MM-dd`，按小时分区用 `yyyyMMddHH`。 4. **集群计算资源管理** - 查询时应限定分区，以缩小数据范围，提升查询效率。 - 可通过 `http://ubs-hadoop-01:50030/jobtracker.jsp` 监控作业信息。 - 需取消作业时，使用 `hadoop job -kill 作业ID` 杀死作业，避免资源浪费。 5. **表存储格式** - 统一采用 `rcfile` 存储格式，因其具有较好的存储效率和性能优势。 6. **其他考虑** - 对于长时间运行且进度缓慢的作业，应主动终止，释放计算资源。总结来说，这份资料提供了Hive开发中的一套完整规范，包括如何命名和管理表，如何优化查询，以及如何有效利用集群资源，对于理解和实践Hive开发具有指导意义。同时，它强调了良好的数据管理和资源利用率在大数据处理中的重要性。

4 、集群计算资源方面

集群计算资源方面：

查询时记得带上分区限制，有利于减少查询的数据的范围，提高查询速度。

http://ubs-hadoop-01:50030/jobtracker.jsp

从以上页面了解自己提交的作业的信息

如果已经启动了某个作业，又不想运行了，就及时杀掉这个作业 hadoop job

-kill 作业 ID

因为之前观察到某些作业，提交上去后，运行了 2 个小时多，才跑了 20% 的进

度，可能提交作业的人都已经不想运行这个作业了，或者已经前台退出了

。

但实际上这个作业后台还是在运行的。所以要及时杀掉这样的作业，腾出计算资

源。

剩余20页未读，继续阅读

aileen_cai

粉丝: 0
资源: 1

Hive开发规范与最佳实践

数仓ETL任务规范

大数据数据库表设计规范.pptx

数据仓库规范设计.pdf

kylin从部署到项目.ppt

大数据架构规划PPT学习教案.pptx

大数据架构规划PPT优质课件.pptx

Hadoop大数据开发基础课件汇总整本书电子讲义全套课件完整版ppt最新教学教程.pptx

2018网络安全生态峰会-创新安全分论坛总PPT.pdf

用友集团数据治理平台及企业实时数据中心解决方案（PPT）.pptx

大数据仓库构建@孙玄 ppt 资料

最新资源