Hive开发规范与最佳实践
5星 · 超过95%的资源 需积分: 46 76 浏览量
更新于2024-07-29
2
收藏 953KB PPT 举报
"该文件是关于Hive开发规范的PPT,主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源管理和表的存储格式等关键点,旨在帮助理解Hadoop集群和Hive数据库的使用和管理。"
1. **表的命名规范**
- `t_temptable` 用于表示临时表,这类表通常会被定期清理,仅保留最近的数据。
- `s_sourcetable` 指源表,是从其他系统(如Oracle)同步至HDFS的表,一般不做删除操作。
- `r_resulttable` 是结果表,用于导入Oracle或长期保存,供其他程序使用,原则上也不删除,但增量结果表可保留每天数据,全量结果表可保存最近1周或1月。
2. **表的生命周期管理**
- 管理策略建议通过系统记录表信息和保存周期。
- 临时表保留最近一天数据,特殊情况需备案。
- 源表和结果表一般不删除,但考虑存储空间,可针对特定业务需求删除部分大表。
3. **表分区字段命名**
- 统一使用 `pt` 作为分区字段名,简化书写。
- 分区日期格式:按天分区用 `yyyy-MM-dd`,按小时分区用 `yyyyMMddHH`。
4. **集群计算资源管理**
- 查询时应限定分区,以缩小数据范围,提升查询效率。
- 可通过 `http://ubs-hadoop-01:50030/jobtracker.jsp` 监控作业信息。
- 需取消作业时,使用 `hadoop job -kill 作业ID` 杀死作业,避免资源浪费。
5. **表存储格式**
- 统一采用 `rcfile` 存储格式,因其具有较好的存储效率和性能优势。
6. **其他考虑**
- 对于长时间运行且进度缓慢的作业,应主动终止,释放计算资源。
总结来说,这份资料提供了Hive开发中的一套完整规范,包括如何命名和管理表,如何优化查询,以及如何有效利用集群资源,对于理解和实践Hive开发具有指导意义。同时,它强调了良好的数据管理和资源利用率在大数据处理中的重要性。
2019-09-24 上传
2021-09-08 上传
2021-10-02 上传
2022-11-13 上传
2023-03-24 上传
2021-08-15 上传
2023-12-21 上传
aileen_cai
- 粉丝: 0
- 资源: 1
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载