Hive开发规范与最佳实践
"该文件是关于Hive开发规范的PPT,主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源管理和表的存储格式等关键点,旨在帮助理解Hadoop集群和Hive数据库的使用和管理。" 1. **表的命名规范** - `t_temptable` 用于表示临时表,这类表通常会被定期清理,仅保留最近的数据。 - `s_sourcetable` 指源表,是从其他系统(如Oracle)同步至HDFS的表,一般不做删除操作。 - `r_resulttable` 是结果表,用于导入Oracle或长期保存,供其他程序使用,原则上也不删除,但增量结果表可保留每天数据,全量结果表可保存最近1周或1月。 2. **表的生命周期管理** - 管理策略建议通过系统记录表信息和保存周期。 - 临时表保留最近一天数据,特殊情况需备案。 - 源表和结果表一般不删除,但考虑存储空间,可针对特定业务需求删除部分大表。 3. **表分区字段命名** - 统一使用 `pt` 作为分区字段名,简化书写。 - 分区日期格式:按天分区用 `yyyy-MM-dd`,按小时分区用 `yyyyMMddHH`。 4. **集群计算资源管理** - 查询时应限定分区,以缩小数据范围,提升查询效率。 - 可通过 `http://ubs-hadoop-01:50030/jobtracker.jsp` 监控作业信息。 - 需取消作业时,使用 `hadoop job -kill 作业ID` 杀死作业,避免资源浪费。 5. **表存储格式** - 统一采用 `rcfile` 存储格式,因其具有较好的存储效率和性能优势。 6. **其他考虑** - 对于长时间运行且进度缓慢的作业,应主动终止,释放计算资源。 总结来说,这份资料提供了Hive开发中的一套完整规范,包括如何命名和管理表,如何优化查询,以及如何有效利用集群资源,对于理解和实践Hive开发具有指导意义。同时,它强调了良好的数据管理和资源利用率在大数据处理中的重要性。
剩余20页未读,继续阅读
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护