Hive开发规范:空值处理与表管理
需积分: 46 47 浏览量
更新于2024-08-26
收藏 953KB PPT 举报
"这篇文档是关于Hive开发规范的,主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源使用以及表的存储格式选择。"
在Hive开发中,规范是非常重要的,它有助于维护数据的一致性和提高团队协作效率。以下是详细的知识点解析:
1. **表的命名规范**:
- `t_temptable` 用于临时表,这些表通常用于中间计算,定期会被清理,只保留最近一天的数据。
- `s_sourcetable` 源表,存储原始数据,不做删除,常用于数据同步。
- `r_resulttable` 结果表,用于导入其他系统或长期保存,一般不做删除,但全量结果表可按需保留最近一周或一月。
2. **表的生命周期管理**:
- 临时表管理策略应确保仅保留最近一天的数据,以节省存储空间。
- 源表和结果表通常不删除,但如果存储空间有限,某些结果表可以根据业务需求定时删除。
3. **表分区字段命名**:
- 分区字段统一定名为`pt`,简化书写,便于统一管理。
- 分区格式:按天分区使用`yyyy-MM-dd`,按小时分区采用`yyyyMMddHH`。
4. **集群计算资源利用**:
- 查询时应包含分区限制,以缩小查询范围,提高查询效率。
- 使用集群资源监控页面(如`http://ubs-hadoop-01:50030/jobtracker.jsp`)跟踪作业状态。
- 如果不再需要运行的作业,应及时使用`hadoop job -kill`命令进行终止,释放资源。
5. **表存储格式**:
- 推荐使用`rcfile`格式,因为它提供了较高的存储效率和读写性能。
此外,Hive开发规范还强调了对作业进度的监控,以及根据作业实际需求来管理和取消任务的重要性。遵循这些规范能有效地优化Hive环境,提高数据处理的效率和准确性。在大数据处理中,良好的数据组织和管理习惯是至关重要的,它们不仅能够提升工作效率,还能减少潜在的问题和错误。
2018-09-14 上传
2022-04-27 上传
2022-01-16 上传
2019-02-22 上传
点击了解资源详情
2023-06-10 上传
2024-09-12 上传
2024-10-04 上传
2023-05-25 上传
巴黎巨星岬太郎
- 粉丝: 17
- 资源: 2万+
最新资源
- Unix vi命令大全
- 第2章 JavaScript语言概述
- 第1章 JavaScript语言概述
- VMWare+SoftICE配合使用的方法
- Oracle数据库常用指令
- 微机原理与接口技术试卷及答案
- Executing SOA (执行SOA)2008
- EJB3电子教程--pdf格式
- Teach Yourself Java in 21 Days
- BlackBerry应用程序开发者指南 中文
- 基于DSP的音频采集、存储与回放系统设计与实现
- json教程--pdf格式
- XML语言实验源程序
- 我是一只IT小小鸟(现就职于各大公司的学长谈在校学习经验以及求职经历)
- oracle10g_view
- jstl详解,JSTL详解,jsp2.0标签