Hive开发规范：表分区字段统一为pt

需积分: 46 82 浏览量更新于2024-07-14 收藏 953KB PPT 举报

"Hive开发规范旨在提高数据管理和查询效率，包括表命名规范、生命周期管理、分区字段命名、集群计算资源利用以及存储格式的选择。" 1. **表的命名规范** Hive中的表命名遵循一定的规则，以提高可读性和管理性。临时表前缀为`t_temptable`，这些表通常只保留最近一天的数据，并且有一个自动清理过程。源表（s_sourcetable）用于计算，不做删除，而结果表（r_resulttable）用于导入Oracle或长期保存，通常不删除，除非有特定的存储空间需求。 2. **表的生命周期管理** 表的生命周期管理建议通过系统跟踪，记录表名、数据路径和保存周期。临时表一般只保留一天数据，特殊情况需备案。源表和结果表原则上不删除，但若业务需求允许，可以针对大表进行有限期的删除以节省存储。 3. **表分区字段统一命名为pt** 为了简化书写和提高一致性，新的Hive表分区字段都命名为`pt`，替代了如ubs系统的`log_time_pariod`等较长字段名。日期格式根据分区级别有所不同，按天分区使用`yyyy-MM-dd`，按小时分区则采用`yyyyMMddHH`。 4. **集群计算资源方面** 在查询时应充分利用分区限制来缩小数据处理范围，提升查询速度。开发人员可以通过监控页面（如http://ubs-hadoop-01:50030/jobtracker.jsp）查看作业状态，并及时杀死不再需要的作业，释放计算资源。 5. **表存储格式统一使用RCFile** RCFile（Record Columnar File）是Hive推荐的存储格式，因为它提供了较高的存储效率和查询性能。这种格式优化了列式存储，适合大数据分析场景。总结起来，Hive开发规范是为了确保数据管理的有效性、一致性，并优化集群资源使用。通过标准化的命名、生命周期管理、分区策略以及存储格式选择，可以提高开发效率，降低维护成本，同时提升数据分析的速度和准确性。

4 、集群计算资源方面

集群计算资源方面：

查询时记得带上分区限制，有利于减少查询的数据的范围，提高查询速度。

http://ubs-hadoop-01:50030/jobtracker.jsp

从以上页面了解自己提交的作业的信息

如果已经启动了某个作业，又不想运行了，就及时杀掉这个作业 hadoop job

-kill 作业 ID

因为之前观察到某些作业，提交上去后，运行了 2 个小时多，才跑了 20% 的进

度，可能提交作业的人都已经不想运行这个作业了，或者已经前台退出了

。

但实际上这个作业后台还是在运行的。所以要及时杀掉这样的作业，腾出计算资

源。

剩余20页未读，继续阅读

涟雪沧

粉丝: 19
资源: 2万+

Hive开发规范：表分区字段统一为pt

apache-hive-2.1.1-bin.tar

flink-connector-hive-2.11-1.13.2-API文档-中文版.zip

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

hive技术分享

Hive SQL性能优化

Hive开发规范：空值处理与表管理

优化大表同步：增量同步策略与Hive开发规范

Hive开发规范与最佳实践

HIVE开发规范与最佳实践

Hive开发规范：优化join操作与表管理

最新资源