Hive开发规范与模型设计要点

需积分: 46 80 浏览量更新于2024-07-14 收藏 953KB PPT 举报

"这篇文档主要介绍了Hive开发中的规范和最佳实践，旨在提升数据管理和计算效率。" 1、表的命名规范在Hive开发中，表的命名应遵循一定的规则，以确保清晰性和一致性。例如，`t_temptable`用于表示临时表，这些表会定期清理，仅保留最近一天的数据。`s_sourcetable`代表源表，通常是从其他系统同步过来的数据，不做删除操作。`r_resulttable`是结果表，用于导入到其他系统或长期保存，通常不做删除，但全量结果表可按需保留一定期限。 2、表的生命周期管理表的生命周期管理需要考虑存储空间的使用。临时表一般仅保存一天数据，源表和结果表原则上不删除，但如果业务需求允许，可以针对特定表进行删除以节省空间。建议建立管理系统记录表的相关信息，包括表名、数据路径和保存周期。 3、分区字段命名为了简化操作，所有表的分区字段建议统一命名为`pt`，代表partition。日期格式应标准化，如按天分区使用`yyyy-MM-dd`，按小时分区则采用`yyyyMMddHH`格式。 4、集群计算资源管理在查询时，应充分利用分区字段来限制查询范围，以提高查询速度。通过监控工具（如http://ubs-hadoop-01:50030/jobtracker.jsp）跟踪作业状态，如果不再需要运行的作业，应及时使用`hadoop job -kill`命令杀死，释放集群资源。 5、表存储格式选择推荐使用`rcfile`作为表的存储格式，因为它提供了较高的存储效率和读写性能。`rcfile`是列式存储格式，适合大数据分析场景。 6、其他注意事项在设计模型时，应从业务角度出发进行优化，这通常比单纯的技术优化更有效。随着业务发展，构建数据体系、数据集市和中间层模型，可以避免直接查询底层大表，从而提高查询效率和系统稳定性。总结来说，本篇文档强调了Hive开发中的规范化操作，包括命名规则、生命周期管理、分区策略、资源利用和存储格式选择，这些都是优化Hadoop集群性能和数据管理的关键因素。通过遵循这些规范，可以提升数据分析的效率，同时降低维护成本。

4 、集群计算资源方面

集群计算资源方面：

查询时记得带上分区限制，有利于减少查询的数据的范围，提高查询速度。

http://ubs-hadoop-01:50030/jobtracker.jsp

从以上页面了解自己提交的作业的信息

如果已经启动了某个作业，又不想运行了，就及时杀掉这个作业 hadoop job

-kill 作业 ID

因为之前观察到某些作业，提交上去后，运行了 2 个小时多，才跑了 20% 的进

度，可能提交作业的人都已经不想运行这个作业了，或者已经前台退出了

。

但实际上这个作业后台还是在运行的。所以要及时杀掉这样的作业，腾出计算资

源。

剩余20页未读，继续阅读

小婉青青

粉丝: 26
资源: 2万+

Hive开发规范与模型设计要点

大数据资源平台数据模型设计规范详解

Hive内部表与外部表详解：开发规范与注意事项

大数据数据仓库理论：Hadoop、Hive与分层设计解析

HIVE-SQL开发规范.docx

hive-jdbc.jar

大数据产品开发流程规范-大数据开发步骤和流程.pdf

毕业设计-IaaS与大数据平台方案设计与实施.pdf

数据开发过程辅助文档（开发规范）

Hive学习笔记（更新版）

主要介绍大数据数据仓库的理论知识，hadoop和hive相关知识

最新资源