HIVE开发规范与最佳实践

需积分: 46 135 浏览量更新于2024-08-26 收藏 953KB PPT 举报

"这篇文档是关于HIVE开发的规范，主要涵盖了表的命名规范、生命周期管理、分区字段命名、集群计算资源使用以及表的存储格式选择。这份规范旨在提升HIVE开发的标准化和效率，同时优化集群资源的利用。" 在HIVE开发中，表的命名规范至关重要，以区分不同类型的表。临时表被标记为`t_temptable`，这类表通常会被定期清理，只保留最近一天的数据。源表，即`s_sourcetable`，用于计算的源数据，一般不做删除操作。结果表，或称`r_resulttable`，用于导入到其他系统或长期保存以供后续使用，对于全量结果表，建议保留最近一周或一个月的数据。表的生命周期管理需要系统化，建议在数据库中记录表的相关信息，包括数据路径和保存周期。临时表只需保留最近一天数据，特殊情况需备案。源表和结果表通常不删除，但根据业务需求，若某些表只需保留有限时间的数据，可考虑删除以节省存储空间。分区字段统一命名为`pt`，简化书写且便于识别。日期格式应遵循标准，按天分区采用`yyyy-MM-dd`，按小时分区采用`yyyyMMddHH`。这有助于保持代码的一致性和可读性。在使用HIVE进行集群计算时，应注意优化查询性能。通过限制分区条件可以缩小查询范围，提高速度。开发者可以通过监控页面（如http://ubs-hadoop-01:50030/jobtracker.jsp）跟踪作业信息。如果作业不再需要，应及时使用`hadoop job -kill`命令终止，避免占用不必要的计算资源。此外，表的存储格式推荐使用`rcfile`，这种格式在存储效率和查询性能上有优势。`rcfile`结合了列式存储和压缩，能够有效地支持大数据分析任务。这份HIVE开发规范旨在提高开发效率，确保数据管理和计算资源的有效利用，同时也强调了规范性和可维护性。开发者应遵循这些规则，以实现更高效、更稳定、更经济的HIVE应用。

冀北老许

粉丝: 19
资源: 2万+

HIVE开发规范与最佳实践

Hive开发规范与最佳实践

Hive开发规范与SQL编写指南

Hive开发规范：集群计算资源管理和表设计

hive驱动包hive-jdbc-uber-2.6.5.0-292.jar（用户客户端连接使用）

hive-jdbc-uber-2.6.5.0-292.zip

hive-jdbc-1.1.0-cdh5.12.1 连接库 jar包

hive开发规范

camel-hive:骆驼-jdbc的编辑版本

hive开发规范.ppt

Hive开发规范及要点

最新资源