优化大表同步：增量同步策略与Hive开发规范

需积分: 46 40 浏览量更新于2024-07-14 收藏 953KB PPT 举报

在Hive开发规范中，针对大表同步的问题，一种优化策略是采用增量同步的方式。例如，处理大规模的dim_pt表时，如果全量同步耗时过长，可以先进行一次全量同步，随后每天仅同步新增或更改的数据，利用Hadoop等分布式计算框架（如MapReduce）进行数据合并，形成当天的全量数据。这种方式的好处在于，由于增量数据量小，同步过程更快，能快速完成，然后利用集群并行能力，有效利用存储资源，减少整体的同步时间。对于表的命名规范，建议使用t_temptable（临时表）存储短期数据，s_sourcetable（源表）作为计算源头，存储长期保留的数据，而r_resulttable（结果表）用于最终展示或长期保存，即使每天增量的结果表也应至少保留一周，全量结果表则可适当保留历史版本，如最近一个月。表的生命周期管理需考虑到存储空间的有效利用，对于临时表，一般保留最近一天的数据，特殊情况需备案；源表和结果表除非空间严重不足，否则不进行删除。分区字段统一命名有助于简化操作，建议使用"pt"表示分区。日期格式应统一，如天分区用yyyy-MM-dd，小时分区遵循ubs系统的格式yyyyMMddHH。在使用集群计算资源时，查询时加入分区条件可以缩小查询范围，提高效率。同时，监控作业状态，如发现长时间运行但进度缓慢的作业，应及时终止以释放计算资源。此外，表的存储格式选择也是关键，Hive推荐使用rcfile格式，因为rcfile具有较高的存储效率，这对于处理大量数据的场景非常有利。通过遵循这些规范，Hive开发人员可以有效地管理和优化大规模数据的处理流程，提升整个系统的性能和资源利用率。

4 、集群计算资源方面

集群计算资源方面：

查询时记得带上分区限制，有利于减少查询的数据的范围，提高查询速度。

http://ubs-hadoop-01:50030/jobtracker.jsp

从以上页面了解自己提交的作业的信息

如果已经启动了某个作业，又不想运行了，就及时杀掉这个作业 hadoop job

-kill 作业 ID

因为之前观察到某些作业，提交上去后，运行了 2 个小时多，才跑了 20% 的进

度，可能提交作业的人都已经不想运行这个作业了，或者已经前台退出了

。

但实际上这个作业后台还是在运行的。所以要及时杀掉这样的作业，腾出计算资

源。

剩余20页未读，继续阅读

活着回来

粉丝: 28
资源: 2万+

优化大表同步：增量同步策略与Hive开发规范

036GraphTheory(图论) matlab代码.rar

026SVM用于分类时的参数优化，粒子群优化算法，用于优化核函数的c,g两个参数(SVM PSO)Matlab代码.rar

药店管理-JAVA-基于springBoot的药店管理系统的设计与实现（毕业论文+开题）

【网络】基于matlab高动态网络拓扑中OSPF网络计算【含Matlab源码 10964期】.zip

今天吴老师上课的时候说我.txt

检测骨架图像的交点Matlab代码.rar

MMC simulink 模块化多电平变流器 载波移相 双闭环仿真 输出谐波分析，线性自抗扰控制LADRC 有仿真文件

自动驾驶控制-斯坦利（stanely）算法路径跟踪仿真 matlab和carsim联合仿真搭建的无人驾驶斯坦利控制器仿真验证，可以实现双移线，圆形，以及其他自定义的路径跟踪 跟踪效果如图，几乎没有误

TongRDS替代Redis的基本部署和开发流程.zip

基于mpvue实现豆瓣电影微信小程序@zce_mpvue-Douban.zip

最新资源

MMC simulink 模块化多电平变流器载波移相双闭环仿真输出谐波分析，线性自抗扰控制LADRC 有仿真文件

自动驾驶控制-斯坦利（stanely）算法路径跟踪仿真 matlab和carsim联合仿真搭建的无人驾驶斯坦利控制器仿真验证，可以实现双移线，圆形，以及其他自定义的路径跟踪跟踪效果如图，几乎没有误