大众点评数据平台架构演进:从GreenPlum到HIVE的转型与模型升级

0 下载量 58 浏览量 更新于2024-08-31 收藏 610KB PDF 举报
"大众点评数据平台架构变迁经历了从1.0到2.0的重大演进,以支持业务发展和数据管理需求的不断升级。初期(1.0阶段,2012年7月)以用户报表为核心,Python编程语言被广泛应用于模型计算,数据存储和计算主要依赖GreenPlum,采用双集群备份策略。数据迁移过程通过DBA手动操作完成,调度机制借助Quartz,监控主要依赖用户程序自我诊断,异常情况通过邮件和手机警报通知。 到了2.0阶段(2013年4月),数据处理更加精细化,形成了ODS(原始数据)、DW(历史数据仓库)、DM(数据集市)和RPT(用户报表)四层模型,涵盖了流量、团购和信息等多个基础模型以及对应的业务场景。Canaan计算框架在此时开发,引入自定义UDF,提高了数据处理能力。存储和计算切换至HIVE,GreenPlum则负责小规模查询加速和报表存储。调度系统与Canaan集成,支持任务管理和依赖自动导入,主数据和ACL(访问控制列表)功能增强,对数据仓库元数据管理和权限控制进行了优化。 此外, Wormhole工具借鉴了阿里DataX的设计,提供了一套可视化的数据导入导出工具,使得数据传输更为便捷且与调度、主数据等系统无缝对接。随着任务量的增长,监控系统的复杂性和效率也得到了提升,以适应大规模数据处理的需求。 总体来说,大众点评的数据平台架构变迁反映了从单一报表支持到多层模型和自动化工具的成熟,以及对数据安全、性能和易用性的持续关注,体现了数据驱动业务决策的重要性。"