互联网公司的OLAP实践:Greenplum在数据仓库中的应用

版权申诉
0 下载量 82 浏览量 更新于2024-07-07 收藏 10.14MB PDF 举报
"并行不悖 - OLAP 在互联网公司的实践与思考.pdf" 本文主要探讨了OLAP(在线分析处理)在互联网公司的应用实践与思考,由赵飞祥分享了他在太极计算机股份网络有限公司、北京竞技世界网络技术有限公司以及武汉斗鱼网络技术有限公司的工作经验。赵飞祥具有丰富的数据库背景,涉及Oracle、MySQL、PostgreSQL、Greenplum、MongoDB和Redis等技术。 文章首先介绍了Greenplum的状态和体系结构,Greenplum是一种大规模并行处理(MPP)的数据仓库系统,适合于大数据分析。接着,作者深入讨论了数据仓库的体系架构,包括数据生命周期、业务数据特点以及OLAP场景的应用。 数据仓库的生命周期分为“现在”(OLTP)、“过去”(OLAP)和“未来”(趋势分析)三个阶段。OLTP处理实时、在线的数据,具有小事务、高频率和高并发的特点;而OLAP则处理历史数据,用于分析决策,特点是事务大、频率低、并发低。未来的数据则涉及到趋势分析,通常结合离线和在线流系统进行。 OLAP场景举例中,提到了用户状态、金币状态、道具/物品状态、对账状态和活动反馈等业务相关场景,以及根据数据量、事务特点、查询需求来构建数据仓库架构的架构相关场景。 数据仓库的架构示意展示了数据从OLTP系统产生,经过ETL(提取、转换、加载)服务器,存储和计算在OLAP集群,然后通过数据集市、API接口服务器到前端界面展示,并与OLTP和趋势分析系统进行数据交互。此外,文章还提到了dbsync平台在OLAP数据流转中的作用。 在架构的具体技术实现部分,文章提到了轻量级数据仓库Inforbright,它与MySQL等其他数据库系统的结合使用,展示了互联网公司在数据仓库建设中多样化的技术选择和集成策略。 总体来看,本文为读者提供了关于OLAP在互联网公司实践的全面理解,涵盖了从理论概念到实际操作的多个层面,对于从事数据分析和数据仓库建设的专业人士具有很高的参考价值。