漫谈数仓基础架构:从Lambda到Kappa
PDF格式 | 540KB |
更新于2024-08-30
| 38 浏览量 | 举报
"本文是关于数据仓库基础架构的探讨,主要涵盖了数仓的架构演进、逻辑分层、数据调研、主题域划分、数仓规范以及数据治理等关键点。作者紫霞仙子通过深入浅出的方式介绍了这些核心概念,为理解数仓建设提供了基础指导。"
在数仓的【架构演进】中,我们见证了从传统的离线数据仓库到实时数据仓库的转变。这一演变过程中,架构从lambda架构发展到kappa架构,再到更灵活的混合架构。Lambda架构强调数据处理的三个阶段:摄取、处理和存储,而kappa架构则更加专注于事件驱动,去掉中间的批处理层,强调实时处理。随着技术的进步,现代数仓往往采用混合架构,结合离线和实时处理的优势,以满足不同场景的需求。
在【逻辑分层】方面,数仓通常按照ODS(原始数据层)、DW(数据仓库层)和DM(数据集市层)进行分层。企业根据自身业务特点会衍生出不同架构模式,比如经典的四层架构:ODS、DWD(数据清洗层)、DWS(数据服务层)和ADS(应用数据层)。此外,还有其他如BDL、FDL、GDL和ADL等自定义分层模式。
【技术选型】上,传统数仓常选用Oracle、Greenplum、Teradata等关系型数据库,而互联网数仓则偏向于Hadoop生态系统,以Hive作为离线处理的核心,Spark用于准实时处理,实时处理则依赖Flink。
【数据调研】是数仓建设的重要步骤,包括业务调研、需求调研和数据库调研。业务调研要求与业务侧保持一致,遵循关系型数据库建模流程,从概念模型到逻辑模型再到物理模型。需求调研关注现有的BI报表、统计需求、用户画像和推荐系统等。数据库调研则是为了理解数据结构和业务流程。
【主题域划分】是基于业务高度抽象进行的,可以先确定业务单元(BU),然后依据概念模型进行主题划分,构建总线矩阵,遵循Kimball的经典建模步骤:选择业务过程、声明粒度、确定维度和确定事实。
【数仓规范】确保了企业级数据仓库的有序建设,包括命名、流程、设计和开发等方面的规范。制定规范有助于保持项目的一致性和可维护性。
最后,【数据治理】是大数据时代的关键,涉及数据质量、元数据管理、数据安全和数据生命周期管理。数据质量要求数据完整、准确、一致和及时;元数据管理关注数据的背景信息,特别是技术元数据和业务元数据;数据安全涵盖多个层面,确保数据的保护和合规使用。数据治理是保障企业数据资产健康和价值的基础。
相关推荐



6 浏览量

10 浏览量

weixin_38650066
- 粉丝: 5
最新资源
- Node.js基础代码示例解析
- MVVM Light工具包:跨平台MVVM应用开发加速器
- Halcon实验例程集锦:C语言与VB的实践指南
- 维美短信API:团购网站短信接口直连解决方案
- RTP转MP4存储技术解析及应用
- MySQLFront客户端压缩包的内容分析
- LSTM用于PTB数据库中ECG信号的心电图分类
- 飞凌-MX6UL开发板QT4.85看门狗测试详解
- RepRaptor:基于Qt的RepRap gcode发送控制器
- Uber开源高性能地理数据分析工具kepler.gl介绍
- 蓝色主题的简洁企业网站管理系统模板
- 深度解析自定义Launcher源码与UI设计
- 深入研究操作系统中的磁盘调度算法
- Vim插件clever-f.vim:深度优化f,F,t,T按键功能
- 弃用警告:Meddle.jl中间件堆栈使用风险提示
- 毕业设计网上书店系统完整代码与论文