漫谈数仓基础架构:从Lambda到Kappa
48 浏览量
更新于2024-08-30
收藏 540KB PDF 举报
"本文是关于数据仓库基础架构的探讨,主要涵盖了数仓的架构演进、逻辑分层、数据调研、主题域划分、数仓规范以及数据治理等关键点。作者紫霞仙子通过深入浅出的方式介绍了这些核心概念,为理解数仓建设提供了基础指导。"
在数仓的【架构演进】中,我们见证了从传统的离线数据仓库到实时数据仓库的转变。这一演变过程中,架构从lambda架构发展到kappa架构,再到更灵活的混合架构。Lambda架构强调数据处理的三个阶段:摄取、处理和存储,而kappa架构则更加专注于事件驱动,去掉中间的批处理层,强调实时处理。随着技术的进步,现代数仓往往采用混合架构,结合离线和实时处理的优势,以满足不同场景的需求。
在【逻辑分层】方面,数仓通常按照ODS(原始数据层)、DW(数据仓库层)和DM(数据集市层)进行分层。企业根据自身业务特点会衍生出不同架构模式,比如经典的四层架构:ODS、DWD(数据清洗层)、DWS(数据服务层)和ADS(应用数据层)。此外,还有其他如BDL、FDL、GDL和ADL等自定义分层模式。
【技术选型】上,传统数仓常选用Oracle、Greenplum、Teradata等关系型数据库,而互联网数仓则偏向于Hadoop生态系统,以Hive作为离线处理的核心,Spark用于准实时处理,实时处理则依赖Flink。
【数据调研】是数仓建设的重要步骤,包括业务调研、需求调研和数据库调研。业务调研要求与业务侧保持一致,遵循关系型数据库建模流程,从概念模型到逻辑模型再到物理模型。需求调研关注现有的BI报表、统计需求、用户画像和推荐系统等。数据库调研则是为了理解数据结构和业务流程。
【主题域划分】是基于业务高度抽象进行的,可以先确定业务单元(BU),然后依据概念模型进行主题划分,构建总线矩阵,遵循Kimball的经典建模步骤:选择业务过程、声明粒度、确定维度和确定事实。
【数仓规范】确保了企业级数据仓库的有序建设,包括命名、流程、设计和开发等方面的规范。制定规范有助于保持项目的一致性和可维护性。
最后,【数据治理】是大数据时代的关键,涉及数据质量、元数据管理、数据安全和数据生命周期管理。数据质量要求数据完整、准确、一致和及时;元数据管理关注数据的背景信息,特别是技术元数据和业务元数据;数据安全涵盖多个层面,确保数据的保护和合规使用。数据治理是保障企业数据资产健康和价值的基础。
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
weixin_38650066
- 粉丝: 5
最新资源
- 解决黑苹果UHD620仿冒驱动的亮度问题技巧
- Python爬虫实战:抓取东方财富公告数据
- DataLink平台:实现异构数据源间实时增量同步
- phpSMTP实现便捷的邮件发送操作
- CodeIgniter 4新手入门及应用程序安装更新指南
- 水之窗辅助计算v1.21:建筑给排水轻松搞定
- TypeScript开发的Intern-Manager后端项目介绍
- 《现代Java EE应用架构设计》电子书+代码包下载
- 基于JavaScript的融资模拟游戏hypoport-game
- 慈善应用开发技术与功能介绍
- alsa-utils与alsa-lib版本更新及编译指南
- 掌握Android DatePicker控件实现日期选择功能
- DHT11温湿度传感器的数字量输出解析
- DocBar插件v2.0:CAD多窗口切换新体验
- 遗体埋葬地点预约系统方案
- 深入解析:XML与JSON及其在移动互联中的应用