数据仓库分层与命名规范解析
版权申诉
5星 · 超过95%的资源 165 浏览量
更新于2024-08-04
收藏 3.29MB PDF 举报
本文主要介绍了数据仓库建设中的数仓命名规范和数据分层原则,重点关注ODS、DW(包括DWD、DWM、DWS)三层的数据处理与组织。
在构建大数据数仓的过程中,规范化的命名是确保数据质量和管理效率的关键。数仓的命名规范通常包括对数据表、字段、数据类型、业务含义等方面的清晰定义,以便于团队协作和后期的数据维护。
首先,数据运营层(ODS,Operational Data Store)是数据仓库的入口,它直接对接原始数据源,保持数据的原始性和完整性。ODS层不进行复杂的清洗工作,主要目的是保留原始数据以便后续问题追踪。数据的去重、异常值处理等预处理工作应在ODS之后的层次完成。
接下来是数据仓库层(DW,Data Warehouse),这是数据仓库的核心。在DW层,数据根据主题进行组织,构建各种数据模型。DW层进一步细分为三个子层:
1. 数据明细层(DWD,Data Warehouse Detail):DWD层保持与ODS层相同的数据粒度,提供数据质量保证。这一层主要负责数据的清洗、整合、规范化,处理脏数据、异常数据,统一命名和状态定义。同时,为了方便使用,可能会将一些维度退化到事实表中,减少查询时的关联操作。此外,也可能会进行轻度的聚合,以便提高数据的可用性。
2. 数据中间层(DWM,Data WareHouse Middle):DWM层在DWD层的基础上进行轻度聚合,生成中间表,提高公共指标的复用性,减少重复计算。这一层通常用于计算一些通用的核心维度的统计指标,以优化计算效率和降低数据处理复杂度。
3. 数据服务层(DWS,Data WareHouse Servce):DWS层是面向业务应用的,它对数据进行轻度汇总,粒度较DWD层更粗,形成宽表,提供给业务查询和OLAP分析。按照不同的业务主题,如流量、订单、用户等,DWS层构建丰富的字段,满足80%以上的应用场景需求。
通过这样的数据分层和命名规范,数据仓库可以有效地管理和处理大规模数据,提高数据处理效率,同时也便于数据分析和决策支持。每个层级都有其特定的职责,共同构建了一个结构清晰、易于理解和使用的数据体系。
3192 浏览量
2466 浏览量
2022-12-13 上传
101 浏览量
2024-05-08 上传
310 浏览量
103 浏览量
2022-11-17 上传
Build前沿
- 粉丝: 1187
- 资源: 2418
最新资源
- trading-using-options-sentiment-indicators
- CIS基础知识
- torch_cluster-1.5.6-cp37-cp37m-linux_x86_64whl.zip
- NOTHING ON THE INTERNET-crx插件
- 解决sqlserver 2012 中ID 自动增长 1000的问题.zip
- 在游戏中解谜游戏
- 导航栏左右滑动焦点高亮菜单
- Omicron35:正在进行中的Panda3D游戏
- Audio-Classification:针对“重新思考音频分类的CNN模型”的Pytorch代码
- be-the-hero-app:在OmniStack 11.0周开发的前端项目
- awvs12_40234.zip
- torch_sparse-0.6.4-cp37-cp37m-win_amd64whl.zip
- 团队建设讲座PPT
- 导航菜单下拉滑动油漆刷墙
- wkhtmltopdf.zip
- ShapeShit:软件开发