大数据仓库分层与命名规范详解

需积分: 50 133 浏览量更新于2024-09-03 1 收藏 743KB PDF 举报

"数仓命名规范.pdf" 在大数据领域，数据仓库的设计与构建是至关重要的，而规范化的命名和数据分层则是确保数据仓库有效运行的基础。本文档详细介绍了数仓的命名规范以及数据分层的策略，旨在提高数据的易理解和使用性。首先，数据仓库的命名规范是确保所有团队成员能快速理解数据表用途的关键。规范应包括明确的层级标识、业务领域、数据来源以及表的功能等信息。例如，表名可以由“业务主题_层级_功能描述”构成，这样的命名方式有助于减少误解和提高协作效率。接着，文档阐述了数据分层的详细过程： 1. 数据运营层（ODS，Operational Data Store）：这是最接近原始数据的一层，通常直接接入未经处理的数据，保留源系统的原始特性，便于后期追溯数据问题。ODS层不做过多的数据清洗，以免丢失关键信息。 2. 数据仓库层（DW，Data Warehouse）包括三个子层： - 数据明细层（DWD，Data Warehouse Detail）：在这一层，数据会经过清洗、整合和规范化处理，去除脏数据、异常值，统一数据标准和命名规则。同时，为了方便使用，部分维度数据会被退化到事实表中，减少关联操作。此外，可能会进行初步的数据聚合，以提高数据的可用性。 - 数据中间层（DWM，Data WareHouse Middle）：在此层，数据会进行轻度聚合，生成中间表，提高公共指标的复用性，减少重复计算。这通常涉及对核心维度的统计指标计算，以优化计算性能。 - 数据服务层（DWS，Data WareHouse Servce）：作为公共汇总层，DWS进行轻度汇总，提供粒度较粗的业务报表数据。它通常是由DWD或DWM层的表聚合而成，以满足不同层次的分析需求。这样的分层设计有利于数据的管理，保证数据质量，同时也优化了查询性能。通过规范化的命名和清晰的分层结构，可以确保数据仓库系统易于维护和扩展，为业务决策提供准确、及时的信息支持。

数仓命名规范

0X00 前言

数据仓库的建设实施和落地需要团队中不同成员的参与和配合，需要各种各样

的规范，规范的分层定义和表命名能让使用者轻而易举地明白该表的作用和含义。

因此本文档重点介绍分层规范和可落地的表命名规范。

01XX 数据分层

一、数据运营层：ODS（Operational Data Store）

ODS 层，是最接近数据源中数据的一层，为了考虑后续可能需要追溯数据

问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即

可，至于数据的去噪、去重、异常值处理等过程可以放在后面的 DWD 层来做。

二、数据仓库层：

（

Data Warehouse

）

数据仓库层是我们在做数据仓库时要核心设计的一层，在这里，从 ODS 层中

获得的数据按照主题建立各种数据模型。DW 层又细分为 DWD（Data Warehouse

Detail）层、DWM（Data WareHouse Middle）层和 DWS（Data WareHouse Servce）

层。

1. 数据明细层：DWD（Data Warehouse Detail）

该层一般保持和 ODS 层一样的数据粒度，并且提供一定的数据质量保证。

DWD 层要做的就是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致

的、状态定义不一致的、命名不规范的数据都会被处理。

同时，为了提高数据明细层的易用性，该层会采用一些维度退化手法，将维度

下载后可阅读完整内容，剩余9页未读，立即下载

allantaylor81

粉丝: 0

大数据仓库分层与命名规范详解

数仓深度数据模型设计.pdf

数仓面试题-推荐-面试必看

数据库命名规范（通用）

数据治理之数仓命名规范大全.pdf

数仓命名规范大全！.pdf

0、增长中心数仓 建设方案.pdf

数据治理：数据仓库的数据质量管理规范.pdf

数据仓库规范设计.pdf

数据仓库建设规范模板.pdf

超全数仓规范全景图-思维导图.pdf

最新资源

0、增长中心数仓建设方案.pdf