大数据数仓建设：从问题到规范

需积分: 5 86 浏览量更新于2024-07-14 收藏 923KB DOCX 举报

"该文档是关于基于Hive搭建的大数据数据仓库的规范和实践，主要针对想成为数仓架构师或开发人员的读者。文档详细介绍了数据仓库的建设背景、存在的问题以及相应的改进措施，提供了具体的数仓分层、命名规范和日常开发规范。" 在大数据领域，数据仓库是用于存储、管理和分析大量结构化数据的系统。在基于Hive的数据仓库环境中，文件主要讨论了以下几个关键知识点： 1. 数据仓库体系建设： - 背景：面对报表和仓库表数量过多的情况，需要通过建立数据体系进行规范，以便于管理和识别。数据体系的建设包括为每个表定义明确的业务含义和身份，实现业务的清晰区分。 2. 存在的问题： - 层级不规范，不符合行业标准。 - 宽表字段不完整。 - 主题表缺失，如电商日志数据。 - 字段和表名命名不规范，导致复用性和理解性降低。 - 主题划分不清晰，缺乏业务建模概念。 3. 改进措施： - 对标行业标准，采用ODS（数据贴源层）、DWD（仓库基础层）、DWS（业务线汇总层）、ADS（数据应用层）的分层结构。 - 合理冗余字段以提高查询效率和数据完整性。 - 补充和拆分主题，确保数据全面性。 - 实施严格的字段命名规范，统一业务名称和数据类型。 - 设定表名规范，包含层次、业务线、数据主题、存储策略和计算周期等信息。 - 规范化的指标系统建设，提升数据分析能力。 - 划分多个主题，如用户设备、流量/日志、会员、订单等，并设计主题间的宽表和窄表。 4. 当前成果： - 文档已经涵盖了数据表的设计、规范以及部分已经实施的改进方案，为读者提供了一个实际项目的参考。通过这份文档，读者可以了解到如何在Hive环境下构建和优化数据仓库，以及如何制定和遵循相关的开发规范，这对于想要从事大数据数仓工作的人来说是非常宝贵的资源。同时，它也强调了数据仓库的组织结构、命名规则和业务一致性的重要性，这些都是构建高效、易用的数据仓库的关键要素。

4仓库基础层规则：

层次固定为 。

业务线：::，37:: 语文

库名：和  保持一直，两个不同系统的订单表可以通过该标识区分。

表名：和  保持一致

存储策略：增量 (，全量 ，快照 )，拉链 *暂时没有需要。

计算周期：年+半年+季+月+周+日+时 ,+*,+-+.+/+0+*

在  新增规范，对于 ，$，&&，'& 等关键字字段，尽量附带业务属性，

并且命名后该字段要是其他表中能使用到的外键

!#' 表中的 (0，在其他表中的都是 #'!，那么定义的时候规范为有效主

键

示例：

!!!#'!!#;!$%!

!!!#'!!#'!$%!

4业务线数据整合层

业务线数据整合层规则：

表名 层次!业务线简称!表名!存储策略!计算周期

层次固定为

0/。

业务线简称：和

0/0



保持一致

表名：表名要能准确描述业务数据的特征。

存储策略：增量

(，全量

，快照 )，拉链

*暂时没有需要。

计算周期：年+半年+季+月+周+日+时 ,+*,+-+.+/+0+*。

4业务线汇总层

4跨业务线汇总层规则：

表名 层次!业务线!数据主题!表名!存储策略!计算周期

层次固定为 0/)。

数据主题：包括用户 '、订单 '' 等

表名：表名要能准确描述业务数据的特征。

存储策略：增量 (（分区表），全量 （非分区表），快照 )（分区表），拉链 *（分区

表）暂时没有需要。

计算周期：年+半年+季+月+周+日+时 ,+*,+-+.+/+0+*。

表名 层次!业务线!表名!&!存储策略!计算周期

表名 层次!业务线!数据主题!表名!存储策略!计算周期

示例：

!!!;;!=!=!##7!;"!!!

!!!&'2!$%!!

!!!&'2!$%!!

!!!&'2!$%!=!

剩余15页未读，继续阅读

killwolf0

粉丝: 1
资源: 4

大数据数仓建设：从问题到规范

数仓规范文档.rar

大数据技术-大数据数据仓库.docx

大数据的发展及数据仓库的融合应用.docx

大数据之数据仓库面试题.docx

银行大数据平台数据建模方法与应用-最佳实践.docx

Apache Hadoop---Hive.docx

大数据技术之Hive-v3.1.2.docx

银行传统数据仓库向大数据平台迁移探索.docx

上海海洋大学大数据仓库复习内容.docx

大数据简历--模板.docx

最新资源