大数据数仓建设:从问题到规范
需积分: 5 86 浏览量
更新于2024-07-14
收藏 923KB DOCX 举报
"该文档是关于基于Hive搭建的大数据数据仓库的规范和实践,主要针对想成为数仓架构师或开发人员的读者。文档详细介绍了数据仓库的建设背景、存在的问题以及相应的改进措施,提供了具体的数仓分层、命名规范和日常开发规范。"
在大数据领域,数据仓库是用于存储、管理和分析大量结构化数据的系统。在基于Hive的数据仓库环境中,文件主要讨论了以下几个关键知识点:
1. 数据仓库体系建设:
- 背景:面对报表和仓库表数量过多的情况,需要通过建立数据体系进行规范,以便于管理和识别。数据体系的建设包括为每个表定义明确的业务含义和身份,实现业务的清晰区分。
2. 存在的问题:
- 层级不规范,不符合行业标准。
- 宽表字段不完整。
- 主题表缺失,如电商日志数据。
- 字段和表名命名不规范,导致复用性和理解性降低。
- 主题划分不清晰,缺乏业务建模概念。
3. 改进措施:
- 对标行业标准,采用ODS(数据贴源层)、DWD(仓库基础层)、DWS(业务线汇总层)、ADS(数据应用层)的分层结构。
- 合理冗余字段以提高查询效率和数据完整性。
- 补充和拆分主题,确保数据全面性。
- 实施严格的字段命名规范,统一业务名称和数据类型。
- 设定表名规范,包含层次、业务线、数据主题、存储策略和计算周期等信息。
- 规范化的指标系统建设,提升数据分析能力。
- 划分多个主题,如用户设备、流量/日志、会员、订单等,并设计主题间的宽表和窄表。
4. 当前成果:
- 文档已经涵盖了数据表的设计、规范以及部分已经实施的改进方案,为读者提供了一个实际项目的参考。
通过这份文档,读者可以了解到如何在Hive环境下构建和优化数据仓库,以及如何制定和遵循相关的开发规范,这对于想要从事大数据数仓工作的人来说是非常宝贵的资源。同时,它也强调了数据仓库的组织结构、命名规则和业务一致性的重要性,这些都是构建高效、易用的数据仓库的关键要素。
2021-10-26 上传
2020-06-12 上传
2022-10-06 上传
2024-04-18 上传
2022-12-17 上传
killwolf0
- 粉丝: 1
- 资源: 4
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫