数据架构:大数据、数据仓库与数据 Vault 概述

需积分: 9 22 下载量 171 浏览量 更新于2024-07-18 收藏 58.09MB PDF 举报
"Data Architecture: A Primer for the Data Scientist - Big Data, Data Warehouse, and Data Vault by W.H. Inmon and Daniel Linstedt" 本文档是数据架构领域的一本著作,由W.H. Inmon和Daniel Linstedt共同撰写。书中主要探讨了企业级数据的全景、大数据在决策中的作用、数据仓库对于数据完整性的需求、数据 vault 对数据随时间变化管理的重要性以及操作系统的日常业务需求。此外,还强调了如何通过架构将不同类型的数据库和不同的数据需求有机整合。 首先,书中的“大数据”概念被定义并讨论了其对决策过程的潜在提升。作者采取了一种实用主义的观点来解析大数据,特别提到了重复性与非重复性大数据之间的“大分野”,这是许多供应商在讨论大数据时容易忽视的关键差异。理解这一差异对于企业决策能力的影响至关重要。 其次,企业数据仓库(EDW)的出现是为了确保企业数据的可信度和完整性。在EDW之前,企业虽然拥有大量数据,但这些数据的可靠性受到质疑。EDW作为可信决策的基础,为企业提供了重要的支持。 接着,书中提到了数据 vault 的概念,这是数据仓库演进的最终形态,旨在提供对数据变化的管理和结构化控制,特别是在处理大量数据和确保数据完整性方面。 同时,操作系统的角色不容忽视,它们负责维持企业的日常运营。即使在追求大数据和数据仓库解决方案的同时,也不能忽略这些系统对组织运行效率的提升。 最后,书中探讨了数据架构的重要性,即如何以整体、连贯的方式将不同类型的数据和不同的数据需求融合在一起。这不仅仅是识别不同数据视角的需求,更重要的是构想如何使各种类型的数据在整体架构中相互配合,形成一个完整且协调的系统。 这本书不仅提供了对大数据、数据仓库和数据 vault 的深入理解,而且阐述了数据架构设计的复杂性和必要性,对数据科学家来说是一份极有价值的学习资料。