数据仓库概念解析:从OLTP到分析系统

需积分: 47 1 下载量 19 浏览量 更新于2024-08-18 收藏 7.97MB PPT 举报
"网状模型-数据仓库概念" 网状模型是一种数据存储结构,它以有向图的形式表示数据,其中的节点代表实体,而有向边则表示实体之间的关联,这种关联通常是一对多的关系。在描述的例子中,可以想象学生、课程和选课这三个实体,学生可以选修多门课程,而每门课程可以被多个学生选修,这就形成了一个网状结构。 数据仓库是一种专门设计用于支持决策分析的系统,与传统的在线事务处理(OLTP)系统有着显著的区别。OLTP系统主要处理日常操作,如银行交易或电子商务订单,它们强调数据的实时性和事务一致性,数据量相对较小,且通常只存储当前数据。相反,数据仓库是面向主题的,它整合来自不同源的数据,以支持管理层的分析需求,处理大量历史和当前数据,实时性要求较低,但数据检索量大,且数据一般不允许更新。 数据仓库的发展历程经历了从Bill Inmon的企业级数据仓库概念到Kimball的数据集市策略。Bill Inmon主张构建单一、全面的企业数据仓库,而Kimball则提倡先构建数据集市,这些数据集市在初期取得了成功,但后来暴露出了数据集成和一致性的问题。1996年至2001年间,业界出现了各种术语和架构,如企业数据仓库(EDW)、操作数据存储(ODS)和数据集市(DataMart),最终趋向于融合,即通过企业信息工厂(Corporate Information Factory)架构或扩展数据仓库架构来整合这些概念。 数据仓库的四个基本特征是: 1. 面向主题:数据仓库围绕特定业务领域的问题或主题进行组织,而不是按照具体的应用程序。 2. 集成的:数据仓库将来自不同源的数据统一整理,消除数据冗余和不一致性。 3. 随时间不断变化:数据仓库包含历史数据,可以追踪数据随时间的变化。 4. 不可更新的:数据仓库中的数据主要是用于分析,不支持频繁的更新操作。 在保险公司的例子中,主题可能包括保单、客户、理赔等,每个主题下会包含与之相关的详细数据,以便进行深入的分析和报告,支持公司的决策制定。