企业数据仓库设计:理念、模型与应用

4星 · 超过85%的资源 需积分: 31 15 下载量 172 浏览量 更新于2024-07-26 收藏 2.72MB PPT 举报
数据仓库设计是一门关键的IT技术,它在企业的商业智能(Business Intelligence, BI)架构中扮演着核心角色。本文档涵盖了数据仓库设计的基本概念、数据模型以及重要术语。 首先,我们探讨了企业信息工厂(Corporate Information Factory, CIF),它是数据仓库(Data Warehouse, DW)和数据集市(Data Mart, DM)这两种商业智能数据存储形式的载体。CIF是企业数据中心的核心理念,其中DW主要负责整合来自多个异构数据源的数据,形成一个集中式的数据存储,方便DM进行访问。DW的设计依赖于实体关系数据模型,强调数据的一致性和可维护性。 在数据模型方面,文档介绍了几个关键概念。"Subject"指的是一个企业关注的主题领域,如客户、销售和产品,这些领域中的实体构成了数据的基础。实体则是具体的事物或对象,如客户、订单等,它们在数据模型中必须满足第三范式(3NF),即消除冗余,确保数据一致性。四种类型的实体包括: 1. **关键实体(Primary or Fundamental Entity)**:不可再分的,如客户、产品等,它们独立存在,有自己的唯一标识。 2. **子类型实体(Subtype Entity)**:如零售客户和批发客户,是父实体的细分,继承了父实体的属性和关系。 3. **属性实体(Attributive or Characteristic Entity)**:依赖于其他实体,如客户地址,表示一个实体可能具有多个此类属性。 4. **关联实体(Associative or Intersection Entity)**:连接两个或多个实体之间的关系,如订单,反映了客户和产品的交互。 元素或属性是实体的最基本单位,它们用于标识实体、建立父子关系以及包含非键属性。属性在主键、外键和非键属性等方面发挥重要作用。 此外,文档还提到了"Subject Area Model",这是对企业关注的主要领域进行的大规模组织方式,例如客户、销售或财务等,这些领域有助于企业聚焦于特定业务需求,进行数据分析和决策支持。 数据仓库设计是企业信息化过程中不可或缺的一部分,它通过有效的数据集成和模型设计,帮助企业更好地理解和利用其海量数据,以支持决策制定和商业洞察。理解并掌握这些概念和技术对于IT专业人士在实际项目中实现数据仓库的高效设计至关重要。
2009-04-29 上传
本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS和数据仓库 104 5.21 双重粒度级 109 5.22 数据