数据仓库粒度设计:粗略估算与权衡

需积分: 49 2 下载量 19 浏览量 更新于2024-09-07 收藏 293KB PDF 举报
本资源主要讨论了数据仓库中粒度划分的重要性及如何进行粗略估算。 数据仓库的粒度是指数据仓库中数据的详细程度,是数据仓库设计的关键因素之一。粒度的选择直接影响数据仓库的性能、存储需求以及查询效率。在设计数据仓库时,需要在高粒度(更详细的数据)和低粒度(更概括的数据)之间找到一个平衡,以满足不同业务需求和查询场景。 在确定粒度时,首先要进行粗略估算,以预估数据仓库的规模。这包括以下几个步骤: 1. 识别表:确定数据仓库中所有预期的表,这些表将包含业务数据的不同层面。 2. 行大小估算:对每个表的每行数据估计其大小,可以提供一个字节范围的最小值和最大值。 3. 行数预测:根据业务环境、公司商业计划、市场份额等信息,估计一年内和五年内的最小和最大行数。例如,对于顾客表,可以基于现有客户数、市场潜力和竞争对手情况进行估算。 4. 键码长度:确定每个表中键码的长度,这将用于计算索引占用的空间。 5. 计算存储需求:将每个表的最大行数与最大行大小相乘,得到一年内的最大空间需求,同理计算最小空间需求。同时,别忘了加上索引的存储空间,这取决于键码的长度和索引项的数目。 6. 五年期扩展:除了对一年内的数据进行估算,还要对五年内的数据进行类似计算,以规划长期的存储需求。 通过以上步骤,设计师可以对数据仓库的容量有一个初步的概念,从而更好地规划数据仓库的架构,确保其能够高效地处理和存储数据。合理的粒度划分不仅关乎数据的存储效率,还影响数据的加载速度、查询复杂性和数据更新的频率。因此,粒度选择是一个需要综合考虑业务需求、系统性能和成本效益的决策过程。
2009-04-29 上传
本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS和数据仓库 104 5.21 双重粒度级 109 5.22 数据