数据仓库发展：从早期应用到现代架构演变

数据仓库

需积分: 21 172 浏览量更新于2024-07-21 收藏 8.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

《数据仓库第四版》第一章深入探讨了决策支持系统(DSS)的发展历程，以及数据仓库在其中的核心作用。章节开头指出，由于信息处理领域的相对年轻，它在早期的发展中存在急于求成的问题，例如过分关注技术细节而忽视整体设计。数据仓库的兴起正是对这种现象的反思，它强调的是体系结构的整体性和有效性。 1.1 演化决策支持系统的演变始于计算机技术的早期阶段，最初是以单一的应用为主，比如基于主文件的报表和程序，使用COBOL语言编写，通过穿孔卡片进行数据交互。主文件通常存储在磁带文件上，尽管磁带能够廉价存储大量数据，但其顺序访问的特性导致效率低下，特别是对于只需要少量数据的操作，等待时间可能长达20至30分钟。随着业务需求的增长，到了60年代中期，主文件的数量激增，导致数据冗余严重，这引发了数据一致性维护、程序维护复杂度上升以及新程序开发难度加大等问题。这些问题促使业界开始寻找解决方案，从而催生了数据仓库的概念，它作为大规模数据管理的中心，旨在提供高效的数据存储和分析能力，支持决策制定。 1.2 直接存取存储设备的产生这一时期，直接存取存储设备（如硬盘）开始逐渐取代磁带，它们提供了更快的数据读写速度和随机访问的能力，大大提高了数据处理的效率。这对于数据仓库的建设至关重要，因为它需要快速获取和处理所需的数据，而不仅仅是顺序访问。 1.3 个人计算机/第四代编程语言技术随着个人计算机的普及和第四代编程语言（如Pascal、C等）的发展，用户界面变得更加友好，程序员可以编写更灵活、高效的代码，这进一步推动了决策支持系统向更复杂的数据处理和分析功能发展。数据仓库开始集成来自多个源的数据，并通过更先进的抽取、转换和加载（ETL）过程来清洗和整合数据。 1.4 进入抽取程序抽取程序在这个阶段扮演了关键角色，它们负责从不同的源系统中抽取原始数据，然后将其转化为适合数据分析的格式。抽取程序的出现简化了数据集成，使得数据仓库能够集中管理来自企业各个角落的非结构化和半结构化数据。 1.5 蜘蛛网早期的数据仓库架构被称为“蜘蛛网”，指的是多个数据抽取源相互连接的复杂网络。这种架构允许数据仓库系统灵活地获取所需信息，但同时也带来了管理和维护的挑战。随着时间的推移，更优化的星型和雪花型架构逐渐取代了蜘蛛网，提高了数据处理性能和效率。 1.6 自然演化体系结构随着技术的进步和业务需求的变化，数据仓库的体系结构经历了自然演进，从最初的简单应用到如今包含数据抽取、数据建模、数据存储、查询优化和分析等功能的全面系统。这些演变不仅提升了决策支持系统的效能，也为企业决策者提供了实时和深入的数据洞察，从而驱动了业务策略的制定和优化。

资源详情

资源推荐

图1 - 1 4 显示传统的系统开发生命周期支持操作型环境。数据仓库运行于一个与之完全不

同的生命周期下，有时称为 C L D S ( 与S D L C 顺序相反)。传统的S D L C是需求驱动的。为建立系

统，你必须首先理解需求，然后进入到设计和开发阶段。 C L D S几乎刚好相反。 C L D S 由数据

开始，一旦数据到手就集成数据。然后，如果数据有偏差，就检验看看数据存在什么偏差。

再针对数据写程序，分析程序执行结果。最后，系统需求才得到了理解。

C L D S 是典型的数据驱动开发生命周期，而 S D L C 是典型的需求驱动开发生命周期。试图

采用不适当的开发工具和技术只会导致浪费和混乱。比如， C A S E 领域是由需求驱动分析所支

配的。试图将C A S E 工具和技术用于数据仓库领域是不明智的，反之亦然。

1.10 硬件利用模式

操作型环境和数据仓库环境之间的还有另一个主要差别，即在各自环境中硬件利用模式

也不同，如图1 - 1 5 所示。

图1-15 不同环境下不同的硬件利用模式

图1 - 1 5左面显示操作型处理的典型的硬件利用模式。在操作型处理中有波峰和波谷，但

总归存在相当稳定的利用模式。

数据仓库环境中具有根本不同的硬件利用模式 (如图的右部所示)，即利用的二元模式。要

么利用全部硬件，要么根本不用硬件。估算数据仓库环境中的硬件平均利用率是没有意义的。

这种根本区别也表明同时在同一台机器上把两种环境混在一起为什么不可行。要么针对

操作型处理优化机器，要么针对数据仓库处理优化机器。但是你不可能同时在同一台设备上

两者都作到。

1.11 建立重建工程的舞台

从生产环境转变到体系结构设计的数据仓库环境过程中有一个非常有用的副作用，尽管

它不是直接的。图1 - 1 6显示了这种过程。

图1-16 从传统系统环境向体系结构设计的以数据仓库为中心的环境转变

16发展数据仓库

下载

操作型数据仓库

1 0 0 %

0 %

生产环境

操作型环境数据仓库环境

在图1 - 1 6 中，在生产环境中发生一种转变。第一个作用是从生产环境中移走大量数据

—

大部分是档案数据。移走大量数据在许多方面具有好的效果，包括如下几条：

■ 生产环境更易于纠错。

■ 生产环境更易于重构。

■ 生产环境更易于监控。

■ 生产环境更易于索引。

简言之，仅仅是移走可观数目的数据就可使生产环境更具有可塑性。

另一个作用是从生产环境中移走信息性处理。信息性处理采取报表、屏幕显示、抽取等

形式。信息处理的特点是不停地变化。商业形势变化、机构变化、管理变化、财务状况变化，

等等。这些变化中的任何一个都对综合与信息性处理产生影响。当信息性处理处在生产传统

环境中时，维护起来无休无止。事实上，在生产环境中，大多数所谓的维护就是贯穿于正常

的信息变化周期中的信息性处理。通过把大多数信息性处理移到数据仓库中，生产环境中的

维护负担将大大减轻。图1 - 1 7显示从生产环境中移走大量数据和信息性处理的效果。

图1-17 从生产环境中移走不需要的数据和信息型需求

—

建造数据仓库的效果

一旦生产环境经历转变到以数据仓库为中心的体系结构设计环境的变化，生产环境就正

好适合于重建工程。因为此时生产环境：

■ 更小。

■ 更简单。

■ 更集中。

总之，一个公司要想成功地重建生产系统和修整遗留系统，最重要的步骤是首先建立数

据仓库环境。

1.12 监控数据仓库环境

通常，数据仓库环境中两种受监控的操作成分是存储于数据仓库中的数据和数据的使用。

监控数据仓库环境中的数据是管理数据仓库环境的基本能力。通过监控数据仓库环境中的数

据能取得一些重要信息，包括：

■ 识别发生了什么增长，增长发生在什么地方，增长以什么速率发生。

第1章决策支持系统的发展发展17

下载

大量的历史数

据,它们很少被

访问,几乎从不

改变

随着无休止的维护而显示出

来的信息型、分析型需求

生产环境

■ 识别正在使用什么数据。

■ 估算最终用户得到的响应时间。

■ 确定谁在实际使用数据仓库。

■ 说明正在使用数据仓库中的多少数据。

■ 精确指出数据仓库何时被使用。

■ 识别数据仓库的多少数据被使用。

■ 检查使用数据仓库的层次。

当数据体系结构设计者不知道这些问题的答案时，有效的管理运行中的数据仓库环境是

不可能的。

监控数据仓库真的有用吗？只要考虑一下知道“在数据仓库中什么数据正在被使用”有多么

重要就明白了。数据仓库的特性是不停地增长。历史数据不停地加入数据仓库，汇总数据也不停

地加入，新的抽取流在创建。同时数据仓库驻留的存储和处理技术并不昂贵。有时会问这样的问

题：“为什么所有这些数据要积累起来？真有人用这些数据吗？”显然，不论是否有数据仓库的

合法用户，在数据仓库正常运行期间，一旦数据放入数据仓库，数据仓库的开销就会增长。

只要数据体系结构设计者没有办法确定如何使用数据仓库中的数据，那么除了不断购买

新的计算机资源之外就别无选择了

—

购买更多的存储设备、更多的处理器，等等。但是通

过监控数据仓库中数据的使用，就有机会把不用的数据移到其他介质上。当数据体系结构设

计者发现当前一些数据没有使用，就把这种数据移到不昂贵的介质上，这是合适的做法。通

过监控数据仓库中数据的使用和活动情况，数据体系结构设计者能确定现在什么数据不在使

用，就能进行转移。监控数据仓库环境中的数据及活动会得到非常实在的和迅速的回报。

在数据监控处理期间，可以建立数据的各种概要文件包括：

■ 数据仓库中所有表的目录。

■ 这些表的内容。

■ 数据仓库中表的增长。

■ 用于访问表的可用的索引目录。

■ 汇总表和汇总源的目录。

监控数据仓库活动的需求通过下列问题来说明：

■ 什么数据正在被访问？

• 什么时候访问？

• 由谁访问？

• 访问频率怎样？

• 在什么细节层次？

■ 对请求的响应时间是什么？

■ 在一天的什么时间提出请求？

■ 请求多大的数据量？

■ 请求是被终止的还是正常结束的？

D S S 环境中响应时间的概念与联机事务处理 ( O LT P ) 环境中响应时间的概念大不相同。在

O LT P环境中，响应时间总是十分重要的。在 O LT P中当响应时间太长时，业务情况很快就开

始变糟。在 D S S 环境中不存在这种关系。在 D S S 数据仓库环境中，响应时间总是宽松的。在

18发展数据仓库

下载

D S S 中响应时间不是决定性的，相应地，在 D S S 数据仓库环境中响应时间以分钟和小时计，在

某些情况下以天计。

但是，在D S S 数据仓库环境中响应时间很宽松并不意味着响应时间不重要。在 D S S数据仓

库环境中，最终用户重复地进行开发工作。这意味着下一个层次的开发依赖于当前分析中所

得到的结果。如果最终用户进行重复分析，并且周转时间只有 1 0 分钟，那么他(她)将比周转时

间多达2 4 小时的情况具有更高的生产率。因此，在 D S S 环境中，响应时间与生产率之间存在

十分密切的关系。D S S环境中响应时间只是非关键性的，并不意味着它无关紧要。

测量D S S 环境中的响应时间是管理 D S S 的第一步。仅此一点，监控 D S S 活动就是必须进行

的非常重要的步骤。

在D S S环境中响应时间度量的问题之一是“要度量什么？”在 O LT P环境中，要度量什么

的答案是显而易见的。发出请求、接受服务，然后返回给最终用户。在 O LT P环境中响应时间

的度量是从请求被提交的时刻算起到结果被返回的时间。但是 D S S数据仓库环境不同于 O LT P

环境，因为没有明确的度量数据返回的时间。在 D S S 数据仓库环境中，经常有作为查询结果

返回的大量数据。其中一些数据在某一时间返回，另一些数据在晚些时候返回。定义数据仓

库环境中数据返回时间不是件容易的事。一种解释是数据第一个返回的时间；另一种解释是

数据最后一个返回的时间。对度量响应时间还有很多其他可能的解释。 D S S数据仓库活动监

控程序必须能提供多种不同的解释。

在数据仓库环境中使用监控程序的一个根本问题是在哪儿进行监控。能进行监控工作的

一个地方是最终用户终端。这是做监控工作的一个方便位置，因为这里有很多空闲的机器周

期，并且在这里进行监控工作对系统性能只有很小的影响。但是，在最终用户终端监控系统

意味着每个被监控的终端需要自己的管理员。在一个单独的 D S S 网络中，可能有多达10 000台

终端，试图管理每个终端的监控工作几乎是不可能的。

另一个途径是在服务器层次对 D S S系统进行监控。在查询已形式化并且已经传给管理数

据仓库的服务器后，才开始进行监控。毫无疑问，在此处管理监控程序要容易得多。但是存

在系统范围内性能下降的很大可能性。因为监控程序使用服务器资源，监控程序影响整个

D S S 数据仓库环境的工作性能。监控程序的位置是必须仔细考虑的重要问题，要在管理的方

便性和降低性能之间进行权衡。

监控程序最有效的用途之一是能够将今天的结果与每天平均的结果进行比较。发现异常

时，能够问一句“今天与每天平均的结果有什么不同？”这通常是有好处的。在大多数情况

下会发现性能变化不象想象中那么坏。但为了做这样的比较，需要一个“每天平均概况”。

“每天平均概况”包括了 D S S 环境中描述一天情况的各种标准的重要度量指标。一旦对当天的

情况进行了度量，就可以与每天平均概况进行比较。

当然，每天平均值总是随时在变化的。定期地追踪这些变化，使得对长期系统趋势能够

进行度量将是有意义的。

1.13 小结

本章讨论了体系结构问题，数据仓库适合于采用这种体系结构。这种体系结构的演化贯

穿于信息处理不同阶段的整个历史。在这种体系结构中有四个数据及处理层次

—

操作层，

数据仓库层，部门层和个体层。

第1章决策支持系统的发展发展19

下载

剩余228页未读，继续阅读

zstu

粉丝: 2
资源: 7

数据仓库发展：从早期应用到现代架构演变

数据仓库-3-数据仓库的基本结构.pdf

数据仓库学习书籍三本

数据仓库(原书中文第四版).rar

数据仓库 第四版

Inmon的《数据仓库第四版》：构建决策支持系统与环境详解

数据仓库中文第四版

数据仓库(第四版).rar

数据仓库中文原书第四版

数据仓库原书中文第四版

数据仓库（原书第四版）

数据仓库(原书中文第四版)

数据仓库(第2版)

数据仓库建设：第四版 - 新技术与方法

数据仓库（中文版）.

MS数据仓库架构.pdf

数据仓库EDW

最新资源

数据仓库第四版