EgyptianInformaticsJournal：一种新的智能数据仓库分发方法

60 浏览量更新于2023-12-09 收藏 987KB PDF 举报

研究论文

数据管理技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Egyptian Informatics Journal（2016）17，147开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com全长文章一种新的数据仓库智能分发方法Abhay Kumar Agarwal*，Neelendra Badal卡姆拉·尼赫鲁理工学院，南卡罗来纳州苏丹普尔，印度接收日期：2015年3月17日;修订日期：2015年9月23日;接受日期：2015年10月19日2015年11月28日在线发布摘要随着数据量的不断增长，数据存储系统经历了从平面文件系统到关系数据库管理系统、数据仓库系统和分布式数据仓库系统的发展。提出了一种新的分布式数据仓库模型。模型是建立在一个新的方法，为智能分布的数据仓库。整体模型被称为智能分布式数据仓库（IDDW）。该模型采用自顶向下的层次化设计方法构建分布式数据仓库，具有N层结构。IDDW的建设过程开始于确定DW可能建设的各个位置。最初，在构建DW的IDDW的最高级别考虑单个位置。此后，可以在任何级别的任何其他位置处构建DW。本文还提出了一种将上层数据仓库中的相关数据转移到下层数据仓库中的方法。本文还介绍了IDDW的建模、基于建模的IDDW体系结构、IDDW的内部组织以及IDDW中的所有操作都是通过IDDW的内部组织来完成的。©2015制作和主办由Elsevier B.V.代表计算机与信息学院开罗大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数据仓库的基本定义是由Inmonin[10]给出的，数据仓库是支持管理决策过程的面向主题的、集成的、时变的和非易失的数据集合一般来说，一个组织开始*通讯作者。电子邮件地址： gmail.com （ A.K.Agarwal ），n_badal@hotmail.com（N. Badal）。开罗大学计算机和信息系负责同行审查。集中式DW系统。这个集中式数据仓库负责存储组织的全部数据，回答所有查询和决策。对于一个组织来说，随着数据量和查询数量的增加，对存储数据的分布的需求产生了，这反过来又发展了分布式数据仓库的需求当一个组织的规模随着其分支机构数量的增加或分支机构规模的增加而增长时，也会出现对分布式数据仓库的需求对于数据的分布和分布式数据仓库的构建，许多研究者提出了许多方法一种这样的方法是以分层方式分布数据，称为分层分布式DW。对于构建层次分布式数据仓库的两种设计方法之一，自顶向下或自底向上使用。下而上的方法http://dx.doi.org/10.1016/j.eij.2015.10.0021110-8665© 2015制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一个在CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词数据仓库;分布式;层次化;智能化;Meta数据148A.K. Agarwal，N.Badal[18，3，7]：适用于设计目标是集成现有数据库系统的情况。自底向上的设计从个体的局部概念图式开始，其目标是将局部图式整合到整体概念图式中。自顶向下设计[8，17，16]：在自顶向下设计方法中，首先构建数据仓库。然后从数据仓库创建数据集市。自顶向下的设计方法通常用于非常大的系统。自顶向下设计方法的一个例子是国家一级的数据仓库分布在州一级的数据仓库中，州一级的数据仓库分布在市一级的数据仓库中，依此类推，直到地方集市一级。这样做的优点是本地查询在本地回答，而全局查询由系统整体回答。本文中提出的IDDW使用这种方法来构建它。IDDW的设计和建立步骤如下：（1）选择主题;（2）构建N层层次结构中的主题;（3）识别层次结构中的N层;（4）识别层次结构中每层中的位置;（5）考虑所识别的位置形成层次结构;（6）初始化，在所形成的分层结构内开始的DW的位置和数量，（ 7 ）要存储在每个 D W 中的数据，（ 8 ）在任何位置处存储任何新的D W 构建，（ 9 ）与位置相关的数据 / 分层信息的传送，在该位置的新DW构建中，以及（10）如果在该位置可用，则将该位置的本地数据存储在DW中。详细情况见本文件第3第二部分介绍了IDDW的相关工作;第三部分介绍了IDDW的建模、IDDW的体系结构、IDDW的数据模型、IDDW的内部组织结构（包括全局MDS、局部MDS）等。在第四节中，对IDDW进行了实例研究，给出了一个具有8级层次结构的印度教育系统;在第五节中，开发了一个基于8级层次结构的实验装置。用JAVA语言编写了一个程序，实时数据使用系统的前端页面输入，并智能地存储在系统中的相关数据仓库中，在第6节中，基于所进行的实验对IDDW进行了各种观察和分析。2. 相关作品分布式数据仓库通过提供一致和单一的数据视图，为政策制定者和决策者提供便利。尽管数据实际上分布在不同分支的多个系统中的多个DW中，但它还是这样做了。许多作者提出了许多开发分布式数据仓库的技术。Inmon在[9]中提出了一种建立分布式数据仓库的方法。该方法假设存在本地和全局数据仓库，其中存储的数据是互斥的。本地数据仓库包括感兴趣的本地数据，而全局数据仓库包括跨组织的公共数据Inmon不切实际White在[22]中提出了一种称为“两层数据仓库”的方法，它是集中式数据仓库和分散式数据集市的结合。Noaman et.al. 在[15，14]中提出了分布式数据仓库的体系结构它使用自顶向下的设计方法，并提出了两个基本问题：碎片和分配的片段到不同的网站。作者在[15]中提出的工作是[14]中的推广工作。通过描述分布式数据仓库系统体系结构组件的功能，定义数据仓库的关系数据模型，并给出一个水平分片算法，扩展了该模型Zhou et.al. 在[24]提出了分层分布式数据仓库（HDDW）。HDDW将本地数据集市集成到一个体系结构中。HDDW使用自底向上的设计方法来构建仓库。这种方法在大型中央数据仓库需要成为分布式数据仓库（自顶向下方法）的情况下是无用的，因为没有使用碎片Bernardino等人在[2]中设计了一种称为数据仓库剥离（DWS）的新技术，它是一种用于关系数据仓库的循环数据分区方法。DWS技术的局限性在于它不能有效地处理大维度的数据仓库。因此，研究人员提出了一种新的方法称为选择性加载来处理DWS系统中的大维度数据仓库。所提出的选择性加载技术探索了这样一个事实，即存储在每个节点中的事实表行的子集仅与大维度的行的一小部分相关，而不与所有行相关。因此，这个想法是在每个节点中只存储与存储在该节点中的事实行相关的维度行，而不是复制整个维度[5]。这种方法面临一个问题，因为随着时间的推移，数据的大小会越来越大，并且必须再次应用循环分区方法，通过所有节点逐行地对事实和维度表进行分区。Su等人在 [19] 中提出了一种新的无线射频识别（RFID）分布式数据仓库模型RFID-CHDDW。概念层次分布式数据仓库（Concept Hierarchy Distributed DataWarehouse，CHDDW）顾名思义，它的构造方法是基于概念层次的层次化、自底向上的，它结合了数据集市和分布式数据仓库的优点。[20，6，13，21]中提出了基于网格的分布式数据仓库方法。不同作者提出的其他方法是[23]使用ASM设计分布式数据仓库，[4]提出了一种新的分析模型，使用Petri网进行数据仓库中的分布式数据管理，[12]提出并实现了一种基于代价的分片分配和副本算法的数据仓库本文提出的IDDW采用自顶向下的设计方法。然而，它具有优势，比其他分布式数据仓库使用自顶向下的设计方法。IDDW提供的优点如下：第一，不需要在每个位置放置DW，而是可以根据该位置的需要在任何位置随时构建DW;第二， IDDW体系结构使得在系统中注册的每个用户（即，在IDDW内的DW中存储的注册用户的数据）被唯一识别;第三，在系统上执行的操作不是位置特定的，而是可以从系统内的任何地方执行;第四，所提出的系统的内部组织使得数据从一个DW传输到另一个DW成为可能。数据仓库14911111K1KJ11K--J3. 拟议的工作（IDDW）构建IDDW的过程从选择主题开始。选择的主题应该是这样的，它可以分解成子主题。每一个这样的分主题都应进一步细分为若干分主题等等。一旦选定了合适的主题，下一步是在N个层次结构中构建主题。框架的构建要记住两点：第一，在从上到下读取层次结构中的任何层次时，可以将任何用户识别为唯一用户;第二，可以在任何阶段的任何级别的任何位置根据需求构建DW。在选择合适的主题和框架后，确定了N个层次结构。随着层被识别，每个层中的各个位置也被识别。通过这样做，各个级别和每个级别中的不同位置是已知的，并且它有助于形成整个N级分层结构。整体结构的形成始于仅在层次结构的最高层的位置处构建DW。目前，该DW充当集中式DW，并且存储与所有级别相关的所有记录（即，所有位置的本地数据和与公共表相关的总体数据），直到在任何其他级别的某个其他位置处形成任何其他DW结构中的任何DW存储三种类型的数据：第一种是唯一标识系统中用户的数据;第二种是位置本地的数据;第三种是Meta数据。在每个DW中使用一个共同表来存储第一类型的数据，而其他表用于存储第二类型的数据。Common表还用于将任何新的DW构建合并到每个DW中以星型模式排列的结构的某个其他位置它通过从其层次结构中下一个更高级别的DW中通用表的内容以这样的方式制作，因此它能够执行所有期望的任务。3.1. IDDW建模I是一个整数变量，从1到KL不等。这里，KL表示可以在分层结构中的任何特定级别L处构建DW的位置的预定数量JL是取决于L的值的整数，并且使用等式2递归地计算。（2）和（3）。L表示，已建立的数据仓库编号，L某个位置，特别是L层。基于所提出的建模为IDDW，使用等式（1关于架构的形成和解释的细节将在下一节中提供。3.2. IDDW体系结构在本节中，我们将介绍通用的IDDW体系结构。有关架构的详细说明也在本节中介绍。IDDW体系结构基于前面部分提出的建模，如图1所示。它本质上是一个层次结构，有N层.每个级别从顶部标记为级别1、级别2等，直到级别N作为最后一个级别。IDDW体系结构中的每个L级包括KL个预先识别的位置。级别的数目和每一级别的地点数目是根据选定的主题确定的，IDDW将为这些主题组成。IDDW体系结构首先在级别1中的唯一位置构建DW。因此，我们得到L = 1，并通过使用等式（2）和（3）我们得到JL1/4。使用Eq。（1）分配给该DW的编号是D1。数字D1表示已经在第1级构建了一个DW。根据所选择的主题及其框架，在第2层有K2个位置。这些是可以根据特定位置的需要建立DW的位置。在此级别的任何位置构建的任何DW都是编号的，再次使用等式：（1-3）. 因为它是水平2，我们得到L=2，并且J L的值的集合为{11，12，13. 1K2}。图1显示了在第2级，建立了“K 2”数量的DW。因此，每个K2num-在本节中，我们提出了IDDW建模。拟议建模有助于将DW编号为在任何位置构建的DWDW的位数至D22. 任何这样的数字，在IDDW。给定给任何DW的数字例如D22，表示在第k个位置构建的DW建议的建模是DLL 其中上标属于2级这也意味着数据仓库是层次化的位于第一层的DWD1DW已建立和子系统的位置的级别编号脚本“ J L ” 告诉我们 D W 构建位置的层次结构（从上到下）。所提出的建模使用编号为1、2和3的三个方程方程（1）在任何时候构建时，对DW进行IDDW中的位置在等式中使用DL（1）由1根据所选择的主题及其框架，对于2级的每个位置，3级有K3DW可根据需要在这些位置中的任何一个处建造。K3的值可能因Level 2中的每个位置而异在此级别形成的DW的J.L.2.任何编号为第3级的DW均为D3.这个数字递归地从方程计算JL。（2）和（3）。三方程如下：告诉DW在第k个第3个1k2k3Level 3的位置，并且它位于层次结构IDDW ¼fDLg位于DWD2位置2 位于第2层，DWD1位于第1层。JLfJL g¼ fJL-1I gJ01/4 null哪里D是数据仓库。L是级别数，即{1，2，3，.. . ，N}，其中1作为最顶层，2作为从顶层开始的第二层，依此类推直到N。中的所有级别都遵循类似的程序。IDDW，从上到下，直到N1级。为了实现在IDDW中注册的每个用户的唯一性，不同地构建IDDW的最后一级，即N级。通过执行设计的预定义的生成方法，串行地生成唯一的三位数ID，该ID对于级别N1的每个位置下的所有KN位置同一层次结构中的任何两个用户，从上到下直到第N-1层的所有位置都相同，因此具有所有字段D150A.K. Agarwal，N.Badal--111111111111级2级3级水平图1 IDDW架构。共同 N级生成的唯一三位ID区分两者。为了将关于每个位置的层次信息和位置的本地信息存储在该位置处可用的数据仓库IDDW的数据模型将在下一节中详细解释。3.3. IDDW数据模型在这一节中，我们详细描述了IDDW中使用的数据每个DW，无论何时在任何位置构建，都包含三种类型的表：第一，通用表;第二，特定位置所需的其他表;第三，存储Meta数据的表。3.3.1. 公用表在每个DW中创建的Common表如图2所示。每个数据仓库中的列数、列名和列类型都是相同的，并取决于IDDW中的层数。对于N级体系结构，Common表中将有N公用表中每一列的名称分别与每一级的名称相同。名为Level 1的列将位置存储在最顶层，而名为Level 2的列将位置存储在IDDW的从最顶层起的第二层，依此类推，直到LevelN 1。唯一的三位数ID存储在名称为LevelN的列中。总的来说，通用表存储的数据提供了层次结构中使用的所有位置的名称，从上到下一直到用户所属级别的位置，以及为属于该层次结构的每个用户连续生成的唯一三位数ID。例如，如果用户属于A级中的某个位置（其中A6N1），则对于该用户，公用表中的行包含以下内容：位置名称（最高为A级）;其他字段中的空值（最高为N-1级）;以及N级字段中唯一的三位数ID。该信息存储在DW的通用表中，如果在A级的特定位置可用。然而，在DW在级别A的特定位置处不可用的情况下，则信息被存储在该级别的下一位置处可用的DW中，该位置的级别更高3.3.2. 其他表每个DW中的其他表格根据特定位置的要求而有所不同。对于一个位置，DW的每个其他表中的列的数量在一个特定的数据仓库中，每个这样的其他表都是使用构建数据仓库的星型模式连接的，因为它的优点在[11]中讨论过。星型架构包括一个事实表，该表存储每个其他表中的主键，以及与其他表的数量一样多的维度表我们也可以使用雪花模式来代替星型模式，但是雪花模式比星型模式稍微复杂一些[1]。存储在其他表中的数据提供了位置本地的信息，并且是在本地级别进行决策所需的3.3.3. 用于存储Meta数据的Meta data是关于数据的数据。为了存储它，在每个DW中创建一个表。为了进一步理解Common表、Other表和Meta数据在每个DW构建中的作用，让我们考虑以下场景。最初，只有一个DW，D1在IDDW的第1级。数据仓库的公共表D1存储了所有在IDDW中注册的用户的记录.DW、D1的其他表存储该位置本地的信息。为存储Meta数据而创建的表存储了关于Common表中的记录和DW、D1的Other表中的记录的所有信息。场景1：DW在两个连续的层的位置相继形成，比如在层1之后在层2。一个新的DW说编号为D2。公共表中的所有111DWD1的值，其值位于公用表具有D1的位置名称和具有公共表的第二字段中的值的D2的位置名称被传送到DWD2。新的其他表格图2公用表。构建DWD2现在将信息本地存储到此……………………………1级2级…水平…水平1水平数据仓库151DW通过事务管理器分配存储的记录本地MDS全球MDS11112111211211--JLJLJL1121JL位置.为存储DW（D2）的Meta数据而创建的表存储了所有信息，包括Common表中的记录DW、D1的Meta数据也被更新。场景2：DW在两个非连续的层级的位置中一个接一个地形成，例如在层级3处仅在层级1之后形成。一个新的DW说本地MDS的工作是跟踪DW中存储的记录。全局MDS跟踪IDDW中的每个记录。全球MDS这样做的帮助下，各种本地MDS发送为了解释IDDW的内部组织，我们考虑了IDDW的两个不同层次中的两个位置。所考虑的两个位置来自同一层次结构。一第三层，编号为D3。DWD1的公用表中的所有记录都被转移到DWD3，其中具有以下值：（1）包含D1的位置名称的公用表的第一字段;（2）包含位置名称的公用表的第二字段，在级别2中，其与D3的位置处于层次结构中;以及（3）包含位置位置在A层。另一个位置在L层。A级总是高于L级。目前，存在于A级位置的DW在其公用表中存储与该位置相关的所有记录以及与每当在L级的位置构建新的DW时，则传输A级DW的公共表中的记录至L层位置新建DW公用表。3121. 这个新构建的DW的其他表传输的记录具有相同的位置名称3121 将信息本地存储到该位置。桌子如在层次结构中，从A级到L级，创建用于存储Meta数据，即信息，关于记录在公用表和有关记录在其他公共表的字段记录从一个DW到另一个DW的传输是通过事务管理器执行的在这个DW，D3更新.. 此外，DW的Meta数据，D1是阶段A级本地MDS，DW，将分配记录的信息传递给全局MDS。全球MDS的内容根据从本地在某个地点建造一个新的DW，任何一层都需要将数据仓库的公共表中的记录转移到新建数据仓库的公共表中，将本地信息存储到新建数据仓库的其他表中，并更新每个数据仓库中的元数据。下一节将介绍管理IDDW中必要操作的内部组织。3.4. IDDW的内部组织在本节中，我们介绍了IDDW的内部组织IDDW的内部组织如图所示。3.第三章。它包括一个本地监控和发现服务（本地MDS），用于在每个级别的任何位置构建每个DW，一个全局MDS，两个级别之间的事务管理器和发现服务，用于将全局MDS连接到每个本地MDS。在所有的IDDW是能够执行三个操作：第一，从上到下，在一个层次结构中，从一个DW到另一个DW的记录传输;第二，在每个DW中的数据存储;和第三，在每个DW中的信息更新。MDS。当属于L级位置的新用户注册时（在L级位置建立新的DW），他们的记录存储在DW中，其信息通过其本地MDS传递到全局MDS。位于更高级别位置的任何DW都可以通过发现服务从全局MDS访问此信息。IDDW建模完成后，就知道了各个数据仓库中的数据模型，设计了IDDW的内部组织结构在下一节中，IDDW的建设过程。该过程解释了不同层次的IDDW的构造。提出了IDDW中不同层次的构造算法算法1用于级别1的验证。使用算法2和3构造IDDW的第2级到第N1级。构造IDDW的算法在2和3之间的选择取决于本节中讨论的两种情况对于N级的计算，给出了一个单独的程序3.5. IDDW的构建级的DW有关已分配记录的信息发现服务在本节中，我们将解释IDDW的构建过程构建过程总是从第1级的DW构建开始，然后从上到下移动到其他级别算法1用于在Level中的位置处构建DW1.一旦DW在级别1中的位置处被构建，对于从上到下的层级，两种情况可能发生：情况1：DW可以在比级别3中的位置更低的级别（例如级别2）中的位置处被构建，依此类推直到级别N 1;以及情况2：DW形成在两个非连续级别的位置中，一个接一个（例如，在级别3或仅在级别1之后的级别4），现在说在级别3。对于情况1，使用算法2在各个级别上构建DW，对于情况2，使用算法3。在三种算法中使用的术语如下所示：级的关于新记录的信息L表示DW的Meta数据，D L。L在相应的其他表格中表示记录集。图3 IDDW的内部组织Sponding DW，D.本地MDS的DDMR152A.K. Agarwal，N.Badal1121121111111111211211211111211111112111111111111111112111-由DW（D1）的公共表中的一组记录组成.3.5.1. 在第1为了在级别1中的位置处构建DW，使用算法1，其如下：算法1（按照以下步骤，在级别1中的位置构建DW：）。级别3仅在级别1之后，使用算法3，其如下：算法3（按照以下步骤，在第3级的位置构建DW：）。(a) 使用等式3标记水平3中的DW。（1标记时要记住从Level 1中的位置到Level 2中的位置再到构建DW的Level 3中的位置的层次结构(b) 在D3 ，创建如图所示的公用表。 2和(a) 使用公式将DW标记为（D1）（1(b) 在D1中，根据需要创建如图2所示的Common表和Other表.(c) 填充;使用记录集R1填充Other表，使用记录集R填充Common表。(d) 创建用于存储其他需要的桌子。(c) 创建用于存储DW的Meta Data（M3）的表。(d) 在DWD1中的记录集合R。(e) 从DWD1中的记录的聚合集合R，DWD1的公共表中的所有记录被分发到DW。3121 具有以下值：（1）第一字段3.5.1.1. 案例1的DW构建为了在直接较低级别（比如级别2）中的位置处构建DW，使用算法2，其如下：一个公用表包含D1的位置名称（2）公用表的第二个字段包含在级别2中的位置的名称，其与D3的位置在层次结构中（3）公用表的第三个字段包含D3的位置的名称。保留信息用于存储Meta Data的表中的传输记录算法2（在级别2中的位置处构建DW，遵循(f) DW，D3填充有步骤如下：）。(a) 将DW标记为（D2;D2;D2. D2）使用Eqs.从步骤（e）获得的记录集合。共同D1的表只剩下记录集R减去记录转移.（111 12 131KL（g）填写; DWD3的其他表格与该组3(b) 在D2中，创建如图所示的公共表. 2、其他表格如有需要。(c) 创建用于存储DW的Meta Data（M2）的表。(d) 在DWD1中的记录集合R。(e) 从DWD1中的记录的聚合集合R，DWD1的公共表中的所有记录被分发到第121章.(h)每次将新记录存储在DWD3更新其Meta数据。随后，其信息被传递到数据仓库，从第一层连接。DWD2具有以下值：（1）3.5.2. 建造Level N公共表包含D1的位置名称（2）Common表的第二个字段包含D2的位置名称。将传输记录的信息保存在其表中，用于存储Meta Data。最后一级，即N级，不在其任何位置构建任何数据仓库。相反，在此级别执行一个过程以生成一个唯一的三位数。在此级别中的每个位置上连续生成数字。对于一个位置，(f) DW，D2的通用表中填充了N-1级，999个唯一数字（从001到999）是通用的，从DWD1获得的记录集。D1的公共表只剩下记录集R减去已分配的记录.(g) 用记录集R2填充DWD2的Other表.(h) 每次将新记录存储在DWD2更新其Meta数据。随后，其信息被传递到数据仓库，从第一层连接。同样，任何其他DW都可以在第2级构建，对于在第2级构建的每个DW，DW可以在第3级的任何位置构建，依此类推，直到第N-1级。3.5.1.2. 案例2的DW构建要在两个非连续级别的位置相继构建DW，例如过时了三位数字充当用户的唯一ID的唯一ID有助于区分层次结构中的任何两个用户，即使用户的所有位置从级别1到级别N1都相同。在下一节的案例研究中，一个8级的层次结构类似IDDW的发展。案例研究的主题是“印度的高等教育”，共分8个层次。在案例研究中，还介绍了每个数据仓库构建中所包含的数据模型;在层次结构中在案例研究中，还介绍了如何构造层次结构的各个层次。4. 为例印度是一个由许多邦组成的国家。每一个州都有几所大学，每一所大学都有各种附属机构。每个研究所都有许多DWD数据仓库153在每个部门都有不同类别的人（如教师，非教学人员，仆人，学生）。每一类人都有不同的职位（比如在教师中，可以是教授、副教授或助理教授）。如果从整体上考虑，按年度，可以形成一个层次结构，最高层是年度仍然，如果在层级中引入一个以上的级别作为最低级别，这为在系统中注册的每个人生成唯一的号码，则每个人可以在系统内被唯一地识别所以这个层次包含在层次结构中例如，在2014年，北方邦有一所名为GBTU的大学在GBTU附属的各种研究所中，有一个是KNIT。有许多部门与KNIT相关，其中之一是CSE。CSE部门包括许多可能的类别，其中之一是教师。教师类别包括许多可能的职位，其中之一是教授。由于可能有许多教授，每个教授都被分配了一个身份，这个身份是一个唯一的三位数，并且是连续生成的。因此，总体框架适合形成如图所示的8级层次结构。四、8级层次结构中的每一级相应地从上到下命名如下：第一级命名为Year;第二级命名为State;第三级命名为University;第四级命名为Institute;第五级命名为Department;第六级命名为Category;第七级命名为Position;第八级命名为名为身份。如图4所示，在水平年中编号为Y：10的年份。对于编号为Y：10的年份，有100个位置，编号为S：00到S：99。对于每个位置在Level State中，从U：00开始编号的位置有100个到U：99级大学。对于大学中的每个位置，Level Institute中有1000个位置，编号从I：000到I：999。对于研究所的每个地点，有100个地点，编号从D：00到D：99。对于部门中的每个位置，在级别类别中有10个位置，编号从C：0到C：9对于每个位置在类别中，有10个位置，编号从P：0到P：9。对于位置999中的每个位置，在级别标识中生成唯一的三位数字（ID）。在本文的第3节中定义的KL图4，一个可以找出不同水平的KL值。所得值示于表1中。因此，从图4所示的8级分层结构中可以推断出的分层的总数是10× 14的量级。在如此多的层次结构中，有一个显示在图中的蓝色矩形框中。四、使用表1中所示的值绘制曲线图。绘制的曲线图如图5所示。在图表中，级别编号被认为是在x轴和值KL，在10的幂，在y轴上。对于图4中所示的案例研究，从表1和图5中所示的曲线图可以看出，在系统中注册的10 14个不同用户获得唯一ID。唯一ID的数量与层级的数量相同，即10 14。人们还可以从图中推断出不同用户的最大数量，注册，属于特定级别。4.1. 案例研究中使用的数据模型对于一个案例研究，形成了一个8级的层次结构。DW可以建立在该8级分层结构中的任何级别的任何位置处。构建的DW包括与第5节中讨论的相同的数据模型。因此，每个DW构建包括以下内容：4.1.1. 公用表根据第5节中讨论的通用表的结构，表中的列数应与分层结构中的级别数相同。此外，每个列的名称必须与每个级别的名称相同图4是一个8级层次结构的案例研究154A.K. Agarwal，N.Badal表1根据KL的值生成的每个级别编号的层次数。2345678状态大学学院系别类别职位身份对于每个K1数量的K2=102对于每个K2数量的K3=102对于每个K3数量的K4=103对于每个K4数量的K5=102对于每个K5数量的K6=101对于每个K6数量的K7=101对于每个K7数量的K8=1031041071091010101110141级别编号L级别名称每个水平L的KLL级以下的层级数1年K11/4110216141210864201 2 3 4 5 6 7 8级别编号每级KL值的10次方最大从上到下直到每一级的10次幂的层次数在第三部分建模。由于在此级别上只构建一个DW，因此将其编号为D1.在这个阶段，名为2010的数据仓库是8级层次结构中的单个数据仓库。它的Common表填充了在系统中注册的用户的所有记录集。4.2.2. 层次状态数据仓库的构建水平状态有100个可用的位置，编号从S：00到S：99，用于建造DW。印度有35个邦和联邦直辖区，因此只需在2级建造35个DW， DW是使用算法2在这个级别构建的。DW构建以构建它的州的名称在位置S：00处再构建一个DW这个DW图5根据，生成的层次结构最高可达每个级别编号KL的值。分别由于在图4中形成和示出的分层结构中存在8个级别，因此在每个公共表中存在8列。此外，公用表中的每一列的名称分别与每一级的名称相同，如图所示。第六章4.1.2. 其他表每个DW构建中包含的Other表（位于8级分层结构中任何级别的任何位置每个DW中的每个表中的字段的数量可以变化，并且取决于位置的要求。4.1.3. Meta数据创建一个表来存储每个DW中的Meta数据，该DW构建4.2. 案例研究中的各个层次的构建4.2.1. 水平年数据水平年是我们案例研究的第一个水平。一个名为2010的DW，在Y：10的位置上以Level Year构建。在这个层次上构建的DW使用算法1。此级别的DW构建根据IDDW中讨论的方法进行编号图6每个数据仓库中的Common表构建在一个8层的层次结构中，用于案例研究。存储有关国家级人员的信息，如总理，高等教育部长将先前存储在DW 2010的第1级通用表中的与此DW相关的记录传递给它。北方邦的一个州在S：01位置构建了名为UP的 DW在Y：10处DW的公共表中的记录的第二字段中具有值“Uttar Pradesh”的所有记录被转移到DW的公共表UP。一旦记录集被传输，DW的Meta数据，2010在Y：10被更新。4.2.3. 高校数据仓库的建设Level大学有100个地点，编号从U：00到U：99，用于建造DW。对于水平状态中的每个位置，这样的100个位置可用。中的每不同的州有不同数量的大学。因此，每个州的Level大学有不同数量的位置。算法2或算法3用于构建该级别的任何DW。要使用的算法取决于在其上方是否存在处于水平状态的DW。北方邦已经有了一个名为UP的DW，拥有大约40所大学。北方邦的任何大学，建立自己的DW使用算法2。在Uttar Pra- desh的大学中，可以建造的DW的最大数量在U：00位置构建了另一个DW：此DW将存储有关该州人民的信息，例如首席部长、高等教育部长。与存储在DW UP的公共表中的DW相关的记录被传递给它。北方邦的一所大学，名为Gautam Budh TechnicalUniversity ，在 U ： 01 位置构建了自己的名为“GBTU“ 的 DW 。第二个字段中具有值 “UttarPradesh“的所有记录，KL的10数据仓库155在S：01处的DW，UP的公共表中的记录的第三字段中的值“Gautam Budh Technical University”被转移到DW，GBTU的公共表。一旦记录集被传输，DW、UP的MetaData就被更新。4.2.4. 浅谈二级研究所数据仓库的建设Level Institute有1000个位置可供Level University的每个位置使用，编号从I：000到I：999，用于构建DW。每个不同的大学有不同数量的研究所。因此，每个大学的水平研究所所占有的位置数量不同。算法2或算法3用于构建任何DW在这个层面上。要使用的算法取决于是否有一个DW以上的水平大学或没有。Gautam Budh技术大学已经有了一个名为“GBTU”的DW，拥有大约700个研究所。Gautam Budh技术大学的任何机构都使用算法2构建自己的DW。在高塔姆·布德技术大学的研究所可以建造的DW的最大数量在位置I：000处构建了另一个DW：此DW将存储有关该大学人员的信息，例如校长、副校长、注册员。与存储在DW的公共表GBTU中的DW有关的记录被传递给它。 Gautam Budh Techni- cal 大学的一个名为Kamla Nehru Institute of Technology的研究所在位置I：001处构建其自己的名为“KNIT“的DW。在DW，GBTU 的公共表 U ： 01 中，第三个字段中值为“Gautam Budh Technical University“，第四个字段中值为”Kamla Nehru Institute of Technology“的所有记录都被转移到DW，KNIT的公共表。一旦记录集被传输到DW的Meta Data，GBTU就被更新。4.2.5. 基层部门Level Department为Level Institute中的每个位置提供100个位置，编号为D：00至D：99，用于建造DW。每个不同的研究所都有不同数量的部门。因此，每个学院的级别部门所占用的位置数量算法2或算法3用于构建该级别的任何DW。要使用的算法取决于是否有一个DW在它上面的水平研究所或没有。研究所卡姆拉尼赫鲁研究所的技术，已经有一个名为KNIT的DW，有大约20个部门。Kamla Nehru技术学院的任何部门都使用算法2构建自己的DW。Kamla Nehru技术学院各系可建造的DW的最大数量从D：01到D：20。在位置D：00处构建了另一个DW：此DW将存储有关该机构人员的信息，例如Director、Registrar。KamlaNehru Institute of Technol- ogy 的一个名为 ComputerScience Engineering的部门在D：01位置构建了自己的名为CSE的DW。在DW，KNIT的公共表中，在I：001处的记录的第四字段中具有值“Kamla Nehru Instituteof Technology“ 和在第五字段中具有值 ”ComputerScience Engineering“ 的所有记录 & 都被转移到D W ， C S E 的公共表中。一旦记录集被传输到DW的Meta Data，KNIT就被更新。4.2.6. 层次分类级别类别有10个位置可用于级别部门中的每个位置，编号从C：0到C：9，用于构建DW每个不同的部门都有不同数量的类别。因此，每个部门在级别类别中所占的位置数量不同。算法2或算法3用于构建该级别的任何DW。要使用的算法取决于在级别部门中是否有DW在其之上。计算机科学工程系已经有了一个名为CSE的DW，大约有5个类别。计算机科学工程中的任何类别，建立自己的数据仓库都使用算法2。在C：1到C：5的位置，可以为计算机科学工程系的类别构建的DW的最大数量在位置C：0处构建另一个DW。这个DW将存储有关该部门人员的信息，如HOD。存储在DW CSE的Common表中的与该DW有关的记录被传递给它。一个类别，即计算机科学工程系，名为Faculty，在位置C：1构建自己的名为FAC的DW。在D：01处DW，CSE的公共表中的记录的第五字段中具有值“Computer Science Engineering“和第六字段中具有值”Faculty“的所有记录一旦记录被传送-提交DW的Meta Data，更新CSE。4.2.7. 数据仓库在层位水平位置有10个位置可用于水平类别中的每个位置，编号从P：0到P：9，用于构建DW每一个不同的类别有不同数量的位置。因此，每个类别的水平位置中占据的位置数量不同。算法2或算法3用于构建任何DW在这个层面上。要使用的算法取决于在级别类别中是否有DW在其之上。教师类别已经有一个名为FAC的DW，大约有4个职位。任何职位类别教师，建立自己的DW使用算法2。的最大数目可以为类别Faculty中的职位构建的DW在位置P：0处构建另一个DW。一个名为Professor的Faculty类别的职位在位置P：1构建其名为PROF的DW。在C：1处DW

下载后可阅读完整内容，剩余1页未读，立即下载