没有合适的资源?快使用搜索试试~ 我知道了~
本体论在数据仓库/商业智能系统中的应用
International Journal of Information Management Data Insights 2(2022)100131审查本体论在数据仓库/商业智能系统中的应用--系统性文献综述António Lorvão Antunesa,b,Elsa Cardosob,c,José BarateiroaaLNEC-国家土木工程实验室,Av. do Brasil 101,Lisbon 1700-075,PortugalbISCTE-里斯 本大学信息科学和技术系,Av. Forças Armadas,Lisbon 1649-026,PortugalcCIES-IscteaRT i cL e i nf o关键词:本体语义网数据仓库系统性文献综述a b sTR a cT语义网(SW)技术,如本体,被用于信息系统(IS),以应付日益增长的需求,共享和重用的数据和知识在各个研究领域。尽管IS越来越重视非结构化数据分析,但结构化数据及其分析仍然是组织绩效管理的关键。这篇系统性的文献回顾旨在分析本体的整合和影响在数据仓库/商业智能(DW/BI)系统中,通过提供根据每个案例研究的领域,使用的软件技术和作者的动机对作品进行分类,使用它们的方法,重点是DW/BI设计,开发和探索任务。制定了搜索策略,包括关键词的定义、纳入和排除标准以及搜索引擎的选择。本体主要使用Ontology Web语言标准定义,以支持多个DW/BI任务,例如维度建模,需求分析,EX tract-Transform-Load和BI应用程序设计。综述作者提出了DW/BI中本体驱动解决方案的各种动机,例如消除或解决数据异构性/语义问题,提高互操作性,促进集成,或为需求和数据分析提供语义内容。此外,实践和研究议程的影响。1. 介绍商业智能(BI)是90年代中期由Gartner Group(Burton等人,2006年),现在被用作大多数企业的基石。它被视为一个“总括”术语,包括用于通过访问和分析数据和信息来改进和优化决策和绩效的应用程序、基础设施、工具和实践。数据仓库/商业智能(DW/BI)系统是数据驱动的决策支持系统(DSS)(Sharda,De- len,Turban,Aronson,Liang,2015),使用集成存储库(称为DW)为业务用户提供分析和决策支持功能(Kimball Ross,2013)。虽然这些系统擅长处理和分析结构化的、基于事务的数据,但它们还没有准备好面对越来越多的非结构化数据(Sawadogo& Darmont,2021)。此外,基于SQL的数据访问通常由DW/BI系统提供,对于人工智能(AI)和数据科学分析中使用的数据类型和最新算法来说,这种访问变得越来越不够(Inmon,Levins,&Srivastava,2021)。在创建每一秒都有无数的形状和形式(古普塔,卡尔,巴阿卜杜拉,Al-Khowaiter,2018)。医疗保健,服务和财务管理,公共行政和治理以及(实时)决策支持系统是BD及其分析发挥关键作用的一些新兴管理领域(Kushwaha,Kar,&Dwivedi,2021)。组织已经开始将数据湖(DL)架构作为其信息系统(IS)中BD收集的主要存储(Inmon,2016)。当完全集成和组织时,这些数据可以被数据科学家和业务用户用于驱动数据科学,BD分析和BI工具和算法,从而实现其业务价值。DL内的数据可以分为结构化数据、文本数据以及其他非结构化数据(Inmon等人,2021年)。业务活动通常会生成与其业务流程和事务相关的结构化数据。非结构化数据分为文本数据和来自其他来源的数据,如传感器,图像和视频。尽管在最近的文献中强调了非结构化数据研究(Kumar,Kar,&Ilavarasan,2021; Singh,Devi,Devi,&Mahanta,2022),但结构化数据和DW/BI技术在其分析中的重要性和影响力不可否认(Sharda等人,2015年)。由于其业务事务的表示,结构化数据分析是至关重要的,∗ 通讯作者。电子邮件地址:antonio_lorvao@iscte-iul.pt,alfas@iscte-iul.pt(A.L. Antunes)。https://doi.org/10.1016/j.jjimei.2022.100131接收日期:2022年5月4日;接收日期:2022年9月16日;接受日期:2022年10月12日2667-0968/© 2022作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页:www.elsevier.com/locate/jjimeiA.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001312商业价值。例如,大多数与交易相关的关键绩效指标(KPI)都可以作为结构化数据(例如,销售价值和产品数量)。此外,结构化的历史数据在开发描述性、预测性和规定性分析方面也很重要, 正如Mishra,Urolagin,Jothi,Nawaz,Haywan- tee(2021 a)最近通过将机器学习方法应用于结构化数据并获得关于每个国家游客到达的预测所证明的那样。结构化数据分析的其他最新例子可以在医疗保健(Young& Steele,2022),保险分析(Rawat,Rawat,Kumar,&Sabitha,2021)和经济学(Altuntas,Selim,&Altuntas,2022)中找到。DW/BI系统的设计、开发和使用是为了支持组织内各个部门或业务领域的分析需求,提供“单一版本的真相”。为此,它具有通用的词汇表或术语是必不可少的,这些词汇表或术语允许业务用户彼此之间以及与 开 发 团 队 进 行 通 信 ( Kimball 、 Ross 、 Thornthwaite 、 Mundy 、Becker,2008年)。IS研究人员已经增加了对Open1和FAIR2数据的关注,互操作性和数据共享是当前研究的焦点。开放和公平的数据原则正在被纳入几个研究领域,以使数据和信息能够流通,并为需要的人所利用(例如,欧洲开放数据门户网站3)。知识表示形式主义(如本体论)正在开发,以确保研究人员能够更轻松地访问其研究领域中的更多数据、信息和知识。在过去的几年里,互联网发展成为万维网3.0,也被称为语义网(SW)(Hitzler,2021),其中数据以一种允许其被共享、重用,最重要的是,成为机器可读的。研究和应用领域,如生物学或计算机科学,已经开始了促进知识发现和使用的努力(Ristoski Paulheim,2016)。从跨内容,应用程序和系统集成数据中获得的大量知识和价值目前在很大程度上尚未开发(Gandon,2018)。这种共享的语义对于避免在自然语言起关键作用的情况下的误解或错误是至关重要的,例如在需求收集阶段,数据源分析(每个实体的上下文和含义)或DW数据分析和探索期间。由于对于它们的语义,形式化和推理质量,将本体集成到DW/BI系统中可以帮助收集这些知识,一个组织的水平,并帮助减轻或解决这些问题。本体还可以为系统提供新的信息源,丰富数据并为业务用户提供组织内无法获得的新知识。此外,本体互操作性对于将DW/BI系统和结构化数据链接到其他DSS系统(组织内部或外部),具有不同的知识库或基于DL的体系结构至关重要。 此解决方案还应允许集成结构化和非结构化数据,无论是在同一个生态系统中,还是在不同的生态系统中,IS,允许两个不同架构(例如DW和数据湖)之间的通信。本系统性文献综述(SLR)旨在调查关于DW/BI系统中软件使用的现有文献,以及软件如何用于提高结构化数据的洞察力质量。具体而言,目标是了解本体如何、在何处以及为什么被用于提高DW/BI系统的分析能力,简化DW/BI生命周期中的流程本文的其余部分结构如下:第2介绍了DSS、DW/BI系统和本体的背景概念本节还介绍了以前具有类似范围的审查。SLR方法在第3节中介绍,定义了研究问题,关键词,搜索引擎和SLR所需的其他标准,然后是第4的初步结果。第5介绍1 开放数据手册-http://opendatahandbook.org/2 围棋公平倡议-https://www.go-fair.org/3 欧洲开放数据门户网站-RT https://data.europa.eu/SLR的发现和文献分析,而第6节概述了讨论,包括其实际意义和研究方向。最后,结论见第7。2. 背景本节介绍了本系统性综述所需的背景概念。该部分分为DSS,DW/BI系统和本体。2.1. 决策支持系统DSS是基于计算机的交互式系统,旨在帮助业务用户识别和解决问题,并协助决策过程。DSS应该为管理者和业务用户提供更快速和交互式的信息支持,提供&“在正确的时间,以正确的格式提供正确的信息”(Turban,Sharda,Delen,2010)。信息系统协会决策支持系统特别兴趣小组(AIS SIGDSS)采用了Power(2009)提出的DSS分类,该分类根据它们使用的组件类型对DSS进行分类(Sharda et al.,(a)通信驱动型或群体决策支持系统:以通信、协作和共享(通过技术)为特征的决策支持系统,作为其决策支持;(b)数据驱动型:侧重于数据的获取、分析和处理的决策支持系统。DW/BI系统和业务流程管理系统是数据驱动的DSS的一些示例;(c)文档驱动:强调文档的使用(或检索)、存储、管理和分析的DSS;(d)知识驱动:使用知识库和人工智能(例如,(e)模型驱动型:侧重于使用定量模型(如任何模拟模型)的决策支持系统;(f)复合型决策支持系统:将以下两种或多种决策支持系统结合起来的混合型决策支持系统: 以前的组件。2.2. 数据仓库/商业智能系统作为数据驱动的DSS,DW/BI系统分为两个主要的子系统:数据仓库(&数据仓库的目标是从不同的源系统中提取、转换和装载数据到一个集成的仓库(DW)中。数据分布在异构源系统中的事实导致了各种集成问题和挑战(例如,不同的格式或相同实体的表示),这些问题和挑战由ETL过程解决。BI从DW检索数据,为业务用户提供数据驱动的决策支持。可以使用报告工具和仪表板来呈现和探索数据,或者将数据输入到数据挖掘模型中,以从分析数据中获得预测和见解。在DW/BI系统中使用了维度建模,它不同于传统的常规数据建模(例如,实体-关系建模),能够直观和高性能地聚合、检索和分析历史数据(Kimball Ross,2013)。在DW/BI系统中,数据可以存储在星形方案或立方体中,也称为多维数据库(Adamson,2010;Kimball Ross,2013)。维度模型的支柱是事实和维度之间的区别。事实通常是数字的和可加的(尽管不是所有的事实都是可加的),并且表示给定过程的重要测量(例如,销售数量、销售金额)。维度表示为事实提供上下文的业务实体(例如,客户、日期、供应商),并用于过滤或汇总事实。层次结构用于描述维度中可能的聚合路径。它们使用维度属性之间的父子关系来向上钻取(即,移除细节)或向下钻取(即,添加细节),允许对特定上下文进行探索。例如,关于公司的月销售额的信息可以向下钻取到较低级别的详细信息,如每日销售额,或聚合(向上钻取)到较高级别,如学期或年度销售额。根据Kimball等人(2008年)的说法,企业DW对应于称为数据集市的面向主题的子集的联合,如果满足以下条件:A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001313图1. Kimball的 DW/BI生命 周期方 法。 改编自Kimball et al. (2008年)。满足条件:每个数据集市必须以维度模型存储粒度数据(即,最低级别的细节),并使用一致的维度和事实(即维度和事实共享相同的均值-在所有的数据集市上)。通常,数据集市与单个业务流程相关。2.2.1. DW/BI系统开发根据Sommerville(2011)的说法,软件开发涉及四个基本活动:软件规范,开发,验证和演化。这些活动是大多数软件过程模型的组成部分,例如瀑布模型、增量开发或面向重用的软件工程。 敏捷方法近年来被软件工程师采用和青睐,以应对快速系统开发的需要和软件开发过程中的需求变化。 敏捷方法目前也用于IS设计、开发和分析(Siau等人,2022年)。敏捷方法专注于增量交付,具有高客户参与度、简单性和变化适应性。它们用于DW/BI系统开发,以处理这些集成系统固有的高复杂性(Hughes,2012)。Kimball 它可以被描述为有效DW设计、开发和部署的路线图(Kimball等人,2008年)。 图 1显示开发这些系统所需的高级任务的顺序。迭代周期包括业务需求定义、维度建模、ETL设计开发以及BI应用程序设计和开发等任务。它还提供了这些任务和典型的软件开发活动之间的映射。请注意,没有针对确认的任务,但是,在大多数高级任务中有确认子过程。例如,ETL设计开发过程有其自己的生命周期,包括规范、开发和验证活动。规划阶段需要检查组织是否具有成功实施DW/BI系统的正确要素和条件。在评估DW/BI系统开发的组织准备情况时,DW、可行性(从技术、资源和数据的角度)、IT-业务关系和当前的分析文化是一个令人信服的业务动机。在传播DW项目的愿景和影响时,理解并相信项目的业务发起人也是至关重要的。规划阶段亦包括范围界定、效益及成本评估、阶段选择及制定项目计划。业务需求定义阶段与规划阶段相连,旨在了解业务/组织的分析需求和优先级。需求应该在组织级(称为项目级透视图)和每个业务流程(称为项目级透视图)。业务需要-影响设计、开发和部署的每个阶段 DW/BI系统。维度建模阶段包括按照维度方法设计概念数据模型。随后,物理设计阶段定义数据在数据库环境中的物理结构(即,索引、分区、聚合)。ETL过程负责提取、清理、整合和交付源数据到DW。这个过程在DW/BI系统中是至关重要的,它增加了价值并构造了源数据,供BI应用程序稍后使用。BI应用程序的设计和开发(使用专有BI工具或内部应用程序),以提供适合用户数据呈现、探索和分析需求的界面报告工具、仪表板、特别查询、数据挖掘)。技术架构设计根据业务需求、技术环境和计划的战略方向定义总体架构框架和愿景。一旦定义了这个框架,在产品选择和安装任务期间,将评估和选择每个组件的工具和技术。部署阶段在所有先前任务完成后开始。然而,DW/BI系统仍然需要维护、发展和成长。维护阶段确保为业务用户提供持续支持以及系统的正确运行。Growth任务支持DW/BI系统的敏捷开发,即,一旦项目完成,生命周期就可以重新开始新的业务流程或数据集市的新需求。最后,项目管理确保正确跟踪每个任务,监控项目状态,问题和变更管理。2.3. BI和非结构化数据如图2所示,BI已经发展了多年。第一代BI采用IT生成的报告和仪表板,而第二代则专注于自助服务工具和分析平台(Ereth Eckerson,2018)。第三代和当前一代的BI将受到人工智能的极大影响,从而产生更有用的见解,并使业务用户更容易与BI工具进行交互。虽然第一代和第二代BI依赖于数据仓库,使用维度建模来实现IT生成的报告和仪表板或提供自助服务分析,但第三代BI将需要不同的架构来处理非结构化数据存储和分析。非结构化数据分析的价值在最近的文献中得到了证明。例如,Neogi,Garg,Mishra,Dwivedi(2021)对Twitter帖子(文本数据)进行情绪分析,以研究与印度抗议活动有关的国际舆论。Mishra,Urolagin,Jothi(2020)使用了类似的方法,根据游 客 兴 趣 点 的 用 户 评 论 开 发 了 一 个 推 荐 系 统 Aggarwal 、 Mittal 、Battineni(2021)提供了另一个示例,他们调查了生成对抗网络(一种深度学习算法)的不同应用的文献,例如3D对象生成、图像处理、人脸检测、交通控制和其他基于图像的A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001314图2. BI的发展。改编自Ereth Eckerson(2018)。图3. 数据湖屋架构。本研究将重点关注软件对结构化数据及其分析的影响 改编自Inmon et al. (2021年)。应用.然而,在大多数行业中,BI可以利用非结构化和结构化数据分析。例如,阿尔琼,库安尔,&Suprabha(2021)介绍了对银行业的研究,根据银行销售流程,其分析数据中使用的数据类型。结构化数据用于客户忠诚度/宣传和购买/服务分析,而非结构化数据用于购买意图分析。数据湖是用来存储原始的,未经过滤的数据与廉价的存储, 年龄的解决方案,以供日后分析。该解决方案有利于探索和分析从社交媒体、物联网等检索的非结构化数据。数据通过API和其他数据访问服务从DL中提取,这些服务根据要求定义和验证文件的结构,完整性和格式(这使得DL成为高度灵活的解决方案)。 然而,数据的可靠性和一致性被指出是数据湖的主要缺点(Sawadogo Darmont,2021)。Data Lakehouse是Inmon等人(2021)在2021年提出的DL架构的演变(见图3),在处理结构化数据时仍然使用DW/BI技术,如ETL(EXtract , Transform , Load ) , BI 和 SQL 分 析 。 Sawadogo Darmont(2021)提出数据仓库应该被视为DL的一部分,或者DL应该是数据仓库的数据源。根据Ravat Zhao(2019)的说法,将DL架构集成到IS中作为DSS仍然是一个争论的主题。虽然一些作者主张DL架构是&应该在同一个生态系统中共存,这是由DL和DW通常具有不同的目标和用户这一事实支持的。2.4. 本体“本体论”一词最初于1613年创造,然而,在信息科学中,本体指的是对关于某个领域的知识进行编码的&“计算人工制品”(Stephan,Pascal,Andreas,2007)。 虽然计算机科学中本体论的含义多年来一直 在争 论 , 但 最 被接 受 的定 义 是 Studer , Benjamins , &Fensel(1998,第25页):“本体论是共享概念化的正式,明确的规范”。概念化是“一种抽象的、简单化的、我们希望表达的世界观”(格鲁伯,1993,第100页)。1),即,一个抽象的模型与事物的相关概念明确的规范意味着概念,它们的关系和约束被明确定义和编码。此外,本体的形式化允许它是机器可读的。本体应该反映社区中商定的领域概念化,即, 共享概念化(Studer等人, 1998年)。资源描述框架(RDF)是由万维网联盟(W3C)推荐开发的,以允许A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001315图第四章 基于作用域的本体类型层次。 引用自Stephan et al. (2007)(左)和Alfressey et al. (2011)(右)。三元组(主体属性对象)(潘,2009年)。RDF Schema(RDFS)和本体Web语言(OWL)是在RDF之上发展起来的,并被用作语义Web分类的标准。 RDFS引入了类和层次概念,而OWL提供了额外的词汇表和表达能力(例如,不相交性、基数、对象和数据属性)。有三种OWL子语言/类型:Lite,DL和Full,具有不同的表现力水平。通常,语言的选择取决于问题域和建模需求,在表达能力和推理能力(推理)之间有一个确定的权衡(Lukasiewicz,2008)。2.4.1. 本体分类本体分类由 Stephan et al.( 2007)和Alfressey ,Pinet,Kang,Corcho(2011)提出,在本体级别之间具有不同的层次结构路径(较低的本体专门化和继承来自上面的概念)。虽然略有不同,但这两种分类都将应用(或本地)本体确定为最专门的本体,其次是领域和任务本体,最后是一个顶级(或基础)本体(见图)。 4)。这些本体类型的概述:(a)顶级本体是通用本体,具有可以跨领域和应用使用的抽象和一般概念。它们可以被视为元本体,包含在其他本体中使用的基本概念,如对象,事件和过程。(b)领域和任务本体包含关于特定领域或特定任务的知识。域的概念化应该独立于任务(例如,生物学本体应该与诊断任务本体分离(c)应用本体或局部本体具有最大的范围,支持特定领域中特定任务的解决。这意味着它们利用域和任务本体来实现其目的。Alfressey等人(2011)的分类引入了两种额外的类型:核心参考本体,它允许不同的社区将不同的领域本体与标准的核心参考本体对齐和集成;以及通用本体,它不专用于特定的领域或领域。2.5. 类似审查近年来发表的其他评论具有类似的研究目标。本节包含了对这些作品的分析,以更好地理解本文所介绍的SLR的定位和范围。Abelló等人(2014年)介绍了EX探索性在线分析处理(OLAP)作为一种“发现、获取、集成和分析查询新的外部数据”的方法本文旨在调查SW技术如何作为EX探索性OLAP的基础,其可行性和好处,并确定未来的挑战。挑战存在于三个研究领域:(1)模式设计(例如,映射、缺少SW工具、本体进化和版本控制),(2)数据供应(例如,ETL自动化,复杂的语义感知集成),以及(3)语义和计算(例如,实例级推理、表达性/推理权衡)。未来的工作包括软件支持的多维查询和解决可扩展性问题。Laborie,Ravat,Song,Teste(2015)对研究结果进行了调查,并概述了BI和SW领域未来的研究挑战。软件数据的可扩展性、复杂性和异构性是将BI与软件相结合以增强使用Web数据进行BI分析,并允许在BI工具中进行软件数据分析。在调查中确定了两种类型的方法,面向OLAP分析和面向多维建模。第一种方法侧重于将软件数据存储在OLAP多维数据集中,以便于分析Web上发布的信息。第二种方法提供了兼容的多维建模解决方案,允许您直接对软件数据执行OLAP分析(试图克服高度复杂和耗时的ETL过程)。由于网络发布数据的动态性,可能会出现可用性和一致性问题。活力都 以换取查询效率和数据质量具体化DW中的SW数据时这台贸易机器和自动机器在OLAP立方体中集成SW数据(自动定义模式和实例级别的映射)是未来的主要研究方向。最后,Hussain,Al-Turjman,Sah(2020)提出了与Laborie等人(2015)类似的SW和OLAP集成分析。此外,作者还讨论了不同的集成方法如何处理大数据,以及云计算在商业智能中的应用带来的好处。可扩展性、成本效益、数据共享和可靠性。上述综述虽然有相关贡献,但不能被认为是SLR,因为它们分析了一小部分文献,而这些文献没有采用SLR所必需的研究方案。然而,Wisnubhadra,Baharin,Herman(2019)的2019年评论提供了一种调查策略,用于分析SW上时空多维数据的建模和查询。关于DW中本体数据的集成,作者提到DW中链接开放数据的一致性是主要挑战,同时承认OLAP的优势。本文将对最近的文献进行全面的方法论和选择标准的系统综述,重点关注DW/BI设计,开发和探索任务,允许更具体地分析本体的使用,集成和对每个任务的影响。每项工作将根据案例研究领域、使用的软件技术以及作者3. SLR方法本节介绍了研究问题、审查方案(见图5)和本SLR中采用的方法,遵循Budgen Brereton(2006)的工作。为了识别相关文献,制定了检索策略,包括关键词的定义A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001316图五. SLR方法。(and搜索字符串),包括和排除标准,以及搜索引擎的选择。3.1. 定义研究问题和分类方法如前所述,这项研究的主要目标是深入了解现有的文献中关于DW/BI系统中使用的本体。提出以下研究问题以指导研究:RQ 1:本体/知识库如何被合并/集成到DW/BI系统中?这个研究问题旨在了解SW技术如何用于提高从DW/BI系统中的结构化数据中获得的见解的质量。关于本体语言和类型的信息是为了深入了解每一页中软件技术的使用而收集的。本体类型将基于其范围。当作者省略时,本体按照第2.4.1中的术语进行分类,并以()进行区分RQ 2:在DW/BI系统开发的哪些高级任务中使用了本体?为了更好地理解DW/BI系统中本体的影响,将按照DW/BI开发的参考术语对作品进行分类和分析。Kimball&&本体的影响应该被限制在DW/BI生命周期的一个任务或一部分,比如业务需求定义、维度建模和ETL设计开发。任何探索性任务,如数据挖掘或OLAP,将被归类为BI应用程序设计。RQ 3:在DW/BI系统中使用软件技术的原因/收益是什么?这个研究问题旨在确定DW/BI系统中本体的集成/合并的主要优势。还收集了应用场景(或应用领域),以更清楚地了解这些技术对DW/BI系统的影响3.2. 定义关键字和搜索字符串对于关键词和检索字符串的定义,遵循Silva Neiva(2016)的 为了实现本研究的主要目标,即观察DW/BI系统中本体的影响,选择了同义词和类似的关键术语。为此,将关键词分为两组。第1组包括与DW/BI相关的关键字,具体为:“数据仓库”、“数据集市”和“星型架构”,以及与DW/BI框架中的任务,如“维度建模”和“ETL”。还添加了关键词“要求”、“事实”和“维度”,因为它们与DW/BI系统相关。 关键词,如组2由与本体相关的关键字组成,诸如”Semantic Web” was alsoadded since is commonly used to refer to these搜索字符串将筛选论文标题的逻辑合取 组1中的任何关键字与组2中的任何关键字的比较(见表1):A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001317表1搜索字符串中的关键字。组1商业智能;数据仓库;数据仓库;数据集市;联机分析处理星型架构;多维;尺寸模型ETL;要求;事实;尺寸组2本体;本体;本体,知识表示;知识库;语义网表2每个搜索引擎的结果。搜索引擎结果数ACM数字图书馆31IEEE Xplore122Scopus562Web of Science328总1043标题:(3.3. 定义过滤器和搜索引擎根据大学edge.com plore.ieee.org hdl.acm.org 除检索字符串外,检索中还使用了三个过滤器,如下所示:(a)文件类型:会议/会议论文、文章;(b)出版年份:[2010年,2021年];(c)语言:英语。4. 进行SLR本节介绍了SLR的初步结果,遵循图1所示的方法。 5. 总共从不同的搜索引擎获得了1043份文件(见表2),并应用了前面提到的过滤器。在这一阶段发现了几个重复,Scopus和其他搜索引擎之间的论文有很大的重叠从这一组初始文件中,通过阅读每部作品的标题和摘要进行了第一次分析。这里的主要目标是识别范围外的作品,包括在其标题或论文中没有提到DW/BI系统或任何类似概念的研究。由于使用了关键字,如要求,大量的作品(470)在这一阶段被拒绝。本体由于其语义和推理而被用于与需求和软件工程相关的工作中。然而,分析和需求获取 在通用软件中的应用被认为超出了本SLR的范围,这解释了第一次分类中大量论文被拒绝的原因对其余108件作品进行了全面分析,以确认记录在案的研究增加了本SLR的范围和目标。表3列出了这些分析的主要结果,列出了不同结局的计数(即,由于各种原因,被拒绝第二分析阶段被拒绝的主要原因是文件不可用,研究超出了本SLR的范围,特别是具有知识库的信息系统。尽管在搜索引擎中使用了过滤器,但仍有少数文件不符合必要的验收标准(例如,不是用英文写的最后,我们选取了47份文件作进一步分析和分类。表3根据接受/拒绝结果的结果。结果数已接受47拒绝997重复465超出范围(标题和摘要阅读)470知识库35不可用19错误的语言2其他评论4EX tended摘要1共计10435. 结果本节包含SLR的主要结果和发现。它分为两个部分文献计量学,其中每年和其他统计数据,以及文献分析,其中包括分类方法的结果。5.1. 文献计量图6显示了分析年份(2010-2021年)每个DW/BI任务发表的作品的演变可以得出三个主要结论:(a)在2010年或之前出现了出版物的高峰,(b)2010年至2013年期间年度出版物的数量有所下降,此后趋于稳定(2017年除外),以及(c)在过去几年中,语义Web技术应用的主要焦点是BI应用程序设计任务。在分析的47篇论文中,36篇是会议论文(76%),只有11篇作品在期刊上发表信息和知识管理国际会议(有四部著作)和信息和通信技术、电子和微电子国际会议(有三部著作)是产生更多研究的会议。5.2. 文献分析查看表4,我们可以看到一组不同的研究和应用领域(例如,学术、医疗保健、销售),其中软件技术与DW/BI系统结合使用。这是可以预期的,因为这两个领域都有丰富的重叠应用领域。大多数论文使用OWL(SW标准)及其子语言(Full,Lite和DL)也是预期的结果。使用非标准化的本体可能会破坏它们的潜力,因为它阻碍了它们的互操作性。当需要捕获业务和流程详细上下文时,领域和任务特定本体的广泛使用是不可避免的,而具有抽象和广泛概念的通用本体通常不适合。本节的其余部分将根据Kimball的DW/BI生命周期任务划分结果,其中使用了本体。由于没有发现关于维修和项目管理等活动的研究,因此没有考虑这些任务。每项工作的主要动机收集在表5中。图7显示了每个DW/BI任务的工作数量分布。有一个明确的研究重点是维度建模和BI应用程序设计。重要的是要A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001318见图6。 根据DW/BI任务发布的作品的演变。表4结果分类。参考文献年源为例安大略浪安大略类型Jiang等人(2010年)2010电子电气工程师协会保健猫头鹰域02 The FamousWoman(2010)2010斯科普斯,斯科普斯汽车租赁owl-DL域02 The Dog(2010)2010斯科普斯N/A猫头鹰全局/局部Kurze等人(2010年)2010Scopus; WoS; IEEE销售猫头鹰核心Nimmagadda等人(2010年)2010电子电气工程师协会人类生态系统N/A域Limongelli等人(2010年)2010斯科普斯,斯科普斯学术N/A(三)域名Nicolicin-Georgescu等人(2010年)2010IEEEN/A猫头鹰(三)任务Nicolicin-Georgescu等人(2010年)2010斯科普斯,斯科普斯N/A猫头鹰(三)任务Taa等人(2010年)2010Scopus学术猫头鹰(三)任务Simitsis等人(2010年)2010斯科普斯,斯科普斯N/Aowl-DL领域/应用Tanuska等人(2010年)2010电子电气工程师协会学术UML(三)域名Wu等人(2010年)2010斯科普斯,斯科普斯N/AN/A(三)申请02 The Famous Woman(2010)2010ACM汽车租赁猫头鹰域Zaharie等人(2011年)2011斯科普斯,斯科普斯销售猫头鹰领域/应用He等人(2011年)2011电子电气工程师协会N/AN/A域Ta’a & Abdullah2011斯科普斯,斯科普斯天然气分销猫头鹰(三)任务Taa等人(2011年)2011Scopus天然气分销RDF/OWL(三)任务Nimmagadda等人(2011年)2011Scopus; WoS; IEEE(E-)保健N/A域05 The Dog(2011)2011电子电气工程师协会汽车零部件公司猫头鹰域Neumayr等人(2011年)2011斯科普斯,斯科普斯健康保险猫头鹰域03 The Dog(2011)2011斯科普斯,斯科普斯医学N/A域Wu等人(2011年)2011斯科普斯,斯科普斯电子销售N/A域/(域)本地艾莫雷·马丁斯等人(2012年)2012ScopusN/AN/A上Fernandes等人(2012年)2012Scopus; WoS; IEEE规划和预算N/A任务/应用Prat等人(2012年b)2012斯科普斯农业owl-DL(三)全球Neumayr等人(2012年)2012斯科普斯保健N/A(三)域名Prat等人(2012年a)2012电子电气工程师协会时空数据owl-DL(二)上限/基金Bellatreche等人(2012年)2012电子电气工程师协会N/AUML域Tria等人(2014年)2013斯科普斯,斯科普斯品批发N/A域Bargui等人(2011年)2012斯科普斯,斯科普斯销售N/A域02 The Dog(2013)2013斯科普斯,斯科普斯销售猫头鹰域Gulic(2013)2013Scopus; WoS; IEEE发票OWL Lite(三)域名03 The Dog(2014)2014Scopus; WoS; IEEE石油猫头鹰域Etcheverry等人(2014年)2014Scopus销售RDF(三)域名Szwed等人(2015年)2015斯科普斯,斯科普斯保险猫头鹰(三)全球Matei等人(2015年)2015Scopus能耗RDF(三)域名Moreira等人(2015年)2015Scopus国家电力系统OntoUML基础/领域02 The Dog(2016)2016斯科普斯,斯科普斯N/A猫头鹰(三)任务Aadil等人(2016年)2016Scopus; WoS; IEEE废物管理猫头鹰全局/局部Ren等人(2018年)2018电子电气工程师协会保健N/A域电影Pticek Vrdoljak(2018)2018Scopus; WoS; IEEEN/ARDF当地电影Laadidi Bahaj(2018)2018ACM; Scopus; WOSN/A猫头鹰N/A中文(简体)2019Scopus; WoS; IEEE销售N/A域阿马拉尔·吉萨迪(2019)2019斯科普斯,斯科普斯教育OntoUML基金会Namnual等人(2019年)2019Scopus高等教育猫头鹰域Question等人(2020年)2020ACM; WOS医疗保健猫头鹰域Chakiri等人(2020年)2020斯科普斯,斯科普斯地方治理猫头鹰全局/本地/域A.L. Antunes,E. Cardoso和J. 巴拉泰罗International Journal of Information Management Data Insights 2(2022)1001319表5作者Ref年动机Jiang等人(2010年)2010消除数据异构性02 The FamousWoman(2010)2010支持最终用户需求获取和数据仓库数据源02 The Dog(2010)2010在语义级别查询数据仓库并允许与其他数据仓库集成Kurze等人(2010年)2010提供用于集成不同OLAP应用程序的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功