Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com用于将异构数据分解为三元组的Mrityunjay Singh*,S.K. Jain印度国立技术学院,Kurukshetra 136119接收日期:2013年5月8日;修订日期:2014年2月6日;接受日期:2014年3月13日2015年3月26日在线发布为了实现数据空间系统的愿景,它需要一个灵活、强大和通用的数据模型,能够表示高度异构的数据混合,如数据库、网页、XML、深网和文件。在文献中,三重模型被发现是一个合适的候选者对于数据空间系统,能够将结构化、半结构化和非结构化数据表示为单个模型。三元组模型基于分解理论,将各种数据表示为三元组的集合。本文提出了一种将各种异构数据模型表示成三元组模型的分解算法。该算法基于三元组模型的分解理论。通过应用分解算法,我们已经提出了一套转换规则的现有数据模型。转换规则已被分类为结构化、半结构化和非结构化数据模型。这些规则能够将大多数现有的数据模型分解为三元组模型。我们已经证实了该算法以及具有不同数据模型的不同数据集的转换规则。2015作者。制作和主办:Elsevier B.V.代 表 沙 特 国 王 大 学 这 是 一 篇 基 于 CC BY-NC-ND 许 可 证 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍近年来,对分布在多个站点上的大量异构数据的有效管理已经引起了人们的注意。数据集成是管理如此庞大的异构数据集合的一种方法,*通讯作者。联系电话:+91 8295594224。电子邮件地址:gmail.com (M.Singh ),skj_nith@yahoo.com(S.K. Jain)。沙特国王大学负责同行审查制作和主办:Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2014.03.017具有各种缺点(Dong等人, 2009; El-Sappagh等人,2011;Lenzerini,2002)。最近,数据空间方法已经作为一种新的数据集成方式出现,其以“即用即付”的方式集成异构数据(Halevy等人,2006; Franklin,2009)。这种方法提供了对现有数据管理系统的增量改进,用于以统一的方式管理和查询异构数据(Hedeler等人,2009; Mirza等人,2010年)。数据空间被定义为一组参与者和他们之间的一组关系。参与者可以是包含数据的任何数据源,并且可以从结构化到非结构化变化(Franklin等人,2005; Singh和Jain,2011)。数据空间系统的示例包括个人信息管理(PIM)(Dittrich等人,2 0 0 6 ;Dittrich等人,2007年),科学数据管理(Dessert `和1319-1578年,作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词信息集成;数据空间系统;三重模型;异构;转换规则集;数据建模182M. S.K.辛格Jain¼ ðÞPes,2009年; Elsayed和Brezany,2010年),管理网络上的结构化数据,如关联数据(Bizer等人,2009;Ngomo,2012; Van Hage等人, 2012年)。数据空间系统的开发需要一个简单而灵活的数据模型来统一表示数据空间中的异构数据。先前,Halevy等人已经论证了基于半结构化图的模型更适合于数据空间系统(Halevy等人,2006年)。Zhong等人提倡使用资源描述框架(RDF)(Zhong等人,2008)提出了基于RDF数据模型的三元组模型。三元组模型是一种基于分解理论的简单、灵活的数据模型,它在不丢失语义的情况下表示数据空间中的异构数据。该模型将一个大的数据单元分解成一组较小的数据单元,并将每个数据单元封装成一个三元组。为了用三元组模型表达各种数据模型,避免数据在各个层次上的不确定性,需要一套翻译规则。在这项工作中,我们采用了新的三元组模型的分解理论,并提出了一个算法,将一个数据模型分解成一个三元组的集合。我们的算法分为两个阶段:第一阶段,识别属于输入数据模型的所有数据项类,第二阶段,将每个类分解为各自的组件,并将每个组件封装为一组三元组。基于分解算法,我们提出了一套适用于结构化、半结构化和非结构化数据模型的转换规则。以前,Zhong等人提出了一组分解规则w.r.t.一些数据模型(Zhong等人,2008),而我们的工作包括提出了一个大的转换规则和分解算法应用于他们。建议的转换规则集(TRS)是详尽的,并涵盖了广泛的数据模型在实际使用中。因此,这些规则集为实现奠定了良好的基础。通过识别它们各自的类和属性,可以扩展这些TRS以及用于其他数据模型的分解算法。我们已经将我们的TRS应用于各种现有的数据模型,如对象关系,XML,iDM数据模型。第二部分介绍了三元模型的基本思想。各种数据模型的TRS在第3节中介绍。第4节和第5节分别介绍了工作的比较和讨论。我们已经完成了第6节的工作。2. 三重模型三元组模型是基于图的数据模型,其中最小的建模单元是三元组。一个三元组(T)有三个元组(S;P;O),其中S是主语成分,P是谓语成分,O是宾语成分。受试者组分(S)是数据项的唯一标识符,它是整数类型。谓词成分(P)有一个2元组(l;d),其中l是表示标签的有限字符串,d也是表示数据类型的有限字符串。对象组件(O)存储实际数据作为字节数组。数据项(p)是填充在数据空间中的单元,其构成诸如真实世界实体、关系、元组XML元素、数据库、文件/文件夹、网页。在数据空间中填充数据项之前,必须将其分解为三元组的集合。例如,在数据空间中填充雇员数据项(e1)之前,必须将其分解为一组三元组,如{(e1,(emp name,string),“R”。Kumar“),(e1,(dateofbirth,date ) , ”17/11/1983“ ) , ( e 1 , ( date of joining ,date ) , ”15/07/2009“ ) , ( e 1 , ( organization ,string ) , ”NIT“ ) , ( e1 , ( department ,string ),”Computer engineering- ing department“),and(e 1,(salary,currency),Rs 41,543/-)} as shown inFig. 二、数据项类C(p)是数据项的预定义类。具有共同属性的数据项集合被分组成数据项类,文件、文件夹、关系、XML元素、对象、网页、抽象实体(如per-son)。数据空间中的每个数据项必须属于预定义的数据项类,否则我们为该数据项定义一个新类,例如,iDM模型中资源视图数据项的资源视图类(Dittrich和Salles,2006)。一个三元组图(G)是一个逻辑图,它是由数据空间中不同的三元组构成的三重图(G)定义为G N;E;L,其中N是一组节点。内部节点表示具有其标识符的数据项在这种情况下,叶节点表示包含数据的文字值。E是一组边。如图1 所示,边表示任意两个数据项之间的关系(即,关联边)或数据项及其值(即,属性边)w.r.t属性P.的协会边缘是表示为
, 属 性 edge 表 示 为dataitem;property;value>。