没有合适的资源?快使用搜索试试~ 我知道了~
整合异质知识的联邦层:理论、架构和语义
理论计算机科学电子笔记142(2006)79-97www.elsevier.com/locate/entcs一个整合异质知识的联邦层。奥古斯汀娜·布切拉1亚历杭德拉·切奇2DepartamentodeCienciasdlaComputacion科马休国立大学阿根廷内乌肯尼维斯R. Brisaboa3从p到rtamentodeComputacionUniversidadedeACorunaACoruna,Spain摘要式开发者定义架构、执行架构战略和记录结果的方式对处理信息和知识的能力产生了关键性的影响。[10]在这种情况下,集成数据库是非常重要的,但它们可能存在的不同语义通常会使管理变得复杂。因此,为了实现数据库中包含的全部知识,通过公共语义检索信息变得至关重要。[10]在本文中,我们描述并说明了一个关于使用分层体系结构来整合来自不同来源的知识的建议。我们举例说明了如何通过应用基于本体的比较作为组件行为的一部分来促进该过程的进行关键词: 联合数据库、本体论、语义异质性、上下文、语义异质性。* 这项工作得到了CyTED项目VII-J-RIToS 2和联合国非洲经济和社会理事会的部分支持。项目04/E048。1 电子邮件地址:abuccel@uncoma.edu.ar2 电子邮件地址:acechich@uncoma.edu.ar3电子邮件地址:brisaboa@udc.es1571-0661 © 2005 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi:10.1016/j.entcs.2004.09.04580A. Buccella等。理论计算机科学电子笔记142(2006)791介绍性软件系统开发人员越来越认识到利用现有知识在联合数据库和联合信息系统的工程设计中的重要性。[10]实现这一点的一种方法是定义一个体系结构,该体系结构确定系统设计元素的分区及其组成规则。例如,[6]中提出的体系结构(基于[23])引入了三个主要层:"包装层",它涉及多个模块,用于从隐藏其数据组织的底层源检索数据;"接口层",它允许用户访问联邦系统;以及"联邦层",它负责解决与语义异构性相关的问题这些问题在[9]中被分类为:(1)处理语义等价概念的方面-不同的模型使用不同的术语来引用相同的概念,例如同义词或属性由不同的系统进行不同的建模;(2)处理语义上不相关的概念的方面,以及(3)处理语义上不相关的概念的方面。E.G. 相同的术语可以被设计系统用来表示完全不同的概念;以及(3)通过使用一般化/特殊化等来处理语义上相关的概念的各个方面。[10]语义异质性的类似分类可以在[7]中找到。到目前为止,已经使用了不同的方法来对联邦层进行建模在某些情况下,它们既多样又互补,并且可能涉及不同的视角,例如本体的使用[5]、元数据的使用[6,16,22]等。例如,[18]中的工作提出了本体集成过程的特征化,该过程侧重于分析本体的质量,作为获得可重用结果本体的一种方式作为另一个例子,Chimarea方法[15]为合并不同来源的本体术语、检查本体的覆盖率和正确性以及随着时间的推移保持本体提供了支持。作为最后一个例子,FCA-MERGE方法[26]您描述了一种自下而上的技术,用于基于一组文档合并本体。我们的工作集中在本体论异质性问题[29],当建模联邦层。当映射是源本体和共享词汇表之间的映射时,这个问题就出现了--必须进行穿孔。本体论异质性有一系列内在的问题,因为每个本体论只对应于一个独立创建的信息源。为了解决这些问题,我们提出了一种基于混合本体论方法的联合体系结构[8],并且我们还定义了一种填充该体系结构的方法[2,3]。我们的方法包含三个主要阶段:A. Buccella等。理论计算机科学电子笔记142(2006)7981通过构建源本体,通过构建源本体之间的映射,通过构建共享词汇表,我们可以构建源本体。这些阶段中的每一个都可作为创建体系结构组件的指南。在本文中,我们将重点放在第二阶段,在源本体中构建映射,解释它们的步骤,以便理解体系结构组件如何处理本体异质性问题。特别地,我们描述了如何计算概念的相似性。本文的组织如下:第2节介绍了我们的体系结构的总结,特别是描述了负责计算概念的相似性的组件。然后,第3节提供了一个OWL示例,说明了组件的工作原理。今后的工作和结论将在以后处理。2用于解决语义异质性的组件。图1显示了我们的联邦系统架构的主要组件。由于包装层和接口层具有与[6]中所述相同的功能,因此在本节中,我们仅关注[2]中所述的联合层该层由三个主要组件组成:源本体、OCM(本体和上下文映射)和共享词汇表。让我们Briefly澄清这些概念。对于联邦系统中的每个信息源,指定了一个源本体和一个特定的上下文。此外,通过描述数据库的不同角色,在每个本体中定义了一组上下文例如,UML规范[10]的用例可能是获取某些上下文的源代码,而不是源代码。第二个组成部分,OCM,处理与第二个源本体的内容文本和概念之间的关系这些关系是对等的、包含的、交叉的等等。因此,OCM处理了源本体论和共享词汇之间的信息流。最后,共享词汇是所有源ontolo-gies收敛于其中的组件。这个组件是由一般概念和上下文组成的,这些概念和上下文将被用来查询系统。用户使用此词汇表从系统中查询并获取答案。因此,系统获得对信息源的访问,以产生输出数据。在[2,3]中,我们还提出了一种创建联邦体系结构的三个组件的该方法包括三个主要阶段:构建源本体论、构建源本体论之间的映射和构建共享词汇表。[1]特别是,第二阶段,根据源代码Ontolo-构建映射82A. Buccella等。理论计算机科学电子笔记142(2006)79图1。 一个联合系统体系结构gies,包含三个主要步骤:定义映射,寻找相似性,并建立平等公理。第一步意味着在前一阶段构建的源本体的上下文中结束关系-ships。由于上下文是全局定义的,因此这是一个直接向前的步骤。第二步,寻找相似性,是最重要的一步,也是本文的主要焦点这将在第2.2节中描述。最后,最后一步,即建立等式公理,也是一个向前的步骤,因为高相似性值必须在相关的上下文中寻找。2.1联邦层的体系结构组件在本节中,我们简要描述了用于实现联合层的软件组件的结构,特别是相似性的计算。下面,一些组件是根据它们的接口和子组件来描述的,而其他组件只是出于简短的原因而提到的。有关详细描述,请参阅[4]的读者。图2显示了一个显示组件及其依赖关系的图,其中结构使用UML符号表示[10]。A. Buccella等。理论计算机科学电子笔记142(2006)7983图2。联邦层的组件图...• 协调器组件:此组件的目的是通过一次使用每个组件来协调所有进程的一致性一旦用户加载了本体(在OWL语言[24]4中),协调器调用解析器和实例化组件以获得对象结构(表示本体模型组件的实例化)作为查询。这样,整个本体,它的公共类和属性类,以及它的特殊属性和数据类型属性,都将成为本体模型的对象。为了计算包含在相关上下文中的概念的相似 性 值 , 调 用 了 相 似 性 搜 索 器 组 件 ( Similarity SearcherComponents)。• 解析器和实例化组件:组件应该解析用户加载的OWL代码,以便创建一个对象结构,该对象结构表示本体模型组件的有效实例化。在此情况下,解析过程或创建实例期间生成的错误代码将返回到Coordinator组件。用户应该使用someontologyeditorsuch作为protege[25]toavoidsyntacticproblems。• 本体模型组件:该组件对应于本体的Java翻译[27][28]。我们使用OWL的语法,其中一个ontol-ogy包含根据我们的类的类和属性(第2.2节)。4也可以使用其他类似的语言。84A. Buccella等。理论计算机科学电子笔记142(2006)79图3- 5显示了本体实例化中使用的类图。每个用户都可以通过涉及用户和本体类来创建自己的本体。"本体类"类涉及公共类和属性包含在属性类中的属性类别中。Special属性和datatype属性是属性类的子类。请注意,这些子类的范围是不同的。特殊属性具有一个或多个"本体类"作为范围,数据类型属性具有一个"XML数据类型"在此基础上,6在此组件和Context Model组件之间存在依赖关系,因为需要此关联指示包含在上下文中的类。• 上下文创建器组件:此组件负责创建对象结构,该对象结构表示上下文模型组件的有效实例化,该上下文模型组件对应于由用户加载的上下文及其关系- ships。• 上下文模型组件:此组件对应于用户定义的上下文的Java翻译,而上下文模型组件是用户定义的上下文。它使包含在每个上下文中的类和属性与上下文中• 相似性搜索器组件:该组件的任务是在两个相关的上下文中计算相似性值。我们使用Ontol-ogy模型组件来获取公共类和属性类,以及特殊属性和数据类型属性,并在我们的相似性方法中使用它们(第2.2上下文模型组件用于获取包含在相关上下文中的概念,而上下文模型组件用于获取相关上下文中包含2.2相似性方法[编辑]寻找相似性是一个非常复杂的活动,因为一般来说,它不可能完全自动地确定两个本体论之间的所有映射--主要是因为我们在本文中提出的相似性函数。[5]在本文中,术语"本体类"和"本体类国际化"表示本体的类和实例。它们并不表示一类面向对象范式的实例,而是表示具有不同含义的类似术语的实例。6在本文中,实例不用于比较。A. Buccella等。理论计算机科学电子笔记142(2006)7985图。3. 本体模型组件的类图[编辑]因此,它应该仅确定映射候选项,用户可以接受、拒绝或更改这些候选项。此外,用户应该能够指定概念的映射,对于这些概念,系统是不可能找到令人满意的匹配的。我们建议使用几个相似性函数,这些函数依赖于本体的接下来,我们描述了用于比较概念的所有函数然后,我们展示了我们的相似性方法,在其中这些函数被应用。一个本体的概念可以用两个比较标准来比较:句法的和语义的。在合成层中,我们使用三个相似性函数:编辑距离函数[12,14]、三角函数[13]和数据类型函数[14]。编辑函数(1)返回相似度的一个度-介于0和1之间,其中1表示完美匹配,0表示糟糕的匹配。给定两个字符串,考虑将一个字符串转换为另一个字符串所必须进行的更改次数,并将这些更改的次数与最短字符串的长度进行加权。(1)。simed=max0,Σmin(|x|,|和|− ed(x,y)min(|x|,|和|)[0, 1]例如,ed(animal,animals)= 1,因为一个插入操作更改86A. Buccella等。理论计算机科学电子笔记142(2006)79将字符串"animal"转换为"animals",min(|动物|,|动物|= min(6.7)= 6,因此simed(动物,动物)= max(0,5/6)= 5/6三元函数(2)是基于两个概念或字符串中不同三元的数目的三元函数:(二)1simtri(x,y)=1+|三(x)|+|三(y)|− 2 ×|三(x)−三(y)|其中tri(x)是x中的三元组。例如,对于三(动物)={ ani,nim,ima,mal}和三(animals)={ ani,nim,ima,mal,als},所以tri(动物)−tri(动物)=tri(动物),因此simtri(动物,动物)= 1/(1 + 4 + 5 − 2 × 4)= 1/2最后,数据类型函数或数据类型兼容性(3)是一个正向函数,因为它只比较两个概念的数据类型例如,字符串到字符串或字符串到整数。如果存在从一个数据类型到另一个数据类型的逻辑转换[1],则函数的结果等于1,否则等于0。⎧1if数据类型兼容性(dt1,dt2)(三)simdtc(dt1,dt2)=0其他方面。在语义层面上,为了比较两个基于其属性的概念,我们使用[2]中描述的相似性函数此外,我们使用提供的同义词库信息,以确定同义词和hypernymy关系。然后,语义上比较两个概念的相似性函数(4)是[2,21]:(四)|X ∩ Y|simatt(x,y)= |X Y |+ α(x,y)|X/Y|+(1 − α(x,y))|Y/X|对于0≤α≤ 1其中x和y是概念,X和Y对应于x和y的描述集,在这种情况下是函数(4)基于Tversky的A. Buccella等。理论计算机科学电子笔记142(2006)7987两个概念并计算它们在层次结构中的深度。如果两个概念的深度相同,则该函数的值等于0.5。例如,如果动物概念由三个属性(颜色、体重和年龄)描述,并且动物概念也由三个属性(颜色、年龄和乳房)描述,则函数项(4)可以计算为:|=|{颜色、体重、年龄}{颜色、年龄、乳房}|=2;|= 2;|=|{颜色、体重、年龄} / {颜色、年龄、乳房}|=1,|= 1;|=|{颜色,年龄,乳房} / {颜色,体重,年龄}|=1;在这种情况下,α(动物)= 0。|= 1; and in this case α (animal,animals)= 0. 5. 因此,在此之前,simatt(动物,动物)= 2/3为了从比较两个本体论的概念开始,我们首先对不同的概念进行了分类。图4显示了一个本体论的不同元素第一个除法指的是两个不同的元素。在一个分支上,我们有类,在另一个分支上,我们有属性。首先,我们分析了分支类,分支类又分为两个新的分支:普通类和属性类。这两个类都是在本体论中定义的,用来表示关于世界的事物。在本体论中定义的具体角色是它们之间的差异...... 公共类具有表示有关域的内容的角色,属性类具有表示有关公共类的信息的这两种角色之所以存在,是因为本体论的一些概念充当了属性。例如,一个本体可以把动物类作为一个公共类,把器官类作为一个贡品类,因为器官的存在描述了一个关于公共类的特征。Organ类没有任何属性。在另一个分支上,图4显示了属性分支,该分支也分为两个新分支:数据类型属性和特殊属性。 一个属性是一组元组,它代表了话语宇宙中对象之间的关系。每个三元组都是一个有限的有序序列(即,对象的列表。属性在表示函数、基数、域、范围等方面具有限制。数据类型属性是将一个类或一组类与一个数据类型相关联的属性。例如,animal name是Animal类和字符串数据类型之间的公共属性。 在另一方面,特殊属性是与类相关的属性。例如,动物类和器官类之间的关系,以表示动物的器官。因此,一个公共类既有数据类型属性,也有特殊属性。88A. Buccella等。理论计算机科学电子笔记142(2006)79图4。提出了一个表示本体和属性类不具有任何属性的属性。图5描述了我们搜索相似性的基本方法该方法依赖于前面描述的相似性函数和图4中所示的本体论的不同元素。[10]首先,用户必须指示第一个映射,例如在一个本体的动物类和另一个本体的生物类之间如果类是公共类,则系统会严格地比较两个类的数据类型属性。方法中的清除过程表示删除冠词、介词和不相关字符(、:、-、-等)的过程。[10]同义词同义词如果为这两个数据类型属性找到了同义词关系,则函数sim 1thesaurus(dtpi,dtpj)等于1,并且它在其他方面等于0。然后,使用这些属性的名称、数据类型兼容性(simdTC(Rangeof(dtpi),Range of(dtpj)和词库的结果之间的相似性函数(1)、(2)来计算sim1sint(dtpi,dtpj)函数。sim1sint(dtpi,dtpj)函数返回0和1之间的值;并且权重之和,即w值(wed,wtri,wdt和wthesaurus),等于1。最后,如果函数的结果超过阈值(thaccept),则添加临时映射(temporary map)。然后,我们必须比较包含在普通类中的特殊属性。该比较与上一个案例类似,但未计算数据类型兼容性。simtotal(spi,spj)函数使得所有的相似性过程都考虑到了特殊属性的范围。因此,这是一种递归方法,当范围是属性类时(因为它们没有属性),该方法将停止。再一次,同义词被用来确定同义词的关系-船舶。simrest(spi,spj)函数检查特殊属性约束[24],如函数、对称、allValuesFrom、someValuesFrom、基数等。然后,当simsp(spi,spj)函数超过时,添加临时映射。A. Buccella等。理论计算机科学电子笔记142(2006)7989相似性(O1,O2)如果c1和c2是公共类,则用户输入两个相似类(c1,c2)对于每个数据类型属性dTP c1和dTP c2 cleaning_process(dTPi,dTPj)sim1同义词库(dtpi,dtpj)=search_on_thesaurus(dtpi,dtpj)sim1sint(dtpi,dtpj)= wedsimed(dtpi,dtpj)+wtri simtri(dtpi,dtpj)+wctcsimdtec(Range_of(dtpi),Range_of(dtpj))+ w同义词库sim1同义词库(dtp,dtp)if sim1sint(dtpi,dtpj)=第一个接受add_mapping(dtpi,dtpj)对于每个特殊属性sp c1和sp c2清理_过程(spi,spj)sim2同义词库(spi,spj)=search_on_thesaurus(spi,spj)simrest(spi,spj)=check_restrictions(spi,spj)sim2sint(spi,spj)= w simed(spi,spj)+wtri simtri(spi,spj)+wthesaurussim2thesaurus(spi,spj)+ wrest simrest(spi,spj)simtotal(spi,spj)=计算所有过程(Range_of(sp i),Range_of(spj))simsp(spi,spj)= wsint sim2sint(spi,spj)+wtotal simtotal(spi,spj)if simsp(spi,spj)add_mapping(spi,spj)使用添加的映射cleaning_process(c1,c2)sim3同义词库(c1,c2)=search_on_thesaurus(c1,c2)sim3sint(c1,c2)=wed simed(c1,c2)+w simtri(c1,c2)+w同义词库sim3同义词库(c1,c 2)如果c1和c2是属性类simclass(c1,c2)=sim3sint(c1,c2)如果c1和c2是公共类simclass(c1,c2)= wsint sim3sint(c1,c2)+watt simatt(c1,c2)if simclass(c1,c2)add_mapping(c1,c2)图5。 一种寻找相似性的方法门槛的问题。最后,我们必须比较类。这种比较是使用公共类和属性类的syntactic函数以及公共类的语义函数使用由属性比较添加的映射来表示两个类的一组相似的属性,这两个类的属性是相似的。如果final函数超过阈值,则会添加临90A. Buccella等。理论计算机科学电子笔记142(2006)79时映射。一旦获得了两个类的所有相似性值,则时间映射为A. Buccella等。理论计算机科学电子笔记142(2006)7991ping将显示给用户,他/她必须决定是否必须永久添加这些映射因此,用户做出最后的决定。相关工作在文献中发现了几种相似性测量方法,每一种方法都适用于特定的情况。例如,在诸如信息检索或word sense disam-biguation之类的应用中使用的几种相似性度量基于每个术语的信息内容[11,13,19]。这个内容被定义为一个术语或任何子术语在语料库中相同层次结构中的出现次数。因此,这些方法所提出的公式是以概率值为基础例如,在[13]中,相似性度量不是由公式直接定义的;相反,它是从一组关于相似性的假设中推导出来的。其他不使用语料库的作品可以在[14,17,20,21]中找到。更具体地说,[21]中的工作提出了相似性评估的两种不同方法的组合:特征匹配过程和语义差异。[22][23][24]这个模型使用三个元素来比较概念:零件、函数和属性。部分是一个概念(或类)的结构元素,如建筑物的"屋顶"和"地板";功能代表一个概念的目的;属性对应于一个概念的附加此方法使用了函数4和以下函数:{\displaystyle {\})。(5)S(aO1,bO2)=wp。 Sp(aO1,bO2) +wf. Sf(aO1,bO2) +wa。Sa(aO1,bO2)f或rwp,wf,wa≥0andwp+wf+wa=1函 数 5 是 乘 积 的 和 , 其 中 w 表 示 部 分 、 函 数 和 属 性 ( wp , wf ,andwarespectively)。对于x=p或x=f或x=a,EachSx(a,b)使用前面解释的函数4进行比较。这种方法不能直接映射到我们的方法上,因为在比较时没有考虑到隐藏的本体论,而是考虑到了相互矛盾的概念。用于计算相似性的元素可以从其他信息源(如WordNet)获得;然而,相似性不能自动计算,因为与概念相关联的函数是用自然语言编写的。这种方法的另一个问题是,本体具有属性,而这些属性本身并不具有部分或属性,因此与属性相关联的函数是唯一可用于比较的元素(在这里,我们再次面临自然语言问题)。在[30]的工作提出了一种方法来定义动词的基础上92A. Buccella等。理论计算机科学电子笔记142(2006)79共享的语义域。在一个概念域中,两个概念的相似性由它们在层次结构中的密切关系来定义,即,它们之间的结构关系。两个概念C1和C2之间的概念相似性表示为:(六)ConSim(C1,C2)=2× 3N1+N2+2× N3其中C3是C1和C2的最小公共超概念; N1是从C1到C3的路径上的节点数N2是从C2到C3的路径上的节点数; N3是从C3到根的路径上的节点数。这个公式的问题是本体中的一个概念可能不包含任何超类。然后,这个con-cept和另一个con-cept之间的公共超类将是根,函数6的结果将是0。在这种情况下,就像最后提出的方法一样,没有办法比较属性。在[17]中提出的工作描述了一种用于异构数据库系统集成的半自动方法该方法由几个阶段组成,这些阶段致力于创建三个词典:一个同义词词典、一个同音词词典和一个对象聚类相似性词典。该方法使用了存储在词汇同义词性质词典(LSPD)中的关于概念名称的背景知识为了获得这个词典,该方法首先通过将一组标准词库的同义词对与一组输入方案的名称进行交集来构造一组同义词对。然后,为在最后一步中找到的每个同义词对添加似然性系数。这些coe fichients是由领域专家定义的。该方法为集成中的每个数据库构建一个图,并对相邻图进行聚类,以检测两个概念的相似性因此,该方法基于在每个阶段中发现的相似性而迭代地工作。由于它是为数据库定义的,因此使用了这些类型的信息系统中包含的几个因素;例如,属性的数据类型兼容性、属性域和属性语义相关性。这最后一个因素指的是属性在表征概念中的贡献,例如,非主键属性比主键属性更具体地表示由概念表达的语义,因为它们通常是用于标识实例的代码或数字,而不是主键属性。正如我们所看到的,这些因素中的许多都是数据库系统特有的,不能应用于本体论。A. Buccella等。理论计算机科学电子笔记142(2006)7993最后,[14]中的工作与我们的方法相似--使用了在词汇层面上,该方法使用函数1,称为词汇相似性度量(SM)。 在概念层面上,con-cepts被比作对它们出现的分类法进行计数。作者使用语义库(Semantic Cotopy,SC)的概念来定义分类法中特定概念的所有超概念和子概念下面的函数用于比较两个不同的概念:F−1(SC(F({L}),H1))−F−1(SC(F({L}),H2))TO1(L,O1,O2)=12F−1(SC(F({L}),H1))F−1(SC(F({L}),H2))1 2其中H1和H2是分类学,和F−1(SC(F({L}),H1)和F−1(SC(F({L}),H2))都是超和1 2L概念在两个分类法中的子概念当必须检查属性或关系时,会使用一个不同的函数。为此,作者使用另一个名为Upwards Cotopy(UC)的概念来比较属性的域和范围,该概念定义了特定概念的所有子概念:F−1(UC(C1,H1))−F−1(UC(C2,H2))CM(C1,O1,C2,O2)=12F−1(UC(C1,H1))−F−1(UC(C2,H2))1 2其中F−1(UC(C1,H1))和F−1(UC(C2,H2))是C1的超概念1 2和C2分别。此方法不考虑数据类型属性(Datatype Properties)。作为一种改进,我们的方法通过分析数据类型兼容性和合成相似性来比较这些属性(表1中显示了这种比较的一个示例)。特殊属性的比较方式与我们的方法非常相似--因为域和范围是分开分析的。然而,我们也考虑到它们的合成,寻找这些同义词,并考虑到属性的当搜索相似性时,所有这些因素都有影响,因为两个本体可能有两个属性,它们具有相同的域和范围,但具有不同的含义。我们的方法在文献中表现为几个命题的结合我们的建议修改了一些相似性函数,以使其与信息相匹配。94A. Buccella等。理论计算机科学电子笔记142(2006)79图6。两个本体论本体论提供了这一点。然后,我们将这些函数合并到一个基本方法中,以便找到最合适的映射。正如我们将在下面的部分中所展示的,我们的方法允许用户找到几个正确的映射,但它不适合处理多对一映射。3一个激励人心的例子为了说明Ontology Model组件是如何工作的,我们将编写一个关于我们当前工作内容的案例研究的一部分。图6显示了用图表示的两个本体(为了简单起见,我们在这里不显示OWL代码)。图中的箭头表示公共类的特殊属性(源箭头表示域,目标箭头表示域)。范围)。数据类型属性被表示为类定义中的属性,即属性的名称→数据类型(datatype)。第一个元素是名称属性,第二个元素是数据类型。因此,数据类型属性的定义域是它所在的类,而范围是数据类型元素的定义域。这两个本体都是对库域建模。正如我们所看到的,每个本体都使用自己的词汇来表示域中的事物在这两个本体论中,国家类和地方类都是属性类,因为它们没有特殊的属性,它们的存在是为了描述一个普通类的特征书、卷、作者和作者都是常见的类。写于,民族性和起源是特殊的属性和isbn,名称,第一个名字,等等。它们是数据类型属性。下面,我们将展示比较图书类和卷类的结果。A. Buccella等。理论计算机科学电子笔记142(2006)7995表1显示了将相似性方法(图5)应用于Book和Volume类的数据类型属性的结果。x→ ysim1sint(x,y)行动book.isbn→ vol.isbn1添加映射(x,y)book.name volume.name1添加映射(x,y)book. edition number→ volume.edition number0.78添加映射(x,y)book.pages→ volume.页数0.29无表1数据类型属性的相似性[编辑]然后,对特殊属性进行了比较。在我们的示例中,只有一个特殊属性要进行比较(写入依据)。这一比较也使作者和作者类以及地方和国家类的比较与它们的属性结合在一起成为一种体裁。因此,作为simsp(book.written by,vol.written by)= 0.835,添加了映射。最后,我们必须比较图书类和卷类。 此过程将使用在上一个步骤中添加的映射,因为添加映射被视为相等属性。然后,simatt(书,卷)= 0.75和simclass(书,卷)= 0.565。在上面的例子中,我们考虑了sim- ilarity函数中的权重(w值)是均匀分布的,并且阈值值等于0.5.只有在属性类的情况下,我们才增加了- saurus函数(看起来像同义词)的权重,因为这些类只是进行了语法比较。例如,如果我们使用均匀分布权重比较Country类和Place类,则相似性函数sim3sint(Country,Place)返回0.37。请注意,由于这些类在语义上是等价的,因此这个结果的权重非常低。因此,为了比较这些类型的类,我们在sim3sint(c1,c2)函数中为w同义词库分配了0.5,为wed和wtri分配了现在,函数sim类(国家,地点)的结果是0.53,并添加了时间映射。表2显示了由相似性方法生成的映射,该方法考虑了最后一次修改,即当类 被 属 性 化 为 类 时 , 增 加 了 sim3sint ( c1 , c2 ) 函 数 的 - saurus 函 数(wthesaurus)的权重。请注意,找不到name与first name或last name之间的映射,因为我们的方法仅生成一对一映射。96A. Buccella等。理论计算机科学电子笔记142(2006)79数据类型属性[编辑]特殊属性:常见和属性类[编辑]book.isbn→ vol.isbn书。写的。卷。编写者书→卷→book.name→ volume.name作者.originauthors.nationality作者→作者→作者图书.版本号.第一卷版本号国家→地方作者.出生日期→出生的authors.date表2用相似性方法4结论和未来工作我们引入了一个分层的体系结构来处理语义异构性问题。 为此,我们建议使用本体论和上下文来建模一个联邦层,并且我们已经描述了一个特定的组件--本体论模型组件(Ontology Model Components)。它通过应用本体论提供的信息来实现异构源之间的比较。所做的方式比较允许用户根据对来源的更完整和准确的描述,对概念的相似性做出决定。然而,目前我们的工作正处于一个开发阶段,有一些任务仍在开发中。由于我们目前的方法只处理一对一的关系,我们正在改进相似性函数,以便考虑多对多的关系和hyponym-relationships。我们还应该利用关于实例使用的信息,并考虑关于本体论异质性的其他问题,如聚合级不匹配问题(见下文)。最后,我们的架构需要经过经验验证,因此必须进行大量的重新搜索,以证明我们的建议的适用性。参考文献[1] 拜伦,P.和A. Malhotra,XML模式第2部分:数据类型,W3C推荐,2001年5月2日。网址http://www.w3.org/TR/xmlschema-2/[2] Buccella,A. A. Cechich和N. Brisaboa,联合数据集成的本体论方法,载于:第九届阿根廷计算机科学大会论文集,2003年,第905-916。[3] Buccella,A.A. Cechich和N.Brisaboa,数据集成的本体论方法,期刊A. Buccella等。理论计算机科学电子笔记142(2006)7997计算机科学与技术3(2003),pp.62-68.URLhttp://journal.info.unlp.edu.ar/default.html[4] Buccella,A.A. Cechich和N.Brisaboa,基于本体的数据集成环境,载于:第七届伊比利亚-美洲软件环境需求工程和开发研讨会论文集,2004年,第79-90。[5] Buccella,A. A. Cechich和N. Brisaboa,基于本体的数据集成:不同的方法和共同的特征,在:L。Rivero,J.Doorn和V.Ferraggine,编辑,数据库技术和应用百科全书(2005年)。[6] Busse,S. R.- D. 库切,U. Lesser和 H. Weber,《联邦信息系统:概念、术语和体系结构》,技术报告99-9,柏林工业大学(1999)。网址http://ccs.mit.edu/ebb/peo/mad.html[7] Cheng,H.,《异质信息源中语义冲突的表示和推理》,技术报告博士,麻省理工学院(1997年)。网址http://ccs.mit.edu/ebb/peo/mad.html[8] 科克,O.和A 。Gómez-Perez ,评估 本体规 范语言 的知识 表示和推理 能力,载于:ECAI2000 年 本 体 和 问 题 解 决 方 法 应 用 研 讨 会 论 文 集 , 2000 年 。 网 址http://delicias.dia.fi.upm.es/WORKSHOP/ECAI00/schedule.html[9] 崔,Z。P.[10] Fowler,M.和K。Scott,[11] Jiang,J.和D. Conrath,《基于语料库统计和词汇分类学的语义相似性》,载于:计算语言学研究国际会议论文集,1998年。[12] Lavenshtein,I. 二进制代码能够纠正删除、插入和回滚,控制论和控制理论10(1996),第707-710。[13] 林,D.,《相似性的信息理论定义》,载于:第十五届机器学习国际会议论文集,1998年,第100页。296-304。[14] Maedche,A.和D。Staab,测量本体之间的相似性,在:EKAW学报2002,2002,pp.251-263。[15] McGuiness,D. R.菲克斯,J.赖斯和S. Wilder,《合并和测试大型本体的环境》,A.科恩,F. Giunchiglia和B. Selman,编辑,KR2000会议记录(2000年),第483-493。[16] 南,Y。和A。王,异构分布式数据库的,载于:大规模信息系统本体、数据库和语义应用国际会议论文集,2002年,第100页。28-30.[17] Palopoli,L. D.Sacca,G. TerracinandD。 Ursino,Unifo rmTechniquesforDeriving异构数据库中对象和子模式的相似性,IEEE知识和数据工程学报15(2003),第100页。271-294。[18] 平托,H.和J。Martins,《本体集成:如何穿透过程》,载于:《本体和信息共享研讨会论文集》,IJCAI 2001(2001),第71-80.[19] 雷斯尼克,O.,分类学中的语义相似性:一种基于信息的测量方法及其在歧义和自然语言问题上,人工智能研究杂志11(1999),第100页。95-130。[20] 理查森,R.和A。Smeaton,在基于知识的信息检索方法中使用WordNet,技术报告CA-0395,都柏林城市大学,计算机应用学院(1995)。[21] 罗德里格斯,A.和M。Egenhofer,《从设计本体确定实体类中的语义相似性》,IEEE知识和数据工程学报15(2003),第100页。442-456。98A. Buccella等。理论计算机科学电子笔记142(2006)79[22] 塞利格曼,L. 和A。Rosenthal,促进数据集成的元数据资源。URLhttp://www.computer.org/conferences/meta96/seligman/seligman.html[23] Sheth,A.和J。Larson,用于管理分布式、异构和自治数据库的联合数据库系统,ACM计算调查22(1990),第183-236.[24] 史密斯,M.,C. 韦尔蒂和D. 麦吉尼斯, OWL 网站 本体论的 语言 指南。URLhttp://www.w3.org/TR/2004/REC-owl-guide-20040210/[25] Stan代表d,U。2000年的《我是你》。URL前缀http://protege.stanford.edu/doc/users guide/index.html[26] Stumme,G.和A。Maedche,语义网上联合本体的本体合并,载于:信息集成模型基础国际研讨会论文集(FMII-2001),2001年。[27] Java SE平台。 网址http://java.sun.com[28] 特沃斯基,A.相似性的特征
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功