没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com层次本体中的语义匹配Sharifullah Khan*,Muhammad Safyan巴基斯坦国立科技大学电气工程和计算机科学学院,巴基斯坦接收日期:2013年5月11日;修订日期:2013年11月5日;接受日期:2014年2014年5月24日在线提供摘要层次本体在知识库中的文档组织中起着关键作用。在本体匹配中,概念之间的关系被认为是一个主要方面。在层次本体论中,概念仅通过“is-a”关系相互关联在本文中,我们讨论了一种方法,匹配异构层次本体相关的同一领域,通过语义解释和隐式上下文的概念。我们设计的规则,可以处理异构性和不一致的层次本体。这些规则可以嵌入到已有的匹配系统中,以解决层次本体匹配的复杂性2014年沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.1. 介绍本体提供了对公共领域的共享理解,并有助于解决跨不同自治组织的软件应用程序之间的互操作性问题。然而,语义Web社区同意这样一个事实,即由于Web上的信息源种类 繁 多 , 本 体 匹 配 是 解 决 语 义 异 构 问 题 的 一 种 方 法(ShvaikoandEuzenat,2013;KalfoglouandSchorlemmer,2003; Ehrig and Sure,2004)。本体匹配需要两个*通讯作者。联系电话:+92 51 9085 2150。电子邮件地址:sharifullah. seecs.edu.pk,skhan_yahoo.co.uk(S.Khan)。沙特国王大学负责同行审查本体作为输入,并发现本体中语义相关实体之间的对应关系这些对应关系可用于各种任务,例如本体合并、查询应答或数据转换。本体匹配在信息检索、自然语言处理、健康信息学、生物信息学和电子商务等应用中是一个重要的操作。本体的语义匹配在集成自主数据源中是劳动密集型且容易出错的过程,并且其使用超过一半的集成工作(Halevy,2005; Halevy等人,2006年)。自上个十年以来,已经提出了各种本体匹配系统和算法(Alfredvarov等人,2012; Shvaiko等人,2010;Hu等人,2008; Giunchiglia等人,2004、2005、2012年; Jian例如,2005; Ehrig和Sure,2005; Ehrig和Staab,2004; Do和Rahm,2002)。几项 调查 (Shvaiko 和 Euzenat , 2005 年 , 2013 年 ; Ehrig 和Sure,2004年; Giunchiglia和Shvaiko,2003年; Kalfoglou和Schorlemmer , 2003 年 ) 和 书 籍( Bellahelo 等 人 , 2011;Euzenat等人,2007年,他也在这个问题上发表了演讲。1319-1578年< $2014年沙特国王大学。制作和主办:Elsevier B.V.All rightsreserved.http://dx.doi.org/10.1016/j.jksuci.2014.03.010制作和主办:Elsevier关键词层次本体;互操作;本体匹配;本体映射南纬248号 汗,M。萨夫扬分层本体以有向无环图的形式表示,其中节点对概念进行建模,并且其标签编码概念的含义。节点之间的关系通常由图中的窄于或宽于关系表示。层次本体在每个层次上对概念进行分类,并从一般化的概念到专门化的概念。在相同的主题领域中,不同的层次本体可以具有不同的概念分类。换句话说,不同本体中的类似概念可以以不同的方式分类,并置于不同的层次结构中。数据类型属性、对象类型属性、概念之间的关系以及它们各自的公理通常定义本体的上下文(Shavaiko和Euzenat,2005; Giunchiglia和Shvaiko,2003; Giunchiglia等人,2005年)。分层本体是轻量级的 (Zuber 和Faltings, 2007; Gomez-Perez 等人,2004年),即,就其背景而言并不丰富。换句话说,数据类型属性、概念之间的对象类型属性关系以及它们各自的公理在分层本体中缺失。Web目录,如Dmoz(即,Google目录)1和Yahoo目录2以及诸如ACM计算分类系统(ACMCCS)3和数学主题分类(MSC)4的主题分类方案是分层本体的示例。这些系统也被称为分类法。层 次 本 体 通 常 被 分 类 为 正 式 和 非 正 式 的 层 次 本 体(Gomez-Perez等人,2004年)。形式化的层次本体严格地在子类中实现继承。子类的实例必须是它的超类的实例。例如,概念旅行的子类可以是飞行旅行、火车旅行。然而,非正式层次本体并不严格遵循子类中的继承。例如,Car rental和Hotel是非正式层次本体中Travel的子概念,但它们不继承Travel特征。本文主要研究非正式层次本体。在同一学科领域中,层次本体的结构存在异质性。例如,概念被不同地标记和分类,并被放置在不同层次中的不同级别。我们称之为结构异质性。异质性背后的原因如下:(i)本体在很长一段时间内演变,(ii)用户在隔离和自主工作,(iii)本体增长根据组织的要求。异质性使语义匹配变得困难,如果不是不可能的话(Giunchiglia和Yatskevich,2004; Ontology,2004)。为了匹配/映射层次本体,需要本体中的概念的上下文。由于层次本体是轻量级的,因此探索和识别本体中概念的上下文是必不可少的现有的本体匹配技术通常分为两类:(i)元素级和(ii)结构级(Shavaiko and Euzenat,2005; Kalfoglou andSchorlemmer,2003)。元素级匹配技术处理本体实体和它们的实例,与它们与其他实体或它们的实例的关系隔离。它们应用非常基本的匹配方法,例如基于字符串的、基于语言的基 于 约 束 的 。 一 些 元 素 级 技 术 使 用 外 部 资 源 ( 如WORDNET5)来了解元素的上下文;然而,仅使用外部资源而不查看本体结构可能不足以捕获上下文。这些方法是每种匹配技术的先决条件。另一方面,结构级匹配技术发现基于实体和/或其实例之间存在的关系的映射。这些技术检查本体之间的层次位置和子节点或叶节点相似性,以确定 上 下 文 ( Shavaiko 和 Euzenat , 2005; Kalfoglou 和Schorlemmer,2003)。在本研究中,我们发现现有的本体匹配技术,特别是结构级技术,不足以捕捉概念的上下文匹配的非正式层次本体。它们在匹配非正式层次本体方面的缺陷背后的主要原因如下:(i)一些概念的标签是无意义的(即,(ii)分级职位(即,层次)是不相同的,(iii)单个概念可以用多个概念来表示这些已识别的结构异质性将在下一节的示例中详细说明。我们已经设计了规则来解决匹配非正式层次本体中识别的异质性,并在原型系统中实现了它们 这些规 则 可 以 用 作 现 有 本 体 匹 配 系 统 的 扩 展 层 , 诸 如( Giunchiglia et al. , 2012; Jian 等 人 , 2005; Ehrig andSure,2005).将所提出的系统与现有的开源本体匹配系统进 行 比 较 : FOAM 6 ( Ehrig 和 Sure , 2005 ) 和 Falcon 7(Jian等人,2005; Ehrig和Sure,2005),在精确度、召回率和内插精确度方面(Salton等人,1986年)。使用Web目录Dmoz和Yahoo目录的数据集以及学科分类方案ACM计算分类系统(ACM CCS)和数学学科分类(MSC)进行评估。评估结果表明,在识别的异质性的情况下,所提出的系统比现有的匹配系统有显着的改善。本文的其余部分组织如下:第2节识别存在于非结构本体中的结构异质性。相关工作见第3节。第4节讨论了所提出的本体匹配技术。第5节详细介绍了与现有的本体匹配系统的结果的评估和比较。第6节总结了论文并确定了未来的方向。2. 确定的结构不均匀性非正式层次本体论在其子概念中并不严格遵循继承,这可能导致结构异质性。我们在匹配层次本体时发现了以下结构异质性。2.1. 无意义的标签每个概念都有一个表达其含义的标签,但标签有时是任意的,在1http://googledirectory.com/[2009年7月22日]。2http://dir.yahoo.com/[2009年7月22日]。3http://www.acm.org/about/class/1998[2009年7月22日]。[4]http://www.ams.org/mathscient/msc/msc.html[2009年7月22日]。[5]http://wordnet.princeton.edu/ [March28,2013].[6]http://www.aifb.kit.edu/[2013年3月28日]。[7]http://ws.nju.edu.cn/falcon-ao/[2013年3月28日]。分层本体中的语义匹配249任何语言,例如,英语例如,K-12是雅虎目录中教育子概念的标签,但它没有明确的含义。2.2. 结构不一致源本体中的概念在目标本体中具有不同的层次位置。换句话说,概念的子概念可以是目标本体中相应概念的超概念。例如,新闻媒体是Dmoz目录中体育的子概念,如图1所示。同样的概念,新闻媒体,是雅虎目录中体育2.3. 结构多义结构上的不一致性使得很难通过层次本体中的直接超概念来确定概念的实际方面。例如,Colleges Universities是Dmoz目录中News Media的子概念,而Yahoo目录中Sports的子概念,如图1所示。这两种本体论中的"学院-大学“概念就其直接的超概念而言并不相同;然而,这两个概念就其语境而言是相似的。2.4. 多方面概念源本体中的多个概念的概念或子概念可以是目标本体中的单个概念的子概念。作为多个概念的子概念的概念比作为单个概念的子概念的概念具有更多的方面。换句话说,多方面的概念更具体,而单方面的概念更一般。例如,棒球是一个子概念的&大学,广播和杂志和电子杂志在DMoz目录,如图所示。 二、同一个概念是一个子概念,图2 Web目录一个概念,即,杂志,在雅虎目录。DMoz目录中的概念Baseball比Yahoo目录中的概念Baseball2.5. 同义词相 同 的 概 念 在 语 言 学 上 被 标 记 为 不 同 的 词 ( Khan 和Mustafa,2013)。例如,在语言学上,体育和游戏是两个不同的东西,但它们是有不同标签的相似概念。2.6. 拆分上下文在源本体的概念中保持的知识可以分散在目标本体中的多个概念的图1 Web目录的片段。250 S. 汗,M。萨夫扬多个概念可以位于单个级别或多个级别。换句话说,源本体的概念可以与目标本体中的多于一个(许多)概念匹配。例如,Yahoo目录中的赌博成瘾在Dmoz目录中被分为两个级别的两个概念,赌博和成瘾,如图1所示。同样,&在DMOZ目录中的杂志Ezine概念被分解为两个概念:杂志和Ezine,在Yahoo目录中处于同一级别,如图 所示。1.一、2.7. 隐式标签一些相似的概念被不同地标注,并且不可能通过它们的同义词来匹配它们。然而,它们可以通过它们各自的超概念和子概念来匹配。例如,体操和杂技这两个概念不是同义概念,但我们可以根据它们的超概念和子概念上下文来描述它们的相似性,如图所示。3 .第三章。在本文中,我们提出的规则,处理的异质性和不一致性,发现在匹配的非正式层次本体,前面提到的。3. 相关工作在过去的十年中,已经提出了各种本体匹配系统和算法。关于这方面的概述,见Shvaiko和Euzenat(2013年,2005年 ) 、 Ehrig 和 Sure ( 2004 年 ) 、 Giunchiglia 和 Shvaiko(2003年)、Kalfoglou和Schorlemmer(2003年)。没有一个匹配器明显地支配其他匹配器。通常,它们在某些情况下表现良好,而在其他一些情况下表现不佳许多系统已经 集 中 于 组 合 和 扩 展 已 知 方 法 ( Shvaiko 和 Euzenat ,2013)。在本文中,我们将讨论层次本体中的异构性识别问题,参考现有的本体匹配系统和算法。FOAM(Ehrig and Sure,2005)是由卡尔斯鲁厄大学开发FOAM结合了基于规则的方法和机器学习方法。首先,它考虑各个实体(概念、关系和实例)的相似性。因此,它返回对齐的实体对。FOAM还提供了一种机制,允许用户为特定的比对任务设置参数,并在产生可疑比对时选择比对。FOAM应用一个迭代过程,并通过聚合先前估计的相似性来扩展映射。Falcon-AO(Jian等人,2005)是一个自动本体匹配工具。在Fal-con-AO 、LMO 和GMO 中存在两种比对策略(Hu等人,2005年)。LMO是基于本体的语言匹配的匹配器,而GMO是基于本体的图匹配的匹配器。Falcon-AO最新版本(Hu等人,2008)分三个阶段运行,以解决大型本体。它将输入本体的实体划分为聚类集合,并基于预先计算的锚点构建匹配的块。在新的Falcon-AO中有两种对齐策略,V-Doc(语言匹配器)和GMO(迭代结构匹配器)。S-Match ( Giunchiglia 等 人 ,2004 , 2006 , 2012;Shvaiko等人,2010)是由特伦托大学开发的算法和工具。S-Match以两棵树作为输入,对于两棵树中的任何一对节点,它计算两个节点的概念之间的最强语义关系。为了完成这一任务,它使用了词汇技术、WordNet中同义词集之间关系形式的背景知识以及树的结构。S-Match仅限于用于分类目的的树状结构。CTXMatch(Magnini等人,2004)、QOM(Ehrig andStaab,2004)和COMA(Do and Rahm,2002)仅通过它们的直接超概念来解决概念的结构多义性。然而,他们的方法,结构多义是不成功的非正式层次本体论,解释了在结构多义描述在前面的部分。此外,现有的匹配系统没有区分多方面概念和单方面概念的匹配,并平等地处理它们。 这种方法降低了在概念专门化方面同样无意义的标签,分裂上下文和超级子上下文是不是现有系统的重点。4. 建议的匹配技术为了匹配的源和目标本体的概念,我们已经提出并设计了规则,从非正式层次本体的结构表示的概念之间的相似性。这些规则详细说明如下:4.1. 无意义标签概念的标签通常可以分为两类:(i)有定义的复合词标签和(ii)无意义的(未定义的)复合词标签。我们对这些群体的定义简明如下:定义复合词标签:这种类型的标签包含至少两个相邻的单词,并且在WORDNET8中具有明确的含义。例如,Academic Department在WORDNET中是一个定义的复合词标签,它的同义词可以从WORDNET中识别出来。未定义的复合词标签:这种类型的标签由两个或两个以上的相邻单词组成,在WORDNET。例如,激光游戏在WORDNET中不可用;因此,我们可以将其视为未定义(即,图3 Web目录中的超-子上下文8http://wordnet.princeton.edu/[2009年7月22日]。表1未定义复合词标签的规则。分层本体中的语义匹配251标点符号更换例如规则空间结合激光游戏激光x游戏逗号析取垒球,快速投球垒球v快速投球和析取艺术和人文艺术v人文或析取无限群或有限群无限群介词结合数据理论理论x数据图4结构不一致。无意义)标签。这些复合词可以包含空格、逗号、“or”、“and”和其他命题。我们设计的识别概念结构的规则如表1所示。例如,标签Laser Game必须被视为Laser ^ Game。换句话说,标签Laser Game必须与同时具有单词Laser和Game的标签相匹配。类似地,标签Arts and Humanities可以与标签ArtsvHumanities匹配。4.2. 解决结构不一致S-Match(Giunchiglia等人,2004)解决结构不一致性的方法不能解决非正式层次本体中的这个问题,因为子概念本质上不继承它们的超概念的所有属性。我们提出了概念结构的匹配,即,概念的组成,而不是在非正式层次本体中结构不一致的情况下匹配单个概念。在数学上,我们将该规则描述如下:如果AA02a^A0A 2b,则 A; A 0 A0;A其中a和b是两个层次,A和A0是概念,“表示同义词关系。该规则的Horn子句表示如下:快去C2,快 去 ! C 1,^D2,!D1,^C1,— D2,^ C2,$ D1,} C2,^ C1,— D2例1.在Dmoz目录中,体育和新闻&媒体相当于&雅虎目录中的新闻媒体和体育,如图所示。 四、4.3. 解决结构性多义性我们通过直接超结构而不是通过直接超概念(即,父母)在非正式的层次本体论。 在这里,我们引入了两个术语:超结构和子结构。一个概念的上层结构由更广泛的概念组成,直到曾祖父,而一个概念的下层结构由更狭窄的概念组成,直到曾孙子。例如,在图5中,概念News Media是DMoz目录中概念Colleges Universities的超概念,而Sports是Yahoo目录中相同概念的超概念。如果我们比较两个目录中的大学的直接超级概念,那么它会被认为是不同的。 然而,如果我们考虑直接的超结构,根据我们提出的解决结构不一致性的规则,两个目录中的概念是相同的,如前一小节所述。 该规则的Horn子句表示如下:快去C3,快 去 ! C2,快 ! C1,^D3,!D2,!D1,^C1,$D2,^C2,$D1,}C1,^C2,$D1,^D2,}C3,-D3,南纬252号 汗,M。萨夫扬图5结构多义性说明。实施例2.这条规则可以解释的帮助下,DMoz目录和雅虎目录,如图所示。 五、4.4. 匹配多方面概念多方面的概念比单一方面的概念更专业。换句话说,多面概念是更受限制的概念。因此,我们认为多方面的概念是一个子概念的单方面的概念匹配。DMoz目录中的概念Baseball是三个父概念的子概念,即,学院和大学,广播和杂志和电子杂志。另一方面,雅虎目录中的棒球概念只有一个部分概念,并且比前一个概念更一般化,如图所示。 二、在这里,我们必须定义一个函数来辅助所提出的规则。Label:label(arg1,[arg2])表示概念的标签。第一个参数表示概念的名称,第二个参数是可选的,表示第一个参数的标签。该规则的Horn子句表示如下:你好 !Cn= 1,N ^Cn-1,N^· · ·^C1,N^D2,N!C n,_C n-1,_···_C 1,^标签D 1; y- labelD2; yD2D1}D1,$D2,图6多方面概念与图示相匹配。实施例3.这一规则可以解释的帮助下图2和图中所示。六、4.5. 解析拆分上下文在分裂上下文的情况下,概念的匹配(目标)概念可以在非正式分层本体中的单个级别或不同级别被分解。当一个概念的匹配概念分散在不同的层次上时,这些匹配概念是彼此的子概念和超概念。在这种情况下,匹配概念的结合( AND ) 应 类 似 于 源 概 念 。 因 此 , 源 概 念 GamblingAddiction等于目标概念GamblingxAddiction,如图所示。7 .第一次会议。类似地,当一个概念的匹配概念分散在单个层次上时,这些匹配概念是彼此的兄弟。 在这种情况下,匹配概念的析取(OR)应与源概念相似。因此,源概念杂志和电子杂志 等于概念杂志v电子杂志,如图所示. 8 .第八条。等式1和等式2中的以下规则示出了分别利用horn子句在不同级别和单个级别上解析分裂上下文。我们定义了另一个在建议规则中使用的函数。Concatenation:concate(arg1,arg2)表示一个典型的字符串连接函数,它应用于作为参数给出的两个概念C2,C2,C 2 !C1,^标签C1;a^标签lC2;b^labelD1;z ^labelD 1- 联系人姓名标签姓名C2姓名}C1,^C2,$D1y1快来C1,快 来 !去你 的 !Dz}C1,_C2y!ð D ð z ÞÞð2Þn nnn nn分层本体中的语义匹配253图7在不同层次上划分上下文。图8在单个级别上拆分上下文。实施例4.这些规则可以在Dmoz目录和Yahoo目录的帮助下进行解释,如图2所示。7和84.6. 解释隐式标签非正式层次本体中概念的隐含标签可以通过其直接的超结构 和 子 结 构 来 解 释 。 例 如 , DMoz direc- tory sportsGymnasticsArtisticClubandSchools 和 YahoodirectoryAthletics Acrobatics Artistic Club的层次结构如图所示。3 .第三章。根据我们提出的规则,体操的直接超概念是体育,子概念是艺术,而技巧的超概念是竞技,子概念是艺术。因为体操和技巧概念的直接上层结构和下层结构是相似的,所以这两个概念是平等的。接下来是提议的带有horn子句的规则,其目的是处理隐式标签。快去C 3,快 去 ! C 2,快 ! C 1,^D3,!D2,! D1,^C1,!D1,^C3,-D3,^labelC2;y^labelD2;z^y:z}C2,$D2,图9隐式标签。5. 执行和评价为了评估和验证我们的系统,本体是必需的。在下面的小节中,我们将讨论开发的本体及其评估。5.1. 数据集质量标准我们选择了两种不同类型的层次本体:(i)网络目录和(ii)主题分类方案。在Web目录中,Dmoz9目录是一个非常大的目录,在其层次结构中有近590 ,000个类别。Yahoo10目录的大小几乎相同。因此,我们只考虑了一个主要类别,体育,以及来自Yahoo和Dmoz目录的后续类别实施例5. 这条 规则可以用Dmoz和雅虎目录,如图所示。9.第九条。9http://www.dmoz.org[2013年3月28日]。10http://dir.yahoo.com[2009年7月22日]。254S. 汗,M。萨夫扬表2 网络目录映射结果的嗅探手动匹配p啪啪啪啪XXp泡沫pXXXpXppX猎鹰pXXXpppXpYahoo concepts健康养生赌博成瘾体育部艺术体育部体操部艺术体育部新闻媒体新闻媒体部体育部大学部大学部专栏作家专栏和专栏作家提出p啪啪啪啪程序的程序X篮球射箭X残疾人X图10Web目录-查准率和查全率评价另一方面,ACM 计算分类系统 11 和数学学科分类(MSC)计划12都与学术有关。ACM CCS对计算机科学学科进行分类,MSC用于对数学相关文档进行分类。它们的主题领域相互重叠;因此,它们被选中进行评价。由于这些层次结构的大小非常大,我们从每个层次结构中随机选择了两个主要类别,如下所示:● 计算方法应用(MSC)。● 人工智能(MSC)。● 计算方法学(ACM)。● 计算机应用(ACM)。选择一小部分可用数据集进行这项研究的原因是,这些数据集不是本体格式的,而是文本或XML格式的,它们必须 转 换 为 适 当 的 本 体 语 言 , RDF 或 OWL 。 我 们 使 用Protege13为 Java语言中的每个数据集开发了一个合适的RDF本体。5.2. 系统架构该系统已在Java语言中实现。该系统的系统架构由三个部分组成:语 言 分 析 服 务 使 用 ( i ) Protege-OWL 和 ( ii ) Jena-OWL-Model来解析输入本体。这些API是OWL和RDF的开源Java库,它们提供了加载和保存OWL文件以及查询和操作OWL数据模型以执行推理的类和方法。该服务将概念视为独立对象,而不管它们在层次结构中的位置。首先对概念进行词形化和词形化,然后根据定义的规则将概念归类为复合词或未定义的复合词。世界知识服务利用WORDNET语言资源来寻找概念之间的关系,如同义词,上位词和下位词。上下文分析服务使用定义的匹配规则捕获分层本体中概念的上下文。5.3. 评价和结果我们将我们提出的系统与两个现有的本体匹配系统进行了比较,即Falcon 14(Jian等人,2005)和FOAM 15(Ehrig和Sure,2005)。 这两个系统都是开源应用程序,它们的代码是可用的。我们下载了他们的API,并将其部署在本地机器上进行评估。我们执行了所有三个系统(即,所提出的系统和下载的系统)用于对上述数据集进行评估。用于系统的评估标准[11]http://www.acm.org/about/class/1998[2009年7月22日]。[12]http://www.ams.org/mathscinet/msc/msc.html[2009年7月22日]。13http://protege.stanford.edu/[Oct. 10,2013]。[14] http://ws.nju.edu.cn/faccom-ao/[2013年3月28日]。[15]http://www.aifb.kit.edu/[2013年3月28日]。●●●分层本体中的语义匹配255图11 Web目录是精确度,召回率(Hassanpour和Zahmatkesh,2012)和内插精确度(Salton等人, 1986年)。 精确度可以被看作是准确性的度量,而召回率是完整性的度量。精度是系统可以检索到的相关概念的数量除以检索到的概念的总数。召回率是系统可以检索到的相关映射的数量除以相关概念(应该已经检索到的)的总数。为了了解给定本体之间的相关概念,由领域专家手动匹配本体。内插精度结合了精确度和召回率,并测量高于某个召回水平阈值的最大精度。5.3.1. 基准测试:网络目录这两个目录Dmoz和雅虎都作为输入给所有三个系统。结果的片段如表2所示。在表中,子概念用箭头(fi),例如,赌博是上瘾的一个子概念,马克(p)表示匹配的概念,cross(X)表示匹配的概念。不匹配的概念。在手册和建议的匹配中,DMoz中的概念程序与Yahoo中的程序不相似,因为它们的超结构不相似(即,图1所示),尽管它们的标签相同。图10显示了我们的系统(所提出的规则)在精确度和召回率方面的准确性。该系统的精度比Falcon和FOAM分别提高了19%和30%。同样,召回率比Falcon和FOAM高27%。在图11中,该曲线图示出了在每个召回点处的内插精度的单调递减函数。在Falcon和FOAM的情况下,插值精度的下降比我们提出的系统更尖锐。5.3.2. 基准:受试者分类同样,ACM CCS和MSC这两个分类方案都是所有三个系统的输入。结果的片段如表3所示。图12显示了我们的系统在精确度和召回率方面的准确性。该系统的精度比Falcon和FOAM分别提高了10%和32%。同样,与Falcon和FOAM相比,召回率分别提高了9%和39%。 图图13,该图说明了单调表3 分类方案映射结果的摘要MCS concepts人工智能人工智能Computational geometry计算几何计算机辅助设计计算机辅助工程图像处理图像处理与计算机视觉手动匹配p啪啪啪啪提出ppXpp泡沫XXXpp猎鹰XpXXp解决问题,rol方法和搜索问题解决ppXppppp机器人机器人ppp仿真仿真与建模pppX知识表示知识表示X图12主题分类南纬256号 汗,M。萨夫扬Falcon,在精确度、召回率和内插精确度方面。使用Web目录Dmoz和Yahoo目录的数据集以及科目分类方案ACM计算分类系统(ACM CCS)和数学科目分类(MSC)进行评价。评估结果表明,在识别异质性的情况下,与现有的匹配系统相比,所提出的系统有了显著的改进。未来的研究步骤可以是找到同样适用于所有类型的层次本体的结构模式。引用图13受试者分类每个召回点处的内插精度的递减函数。与我们提出的系统相比,Falcon和FOAM的插值精度下降更严重。6. 结论和今后的方向匹配对于语义Web应用中不同本体之间的互操作至关重要。本体的语义匹配是集成自治数据源的一个劳动密集型和容易出错的过程。分层本体以有向无环图的形式表示,其中节点建模概念,其标签编码概念的含义。层次本体是轻量级的,并在每个级别上对概念进行分类。它们从广义概念发展到专门概念,通常分为以下几类:正式和非正式的社会本体论。第一类严格实现继承到子类中,而后一类不严格遵循子类中的继承。在同一个学科领域中,不同层次的本体可以有不同的概念分类,这被称为结构异质性。异质性背后的原因如下:(i)本体在很长一段时间内进化(ii)用户孤立地和自主地工作,以及(iii)本体根据组织需求而增长。异基因使语义匹配变得困难。为了匹配层次本体,本体中的概念的上下文是必需的。由于层次本体是轻量级的,因此探索和识别本体中概念的上下文是必不可少的在这项研究中,我们发现,现有的本体匹配技术,特别是在结构层面上,不足以捕捉上下文的概念匹配时,非正式层次本体。它们在匹配非正式层次本体方面的缺陷背后的主要原因如下:(i)一些概念的标签是无意义的(即,(ii)分级职位(即,层次)是不相同的,(iii)单个概念可以用多个概念来表示,以及(iv)直接父概念在这些本体中并不总是可预测的。我们已经设计了规则来解决匹配非正式层次本体中识别的异质性,并在原型系统中实现了它们。该系统与现有的开源本体匹配系统,即FOAM和Bellahovich,Angela,Bonifati,Erhard,Rahm(编辑),2011.模式匹配和映射。斯 普林格。做,H。,Rahm,E.,2002年。Coma在非常大的数据库会议(VLDB),香港,中国,页。610-621. Ehrig,M.,Staab,S.,2004.快速本体映射。在国际语义网会议上,(ISWC),Arlington,USA,pp. 683-697Ehrig,M.,当然Y 2004.本体映射-一个综合的方法。在欧洲语义网论文集(ESWS),伊拉克利翁,克里特岛,希腊,pp。七十六比九十一Ehrig,M.,当然Y 2005.本体对齐和映射的框架;本体对齐倡议的结果。在K-CAP 2005集成Ontologies 研讨会论文集,156,Banff,加拿大,10月,pp. 72比76Euzenat,Jerome,Euzenat,Jerome,Shvaiko,Pavel,2007.本体匹配斯普林格。Giunchiglia,F.,Shvaiko,P.,2003年。语义匹配。知道。Eng.Rev. J.(KER)3,265Giunchiglia,F.,Yatskevich,M.,2004.元素级语义匹配。在意义的协调和谈判研讨会在ISWC,广岛,日本,pp。102比109Giunchiglia,F.,Shvaiko,P.,Yatskevich,M.,2004. S-match:一 种 语 义 匹 配 算 法 及 其 实 现 。 In : Bussler , Christoph ,Davies,John,Fensel,Dieter,Studer,Rudi(Eds.)语义网:研 究 与 应 用 , 计 算 机 科 学 讲 义 第 3053 卷 。 Springer ,Berlin/Heidelberg,pp. 61比75Giunchiglia,F.,Shvaiko,P.,Yatskevich,M.,2005.语义模式匹配。技术报告,特伦托大学,波沃,特伦托,意大利,2005年。技术,报告DIT-05-014。Giunchiglia,Fausto,Shvaiko,Pavel,Yatskevich,Mikalai,2006.本体匹配中缺失背景知识的发现。在:2006年ECAI 2006会议记录:第17届欧洲人工智能会议,2006年8月29日至9月1日。IOS Press,Riva del Garda,Italy,pp. 382-386.Giunchiglia,F.,Autayeu,A.,J.,2012. S-match:一个轻量级本体匹配的开源框架。Semantic Web 3(3),307-317.Gomez-Perez , A. , Corcho , O. , Fernando-Lopez , M. , 2004.Ontological Engineering,First ed. 斯普林格。Halevy,A.,2005年为什么你的数据队列3(8),50Halevy,A.,Rajaraman,A.,Ordille,J.,2006.数据集成:青少年时期。在第32届超大型数据库国际会议上,韩国首尔,VLDB捐赠,ACM,pp。9比16Hassanpour,Hamid,Zahmatkesh,Farzaneh,2012.一种考虑用户兴趣领域的自适应Meta搜索引擎。沙特国王大学计算机信息科学24(1),71-81。胡伟,Jian,N.,Qu,Y.,王玉,2005.本体的图匹配。在K-CAP2005 集 成本 体论 研讨 会的 会议 记录 中 , Banff , Alberta ,Canada,pp.43比50分层本体中的语义匹配257Hu,Wei,Qu,Yuzhong,Cheng,Gong,2008.匹配大型实体:分而治之的方法。Data Knowl. Eng. 67(1),140-160.Jian,N.,胡伟,郑,G.,Qu,Y.,2005. Falcon-ao:将本体与Falcon对齐。在K-Cap 2005年集成本体论研讨会的会议记录中,Banff,Alberta,加拿大,pp。85比91Kalfoglou,Y.,Schorlemmer,M.,2003.本体映射:最新技术。知道。Eng. Rev. J. (KER)18(1),1-31。Khan,Sharifullah,Mustafa,Jibran,2013.使用主题相似度进行有效的语义搜索。沙特国王大学计算机信息科学0的情况。Magnini,Speranza,M.,吉拉迪角,2004.分类层次互操作性的基于语义的方法:语言技术的评估。第20届国际计算语言学会议论文集,瑞士日内瓦,p.23-27.本体互操作性:最新技术报告。技术报告,WP8 ST 3可拆卸,IST-508011 , http://twiki.di.uniroma1.it/pub/estrinfo/material/ ,2004年。访问日期:2009年7月22日。Alzavarov,Rimma,Elhadad,NoAªmie,2012.一种混合的基于知识和数据驱动的方法来识别语义相似的概念。J.生物医学。Inf.45(3),471-481.Salton,G.,一九八六年自动情报检索的最新趋势在第9届年度国际ACM SIGIR会议记录中,信息检索研究与发展,意大利,第100页。1-10。Shavaiko,P.,Euzenat,J.,2005.基于模式的匹配方法综述。J.Data Semant.(《乔兹》)4,146-171。Shvaiko,Pavel,Euzenat,Jerome,2013.本体匹配:最新技术与未来挑战。IEEE Trans. Knowl. Data Eng.25(1),158-176。Shvaiko,Pavel,Giunchiglia,Fausto,Yatskevich,Mikalai,2010.使用s-match进行语义匹配。语义网信息管理。施普林格,pp.183-202.Zuber,V.S.,Faltings,B.,2007. Oss:基于层次本体的语义相似度函数。在第20届国际人工情报联合会议(IJCAI)的会议记录中,印度海得拉巴,pp。551-556
下载后可阅读完整内容,剩余1页未读,立即下载
![application/x-zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)