基于主题相似度的多关键字查询语义搜索方法

82 浏览量更新于2024-01-14 收藏 841KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于主题相似度的Sharifullah Khan*，Jibran Mustafa巴基斯坦伊斯兰堡国立科技大学电气工程计算机科学学院接收日期：2012年10月12日;修订日期：2013年4月18日;接受日期：2013年2013年10月22日在线提供摘要现有的语义搜索系统大多利用领域本体对搜索关键词进行扩展，以处理语义异构问题。它们专注于匹配多关键字查询中各个关键字的语义相似性;然而，它们忽略了查询本身的关键字之间存在的语义关系。对于这些类型的查询，系统返回的答案相关性较低。如果系统知道查询中的多个关键字之间存在的关系，则可以检索多关键字查询的更多相关文档所提出的搜索方法匹配关键字的模式来捕获关键字的上下文，然后根据它们的模式相关性得分对相关文档进行排名。一个原型系统已经实施，以验证所提出的搜索方法。该系统已与现有的评价系统进行了比较。实验结果表明，该算法在查准率和查全率方面都有一定的提高.2013年沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.1. 介绍数字资料库方便用户存档数字文档。然而，其内容的语义异质性导致检索相关文档的困难（Alipanah等人，2010;Rinaldi，2009; Lee和Soo，2005; Khan等人，2004; Blasio等人， 2004年）。语义异质性是指相似的数据在文档中以不同的方式表示，例如，单词author与单词writer的使用*通讯作者。联系电话：+92 51 9085 2150;传真：+92 51 8317363.电子邮件地址：sharifullah. seecs.edu.pk（S. Khan），jibran.-mustafa@seecs.edu.pkwww.example.com Mustafa）。沙特国王大学负责同行审查存在不同的语义异质性问题，诸如一词多义和同义（Yang等人，2011; Fang等人，2005; Lee和Soo，2005; Rodriguez和Egenhofer，2003; Uschold和Gruninger，2004）。同义词是指与另一个词具有相同含义的词;例如，电影是电影的同义词。一词多义指的是一个词或短语有多个相关的含义;例如，银行在一种情况下可以指金融机构，在另一种情况下可以指河流角落/边缘。信息检索（IR）的主要关注点是有效地从存储库中检索相关信息。领域本体通过特定领域中的公共词汇表为上下文的结构化表示提供概念框架（Bonino等人，2004; Fang等人，2005年）。词汇表通常包括概念、概念之间的关系以及这些概念和关系的定义。例如，在陈述 “Bilal works inHSBC”中此外，本体规则和沙特国王大学。制作和主办：Elsevier B.V.All rightsreserved.http://dx.doi.org/10.1016/j.jksuci.2013.10.006制作和主办：Elsevier关键词语义搜索;主题相似度;语义异质性; RDF三元组;信息检索南162号Khan，J. 穆斯塔法公理也被定义为定义可以在本体中引入的新概念并应用逻辑推理（Ding等人，2004年）。语义相似性是指语义上的接近、接近或接近。它表示不同概念之间的相似性及其关系。存在三种类型的语义相似性：（a）表面、（b）结构和（c）主题相似性（Poole等人，1995; Zhong等人，2002;Zhu等人，2002; Montes-Y-Gomez等人，2000年）。表面和结构相似性分别关注概念和关系，而主题相似性考虑模式（即，概念之间的关系以及它们之间的关系。在本文中，“关键词”既可以表示领域本体的概念，也可以表示领域本体的关系。现有的典型语义搜索系统（Bonino等人，2004; Fang等人，2005; Varelas等人，2005）通过领域本体来扩展单个关键字，以处理不同的语义异构性挑战，例如同义关系。例如，可以通过领域本体将对概念作者的搜索扩展到关键字writer和author。只查找关键字作者的搜索结果可能比查找作者和作者的搜索结果少。现有系统集中于匹配各个关键字的语义相似性（即，它们应用表面或结构相似性），并且如果在查询中给出他们忽略了语义关系存在于多个关键字本身之间。如果用户输入多个关键字查询，例如，有时候，搜索结果可能与用户需求无关。对于多个关键字查询，系统返回的答案相关性较低，尽管它们在具有不同语义关系的查询如果系统知道查询中的多个关键字本身之间存在的含义和关系，则可以检索多个关键字查询的更多相关文档。关键词模式是指领域本体中至少两个概念及其关系的组合。模式可以表示上下文/主题，即发生某事或应该考虑某事的情况。因此，现有的系统（Bonino等人，2004; Fang等人，2005; Varelas等人，2005; Rinaldi，2009;Alipanah等人，2010年; Yang等人，2011）不能解决多义词的语义异质性问题，因为它需要识别关键字的上下文来理解它们的实际语义。此外，现有的系统还忽略了其他重要的关系，如语义邻域（Rodriguez和Egenhofer，2003），也可以有助于有用的搜索结果。为了克服现有语义搜索系统的局限性，我们需要通过关键字模式来表示关键字的上下文，以便使用主题相似性进行有效搜索（Khan等人，2006; Poole等人， 1995年）。建议的系统concentrates对搜索关键字模式，而不是对个别的关键字。我们采用资源描述框架（RDF）三元组来描述文档元数据和搜索查询的关键字模式。我们已经开发了一个原型系统的验证所提出的解决方案。将该系统与现有系统进行比较（Fang等人，2005; Shah等人，2002）进行评价，结果表明语义搜索的查准率和查全率都有提高。本文的其余部分结构如下：第2节回顾了当前的语义搜索技术和他们提出的系统。第3节详细解释了我们提出的检索方法。第4节举例说明了一个演示所提出的方法的走查示例。第五节对原型系统进行了评价，第六节对本文进行了总结.2. 相关工作确定关键字之间语义相似性的几种方法，即，无论是概念还是关系，都已经在文献中提出。这些方法分为三大类（Varelas et al.，2005年）。我们首先讨论本节中的方法，然后描述应用这些方法的现有系统。2.1. 语义相似度方法2.1.1. 边缘计数法这些方法测量作为路径长度的函数的两个关键词之间的语义相似性（即，距离）链接关键字和它们在它们各自的层次结构中的位置（Rodriguez和Egenhofer，2003; Varelas等人， 2005年）。该相似性计算简单地依赖于通过本体中的“Is-A”关系对分离两个关键字的边的数量进行计数（Rada等人， 1989年）。此技术假定层次结构中上层关键字之间的语义差异大于下层关键字之间的语义差异。换句话说，一般概念比两个专门概念更不相似。因为专门的概念可能看起来比一般的概念更相似，所以通过计算层级中的最大深度来考虑深度（Leacock等人， 1998）或最具体概念的深度，同时包含两个比较的概念/关系（Hirst等人，1998; Wu等人，1994年）。概念之间的语义相似度是参照其最接近的公共父概念（ccp）来计算的。2.1.2. 信息量法这些方法测量两个概念的信息差异作为它们在语料库中出现的概率的函数。它们也被称为词频（tf）/逆文档频率（idf）。在这些方法中，两个概念在某种程度上是相似的，它们共享共同的信息。因此，层次结构中每个概念的信息内容值是使用其在语料库中的频率计算的（Resnik，1999）。2.1.3. 基于特征的方法这些方法测量两个概念之间的相似性，或者作为它们的属性或特征的函数。这些方法假设两个概念是相似的，如果它们具有比非共同特征更多的共同特征（ Tversky ，1977）。2.2. 现有系统剂量（ Bonino 等人， 2004 ）使用基于向量空间模型（VSM）的tf / idf 作为关键字。这一制度延续了传统--使用主题相似性进行有效的语义搜索163通过包括分类关系（即，特殊化和一般化）用于查询扩展的关键字。它们通过关系扩展查询向量，并使用文档向量和扩展查询向量之间的夹角的余弦计算它们之间在Fang et al.（2005）中，作者基于传统的向量空间模型（VSM）对关键字使用tf/idf。他们通过考虑语义关系（即，直接的、强的、正常的、弱的和不相关的）关键字来进行查询扩展。他们为这些关系定义权重（即，直接、强、正常、弱和不相关的权重分别为1.0、0.7、0.4、0.2和0.0）。用户查询是通过这些关系扩展的。文档中查询关键字的tf/idf值通过乘以查询和文档关键字之间存在的语义关系的权重来调整。然后，根据相关性得分对文档进行排名。在Varelas et al.（2005）中，作者对关键词使用了语义相似性检索模型（SSRM ）。它们通过包括语义关系（即，同义词、下位词和上位词）进行查询扩展，并根据关键词在分类法中的位置为关系分配权重。它们将用户查询扩展到特定的阈值权重。文档中查询关键字的tf/idf值通过乘以查询关键字和文档关键字之间存在的语义关系的权重来调整。它们根据获得的权重对文档进行排序。Shah et al. （2002）计算文档中RDF三元组而不是关键字的频率。该系统根据RDF三元组在文档中的出现频率计算相似度系统不通过语义关系来扩展用户查询。因此，该系统不能解决一词多义的语义异构问题，即需要关键词的上下文来理解所需关键词的准确语义。一些系统（Khan等人，2006; Zhong等人，2002; Zhu等人，2002）使用边缘计数方法（例如，基于距离的方法）在概念图（CG）中用于语义搜索。概念图匹配中的基本直觉是通过比较弧来计算语义匹配。CG弧的比较集中在概念和关系的主题行为上（即，关键字），其是给定上下文的代表。我们借用了他们对RDF三元组的语义匹配的概念，并通过计算这些三元组的tf/idf来扩展他们的搜索技术，即，ranked-result。在Khan等人（2004）中，作者开发了一个基于概念的模型，该模型使用依赖于域的本体来响应用户请求。他们应用一个自动查询扩展技术，在自然语言表达的用户查询。这种自动扩展技术只选择相关和受控的扩展。AKTiveRank（Alani和Brewster，2005）系统使用图形分析方法对本体进行排名。在应用他们提出的技术之前，作者还应用Swoetry1来衡量语义相关性。这两种技术都不能处理多义异质性。对于动态语义引擎（DySE）（Rinaldi，2009年），作者设计了一种上下文驱动的方法，其中的关键是：1http://swoogle.umbc.edu/。在检索单词的信息的上下文中处理单词他们的查询是要检索的术语列表和感兴趣的领域。然后，他们对重新测试的结果进行排名。在Alipanah et al.（2010）中，作者提出了一种加权机制来发现本体中概念的扩展。他们确定每个本体中的扩展术语/概念（即，文档）的语义相似性、密度和介数。然后，他们使用跨本体同现的想法。相似的概念由它们在每个本体中的名称和结构相似性来确定。在扩展结束时，系统生成一组项以及权重，并根据权重对它们进行排名。在Yanget al.（2011）中，作者通过词义而不是词汇形式检索文本信息。作者应用WorldNet进行词义消歧，然后将这些语义信息标注在用于语义搜索的RDF文档中。据我们所知，这些技术都没有测量关键字模式之间的语义关系（即，RDF三元组），然后产生一个排名结果，以促进满足用户3. 建议的检索方法在本节中，我们将讨论我们的搜索方法，该方法通过匹配用户查询来执行上下文驱动的语义搜索，以RDF三元组（即，用户给定的模式），具有数字文档的RDF三元组。3.1. 查询扩展在所提出的系统中，我们考虑了以下语义关系：（a）同义词，（b）语义邻居和（c）下义词（即，是一种关系）。下义词在RDF中由子类的内置属性（即，rdfs：subClassOf）。我们已经设计了两个额外的属性：synOf和neighborOf在RDF中处理剩下的两个关系。用户查询可以通过从现有的RDF三元组中通过规则进行推理来扩展。在下面的小节中，我们描述了本研究中设计的属性和规则。3.1.1. SynOf属性synOf属性声明不同的个体可以是相同的（即，等价关系）。此属性可用于创建引用同一个人的多个不同名称。它也可以指首字母缩略词和词汇变体。图1显示了synOf属性的RDF图。以下语句表示N3表示法中synOfuri： synOfardfs：属性3.1.2. neighborOf属性neighborOf属性用于探索概念或关系的语义概念c的语义邻域n是概念的集合Ci，其到概念c的距离d是大于零的整数r，其被称为语义邻域的半径（Rodriguez和Egenhofer，2003）。ð Þ¼164南。Khan，J. 穆斯塔法图1synOf属性的RDF图nc;rfCij8dc;Ci≤rg1r=1的语义邻域表示子类、超类和部分-整体关系。图2显示了neighborOf属性的RDF图。下面的代码片段- pet表示N3表示法中的neighborOf属性的RDF：uri： neighborOfardfs： Property3.2.1. 概念相似性通过计算概念之间的距离来测量概念相似性（Khan等人，2006; Varelas等人，2005年）。距离是从层次结构中的概念位置计算不同概念之间的距离。一个概念mile-stone（n）在层次结构中的位置在Khan et al.（2006）中定义如下：3.1.3. 推理规则1里程碑n2格林河ð2Þ规则是可以应用于从现有RDF三元组（即，数据）。用户查询可以通过从现有的RDF三元组中通过规则进行推理来扩展。规则库是包含不同规则的对象。我们在规则库中定义了不同的规则，随着时间的推移，它会逐渐增长。定义规则的例子是inverseOf和transitiveOf，如表1所示。相反的规则定义了恢复的关系反之：c 1通过关系R与c 2相关，则c 2将通过R-1与c 1相关。transitiveOf规则定义了如果c 1与c 2相关，c 2与c 3相关，且关系为R，则在c1和c3之间存在关系R。3.2. 语义相似度在扩展用户查询之后，计算查询与文档的语义相似度。我们专注于匹配RDF三元组的主题相似性。以下小节描述了概念和关系相似性的细节。其中k是预定义的因子，并且大于1，并且指示值沿着层级减小的速率，并且l（n）是关键字n在层级中的深度。对于层次结构的根，l（root）=0。我们使用k=2来构造作为 2的倍数的层次里程碑值（即，二进制数字系统）。假设层次结构中的任何两个概念都有一个最接近的公共父概念（ccp）。两个概念c1，c2和它们的ccp之间的距离将由它们最接近的公共父概念确定，如下所示：dc c1; c2 dc c1; ccp dc c2; ccp3ccp里程碑ccp里程碑因此，两个概念c1和c2之间的相似性计算如下：simcc1;c2 1-dcc1;c2 5有一些例外，如果概念c1和概念c2是彼此的同义词或首字母缩略词，则距离将被设置为零，即，这两个概念之间的相似性将是一个。我们假设同义词和缩略词之间的关系，在同一级别的概念。图2neighborOf属性的RDF图我IJ;s表1不同拟议规则的说明。规则名称规则描述inverseSynOf（？x synOf？y）f（？你是synOf吗x）inverseNeighborOf（？x neighborOf？y）f（？你的邻居？x）transitiveSynOf（？x synOf？y）（？你是synOf吗z）f（？xsynOf？z）的transitiveNeighborOf（？x neighborOf？y）（？你的邻居？z）f（？x neighborOf？z）neighborOf（？x neighborOf？y）（？x synOf？（含）（？你是synOf吗u）fi（？什么邻居？u）的parentOf（？x subClassOf？y）f（？你是谁的父母x）的使用主题相似性进行有效的语义搜索165图3 RDF图中的内容S1元数据三元组。3.2.2. 关系相似性同样，两个关系之间的相似性定义如下：简易程序1;2简易程序1-简易程序1;2简易程序6两个关系之间的距离也由它们的设freqij为文档dj中三元组ti的频率。然后，dj中三元组ti的归一化频率tfij是ti的词频与文档dj中任何三元组的最大词频的比率。idf i是t i的逆文档频率，由下式给出：idf¼log. N9n在关系层次结构中的相应位置唯一不同的是-我我重要的是，关系层次结构是由我们有一些例外，如果关系r1和r2是同义词或首字母缩略词，则距离将被设置为零，因此，这两个关系之间的相似性将为1。3.2.3. RDF三元组相似度匹配用户查询和数据源RDF三元组以找到它们的相似性。最后的三重相似匹配公式的基础上结合Eq。（5）（对于概念相似性）和Eq.（6）（对于关系相似性）如下：J计算第i个三元组到第j个文档的最终tf：idf如下所示Wij<$ tfij× idfi10排名算法结合了两个因素：（i）RDF三重评分使用方程。（7）和（ii）其与Wij使用等式（7）指示的文档的相关性（十）、文档相关性R（d）可以计算如下：Xn研发中心simpleqi;si×Wij 111/4辛苏巴基岛nM亚基其中d表示文档，n是三元组的总数简单的;简单的;简单的ð7Þ在文档中，k用于归一化部分Ri<$0j<$0SIM对象iRJobj和不精确的RDF三元组。我们使用1（one）作为k的默认值。这些文件是根据其相关性排序的其中qsub，qobj和ssub，sobj是匹配概念，而qr和sr分别是RDF三元组查询q和RDF三元组源s的匹配关系。sim（q，s）是查询q和源的RDF三元组之间的总体相似性。这里，i和j分别表示查询和源RDF三元组的第i个和第j个3.3. 文件排名（R（d））已识别的相关文档根据其与用户查询的相关性进行排名。文档的相关性是通过扩展 TF 来计算的。 idf 加权方案（Zhong等人，2002年，用三个字代替关键字。设N是文档的总数，n是出现三元组ti的文档的数量。Vance评分并返回给用户。4. 演练示例为了证明我们提出的方法，我们考虑一个例子。本文采用RDF表示数据源和查询的关键字模式，并用图表示它们的RDF三元组。图图3 -5示出了文档1、2和3的元数据三元组（即，S1、S2和S3）。表2显示了给定文档中三元组的频率。图6示出了概念层次结构和它们相对于它们在分类法中的位置的里程碑值。这个修改后的部分是从WordNet2本体中采用的。tfij频率日报最大频率ð8Þ2http://wordnet.princeton.edu/。子 ;sobj166S. Khan，J. 穆斯塔法图4 RDF图中的内容S2元数据三元组。图5 RDF图中的内容S3元数据三元组。表2文件中的三倍频率Doc.t1t2t3t4t5S1205000S2001140S30150010假设一个用户输入一个查询：这个查询可以用RDF三元组表示，如下所示：（？工人：访问：银行（HBL）在哪里约会date'我们扩展了概念和关系（即，terms），并计算查询RDF三元组和文档的RDF三元组之间的术语相似度。使用基于距离的方法，它们的相似性得分如表3所示。基于概念和关系的相似性分数，计算三个相关三元组的RDF三元组相似性，并在表4中显示。在识别相关的三元组之后，我们计算tf。根据上面给出的公式，使用表2中给出的值确定idf权重。通过组合三重相似性得分和文档tf来计算文档的排名。idf评分，见表4。5. 评价传统的信息检索系统采用精确度和召回率之间的权衡来定量地衡量信息检索的性能。精确度是检索到的相关文档与检索到的文档数量的比率，召回率是检索到的相关文档与所有相关文档的比率（Baeza-Yates等人，1999; Kobayashi和Takeda，2000）。一个原型系统已经实现，以验证/评估我们提出的方法- ology。为了评估研究，原型系统与现有系统进行了比较。实验是用100份包括硕士论文和会议论文的从计算机科学领域。我们手动构建，平均每个文档37个RDF三元组。为了进行评估，我们扩展了WordNet3研究本体和ACM主题层次4，为所选文档创建了我们自己的扩展本体。为了比较所提出的系统，我们选择了两种语义搜索技术，即，基于RDF的VSM（Shah等人，2002）和Fang等人（2005）提出的IR框架，因为我们的搜索方法与它们相似。它们都使用语义相似性和排名来进行搜索，就像我们在ap-proach中使用的那样。然而，它们维护文档中概念的统计数据，而我们维护文档中三元组的统计数据，并且用于搜索的语义相似性技术存在差异。它们不应用主题语义相似性。我们的重点是主题的相似性。选择这些方法进行评估的目的是评估如果使用主题相似性方法，可以改善多少语义搜索结果。制定了30个测试查询，并在所有三个系统上运行。集合中的两个测试查询是（i）显示Brown撰写的所有IEEE会议论文，以及（ii）查找2005年关于在数据集成中使用本体的论文。表5显示了这些数据。Q1相当简单，所有系统对此查询的精度都相当高，而Q2并不简单，所以VSM的精度相当低。所提出的系统的精确度和召回率优于基于RDF的VSM（Shah等人，2002）和IR框架（Fang等人，2005年，如图7所示。实验结果表明，与基于RDF的VSM和IR框架相比，所提出的系统分别提高了42%和27%的准确率和19%和16%的召回率，如图所示。8.第八条。图9示出了所提出的系统和现有系统的f测量的比较图。F-measure是精确度和召回率的加权平均值。当文档数较少时，基于RDF的VSM的f-度量为0.59，但它的f-度量为0.59。3http://www.w3.org/2001/sw/BestPractices/WNET/wordnet.rdf[2008年7月23日]。[4]http://www.acm.org/class/1998/ccs98.html[2008年7月21日]。使用主题相似性的有效语义搜索167图6本体部分。图8与两个现有系统相比，建议系统的精确度-召回率改善。表4文件排名。随着文档数量的增加，增加到0.09这些结果证明了系统的不一致性。上sj{ti}sim（q，sj）tfti以色列国防军Wti，sjR（sj）IR框架的f-测度的界为0.76和0.26s1{t1}0.980487510.4470.4471.41877是下界。的f-测度的上界s2{t3}0.960937510.4470.4471.39048建议的系统是0.85，0.48是下限。的s3{t5}10.6670.4470.2981.298建议的系统显示更好的精度与其他两个系统相比，增加了文件的BER6. 结论本文提出了一种利用主题相似度来解决信息检索中语义异构问题的语义检索方法。我们提出了一种三中心技术来维护源元数据，图7基于RDF的VSM、IR框架和建议系统的查全率表5示例测试RDF查询。第一季第二季（？（作者：布朗）p：has Content：ontologies）（？p：hasType：conference）（？p：is关于：数据集成）（？p：haspublication：IEEE）（？p：has出版年份：2005）表3术语相似度得分。相似性评分言论高级会计师（工人;财务经理）0.98047simc（工人;商人）0.09609simc（工人;雇员）1ISAsimr（visits; visits）1相同simr（visits; goesto）1同义词simr（访问;工作）1同义词simc（HBL; Habib Bank Limited）1缩写Simc（HBL; HBL）1相同simc（HBL; Indus）0无关南168号Khan，J. 穆斯塔法图9基于RDF的 VSM、IR框架和建议框架的F度量捕获关键字的上下文。主题相似性方法已被用于信息检索以捕获概念的上下文。用户提交RDF三元组查询。在领域本体的帮助下，使用基于距离的方法通过同义词和语义邻域扩展查询。测量文档的RDF三元组与用户查询之间的相关性这些文件按其重要性排列。本研究的贡献是结合现有的方法，设计一种新的主题相似度语义搜索方法，以处理语义异质性，特别是一词多义。在该系统上进行的实验结果表明，精度和召回率的改善，并鼓励在这一方向的新的努力。建议的搜索methodology可以很容易地扩展使用最近的措施，语义相关性和排名方法。此外，我们打算自动化的过程中产生RDF三元组从文档，因为我们手动生成他们在这项研究中，以评估原型系统。最后，我们敦促增加其他异质性的系统，即，不完整和不兼容的RDF三元组。在当前系统中，我们不考虑部分（即，不完整）匹配的RDF三元组，可能包含重要信息。引用Alani，H.，布鲁斯特角，2005年基于概念结构分析的本体排序。第三届国际知识获取会议论文集。ACM，pp. 51比58Alipanah，N.，Parveen，P.，Menezes，S.，汗湖，Seida，S.B.，Thuraisingham，B.，2010.本体驱动的查询扩展方法，以促进联邦查询。 2010 年 IEEE 面向服务的计算和应用国际会议（SOCA）。IEEE，pp. 1-8号。巴埃萨-耶茨河，Ribeiro-Neto，B.，等，1999.见：现代信息检索，第82卷。纽约州艾迪生-韦斯利布拉西奥，J.D.，Kawamura，T.，长谷川，T.，2004.目录搜索引擎：语义应用于产品搜索。In：Proceedings of 4th InternationalWorkshop on KnowledgeMarkup and Semantic Annotation（SemAnnot 2004），vol. 184，pp. 11-20.可从以下网址获得：.Bonino，D.，Corno，F.，法里内蒂湖Bosca，A.，2004.本体驱动的语义搜索。 WSEAS Transaction on Information ScienceandApplication 1（6），1597-1605.丁湖，加-地Finin，T.W.，Joshi，A.，例如，2004. swoonline：语义网的搜索和元数据引擎。载于：2004ACM CIKM信息与知识管理国际会议。Washington，DC，USA，pp.652-659Fang，W. D.，张，L.，Wang，Y.X.，Dong，S.B.，2005.基于本体论的语义搜索引擎。2005年机器学习和网络学国际会议论文集，第3卷。IEEE，pp. 1913-1918年。赫斯特，G.，St-Onge，D.，1998. WordNet：一个电子词汇数据库。在：词汇链作为上下文的检测和纠正误用的表示。TheMIT Press，Cambridge，MA，pp. 305- 332汗湖，McLeod，D.，Hovy，E.，2004.基于本体的信息选择模型的检索有效性。The VLDBJournal 13（1），71-85.汗，S.，Marvon，F.，2006.在查询重构中识别相关源。第八届信息集成和基于 Web 的应用服务国际 Yogyakakaran ，Indonesia，pp. 99比130小林，M.，武田，K.，2000.网上信息检索。ACM Computing Surveys（CSUR）32（2），144Leacock，C.，米勒，佐治亚州，Chodorow，M.，1998.使用语料库统计和词网关系进行意义识别。Computa-tional Linguistics24（1），147-165.Lee，C.Y.，Soo，V.W.，2005.基于本体的信息检索与抽取。第三届信息技术国际会议：研究与教育（ITRE）。IEEE，pp. 265-269Montes-Y-Gomez，M.，Lopez-Lopez，A.，Gelbukh，A.F.，2000.基于概念图匹配的信息检索。第11届数据库和专家系统应用国际会议（DEXA）。London，UK，pp. 312-321Poole，J.，坎贝尔，J.A.，1995.一种新的概念图和相关图匹配算法。于：第三届概念结构国际会议论文集：应用、实现和理论，第954卷，计算机科学讲义。Springer-Verlag，pp. 293-307拉达河，Mili，H.，Bicknell，E.，Bennner，M.，1989.语义网度量的发展与应用。 IEEE Transactions onSystems ， Man andCybernetics 19（1），17-30.Resnik，P.，1999.分类法中的语义相似性：基于信息的度量及其在自然语言歧义问题中的应用。《人工智能研究杂志》11，95- 130。里纳尔迪，上午，2009.本体驱动的网路语意资讯检索方法。ACMTransactions on InternetTechnology（TOIT）9（3），10.罗德里格斯，硕士，Egenhofer，M.J.，2003.确定来自不同本体的实体类之间的语义相似性。IEEETransactions on Knowledge and DataEngineering 15（2），442-456. Shah，U.，Finin，T.W.，Joshi，A.，2002.语义网上的信息检索。ACM国际会议论文集-使用主题相似性的有效语义搜索169信息和知识管理（CIKM）。McLean，VA，USA，pp. 461-468，11月。Tversky，A.，一九七七年相似性的特征 Psychological Review 84（4），327-352.Uschold，M.，Gruninger，M.，2004.无缝连接的本体和语义。ACM SIGMod Record 33（4），58-64.Varelas ， G. ， Voutsakis ， E. ， Raftopoulou ， P. ，等， 2005.wordnet中的语义相似度方法及其在网络信息检索中的应用。第七届ACM网络信息和数据管理国际研讨会论文集。ACM，pp. 10-16吴志，帕尔默，M.，1994.动词语义与词汇选择。第32届计算语言学协会年会论文集。ACL，pp. 133- 138Yang，Che-Yu，Wu，Shih-Jung，2011.语义网上基于wordnet的信息检索。在：网络计算和先进的信息管理（NCM），第七届国际会议。IEEE，pp. 324- 328Zhong，J.，Zhu，H.，李杰，Yu，Y.，2002.语义搜索的概念图匹配。第10届概念结构国际会议论文集：整合与接口（ICCS）。^Margaret，pp. 92-196，七月。Zhu，H.，Zhong，J.，李杰，Yu，Y.，2002.一种基于RDF图匹配的语义搜索方法。在：第15届国际佛罗里达人工智能研究学会会议。北京大学出版社，pp. 450- 454

下载后可阅读完整内容，剩余1页未读，立即下载