基于语义查询扩展的信息检索模糊本体框架

21 浏览量更新于2024-01-02 收藏 2.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 1（2021）100009基于语义查询扩展的信息检索模糊本体框架Shivani Jaina，K.R.Seejab，Rajni Jindalca &Indira Gandhi Delhi Technical University for Women，Delhi，Indiab&印度德里英迪拉·甘地德里女子技术大学计算机科学工程系c印度德里德里理工大学计算机科学工程系aRT i cL e i nf o保留字：语义Web信息检索模糊本体查询扩展搜索引擎信息系统开发a b sTR a cT万维网（WWW）是一个模糊信息的网络，需要软计算技术来处理查询的上下文信息。它的工作原理是关键字匹配产生低精度和召回率。语义网，扩展WWW改进了信息检索过程。查询扩展在信息检索中至关重要，它能检索到相关的结果.针对现有Web系统的不足，提出了一种基于模糊本体的信息检索框架。在所提出的框架中，领域特定的知识被用于本体构建。在预先定义的领域本体和全局本体的框架下，使用概念网构建模糊本体.基于所构建的模糊本体，识别查询的大多数语义相关词，并扩展查询。一个模糊隶属度函数被定义为全局本体概念网之间存在的不同语义关系。基于所提出的框架，查询扩展（语义查询扩展），并评估四个流行的搜索引擎，即谷歌，雅虎，必应和EXalead。使用的性能指标是精度，平均平均精度（MAP），平均倒数秩（MRR），R精度和检索的文档数。Web搜索引擎是精确导向的。在此基础上，对所有度量指标进行了改进.10%。在各种搜索引擎上，查询扩展前的精度在0.75-0.81之间，而查询扩展后的查询扩展后，检索到的文档数几乎提高了1/1000。介绍随着万维网上数据的爆炸式增长，在检索准确信息方面出现了一些问题。在网络上检索信息是在谷歌、雅虎、必应和维基等搜索引擎的帮助下完成的。输入查询的过程（Broder，2002; Shen等人，2012），并且检索一组相关文档由搜索引擎完成，并且完整的过程被称为信息检索（IR）。用户输入的查询是以自然语言文本的形式，文档存储在各个位置，并且具有使用不同的文件格式。例如，如果输入一个搜索查询文献研究表明，检索是一个两步过程，包括标引和匹配。索引解释了如何存储不同的文档，而在匹配步骤中，根据用户输入的查询查询和文档-段为非结构化格式。WWW上的搜索引擎使用基于关键字的搜索理论将查询与文档集进行匹配，这些搜索理论如余弦相似性（Voutsakis，2005 ）、基于概率的、页面排名（ Rajendran& Swamynathan ，2014）、本地引用和基于共现的（Gong等人，2006）理论。这些方法主要是针对文本文档中出现的词的频率进行分析。如签署的高排名的文件（Ghazizadeh Ahsaee等人，2014年，这些关键词的频率很高。其主要缺点是在不理解用户查询含义的情况下检索信息，检索到的文档中信息相关性不强，上下文也缺失。在处理词语/概念的语义时，词语之间存在着同义和一词多义两种类型的歧义。当前网络搜索中缺少单词的含义/上下文以及与其他单词的关系。关键词的语义知识提高了信息检索过程的准确性。因此，要处理词语的语境，寻找词语的语义∗ 通讯作者。电子邮件地址：shivanijain13@gmail.com（S. Jain），seeja@igdtuw.ac.in（K.R. Seeja），rajnijindal@dtu.ac.in（R. Jindal）。https://doi.org/10.1016/j.jjimei.2021.100009接收日期：2020年11月28日;接收日期：2021年2月15日;接受日期：2021年2月16日2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiS. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000092而寻找它与其他词的关系是本文的主要目的。在文献中存在两种方法，以找到基于语料库的方法（Erk，2012）或基于本体的方法（Aufaure等人，2007;Fernández等人，2011;Kotov&Alexander，2012）。本体可用于找到查询的最相关的词，通过测量查询词之间的相似性，所述查询词是基于领域或全局知识的语义相关的词，详细的研究工作由Jain et.等人（Jain等人，2019年）。本体论的主要局限性是它不能处理信息中的“不确定性”，因此为了克服这一局限性，模糊逻辑是必要的。模糊逻辑处理不确定的信息，通过分配一个程度的真实性，而不是明确的'1'或'0'值，概念之间的关系。模糊本体是清晰本体的扩展，适用于处理本体之间的不确定性和模糊性。模糊本体论在-由Calegari（Calegari Sanchez，2007年）提出，并用于许多应用如新闻摘要（Lee等人，2005）、饮食选择（Lee等人，2010），电子学习（Lau等人，2009年），是否选择（Goswami& Sahoo，2016年）和信息检索（Attia& Gadal-lah，2014年;Pérez等人，2013年）。在文献中，模糊本体已经被创建，或者采用文本挖掘（Lee等人，2007），WordNet Ontologies（Kumar& Harding，2016; Le，2012）或利用领域特定的Ontologies（Abulaish& Dev，2007）。最近，模糊本体（Selvan et al.，2019）是为医学文档检索而创建的，使用PubMed数据进行本体创建研究动机虽然在文献中使用了各种方法来创建模糊本体和查询扩展过程，但大多数研究都依赖于语言学方法或基于本体的方法，这些方法要么基于领域特定知识，要么基于全局本体。在文献中，大多数工作集中于对概念之间的语义关系给予相等的权重。然而，在实际场景中，同义词功能关系比层次关系具有更大的权重年龄。大多数本体集中在层次关系，如“是”，而许多其他的语义关系存在于现实世界中。为了解决这些问题，作者提出了一种新的模糊本体创建方法，将特定领域和全局本体结合在一起，以查找查询关键字周围最相关的语义词。在本研究中，我们还对语义关系和每个概念的出现在这项研究工作中，提出了一种新的方法，模糊本体构造，通过查询扩展来改进语义Web上的信息检索过程。模糊本体构建阶段主要分为概念识别、关系映射和模糊隶属度分配三个主要部分。为了构建一种新的方法，首先在定义的域中识别概念，这里作者使用Solar域信息来构建模糊本体。使用文本挖掘和同一领域中的其他外部本体来识别概念。为了找到这些概念之间的关系，使用了全局本体ConceptNet。ConceptNet由30000个概念组成，单个概念有34种语义关系.作者使用最重要的12种语义关系进行关系识别。为了得到这些关系的强度，提出了一种新的模糊隶属度函数的基础上的语义权重分配给不同的关系和边缘权重的概念网。该权重/强度用于计算概念之间的隶属度值。本研究使用模糊本体的查询扩充方法，并应用于网路搜寻。在这里，查询词扩展使用模糊本体。使用Google、Yahoo、Bing和EX alead四个著名的搜索引擎对该方法进行了评估，并使用精确度、平均平均精确度、平均倒数秩和R-精确度作为性能指标来衡量该方法的性能。结果表明，信息检索过程的10%的效率已被在精度和文件方面取得的成就与以前的作品非常相关。因此，研究的主要贡献可以总结为：• 提出了一种基于文本挖掘、外部本体和全局本体概念网的模糊本体构建方法• 为ConceptNet中的所有概念定义一个新的模糊隶属函数• 在具有关于该领域的上下文知识的查询词周围找到语义最相似的词。• Web上的信息检索过程改进了10%，与文献中的最新技术相比。• 更好地解决单词之间存在的歧义问题（同义词该文件的结构如下：第2节回顾了研究者在模糊本体和自动查询扩展领域所做的工作，随后是第3节中解释的材料和方法。第4节给出了实验细节。结果和讨论见第5节和第6节。最后是论文的结论部分.文献复习信息管理是从各种来源收集数据并通过不同方法处理以从数据中获得相关信息的过程。在文献中，提出了各种方法（Amado等人，2018;Aswani等人，2019; Greco& Polli，2020; Gupta等人，2018;Mittal，Balas ， Goyal& Kumar ， 2019;Mittal 等人，2015;Mittal 等人，2014;Mittal等人，2019;Rathore等人，2017年），从数据中获取有用的信息。信息管理涉及结构化和非结构化数据，在信息检索过程中，信息是在非结构化数据上搜索的。在IR中，使用称为查询的正式语句在Web上搜索相关信息。这里，查询不唯一地标识单个答案，而它检索与具有不同相关度的查询匹配的若干信息（Ghazizadeh Ahsaee等人，2014年;Rajendran& Swamynathan，2014年）。由于当前的网页是以人类可理解的格式表示的，而机器难以理解，因此，当前的搜索引擎不能利用文档内的语义知识，并且不能对查询的确切答案进行资产化。为了解决词语之间存在的歧义，Gurber（Gruber，1993）引入了语义网。语义网处理单词的上下文，这里单词被视为概念，试着获取与这些概念相关的所有信息。许多语义网搜索引擎已经存在，但仍然没有搜索引擎是完全语义搜索引擎本研究的主要目的是通过在查询词周围添加语义知识，使查询词匹配的结果更加准确，从而提高信息检索的效果。在这里，作者使用模糊本体来提取关键字周围的语义最相似的词，以提高IR的准确性。在这一节中，各种研究人员在模糊本体和自动查询扩展领域所做的简要工作已经审查。模糊本体模糊本体是由Calegari（Calegari & Sanchez，2007），并建议使用基于模糊本体的方法来改善语义Web中的文档检索。模糊本体用于发现与特定领域中最频繁的词相关的关联词，以支持领域本体的特征。在文献中，模糊本体已经使用文本挖掘，WordNet本体或利用特定领域的本体来创建。Abulaish et.al（Abulaish，2009）在医学领域使用了模糊本体，并使用文本挖掘进行模糊本体构建。为了定义模糊隶属度，动词出现的频率S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000093这些概念中的一个被使用。为汉语构建了模糊本体（Lee et al.，Yen等人（Widyantoro& Yen，2001）提出了一个个性化的抽象搜索服务（PASS）系统，它是一个基于模糊本体的抽象搜索引擎。它用于查询优化，帮助用户在互联网上找到有效的信息。Parry等人（Parry，2005）使用模糊本体从医学领域检索信息。作者为不同的概念定义了不同的成员资格，例如“是”类型的关系。Lee等人（Lee等人，2005）提出了模糊本体，并将其应用于新闻摘要领域。作者还指出，模糊本体是更适合描述领域知识相比，清晰的本体。昆等等人（Quan，Hui，&Cao，2004）提出了一个模糊本体生成框架FOGA（fuzzy ontology generation），它将形式概念分析与模糊隶属度分配相结合。在他们的后续研究（Uthayan& Mala，2015）中，FOGA框架用于支持帮助台系统，以提高客户满意度，减少机器停机时间并提高生产率。Bobillo（Bobillo Straccia，2011）提出了一种新的食品领域的2型模糊本体。采用模糊标记语言（FML）进行饮食评价，包括第二类知识引擎、推理引擎和饮食评价引擎。作为最终结果，显示特定类型食物的饮食评估。提出了一个意见挖掘系统T2FOBOMIE。Ali等（Ali等，2015）基于类型2模糊本体。该系统从酒店预订系统检索评论，并使用模糊领域本体从评论中提取特征（意见）在该系统中，（Rani等人，2014），将用户信息、模糊领域本体和酒店信息进行融合，构建用于特征极性和个性化酒店极性检索的第二类模糊本体。为了开发这个本体，Protégé OWL-2工具。LF lai等人开发了一种模糊搜索引擎（Lai等人，2011年，被命名为Fuzzy-Go。在这里，模糊理论用于分配重要性的关键字和搜索引擎，搜索相应的文件。它使用模糊逻辑，捕捉本体中术语的相似性，从而在术语之间建立适当的Hourali等人（Hourali Montazer，2011）基于C值方法、人工神经网络、贝叶斯网络和模糊理论的组合提出了另一种新的本体构建方法。在这篇文章中（Chen et al.，2011），将WordNet和FFCA进行融合和映射，并转换为模糊本体。实验结果表明，该本体比一般的本体更有效、更灵活。另一种混合方法（Hamani等人，2014），结合启发式方法对不同概念进行匹配，提出了模糊本体集成方法。所提出的方法用于冲突解决，并观察到：如果两个概念从不同的本体相互匹配，那么它们的相邻概念也将匹配;在多个本体中，冲突将通过创建一个共识冲突实体来解决。从文献中，我们可以总结出模糊本体是通过利用文本挖掘，领域本体和使用全局本体等方法来创建的。从文献中，我们可以总结出模糊本体是通过利用文本挖掘，领域本体和使用全局本体等方法来创建的。概念间的模糊隶属度分配方法很多用于分配模糊隶属度的主要技术是：• 频繁的关系：找出特定域中存在的频繁关系，并根据关系的存在性进行隶属度分配。不同的关系被标准化并分配成员资格（Lai等人，2011年）。• 用户反馈：在此，用户提供关于关系的反馈，并且根据用户的反馈分配成员资格（Chen等人，2011; Hourali&Montazer，2011）。• 专家意见：使用专家意见，其中专家意见用于计算模糊隶属度（Lau等人， 2009年）。• 全局本体：像 WordNet 这样的全局本体用于映射关系和分配（ Balasubramaniam ， 2015 ，（ Hamani et al. ， 2014 ）， Le ，2012），（Widyantoro& Yen，2001））。• 语义关系：根据语义关系的类型在关系之间分配语义权重（BesbesBaazaoui-Zghal，2018），这些语义权重对应于模糊隶属度值。在本文中，作者提出了一种新的隶属度函数的基础上，领域知识，语义权重分配和边缘权重分配的全局本体解释在未来的章节。查询扩展在信息检索中，主要关注的是词汇不匹配问题.词汇不匹配的问题是由于不同的用户在文档中描述一个概念的术语不同而产生的。为了克服和解决词汇不匹配的问题，文献中使用了查询扩展（QE）技术。在QE过程中，通过查找与查询词最相关/相关的词来扩展查询。一个相关的术语显示了对关键词的语义接近度。已经提出了几种语义QE方法，与统计QE方法相比，这些方法给出了实质性的改进结果。语义QE方法大致分为三类（Carpineto等人，2014年）：在语言学QE方法中，基于原始搜索查询从词典（包括同义词、下义词等）中获得词义。基于本体的QE方法采用专门化、泛化和其他关系来发现有意义的术语。混合QE方法结合了基于本体的方法和语言学方法的特点。在这项研究中，作者应用本体的语义查询扩展利用提出的模糊本体。本体可用于信息检索，以细化或扩展用户输入的查询（Bhogal等人，2007年）。基于本体的查询扩展模型有三种类型：人工查询扩展、基于用户辅助的查询扩展和自动查询扩展。基于本体的QE方法是基于领域中语义相关和互连的概念。因此，领域的特征由本体表示。在文献中（Raza等人，2019年），几个领域依赖本体存在于商业，农业法，医学和许多其他领域。这样的本体在DARPA代理标记语言（DAML）的大型存储库中维护。许多作者致力于领域本体学以导出上下文信息（Alromima等人，2016年）。Alromima等（Yunzhi等，2016）使用Protégé工具和SPARQL语言开发阿拉伯语本体，该语言提取候选扩展项。Yunzhi等人（Aggarwal Buitelaar，2012）在医学领域使用基于QE的方法构建肝炎本体。与领域相关本体相比，领域无关本体涵盖了多个领域的知识，是语义应用的有用资源。一些研究已经在这个领域工作，并建立了各种知识结构，如YAGO，Unipedia，OpenCYc，Freebase和DBpedia。Aggarwal等人（Xiong Callan，2015）使用DBpedia和维基百科本体来提取扩展概念。为了计算概念之间的语义相关度，使用显式语义分析（ESA），并基于高ESA得分，选择最佳K概念。Xiong和Callan（Voorhees，1994年5月）从Freebase本体中识别出与查询词相关的主题。尽管改善了结果，Bhogal（Bhogal等人，Voorhees（Azad& Deepak，2019）指出了领域独立本体论中的两个主要问题：第一，它包含模糊的术语，第二，开发的本体论更一般，不描述特定领域的特殊属性。在最近的研究中（Raza等人，2019）的各种查询扩展方法进行了比较，发现混合本体的方法是更准确的查询扩展的方法，作为语言和本体为基础的方法的补充。自动查询前-S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000094扩展（AQE）模型是信息检索中的最新技术。AQE中的主要技术（Carpineto等人，2014）的方法主要有相关反馈方法、语料库独立知识模型、基于本体的方法、链接分析方法、基于图的方法和基于聚类的方法。为了解决信息检索中的词汇不匹配问题，在AQE过程中广泛使用了WordNet等全局本体和基于图的技术（Zadeh，1965）。本文主要研究基于本体的AQE方法在Web信息检索中的应用。在这项研究中，作者使用模糊本体来找到最语义相关的词，靠近查询词。所构建的模糊本体具有概念、概念之间的关系以及概念之间的模糊隶属度，体现了各个概念之间的强弱关系。与WordNet、DBpedia和YOGO等其他全局本体相比，ConceptNet具有广泛的概念和关系覆盖范围材料和方法模糊本体模糊本体是明确本体概念的扩展，属性、关系和约束都是按照明确本体定义的，在关系的不同概念之间分配模糊隶属度。概念之间的关系具有模糊隶属度，并定义了两个概念之间的隶属度，��根据Lofti Zadha在1965年给出的定义（Calegari Ciucci，2007）。模糊关系由元素列表及其在不同的组对中的成员值表示，如在示例中，V1和W1是两个概念，R11是概念{{R11，R11}，{{R11，R12}，R11}之间的关系。��{{，}，}.��根据上下文，将优先级值分配给R11、R12等在一个例子中（在这种多种类型的关系中，概念之间存在着不同的优势。当两个或多个概念之间存在不同的关系时，就可以建立模糊本体。这里的因此，必须选择哪些关系，以及什么概念更接近于概念“太阳”，这是一个模糊的问题这种模糊性问题可以通过为关系分配成员资格来解决定义：模糊本体可以由四个参数表示（Liu Singh，2004）。模糊本体OF具有概念集C，概念C的属性集和RC是概念之间的关系，并且是模糊本体的约束形式上OF可以描述为{C，AC，RC，XA}.RC是任意两个概念（Ci，Cj）之间的关系。在分类关系和非分类关系[Rt，Rn]这两个概念之间有两种类型的关系。Ci是概念C的实例。每个关系RC具有概念（Ci和Cj）之间的二元关联。OF具有由模糊理论定义的[0，1]之间的隶属度值概念C的复杂性和不确定性以及概念C之间的关系RC隐含着记忆性.ConceptNetConceptNet（Miller，1995）是一个由30万个词组成的语义网络，在不同的概念之间有34种语义关系。它类似于其他全局本体，如WordNet（Niles& Pease，2001）、CyC和SUMO（Agarwal等人，2015年）。ConceptNet是由不同用户群体的常识知识构建的。 ConceptNet的主要信息来源是DBPedia 2015、OpenCyc JM Dict、德语维基词典和开放多语言WordNet。这个项目是由麻省理工学院媒体实验室于1999年启动的。使用的好处ConceptNet的一个优点是它有超过160万条边，表示概念之间的关系。这些关系提供了单词的所有上下文，这是任何领域专家都不可能做到的在ConceptNet中，还为每个边分配权重，以显示不同语料库中存在的关系强度（Guadarrama，2009，http://bartoc.org/en/node/682#access）。所有权重均为正值，范围为[0.1-10]。外部本体在这研究作者也使用两外部本体论的相同域为概念识别。第一本体论是发达通过的简单知识组织系统（http://techblog.cognitum.eu/2015/10/example-of-using-swrl-built-ins-with.html）。本体论中的主要概念是行星、矮行星、天然卫星和太阳系小天体。该模型定义为各种语言，如西班牙语，俄语和中文。Solar SKOS本体使用各种数据源，例如：（1）。NASA Locationtaxonomy（2）.国际虚拟天文台联盟IAUT 93术语词库（3）。美国地质调查局行星名称索引。第二本体由Cognitium开发（Castano等人，2003）用于示出语义网规则语言（SWRL）的示例。该本体可以使用由Cognitium开发的工具Fluent Editor来查看，太阳域的主要概念被用作“行星、轨道、水星、金星、太阳、星星、月亮”等。拟议框架提出的基于模糊本体的信息检索框架由三个主要部分组成。1 模糊本体构建2 基于模糊本体的查询扩展3 使用扩展查询的对于模糊本体的生成，我们利用了文本挖掘过程，在同一领域的其他相关本体和全局本体，概念网。第一步，创建概念词典。为此，我们选择了来自Newsgroup 20数据集的sci.space数据，因为这些文档与太阳能领域有关然后，对文本数据进行预处理，并使用Tf-idf方法找到最频繁的词。一些最常见的相关词和概念从两个外部本体结合在一起，创建一个字典的概念。在第二步中，对于字典中的每个概念，在ConceptNet中搜索语义关系和对应的边权重。在第三步中，在前一步中识别的每个关系的关系类型（同义词，层次或功能）为模糊隶属函数提出的每个关系分配语义权重。完整的框架概述在图。 1.语料库建设与词典建设在第一阶段，通过使用文本挖掘，并在领域领域中的外部本体的帮助下，我们已经识别了概念。所选域的文档被收集并使用文本挖掘技术进行预处理，如词干提取、文档术语矩阵（DTM）创建和稀疏性去除。然后，使用通过文本挖掘识别的概念来生成特定领域的字典，外部领域本体中的概念使用ConceptNet进行为了识别概念之间的关系，我们使用了ConceptNet。ConceptNet中有34种不同的语义关系。在本研究中，我们主要使用了十二种语义关系进行模糊化。这些关系分为同义关系、层次关系和功能关系，并在表1中给出。S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000095Fig. 1. 提出了基于模糊本体的信息检索框架。表1ConceptNet中的关系类别关系名称关系类型Synonymous同义词，概念上相关Hierarchical_Relationships LocatedNear，HasA，part of，inheratsFrom，MadeOf，IsA，Functional Relationships UsedFor，CapableOf，DefinedAs，HasProperty模糊隶属度分配概念A与概念B之间存在一个关系，然后在[0-1]的范围内为给定的关系分配一个权限。在模糊本体中，隶属度值被分配给关系，以显示关系的强度。作者使用两个权重作为成员身份.首先，我们将权重定义为概念网中概念之间的语义关系。这里，根据权重分配将权重分配给语义关系。建议的模糊隶属度如等式所示。（一）模糊隶属度（C1，C2，R）=��S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000096图2. 使用ConceptNet边权重的太阳本体的一小部分。表2ConceptNet关系的语义权重分配。关系名称关系类型权重同义词同义词0. 9 -1概念相关0.8-0.9层次关系IsA，遗传0.7-0.8位置近，有A，部分，制造0.6-0.7函数关系UsedFor，CapableOf，HasProperty，Defindas 1（一）其中CEW是具有关系R的概念C1与C2的对应边权重，并且MSRS是具有关系R的概念C1与C2的最大语义关系强度它被定义为作为ConceptNet中给出的该概念与所有其他相关概念的关系的最大关系强度。这里，语义权重是分配给概念网中实体之间的语义关系类型的权重值。使用Castano建议的语义权重分配来分配权重（Shah等人， 2002）在H-MATCH算法中，并在表2中示出。模糊本体创建在算法1中给出了所提出的模糊本体创建伪代码。通过概念、关系和模糊隶属度的映射，构建模糊本体。确定了主要概念通过文本挖掘和外部本体的共同概念。然后在ConceptNet中搜索这些概念，然后选择其他相关概念和关系来创建特定领域的本体。模糊隶属度是根据Eq. (1).一个模糊本体论是使用图中所示的算法创建的。 3.基于模糊本体的查询扩展查询扩展是指在查询关键词附近，用最多的关联词来扩展查询。在所提出的方法中，模糊本体被用来找到最相关的词（即，具有最高成员资格的词）。用户输入查询并展开查询通过使用所提出的本体找到与查询最相关的词。在与“home”具有同义词关系的示例“house”中S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000097）=��算法1模糊本体生成算法。输入：文本语料库，特定领域的外部本体输出：模糊本体预处理文本文档，删除停用词，数字等，并创建文档术语矩阵，DTM//从文本语料库中识别关键字/概念集KEY=对于每个术语，DTM中的Tr{如果（Tr的频率>用户定义的minFreq并且Tr与所选域相关），则KEY=KEY U{Tr}}//创建概念C=所选外部本体//从ConceptNet中识别关系类型的集合R=0对于每个概念Ci C{如果Ci有关系，则Ri是-a||哈萨||在ConceptNet中，{Ri = 分层关系R = R U R i语义权重（Ri）=InRange（0.6到0.8）}如果Ci具有关系，则Ri表示概念上相关于||概念网中的同义词，{Ri=同义词关系R=RU Ri语义权重（Ri）=InRange（0.8到1.0）}如果Ci有关系，则Ri为||ConceptNet中的HasProperty然后{Ri=函数关系R=R U Ri语义权重（Ri）=1.0}//指定模糊成员值MSS=ConceptNet中的最大边权重对于每个概念，CiC，在ConceptNet中具有关系Ri R{CEW=ConceptNet模糊隶属度中对应的边权重，FM=语义权重（Ri） ×语义权重}//模糊本体生成��对于每个概念，CiC，具有与概念CjC和模糊隶属度 FM的关系Ri R{画出两个节点Ci和Cj用语义关系类型Ri标记边在Ci和 Cj之间添加边权重=FM}}与“住宅”相比，“家”的意思是“家”。通过分配优先级，获得了明确的解决方案，以找到与特定查询最相关的词/概念。作者构建了一个领域模糊本体，显示了不同语义词之间的强度/隶属关系。在本研究中，从构建的本体中选取了三个语义相关度最高的词，即在[0，1]之间成员数最高的词。在查询扩展过程中，利用领域信息、全局知识和模糊隶属度进行查询扩展，以解决关系间的歧义使用扩展查询的在所提出的框架中，信息检索中的匹配过程使用等式中的相似性度量（Liu& Singh，2004）来完成。（二）、其中，查询词和文档分别是查询词和文档。��在查询扩展中，我们通过查找查询的语义最相关的词来扩展查询。我们通过从模糊本体中选择特定概念的前3个概念来扩展查询。现在，我们有4个词的查询和匹配是通过使用这些词在任何网络搜索引擎和文件，现在检索利用领域知识的背景。在扩展查询的匹配过程中，对（query ，doc ）进行细化as（query'，doc'）这里query'是细化的查询词，doc'是搜索引擎检索到的新文档和相似性度量被相应地修改，如等式2所示。（3）s：∑��∑��′��′��(��,��)=√��（二）��_��(��′ ′��（三）∑��2∑��2你好，你好∑��′′2∑��′2√S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）10000989 389 389 38表3太阳能领域的概念。“solar”,“planets”,“gravity”,“instruments”,“composition”,“giant”, “different”, “voyagers”, “regions”, “become”, “landers”, “Viking“kilometers”,“days”, “rock”, “scientists表4与ConceptNet中的“行星”概念的关系概念1Concept2关系类型基于ConceptNet的星球大行星同义词2.0汞是一6.0天体一种类型的2.0外层空间同义词2.0金星ISA9.38木星ISA5.6地球有关7.38卫星同义词2.0住在usedFor4.47行星体ISA1.0经典行星ISA1.0明星联系我们1.17天王星ISA5.66月亮联系我们2.55对于给定的查询，文档根据与查询的单词相似性进行排名。随着查询的扩展，文档也被细化。实验研究方法为了分析我们提出的框架在信息检索中的可用性，我们将我们的框架应用于太阳域。我们从UCI Repository中的NewsGroup20数据库中获取文本文档。它包含732个与关键字“空间”有关的文件。我们还使用了外部领域本体来增强我们的概念集。在Solar Domain中使用了两个外部本体-So-最大系统（1）和太阳系SKOS本体模型（Castano等人，2003年）。然后，文本挖掘技术被应用到从NewsGroup20数据库中收集的732个文档。R语言的tm、NLP和SnowballC包用于创建文本语料库、词干提取和文档术语矩阵（DTM）的创建。由于DTM的尺寸非常大，因此稀疏度被去除了0.2%。现在，与领域相关的最常见的单词和被认为是概念。然后是字典表5上述查询中的查询关键字和扩展关键字。查询. 无查询关键字EX panded查询词1.木星行星木星卫星半人马座2.月亮月亮物体月球之夜3.太空太空外宇宙专业4.恒星太阳星空天体5.行星行星主要天体6.地球地球我们的星球扁圆7.太阳太阳星光8.大气层大气层空气空间天空9.银河系银河系河外星云10.粒子粒子，物质，云空间在ConceptNet本体中的一个关系。在Equ（4）中，给出了根据表（2）定义的该关系的语义权重0.78。类似地，计算存在的其他概念的其余值是域。9.38太阳能领域的310个概念是使用文本挖掘识别的概念和外部领域��ℎ�� (��,��, ��) =9.38 × 0.78 = 0.78(4)本体论表3中列出了一些概念。下一步是将已识别的概念与概念网进行映射首先，我们选择“行星”这个词经过映射和匹配��ℎ�� (��,��, ��) =6.00 × 0.78 = 0.49(5).6.0从字典的概念，能够构建一个小的一部分，所以-使用由ConceptNet分配的边权重的较大本体一些��ℎ�� (��,��, ��) =9.38 × 0.78 = 0.498(6)的关系的概念2）。从表4中可以看出，“行星”的概念为了消除这种模糊性，当量（1）用于计算边权重。例如，具有a关系的概念（行星，金星）和给定的边权重9.38，9.38也是给出的最大重量强度��ℎ�� (��,��, ��) =5.66 × 0.78 = 0.47(7).��ℎ�� (��,��, ��) =5.66 × 0.78 = 0.47(8).在分配模糊隶属度计算的建议功能，所有其他概念有关的概念“行星”如图所示。 3.S. Jain，K.R. Seeja和R. 金达尔International Journal of Information Management Data Insights 1（2021）1000099表6各种查询的平均精度。QUERY无查询扩展有查询扩展谷歌雅虎冰Exalead谷歌雅虎冰ExaleadQ1.0.9680.5050.760.911110.976Q2.0.9320.810.9460.31510.7710.88Q3.10.9440.980.5110.770.8320.97Q4.0.9250.3360.330.5210.6410.91Q5.10.5560.7340.3921110.89Q6.0.780.6550.

下载后可阅读完整内容，剩余1页未读，立即下载