基于语言的多视图信息检索模型与文档排序

54 浏览量更新于2024-01-10 收藏 471KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2013作者。由爱思唯尔公司出版信息工程研究院负责评选和同行评议可在www.sciencedirect.com上在线获取ScienceDirectIERI Procedia 7（2014）90 - 952013年应用计算、计算机科学与计算机工程国际会议一种基于语言学的Zeinab E.作者声明：John M. Gadallaha和Hesham M. 赫夫尼aa埃及吉萨开罗大学统计研究所摘要提出了一种基于语言的多视图模糊本体信息检索模型。它处理多领域的多视图语言查询。这种语言学是用户定义的，反映了他的主观观点。该模型还提出了一种排序算法，根据相关度，置信度和更新度等标准对相关文档进行排序。© 2014作者。由爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。信息工程研究院负责评选和同行评议关键词：模糊本体;模糊本体信息检索;信息检索;文档排序;基于语言的查询应答系统。1. 介绍一个信息检索系统（IR）包括一个文档集合，一个用户查询，一个检索引擎，和一个排名模块。它存储和注释文档，以便当用户在查询中表达他们的信息需求时，排名模块将显示一组排名的相关文档。这组文档由检索引擎检索，检索引擎将得分与每个文档相关联。分数越高，文档相关性越大[1]。因此，在IR的挑战是找到一些最相关的文件，根据用户研究人员使用两种不同的方法来应对这一挑战。这些方法是基于关键字的方法和基于概念的方法。在基于关键字的方法中，当文档由搜索查询中指定的术语注释时，返回文档。然而，这种方法忽略了许多相关的文件2212-6678 © 2014作者由爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。信息工程研究所负责的选择和同行评审Zeinab E. Attia等人/ IERI Procedia 7（2014）9091而不是用查询词来注释[1]。在基于概念的方法中，根据文档与搜索查询的相关性返回文档。这种方法是一种特定领域的方法。它可以分为基于本体的方法和基于模糊本体的方法。许多工作都是使用这两种方法，这两种方法被称为信息检索模型，IR模型。提出了一种基于语言的模糊本体信息检索模型。第二部分介绍了基于模糊本体的信息检索。第三节介绍了相关的工作。第四部分提出了基于语言的模糊本体信息检索模型。第五节是本文的结论。第6节讨论了拟议的模型。2. 基于模糊本体的信息检索模糊本体以人类可理解、机器可读的格式表示在许多应用领域中常见的不确定信息[2]。它被用作语义Web的标准知识表示[3]。基于模糊本体论的信息检索系统FOIR是一个在特定领域中针对某一查询语义地检索一组相关文档的信息检索系统。这一领域表示使用模糊本体。该模糊本体用于扩展用户查询，并使用一组加权关键字来注释文档集合[4，5，1]。3. 相关工作Leite模型[6]在多个域中语义地检索一组查询的相关文档。它使用模糊本体来表示这些领域。它处理连接多个域的清晰查询。模糊关系本体模型（英语：Fuzzy Relational Ontology Model，缩写：FROM）[4]在语义上检索一组与特定领域中的用户查询相关的文档。它表示这个领域使用模糊本体。它认为模糊本体是一组概念，术语，以及概念和术语之间的关系FROM处理清晰的查询。Fernández模型[7]提出了一种基于本体的信息检索模型。该模型处理开放环境下的清晰查询。Ranked Neuro FuzzyInference System，RNFIS [8]提出了一种混合信息检索模型。它是基于模糊版本的向量空间的信息检索和模糊增强布尔理论的文档评分。4. 基于语言的模糊本体信息检索模型该模型是一个基于语言的模糊语义文档检索模型，使用模糊本体。它根据用户的语言查询，在多个领域的语义检索相关的文件。拟议模式建立一个主观的模糊本体模型，描述一个特定的领域在一个更广泛和灵活的方式与基于语言的查询系统。允许用户使用语言术语表达他们对特定信息的需求，例如，选择所有与数据挖掘相关的论文。这将使用户能够灵活地表达他们的需求。允许用户定义他们关于语言术语的主观概况根据每个用户的主观观点，在多个域中对相关文档进行语义标注根据一定的标准对结果相关文档进行排序。4.1. 建议的信息检索结构提出的信息检索模型它主要依赖于模糊本体92Zeinab E. Attia等人/ IERI Procedia 7（2014）90方法和词干分析器NLP工具。图1显示了所提出的模型的结构。首先，每个用户都应该创建一个配置文件来定义他所有的语言术语。现在，用户可以构建查询。该查询是一组关键字，每个关键字与其重要程度相关联。这种重要程度是用语言学术语来表达的。例如，选择与计算机科学观点中的生物信息学非常相关的所有论文，这里用户搜索与计算机科学搜索观点中的关键字生物信息学（关键字）非常相关这个查询然后被传递到一些操作上，这些操作是：根据用户的主观观点解释每个语言术语使用预定义的模糊本体扩展每个关键字及其相关关键字。然后，这个扩展的列表进入检索阶段，语义检索一组匹配的文档，每个文档与一个匹配度相关联。然后，使用所提出的排名算法根据一些标准对该集合进行排名。最后，向用户显示经排名的相关文档集。4.2. 模糊本体工具所提出的模糊本体模型是多视图模糊相关本体，MVFRO [9]。其主要特点如下：它是一个通用的多领域模糊本体，可以适用于任何领域和任何应用。模糊本体的主要组成部分是概念、关系、属性、术语和个体。模糊本体组件或相关模糊本体之间的关系可以具有多个模糊值，每个模糊值表示某个观点，例如，在古英语中，诗歌代表着英国文学的程度约为0.3，而在现代英语中，诗歌代表着英国文学的程度约为0.25。用语言值和模糊数表示模糊本体组件之间的关系或相关模糊本体之间的关系。这些语言学是由专家根据他的主观观点来定义的。在关系数据库中进行词干提取后存储所有本体组件将表示本体组件或相关本体之间的某种关系的不同视点排序在一个表中，而不是每个视图有一个表。存储专家4.3. 拟议的模型阶段拟议的模型阶段如下：4.3.1. 用户简档创建用户应在构建查询之前创建一个帐户。使用这个帐户，他/她可以定义任何语言术语根据他的主观看法。图2显示了存储用户语言术语定义的方案。当某个用户创建帐户时，此帐户将存储在“用户”（Users）表中。然后用户可以定义任何语言术语，例如，“related” is a linguistic term, using the该表指定了根据用户的主观观点使用哪个隶属函数来定义某个语言术语。该隶属函数也根据用户的主观观点来定义，并存储在对应于其名称的表中，例如，triangularUserLinguisticTerms表用于三角形隶属函数，piUserLinguisticTerms表用于pi隶属函数。对冲，例如，也可以根据用户的主观看法进行定义在Zeinab E. Attia等人/ IERI Procedia 7（2014）9093每个文档与其查询匹配度相查询关键字列表，每个关键字与其重要程度相带注释的文档集合构建用户查询NLP工具模糊本体构建用户配置文件查询操作文献检索引擎对生成的文档进行userHedgeDefinition表user指定对冲名称及其幂。此外，通过确定合取和析取方法并将其存储在userConDisMethod表中，用户可以指定使用哪个方法来解释合取或析取查询。4.3.2. 构造基于语言的多视图查询现在，用户可以构建查询。该查询可以是清晰的、模糊的或基于语言的查询。例如，查询语句“选择所有数据挖掘论文”表示一个清晰的查询。另一方面，查询语句“选择所有隶属度为0.6的数据挖掘论文”和“选择所有隶属度为0.6左右的数据挖掘论文”是模糊查询的示例。基于语言的查询可能是这样的：根据医学观点，选择与生物信息学相关性强其中““该语言术语由用户根据其主观观点预先定义并存储在其帐户中。4.3.3. 应用查询操作用户提交查询后，对查询执行一些操作。首先，对查询进行解析，图1：拟议的模型阶段每个搜索的关键字被提取出其重要程度，该重要程度使用语言学术语和模糊限制语以及搜索观点来表达。所有的语言学术语和模糊限制语都是根据使用者的主观观点来解释的。每个关键字，然后扩大在其指定的搜索角度来看，使用领域模糊本体。扩展词的重要度是其与原关键词的关系和原关键词的重要度的乘积。94Zeinab E. Attia等人/ IERI Procedia 7（2014）90析取方法dis_iddis_name合取法con_idcon_name用户user_id用户名语言标记l_term_idl_term_nameuserConjunctionDisjunctionMethoduser_idcon_iddis_iduserHedgeDefinitionuser_idh_id电源用户语言功能用户IDl_term_idm_fnhedgeMarkuph_idh_nametriangularUserLinguisticTermsuser_idl_term_idaBC图2：存储用户语言术语定义piUserLinguisticTermsl_term_id用户IDaB4.3.3. 检索一组相关文档它通过计算文档匹配度，从语义上检索与用户查询相关的文档集。文档匹配度计算为标注文档的加权关键字列表与查询的加权扩展关键字列表之间的最大乘积组合。这样做的结果是语义相关文档的列表，每个文档与其匹配度相关联。4.3.4. 对生成的文档进行它根据一些标准对检索阶段产生的语义相关文档进行文档与用户需求的匹配程度。匹配度越高，文档与用户需求的相关性越大文档的置信度。该程度是从文档的作者、期刊的置信度或文档发表的会议中提取的。此因素反映了本文档中的知识的可信程度。期刊影响度越高，对本文知识的正确性越有信心，文档的更新程度。此程度是从文档发布日期中提取的。这一因素反映了本文件中的知识在多大程度上是新的和更新的，而不是过时的。然后，以相同的顺序向用户显示相关文档的排序列表5. 讨论表1将所提出的模型与Leite [6]、FROM [4]和Fernandez [7]模型进行了比较。正如我们所看到的，该模型增强了基于模糊本体的信息检索系统，因为它处理清晰，模糊和基于语言的查询。基于语言的查询为用户提供了描述其需求重要程度的灵活性。该模型还接受查询写在多域相对于一个特定的视图使用建议的多视图模糊本体。将该模糊本体表示为一组Zeinab E. Attia等人/ IERI Procedia 7（2014）9095概念、概念之间的关系、术语、术语之间的关系以及概念和术语之间的关系增加了查全率和查准率。这是由于所使用的扩展算法;扩展搜索的术语及其相关概念、术语和它描述的概念，也扩展搜索的概念及其相关概念、术语和描述它的术语。6. 结论和今后的工作这项工作提出了一种改进的模糊语义信息检索，建立一个基于语言的多视图查询系统。这为用户提供了更多的灵活性，同时在特定的搜索角度构建他们的查询。允许用户根据自己的主观观点定义所有语言术语。这有助于根据语言术语的定义而不是我们的定义来检索文档。根据文档与用户查询的相关度、置信度和更新度对文档进行排序未来的工作方向是在这一领域将建立一个文档标注算法，使用我们提出的多视图模糊本体。表1：根据其特征信息检索模型用户查询清脆会员基于语言单视图查询多视图查询该模型Leite模型[6]来自模型[4]费尔南德斯模型[7]引用[1] M. A. A.莱特和我L. M. Ricarte，“基于模糊关系和多本体的信息检索框架”，Springer，pp. 292-301，2008年。[2] J. Zhai，M.李俊，“基于RDF和模糊本体的高校科研管理语义信息检索”，情感计算与智能交互，AISC 137，pp. 661[3] Q. T. Tho，S. C. Hui、黄毛菊A. C. M. Fong，T. H.曹，[4] R.佩雷拉岛Ricarte，F. Gomide，“Information Retrieval with FROM：The Fuzzy RelationalOntological Model，”International Journal Of Intelllegent Systems，vol.24，340-356，2009。[5] A. Nawaz和A. Khanum，“Ranked Neuro Fuzzy Inference System（RNFIS）for InformationRetrieval”，Springer，ISNN 2011，Part I，LNCS 6675，pp. 578[6] M. A. A.莱特岛L. M. Ricarte，“Relating ontologies with a fuzzy information model，”KnowlInfSyst，pp. 619-651，2013。[7] M.费尔南德斯岛Cantador，V. López，D. Vallet，P. Castells，E. Motta，“语义增强的信息检索：基于本体的方法”，Web语义学：万维网上的科学，服务和代理9，pp. 432-452，2011。[8] A. Nawaz和A. Khanum，“Ranked Neuro Fuzzy Inference System（RNFIS）for InformationRetrieval”，Springer，ISNN 2011，Part I，LNCS 6675，pp. 578[9] Z. E. Alarab，A. M. Gadallah，H. A. Hefny，49-62，2012年。

下载后可阅读完整内容，剩余1页未读，立即下载