没有合适的资源?快使用搜索试试~ 我知道了~
International Journal of Information Management Data Insights 1(2021)100043一种基于主题建模和DBpedia特征的查询扩展方法Sarah Dahira,Abderrahim El Qadib,a摩洛哥梅克内斯Moulay Ismail大学技术学院SCIAM团队IMAGE实验室b摩洛哥拉巴特穆罕默德五世大学aRT i cL e i nf o关键词:信息检索查询扩展DBpedia术语分布主题建模语言模型a b sTR a cT查询扩展(QE)是一种通过添加几乎从反馈文档中选出的、与用户查询词相似的词来提高信息检索效率的方法。但是,由于查询关键字的平均数量非常小,有时很难检测用户查询周围的上下文,并相应地扩展查询,特别是当它包含模糊术语(即多义词术语)时。为此,可以利用链接开放数据(LOD)源然而,链接数据中的大多数属性都是多值的,这使得系统无法确定用于扩展的正确属性。很少有其他属性是单值的,但太长和嘈杂,无法直接使用。为了解决上述问题,本文提出了整合主题建模过程来预测潜在语义属性-主题,以用于扩展。该方法使用分布技术Bose-Einstein统计(Bo 1)和DBpedia属性为给定查询重构基于潜在狄利克雷分配(LDA)的主题模型,然后考虑这些文件 然后确定相关的展开项。所提出的方法已被评估使用AP数据集收集,和实验显示显着的改善,根据检索结果使用分布技术Bo1。此外,所提出的1. 介绍信息检索的目的是为用户的查询返回相关的文档。然而,这一研究领域存在许多具有挑战性的问题(评估,2020年)。例如,查询关键字和索引器使用的术语之间的词汇差距会阻止检索相关文档。此外,查询的平均长度被限制在2.4个词(Spink,Wolfram,Jansen Saracevic,2001)。还有,4%的Web查询和16%的最常用查询是模糊的(DiMarco Navigli,2013)。为了解决这些问题,量化宽松可以通过反馈文件或外部来源来使用。例如,Bo1(Amati,2003年6月)使用更有可能出现在顶级反馈文档中而不是出现在从整个语料库中随机选择的文档中的术语来扩展查询因此,这种技术是一个更好的替代伪相关反馈(PRF),只考虑顶部的反馈文件。此外,Bo 1是随机偏离(DFR)项加权模型的最有 效 变 体 ( Macdonald , He , Plachouras&Ounis , 2005;Plachouras,He &Ounis,2004)。至于使用外部来源的量化宽松,链接开放数据(LOD)是最好的选择;因为它们描述了事物及其相互关系。这种呈现数据的方式不仅允许机器检测用户的意图,而且还允许他们测量实体的语义相关性和语义相似性(Ruback etal. ; Ruback , Casanova ,Renso& Lucchese, 2017 ).DBpedia是一个著名的独立于领域的分散式关联数据源。事实上,与使用起来非常嘈杂并且不提供文本注释的Wikipedia(Wikipediacontributors,2021)搜索引擎不同,DBpedia是一个知识库,它从Wikipedia中提取结构化信息,并通过仅保留实体及其属性名称和值来组织它们。 此外,DBpedia 具有各种各样的语 义特征,不像WordNet,例如它在语义关系方面非常有限。至于DBpedia的粒度,其2016- 04版本描述了600万种事物,其中520万种被分类在恒定本体中,包括5000种疾病(维基百科贡献者2020年5月14日)。此外,Abbes、Kopliku、Pinel-Sauvagnat、Hernandez和Boughanem(2013)的作者指出,DBpe-dia属性的精度达到65.98%。然而,DBpedia中的属性通常是一些单值的值有一个长的嘈杂的文本作为值。事实上,单值属性和多值属性之间的主要区别在于,单值属性只有一个值,可以是短长度资源或长文本。而多值属性有一个资源列表作为值,并且每个资源的长度都很短。∗ 通讯作者。电子邮件地址:a. um5r.ac.ma(A.E. Qadi)。https://doi.org/10.1016/j.jjimei.2021.100043接收日期:2021年6月9日;接收日期:2021年10月9日;接受日期:2021年10月9日2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表国际信息管理数据见解期刊主页:www.elsevier.com/locate/jjimeiS. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000432为了解决这些问题,提出了一种新的自动查询扩展(AQE)方法,该方法不受用户的干扰,利用语义主题模型从DBpedia属性中确定有效的扩展词。选择主题建模是因为它通常用于减小文档(大小)。因此,它可以应用于前面提到的属性类型。事实上,主题建模是最近无监督自然语言处理(NLP)研究中的一个重 大 发 现 , 并 已 广 泛 用 于 IR 任 务 ( Colace , De Santo , Greco&Napoletano,2013;Wei& Croft,2006)。NLP的这个分支(Garg,Kiwelekar& L.D.Netak,2021)旨在通过给出几个可以最好地解释文档中底层信息的top-ics来减少文本文档的维度。实际上,主题建模包括将一组单词组合在一起在某种程度上,每个组代表文档中的一个主题(Tomar,2019年7月25日)。因此,主题建模基于模糊逻辑,即:每个主题在一定程度上与文档相关,并且来自主题的每个词基于其与主题的相关性而被加权。此外,一个词在两个不同的文档中可能属于不同的主题.同样,一个词可以同时属于文档中的多个主题。 至于像DBpe这样的语义注释文档集合,dia,主题模型有利于(半)自动生成它们可以用于分析文档语料库的内容,用于知识发现,用于在分类中组织文档语料库,以及用于在文档语料库中导航(Bundschus,Tresp&Kriegel,2009)。然而,主题建模的一个大问题是要考虑或选择的主题数量是否足够。主题建模的一种方法是潜在狄利克雷分配(LDA)(Blei,NgJordan,2003)。LDA是概率潜在语义分析(PLSA)(Hofmann,1999)的扩展,允许通过奇异值分解(SVD)进行降维。首字母缩写LDA代表(Tomar,Jul. 25日,2019年):• 潜在:它指的是隐藏在数据中的所有内容,即文档所包含的主题或主题。 它们是未知的,但它们被认为是存在的,因为文本是根据这些主题生成的;• 狄利克雷:这是一个“分布的分布”。换句话说就是 主题在文档中的分布和主题中的词的分布;• 分配:这意味着一旦有了Dirichlet,他/她就可以将主题分配给文档,并将文档的单词分配给主题。因此,有两个矩阵:• P =P(t| d)对应于文档中主题的概率分布;• Pw= P(w| t)是主题中单词的概率分布。在本文的QE方法中,LDA应用于Bo 1实体的关联的长单值/多值属性。 至于LDA模型,“dbo:abstract”和“is dbo:wikiPageRedirects of”被特别使用,因为它们是具有最长可能值的属性。此外,单值属性“dbo:abstract”通过包括来自其他属性的信息来给出实体的相对简短和简洁的抽象。因此,该属性可以提供附加信息并解决词汇不匹配问题。而属性“is dbo:wikiPageRedirects of”是多值的,通常有一个(非常)长的简明值列表。通常有对于多值属性,每个值中有3到8个项。此外,假设所使用的实体彼此相关,则效率在潜在主题中使用共同或共享术语来扩展查询的可能性需要得到验证。此外,需要验证这种建议的分配方法与关联方法相比的优越性。建议的基于DBpedia的特征主题建模方法在概念的摘要/Wikipage重定向上使用LDA因此,确定避免了在有许多(多值特征的情况)时使用的正确特征,并且缩短了从包含长文本的摘要中使用的术语的数量。此外,多值属性的问题是通过使用LDA,允许选择有效的条款之间的多个值的扩展解决所提议的方法由两个阶段组成:在第一阶段,使用语言模型计算初始用户查询和文档之间的相关性,然后应用分布方法Bo1(Amati,2003)从反馈文档中找到最高的Bo1扩展项。在第二阶段,确定来自Bo 1扩展项的单值/多值DBpedia属性,然后使用两个属性在Linked Bo 1上运行LDA,以根据初始用户查询找到用于扩展的最佳候选项本文的其余部分组织如下。第二节介绍了相关的工作。第3节说明了拟议的方法。第4节介绍了对这些方案的评价,并讨论了取得的成果。最后,第五对工作进行了总结2. 相关工作量化引擎技术被广泛应用于提高文本检索的性能。已经提出了不同的方法来选择扩展项(Carpineto Romano,2012)。扩展方法可分为基于局部分析的量化扩展和通过全局分析的量化扩展:本地方法是基于目标语料库的(Rocchio,Mitra Datta,2013),包括 : 第 一 , 相 关 性 反 馈 ( RF ) ( Rocchio , 1971;Salton McGill ,1983),其中由用户标记为相关或不相关- 对他或她的问题给出一系列答案。第二,PRF通过假设前k个文档是相关的来自动化RF的手动部分(Buckley,Salton,Allan& Singhal,1995),(Manning,Schütze&Ragha-van,2008)。然而,来自顶级反馈文档的65%的术语对查询是有害的(Cao,Nie,Gao& Robertson,2008)。第三,术语分布技术允许确定候选扩展术语,这些术语更可能出现在高排名的反馈文档中,而不是出现在随机选择的文档中。以及第四,考虑倾向于与所有或许多查询项共同出现的项作为良好扩展项的项关联方法(Wavelet al.,2013年)。在Wendy et al. (2013),作者建议通过以下方式改善检索结果:修改基于分布的方法和基于关联的方法,然后通过使用关联方法将它们组合起来,以细化分布方法的术语选择。本文利用关联数据,将Bo1分布方法与另一种分布的分布方法LDA相结合,改进了Bo1分布方法的结果。在Dahir,El Qadi和Bennis(2018)中,查询基于其特征向量与来自反馈文档的索引词的特征向量之间的相似性,对索引词进行扩展。在Dahir,El Qadi和Bennis(2018)中,作者通过使用SPARQL协议和RDF查询语言(SPARQL)来查询DBpedia并选择具有特定特征(值)的所有资源,从而将反馈术语与查询术语进行比较。然后,使用余弦相似性度量(Garg,Kiwelekar,Netak& Ghodake,2021)来比较找到的资源列表并扩展查询。这些方法(Dahir等人,2018a,b)是基于关联的,并取决于RF的质量,如前所述,RF具有负债。而本文中的方法是基于分布的,并且依赖于Bo1,它比RF具有更多的优势。其他当地方法[29],考虑DBpedia 摘要(“DBO:abstract”),作为用于构建术语关联图的文档收集。在基于关联的扩展方法中不使用“dbo:abstract”,而是使用,in this work,ina distribution分布based基础one.S. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000433而全局方法包括查询扩展,使用:(i)-sauri,不标记术语之间的语义关系(Jain,Mittal&Tayal,2014)。或者使用(ii)本体的方法,如词汇数据库WordNet,其将名词、动词等分组为称为“同义词集”的同义词集。例如,Jain等人(2014)的作者使用基于图的方法来扩展查询。但是,他们的方法有缺点,因为它使用的WordNet可能没有某个领域的本体。此外,WordNet对概念和短语的覆盖率较低(Sinha Mi-halcea,2007),而DBpedia则对可变长度的术语序列进行注释。其他全球方法使用(三)关联开放数据。 事实上,与使用文档的经典Web相反,数据Web利用URI标识的资源(Abbes等人,2013年)。对于DBpedia,某个实体的URI 具有以下形式:http://dbpedia.com/resource/entity_name。然而,大量可用资源的效用(例如类型,主题等)以及大多数时候是多值的本体属性(Abbes等人,2013),使得选择要使用的正确属性变得困难。但在这篇论文中,多值属性(例如“is dbo:wikiPageRedirects of”)的问题通过在它们上应用LDA以便在它们之间找到有效的项用于扩展来克服。而大量的效用属性通常只有一个对应的值,并可用于所有资源的问题是克服了使用长属性从他们(例如,为此,Mendes、Jakob、García-Silva和Bizer(2011)建议使用DBpedia Spotlight在文本中注释DBpedia“消歧置信度”(也称为置信度级别)设置为高值,以避免不正确的注释。事实上,高置信水平会导致实体标记的高精度,而低置信水平会增强召回率(Raviv,Kur- land &Carmel,2016)。 在本文中,使用该参数的默认值0.5。相比之下,Zong,Lee和Kim(2015)的作者:(1)使用使用N-quads(主语,谓语,宾语和上下文)格式发布的RDF文档。(2),计算这些文档的页面排名。(3)用词的向量表示查询和RDF文档,并使用词频逆RDF频率计算向量中词的权重。提取顶层RDF文档中包含的所有实体,并将包含任何查询词的实体视为“锚实体”。这种方法有一个限制,因为使用确定用于扩展的候选实体并不总是有效的。例如,“锚实体”可以包含与用户的意图没有任何关系的查询项。 但是,在本文中,选择了DBpedia Spotlight,并考虑在对其应用LDA模型后扩展至于主题建模方法,Todor,Lukasiewicz,Athan and Paschke(2016)不像大多数传统的主题建模方法那样只依赖文档术语。他们缩小文本文档,以便只保留实体来使用DBpedia进行丰富。为此,使用几个特征的组合来确定在聚类方面实现最高准确度的特征。然而,这种方法也有缺点。首先,挖掘这样的主题模型需要有效和有价值的特征选择,由于大量的上下文从文档中的损失后,缩小。然而,使用的功能数量 是非常有限的;特别是其中一些并不适用于所有资源(例如上位词)。其次,作者注意到,使用相关资源(以及类型,类别和上位词)降低了准确性,因为这些相关资源具有不同的类型,因此它们的类别也不同。第三,由于DBpedia在特征方面非常丰富,因此需要计算时间来评估尽可能多的特征组合。在工作中(M。Bundschus等人,2009),比较了几种主题建模方 法 在 两 个 不 同 语 义 注 释 的 文 档 集 合 中 对 注 释 建 模 的 能 力 :PubMed,其由来自医学领域的高质量注释组成,以及社会图书标记系统CiteULike,用户可以自由地使用他们感兴趣的参考文献的标签进行注释。作者&(ii)Corr-LDA(Blei Jordan,2003)将医学主题词(MeSH)术语中的概念分配给从文档内容(即PubMed摘要)中导出的主题。(iii)用户主题标签LDA(M. Bundschus等人,2009),其通过用于协作标记系统 的 用 户 特 定 主 题 分 布 来 对 文 档 特 定 主 题 分 布 进 行 采 样 。 根 据Bundschus等人(2009)的结果,Link LDA和Corr-LDA方法的性能均优于标准LDA方法。此外,在徐,林,鸿飞和关(2020)中,作者将社会将反馈文档的注释(即,用户生成的用于标记资源的标签)转换为主题模型,用于个性化文档检索。在Bekkali和Lachkar(2019)中,作者对社交媒体上的阿拉伯语评论和评论进行了情感分析。为此,他们将LDA应用于从短社交文本生成的词袋。然后,他们将主题术语映射到相应的概念,以获得概念袋。如果一个术语在BabelNet中没有对应的概念,他们会在同一主题中寻找最接近的术语的概念。建议的基于DBpedia的特征主题建模方法在以下方面与LDA [28](第4(3)节“模型训练”)的相关工作不同:• 在Todor et al.(2016)中,作者通过保留文档中的所有实体来减小文档的大小,然后使用可能不适用于所有实体的关联数据中的一些特征来丰富它们。而在本文中,通过仅保留基于Bo 1结果的最有效的术语来减少反馈文档的大小,然后• 此外,与Bundschus et al.(2009)和Xu et al.(2020)不同,在PubMed上执行主题建模,仅限于医学领域和/或社交注释文档:复杂(因为它们与用户,资源和标签相关联),嘈杂和容易出错,DBpedia是本文中使用的源,因为它是领域独立的,结构化的,基于本体• 与[40]通过LDA从术语袋创建概念袋不同,LDA在本文中用于概念(摘要/Wikipage重定向)以确定用于扩展的有价值的链接数据。特别是“dbo:abstract”通常包含来自其他DBpedia功能的链接数据。因此,问题避免了当存在许多特征时(这是多值特征的情况)确定要使用的正确特征的困难,并且缩短了要使用的来自包含文本的摘要的术语的数量。此外,多值属性的问题通过使用LDA来解决,LDA允许确定用于在多个值之间展开的有效项。此 外 , 与 大 多 数 查 询 扩 展 方 法 相 比 ( Azad& Deepak ,2019;Bouchoucha,Liu& Nie,2014;Krishnan等人,2018),本文使用了各种评估指标,包括N(P@ Ni. e. 应用于前N个检索文档的度量)、N处的召回率(R@N)和N处的平均倒数秩(MMR@N)。此外,与其他特别关注前10个提取文档的研究不同,这项工作清楚地了解了从前5个文档到前10个,前15个和前30个文档的结果变化方式。S. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000434|∏||∏|| |D +DQ(x|3 LDA术语表示:考虑预处理的ab-3. 该方法在本文中,主题建模集成作为一种工具,以确定有效的扩展项从单值/多值DBpedia属性。这一方法包括两个阶段:阶段1:基于Bo1分布的查询扩展方法:1 KULLBACK LEIBLER(KL)加权模式:基于文档是否可以由查询的模型生成或不使用LM来事实上,语言模型方法有助于各种检索任务的非常好的执行性能( El Ghali &El Qadi , Mar. , 2017;& 翟 磊 , 9 月 , 2001;Zhai ,2007)。这些方法认为,一个文档代表一个子语言,他们试图创建LM。这个标准的方法被称为查询似然,方程。(1):给定查询,文档的得分由文档的模型生成查询的概率确定。���P(q1���������������=1相比之下,文档可能性包括为查询创建LM,并基于该文档是否可以由查询的模型生成来 等式(2)-(11)P(D MQ)= P(t MQ)(2)t∈D另一种给文档评分的方法是模型比较,这是KL发散的基本思想:它将文档的模型与查询的模型进行比较D KL(P ||Q)=∑P(x)log(P(x))(3)x∈XFig. 1. 基于Bo1分布的查询扩展方法(基线1)。Bo1得分最高的20个术语(图1)被用于建议方法的下一部分,原因有两个:首先,基于早期的工作(Dahir,El Qadi Bennis,2021)使用来自Bo1方法的索引项的该数目给出了最佳结果。其次,这个术语的数量被认为足够大,可以用DBpedia进行注释,并且几乎可以肯定会得到许多实体。第2阶段:LDA-LinkedBo 1:1 链接数据源:使用DBpedia注释初始查询术语和第1阶段(第2步)中选择的最佳Bo 1扩展术语;2 通过以下步骤预处理预定DBpedia条目的相关联的其中P和Q是定义在同一概率空间上的离散概率分布。此外,通过Dirichlet平滑,Eq. (4)(在这项工作中使用)使我们避免在创建的语言模型中不存在术语时得到空结果。stracts或Wikipage重定向为LDA模型的文档,并请求其5个相应的潜在主题。LDA模型应用如下:lda = models.LdaModel(corpus,id2word,num_topics)(7)PDir(ti|D)= tf(t i,D)+���P ML(t i| C)、(四)• corpus=documents:指用于训练的文档向量;• id2word=dictionary:它将单词ID映射到单词。它被用来阻止-其中,文档D中的项ti的频率随着���PML(t i C)是���伪频率参数,|D|是词在文档中出现的次数���������������,(,)是词t i在文档D中出现的频率。1Bo1加权模式:减少使用Bo1从反馈文档中利用的索引项的数量(Amati,2003年6月)。使用Bo1计算顶部反馈文档中的每个候选索引项的分布得分的估计,与其在整个语料库(200个文档)中的分布相比,如等式(1)所示。(5)(Ketchet al., 2013年):挖掘词汇量,以及调试和主题打印(Sahria Fudholi,2020);• num_topics=5:从训练语料中提取的潜在主题的个数;表2显示了为查询号生成的主题的示例6、• 术语选择方法:EX初始查询qI的扩展,使用以下组合:• 要么:每个主题前5个术语之间的通用术语,要么每个主题的前5个术语,即高权重术语,或使用所有5个主题的所有术语(n= 10)S(t)=(∑tf(t,d))log(1 + favg(t,C))+ log(1 + fd∈RDDBpedia[35] Bo1术语中的实体S. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000435favg(t,2N(t,C))(5)• 属性的关联其中:RD和C分别代表相关文档和整个语料库。tf(t,d)是候选词的词频t在文件d中;因为它通常是单值的,也就是说,不会在多值属性中选择正确的值是一个困难。此外,该属性通过为en提供替代概念或表达式来解决词汇不匹配问题,favg(t,C)=∑tf(t,d)(六)奶子因此,它对于扩展是有价值的。“dbo:abstract”favg(t,C)表示t在整个cor中的平均词频pus,N是语料库中文档的数量。将得到的每个被索引词的S(t)作为该词的权值,并使用得分最高的k个候选词(k= 20)来扩展初始查询(qI);模型(Fig. 2)因为虽然第一个属性是单值的,第二个是多值的;这两个都可以用于DBpedia中的几乎所有资源。事实上,这些属性是实用的,即它们不是基于本体此外,这些属性是DBpedia中唯一通常具有长值以用作2avgd∈CS. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000436Q∑图2. 拟议量化宽松方法的流程图(LDA-Linked-Bo 1)。表1测试集合TRECAP 88 -90的描述图三. Bo 1(Amati,2003)和LDA-LinkedBo 1扩展方法之间的比较,在5、10和30时使用每个主题的前5个术语的精度方面。• 回忆:它也被称为真阳性率,它显示了系统返回所有相关文档的能力(LEE等人,(1997年):参数值文件数量158,240召回=检索到的相关文件数量相关文件数量(九)平均文档大小261文档相关性0(不相关),1(相关)主题(查询)编号1• 平均倒数排名(MRR):它是一定数量的查询Q的倒数排名(RR)的平均值。RR是指第一个正确答案的排名的乘法逆(维基百科贡献者,2020):LDA模型。此外,“dbo:abstract”将来自其他几个属性的链接数据分组,这些属性对扩展很有价值。而MRR =1||���| 1| ���=1���������������(十)dbo:wikiPageRedirects“的值为Wikipedia链接。因此,这两个属性都携带了重要的扩展信息在这项研究中,Bo1和LDA被使用,并且优于其他方法,因为Bo1在其他研究中给出了有希望的结果,因此很好地建立了这项工作。至于LDA,上一节中的许多相关研究都使用了它,这项工作通过关联数据对其进行了改进。4. 实验为了评估所提出的方法,使用搜索引擎Indri,1和测试集合TREC AP88表1中报告了供试品采集的统计数据。使用了标准的停止词列表,并且没有执行词干提取。KL被选择为具有平滑参数���= 1000的检索模型(Dahir等人, 2018年)。4.1. 评估措施在这项工作中,使用了三种IR评估措施• 精确度:它显示了系统能够只返回相关文档的级别(Lee,ChuangChuang,1997):并使用了主题模型• 困惑:它表明概率模型预测样本的能力(Ramaciotti Morales,Tablets,Ung Prieur,2019):PP(p)=2H(p)=2-∑xp(x)10g2p(x)(11)其中H(p)是分布的熵,x在事件上变化4.2. 结果表3和表4给出了所提出的方法“LDA-LinkedBo 1”在两种类型属性的精确度和召回率方面的评估结果。图3和4,选择Bo1(Amati,2003)作为基线1。的目的是将前两个表(3和4)中的最佳性能方法与另一种基于关于项的分布,因为LDA是前面提到的分布的分布。换句话说,Bo1和LDA都是基于分布的技术,因此具有可比性。在表5中,进行了性能最佳的“LDA-LinkedBo 1”方法与两种基于关联的扩展方法之间的比较,这两种方法最先进的文章,比较了dis-精度=检索到的相关文档检索到的文件1http://www.lemurproject.org/indri.php2https://trec.nist.gov/data/docs_eng.html(八)基于数据库的技术与基于关联的技术以及这两种技术都在前面提到过。因此,这些技术具有可比性。和图5。比较的困惑,建议的方法,Todor等人。(2016)这给了最好的困惑(即。最低的一个)。S. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000437表2使用两个属性“dbo:abstract”和“is dbo:wikiPageRedirects of”从TREC AP 88 -90数据集生成查询号6“第三世界债务减免”的主题LDA主题编号LDA主题术语及其权重“dbo:abstract”0国家(0.02),实习生(0.020),基金(0.011),成员(0.010),墨西哥(0.009),支付(0.008),金融(0.008),世界(0.008),系统(0.007),经济体(0.007)1国家(0.032),墨西哥(0.029),世界(0.022),单位(0.018),最大(0.017),战争(0.015),州(0.014)、领土(0.011)、墨西哥(0.011)、美洲(0.011)2国家(0.028)、实习生(0.024)、成员(0.017)、基金(0.016)、支付(0.011)、财务(0.011)、经济(0.010)、货币(0.010)、机构(0.010)、世界(0.009)3国家(0.020),墨西哥(0.016),世界(0.016),国际(0.012),成员(0.011),国家(0.010),贸易(0.010),人口(0.008),权力(0.008),最大(0.008)4墨西哥(0.010),国家(0.010),国际(0.009),世界(0.008),州(0.007),最大(0.006),货币(0.006),经济(0.006),美洲(0.006),经济(0.006)国家(0.059)、墨西哥(0.055)、墨西哥(0.047)、实习生(0.042)、单位(0.040)、基金(0.039)、货币基金(0.035)、货币(0.029)、共和国(0.022)、德(0.022)实习生(0.017),基金(0.017),墨西哥(0.017),货币基金组织(0.017)、墨西哥(0.017)、国家(0.017)、货币(0.017)、单位(0.017)、货币(0.017)、共和国(0.017)国家(0.050)、基金组织(0.045)、墨西哥(0.044)、墨西哥(0.040)、基金组织(0.040)、实习生(0.039)、单位(0.039),货币(0.039),国家(0.023),共和国(0.022)墨西哥(0.092)、墨西哥(0.089)、国家(0.086)、单位(0.084)、实习生(0.034)、基金组织(0.027)、工发组织(0.026),国家(0.025),德(0.025),基金(0.025)基金(0.064),实习生(0.063),基金组织(0.050),货币(0.038),货币(0.025),评论家(0.024),国内生产总值(0.022),金融(0.021),酋长(0.021),危机(0.021)表3LDA-LinkedBo 1 扩 展 方 法 使 用 “dbo : abstract”/“is dbo :wikiPageRedirectsof”在不同级别的精度方面。主题词=50.457 0.3710.2950.238主题词=100.4570.3570.3050.219是dbo:wikiPageRedirects重复主题词0.400 0.3570.3050.224主题词=50.4290.343 0.2860.224主题词=100.4290.329 0.286 0.214表4LDA-LinkedBo 1扩展方法使用表5主题词=50.217 0.327 0.431 0.626主题词=10 0.197 0.294 0.395 0.613是dbo:wikiPageRedirects重复主题词0.202 0.3130.420 0.685主题词=5 0.199 0.311 0.410 0.631主题词=100.2080.304 0.391 0.600见图4。Bo 1(Amati,2003)和LDA-LinkedBo 1扩展方法之间的比较,在5,10和30的召回方面,使用每个主题的前5个术语在MRR@n方面,比较了建议的基于分布的扩展方法、基于分布的扩展方法Bo1 ( Amati , 2003 ) 和 来 自 最 新 技 术 水 平 的 两 种 基 于 关 联 的 扩 展 方 法(Balaneshinkordan& Kotov,2016; Dahir等人,2018),全部使用TREC-AP数据集。EX伸缩进近@5 MRR@10@30阿马蒂,2003年Dahir等人(2018年)0.4330.4460.459Balaneshinkordan和Kotov(2016)0.139 0.178 0.198根据表3中的至于P@10,使用重复主题术语和主题术语=5的基于“dbo:abstract”的方法给出了最高的结果。关于P@15,来自“dbo:abstract”的主题术语=10,LDA-LinkedBo 1使用LDA-LinkedBo 1使用“is dbo:wikiPageRedirects of”(主题术语=5)LDA-LinkedBo 1使用0.564 0.564 0.5710.512 0.536 0.5430.536 0.559 0.566是最好的结果。对于P@30,从表4中的“LDA-LinkedBo 1”结果来看R@15 至于R@30,主题术语)使用重复主题词的实验结果最高dbo:抽象P@5P@10P@15P@30重复主题词0.4290.3710.2950.214dbo:抽象R@5R@10R@15R@30重复主题词0.1990.3170.4230.607S. Dahir和A.E. QadiInternational Journal of Information Management Data Insights 1(2021)1000438图五. 在这项工作中的功能和最好的功能,根据Todor等人的困惑比较。(2016年)。从表3和表4中可以看出,使用“dbo:abstract”和主题词=5的方法在至于从图3中可以看出,基于“dbo:abstract”使用主题词=5的“LDA-LinkedBo 1”将Bo 1的P@5显著提高了8.6%。从图4中可以看出,使用基于“is dbo:wikiPageRedirects of”的重复主题术语的方法将从表5的结果来看,分布方法优于关联方法。至于此外,它还改进了“Linked data COS-SIM used dct:subject”(Dahir et al.,2018年),MRR@5为13.1%,MRR@10为11.8%,MRR@30为11.2%。它改善&了“DB-MI” ( Balaneshinkordan Ko- tov , 2016 ) , MRR@5 为42.5%,MRR@10为38.6%,MRR@30为37.3%。关于“is dbo:wikiPageRedirects of”,使用“LDA-LinkedBo 1(topicterms=5)”在MRR@5(以及MRR@10和MRR@30)方面将基线1提高了4.8%。它还改善了“使用dct:subject的链接数据COS-SIM”,MRR@5为7.9%,MRR@10为9%,MRR@30为8.4%。在MRR@5、MRR@10和MRR@30方面,它改善了而使用“LDA-LinkedBo 1(重复主题术语)”改善了基线1,MRR@5改善了7.2%,MRR@10改善了7.1%,MRR@30改善了7.1%。此外,它还改善了“使用dct:subject的关联数据COS-SIM”,MRR@5为10.3%,MRR@10为11.3%,MRR@30为10.7%。MRR@5、MRR@10和MRR@30时的“DB-MI”改善率分别为39.7%、38.1%和36.8%。 此外,使用重复的主题术语对“is dbo:wikiPageRedirects of”特别有利就 图 5 中 的 困 惑 而 言 , 本 文 中 使 用 “is dbo : wikiPageRedirectsof”/“dbo:abstract”的方法比使用“rdf:type”的方法更好(Todor等人, 2016年)。4.3. 讨论从上一节的发现来看,使用DBpedia进一步扩展查询有助于改善Bo1结果。事实上,由于该知识库标签(即表达式),其或者:比初始查询的关键字更频繁地使用(例如,“type ii diabetes”的标签找 到 初 始 查 询 ( 例 如 , “IMF” 的 标 签 是 “International MonetaryFund”)。结果,不包含查询项的文档 但是包含与它们相关或相似的术语的数据将被检索,这将提高结果;特别是DBpedia在注释文本时会考虑单词周围的上下文。换句话说,它考虑了一词多义词的语境,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功