没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于术语选择的印地-英语跨语言检索查询扩展放大图片作者:Ganesh Chandra J.Dwivedi印度勒克瑙BBA(中央)大学计算机科学系阿提奇莱因福奥文章历史记录:2017年4月25日收到2017年8月14日修订2017年9月8日接受2017年9月13日在线发布保留字:Okapi BM25术语选择值(TSV)查询扩展信息检索跨语言信息检索A B S T R A C T在跨语言交流的环境中,从网络上的大量信息中检索出准确的信息是一项非常困难的任务。为了检索信息,用户以查询的形式指定所需的信息。有时候,由于歧义或未翻译的查询词,查询可能无法以特定的方式表达所需的信息。这个问题可以通过使用其他合适的词来扩展查询,使其更具体来最小化。目的查询扩展的目的是提高CLIR检索信息的性能和质量。在本文中,Q.E.已经探索了印地语-英语CLIR,其中印地语查询用于搜索英语文档。我们使用Okapi BM 25进行文档排名,然后使用术语选择值(TSV)扩展了翻译后的查询。所有实验都是在FIRE 2012数据集上进行的,分析了前3位文档中出现的术语的影响。我们的研究结果表明,使用Q.E.通过从排名前3位的文档的语料库中添加最低频率项来执行的Q.E.是51.33%,这比Q.E.之前和之后都高。(i.e.案例1、案例2)。©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍信息检索(Information Retrieval,IR)主要是指根据用户的需求,从Web上大量的非结构化数据中获取所需信息或知识的过程。随着社会化网站的发展,每一个网络用户不仅是网络信息的消费者,也是信息的创造者。由于全球化,网络用户更加了解教育,研究,商业等方面的事情,并有兴趣收集各种语言的信息of the World.查询扩展可以用来提高检索结果的性能的最重要的IR应用领域是:问题分类系统(Agichtein例如,2004; Riezler等人,2007),信息过滤(Zimmer*通讯作者。电 子 邮 件 地 址 : ganesh. gmail.com ( G. Chandra ) , Skd200@yahoo.com(S.K.Dwivedi)。沙特国王大学负责同行审查制作和主办:Elsevier例如,2008; Hanani等人,2001)和多媒体信息检索(Singhal和Pereira,1999)。然而,随着Web上信息量的迅速增长,人们对收集不同语言的信息并针对其各自的查询语言产生了兴趣。每个用户都希望以用户更舒适的语言检索信息,或者用户希望以他/她的母语检索信息。 如果用户不具备母语以外的语言知识,那么用户很难有效地叙述他们的查询,从而表达所需的信息。结果的有效性取决于查询表示,该查询表示可能包含相关术语以表达所需信息(Lemos等人, 2015年)。跨语言环境下的信息检索(IR)Schutze,2008是一个非常需要的任务,因为它提供了一个解决语言边界问题的平台。因此,为了建立查询和文 档语言之间的 关系,CLIR的需求 迅速增加( Varshney和Bajpai,2013;Zhou等人,2016年)。跨语言信息检索(CLIR)是信息检索的一个分支,它处理的是从Web集合中检索不同于查询语言的文档。以查询的形式对所需信息进行适当的翻译有助于检索到更相关的结果 。 CLIR 的 许 多 研 究 ( Dwivedi 和 Chandra , 2016; Ahmed 和Nurnberger,2012)表明,http://dx.doi.org/10.1016/j.jksuci.2017.09.0021319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comG. Chandra,S.K.Dwivedi/ Journal of King Saud University311关于可用于处理问题的各种技术,例如:歧义,有效的用户界面,不可翻译的单词,例如,专有名称,查询的不正确表示和查询文档之间的关系差,虽然大多数技术仍然需要新的创新实验和阐述。在CLIR中,可以通过三种类型的翻译来实现信息的检索:查询翻译、文档翻译和查询-文档翻译(Banchs和Costa-Jussà,2013;Sanchez-Martinez和Carrasco,2011; Ye等人,2012年)。在查询翻译方法中,查询被翻译成搜索文档的语言(Dwivedi和Chandra,2016)。在文献翻译法中,文献的翻译可以通过两种不同的方式进行:译前和译后。在预翻译中,文档被预翻译成查询语言,用户可以使用特定的查询直接从翻译的文档集合中检索所需的文档。在翻译后,文档在查询时被翻译成查询语言.在第三种方法中(即,两个查询文档翻译),两个查询文档都被翻译成所需的语言。在上述三种翻译方法中,查询翻译是最简单也是研究者最常用的方法。查询的翻译可能会遇到歧义或词汇不匹配的问题(Banchs和Costa-Jussà,2013; Ujjwal例如,2016年)。为了提高检索效率,可以通过在查询中扩展查询词来解决这一歧义问题。在查询扩展(Carpineto和Romano,2012)中,需要额外的术语来扩展查询。根据用户的查询选择合适的术语是一项具有挑战性的任务。选择适当术语的任务可以通过使用检索到的文档的语料库(Lahitani等人, 2016年)。许多研究人员(Ermakova和Mothe,2016; Sari和Adriani,2014;Billerbeck,2005; Zhu等人,2009)已经表明,排名靠前的文档对于查询扩展是高度相关的。因此,检索到的文档根据相关性的排名起着重要的作用,适当的术语选择。本文的主要贡献是通过一种合适的查询扩展方法来解决CLIR系统,特别是印地语-英语系统的相关性差的问题。它旨在解决诸如不匹配、查询词的不正确表示和短查询等问题。查询或简短查询的不正确表示可能会导致歧义问题;因此,检索到的文档的相关性可能会降低。查询扩展(Q.E)Lin et al.,2011; Satter和Sakib,2016是可以最大限度地减少这些问题对检索相关文档的影响的技术之一。第二、三部分分别介绍了CLIR中的相关工作和查询扩展。第四节描述了实验装置,第五节讨论了实验结果,第六节描述了讨论。第七节描述了结论。2. 相关工作大量的研究工作已经完成了IR和CLIR涉及不同的方法来检索信息。本节引用了我们在本研究中遇到的Ballesteros和Bruce Croft(1997)在1997年通过以三种不同的方式使用查询扩展对英语-西班牙语CLIR进行了实验分析(ii)后查询翻译扩展,(iii)前后查询翻译扩展。实验结果表明,第三种方法(即前后翻译查询扩展)优于其他两种方法,提高了检索结果的精度。在Pirkola(1998)在1998年使用基于词典的方法对芬兰语-英语语言对进行了实验分析,发现基于词典的方法存在以下问题:短语翻译、歧义、覆盖以及对变形和不可翻译词的处理。2001年,高剑峰等人(2001)也使用基于词典的方法进行英汉CLIR,发现翻译歧义(例如英语查询)可能导致检索文档(即中文文档)的效果不佳。本文研究了逐字翻译查询词的方法并不可靠。作者探讨了几种提高词典翻译质量的方法。首先,利用统计模型和短语翻译模式对名词短语进行整体识别和翻译。第二,具有最高衔接度的词被选为最佳翻译中的一组翻译词。这项研究工作发现了一个显着的改进,简单的字典为基础的方法。在CLIR中,查询翻译之后的另一个阶段是查询表示,它对查询结果的有效性起着重要的作用。2007年,曹桂红等在中国语言学习者研究中心(CLIR)进行了英汉双语对的研究.作者通过使用马尔可夫链模型扩展翻译后的查询来进行查询扩展,并检索到改进的结果。在接下来的一年(2008年),对于CLIR中的英汉语言对,ZhengYe等人(2012年)使用基于图的方法从维基百科构建了一个跨语言联想词典(CLAD)。在这方面,维基百科提供了两种链接结构:概念链接和多语言链接结构。作者研究了使用CLAD的查询扩展,它改善了基于简单字典的检索结果。在另一项工作中,XuwenWang et al.(2012)在2012年使用了基于潜在狄利克雷分配(LDA)的伪相关反馈(PRF)方法。作者针对这一语言对(即中文-英文),采用三种不同的查询扩展方式进行了实验:翻译前PRF、翻译后PRF和组合PRF。实验结果表明,基于LDA的伪相关反馈(PRF)方法是提高CLIR性能的有效方法。J. X. Huang等人(2013)在2013年对英语TREC数据收集提出了一种自适应协同训练(AdapCOT)方法来选择反馈文档,以提高查询扩展性能。这项研究工作的结果表明,Q.E.使用AdapCOT实现了与基线协同训练方法(baseCOT)相比的改善。2014年,SyandraSari和Adriani(2014)进行了英语-英语语言对之间CLIR的实验工作。采用支持向量机(SVM)和Okapi BM 25检索英文文档,对照印尼文查询。所有的实验进行了49印尼查询CLEF2006数据集和查询翻译使用在线翻译。作者改进了检索结果。类似于这项工作,董周等人。(2015)在2015年使用查询扩展技术进行个性化汉英跨语言信息检索。在这项工作中,原始查询扩展添加合适的术语,检索用户使用双语维基百科文档进行实验,结果表明,个性化的方法比非个性化的方法工作得更好。2016年,GuangyouZhou等人(2016)致力于多语言情感的分类,以预测情感极性(例如,正面或负面的数据。作者使用Amazon数据集对四种不同语言的18个跨语言情感分类任务进行了实验分析。在这方面,英语312G. Chandra,S.K.Dwivedi/ Journal of King Saud University被用作源语言来对抗三种目标语言(例如,法语、德语和日语)。本文介绍了一种新的深度神经网络结构的概念,称为弱共享深度神经网络(WSDNN),用于在源语言和目标语言之间传输信息,并在跨语言情感分类方面取得了显着改进,特别是对于稀缺数据集。一 些 重 要 的 CLIR 研 究 也 在 印 度 语 言 的 文 献 中 报 道JohannesLeveling and Jones(2010)在2010年对印度语言进行了实验分析,探讨了如何开发基于语料库的词干分析器、如何在子词上应用盲相关反馈方法进行查询扩展以及索引单元对反馈词选择的影响等研究思路Okapi BM 25用于FIRE 2008的测试收集,并对英语、孟加拉语、印地语和马拉地语进行了140次单语实验作者通过他们的实验发现,在MAP(平均精度)方面,英语(即0.5572)的检索效率最高,其次是孟加拉语(即0.4719),马拉地语(0.4575)和印地语(0.3487)。在另一项工作中,SujoyDas等人(2010年)在2010年致力于英语-印地语CLIR,并使用Word-Net执行查询扩展。使用Shabdanjali词典翻译英语查询。在查询翻译之后,通过使用WordNet扩展翻译的印地语查询。在实验的基础上,作者发现使用印地语WordNet进行查询扩展的效果不如单语信息检索。在同一领域(英语-印地语),S。Varshney和Bajpai(2013)在2013年使用WordNet进行查询扩展进行实验分析。作者调查后查询扩展使用印地语WordNet解决歧义问题更清楚,并实现更相关的结果相比,英语单语。Kankaria 等 人 ( 2016 年 ) 在 2016 年 引 入 了 多 语 言 框 架(MultiStructPRF),以扩展资源稀缺语言(如英语、马拉地语、孟加拉语、芬兰语)的查询。查询扩展是通过两种不同的资源(i)使用资源丰富的辅助语言(ii)通过根据扩展项在文档中的出现位置赋予其重要性来完成的。提出了一种基于语义的查询扩展融合模型。实验结果表明,MultiStructPRF比伪相关反馈(PRF)技术性能更好。我们的文献调查表明,一些最有意义的研究CLIR主要集中在英语-印地语CLIR和其他外语对,如汉语-英语对。因此,为了弥补这一差距,我们专注于印地语-英语系统,以提高相关性。3. CLIR中的查询扩展在多语言环境下搜索和检索信息的能力变得越来越重要和具有挑战性的任务,今天的Web正在以指数级的方式被许多语言的新内容所丰富。然而,英语内容仍然占主导地位的Web,所以它成为非常困难的非英语用户检索英语文档对他们各自的语言查询这就产生了对CLIR的巨大需求,需要适当的机制来检索相关信息。造成CLIR相关性差的最常见的因素是:缺乏目标语言的可用资源,简短的查询,错误的翻译和不正确的查询表示。 其中,查询表示的不完整往往导致文档的相关性低,从而导致CLIR系统的性能不佳。查询扩展被认为是解决上述问题的最有效的方法之一,即检索到的文档的相关性差。 质量工程师 麦克斯韦和Schafer(2010年),Linet al.(2010)和Rahimi et al.(2015)是一个增加通过使用附加词扩展原始查询来提高检索结果的质量。质量工程师可以以三种不同的方式执行:手动、交互式和自动。在手动查询扩展中,用户可以选择最适合扩展查询的术语。在交互式查询扩展中,系统建议扩展查询的扩展词,用户可以在此基础上选择Q.E.在自动查询扩展中,扩展查询的过程对用户不可见。在这项工作中,自动查询扩展已执行。如果查询被适当地扩展,它将有效地处理诸如(1)&术语选择的源方法、(2)歧义、(3)不完整和非结构化查询(Jothilakshmi等人,2013; Gaillard等人,2010; Chandra和Dwivedi,2014)。因此,本文的主要目的是针对印英双语CLIR系统,采用合适的查询扩展方法,以提高检索的相关性。一旦从相应的印地语查询(原始查询)翻译成英语查询,将对英语查询执行查询扩展。4. 实验装置印地语(源语言)的检索词用于检索英语(目标语言)的相关文档。所有实验均在FIRE 2012数据集上进行,具有25个印地语查询。信息检索评估论坛(FIRE)是一个评估论坛,其目的是通过为许多研究人员的实验提供测试集合来鼓励南亚语言信息访问研究(Das等人,2010年;Sethuringam和Varma,2008年)已将FIRE用于CLIR实验。与 其 他 IR 和 CLIR 论 坛 相 比 , 如 文 本 检 索 会 议 ( TREC )http://trec.nist.gov/(0000)和Voorhees和Harman(2005),NIITestbeds 和 信 息 访 问 研 究 社 区 ( NTCIR ) http : //research 。nii.ac.jp/ntcir ( 0000 ) and Peters ( 2001 ) or Cross-LanguageEvaluation Forum(CLEF)http:w.clef-campaign.org(0000)andGey et al. (2006),FIRE旨在研究评估方法并比较不同系统和方法的检索性能。因此,我们在这项研究工作中使用了FIRE,因为它包含了各种主题的最新报纸文章,包括体育,政治,商业和当地新闻的查询形式。FIRE还在很大程度上帮助提供查询的描述,这有助于在测量我们方法的性能时识别检索结果的适用性。Q.E.的整个过程已在以下步骤中进行:4.1. 查询翻译谷歌翻译已被用于翻译查询(钱德拉和Dwivedi,2017年;赫伯特等人,2011年,从印度语到英语。在翻译不准确的情况下,还需要语言学家的帮助Google也被用于针对每个查询搜索文档。表1显示了原始查询和相应的翻译查询。4.2. 检索到的文件Okapi BM25(Sari和Adriani,2014)测量用于根据检索到的文档的 相 关 性 对 其 进 行 排 名 。 名 称 Okapi BM 25 ( Billerbeck 等 人 ,Harman,1994)G. Chandra,S.K.Dwivedi/ Journal of King Saud University313.Σ不107.Σ×表1他们的翻译。查询印地语查询英语查询(翻译查询)Okapi BM25值如下:bm 2 500克;d5 0 0 千克。2019-10- 1200:00:00× 2019 -1200:00× 2019 - 12 00:001.YSRReddy2巴拉特·拉特纳音乐家3NREGA格式澳大利亚大使馆爆炸案埃洛格2019年09月05日星期五10-810:5010:5010:5010:502: 172- 1762019- 01-1300:00:005采用欧元的国家10-7 0:5 ×1:21 ω 36पहले 700टेस विके ट लेने िाल व्के टे第一个拿700个测试小门的球员2017 -07 -0500:00:002: 172- 37史蒂夫·欧文bm2500q;d/2:718 2008गुिाहाटी बम विस्ट स कवष2008年古瓦哈蒂爆炸案类似地,本文档的其他文档的Okapi BM25值10月19日,Chamunda寺庙发生踩踏事件,查询和其他查询的其余文档。10आदर् हाउवसंग स्साइटी घ्टाल इसीता11ऑस्ेवलेा मे भाेषीे छात्ं पे हमलेAdarsh住房协会骗局辞职印度学生在澳大利亚遇袭事件表3显示了25个查询的每个文档的Okapi BM 25值和排名。12德里地铁服务的开始13印度公民巴基斯坦间谍14教育权利法15बीजेपी से जसिंष वसंह का बवहषाेJaswant Singh抵制印度人民党16Gorkhaland需求17斯里兰卡国家板球队遇公司简介4.3. 术语选择分析每个查询的检索文档提供了一个池,根据术语选择值从其中选择扩展术语(Rijsbergen,1979; Blum和Langley,1997)。文档中的所有术语项按以下公式评分,并指定一个项18印度19 2001年诺贝尔经济学奖得主关于我们_联系我们选择值:20 2003年东盟杯冠军21 2001年印度人口普查TSVt¼. ftrtN. RRð3Þ22भ不不丹地震23印度队24先知穆罕默德漫画争议25 2002年全国西部大学系列赛结果BM是“Best Match”的缩写,在本例中,25是BM 11和BM 15的组合。Okapi方法描述为:其中,具有最低选择值且未包括在原始查询中的术语将被追加以形成新查询。为了使用TSV确定适当的扩展项,我们确定了以下三种情况:4.3.1. 案例1:从查询的所有文档(@10)中选择术语(不考虑排名)给你,为了QE适当的术语取自描述bm25q;d¼Xt2qlogN- ft 0: 5K11 fd;tft 0: 5 k fd;tð1Þ以及在不考虑Okapi BM 25获得的文档等级的情况下对FIRE数据集的查询的叙述(以了解Okapi的将具有最小TSV的术语添加到原始其中:k<$ k 11-bb×Ld= AL2其中;常数分别Q. E的最终查询形成新的查询。对于查询 1 ,即 具有 ft = 24 、 N = R = 10 和 rt =7 的关键字“Andhra”的TSVTSV¼. 24072019-05 -1500:00:00对于每个翻译的查询(如表1所示),使用Okapi BM 25获得了文档排名(@10),如表3所示。为了计算Okapi BM 25值,需要针对每个查询的前10个文档的长度。利用UAM语料库工具(http://www. com/CorpusTool/,0000)(如表2所述)。从表3中可以看出,在应用Okapi BM 25之后,每个查询的检索文档的排名已经重新排列。例如,对于查询1,最初检索到的文档7现在是排名1的文档。计算如下:对于查询1(表1),即“YSR Reddy的死亡“,第一个检索到的文档的长度,长度(Ld)= 1083,通过使用表2中描述的UAM语料库工具获得。现在,变量“K”的值k< $1: 2转速1- 0:75转速0: 75×1083= 519:8转速< $1:175术语TSV,即 类似地,已经获得了该查询的其余项的TSV(表4)。这里,两个术语&查询扩展现在将在此查询的叙述中的匹配模式的帮助下进行。因此,扩展后的最终查询将成为“YSR Reddy的死亡直升机坠毁”。同样,Q.E.如表7的第3列(即情况1)所示,执行了其他查询。4.3.2. 案例2:在排名前3的文档中选择最高频率的术语在这种情况下,为了计算TSV,我们考虑了通过使用Okapi BM25获得的前3个排名文档中频率最高的术语(如每个查询的查询描述和叙述中可用的)(表3)。×314G. Chandra,S.K.Dwivedi/ Journal of King Saud University¼表2每个文档的长度为25个查询。查询长度文件Doc1Doc2文档3文件4Doc5Doc6Doc7Doc8Doc9文档101108310823004806674652673912382252313313411566518545327583842365169634650361118611141296780437430120437413035654375858664616985397254325737370618229013914433304322692596587210238465552420133937049860210257411959434911381247101957428847875183049639746135726564892411026922193605691022461196289262186190197102365166035213172811593523481004448114031338661238671579233492412577741219819696733633530421751440536513420493333929970116581782916031045142460580821625501253445100558711121574388842731438429539820169124716185513516606431414598370821916381679173535304850752967366117332134337918286476927196245738924627232439519445535087744713738280028715669346520754701321726176912091595480416153217412987247741276235864493491882241492318926719221761393257279243235452192105769547429162473874164862495735216808159761413631251168539312537320211201482174867282160495648对于查询1(表1),即 表4中描述了在排名前3位的文档(即6、7、9)中频率最高的术语。如表5所示,在查询叙述中发现的六个术语中,仅选择了三个(在前三个文档中频率最高)。这里,两个术语&查询扩展现在将在此查询的叙述中的匹配模式的帮助下进行。因此,扩展后的最后一个问题将成为“首席部长YSRReddy之死”。很简单,Q. E.对于其他查询,如表7的第4列所示。4.3.3. 案例3:在排名前3的文档中选择频率最低的术语在这种情况下,我们考虑了使用Okapi BM 25获得的排名前3位的文档中频率最低的术语(在每个查询的查询描述和叙述中可用)(表3)。再次考虑相同的查询(即查询1)“YSR Reddy的死亡”。对于TSV的计算,表6示出了具有通过Google检索的数据在FIRE数据集描述的帮助下进行了测量精度是检索到的相关文档数与检索到的文档数的比例,如等式3所示。各查询的精密度结果见表8。对于相关性计算,召回率也是一种度量技术,它可以定义为从相关文档集合中检索到的相关文档所占的比例。文档的相关性已经根据FIRE数据集中每个查询的描述进行了测量。然而,在这项研究工作中,召回没有被使用,因为它是非常困难的,知道对每个查询的相关文档的总数对于精密度评价,可将检索到的文件视为相关或不相关。有趣的是,检索到的文档的相关性通常是一个相对的度量,并且可能因用户的不同而不同。例如,对于查询“YSR Red d y 的死亡 ”,仅使用包含信 息“And hr a Pr a d es hChi ef Minis te r YSR Red d y 的死亡 ”的FI R E 描述来测量文档的相关性 。在直升机坠毁排名前3位的文档中频率最低的描述见表4.在查询的叙述中发现的六个关键词中,仅选择了五个(在前3个文档中具有最低频率精度相关检索文档检索文档ð4Þ如表6所示。再次,两个术语&查询扩展现在将在此查询的叙述中的匹配模式的帮助下进行。因此,扩大后的最后一个问题将成为平均精度是获得的精度值的平均值对于在检索每个相关文档之后存在的前K个文档的集合,然后将该值在信息需求上平均一组查询的平均精度是每个查询的平均精度分数的平均值,如表8所示。PQAP Aqq¼YSRReddy的死亡 同样,Q.E.对于其他查询,如表7的第5列所示形成。5. 实验结果评价检索到的三个重要指标MAPq1Q其中,Q是查询的总数6. 讨论ð5Þ印地语-英语跨舌IR的结果是精确的(图1)。 1)、平均精密度(图2)和平均精密度(图3)。为了计算这些措施,文件的相关性,Q.E.前计算的平均精度值(MAP)是0.262728为了找出排名的影响,Q.E. 有两种不同的方式G. Chandra,S.K.Dwivedi/ Journal of King Saud University315表3Okapi BM 25值和每个文档的等级查询Okapi BM 25值排名Rank5Rank8Rank3Rank1排名10Rank5Rank1Rank5等级2等级7Rank3排名10Rank8Rank1排名9等级6Rank5等级2Rank425-1.673等级7查询术语缺失-0.582Rank1-一千五百五十六Rank5-0.709等级2-一千五百九十四等级6-三千五百七十三排名9-一千四百六十六Rank4-1.562排名8- 1.383Rank3表4查询“YSR Reddy's Death“的术语选择方面Doc1Doc2文档3文件4Doc5Doc6Doc7Doc8Doc9文档10总TSV值Andhra16732322455037.65Pradesh556323112693972.17首席5535321112654295.036部长4426221112318011.52直升机4411212627.056坠毁32114112627.056OkapiBM 25排名。此外,我们使用Okapi BM 25排名进行了两次实验分析,以发现术语出现频率在Q. E中的重要性Q.E. (即:没有Okapi BM 25排名)为0.434488(即,案例1)。类似地,在Q.E.与Okapi BM 25排名进行比较的结果为:0.468440(即,情况2)和0.51338(即,案例3)。通过比较这三种情况(情况1、2、3),我们观察到查询扩展后的MAP(所有三种情况)比Q. E之前的结果好得多。我们还发现,在Okapi BM25对文档进行排名后执行的查询扩展(案例2和案例3)优于Q.E.没有霍加皮BM25这表明使用Okapi对文档进行排名有助于索引Doc1Doc2文档3文件4Doc5Doc6Doc7Doc8Doc9文档101-2.71排名9-2.708Ran8-3.276排名10-2.564等级6-2.712等级7-2.169等级3-1.534等级1-2.268等级4-1.552等级2-2.39230.637Rank1-1.966等级70.582等级2-1.718Rank30.564Rank3-1.006等级20.499Rank4查询项缺失查询项缺失-1.939Rank5查询项缺失-1.869Rank4查询项缺失-1.965等级6查询项缺失-1.990排名9查询项缺失-1.834Rank1查询项缺失-1.9874-7.701排名9-6.887等级6-7.14Rank8-6.559Rank5-7.041等级7-9.543排名10-6.025Rank1-6.410等级2-6.546Rank4-6.45256-4.254等级6-3.331-4.362排名9-121.352-4.306Rank8-2.826-4.481排名10-8.89-4.175Rank4-2.654-4.179Rank5-0.433-3.924等级20.55-4.293等级7-2.617-4.409Rank3-2.849-2.633-2.6667Rank8-2.93排名10-3.844等级6-4.053排名9-4.141Rank4-3.055等级2-4.075Rank1-2.665Rank3-2.3等级7-4.05Rank5-3.7978Rank3-1.016等级6-1.566Rank8-1.625排名10-1.006Rank4-1.002排名9-1.542等级2-0.72Rank1查询项等级7-1.402Rank5-0.728Rank5Rank8排名9Rank4Rank3等级7Rank1缺席等级6等级2910-7.016Rank8-9.091-6.941等级7-9.839-7.174排名9-9.18-6.047Rank3-10.44-6.736Rank5-11.215-6.426Rank4-10.675-6.792等级6-10.633-5.777Rank1-9.058-5.842等级2-9.249-7.196-9.78311等级2-8.693等级6-9.541Rank3-9.548等级7-8.652排名10-10.176排名9-8.248Rank8-9.988Rank1-10.223Rank4-9.475Rank5-10.1412Rank3-3.86Rank4Rank5-3.602等级2等级6-4.266等级7等级2-3.759Rank3排名9-4.484Rank8Rank1-4.7排名9等级7-4.725排名10排名10-2.836Rank1Rank4-4.203等级6Rank8-4.0911314-4.003等级7-4.643-2.958Rank3-4.546-3.604等级6-6.449-4.468排名10-4.555-4.388排名9-4.629-4.1Rank8-4.494-3.435Rank4-3.494-2.762等级2-3.244-3.507Rank5-2.709-1.090-3.78315排名9-2.452Rank1等级6-3.582Rank3排名10-3.341等级2等级7-4.879等级6Rank8-4.176Rank4Rank5-5.855排名9Rank3-5.347Rank8等级2-5.334等级7Rank1-7.396排名10Rank4-4.31316-3.912-3.832-3.546-3.808-2.812-3.623-3.775-3.751-3.782-2.67417排名10-3.039排名9-1.84Rank3-2.593Rank8-3.627等级2-3.559Rank4-0.621等级61.141Rank5-3.153等级7-3.786Rank1-2.52618等级6-3.205Rank3-5.076Rank4-4.963排名9-3.362Rank8-4.03Rank1-5.901等级2-1.746等级7-4.734排名10-4.251Rank4-3.09219Rank3-3.901排名9-3.609Rank8-2.231Rank4-2.829Rank5-3.95排名10-4.026Rank1-3.06等级7-3.813等级6-1.761等级2-2.86920Rank8 Rank6查询条件0.221等级20.642Rank30.628排名90.292排名100.288Rank5查询项等级7查询项Rank1查询项Rank40.32821缺席-3.657Rank1-3.728等级6-2.685Rank5-3.659Rank3-9.038等级2-3.718缺席-3.346缺席-3.032缺席-3.527Rank4-3.44922等级6-3.208Rank4排名9-3.323排名9Rank1-0.567等级2等级7-3.233Rank5排名10-3.272等级7Rank8-3.275Rank8Rank3-0.619Rank3等级2-3.413排名10Rank5-3.246等级6排名40.442Rank12324查询术语-3.801缺席等级4-2.655-1.58-3.943Rank5-3.342-3.494Rank3-2.69-4.23排名9-1.014-4.216Rank8-3.276-1.575Rank1-2.437-4.17等级7-2.223-3.946等级6-1.404-3.388-2.158316G. Chandra,S.K.Dwivedi/ Journal of King Saud University表5使用从Okapi获得的最高频率词为查询“YSR Reddy's Death“选择术语方面Doc7Doc9Doc6总TSV值首席1230.027部长1230.027坠毁440.12表6使用从Okapi获得的最低频率词对查询“YSR Reddy's Death”进行术语选择方面Doc7Doc9Doc6总TSV值首席1120.008部长1120.008Pradesh110.3直升机110.03坠毁110.03表7质量工程师案例1、案例2和案例3。查询英文翻译查询情况1Case2Case31YSR ReddyYSR Reddy的死亡直升机坠毁首席部长YSR Reddy首席部长YSR Reddy2Bharat Ratna音乐家Bharat Ratna获奖音乐家Bharat Ratna Musicians(歌手)Bharat Ratna Musicians(歌手)3NREGA方案NREGA主方案NAREGA计划100天NAREGA计划工作4澳大利亚大使馆爆炸案澳大利亚大使馆爆炸案澳大利亚大使馆爆炸雅加达澳大利亚大使馆爆炸案5采用欧元的欧洲国家采用欧元采用欧元货币的采用欧元的67第一个板球运动员采取700测试小门史蒂夫·欧文第一个板球运动员(投球手)采取700测试小门亨特·史蒂夫·欧文Shane Warne第一个参加700次测试的板球运动员鳄鱼猎人史蒂夫·欧文Shane Warne第一个参加700次鳄鱼猎人史蒂夫·欧文892008年古瓦哈蒂爆炸查蒙达神庙踩踏事件10月古瓦哈蒂轰炸造成的损失2008查蒙达神庙踩踏事件Guwahati 2008炸弹爆破Jodhpur Chamunda Temple Stampede10月古瓦哈蒂轰炸造成的损失2008Chamunda Devi Temple Stampede10Adarsh住房协会骗局伤亡Ashok Chavan Adarsh住房协会马哈拉施特拉邦阿达什住房协会Adarsh Housing Society11辞职袭击印度学生事件诈骗restaurant印度学生在澳大利亚遇袭欺诈欺诈印度学生在澳大利亚遇诈骗举报印度学生在澳大利亚遇12澳大利亚
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功