没有合适的资源?快使用搜索试试~ 我知道了~
1897上下文感知的Ad-Hoc搜索文档词权重摘要戴竹韵卡内基梅隆大学zhuyund@cs.cmu.edu杰米·卡兰卡内基梅隆大学callan@cs.cmu.edu每个段落,通过将每个单词词袋文档表示在现代搜索引擎中起着基础性的作用,但是它们的能力受到基于浅低频的术语加权方案的限制。本文提出了HDCT,一个上下文感知的文档术语加权框架的文档索引和检索。它首先估计一个术语在每个段落的上下文中的语义重要性然后,这些细粒度的术语权重被聚合到文档级的词袋表示中,该词袋表示可以被存储到标准的倒排索引中以进行高效检索。本文还提出了两种方法,使训练HDCT没有相关性标签。实验表明,使用HDCT权重的索引显着提高了检索精度相比,典型的词频和国家的最先进的嵌入式索引。关键词文档表示,词项加权,神经信息检索ACM参考格式:戴祝云和杰米·卡兰。2020年。上下文感知的文档术语权重用于Ad-Hoc搜索。 在网络会议2020(WWW '20)的会议记录,2020年4月20日至24日,台北 , 台 湾 。 ACM , 美 国 纽 约 州 纽 约 市 , 11 页 。https://doi.org/10.1145/3366423.33802581介绍词袋在现代搜索引擎中起着基础性的作用,这是由于其产生详细的术语匹配信号的效率和能力。大多数词袋表示和检索模型使用基于词频(tf)的词权重,例如tf.idf和BM 25 [32]。然而,频繁并不一定导致语义重要。 确定文本中的中心词还需要考虑每个词的含义及其在特定语境中的作用。最近,随着ELMo [30]和BERT [36]等深度上下文单词表示的引入,文本理解取得了快速进展这些方法为每个单词分配一个表示,该表示是整个文本的函数它们被证明可以捕捉单词的语义和句法特征,更重要的是,它们如何在语言环境中变化[37]。本文提出了一种新的框架,该框架使用BERT [ 36 ]中的上下文单词表示来生成更有效的文档术语权重,用于词袋检索。 本文提出了一种基于上下文感知的HIDCT加权框架-HDCT。HDCT首先估计术语本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7023-3/20/04。https://doi.org/10.1145/3366423.3380258实值项权重。以这种方式,术语权重估计可以考虑本地上下文内的词序、依赖性和复杂的相互作用。在通道级别进行估计也允许HDCT处理超过BERT长度限制的长文档接下来,HDCT将局部段落项权重组合成全局文档词袋表示。 文档表示为检索模型提供了文档级和查询级的关键词,以便文档可以准确地匹配查询。 这些表示可以离线生成,存储在倒排索引中,并使用标准的词袋检索算法(如BM 25)进行有效检索。训练HDCT需要有关于一个术语 手动标记每个培训文档中的每个术语是不切实际的。本文提出了三种策略,自动生成训练标签,使用文档,相关性反馈和伪相关性反馈。第一种策略仅依赖于文档内容。一个理想的系统应该能够为任何文档集合自动构建搜索引擎,而无需人工标记。为了实现这一目标,我们提出了一个基于内容的弱监督策略,利用文件的内部结构 它从某些文档字段中挖掘标签,这些字段显示为提供文档的高质量摘要(例如,标题[19]和网络链接[15]),帮助HDCT识别段落中的关键术语第二种和第三种策略利用搜索日志和相关性反馈来使HDCT与用户搜索意图保持一致。当相关性信号可用时,直观地将文档术语权重偏向于其相关查询[10]。我们提出了一个基于相关性的监督策略,训练HDCT使用长期分布在一个文档的相关查询。 有时用户查询可用,但没有相关性信号,例如,如果隐私法规不允许收集用户点击。我们提出了一种基于PRF的弱监督策略,该策略在机器生成的伪相关反馈(PRF)标签上训练HDCT。实验表明,经过内容训练的HDCT显著改善了BM 25和RM 3等词袋检索模型[22],并且可以与一些监督学习排名管道竞争。分析表明,基于BERT的术语权重比术语频率在段落级别上更有效 该方法成功地结合了文档检索中的特定术语权重,优于其他结合段落检索分数的方法。第2节回顾了相关工作。第3节和第4节描述了HDCT框架和生成训练标签的三种策略。实验方法和结果见第5节和第6节。第七节是论文的结论。代码,数据和超参数研究可以在我们的虚拟附录中找到. 11http://boston.lti.cs.cmu.edu/appendices/TheWebConf2020-Zhuyun-Dai/WWW戴祝云和杰米·卡兰18982相关工作特别搜索中的文档表示。现代搜索引擎是建立在词袋文档表示的基础上的。词袋的核心问题之一是如何量化特定文档中术语的上下文特定重要性最广泛使用的术语加权方法是基于词频(tf)的方法,例如BM 25 [32]和Query Likewise [22]。 一种替代方法是统计机器翻译方法[3]。它们使用文档术语翻译成查询术语的概率来对文档统计机器翻译模型并没有被大量使用,因为它们由于数据稀疏而难以训练,并且在大多数情况下并不比基于tf的伪相关反馈检索更有效[22]。另一种方法是基于图形的方法[4,26,33]。 他们为每个文档构建一个图,其中节点表示术语,边表示单词之间的关系。然后使用PageRank等图形排名方法对术语进行基于图形的方法被证明对短文本有效[4];但在标准文档检索数据集上仅观察到比标准BM 25的边际改进[4,33]。语境化神经语言模型[14,30]使用深度神经网络来捕捉单词如何与上下文中的其他单词交互[37]。 与统计机器翻译模型和基于图的模型相比,这些神经模型更容易训练,可以模拟更复杂的单词关系。它们为估计上下文特定术语重要性开辟了新的可能性尽管最近的许多工作已经将BERT [ 14]等情境化神经语言模型应用于IR任务,但之前的工作主要集中在使用BERT作为黑盒重排序器[9,27,28,31]。 我们之前的工作[8]初步研究了使用BERT来加权术语进行初始排名,但仅限于句子和短段落。这些上下文化的神经语言模型是否可以用来为较长的文档生成更好的词袋表示,这在ad-hoc搜索中很常见,这仍然是一个悬而未决的除了词袋之外,最近的研究还研究了用于ad-hoc搜索的神经文档表示大多数先前的工作使用密集文本表示,使查询能够在某种程度上匹配每个文档,这使得它们在大规模数据集中的第一阶段排名不切实际[11,13,16,18,39]。Zamani等人[42]提出了一种不同的方法,称为SNRM。 SNRM学习高维但稀疏的嵌入,其中查询和文档由一组“潜在词”表示,以便可以搜索它们语句,并执行文档级检索。例如,最近的工作从Catena et al. [5]基于段落在文档中的位置,使用每个段落的术语频率的加权和来对文档TF进行如何超越这些简单的统计数据,从段落中挖掘更深层次的信号,以更好地表示文档,这是一个悬而未决的问题对IR监管不力。IR研究主要集中在两种类型的弱相关信号:基于内容的信号[1- 3,19,25 ]和基于伪相关反馈的信号[ 13,41,42 ]。基于内容的方法的动机是观察到文档内容通常在文本片段之间表现出一些相关关系。关于这一主题的研究可以追溯到至少20年前,当金等人。[19]使用标题-文档对来训练统计翻译模型。最近,MacAvaney et al.[25]重新讨论了这个主题,以训练神经排名模型。基于伪相关反馈(PRF)的方法利用搜索引擎的排名来生成伪相关标签[13,41,42]。基于PRF的方法的一个限制是它们依赖于查询的可用性和伪相关性标签的质量[25]。一般来说,最近对上述两种类型的弱监督的研究集中在嵌入[41,42]或神经排名模型[13,25]上。 它们在学习离散词袋文档表示方面的有效性仍有待研究。3HDCT框架本节介绍分层文档术语加权框架HDCT,如图1(a)所示给定一个文档d,HDCT使用BERT生成的上下文术语表示来估计高级术语权重[36]。接下来,HDCT将文档级术语权重组合成文档级术语权重。输出是一个文档的词袋表示,可以存储在一个标准的倒排索引和检索常见的词袋检索模型,如BM 25。3.1段落级术语加权HDCT的第一步是估计一个术语与使用术语频率信号的传统术语加权方法不同,我们的目标是使用BERT来考虑术语在段落中的特定含义和角色给定一个文档d,HDCT首先将其分成一个pas序列标准的倒排索引。SNRM的表现优于传统的词袋检索和几个神经排序/重新排序sagesPd ={p1,.,pn}。BERT的最大输入文本长度为512模型[42]。 将文档表示为单个嵌入所面临的一个挑战是,它会丢弃文档中的原始单词,因此可能会丢失准确的术语匹配信号,这对文本检索至关重要[16]。传代水平证据。在文档检索中,最广泛使用的合并文档级证据的方法是组合段落评分,其估计查询和单个段落之间的相关性评分,并将段落评分聚合到文档评分中。在过去的几十年里,沿着这条研究路线提出了大量的方法[20,21,23,34,38]。一种不太常见的方法是组合段落表示,它使用高级术语统计来构建文档表示,标记化后的标记标记化。同时,先前的研究表明,200-300字的固定大小的段落比自然段落更有效[20]。因此,HDCT中的段落由连续的句子组成,最多约300个单词。接下来,HDCT估计每个段落中的术语重要性图1(b)示出了该步骤的细节 给定段落p,HDCT使用BERT生成上下文标记嵌入,BERT基于对段落中每个其他单词的关注将标记转换为上下文嵌入。Tenney等人[37]表明这些嵌入可以表征令牌的句法特征(例如, 单词依赖性)和语义特征(例如,命名实体标记),这可以帮助估计术语的重要性。上下文感知的Ad-Hoc搜索文档词权重WWW1899目标术语权重预测术语权重$2均方误差&W,bW,b W,b W,b语境化词嵌入、第二个...第三������&(a) HDCT架构(b)通道级项加权倒排索引文档词袋通道聚合通道词袋pw1...pwnP-BoWHDCT(pn){fire:14,forest:5,黄石公园经历了内容目标期限权重{“黄石”:1,相关性{“黄石公园”:0.89,PRF{“公园”:0.75,单个传代p1(“National”:“Park”:“Earthquake”:0.12,“服务”:0.75,“nps”:图1:HDCT架构。HDCT将这些上下文化的令牌嵌入馈送到线性层中。它将令牌y≠t,p=w·TBER T(t,p)+b.(一)TBERT(t,p)是标记t表1:HDCT加权通道的可视化颜色越深表示权重越高。巨魔通常是那些试图通过发布每个人都不同意的东西来吸引注意力的人并且b是weight和bias的线性组合;并且,y=t,p是通道p中的标记t的预测weight。然而, p大部分在0-1的范围这是因为我们的训练标签是0-1,所以Boyle粉丝页面和写作挂在墙上很难看模型也会学习生成该范围内的预测HDCT然后将实值预测缩放为可以与现有检索模型一起使用的类似tf的整数。我们称这个权重为tf BERT,以表示它是使用BERT表示段落p中项t的重要性的另一种方式:BER T(t,p)=round(Nt,p)。(二更)其中 , p是来自等式(1)的预测。N将预测缩放到整数范围内,例如,N=100保持两位数精度。平方根函数用于平滑-它带来低预测增加重量,例如100美元。01= 0。1、防止文件的再现-避免被少数几个高权重的术语所主导应用两个后处理步骤:1)为了处理BERT的子字,我们使用整个字的第一子字的权重,以及2)当一个术语在文章中出现多次时,我们取tf(例如,'troll');它们也会抑制文章中的非主题术语,即使它们具有高tf(例如,3.2文档级术语权重前一步骤生成一系列段落词袋表示。下一个问题是如何将这些段落组合起来进行文献检索。一种广泛使用的方法是独立索引和检索段落,并在查询时汇总段落分数[20,21,23,34,38]。然而,文档级检索经常面临缺乏文档级上下文的挑战[38]。HDCT使用不同的方法,聚合通道代表而不是通道分数。 术语在文档中的重要性是其在每个段落中的重要性的加权和:.n在多个事件中的最大权重在缩放和后处理之后,我们生成段落p的词袋向量表示:D-BoWHDCT(d)=i=1pwi× P-BoWHDCT(pi)。(五)P-BoW HDCT(p)=[tfBERT(t1,p),..,tfBERT(tm,p)]。(三)它的项来自段落的原始文本;项权重是基于BERT预测的类似tf的整数pwi模拟第i个段落pi对文档的重要性D. 这项工作探讨了两种选择,以确定pwi。第一个使用pwi=1(sum);它对所有通道进行相等的加权。第二一个使用pwi=1(衰变);它根据上述步骤应用于每个通道p1,...,pn在位置,因为先前的rieslaved发现,通道开始时,文件d.最后,HDCT生成一系列词袋通道向量。{P-BoW HDCT(p1),.,P-BoW HDCT(pn)}。(四)虽然被称为词袋,但术语权重基于段落的语言上下文,这与传统的基于tf的词袋非常不同。 如表1所示,HDCT强调了段落的主题术语,即使它们具有低一个文档往往会吸引读者更多的注意力,并且对于相关性估计更重要[5,38]。在[38]之后,我们使用位置的倒数作为通道的权重。除了段落的位置,根据段落的内容来衡量段落的重量也是很直观的这项工作没有明确地模拟这个因素。然而,正如下一节将要讨论的那样,我们可以训练HDCT来降低段落中所有术语的权重,从而隐式地基于内容对段落进行加权。HDCT指数博伊尔苏珊基于BERT的段落级术语加权P-BoWHDCT(p1)【黄:10,石:10,D-BoWHDCT{黄石公园:315,公园:204,国家:146,火灾:43,森WWW戴祝云和杰米·卡兰1900----、----|F|D||Dλd∈DR P(t |d)P(q|d),其中P(t |d)用HDCT项估计最后,HDCT将BoWHDCT(文档词袋表示)存储到倒排索引中,其中新的上下文感知MSE=. .(yt,p−yt,p)2.(七)pt∈p倒排列表[7]。我们称之为HDCT指数。3.3HDCT索引检索为了从HDCT索引中检索文档,我们使用标准的BM 25公式。BM 25中的tf字段被存储在HDCT索引中的上下文感知项权重替换HDCT有望通过识别文档中的关键词来提高检索效率本文还研究了HDCT索引是否与伪相关反馈检索算法兼容。设DR =d1,d2,.,dk是响应于使用标准BM 25的查询而从HDCT索引检索的前k个文档。扩大的Q。使用RM3[22]生成ery:|R)=(1−λ)P(t|q)+然而,手动标记以下内容的重要性是不切实际的:每一段经文中的每一项(yt,p)。 为了自动生成标签,关键问题是,我们有什么证据表明一个术语对文档检索的重要性?.本文提出了三种训练策略:一个基于内容的方法的情况下,只有文件是可用的,一个基于相关性的方法的情况下,丰富的查询文档相关性评估是攻击性的,和一个伪相关性的方法的情况下,可以收集搜索查询,但相关性标签或用户活动是不可访问的。4.1文件内容监督一个普遍适用的搜索系统应该能够建立一个良好的重量:D-BoWHDCT(d,t)搜索引擎只是从文档集合。为了实现这一目标,第一个训练策略从文档中挖掘标签P(t|d)=.不 D-BoWHDCT(d,ti)。(六)自己在许多领域中,文档是松散结构的,然后,我们通过对HDCT索引运行扩展查询来检索文档。在效率方面,HDCT不会在文档中引入新词,因此索引不会变大。通常,当在等式(2)中的缩放期间某些项的权重变为0时,索引可以更小。3.4 HDCT BoW与经典弓作为词袋(BoW)表示,HDCT具有经典词袋文档表示的优点:高效检索,支持细粒度术语信号[16],以及与潜在主题模型和嵌入相比更高的可解释性。 另一方面,与传统的tf词袋不同,HDCT在估计术语权重时不假设术语独立性。 基于BERT的Transformer架构[36],HDCT考虑了词序、依赖关系和复杂的交互。此外,HDCT还研究了使用段落级内容理解进行文档建模的潜力在大多数先前的工作中,段落仅为词袋检索提供有限的信号,例如段落术语频率或段落位置[5,20,文本信息(字段)的各种来源,如标题、关键字和内链接(锚文本)。各种研究表明,这些字段的行为就像真实的用户查询[15,19]。它们提供了一个简短的摘要,说明文档是关于什么的,以及它可能满足哪些搜索这些简短的、高度代表性的字段提供了哪些术语在文档中具有高度重要性的证据。设Fd是我们用来训练HDCT的参考字段,例如,inlink字段。我们记F = f1,.,fm,其中每个元素fi是引用字段的文本实例。 有些字段只有一个实例,例如,一个文件通常有一个标题。某些字段可能具有多个实例,例如,一个网页可以有数千个内链接。基于内容的策略通过检查是否以及多久一次术语出现在引用字段中。形式上,给定训练文档d,其段落p1,..., pn,其参考域Fd=f1,...,fn,基于内容的弱监督方法生成如下标签ytp=|Fd,t|,p∈{p1,. . ,pn},(8)其中t是来自通道p的标记,并且|Fd,t|是字段的百分比21、23、34、38]。HDCT使用深度神经网络从段落中提取更丰富包含t的实例F. 当存在单个实例时,例如,一来构建文档表示。4HDCT培训策略本节首先介绍HDCT的一般培训框架。然后,提出了三种策略来生成训练标签,使用文档,相关性反馈和伪相关性反馈。HDCT需要微调BERT参数并学习线性层参数w,b。这些参数是通过一个高级的每令牌回归任务来学习的。如图1(b)所示,假设我们有通道p中项t的地面真值项权重,表示为yt,p。我们将段落p馈送到HDCT,让HDCT预测项权重yt, p,并尝试最小化预测项yt,p和实际值yt,p之间的均方误差:文档标题,等式(8)生成二进制标签,指示项t是否出现在现场当存在多个实例时,例如,内链,等式8是0和1之间的实数在后一种情况下,如果一个令牌被大部分字段实例提及,则认为它更重要,反映了如等式(8)所示,标签yt、p实际上与段落无关,并且仅取决于文档这意味着,如果文档的标题是“YellowstoneNationalPark”,则“yellowstone”的目标项权重将始终为1,无论它出现在哪个段落中。第6.3节详细讨论了这种全球标签的影响。训练通道p及其从参考字段导出的目标项权重用于通过最小化等式(7)中的MSE损失来训练HDCT。 这些训练标签自动从术语权重将替换我1901----||D2020年4月20日至24日,中国台湾台北文件内容;不需要特定任务的数据收集或标签。这使得HDCT适用于冷启动场景。4.2从关联和伪关联反馈看当搜索查询及其相关文档可用时,它们可以提供关于人们的搜索意图和兴趣的丰富信息。我们希望文档术语权重与这些搜索数据中找到的模式保持一致。例如,“cast”在电影相关文档中应该具有高权重,因为许多搜索查询都在寻找电影的演员表。给定训练文档d,其段落Pd = p1,.,pn,及其相关查询Qd=q1,.,我们生成基于相关性的训练标签如下:ytp=|Qd,t|,p∈{p1,. . ,pn}。(九)教HDCT减轻整个段落的重量。例如,低质量的段落通常不包含任何inlink术语.HDCT并没有试图找出局部重要的单词,而是给这些段落中的所有单词赋予0权重因此,整个段落对文档词袋表示的贡献很小。我们将在第6.3节中说明权重效应。5实验思路本节介绍了我们的实验方法,包括数据集,基线和实验方法。5.1数据集HDCT的实验评估使用4个具有不同特征的文档检索数据集。CNOW Web 09-B是一个广泛使用的文本检索集合。原始集合包含5000万个网页;我们使用|Qd|t是来自d中的段落p的项。|Qd,t|是世纪之交3300万个文档的垃圾邮件过滤子集垃圾邮件是使用滑铁卢垃圾邮件分数过滤的[6],阈值为60。的在d的Q. 如果大部分d文件被分成总共1亿个段落,非重叠窗口约300字。文件包括如果提到t,那么t可能对本文档至关重要与基于内容的监督一样,标签是全局的-它们基于文档的查询,而不是特定于XML的查询。我们把讨论留到第6.3节。在某些情况下,搜索查询是可用的,但是诸如点击之类的相关性反馈是不可访问的(例如,在隐私敏感的场景中)。由Zamani et al.[42],我们提出了一种基于伪相关性反馈(基于PRF)的HDCT弱监督策略,该策略收集查询的伪相关文档,而不是使用真正的相关文档。它需要一个现有的检索系统,例如,BM25,检索查询文档。 对于每个查询,前K个检索到的文档被认为与查询伪相关。然后,它收集文档的伪相关查询PRF-Qd,并使用与等式(9)相同的方式生成基于PRF的训练标签:ytp=|PRF-Qd,t|,p∈{p1,. . ,pn}。(十)、4个字段:标题,URL,inlinks和body。C20 Web09-C。在CNOWWeb 09-B上运行HDCT非常耗时,因此使用不同的模型配置进行试验的速度很慢因此,我们创建了一个语料库Web 09-C,这是原始语料库的10%子集它由10%的随机抽样的Ctrude Web 09-B文档组成,加上原始TREC判断池(在qrels文件中)中的所有文档2。 总共有3个。400万份文件和1000万段文字。12-C号网站。CNOWWeb 12-B13是用于IR研究的另一个标准文本检索集合。我们使用与上述相同的方法创建了10%的子集,称为CNOWWeb 12-C。垃圾邮件过滤器没有按照[12]中的建议应用。总共有500万份文件和1300万段文字。 文档由四个字段组成(标题、URL、内链接和正文)。2009-2014年TREC 网络跟踪提供了200个查询,其中包括对CNOW Web 09的相关性评估,以及对CNOW Web 12的100个查询。用于评价HDCT。查询的两个版本是|PRF-Qd|基于相关性和基于PRF的标签依赖于一些现有的相关性评估或查询日志。 标签需要时间和精力来获得,但他们预计将提高HDCT的准确性,通过定制HDCT的检索任务。4.3本地术语加权在上述三种方法中,目标术语权重(标签)是从整个文档中全局导出的,而不是局部依赖于特定段落。人们会期望这些全局标签对于通道项加权不太有效。然而,在实践中,由于单词的上下文化单词表示总是随着段落而变化因此即使训练标签是全局的,HDCT仍然可以生成局部项权重评估:短关键字查询(标题查询)和较长的自然语言查询(描述查询)。 评估使用NDCG@20,这是TREC网络跟踪的主要指标; MAP@1000,以显示更深层次排名的有效性;MRR,与MS-MARCO-Doc保持一致。MS-MARCO文档排名数据集(MS-MARCO- Doc)3是最近在TREC 2019深度学习跟踪中发布的Web文档检索基准数据集该数据集有400万个文档,产生了1200万个段落。文档由3个字段(标题、URL和正文)组成 该数据集包含37万个查询和相应的相关文档的训练集。评估是在开发集上进行的,其中包含5193个查询4。评价使用了官方说明中建议的平均倒数秩(MRR)。此外,这些全局标签使HDCT能够捕获全局重要信息,通道的距离一些段落引入噪声,例如, 广告、导航条或大块的等式。 这些段落确实有自己的本地重要词,但它们在文档中的权重不应该很高。文档衍生标签2如果不包括在内,许多查询最终只有很少或没有相关文档,使评估结果不稳定。3 https://microsoft.github.io/TREC-2019-Deep-Learning/4在论文撰写时,官方测试集的相关性评估尚未公开、WWW戴祝云和杰米·卡兰1902−----×5.2 基线和实验方法我们的主要基线是tf,基于标准术语频率的文档索引,例如,如卢辛和大狐猴所用我们比较TF的几个实验HDCT方法。在CNOW Web数据集(CNOW Web 09-B/C和CNOW Web12-C)上,我们测试了三种实验性HDCT方法:HDCT-title采用基于内容的弱监督策略进行训练,以标题作为参考字段。 它为集合中的每个文档生成术语权重,并构建用于检索的倒排索引。HDCT-inlink采用基于内容的弱监督策略进行训练,以inlinks为参考字段。我们删除了URL内链,以及最常见的内链,如使用AOL查询日志[13,25]和伪相关性标签,使用基于PRF的弱监督策略训练HDCT-PRFaol。我们删除了URL和100个最常见的查询。我们随机抽取了50万个唯一查询,这与HDCT-PRFmarco中使用的MS-MARCO-Doc训练查询集的规模大致相同。它也与先前研究中使用的规模相同[24]。每个查询使用BM 25 FE检索10个文档[25,41],BM 25 FE是一个强大的基线,集成了每个字段的BM 25分数(更多详细信息请参见检索模型);我们从前10个文档中抽取1个以降低计算成本。在MS-MARCO-Doc上测试了四种HDCT方法HDCT-title使用文档标题进行训练。MS-MARCO- Doc没有inlink数据,因此HDCT-inlink不可用。使用AOL查询日志和伪相关性标签,使用基于PRF的策略训练HDCT-PRFaol。使用MS-MARCO-Doc训练查询和伪相关性标签,使用基于PRF的弱监督策略训练HDCT-PRFmarco。 与AOL查询日志相同,我们使用BM25FE和样本1检索每个查询的前10个文档以生成训练数据。HDCT-PRFaol和HDCT-PRFmarco允许我们比较域内和域外查询之间的HDCT-supervised是一种基于关联监督的全监督模型。它使用0。MS-MAROC-Doc训练集中的3700万个相关性评估。所有的模型都训练了10万步,批量大小为16,学习率为2 e5;训练超过10万步并没有带来显着的改善。BERT参数使用官方预训练的BERT(未分类,基础模型)初始化[36]。最大输入长度设置为512个令牌。基于数据集选择等式(2)中的比例系数N和等式(5)中的传代重量pw我们从10, 100中选择N,并从总和,衰变中选择传代重量。除非另有说明,否则本文的其余部分报告了每个数据集的最佳配置,即对于CNOWWeb数据集,N = 10,求和,对于MS-MARCO-Doc,N = 100,衰减。在4个TPU上训练HDCT大约需要一天索引需要在整个语料库上运行HDCT,因此成本取决于语料库100 万个段落),以及6 天4 个TPU 来索引CNOW Web 09-B(3300万个文档,1亿个段落)。检索模型。tf和HDCT指数与三个广泛使用的检索模型进行了测试BM 25。BM 25检索模型[32]是一种广泛使用的性能良好的词袋检索模型。BM25FE。 BM25FE是不同文档字段的BM25排名器的集合。字段分数在ensem- ble中线性组合,其中权重通过参数扫描进行搜索数据库Web 数据集使用标题、 URL 、inlink 和body 。MS-MARCO-Doc使用了标题、URL和正文; inlink在此数据集中不可用。HDCT仅对身体领域的术语进行加权BM25+RM3。相关性模型RM3 [22]是一种使用伪相关性反馈的流行查询扩展技术。BM 25 + RM 3已被证明可以改善原始BM 25,并被认为是一个强基线。 我们还测试了HDCT指数和BM 25 + RM 3之间的兼容性,如第3.3节所述。我们使用了上述检索模型的Anserini [40]实现。 我们调整这些检索模型的参数的评价查询集,通过2折交叉验证。 这些包括:BM 25中的k1和b参数,BM25FE中的字段权重,以及BM25+RM3中的反馈文档数、反馈项数和反馈系数。基于嵌入的检索基线。我们将使用离散词袋的HDCT与使用嵌入的两种检索模型进行了比较:RLM [41]和SNRM [42]。与HDCT一样,它们支持高效的全集合检索。RLM [41]利用词嵌入相似性进行伪相关反馈。SNRM[42]是当前最先进的基于嵌入的索引。它将文档转换为稀疏的20000维嵌入,并将它们存储在倒排索引中。RLM和SNRM都使用基于PRF的弱监督方法进行训练[41,42]。作者没有发布经过训练的模型或索引,由于需要大量的训练数据,我们无法完全优化自己的实现。因此,我们报告了作者在CNOWWeb 09-B数据集上报告的结果[41,42]。监督重新排名基线。 HDCT是为全集合检索而设计的. 我们还将其与两个强大的重新排序系统进行了比较,这两个系统的计算更加复杂,需要训练数据。第一种,LeToR,是一种流行的基于特征的学习排名方法,使用坐标上升[9,11,31]。第二个是BERT-FirstP,是一个基于神经 BERT 的重排序器[9] 。BERT-FirstP已经显示出比以前最先进的神经排名模型更好的性能[9]。这两种方法都采用Dai等人使用的设置[11]并对GalagoSDM检索到的前100个文档进行了重新排名。6实验结果四个实验进行了研究:内容训练的HDCT的检索效率;使用基于关联和基于PRF的标签的更强的监督的效果;不同类型的分层文档建模的效果;以及HDCT是否改善伪相关反馈。尺寸HDCT用了不到1天× 4个TPU来索引CNOW Web 09-C,5RLM和SNRM使用了600万个查询和6 × 107到6 × 1013个训练示例[41,42]。·······上下文感知的Ad-Hoc搜索文档词权重WWW1903∗∗表2:内容训练的HDCT索引在CNOW Web 09-C数据集上的有效性表示相对于TF(使用词频的标准倒排索引)的统计学上的显著网站地图标题查询描述查询检索模型索引Term重量MRRNDCG@20MAP@1000MRRNDCG@20MAP@1000TF0.4930.592磅0.586磅–百分之二十百分之十九0.3070.342磅0.356磅–百分之十一百分之十六0.2480.2540.265磅–百分之三占7%0.5700.6080.625–占7%百分之九0.3210.362磅0.377磅–百分之十三百分之十七0.2380.257磅0.264磅–百分之八百分之十一BM25HDCT-标题HDCT-inlinkTF0.5910.6040.615–百分之二百分之四0.3220.358磅0.361磅–百分之十一百分之十二0.2500.263米0.270磅–百分之五百分之八0.6510.6630.643–百分之二-1%0.3570.376磅0.385磅–百分之五百分之八0.2690.2740.280公斤–百分之二百分之四BM25FEHDCT-标题HDCT-inlinkTF0.5630.610公斤0.630磅–百分之八百分之十二0.3500.369米0.397磅–占6%百分之十四0.2780.2800.298磅–百分之一占7%0.5810.634磅0.663米–百分之九百分之十四0.3510.386磅0.399米–百分之十百分之十四0.2570.276磅0.285公斤–占7%百分之十一BM25+RM3 HDCT-标题HDCT-inlink表3:内容训练的HDCT索引在CNOW Web 12-C数据集上的有效性表示相对于TF(使用词频的标准倒排索引)的统计学上的显著网站地图标题查询描述查询检索模型索引Term重量MRRNDCG@20MAP@1000MRRNDCG@20MAP@1000TF0.5450.607米0.603–百分之十一百分之十0.2110.230磅0.232磅–百分之九百分之十0.0500.054磅0.055千克–百分之八百分之十一0.5350.621磅0.602米–百分之十八百分之十三0.1830.218磅0.215磅–百分之十九百分之十七0.0430.053磅0.052磅–百分之二十二百分之十九BM25HDCT-标题HDCT-inlinkTF0.5840.6110.613米–百分之五百分之五0.2290.2360.241磅–百分之三百分之五0.0540.058磅0.060磅–占6%百分之十一0.5540.631磅0.619米–百分之十二百分之十二0.1970.218磅0.217磅–百分之十一百分之十0.0480.053磅0.053磅–百分之九百分之十BM25FEHDCT-标题HDCT-inlinkTF0.5670.642磅0.622磅–百分之十三百分之十0.2160.235磅0.241磅–百分之九百分之十二0.0510.056磅0.058磅–百分之十百分0.5030.635磅0.61公斤–百分之二十六百分之二十一0.1860.221磅0.220磅–百分之十九百分之十九0.0430.054磅0.053磅–百分之二十五BM25+RM3 HDCT-标题HDCT-inlink上下文感知的Ad-Hoc搜索文档词权重WWW1904∗之十一百分之二十一表4:MS-MARCO-Doc上内容训练的HDCT索引的有效性。:在统计学上显著优于TF,TF是使用词频的标准倒排索引。MS-MARCO-Doc开发人员查询检索模型索引Term重量MRRBM25TFHDCT-标题0.2540.287 13%BM25FETFHDCT-标题0.2830.300±6%BM25+RM3TFHDCT-标题0.2500.288升15%6.1内容训练的HDCT的性能当为新的文档集合构建搜索系统时通常的情况是没有相关标签来训练机器学习模式通常,人们会构建一个基于tf的倒排索引,并使用像BM25这样的开箱即用的检索模型。我们的目标是使用内容训练的HDCT构建一个更好的索引,而不需要依赖任何额外的标签。第一个实验测试内容训练的HDCT是否可以优于标准的基于tf的检索模型、强监督的重新排序模型和竞争性的基于嵌入的检索模型。与标准TF指数比较。表2-4显示了几个内容训练的HDCT索引在CNOW Web 09-C、CNOW Web 12-C和MS-MARCO-Doc数据集上的检索有效性。HDCT-title和HDCT-inlink使用文档标题/inlinks作为参考字段来生成训练标签。 基线是典型的基于词频(tf)的倒排索引。在各种检索模型下,在所有数据集和查询集上观察到HDCT对TF的显著和稳健的增益当使用BM 25时,HDCT指标比tf指标准确10%-20%,这表明HDCT权重比简单地计算文档中的词频更当使用BM 25 FE时,HDCT与tf之间的差距较小,但HDCT在大多数情况下仍优于tf 结果表明,经过内容训练的HDCT能够提供标题和链接所没有的新信息。 标题和内链往往很短,不完整。有时,它的文本质量很低。从大量不同风格和质量的标题/链接中学习,有助于HDCT捕捉术语重要性的一般模式,生成比原始文本字段更平滑和更清晰的术语权重。RM3是一个伪相关反馈检索模型,最初是为tf权重设计的。我们的研究结果表明,HDCT权重也适合RM3。 HDCT为最初基于tf的BM 25 + RM 3带来了显著的改进。 HDCT-inlink索引和BM 25+ RM 3检索的组合在CNETWeb09-C上取得了最佳的准确性。其WWW戴祝云和杰米·卡兰1905×表5:HDCT-inlink在CECHANiWeb 09-B数据集上的有效性我们报告MAP@100,因为LeToR和BERT-FirstP重新排名了前100个文档。上标1-8表示相对于第一列中标记的相应方法的统计学显著改进,例如,14意味着该结果在统计学上显著优于方法1和4。网站地图标题查询描述查询方法MRRNDCG@20MAP@100MRRNDCG@20MAP@1001辆BM25,tf0.477-12% 0.272-8%0.154-4%0.471-6% 0.234-7% 0.134-7%2 BM25FE,TF0.5301-2%0.268-9%0.157-3%0.51113百分之三0.2501-0% 0.1391-4%3辆BM25+RM3,tf 0.5201-4%0.29412-0%0.1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功