没有合适的资源?快使用搜索试试~ 我知道了~
信息检索相关性建模的研究实证
1053信息检索中关联建模的语言学研究Yixing Fan,Jiafeng Guo,Xinyu Ma,Ruqing Zhang,Yanyan Lan,and XuechiCheng范义兴,郭佳峰,马新玉18s,张汝清,兰艳艳,中国科学cxq@ict.ac.cn中国北京中国科学院网络数据科学与技术重点实验室,中国科学院计算技术研究所,北京,中国摘要关联性在信息检索中起着核心作用,自20世纪以来,相关性研究得到了广泛的关注相关性的定义和建模一直是信息科学和计算机科学研究领域的关键挑战。 随着对相关性的讨论和探索,信息检索已经成为许多现实应用的核心任务,如Web搜索引擎、问答系统、会话机器人等。虽然相关性在所有这些检索任务中作为一个统一的概念,但由于这些任务的异质性,其固有的定义是相当不同的这向我们提出了一个问题:这些不同形式的相关性真的会导致不同的建模重点吗? 为了回答这个问题,本文对三个典型的信息检索任务中的关联建模进行了实证研究,文档检索、答案检索和响应检索。具体来说,我们试图研究以下两个问题:1)这些任务中的相关性建模是否真的显示出自然语言理解(NLU)方面的差异 我们使用16个语言任务来探讨这三个检索任务的统一检索模型来回答这个问题。2)如果确实存在差异,我们如何利用这些发现来增强相关性建模?我们提出了三种干预方法来研究如何利用不同的建模重点的相关性,以改善这些IR任务。我们相信,我们研究这个问题的方式以及我们的发现将有利于IR社区。CCS概念• 计算机系统组织→嵌入式系统;Redundancy;机器人;·网络→网络可靠性。关键词相关性建模,信息检索ACM参考格式:Yixing Fan,Jiafeng Guo,Xinyu Ma,Ruqing Zhang,Yanyan Lan,and Xuechi Cheng.2021.信息检索中关联建模的语言学研究。 在网络会议2021(WWW '21)的会议记录,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,纽约州纽约市,美国,12页。http://doi.org/10.1145/3442381.3450009本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.34500091介绍信息检索已经成为人们日常生活中人们依靠IR系统来获取与他们需求相关的信息。相关性是信息检索中的核心问题,它反映了检索到的文档满足用户信息需求的程度。事实上,所有的信息检索系统中的检索模型都是从用户的角度来近似相关性的。然而,相关性的概念,像所有其他人类的概念,是一个开放和模糊的主题[46]。在两个主要的研究群体中,理解和建模相关性一直是一个长期的挑战,即,信息科学界和计算机科学界。一方面,自20世纪50年代以来,信息科学界的研究人员对相关性概念的定义进行了研究[18,29,45]。 他们试图根据从测试或问卷中收集的数据来揭示相关性的各个方面。另一方面,自20世纪60年代中期以来,计算机科学界的研究人员主要关注相关性的建模/计算[27]。已经提出了大量的模型来评估文档与用户信息需求的相关程度[14,24]。这些模型对文档和信息需求的理解从浅层次发展到深层次,它们通常基于详细设计的特征或功能。然而,很少有研究考虑到相关性的定义,在设计相关性模型。随着对关联性的讨论和探索,信息检索得到了广泛的应用,并成为许多现实应用的核心任务,如Web搜索引擎、问答系统、会话机器人等。在Web搜索引擎中,IR任务是根据文档与给定用户查询的相关性对文档列表进行在问答系统中,IR任务是从存档的答案池中检索与用户问题相关的一些答案。在会话机器人中,IR任务是从现有的人类生成的会话库中找到相关的响应作为对输入话语的回复 不失一般性,相关性作为一个统一的概念,在所有这些IR任务。然而,我们可能会发现这些任务之间的相关性概念的定义微妙的差异例如,Web搜索中的相关文档通常意味着与搜索查询的主题相关性[24]。问题回答中的相关答案需要正确地解决问题[31]。最后,会话中的相关响应实际上是指与输入话语有关的某种对应[26]。总之,由于不同IR任务的异质性,相关性的固有定义实际上是相当不同的[13]。1054不不--WWW上述观察自然向我们提出了一个问题:在这些IR任务中,不同形式的相关性真的会导致不同的建模重点吗?为了回答这个问题,本文对三种典型的信息检索任务,即文档检索、答案检索和响应检索中的关联建模进行了实证研究更具体地说,我们将研究分解为以下两个具体的研究问题:RQ1:由于这些任务都是基于文本的,不同IR任务中的相关性建模在自然语言理解方面真的存在差异如果确实存在差异,我们如何利用这些发现来增强每个IR任务的相关性建模?对于第一个问题,我们建议利用在理解语言建模[7,25]中被广泛采用的基于探测的方法来分析三个IR任务中相关建模的潜在差异为了实现这一目标,我们的经验实验设计有1) 最好有一个统一的信息检索模型,它能很好地完成所有这些信息检索任务,这样我们就可以形成一个公平的比较基础。2)模型应该能够集成各种探测任务,以便我们可以轻松比较建模重点。为了满足这些要求,我们将最近提出的Bert模型[10]作为研究的统一IR模型,该模型在这三个检索任务[6,8,32]上获得了相当好的性能。然后,我们利用16个相关的语言建模的探测任务,从语言理解的角度比较三个IR任务中的相关性建模的差异对于第二个问题,我们在前人研究的基础上,利用干预方法研究了如何在不同的IR任务中增强相关性建模。其基本思想是干扰现有的相关性模型与每个探测任务作为一个干预因素,看看如何在每个检索任务的性能变化。通过上述实验,我们的分析揭示了以下有趣的结果:对于RQ1:答案是肯定的。 这三个IR任务表明,不同的建模侧重于从自然语言理解的角度相关性。具体来说,文档检索侧重于语义任务,答案检索兼顾句法和语义任务,而反应检索对大多数语言任务的偏好较小。除了这些差异,同义词的理解似乎普遍适用于所有三个检索任务。此外,我们还发现,在关联模型中,对这两种输入的语言理解要求是不同的一个副产品是,我们因此可以通过比较其建模集中在两个输入上来分析IR任务的内在异质性。 通过我们的分析,有趣的是发现答案检索是最异构的检索,而不是通常基于其表面形式被认为是异构的文档检索[13]。对于RQ2:我们证明了我们能够通过参数干预方法改进基于上述发现的相关性建模。本文的其余部分组织如下:在第2节中,我们描述了IR中的代表性检索任务。然后,我们在第3节中介绍了探索分析和干预分析,第四节分别 第五节讨论了相关的工作,第六节给出了结论。2信息检索中的检索任务在本节中,我们将介绍本工作中用于相关性建模分析的IR任务。给定用户的信息需求S(例如,查询、话语或问题),检索任务旨在找到相关信息T = t1,t2,.,tk(例如,网页、响应和答案)。许多应用程序可以被公式化为IR任务,例如文档检索、图像检索等。 在这项工作中,我们专注于基于文本的检索任务,并采取了三个具有代表性的检索任务的相关性建模分析,即文档检索,答案检索,和响应检索。2.1文献检索文档检索是IR中的经典任务[51],已广泛应用于现代Web搜索引擎,如Google,Bing,Yandex等。在该任务中,用户通常通过查询Q向信息系统指定他们的信息需求以获得相关文档D。检索到的文档根据其与输入查询的相关程度通过排名模型返回为排名列表 文档检索的一个主要特点是查询和文档之间的长度异质性。用户查询通常很短,意图不明确在大多数情况下仅由几个关键词组成现有的工作表明,查询的平均长度约为2。35个术语[49]。然而,这些文档通常是从万维网上收集的,文本长度较长,从多个句子到几个段落不等。这种异质性导致了典型的词汇不匹配问题,这一直是文档检索的相关性建模中的一个挑战[24]。为了解决这个问题,大量的努力已经致力于设计有效的检索模型,以捕获查询和文档之间的语义匹配信号,用于文档检索[13,24]。2.2答案检索答案检索广泛应用于问答系统中,如StackOverflow1、Quora2和百度知道3.QA系统直接从现有的答案储存库中检索问题Q的答案A。问答系统的核心是计算问题和候选答案之间的相关性分数,并随后根据分数对它们进行与文献检索相比,答案检索更加同质化,面临着不同的挑战。具体地,问题通常是自然语言,其是格式良好的句子并且具有更清楚的意图描述。虽然答案通常是较短的文本跨度,例如,句子或段落,其中有更多的集中的主题。然而,答案检索仍然是一个具有挑战性的问题,因为答案不仅要与问题主题相关,而且要正确地解决问题。不同的检索模型1https://stackoverflow.com/2https://quora.com/3https://zhidao.baidu.com/·····1055不A Linguistic Study on Relevance Modeling in Information RetrievalWWW建议进行答案检索。早期的统计方法集中在复杂的特征工程上,例如,词汇和句法特征[61]。 近年来,端到端神经模型已被应用于答案检索中的相关性建模,并取得了最先进的性能[13]。2.3响应检索响应检索是自动会话系统中的核心任务,例如Apple Siri、Google Now和Microsoft XiaoIce。 会话系统依赖于响应检索来从对话库中选择关于输入话语U的适当响应R。 在多轮响应检索中,存在与每个话语U一起完成的上下文C,其中上下文包含话语之前的会话历史。与文献检索和答案检索不同,输入话语和候选回答往往是短句,它们在形式上是同源的反应检索中的相关性通常指定义广泛的某种语义对应(或连贯结构),例如,给定输入话语“OMG我在这么'老'的时候得了“真的吗?“)到具体的(例如,“是啊。希望有一副眼镜作为礼物”)[56]。因此,它往往是至关重要的模型的一致性,并避免一般琐碎的反应在响应检索。近年来,研究人员提出了多种用于响应检索任务的方法[5],其中基于神经网络的方法已经实现了最先进的性能[6]。3探测分析在本节中,我们的目标是解决第一个研究问题,即,在不同的IR任务的相关性建模是否真的表现出自然语言理解方面的。 为此,我们建议利用基于探测的方法来分析上述三个IR任务的相关性建模中的潜在差异。在下文中,我们将给出分析过程的详细描述,包括探测方法、探测任务和实验结果。3.1第一千四百零六章试探法探测分析的核心思想是在三个检索任务上学习一个统一的表征检索模型,并探测学习到的模型来比较不同的相关性建模任务之间的焦点具体来说,我们将最近提出的Bert模型作为统一的检索模型,因为它在所有检索任务上都获得了相当好的性能[8,32,54]。此外,Bert模型是多个Transformer层的堆栈[10],可以轻松地在每个Transformer层上集成不同的探测任务。 通过这种方式,我们可以研究相关性建模的细微差别,并在不同的IR任务之间形成公平的比较。为了学习每个IR任务的检索模型,我们对原始Bert模型进行微调,以分别在每个检索数据集上实现良好的性能。然后,我们用一组自然语言理解任务来探测原始的Bert和微调的Bert [3,25]。具体来说,对于要探测的模型,无论是原始的还是微调的Bert,我们都需要一个额外的多层感知器(MLP)作为要探测的目标层上的预测层。然后我们在模型上训练和评估探测任务,以评估其捕获相应语言特性的能力。值得注意的是,Bert层在探测过程中是固定的,因为我们的目标是调查这些层中编码的内容。最后,我们分析了每个探测任务的性能差距之间的原始和微调伯特在每个IR任务。请注意,由于训练语料库变化很大,因此直接比较微调Bert模型在不同IR任务上的绝对性能是不合适的。相反,通过将原始Bert作为基线,微调后的Bert在探测任务上相对于基线的相对性能差距可以反映出特定的语言属性为相应的检索任务。3.2探测任务我们利用一套16个不同的探测任务相关的自然语言理解的检索模型,包括词汇任务,句法任务和语义任务的重点进行调查。在这里,大多数探测任务已被用于研究不同NLP任务中神经语言模型的语言特性[3,25],例如, 语言模型[7]、句子嵌入[35]、自然语言推理[40]。在这项工作中,我们采取他们的研究偏好的相关性建模在每个检索任务。此外,我们还介绍了四个探测任务,它们与自然句子之间的语义匹配密切相关,即,同义词识别、多义词识别、关键词提取和主题分类。在下文中,我们将详细描述每个探测任务,数据集和设置的统计数据在附录C中列出。3.2.1词汇任务 词汇任务侧重于词汇意义和句子,段落或文档中的术语位置。它处于自然语言理解的低水平[38]。在这里,我们选取了三个典型的词汇任务进行研究。文本分块(Chunk)任务,也称为浅层解析,旨在将复杂的文本划分为更小的部分。该任务评估相关性建模是否捕获跨度和边界的概念我们使用CoNLL 2000数据集[43]进行实验。词性标注(Part-of-Speech Tagging,POS)任务是将句子中的词标注为名词、动词、形容词、副词等的过程。在这里,我们采用UD-EWT数据集[48]进行实验。命名实体识别(NER)是从给定文本中识别实体及其类别的任务。 该任务评估关联建模是否关注实体信息。我们使用CoNLL 2003数据集[44]进行实验。3.2.2语法任务。 句法任务是在语言学科上处理句子中单词之间的关系(即, 句子结构和语序的正确创造。语法错误检测(Grammatic Error Detection,GED)是检测句子中的语法错误它是为了评估语法信息是否需要相关性建模。我们使用英语数据集的第一证书[47]进行实验。句法依赖性任务是检验词与词之间的句法关系是否对建模至关重要。1056WWW本案无关我们遵循工作[25],采取电弧预测和电弧分类进行实验。具体地说,句法弧依赖预测(SynArcPred)是一个二元分类任务,其目的是确定两个标记之间是否存在关系。句法弧依赖分类(SynArcCls)是一个多类分类任务,它假设输入的标记是相互链接的,并识别它是哪种关系。 我们使用UD-EWT数据集[48]进行实验。单词打乱是一个二元分类任务,用来判断单词的顺序和结构是否影响句子的意义。 我们使用它来测试相关性建模是否关心句子/文档的工作顺序。 我们使用PAWS-wiki数据集[66]进行实验。3.2.3语义任务。语义任务处理单词和句子的语义,单词和句子相互指代的方式它存在于文本理解的高层次介词叠加消歧是考察介词的语义贡献是否是建立关联模型的重要因素。我们遵循以前的工作[25],采取两个子任务进行实验,即PS-fxn和PS-role。具体而言,PS-fxn关注介词的功能,而PS-role决定介词的角色 我们使用STREUSLE 4.0语料库[47]进行实验。共指弧预测(CorefArcPred)是评估两个提及是否共享相同的共指聚类。我们使用它来测试是否相关建模捕捉代词和实体之间的我们使用CoNLL数据集[37]进行实验。语义依赖任务是评估词与词之间的语义关系对于相关性建模是否重要 我们遵循工作[25],采取电弧预测和电弧分类进行实验。具体而言,语义弧依赖预测(SemArcPred)旨在识别两个标记之间是 否 存 在 语 义 关 系 。 语 义 弧 依 赖 性 分 类(SemArcCls)假设输入标记彼此链接并且标识其是哪种语义关系。我们使用SemEval 2015数据集[33]进行实验。同义词和一词多义任务处理的是两个句子中一个词对的语义。同义词是用来区分两个不同的词是否具有相同的意义,而一词多义是用来区分两个句子中同一个词的意义。我们使用它们来测试相关性建模是否捕捉到词对之间的语义对于这两个任务,我们从一个在线网站上抓取了10k个句子进行实验。我们将在论文被接受后发布这些数据集。关键词提取任务是识别最能描述文档主题该任务是测试相关性建模是否关注关键字来交互输入对。在这里,我们使用Inspec [21]数据集进行实验。主题分类是将一个文档分类到一个预任务#S#T平均长度(S)平均长度(T)#词汇Robust042500.5M2.646527194MsMarco100K1M6.456.327636Ubuntu0.59M0.66M10.322.224026表1:每个检索任务的数据集统计,S表示每个检索任务的左输入。T代表每个检索任务的正确输入。答案数据集[65]用于实验,因为主题类别更适合信息检索应用。3.3实验环境对于实验,我们首先介绍了检索任务的设置,包括模型,数据集和配置。然后,我们描述了探测任务的设置。3.3.1检索模型在这里,我们采取了现成的BERT基地(Devlinet al. ,2018)模型,该模型已被证明在许多检索任务中是有效的[8,32,54],作为所有三个检索任务中的检索模型。具体来说,该模型将文本对的连接作为输入,并使用特殊标记“[SEP]”分隔两个片段。为了进一步将左输入与右输入分开,我们遵循工作[10]将两个额外的标记“[S]”和“[T]”添加到两个片段中。 所有标记都映射到一个嵌入中,并在其中连接一个额外的位置嵌入。然后,令牌经过几个Transformer层,以彼此完全交互。最后,第一个标记的输出 嵌 入 被 用 作 输 入 文 本 对 的 交 互 , 并 馈 送 到 多 层 感 知 器(MLP),以获得最终的相关性得分。为了实现公平的检索,我们直接采用Bert基模型4(无cased、12层、768隐层、12头、110M参数)作为检索模型的实现。 对于模型学习,我们利用原始Bert中发布的预训练语言模型作为初始化,并在相应的数据集上对其进行微调。MLP层是像以前的工作一样从头开始学习的[10]。所有检索模型的详细设置请参见附录A。3.3.2检索数据集。 为了学习检索模型,我们采取了三个代表性的基准数据集,即, Robust04 [51],MsMarco [31]和Ubuntu [26],分别用于文档检索,答案检索和响应检索的相关性建模。这些数据集的统计数据如表1所示。 正如我们所看到的,这些数据集在不同任务中的文本对的平均长度方面显示出非常不同的模式。 文档检索是最异构的查询和文档的平均长度为2。分别为6和465而答案检索与文献检索相比,减少了异质性反应提取是相对均匀的,因为话语和反应的平均长度彼此非常接近对于所有这些数据集,我们简单地用[PAD]填充每个短文本对,并将长文本对截断为512个标记。对 于 任 务 评 估 , 我 们 采 用 NDCG@20 进 行 文 档 检 索 ,MRR@10进行答案检索,recall@1进行响应检索,与以前的工作一样[8,32,54]。定义的主题。我们用它来测试相关性建模是否值得注意文本输入的主题在这里,我们使用Yahoo!4https://github.com/google-research/bert1057A Linguistic Study on Relevance Modeling in Information RetrievalWWW图1:原始Bert和微调Bert在不同检索任务中的逐层性能3.4结果在本节中,我们通过回答以下研究问题来展示探测实验以及结果。3.4.1统一检索模型在每个检索任务上是如何执行的 我们以相同的原始Bert模型为出发点,并在每个IR任务上对其进行微调,以了解任务特定的相关性建模要求。在下面的部分中,我们将使用BERTbase来表示原始的Bert模型,并使用BERTdoc、BERTans和BERTrsp来分别表示文档检索、答案检索和响应检索上的微调Bert。在这里,我们展示了BERT基础的性能以及IR数据集上的微调模型,如图1所示。基于探测任务的绩效差距,通过定量分析研究了不同探测任务之间的差异。如前所述,探测任务的最佳性能可以通过Bert模型的任何层实现。 为了公平比较,我们从BERT基础模型和微调的Bert模型中选取最佳层(即,BERTdoc、BERTans和BERTrsp)用于以下研究。 结果总结见表2。我们首先查看每个IR任务,并发现以下性能模式。1) 在文档检索中,存在一个明显的模式,即关联建模更多地关注语义任务,而不是词汇和句法任务。大多数国家的性能差距结果总结如下。首先,我们可以看到,BERT基础,它在一个大的学习,BERT之间的语义任务doc BERT基础为正大量的非结构化文本,在所有三个检索任务上都取得了良好的性能(每个数据集上现有的最先进的性能列于附录B)。这表明Bert[25]中编码的语言信息对于相关性建模是有用的。此外,值得注意的是,BERT基础的最佳性能并不总是在最后一层实现,例如,MsMarco上的答案检索在第六层得到最好的结果结果表明,探测应该更好地在所有层上进行,而不仅仅是最后一层,以选择性能最好的层进行研究。其次,我们可以看到,微调Bert可以显着提高性能的所有检索任务。具体地说,微调伯特的相对改善(即, BERT doc、BERTans和BERT rsp)在最佳层上相对于BERT基础的平均值约为23。3%,45。3%,51。6%,分别。这些改进表明,微调的伯特模型能够学习任务特定的属性,对每个IR任务的相关性建模。最后,我们可以观察到,微调后的Bert在所有三个任务中,在高层上比在低层上取得了更大的改进,最后一层总是表现最好。这与现有工作的发现一致[25],即微调Bert的高层倾向于学习任务特定的特征,而较低层学习基本的语言特征。3.4.2不同的IR任务在自然语言理解方面是否表现出不同的建模重点?在这里,我们学习而且意义重大其中,排名前2位的改进任务是同义词和多义词,这表明文档检索中的相关性建模需要更好地理解词对的语义 这在某种程度上与之前的发现[60]一致,即主题模型(例如PLSI [20]和LDA [53])可以很好地捕获同义词和多义词,可以应用于改进文档检索模型。1) 对于答案检索,大多数探测任务(即,16个中有11个得到了BERT算法的改进,其中有8个改进是显著的。结果表明,答案检索中的相关性建模比其他两种方法更困难,需要更全面的语言理解。具体来说,BERTans改进了所有句法级别的任务,表明句法特征,如句子中的词序和结构,对于答案检索中的相关性建模非常2) 对于响应检索,令人惊讶的是,大多数探测任务的性能(即,16个中有12个被Bertrsp降低,其中10个下降是显著的。这表明,大多数语言属性编码的原始Bert已经足够的响应检索的相关性建模。同时,我们发现,伯特·里普在提高同义词的同时,也显著地降低了一词多义,这是两个极端。实验结果表明,反应检索需要更好地理解相似词1058WWW表2:每个探测任务在不同检索任务上的总体表现表明Bert碱显著改善或降解(+/-)(p值≤0)。05,Bonferroni校正))。探测任务文献检索答案检索响应检索基地伯特·多克∆基地伯特安∆基地Bertrsp∆块92.692.47-0.14%92.992.53-0.40%92.4792.49+0.02%词汇任务POS95.8995.72-0.18%95.4595.48+0.03%95.795.55-0.16%NER83.5183.16-0.42%−80.180.95+1.06%+82.1680.72-1.52%−句法任务GEDSynArcPredSynArcCls字加扰41.8387.2993.6662.0440.5687.2193.5961.87-3.04%--0.09%-0.07%-0.27%−41.4486.4493.3762.1741.886.7593.4362.87+0.87%+0.36%+0.06%+1.13%+41.2386.4493.3259.9139.7285.9592.8760.19-3.66%--0.57%−-0.25%+0.47%+语义任务PS-fxnPS角色CorefArcPredSemArcPredSemArcCls多义性同义词关键词主题89.2178.278.2287.3492.4764.166.3248.6666.9389.8979.5578.4686.9692.4567.178.4948.9867.82+0.76%++1.73%++0.31%+-0.44%−-0.02%+4.68%++18.35%++0.66%++1.33%+87.9277.6377.587.6992.6764.166.3348.8467.788.9579.1876.9388.0192.4369.175.8648.7269.16+1.17%++2.00%+-0.74%−+0.06%-0.43%−+7.8%++14.37%+-0.25%+2.16%+89.9579.2279.5387.2392.9864.166.3146.6667.3486.8980.1478.387.0992.3358.980.6845.9566.11-3.4%−+1.16%+-1.6%−-0.16%-0.7%−-11.17%−+21.67%+-1.52%−-1.83%−而不是区分不同语境中的相同单词。然后,我们查看每个探测任务,并在不同的IR任务中获得1) CorefArcPred和关键字任务仅被签名-在所有的相关性建模任务中,同义词的捕获是非常重要的基于上述观察,我们可以得出结论,在三个代表性的检索任务中,相关性建模在自然语言非语义方面表现出不同的建模侧重点由BERTdoc 在三个微调理解。模型,但其余的减少与此同时,净入学率和普通教育发展水平的任务只有显着提高BERT ans,但对其他两个下降。结果表明,文档检索中的相关性建模更关注相似关键词,而答案检索中的相关性建模更关注问题和答案中目标实体的识别。2) 单词加扰任务通过BERTans和BERTrsp获得了显着的改善,但通过BERTdoc下降。结果表明,无论是答案检索还是响应检索中的关联度建模,都比文档检索中的关联度建模更关注词序和句子结构这也解释了为什么基于关键字的方法可以很好地用于ad-hoc检索(即,文档检索)。此外,BERTdoc和BERTans对多义词和主题任务的成绩有显著的提高,但对BERT rsp的成绩有显著的下降。事实上,一词多义也与话题识别有关,因为它旨在识别不同话题下的多义词。这表明文档检索和答案检索中的相关性建模比响应检索更关注主题理解3) 尽管存在上述差异,但在这三项任务中仍有一些共同的模式我们可以看到,所有三个微调的Bert模型都显着改善了同义词和PS角色任务在三种任务中,同义词任务的提高幅度最大这些结果表明,3.4.3相关性建模是否在自然语言理解方面对他们的输入进行了不同的处理? 由于相关性模型通常采用一对文本作为输入,我们进一步研究了每个探测任务的性能差距,分别在左,右输入。这里我们在测试左输入时直接屏蔽右输入中的标记,反之亦然。在本研究中,我们只保留了输入为单句的探测任务,而忽略了需要一对输入的任务(即,单词Scramble、Core- fArcPred、polysemy和Synonym)。与上一节类似,我们将BERT中的最佳层作为每次比较的代表性能 结果如图2所示,蓝色和橙色的条分别表示BERT基本模型与左右输入上的微调Bert模型之间的性能差距。在下文中,我们使用术语“相似趋势”来表示其中性能差距在左输入和右输入上均为正或均为负的情况,并且如果差距方向在两个输入上彼此相反,则使用术语“反向趋势”。具体而言,我们有以下意见:1) 在文档检索中,左侧(查询)和右侧(文档)在词汇和句法探测任务上显示出相似的趋势,尽管在大多数情况下间隙大小不同。同时,他们也表现出不同的建模重点大多数语义任务。具体地,查询侧关心介词的粗略级别功能(即,PS-fxn ),而文档侧关注粗级 别功能 和细粒 度角色(即,PS-fxn和PS-role)的介词。查询1059A Linguistic Study on Relevance Modeling in Information RetrievalWWW图2:在三个检索任务中,左右输入之间的探测任务性能比较。每个条形表示相对于相应基线的性能的改善/降低。查询/问题/话语和文档/答案/响应分别是文档检索、答案检索和响应检索的左输入和右输入侧提高了关键字的性能,但降低了主题的性能,而文档侧则相反。这是合理的,因为查询通常是短关键字,而文档通常是长文章。2) 在答案提取中,我们可以看到左侧(问题)和右侧(答案)在大多数探测任务中表现出非常不同的偏好。 提问方提高了12个探测任务中的5个,而回答方提高了12个探测任务中的7个。 更重要的是,它们在一半的探测任务上显示出相反的趋势( 即 , POS 、 SynArcPred 、 SynArc-Cls 、 PS-role、PS-fxn和SemArcPred)。此外,我们还发现提问方更注重语义任务,而回答方更注重词汇和句法任务。 结果还表明,正确理解介词(即, PS-role和PS-fxn)在理解这个问题上可能非常重要。3) 在反应提取中,左(话语)侧和右(反应)侧在大多数探测任务上表现出相似的趋势(即,12分中的10分),例外是Chunk和PS角色。在这些相似的趋势中,差距的大小在 两 边 有 很 大 的 不 同 例 如 , 话 语 侧 在 POS 、SynArcPred、Keyword和SemArcPred上下降更多,而响应侧下降更多的大块,GED,SynArcCls。基于以上结果,我们可以通过比较三种提取任务的左右输入语言焦点来进一步分析其内在的异质性在这里,我们将两个输入的反向趋势作为固有异质性的关键信号,这表明在探测任务上有显著不同的建模重点结果,我们可以发现,答案检索(即,6个反向趋势)从语言学角度看是最异质的,其次是文档检索(即, 3个反向趋势)和响应检索(即,2反向趋势)。 这是一个有趣的结果,因为以前的作品[13,62]经常认为文档检索是最异构的任务,因为其输入之间存在显著的表面长度和语言形式差异(即,查询和文档)。现在,从自然语言理解的角度来看,我们表明,答案检索是更加异构,因为它需要相当不同的理解能力,其两个输入。4干预分析在本节中,我们进一步研究了先前关于关联模型差异的发现是否能真正给我们1060−−WWW关于模型改进的一些准则。受因果分析[11]的启发,我们采用干预方法来研究某些语言理解任务是否真的有助于提高关联建模。干预方法的核心是以探究任务为因果因素对提取模型进行干预,并分析干预前后的成绩变化表3:基于不同检索模型的关键词任务的不同干预方法的结果BERTdoc、BERTans和BERTrsp分别是对文档检索、答案检索和响应检索进行了微调的Bert。表明Bert碱显著改善或降解(+/-)(p值≤ 0)。05)。干预。具体来说,我们首先学习相关性模型在每个检索数据集上,以获得用于比较的基本结果干预BERT文档BERTansBERTrsp然后,我们将每个干预因素的特征或标签类型0.459 0.367在相同的检索数据集上,用其他因素干扰相关性模型的学习过程,并对干预后的模型的性能进行评价。在下文中,我们将详细介绍干预设置和实验结果4.1干预设置在这里,我们选择了四个具有代表性的探测任务作为干预因素,即,关键字,NER,同义词,和SemArcCls,这是基于以下观察:1)同义词已被证明是一贯改善所有三个检索任务。2)SemAr-cCls在所有三个提取任务中都表现出一致的下降。(3)关键词任务和非关键词任务在文献检索和答案检索、再认上都有显著的提高。 值得注意的是,干预过程要求检索数据集包含每个干预因素的标签,这将需要巨大的工作量来获得地面实况标签。最近,弱标记方法引起了相当大的关注,并在许多NLP任务中显示出有益的效果[19]。因此,我们采用已被证明在所有四个干预因素中有效的微调Bertlarge5来为所有三个检索数据集中的每个实例生成弱标签(即,Robust04、MsMarco和Ubuntu)。然后,每个干预因子的标签用于干预检索模型的学习过程每种干预方法的详细说明如下:特征干预:对于特征干预,我们将每个实例的标签作为检索模型的额外输入。具体来说,我们映射每个因子的标签(例如,PER、ORG、NER中的PER、 ORG)到嵌入空间,并将特征嵌入添加到BERT输入嵌入。因此,检索模型的最终输入嵌入是标记嵌入、分割嵌入、位置嵌入和特征嵌入的总和。这里,每个特征的嵌入大小设置为768,与原始Bert模型相同。参数干预:对于参数干预,我们首先使用每个干预因子的标签作为初始参数学习检索模型,然后使用每个检索数据集微调模型的参数。值得注意的是,我们在相关性模型的顶部添加了一个额外的多层感知器层,以适应每个干预因素。 在实验中,我们以1e5的小学习率学习每个干预因素,并以3 e 5的学习率对检索任务进行微调。客观干预:对于客观干预,我们共同学习干预因素以及检索任务。为此,我们在5https://github.com/google-research/bert特征0.457(-0.4%)0.367(-)0.810(-0.1%)参数0.468(+2%+)0.355(-11.7%−)0.721(-3.3%−)客观0.402(-12.4%−)0.341(-8.7%−)0.746(-7.1%−)每个干预因素的伯特模型例如,我们在Bert之上添加CRF层,用于序列标记任务(即,NER),并在Bert之上添加线性层用于分类任务(即,关键字、SemArcCls和同义词)。损失函数是排序交叉熵函数和因子特定损失函数的加权和损失=λ损失等级+(1−λ)损失系数,其中λ以端到端的方式学习4.2结果在这一部分中,我们展示了各个干预因素的干预效果,包括不同干预方法的比较和不同干预因素的分析4.2.1干预方法比较。在这里,我们比较了每种干预方法对所有三个检索任务的关键字的干预因素的基础上。总体结果总结见表3。首先,我们可以看到,特征干预对所有三个检索任务的性能影响很小。这可能是因为每个标记的嵌入特征,这是建立在相应的干预因素,是不是很有效的检索建模。第二,客观干预显著降低了三种检索任务的检索绩效,且降幅较大。 原因可能是多任务学习可能会引入归纳偏差,这将导致单个任务的次优性能[1]。最后,参数干预在文档检索任务上获得了显著的改善,在答案检索任务和响应检索任务上有较大幅度的下降。 这与前面在探测分析部分的发现是一致的,验证了关键词识别在文档检索的检索建模中的重要性。所有这些结果表明,参数干预比其他两种干预方法更有效。4.2.2干预因素分析 在本节中,我们进一步研究了不同的干预因素是否以及如何通过参数干预来改善相关性建模。干预结果总结于表4中。首先,我们可以看到,NER和关键字有显着提高了检索模型的性能,分别在答案检索和文档检索。例如,NER改进了BERTans,···1061A Linguistic Study on Relevance Modeling in Information RetrievalWWW表4:在每个检索模型上使用参数干预的不同干预因素的结果。在相应的检索任务中,相对于微调的Bert,指示显著改善或退化(+/-)(p值≤ 0)。05)。BERTdocBERTansBERTrsp45.9 36.7 81.7净入学率45.3(-1.33%−)38.5(+4.76%+)80.9(-0.98%−)关键字46.8(+1.94%+)35.5(-3.35%−)72.1(-11.75%−)SemArcCls 39.1(-21.78%−)26.7(-14.86%−)63.9(-27.45%−)同义词46.3(+0.83%+)37.0(+0.5%)82.6(+1.1%+)大幅度提高到4. 百分之七十六这证明了在回答检索中获取实体信息对相关性建模的重要性。其次,SemArcCls毫无疑问地降低了检索模型在所有三个检索任务上的性能,这也与探测分析部分的发现一致
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功