Condenser架构优化密集段落检索

14 浏览量更新于2023-12-01 收藏 757KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文面向密集段落检索的卡内基梅隆大学语言技术{luyug，callan}@cs.cmu.edu摘要最近的研究表明使用微调语言的有效性模型（LM）的密集检索。然而，密集的寻回犬很难训练，通常需要经过精心设计的微调管道来实现其全部潜力。在本文中，我们识别并解决了密集检索器的两个潜在问题：i）训练数据噪声的脆弱性和ii）需要大批量鲁棒学习嵌入空间。我们使用最近提出的Condenser预训练架构，它通过LM预训练学习将信息压缩到密集向量中。在此基础上，我们提出了coCondenser，它增加了一个无监督的语料库级别的对比损失来预热段落嵌入空间。在MS-MARCO、Natu- ral Question和Trivia QA数据集上的检索实验表明，coCondenser消除了对增强、合成或过滤等繁重数据工程的需求，以及对大批量训练的需求。它显示出与RocketQA相当的性能，RocketQA是一种最先进的、重度工程化的系统，使用简单的小批量微调。11介绍基于预先训练的语言模型的进步（LM; Devlinet al.（2019）; Liu et al. （2019）），密集检索已成为文本检索的有效范例（Lee et al. ，2019; Changet al. ， 2020; Karpukhin 等人，2020; Qu等人，2021年）。然而，最近的研究发现，微调密集的猎犬，以实现其能力，需要精心设计的微调技术。早期的工作包括迭代否定挖掘（Xionget al. ，2021）和多向量表示（Luanet al. ，2020）。最近的RocketQA系统（Quet al. ，2021年）显著提高了性能1我们的代码可在https://github.com/luyug/Condenser上找到通过设计优化的微调流水线，包括i）对硬否定进行去噪，其校正错误标记，以及ii）大批量训练。虽然这是非常有效的，但整个流水线的计算量非常大，对于没有大量硬件资源的人来说是不可行的，特别是学术界的人。在本文中，我们问，而不是直接使用管道，我们是否可以采取RocketQA的见解来执行语言模型预训练，以便可以在任何目标查询集上轻松微调预训练模型。具体地说，我们问RocketQA中的优化训练解决了什么问题。我们假设典型的LM对错误标记敏感，这可能导致对模型权重的有害更新。去噪可以有效地去除坏样本及其更新。另一方面，对于大多数LM，CLS向量或者用简单任务训练（Devlin et al. ，2019）或根本没有明确培训（Liu et al. ，2019）。这些向量远不能形成通道的嵌入空间（ Lee et al. ，2019）。RocketQA中的大批量训练有助于LM稳定地学习以形成完整的嵌入空间。为此，我们希望预训练LM，使其具有局部抗噪性，并具有结构良好的全局嵌入空间。对于抗噪性，我们借用了 Condenser 预训练架构（ Gao 和Callan，2021），该架构根据CLS向量主动执行语言模型预训练它产生了一个信息丰富的CLS表示，可以鲁棒地压缩输入序列。然后，我们引入了一个简单的语料库级别的对比学习目标：给定一个目标语料库的文档检索，在每个训练步骤中，样本文本跨度对从一批文档和训练模型，使得CLS嵌入的两个跨度从同一个文件是接近和跨度从不同的文件是远离。结合两者，我们提出coCondenser预训练，arXiv：2108.05540v1 [cs.IR] 2021年8月+v：mala2277获取更多论文其无监督地学习用于密集检索的语料库感知预训练模型。在本文中，我们在两个流行的语料库，维基百科和MS- MARCO上测试coCondenser预训练。两者都是广泛任务的信息这种受欢迎程度证明了预训练模型专门针对它们中的每一个。我们使用小的训练批次直接微调预训练的在Natural Question、TriviaQA和MS-MARCO段落排名任务中，我们发现所产生的模型的性能与RocketQA和其他当代方法相当或更好。2相关工作Dense RetrievalTransformer LM 推进了许多NLP任务的最新发展（Devlin等人，2019;Liu et al. ， 2019; Yang et al. ， 2019; Lan etal. ， 2020 ），包括密集检索。Lee 等人（2019）是最早证明Transformer密集检索器有效性的人之一。他们提出了一个简单的反向完形填空任务（ICT ）方法来进一步预训练BERT（Devlinet al. ，2019）。后续工作探索了其他训练前任务（Chang et al. ，2020年）以及阅读器和检索器的端到端共同培训（Guu etal. ，2020）。Karpukhin等人（2020）是第一个发现仔细微调可以直接从BERT中学习有效的密集检索器的人。随后的工作开始研究进一步改善微调的方法（Xiong et al. ，2021; Qu etal. ，2021年）。其中，Qu et al. （2021）提出了Rock-etQA微调管道，极大地提高了密集回收器的性能。直到最近，密集检索的预训练还没有被探索。同时进行的工作存在成熟的密集检索库，如FAISS（Johnson etal. ，2017年）。通过将语料库预编码到MIPS索引中，检索可以在毫秒级延迟的情况下在线运行（ Johnson et al. ， 2017; Guo et al. ，2020）。对比学习对比学习已经成为计算机视觉中一个非常流行的话题（Chen et al. ，2020; He etal. ，2020）。最近的工作已经将这一想法引入自然语言处理，以学习高质量的句子表示（Giorgi et al. ，2020; Wu et al. ，2020）。在这项工作中，我们使用对比学习来进行密集检索的预训练不同于早期的工作，而不是单一的表示，我们感兴趣的是完整的学习嵌入空间，我们将使用它来热启动检索器大批量的要求是对比学习的一个限制因素（Chen et al. ，2020）以及一般而言使用对比损失的任何训练程序，包括密集检索预训练（Guu et al. ，2020; Chang等人，2020），用于GPU内存不够大的资源有限的设置Gao等人（2021 b）最近设计了一种梯度缓存技术，该技术将对比学习的峰值内存使用阈值设置为几乎恒定。在3.3小节中，我们展示了如何将其用于coCondenser预训练。3方法在本节中，我们首先简要介绍冷凝器。然后我们讨论如何将其扩展到coCondenser以及如何执行内存高效的coCondenser预训练。头部（仅预训练）DPR-PA Q（OgZuz等人，，2021年）re访问预训练并提出域匹配预训练，其中他们使用6500万大小的合成QA对数据集[CLS][CLS]烤箱[MASK]苹果派烤箱[MASK]苹果派使用预训练的Natural Question和Trivia QA管道生成，以预训练密集检索器。[CLS]烤箱[MASK]苹果馅饼在本文中，我们将使用最近提出的密集检索预训练架构 Condenser （ Gao 和 Callan ，2021）。与以往设计预训练任务的作品不同，Condenser探索了设计特殊预训练架构的想法。晚早期[CLS][CLS][CLS][CLS]烤箱[MASK]苹果派烤箱[MASK]苹果派烤箱[MASK]苹果派烤箱[MASK]苹果派密集检索具有迫切重要价值的一个原因是，存在大量研究第一阶段检索的高效密集检索的文献（ Johnson et al. ， 2017; Guo et al. ，2020）。图1：冷凝器：显示了2个早期和2个晚期骨干层。我们的实验每个都有6层。微调时冷凝器头掉落+v：mala2277获取更多论文ΣIJ我[h cLS ;hLL=1KL（六）2NIJIJ3.1冷凝器在本文中，我们采用了一种特殊的预训练架构冷凝器（Gao和Callan，2021）。冷凝器是一堆 Transformer 块。如图 1 所示，这些Transformer块分为三组：早期主干编码器层、晚期主干编码器层和头部层。输入x =[x1，x2，.. ]首先在CLS前添加，嵌入，并贯穿主干层。空间，使用在目标搜索语料库上定义的对比损失具体地，给定n个文档的随机列表[d1，d2，...，d n]，我们从每个跨度中随机提取一对跨度，[s11，s12，.，s n1，s n2]。这些跨度然后形成coCondenser的训练批。写一个跨度sij的0cLS;h0]=Embed（[ CLS;x]）（1）Lco=−logexp（hi1，hi2）埃尔利埃尔利00伊贾恩第二章Iexp（hij，hij）[hLate;hLate] =编码器延迟（[hearL y;hearL y]）（3）熟悉的读者可能会认识到这是一个骗局-cLScLS头部从较晚的层取得CLS表示，但是使用短路，从较早的层取得令牌然后，这一晚-早对穿过头部[hcd;hcd]=Head（[hLate;hearL y]）（4）Simplified 的 transative loss （ Chen et al. ，2020），我们使用随机跨度采样作为增强。其他人可能会看到与噪声对比估计（NCE）的联系。在这里，我们提供了一个NCE叙述。在贯彻落实党的十九大精神的假设，段落紧密相连，cLScLS有类似的表述，而在不同的-头部的输出然后用于执行掩蔽语言模型（MLM;Devlinet al. （2019））训练。电子文档应该具有不同的表示。在这里，我们使用随机跨度作为段落的替代物，并通过NCE执行分布假设，作为Lmlm=i∈masked交叉熵（Whcd，xi）（5）Word2Vec（Mikolov et al. ，2013）。我们也可以把它看作是一个跨层语言模型对象。为了利用后期层的容量，Condenser被迫学习将信息聚合到CLS中，CLS然后将参与LM预测。利用传销产生的丰富有效的培训信号，冷凝器学会利用或“跳跃式”。表示spansij强大的Transformer架构来生成n2密集CLS表示。我们假设，使用通常用于训练令牌的LM目标表示现在放在密集CLS表示上，学习的LM增益提高了对噪声的鲁棒性。3.2coCondenser虽然Condenser可以在不同的corpra集合上进行训练以产生通用模型，它不能解决嵌入空间问题：虽然嵌入CLS中的信息可以由头部非线性地解释，但是这些向量之间的内积仍然缺乏语义。因此，它们不形成有效的嵌入空间。为此，我们增加了电容器MLM损失与对比损失。与以前的工作，预训练人工查询通道对，在本文中，我们提出了简单的预训练通道嵌入L=1mm[Lmlm+Lco]（7）i=1j =13.3高效记忆预训练RocketQA管道使用监督和大批量训练来学习嵌入空间。我们还希望运行大批量无监督预训练，以构建等式6中对比损失的有效随机梯度估计器。为了提醒我们的读者，这种大批量的预训练只对目标搜索语料库进行一次我们将证明，这允许有效的小批量微调任务查询集.然而，由于对比度损失的批量依赖性，它需要将大批量适配到GPU（加速器）内存中。虽然这可以通过互连的GPU节点或TPUpod（可能具有数千GB的内存）来实现，但学术界和较小的组织[h]=Encoderearly（[hcLS;h]）（2）k=1ij=kL+v：mala2277获取更多论文L我，ΣΣv=co2N=vIJLIJ通常仅限于具有四个商用GPU的机器为了打破内存限制并执行有效的对比学习，我们引入了梯度缓存技术（Gao et al. ，2021b）。我们在这里描述的程序，希望执行coCondenser预训练，但骨干权重初始化查询编码器fq和通道编码器fp，每个输出最后一层CLS。回想一下，他们已经在训练前热身了。（查询q，段落p）对相似性被定义为内积，资源有限表示co=我们可以将等式7写为，义吉错s（q，p）=<$fq（q），fp（p）<$（13）查询和通道编码器在目标任务的训练集上进行监督微调我们训练的是L=1[Lco+Lml m]（8）梯度缓存的精神是解耦表示梯度和编码器梯度计算。在计算模型重量之前-日期，我们首先为整个批处理运行一个额外的主干，而不构建计算，有监督的对比损失和查询计算q，正文档d+a g表示n ∈g在iv es {d−1，d−2，. d−L.. }中。exp（s（q，d+））L=−logexp（s（q，d+））+logexp（s（q，d−））（十四）图。这提供了以下数值：[h11，h12，，hn1，hn2]，从中我们可以计算：我们按照DPR（Karpukhin et al. ，2020）工具包。如图2b所示，在第一轮中，回收器用BM 25阴性进行训练。第一轮重-∂伊杰杰赫Lij= 公司简介拉克什（九）然后，triever被用来挖掘硬底片，伊日伊日即相对于CLS矢量的对比损失梯度我们将所有这些向量存储在梯度缓存中，C=[v11，v12，..，v n1，v n2]。使用vij表示模型参数Θ，我们可以将对比损失的导数写成如下所示补充负池。第二轮回收者使用第一轮中生成的负池进行训练。这与图2a中所示的RocketQA的多级管道形成对比。4实验在本节中，我们首先描述了实现-=LijL（十）coCondenser预培训的详细信息。然后我们阿托科·阿托科·阿托赫∂Θ我 J伊杰河∂Θ塔赫伊杰Ij（十一）4.1预训练I jcoCondenser预训练从vanilla开始然后我们可以写出方程8的梯度。传销BERT和goes分为两个阶段，通用Condenser预训练和语料库感知coCondenser预训练。L=1]（十二）训练在第一阶段，我们预先训练冷凝器θ 2nI jij并使用预训练的12层BERT基本权重热启动骨干层（Devlin et al. ，2019）。由于vij已经在高速缓存C中，因此每个求和项现在仅涉及跨度sij及其激活，这意味着我们可以在小的子批次上以累积方式计算整个批次换句话说，整个批处理不再需要同时驻留在GPU上。3.4微调在预训练结束时，我们丢弃Condenser头，只保留骨干层。因此，该模型简化为它的主干，或有效地简化为一个Transformer编码器。公司现采用国际我 JL进行密集检索实验，以测试微调coCondenser检索器的有效性。+v：mala2277获取更多论文主干使用相等的分割，6个早期层和6个后期层。Condenser预训练使用与BERT相同的数据：英语维基百科和BookCorpus。来自第一阶段的Condenser模型，包括主干和头部，被用于在目标语料库（维基百科或MS-MARCO网络集合）上热启动第二阶段coCondenser预训练。我们在第二步中保持Condenser架构不变。我们使用AdamW优化器，学习率为1 e-4，权重衰减为0.01，线性学习率衰减。每个模型权重更新使用2K文档。我们在4+v：mala2277获取更多论文火车火车检索器1硬性阴性初始化寻回犬2coCondenser(a) RocketQA取栓装置培训管道（取自Qu等人（2021））。(b) coCondenser检索器训练管道。图2：coCondenser中的RocketQA训练管道和两轮检索器训练管道RTX 2080 Ti GPU使用梯度缓存更新，如第3.3所述。在第二步完成后，我们丢弃了Condenser头，得到了与BERT基础完全相同的架构模型。4.2密集通道检索接下来，我们微调学习coCondenser来测试检索性能。在RocketQA之后，我们测试了自然问题和MS-MARCO通道排名。我们还报告了Trivia QA的性能，其预处理版本与DPR工具包一起发布。4.2.1设置数据集我们使用MS-MARCO通道排名（Bajajetal.，2018），NaturalQuestion（NQ;Kwiatkowski et al.（2019））和TriviaQA （ TQA;Joshi et al. （ 2017 ））。 MS-MARCO 由 BingNatural Question 包含来自Google搜索的问题。Trivia QA包含一组琐事问题。我们报告了MS-MARCO的MRR@10、Recall@1000以及NQ和TQA的Recall 5、20和100的官方指标。数据准备我们使用 Natural Question、 TriviaQA和Wikipedia作为DPR工具包的清理和NQ和TQA有大约60K的训练数据后处理。同样，我们使用使用RocketQA开源代码发布的MS-MARCO语料库。为了重现性，我们使用官方的相关性文件，而不是RocketQAMS-MARCO的BM 25阴性来自官方培训三倍。训练MS-MARCO模型使用AdamW进行训练，学习率为5e-6，线性学习率时间表，批次大小为64，持续3个时期。模型只在每个任务的相应训练上进行训练。我们注意到，RocketQA是在多个数据集的串联上训练的（Qu et al. ，2021年）。NQ和TQA模型是根据Karpukhin等人（2020）发表的超参数使用DPR工具包进行训练的。所有模型都在一个RTX 2080 Ti上训练。我们在DPR中添加了梯度缓存来处理内存限制2.模型验证由于对于密集检索，验证检查点需要对完整的语料进行编码，因此评估检查点变得非常昂贵。由于我们的计算资源有限，我们遵循DPR工具包中的建议，并采取最后一个模型训练检查点。我们对马可小姐也是我们使用RocketQA（Quet al. ，2021年），最先进的微调技术，作为我们的主要基线。2https://github.com/luyug/GC-DPR+v：mala2277获取更多论文方法MS-MARCO Dev自然问题测试琐事QA测试MRR@10 R@1000 R@5 R@20 R@100 R@5 R@20 R@100BM2518.785.7-59.173.7-66.976.7DeepCT24.390.9------docT5query27.794.7------GAR--60.974.485.373.180.485.7DPR---74.485.3-79.384.9ANCE33.095.9-81.987.5-80.385.3ME-BERT33.8-------RocketQA37.097.974.082.788.5---冷凝器36.697.4-83.288.4-81.986.2DPR-PAQ- BERT基地31.4-74.583.788.6---- BERT大型31.1-75.384.488.9---- ROBERTa基地32.3-74.284.089.2----Roberta大34.0-76.984.789.2---coCondenser38.298.475.884.389.076.883.287.3表1：MSMARCO dev、Natural Question测试和Trivia QA测试的检索性能。我们将性能最好的模型以及性能最好的12层基本模型标记为粗体。结果不可用保留为空白。我们从RocketQA论文中借用了其他几个基线，包括词汇系统BM 25，DeepCT（Dai和Callan ， 2019 ）， DocT5Query （ Nogueira 和Lin，2019）和GAR（Mao等人，2019）。，2020）;和密集系统DPR（Karpukhin et al. ，2020）、ANCE（Xiong et al. ，2021）和ME-BERT（Luan et al. ，2020）。我们还包括并行工作 DPR-PAQ （ O guzetal. ，2021），其使用6500万大小的合成QA对数据集进行预训练。预训练数据是通过使用在Natural Question和Trivia QA上训练的检索者-读者对创建的设计合成过程还需要领域知识，因此我们将其称为半监督预训练方法。我们包括 4 DPR-PAQ 变种的基础上 / 大架构的BERT/ROBERTa模型。最后，我们对预训练第一阶段产生的Condenser模型进行4.2.2结果表 1 显示了 MS-MARCO 通道排名的开发（dev）集性能和Natural Question和Trivia QA的测试集性能。在三个查询集上，密集系统表现出优于稀疏系统的性能。我们还看到，与早期的密集系统相比，系统之间的性能差距很大，涉及仔细的微调或预训练（RocketQA，DPR-PAQ，Condenser，这一结果证实了最近的研究结果，即低维嵌入的位置，sess一个强大的密集检索能力，一个能力，但很难利用天真。coCondenser显示了对RocketQA的小改进。重要的是，这是通过大大减少计算和数据工程工作来实现的。值得注意的是，在 MS-MARCO上，coCondenser将RocketQA的4096批量减少RocketQA和coCondenser两个训练管道的比较见图2。与DPR-PAQ的比较显示了几个有趣的发现。将大型半监督预训练与更好和更大的LMRoberTa大型相结合，DPR-PAQ在自然问题上取得了最佳效果。另一方面，当从 BERT（base/large）开始时，DPR-PAQ显示出与基于BERTbase的coCondenser相似的性能。这表明大规模的半监督预训练仍然是获得最佳性能的方法。然而，当计算资源有限并且缺少大量预训练集时，无监督coCondenser是一个强大的替代方案。另一方面，当它移动到 MS-MARCO时，DPR-PAQCondenser和coCondenser之间的比较证明了coCondenser 中对比损耗的重要性：coCondenser由于其预结构化的EM，+v：mala2277获取更多论文MRR@10方法批量MS-MARCO Dev表2：针对Rock-etQA的各种微调阶段和coCondenser的各种预训练和微调阶段的MS-MARCO开发（dev）集的检索性能排序方法EVAL1 coCondenser 42.82C-COIL（Gao et al. ，2021年a）42.73 RocketQA 42.6表3：MS-MARCO通道排名排行榜上的重新排名表现。bedding空间，使其在所有数据集上具有更好的召回率（更少的假阴性）。4.3MS-MARCO上的通道重新排序我们还使用深度 LM reranker 测试了coCondenser 结果的重新排序与 Qu 等人（ 2021 ）类似，我们训练了 ERNIE 和RoBERTa的集合，以在MS-MARCO评估集上对前1000个检索到的段落进行重新排名，并在Microsoft的隐藏测试集上对其进行测试。表3显示了2021年8月11日的前三大系统。coCondenser最好有一个小的，也许是不重要的边际。从本质上讲，这三个系统代表了三个不同的，同样好的方法，有效的网络通道检索：优化密集检索微调火箭QA（Qu等人。，2021），COIL中的情境化稀疏检索（Gao etal. ，2021 a），以及coCondenser中的语料库感知的无监督预训练。5培训阶段接下来，我们试图了解coCon- denser检索器的每个预训练和微调阶段的贡献。我们考虑来自第一阶段的预训练冷凝器和来自第二阶段的coCondenser。对于每一个，我们认为猎犬训练和没有硬底片。作为参考，我们比较了各种RocketQA培训阶段结果示于表2中。我们看到RocketQA的每个阶段都很关键。随着每一项的增加，性能都会稳步提高。另一方面，这也表明必须执行完整的管道以获得最佳性能。相比之下，我们看到冷凝器与硬底片的性能非常接近完整的Rock- etQA系统。具有硬否定的Condenser也比没有硬否定的coCondenser具有更好的MRR，这意味着来自第一个预训练阶段的Condenser已经在局部非常强大，但是从相对冷的开始训练的嵌入空间仍然不是最佳的，导致全局错过。添加语料库感知损失，coCondenser with-out hard negatives 使 Recall 非常接近完整的RocketQA系统，仅使用64号批次。这证实了我们的假设，即微调可以受益于预训练的通道嵌入空间。进一步添加硬底片，我们得到了局部和全局有效的最强共冷凝器系统请注意，所有Condenser系统都能在不降噪的情况下实现其性能实际上，我们的系统也不需要数据增强，这有助于减少设计增强技术和定义增强数据的工程工作。总而言之，coCondenser预训练已经实现了我们为它设定的目标。它可以有效地进行微调，而不依赖于RocketQA技术：去噪硬底片，大训练批次或数据增强，只需使用小训练批次挖掘的硬底片。MRR@10R@1000RocketQA跨批次阴性819233.3-+ 硬底片409626.0-+降噪409636.4-+ 数据增强409637.097.9coCondenser不带硬底片的聚光镜6433.896.1+ 硬底片6436.697.4coCondenser w/o Hard negatives6435.797.8+ 硬底片6438.298.4+v：mala2277获取更多论文6结论本文介绍了coCondenser，一种无监督语料库感知的语言模型预训练方法。利用Condenser架构和语料库感知的对比损失，coCondenser获得了两个重要的属性，用于密集检索，抗噪性和结构化嵌入空间。这种语料库感知的预训练需要对搜索语料库进行一次，并且是查询不可知的。学习的模型可以在各种类型的最终任务查询之间共享。实验表明，coCondenser可以显著降低密集检索器的微调成本，同时提高检索性能。他们还表明，coCondenser产生的性能接近或类似于几倍大的模型，需要半监督的预训练。重要的是，coCondenser提供了一种完全不干涉的方式来预训练一个非常有效的LM以进行密集检索。这有效地消除了设计和测试预训练以及微调技术的工作。对于实践者来说，通过采用我们预先训练的权重，他们可以使用有限的资源来训练具有最先进性能的密集检索系统另一方面，未来的工作也可能会投资门集成额外的测试良好的预训练/微调方法，以进一步提高性能。引用Payal Bajaj ， Daniel Campos ， Nick Craswell ， LiDeng ， Jianfeng Gao ， Xiaodong Liu ， RanganMajumder，Andrew McNamara，Bhaskar Mitra，Tri Nguyen ，Mir Rosenberg， Xia Song ，AlinaStoica，Saurabh Ti- wary，and Tong Wang.2018.marco女士：人类生成的机器阅读理解数据集。放大图片作者： Felix X.Yu ， Yin-Wen Chang ，Yiming Yang，and Sanjiv Kumar.2020. 基于嵌入的大规模检索的预训练任务。在学习代表国际会议上。TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey E.辛顿2020.视觉表征对比学习的一个简单框架。ArXiv，abs/2002.05709。Zhuyun Dai和J. Callan. 2019.第一阶段检索的上下文感知句子/段落术语重要性估计。ArXiv，abs/1910.10687。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Luyu Gao和Jamie Callan 2021. 您的语言模型是否已准备好进行密集表示微调？Luyu Gao，Zhuyun Dai，and Jamie Callan. 2021年a.COIL：用语境化倒排表重温信息检索中的精确词汇匹配。在计算语言学协会北美分会2021年会议的开幕式上：人类语言技术，第3030-3042页，在线。计算语言学协会。Luyu Gao，Yunyi Zhang，Jiawei Han，and JamieCallan.2021b的最后一页。在内存受限设置下扩展深度对比学习批量大小。第六届NLP表示学习研讨会论文集（RepL 4 NLP-2021），第316-321页。计算语言学协会。John Michael Giorgi ， Osvald Nitski ， Gary DBader，and Bo Wang.2020. Declutr：深度对比学习，用于无监督文本表示。 ArXiv ，abs/2006.03659。Ruiqi Guo ， Philip Sun ， Erik Lindgren ， QuanGeng，David Simcha，Felix Chern，and SanjivKumar.2020年。用各向异性矢量量化加速大规模推理。国际机器学习。+v：mala2277获取更多论文Kelvin Guu，J. Lee，Z.董，帕努蓬帕苏帕特，张明伟。2020. Realm：检索增强语言模型预训练。ArXiv，abs/2002.08909。Kaiming He ， Haoqi Fan ， Yuxin Wu ， SainingXie，and Ross B.女孩2020.用于无监督视觉表征学习的动量对比。2020 IEEE/CVF计算机视觉和模式识别会议，第9726杰夫·约翰逊，马蒂亚斯·杜兹，埃尔韦·杰古。2017.使用gpu进行十亿级相似性搜索。arXiv预印本arXiv：1702.08734。Mandar Joshi ， Eunsol Choi ， Daniel Weld ， andLuke Zettlemoyer. 2017. TriviaQA：一个大规模的分布式监督挑战数据集，用于阅读计算机。在Proceedings of the 55th Annual Meet-ing of theAssociationforComputationalLinguistics（Volume 1：Long Papers），pages 1601-计算语言学协会。Vladimir Karpukhin ， Barlas Oguz ， Sewon Min ，Patrick Lewis ， Ledell Wu ， Sergey Edmund ，Danqi Chen，and Wen-tau Yih.2020. 开放域问答的密集段落检索。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第6769-6781页。计算语言学协会。Tom Kwiatkowski ， Jennimaria Palomaki ， OliviaRed- field ， Michael Collins ， Ankur Parikh ，ChrisAl-berti ， DanielleEpstein ， IlliaPolosukhin ， Jacob De- vlin ， Wendon Lee ，Kristina Toutanova ， Llion Jones ， MatthewKelcey ， Ming-Wei Chang ， Andrew M.Dai ，Jakob Uszkoreit，Quoc Le，and Slav Petrov. 2019.自然问题：问题回答研究的基准。Transactionsof the Association for Computational Linguistics，7：452兰振中，陈明达，塞巴斯蒂安·古德曼，凯文·金佩尔，皮尤什 · 夏尔马，拉杜 · 索里 - 切 . 2020.Albert：一个用于语言表示的自我监督学习的Lite bert。ArXiv，abs/1909.11942。张明伟，克里斯蒂娜·图坦诺娃2019. 弱监督开放域问答的潜在检索。第57届计算语言学协会年会论文集，第6086-6096页，意大利佛罗伦萨。计算语言学协会。Y. Liu ， Myle Ott ， Naman Goyal ， Jingfei Du ，Mandar Joshi ， Danqi Chen ， Omer Levy ， M.Lewis，Luke Zettlemoyer，and Veselin Stoyanov.2019. Roberta：一种鲁棒优化的bert预训练方法。ArXiv，abs/1907.11692。Y. Luan ， Jacob Eisenstein ， Kristina Toutanova ，and Michael Collins. 2020.用于文本检索的稀疏、密集和注意表示。ArXiv，abs/2005.00181。Yunning Mao ， Pengcheng He ， Xiaodong Liu ，Yelong Shen ， Jianfeng Gao ， Jiawei Han ， andWeizhu Chen. 2020. 开放领域问答的世代扩充检索。放大图片作者：Tomas Mikolov，Kai Chen，G.S.Corrado和J.Dean. 2013.向量空间中单词表示的有效估计。在ICLR。罗德里戈·诺盖拉和吉米·林2019.从doc2query到doctttttquery。BarlasOgBaguz ， KushalLakhotia ， PagitGupta ，PatrickLewis ， Vladimir Karpukhin ， AleksandraPiktus，Xilun Chen，Sebastian Riedel，Wen TauYih，Sonal Gupta，and Yashar Meiden.2021年用于密集检索的域匹配预训练任务。Qu Yingqi ， Yushen Ding ， Jing Liu ， Kai Liu ，Ruiyang Ren ， Wayne Xin Zhao ， DaxiangDong ， Hua Wu ， and Haifeng Wang. 2021.RocketQA：一种用于开放域问题回答的密集段落检索的优化训练方法。在计算语言学协会北美分会2021年会议的继续：人类语言技术，第5835-5847页，在线。计算语言学协会。Z. Wu ， Sinong Wang ， Jiatao Gu ， MadianKhabsa，Fei Sun，and Hao Ma. 2020.清晰：句子表征的对比学习。ArXiv，abs/2012.15466。李雄，熊晨燕，李烨，唐国峰，刘嘉林，Paul N.Bennett ， Junaid Ahmed ， and Arnold Overwijk.2021. 稠密文本检索的近似最近邻负对比学习.在国际学习代表会议上。Z. Yang，Zihang Dai，Yiming Yang，J. Carbonell，R. Salakhutdinov，and Quoc V. Le. 2019. Xlnet：用于语言理解的广义自回归预训练。在NeurIPS中。

下载后可阅读完整内容，剩余1页未读，立即下载