两阶段训练提升跨语言机器阅读理解性能

16 浏览量更新于2023-12-01 收藏 810KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文从好到好：跨语言机器阅读理解的两阶段训练陈诺1*，寿林军2，龚敏2，裴健3，姜大新2†1ADSPLAB，北京大学欧洲工程学院，深圳，中国2NLP Group，Microsoft STCA3西蒙弗雷泽大学计算科学学院nuochen@pku.edu.cn，{lisho，migon} @ microsoft.com，jpei@cs.sfu.ca摘要由于缺乏低资源语言的训练数据，跨语言机器阅读理解（xMRC）具有挑战性。最近的方法只使用资源丰富的语言（如英语）中的训练数据来微调大规模跨语言预训练语言模型。由于语言之间的巨大差异，仅由源语言微调的模型可能不会在目标语言中表现良好。有趣的是，我们观察到，虽然由先前方法预测的前1个结果可能经常无法达到地面实况答案，但正确答案通常包含在前k个预测结果中。基于这一观察，我们开发了一个两阶段的方法来提高模型的性能。第一阶段的目标是召回：我们设计了一个硬学习（HL）算法，以最大限度地提高前k个预测包含准确答案的可能性第二阶段的重点是准确性：答案感知的对比学习（AA-CL）机制的发展，学习准确答案和其他候选人之间我们广泛的实验表明，我们的模型在两个跨语言MRC基准数据集上的表现明显优于一系列强基线。介绍在过去的几年里，机器阅读理解（MRC）在自然语言理解社区中得到了广泛的研究（Rajpurkar等人，2016年 ; Yu 等人， 2018 年 ;Chen 等人， 2018 年）。 2021;You，Chen，and Zou 2021 a; Seo et al. 2017; Liang et al.2021; Rajpurkar et al. 2016; Rajpurkar，Jia，and Liang2018; Reddy，Chen，and Manning 2019; You et al. 2020;You，Chen，and Zou 2020）。当MRC扩展到多种语言时，即，跨语言MRC或简称xMRC的任务，一个挑战是缺乏低资源语言的训练数据，其中没有训练示例可用。为了应对这一挑战，最近的方法建立在大规模跨语言预训练语言模型的基础上，例如mBERT（Pires，Schlinger 和 Garrette 2019 ）和 XLM-R （ Conneau et al.2019）。这些预先训练的模型将不同语言的表示映射到一个通用语义空间中，在该空间中，不同语言的表达被表示为彼此接近*在Microsoft STCA实习期间完成的工作。†通讯作者Copyright © 2022，Association for the Advancement of ArtificialIntelligence（www.aaai.org）. All rights reserved.Languageen es de ar hi viEM评分64.24 48.30 46.43 35.14 41.93 42.36表1：MLQA数据集上不同语言的EM评分。如果它们有相似的含义。跨语言预训练模型然后通过仅以源语言的训练数据（例如，英语），并最终应用于各种目标语言。这种方法在实体识别（Liang等人，2021年; Kru-engkrai等人，2020年）、问题回答（Asai等人，2018年; Zhou等人，2019年）等任务上显示出有希望的结果。2021），以及xMRC（Yuan et al.2020;Liang等人2021年）。然而，由于语言之间的巨大差异，仅在源语言上微调的模型可能在目标语言上表现不佳。表1是应用上述方法进行实证研究的结果更具体地说，我们使用英语数据来微调跨语言XLM-R 模型（Conneau et al.2019）在MLQA数据集上（Lewis etal.2020年）。表中的数字是精确匹配（EM）分数，这是MRC任务广泛采用的度量，用于评估模型预测结果与地面实况答案之间的匹配程度。对于每种情况，我们将模型的前1个输出作为预测结果。从表1中，我们清楚地看到，英语的结果比其他语言好得多。原因是该模型仅通过英语训练数据进行微调与此同时，该模型在非英语语言上仍然可以获得35到48分的EM分数，即使它从未接受过来自这些语言的任何示例的训练这表明该模型继承了跨语言预训练模型的一定程度的语言迁移能力然后，我们通过包括来自模型的前k个输出来也就是说，如果前k个输出中的任何一个与地面实况答案匹配，我们认为模型表2中示出了具有不同k数的修正EM分数（注意，“Top-1”列中的数字仅为表1中的数字）。从表2中，我们可以看到，当我们增加k时，所有语言的分数都有很大的提高英语中的增益最小（当k=10与k=1时，约为10点），因为模型已经进行了很好的微调。arXiv：2112.04735v1 [cs.LG] 2021年12+v：mala2255获取更多论文我语言Top-1前3Top-5前10en64.2473.0675.6975.76es48.3060.3266.0471.18de46.4360.9967.1372.17ar35.1448.2452.3357.13嗨41.9357.7063.3270.15vi42.3658.2561.9866.06表2：分别在MLQA数据集上的不同前k个答案预测中的EM得分。本语言由母语训练的例子。在其他语言中，增益要大得多，即，当k=10与k=1时，超过20个点。这一观察揭示了top-k结果的巨大潜力。直觉上，它表明该模型已经被赋予了大致区分好结果和坏结果的能力。然而，如果没有足够的训练样本，它就不足以将最准确的结果排在前1位。表2中的结果分析促使我们将xMRC模型的训练分解为两个阶段。第一阶段的目标是在top-k处的召回，其最大化准确答案被包括在top-k结果的集合为此，我们设计了一个硬学习（HL）算法来学习好答案和坏答案之间的差距。第二阶段的重点是在top-1的精度。我们提出了一个答案感知的对比学习（AA-CL）机制，使模型能够进一步区分准确的答案从其他候选人。AA-CL不是选择随机或批量否定，而是在每次更新时使用与前k个预测集中的地面实况答案最相似（但不等于）的候选来构造硬否定。这样的硬负有助于模型提高top-1的精度。我们的技术贡献总结如下：• 我们对xMRC任务进行了深入的研究，提出了有趣的观察结果，并根据观察结果设计了一种新的两阶段方法。• 我们进行了广泛的实验，并验证了我们的方法显着超过以前的国家的最先进的跨语言PLM的两个流行的基准。论文的其余部分组织如下：我们首先在第二节回顾了相关的工作，然后在第三节详细描述了我们提出的方法。我们在第4节中报告了广泛的实验结果，并在第5节中进一步进行最后，我们在第6节总结了本文。相关工作跨语言机器阅读理解近年来，已有大量的文献对跨语言机器阅读理解（xMRC）进行了研究。一种简单但有效的方法是基于机器翻译系统，它将训练数据翻译成对xMRC使用反向翻译。Singh et al.（2019）提出了一种新的用于多语言训练的基于查询的数据增强方法。不幸的是，所有这些方法都严重依赖于高质量的翻译系统。另一方面，一个方法学派（Huang et al. 2019;Liang et al.2020; Conneau等人2019年）基于大规模多语言预训练语言模型（PLM）已经提出。通过一系列的实验证明，这些PLM即使在零拍或少拍的情况下也能获得优异的性能。最近，已经做出了一些努力，以进一步提高xMRC中的PLM性能。为了解决低资源语言中的答案边界问题，Yuan et al.（2020）在PLM之上提出了几个辅助任务，以提高模型性能。沿着这条线，Liang等人。（2021）以预训练的方式提出了一种校准神经网络。尽管如此，这些研究都没有探索利用来自基础模型的前k个预测作为弱监督来训练xMRC的更鲁棒模型。对比学习如今，对比学习（ Hadsell ，Chopra， andLeCun 2006）已被视为一种很有前途的方法，通过在共享嵌入空间中将语义上接近的邻居（阳性）拉到一起，并将非邻居（阴性）推开，来建立学习有效的表示。对比学习目标在视觉，语言和言语的不同背景下特别成功（Kharitonov et al.2021; He et al.2020; Gao，Yao，and Chen 2021; You，Chen，and Zou 2021 b; Youet al. 2021 a，b）.Wu et al.（2020）提出了几种句子级增强策略，以获得文本相似性和情感分类等下游任务的噪声不变最近，Gao，Yao和Chen（2021）通过使用dropout（Srivastava et al. 2014）作为噪声开发了一种简单的对比学习具体地说，他们将同一句话传入PLM两次，并通过随机应用dropout masks来获得正对。虽然对比学习在各种自然语言处理任务中取得了显着的成功，但研究社区对问答的上下文探索较少，特别是对于MRC。在本文中，我们专注于一个更具挑战性的场景：我们提出AA-CL来利用xMRC高度自信的预测中的模型在本节中，我们的目标是详细描述我们提出的方法（见图1）。首先，我们介绍了xMRC的问题计算然后，我们描述了我们的工作的基线模型最后，我们依次介绍了硬学习（HL）算法和有答案意识的对比学习（AA-CL）算法。问题公式化本文所研究的xMRC问题可以表示为：在这项工作中，假设我们的标记数据资源丰富的语言到其他低资源的目标局域网，集合Ds∈ {qi，pi，ai}N在源语言中（富语言。根据翻译后的数据，Cui等人（2019）提出资源）。具体地，{qi，pi，ai}表示第i个三元组+v：mala2255获取更多论文Top-K预测勤奋学习分类层✖Transformer层嵌入层（a) ReflectionNet认知对比学习HX不--MD M（三）Z{}−CLS问题Sep通道Sep图1：我们提出的方法的概述。在训练数据中的问题，段落，答案我们关注跨度提取MRC设置，其中每个答案ai=（ai，s，ai，e）是出现在pi中的一段文本，其中ai，s，ai，e表示地面实况答案的开始和结束位置。目标是在s上训练一个强大的模型，并且能够在其他环境中表现良好低资源目标语言。基本型号M我们的模型建立在强大的跨语言PLM之上，如多语言BERT和XLM-Roberta。此后，输入问题qi和pi与两个特殊标记[SEP]和[CLS]连接以形成输入序列X，如图1（a）所示。[CLS]用于标记输入句子的开始，[SEP]用于分隔段落和问题。然后，我们将X馈送到编码器中，并产生上下文化的令牌表示X ∈Rl×d：X=H（X）（1）其中是跨语言PLM的最后一个编码器层，l是输入序列的最大长度，d分别是每个标记的向量维度然后，为了预测正确答案跨度在X中的开始位置和结束位置，通过馈送到线性分类层并跟随softmax函数来在整个序列上诱导概率分布。P（s=i|X），P（e=i|X）=softmax（W·X+b）（2）其中W ∈R2×d.在典型的监督设置中，我们给定输入qi和pi：L mrc= −log P（s = a i，s|X）− log P（e = a i，e|十）、=−logP（s=ai，s|pi，qi）−logP（e=ai，e|pi，qi）虽然这种方法在xMRC中实现了优越的性能，但它在优化具有交叉熵损失的模型时仅考虑前1个预测结果，忽略了前k个置信预测中存在的许多正确预测，从而使模型次优化。我们通过以下方式克服了这个问题：（1）利用预先获得的n个最佳预测集开发一种硬学习算法，以及（2）提出一种答案感知的对比学习机制，以在训练中利用硬否定。我们将在下面的章节中分别说明这两种策略。硬学习算法在该组件中，我们的目标是在微调期间开发硬学习（HL）算法，以最大化准确答案被包括在前k个预测结果的集合中的可能性，该预测结果来自基本模型的预先获得的高度置信的也就是说，HL使模型能够专注于与地面实况答案相似的跨度，以实现召回的目标，如图1（b）所示定义灵感来自（Min et al.2019），我们将每个问题的正确答案定义为需要模型来求解答案预测的特定推导。给定一个问题q i和一篇文章p i，设= z1，z2，.，i是包含来自a的前k个可能预测的集合，可以通过优化以下函数来训练模型M基线模型（即，XML-R）。从表3中可以看出，我们-勤奋学习（c）第（1）款1我3我$我“伊我认知对比学习（b）第（1）款最大化+v：mala2255获取更多论文ZZ∈ ZΣZZ一ZFZ一K水-液计程仪ΣΣMLQA训练数据集的一个例子。问：1858年，圣母玛利亚在法国卢尔德向谁显现在建筑上，这所学校具有天主教的特色。在主楼的金色圆顶上有一尊圣母玛利亚的金色雕像。在主楼的正前方，有一尊基督的铜像，双臂高举，上面写着“VeniteAd Me Omnes”。主楼旁边是圣心大教堂。紧挨着教堂后面的是石窟，一个祈祷和反思的地方它是法国卢尔德石窟的复制品，据说圣母玛利亚在1858年出现在圣伯纳黛特·苏比鲁斯在主车道的尽头（在一条直通3座雕像和黄金圆顶的直线上），是一座简单，现代的玛丽石像答案：圣伯纳黛特SoubirousZ（top-k预测）：圣伯纳黛特，伯纳黛特，圣伯纳黛特Soubirous，圣，圣母玛利亚据说出现在圣伯纳黛特Soubirous，.，圣人...表3：输入、答案文本和Z的示例。正确答案是粗体。在这个例子中，正确的答案出现在模型的前3个预测中。它包含一个唯一的正确答案1（ai），模型希望学习找到它，以及其他可能难以分类的答案。算法在我们的工作中，模型不仅可以访问qi和pi，而且，然后我们假设每个zlin都可以被看作给定问题的真直观地说，我们计算最大边际似然（MML）来边际化给定qi和pi的每个zl的似然，并且模型可以通过以下方式优化损失函数：Lmml=−logP（zl|qi，pi）（4）zl∈Z表4：数据集的统计。这与所提出的HL算法是互补的。因此，为了正确识别硬否定，它与肯定（地面实况答案）的关系必须由模型仔细推理，如图1（c）所示。特别地，我们得到前k个答案预测A={a1，a2，...，在每个反向传播中，我们选择但是，直接使用MML进行优化可能会导致我我我中包含的噪声跨度标签上的模型。具体来说，在我们的设置中，元素可以分为三种类型：（1）地面真理答案跨度（只有1）;其中一个作为硬否定示例，其与地面实况答案ai2具有最大的相似性。这可以被看作是一种有效的由粗到细的负选择策略。形式上：(2)仅与起始位置或结束位置匹配的跨距（l）（l）正确的一个;（3）跨度不匹配的开始和结束位置。对于后两种类型，该模型是超级-a我=F（H（ai））（6）a=maxal∈A（al，ai）（7）可能性更低甚至为零例如，ii如表3所示，前1个预测但是当最小化MML时，它可以为中的任何元素分配高概率为了解决这个问题，我们利用HL算法，其中不同的权重被分配给每个元素，.然后，可以通过重写标准交叉熵损失来优化模型：其中，表示余弦相似性函数，并且表示均值池化操作。在这项工作中，我们认为，输入问题和地面真理答案之间的相似性高于其他。所以我们可以得到肯定的问题-答案对（q i，a i）和困难的问题-答案对（qi，ai）。对于每一对，我们使用对比度目标来在共享的语义潜在空间中建立它们之间的对应关系exp（rq，rL对比度=−logλl=1zl∈Za（正））/τ），（8）其中w1是可学习参数。认知对比学习HL鼓励模型关注与地面实况答案相似的跨度。然后，我们部署了一个答案感知的对比学习（AA-CL）机制，以top-1的精度为目标，它在每次更新时使用最有可能的预测与地面真实答案来构建硬否定，以学习噪声不变的表示，其中B和τ是小批量和温度。 rq和ra（pos）表示问题qi和ai的表示。通过这种方式，与仅随机选择否定或批量选择否定不同，我们还引入了来自模型在训练过程中的高置信度预测的硬否定，因此，M可以在令牌中获得从粗到细的呈现水平在微调期间，M通过LHard优化，L与加权比形成对比Lfinal=αL contrast+（1−α）L hard（9）1如果正确答案将用正确答案替换Z2我们在附录中提供了更详细的分析。LHard= −P（zl|qi，pi）（5）Bn=1 exp（τ（rq，ra（n））/τ）数据集火车Dev测试第六节XQUAD87,599-1，190 1，190 1，190 1，190 1，190MLQA87,5991,14811，590 5，253 4，517 5，335 4，918 5，495+v：mala2255获取更多论文|Z||一|设置模型enesdear嗨viAvg.m-BERT77.70 /65.3064.30 /46.6057.90 /44.3045.7/29.843.8/29.757.10 /38.6057.80 /42.40zero-shotXLMXLM-R底座74.90 /62.4077.86 /64.2468.00/49.8066.18 /48.3062.20 /47.6060.82 /46.4354.80 /36.3055.20 /35.1448.80 /27.3059.93 /41.9361.40 /41.8064.89 /42.3661.70 /44.2064.14 /46.00Info-XLM79.15 /64.8067.07 /48.4958.24 /46.0055.15 /3859.66 /43.9864.44 /43.2864.25 /47.60我们79.03/65.5967.52 /49.5662.98/48.7057.68/39.4061.79/44.7066.74/45.3466美元/48美元列车XLM-R基础LAKMCalibreNet77.15 /64.4180/66.8079.68 /66.5168.51 /50.4065.90 /48.0068.04 /50.7762.24 /47.9960.50 /45.5061.66 /47.5556.60 /38.42-56.14/37.8361.39 /43.93-59.97/43.8466.70 /44.36-66.92/46.5965.45 /48.25-65.40/48.84我们80.11/66.8469.04/51.2064.58/49.7558.54/41.0362.77/46.5467.92/47.1967.16/50.44表5：MLQA数据集的总体评价结果（F1/EM）设置模型enesdear嗨viAvg.M-BERT81.50 /71.2075.50 /56.9070.60 /54.0061.50 /45.1059.20 /46.0069.50 /49.1069.63 /53.72zero-shotXLMXLM-R底座81.30 /68.8083.66 /72.4875.6/56.977.00 /60.8772.6/55.574.40 /58.4062.60 /43.2063.00 /47.8063.10 /46.0068.70 /53.7070.40 /48.7074.50 /54.0070.93 /53.1873.54 /57.55Info-XLM85.15/72.8076.15 /59.3073.88 /59.0063.51 /49.7869.66 /54.9073.21 /55.2573.76 /58.51我们84.51/74.5978.25/61.6775.89/59.7965.18/50.0470.79/55.4575.74/56.4675.06/59.87列车XLM-R基础混合物MRCLBMRC82.59 /71.3082.40 /69.2083.40 /70.1078.55 /60.2078.80 /58.7080/59.6076.42 /60.6975.40 /58.2076.50 /59.8065.15 /48.4263.60 /42.4065.00 /44.5071.35 /56.4366.20 /5067.40 /52.0076.10 /56.6872.60 /52.7074.6/55.575.03 /58.9673.17 /55.2074.48 /56.92我们84.06/73.1180.04/61.6877.88/62.4866.54/50.3473.77/58.9077.64/57.4976.66/60.66表6：XQUAD数据集的总体评价结果（F1/EM）实验数据集和评估我们在两个流行的数据集MLQA（Lewis et al. 2020）和XQUAD（Asai et al. 2018）上评估了我们提出的方法，以检查其有效性。MLQA是一个流行的xMRC基准测试，它涵盖了各种语言。我们在六种语言上评估我们的方法：包括英语，阿拉伯语，德语，西班牙语，印地语，越南语.XQUAD是另一个用于评估跨语言模型性能的数据集，它由11种语言组成。与上面的设置类似，我们在零镜头和翻译训练设置下的实验中使用相同的六种语言测试我们的方法表4显示了数据集的详细统计数据。我们使用两个评估指标，精确匹配（EM）和宏观平均F1得分（F1），这是普遍用于MRC模型的准确性评估。F1测量预测答案和地面实况答案之间的重叠标记部分。如果预测与地面实况完全相同，则精确匹配（EM）得分为1，否则为0。实现细节我们在XLM-R基础上构建了我们的模型，该模型基于包含12个变压器层的Hugging Face Transformers3我们使用AdamW（Loshchilov and Hutter 2017）作为模型优化器，权重衰减设置为0。01两个数据集学习率设置为3e-5。的大小和分别为20和50，在实验中，分别为4。Dur-通过微调，我们根据经验设置最大输入序列3https://github.com/huggingface/transformers4个Intuelance，大小为|一|增加，模型实现长度为384问题的最大长度是64。我们还使用预热比例并设置为0.1。公式8中的τ和批量大小分别为10和32等式9中的α被设置为0.5在实验中我们使用8个NVIDIA V100 GPU和32 GB内存训练模型，每个训练语言数据有8个epoch，每1000步保存一个检查点。基线我们将我们的模型与以下强基线进行比较：(1) M-BERT （ Pires ， Schlinger 和 Garrette 2019 ），BERT的跨语言版本，在104种并行语言上进行训练，并在零和少量设置下在多语言语言理解任务(2) XLM（Conneau and Lample 2019），另一种有效的预训练多语言模型，在各种跨语言任务上取得了令人满意的结果;（3）LAKM，由Yuan等人提出的预训练任务。（2020）通过为短语级MLM引入额外的并行语料库;（4）mixMRC，由Yuan等人开发的基于推理的数据增强策略。（2020）用于xMRC;（5）LBMRC，一种新的增强方法（Liu等人，2020年）基于知识蒸馏;（6）CalibreNet（Liang et al. 2021），一种旨在增强PLM在多语言序列标记任务中的边界检测能力的最新模型;和（7）Info-XLM（Chi et al. 2021），一种新的最先进的信息理论跨语言预训练模型。为了公平的比较，我们使用XLM-R基地作为我们的骨干架构在这项工作中。结果我们比较我们的方法与强基线在两个设置。第一个是零射击：我们只对英语的最先进模型进行微调，然后在英语和其他五种低资源语言上进行测试。二是更好的性能，因为它可以挖掘更多的硬底片。意思是-同时也增加了计算量。经验上，我们选择的|一|50在我们的实验中+v：mala2255获取更多论文Z|Z||Z|--(a) MLQA（a）XQUAD图2：在两个数据集上，在训练中不同大小我们使用六种语言的平均F1分数作为评估指标。翻译训练：我们通过在微调期间联合所有语言的翻译数据来训练模型MLQA的结果在我们的第一组实验中，我们评估了MLQA数据集上的各种基线，结果列于表5中。我们从结果中得出几点意见。首先，我们的方法在零触发设置下优于所有语言的所有基线，表明我们模型的有效性。例如，我们改进了XLM- R的基础从64. 14%至66。00%在F1和从46。00%至四十八。EM评分平均为88%此外，在translate-train设置中，我们的方法实现了最佳结果67。16%和50。F1/EM得分分别为44%，大大超过了强基线第三，与与使用跨语言语料库的LAKM和CalibreNet相比，我们的模型也取得了更好的效果。最后，我们的模型在零拍摄设置甚至优于XLM- R基地在列车设置。这证实了所提出的硬学习算法和模糊感知对比学习的有效性。在XQUAD上的结果为了显示通用性，我们还评估了我们的方法在其他常用的xMRC基准称为XQUAD六种语言。表6中报告了实验结果，其也是在零发射和脉冲串设置下。显然，我们的方法在这两种设置中始终优于强基线。具体来说，我们最好的模型优于XLM-R基地在高速列车设置与一个明确的margin- gin在F1和EM分数。在零拍摄设置中，我们的模型也平均得到1。52%和2。32%的人在这些语言中分别提高了F1和EM分数。即使与mixMRC和LBMRC等强基线相比，我们的基线也显示出其优越性。评价在XQUAD上的实验结果进一步验证了该方法的有效性和鲁棒性。分析在本节中，我们进行了一系列的消融研究和分析，以更好地了解是什么有助于性能，模型esarvi我们69.04/51.2058.54/41.0367.92/47.19-HL67.64/49.4557.10/39.1866.00/45.49-AA-CL67.70/50.1257.66/39.8067.00/46.07带MML68.47/50.2157.46/40.0066.89/46.01表7：我们的方法在MLQA数据集上的消融研究，在训练设置下我们用三种语言评估每种方法：西班牙语，阿拉伯语和越南语。我们的模式的优势。此外，我们还对A β-Penetration A和B的超参数τ关键部件为了评估我们的模型的有效性，我们通过单独去除每个关键组件来进行如表7所示，在删除HL时存在明显的性能差距，这表明预先获得一组预测并通过硬更新训练模型在性能中起着重要作用。然后，删除AA-CL，模型的性能下降不可避免。结果证明了这种从粗到精的方法在训练过程中利用高置信度预测的硬否定的有效性一般来说，每个关键组件都有助于模型的性能改进。在表7中，我们提供了使用MML作为训练目标的结果的模型性能在三种语言的F1和EM分数上下降约1%，再次表明HL算法Z的大小为了评估所提出的硬学习算法在预先获得的预测集（）的大小方面如何工作，我们在两个数据集上进行了一系列实验，=1，5，10，20，50。图2显示了结果。为了公平比较，本实验中删除了AA-CL。图+v：mala2255获取更多论文--∈|Z||Z||Z|（一）不1k4k8k16k24k30kXLM-R我们的（前4个模型预测）(b)图3：MLQA数据集的一个例子，其真实答案为“1876年9月”。对于每个迭代步骤T，我们从基线（XLM-R基础）呈现前1个预测，并从我们的前4个预测中呈现在训练设置下。8073.75MLQA XQUAD（“1876年”对“1876年9月”），这可以被看作是一个可以理解的错误。图3（b）中的可视化显示了我们的模型在从许多相似的跨度中识别正确答案的能力。67.561.25550.10.30.50.70.9超参数α研究α的敏感性分析是至关重要的，因为我们以多任务的方式训练我们的模型。之后，我们进行了额外的实验，以研究不同的α值对优化两个数据集上的模型的影响。我们用α 0检验模型的性能。1，0。三，零。五，零。七，零。第九章从图4中，我们发现MLQA和XQUAD上的模型性能相似。图4：在训练中不同α的模型性能，在训练设置中我们使用六种语言的平均F1分数作为评估指标。2表明，我们提出的方法优于MML和基线一致的不同值。当设置为20和50时，模型在两个数据集上实现了相当的性能。考虑到计算效率和内存开销，我们在我们的主要实验。训练模型预测的案例研究为了展示我们的模型在训练过程中的表现，我们分析了顶级预测，并从不同的迭代步骤（从1k到30k）的模型中图3显示，基线和我们的模型都是首先将更高的概率分配给错误的预测，比如 “in September” 和“September”，但逐渐地，我们的方法倾向于支持真实的预测。遗憾的是，XLM-Rbase在训练结束前仍然坚持做出错误的预测，这表明它可能会被类似的跨度与正确答案混淆最大的趋势α，我们的方法取得了最好的结果，α= 0。五、结论在本文中，我们解决的挑战，探索挖掘有用的任务相关的知识，从n-best answer预测的潜力。具体来说，我们将xMRC模型的训练分为两个阶段：（1）在第一阶段，我们以top-k预测结果的召回为目标，因此，开发了一种硬学习算法，以逐步鼓励模型对预先获得的top-k预测给予更高的关注，并将其视为弱监督。(2)然后，我们提出了一个答案感知的对比学习，以加强模型实验结果表明，我们的模型实现了竞争力的性能相比，国家的最先进的两个公共基准数据集。系统的分析进一步证明了我们的模型中每个组件的有效性。未来的工作可以包括如何将AA-CL扩展到其他自然语言理解任务。帕萨格：与其他大学一样，诺丁的学生经营着许多新闻媒体。九个学生经营的媒体包括三家报纸，一家广播电台和电视台，以及几家杂志和期刊。1876年9月开始作为一个单页的期刊，学术杂志每月发行两次，并声称成为美国历史最悠久的大学出版物。另一本杂志《杂耍者》每年出版两次，主要关注学生文学和艺术作品。每年出版一次《穹顶年鉴》。这些报纸有不同的出版兴趣，《观察家报》每天出版，主要报道大学和其他新闻，工作人员来自圣母大学和圣玛丽学院问：巴黎圣母院的学术杂志是什么时候开始出版的？答案：1876年9月F1分数九月九月一八七六年九月1876九月一八七六年九月18761876九月一八七六年九月1876一页的日记九月在九月九月九月一八七六年九月1876九月一八七六年九月1876九月一八七六年九月1876九月1876一八七六年九月1876九月+v：mala2255获取更多论文致谢裴健的研究部分得到了NSERC发展资助计划的支持。本文中的所有观点、发现、结论和建议均为作者的观点，不一定反映资助机构的观点引用Asai，A.; Eriguchi，A.; Hashimoto，K.;和Tsuruoka，Y.2018.多语言抽取式阅读理解的机器翻译。CoRR，绝对值/1809.03275。Chen，N.;刘，F.;你，C。周，P.;和Zou，Y.2021年自适应双向注意：探索机器阅读理解的多粒度表示。在ICASSP，7833-7837中。美国电气与电子工程师协会。Chi，Z.;董湖;Wei，F.;杨，N.;Singhal，S.;王，W.;宋，X。Mao，X.;黄，H.; Zhou，M. 2021. In-foXLM：一个跨语言模型预训练的信息理论框架。在NAACL-HLT，3576-3588中。计算语言学协会。Conneau，A.; Khandelwal，K.; Goyal，N.; Chaudhary，V.; Wenzek，G.; Guz ma'n，F.; Gr av e，E.; Ott ，M.;Zettlemoyer，L.;Stoyanov，V.2019年。无监督跨语言表征学习的规模。CoRR，绝对值/1911.02116。Conneau，A.;和Lample，G.2019年。跨语言语言模型预训练。在NeurIPS，7057崔，Y.; Che，W.; Liu，T.; Qin，B.; Wang，S.;和Hu，G. 2019. 跨语言机器阅读理解。见 EMNLP/IJCNLP（1），第1586计算语言学协会Gao，T.;姚，X.;和Chen，D. 2021. SimCSE：Sim-句子嵌入的双重对比学习。CoRR，abs/2104.08821。Hadsell，R.; Chopra，S.;和LeCun，Y. 2006.通过学习不变映射来降维。他，K。范，H.;吴，Y.; Xie，S.;和Girshick，R. 2020.用于无监督视觉表征学习的动量对比。黄， H.; 梁玉 ; 段， N.; 龚， M.; Shou ， L.; Jiang ， D.;Zhou ， M. 2019. Unicoder ： A Universal LanguageEncoder by Pre-training with Multiple Cross-lingual Tasks.见EMNLP/IJCNLP（1），2485-2494。计算语言学协会。Khariton ov，E.; R i vi e`re，M.; Synna ev e，G.; 沃尔夫，L.; Mazare'，P.-E.的; Douze，M.; Dupoux，E. 2021.时域中语音表示的数据增强对比学习。IEEESpokenLanguage Technology Workshop （英语： IEEE SpokenLanguage Technology Workshop）Kruengkrai，C.;阮氏T. H.的; Mahani，S.一、和Bing，L.2020.使用联合语句和标记来改进低资源命名实体识别。在ACL，5898- 5905。计算语言学协会。Lewis，P. S. H.的; Oguz，B.; Rinott，R.; Riedel，S.;和Schwenk，H. 2020. MLQA：评估跨语言提取性问题分类。在ACL中，7315-7330。计算语言学协会。Liang，S.;Shou，L.;裴，J.;龚，M.;左，W.;而江，D. 2021. CalibreNet：用于多语言序列标记的校准网络。InWSDM，842-850. ACM。梁玉;段，N.;龚，Y.;吴，N.;郭，F.;Qi，W.;龚，M.; Shou，L.; Jiang，D.; Cao，G.;范，X.;张，R.;Agrawal，R.;Cui，E.;Wei，S.;Bharti，T.;乔，Y.;陈杰;吴，W.; Liu，S.;杨，F.; Campos，D.; Majumder，R.;Zhou，M. 2020. XGLUE：一个新的跨语言预训练，理解和生成基准数据集。在EMNLP（1），6008-6018中。计算语言学协会。刘，J.;Shou，L.;裴，J.;龚，M.;杨，M.;而江，D. 2020.跨语言机器阅读理解与语言分支知识提取。InCOLING，2710国际计算语言学委员会Loshchilov，I.;和Hutter，F.2017年。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101。Min ， S.;Chen ， D.;Hajishirzi ， H.; 和 Zettlemoyer ，L.2019年。弱监督问题求解的离散硬EM方法。见EMNLP/IJCNLP（1），2851-2864。计算语言学协会。Pires，T.; Schlinger，E.;和Garrette，D. 2019.多语言BERT有多多语言？arXiv预印本arXiv：1906.01502。Rajpurkar，P.;贾河; and Liang，P. 2018.知道你不知道的：SQuAD无法回答的问题。InACL（2），784-789.计算语言学协会。Rajpurkar，P.;张，J.; Lopyrev，K.; and Liang，P. 2016.SQuAD ： 100 ， 000+QuestionsforMachineComprehension of Text。参见EMNLP，2383-2392。计算语言学协会。Reddy，S.; Chen，D.; Manning，C. D. 2019. CoQA：一个会话提问的挑战。半导体计算。Linguistic

下载后可阅读完整内容，剩余1页未读，立即下载