自然语言理解中少样本学习的评估和改进

141 浏览量更新于2023-12-01 收藏 769KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文FewNLU：对少数自然语言理解郑延安12岁，周靖1岁，钱玉洁3岁，丁明1岁，李健1，Ruslan Salakhutdinov4，唐杰<$12，Sebastian Ruder<$5，杨<$1清华大学，2BAAI，3MIT CSAIL，4卡内基梅隆大学，5DeepMind{zyanan，jietang，zhiliny}@tsinghua.edu.cn，zhouj18@mails.tsinghua.edu.cn，ruder@google.com摘要自然语言理解（NLU）任务最近引起了人们的广泛关注。然而，先前的方法已经在一组不同的协议下进行了评估，这阻碍了公平的比较和测量该领域的进展。为了解决这个问题，我们引入了一个评估框架，该框架在三个关键方面改进了以前的评估程序测试性能、开发测试相关性和稳定性。在这个新的评估框架下，我们重新评估了几个国家的最先进的少数镜头方法的NLU任务。我们的框架揭示了新的见解：（1）在以前的文献中，方法的绝对性能和相对差距都没有得到准确的估计：（2）没有一种方法可以支配大多数具有一致性能的任务;(3)某些方法的改进随着较大的预训练模型而减少;以及（4）来自不同方法的增益通常是互补的，并且最佳组合模型的性能接近于强的全监督基线。我们开源了我们的工具包FewNLU，它实现了我们的评估框架以及一些最先进的方法。11介绍自然语言理解（NLU）的少量学习已经通过预训练的语言模型（ PLM; Brown et al. ，2020;Schick and Schütze，2021a，b）. 为了用很少的样本（通常少于一百个）学习新任务，少次学习受益于存储在预训练模型中的先验知识已经提出了基于PLM和提示的各种少拍方法（Liu et al. ，2021b; Menon et al. ，2021; Gao等人，2020）。作者对这项工作做出了同样的贡献†通讯作者。1我们的代码库在https：//github上发布。com/THUDM/FewNLU和排行榜可在https://fewnlu.github.io获得。虽然小样本自然语言理解的研究正在迅速发展，但缺乏标准的评估协议已成为阻碍在共同的基础上对各种方法进行公平比较和衡量该领域进展的障碍。虽然有些工作（ Schick 和Schütze，2021 b; Menon et al. ，2021）用一组固定的超参数进行实验，指出这样的设置可能暴露于高估的风险（Perez et al. ，2021; Zhanget al. ，2020）。2其他研究（Liu et al. ，2021b;Gao et al. ，2020; Perezet al. ，2021）提出使用小的开发集来选择超参数，但是它们的评估协议在几个关键方面不同（例如，如何构建数据分割），这实际上会导致很大的差异，正如我们将展示的那样。上述现象强调了需要一个共同的协议，用于评估少数镜头NLU方法。然而，事实上，少量学习对许多因素的细微变化非常敏感（Dodgeet al. ，2020; Gao et al. ，2020）为设计可靠的评估协议提出了挑战。在这项工作中，针对上述挑战，我们提出了一个评估框架，工作少镜头自然语言理解。评估框架包括一个重复的过程-选择超参数，选择数据分割，训练和评估模型。为了建立一个可靠的评估框架，必须指定两种设计选择：(1)如何构造用于模型选择的数据分割我们进行了一系列实验来回答这两个问题。对于第一个问题，我们提出了一个我们证明了这个简单的策略2这是因为固定超参数是根据实际考虑因素选择的，这些考虑因素是由先前评估的测试集性能提供的。arXiv：2109.12742v1 [cs.CL] 2021年9月+v：mala2277获取更多论文优于K折交叉验证和最小描述长度（Perez etal. ，2021）在三个维度上：（1）所选超参数的测试集性能;（2）开发集与真实测试集性能之间的相关性;以及(3) 对超参数设置的鲁棒性。对于第二个问题，我们进行了综合实验，研究各种超参数的影响实验表明，提示模式和动词（Schick和Schütze，2021 b）是在很大程度上影响性能的关键超参数。此外，与随机性有关的因素，如训练过程中的样本顺序，在确定性能方面也很重要。然后，我们进一步在这个共同的评估框架下重新评估我们的重新评估导致了第2节中总结的几个发现。为了帮助再现我们的结果和基准测试少数NLU方法，我们开源FewNLU，这是一个工具包，包含许多最先进的方法，数据处理实用程序以及我们提出的评估框架的实现。总而言之，我们的贡献如下。1. 我们介绍了一个新的评价框架，少镜头自然语言理解。我们提出了少镜头评价的三个必要条件，并表明我们的框架在这些方面优于以前的框架。我们的框架使得有可能比较方法，并以合理的方式衡量少数镜头NLU的进展2. 在新的评估框架下，我们对最近的方法的性能进行了单独的基准测试，并结合了最佳性能。这些基准反映了当前的最新技术水平，并将作为未来研究的重要基线。3. 在我们的探索过程中，我们得出了几个关键发现，总结在第2节中。4. 我们开源了一个工具包FewNLU，以方便未来的研究与我们的框架。2调查结果概述作为参考，我们在这里收集了我们的主要发现，并在整篇论文中讨论了每一个发现。调查结果1. 多分裂是一种比K折交叉验证和最小描述长度更好的数据分裂策略，其优点在于：（1）测试性能，(2)开发集和测试集之间的相关性，以及（3）相对于测试集的稳定性。运行次数结论2. 我们建议至少搜索在超参数调优期间提示模式，并且搜索其他模式也是有益的。应该在同一组超参数下搜索和比较所有的com-encoding方法结论3. 在先前的文献中，通常没有准确地估计少数发射方法的绝对性能和相对差距。此外，一些少数拍摄方法的好处（例如，ADAPET（Menon et al. ，2021年））减少更大的模型，如DeBERTA。半监督少拍方法的增益（例如，iPET（Schick和Schütze，2021 b）和Noisy Student（Xie et al. ，2020））甚至在更大的模型上也是一致的。结论4. 不同方法的收益在很大程度上是互补的。最近最先进的方法的组合在很大程度上优于单独的方法，并实现了最佳性能，接近于RoBERTa上的强大的全监督基线（Liu et al. ，2019）。然而，在DeBERTa上，最好的少数镜头和完全监督的系统之间仍然存在相当大的差距（He et al. ，2020）。发现5. 没有单一的少数几个镜头的方法占主导地位的大多数NLU任务。这突出了需要开发在任务之间具有更一致和鲁棒性能的少量方法。3相关工作“ 预训练和微调 ” 范式（ Howard 和 Ruder ，2018）在少数NLU任务中表现出巨大的已经开发了各种方法，例如[CLS]分类微调（Devlinet al. ，2018），基于提示的离散提示方法（ Schick 和 Schütze ， 2021 b; Gao et al. ，2020）或连续提示（Liu et al. ，2021b; Shin etal. ，2020; Li andLiang，2021; Lester et al. ，2021），以及校准输出分布的方法（Yang etal. ，2021; Zhao et al. ，2021年）。事实上，少量学习对许多因素敏感，因此非常不稳定（Liuet al. ，2021a; Lu et al. ，2021;Zhang et al. ，2020; Dodge et al. ，2020）增加了少镜头评估的难度。几项工作解决了评估协议，以减轻不稳定的影响：高等。（2020）和Liu et al. （2021b）采用保留集选择模型。Perez等人（2021）提出了K折交叉验证和最小描述长度评价策略。Bragg等人（2021）和Ye等人（2022）（2021）分别提出了几个NLP基准点FLEX和CrossFit，用于+v：mala2277获取更多论文i=1我∈ Y--火车dev6通过在D上训练来运行方法kMdevdevdevHdev测试我我----cus主要是针对少数学习的数据集和指标。相反，我们的工作解决了评价程序的固有问题。此外，它在几个方面不同于其他关于少数镜头评估的工作：（1）我们提出了三个指标来评估数据分割策略;（2）虽然大多数先前的工作提出了评估协议，但没有合理化，我们进行了全面的实验来支持我们的两个关键设计选择;（3）我们制定了一个通用的评估框架。4评价框架我们首先正式定义了少数镜头NLU问题。对于每个NLU任务，我们有一个小的标记数据集Dlabel= （ xi ， yi ） N 和一个大的测试集Dtest=xtest，ytesti，其中N是标记数据的数量，xi是文本输入（由一段或多段文本组成），yi是标签。目标是用D标签微调预训练模型，以获得D测试的最佳性能。一个未标记的数据集Dunlab=xunlabi也可以被半监督少射方法使用（§ 5.1）。4.1固定超参数不是最优的一些先前的作品（Schick和Schütze，2021 a，b; Menon等人，2011年）。，2021）用一组固定的超参数（由实际考虑和经验确定）执行少量学习，而无需提前停止和任何模型选择。我们把这种评估策略称为固定超参数。Schütze，2021 b）。其次，我们手动尝试其他超参数，以找出是否有更好的配置。从表1中，我们观察到：1. 某些因素，特别是模式，对性能的影响很大（最好80.26%，最差61.13%）。但是，如果没有开发集，我们无法区分它们。2. 存在一个超参数（表1中的Optimal），它的性能比固定参数好得多因此，有必要建立一种确定最佳超参数设置的机制。3. 结果表明，AL-BERT上的好的超参数在DeBERTa上不起作用固定的超参数不是最优的，我们需要在新的条件下重新选择它们。4.2评价框架的制定第4.1节中的观察促使我们研究一个更强大的评估框架，为少数镜头NLU。评价框架有两个目标：（1）对NLU任务的少镜头方法进行基准测试，以便它们可以被公平地比较和评估;（2）获得最佳的少镜头性能，以便它可以在实践中使用。根据这两个方面，我们提出了算法1所示的少镜头评估框架.算法1：少镜头评估框架数据：标记集和测试集（D标签和D测试），少量方法M，超参数空间结果H：，数据分割的数量K。S测试性能;最佳超参数h。1 对于k←1 ···K做2将D标签分为D k和D k根据一定的数据分割策略;3端4 对于h∈ H，5为k←1···K做火车并在Dk上进行评价;7端8报告开发集性能Ph，k。9计算平均值和标准差表1：PET在RTE任务上的性能，10端部Kdev-set结果，Ph± S偏差;不同的超参数模式和固定超参数由（Schick和Schütze，2021 b）提供基本模型：DeBERTa-xxlarge-v2，我们想知道如何很好地固定超-11 选择具有最佳PH值的h s;12 如果目标是评估方法，13在具有对应于hs的K个的测试集D测试上进行评估;14报告平均值和标准差HS参数转移到新的场景，例如开关-15 else ifK测试结果Phs±S检验。然后返回到另一个基础预训练模型。我们进行了初步的实验，少数拍摄超级胶水与64个样本的标记集的基础上的De-BERTA。首先，我们实验了用于ALBERT的固定超参数（Schick和目标是获得最佳性能16通过固定在整个标记的集合D标签具有L个不同随机种子的hs17在具有L个检查点的测试集上进行评估;18报告L测试结果的平均值和标准差结果19终超参数测试Acc.Avg.LR步骤WR固定012341e-5250069.31±4.3961.13±0.9163.06±1.5063.06±1.8280.26±1.8567.36最优012341e-55e-6项5e-6项5e-6项5e-6项3003003003003000.050.0500072.44±1.8563.78±1.3769.07±5.5565.70±1.2581.11±1.3770.42+v：mala2277获取更多论文HH−−框架搜索超参数空间来评估给定少次方法M，获得其测试集结果和最佳超-参数设置h 每个测量h通过执行培训和评估进行估计a-CV多个数据分割上的操作（通过随机MDL多重分割根据策略分割标记的数据）并报告它们的平均DEV集结果。最后，该方法在测试集上使用对应于h的检查点进行评估。对于基准测试，我们报告多个测试集结果的平均值和标准差。否则，我们用h重新运行整个标记数据。由于这项工作的重点是基准测试，后面的部分中的实验报告了平均值和标准差结果，而无需在整个标记集上重新运行该框架需要指定两个设计选择：如何构建数据分割以及哪些超参数对搜索至关重要，我们将在4.3和4.4节讨论。34.3如何创建数据拆分4.3.1期望值：性能、相关性和稳定性我们首先提出以下三个关键的必要条件，用于评估不同的数据分割策略。1. 所选超参数的性能。一个有效的数据分裂策略应该选择一个超参数，获得良好的测试集性能。我们报告了与 Schick 和Schütze，2021 b相同的指标，以及相应的标准差。2. 开发和测试集之间的相关性（超参数分布）。由于小的开发集用于模型选择，因此对于好的策略来说，重要的我们报告的斯皮尔曼3. 相对稳定性运行次数K。超参数K的选择不应成为上述两个度量的另一个重要影响因素性能和相关性）。此外，当K增加时，期望具有减小的方差因此我们3为了简单和易用，我们使用网格搜索来搜索超参数空间，并识别关键超参数以限制其大小。更复杂的搜索方法，如贝叶斯优化（Snoek et al. ，2012）可以用于在更大的超参数空间上搜索。图1：不同的数据分割策略如何分割标记数据的说明，K = 4，r = 0。五、用不同的K值报告上述两个指标以及K次运行中测试分数的标准差。4.3.2数据拆分策略本节考虑三种数据分割策略，包括K折交叉验证（CV），最小描述长度（MDL）和我们的多重分割。前两个是由佩雷斯等人介绍。（2021），而我们引入多分裂作为以前工作的适应（高等人。，2020; Liu et al. ，2021b）。[4]所有这三项战略都符合第4.2节中提出的框架的管道：1. K-折叠交叉验证将标记的数据平均划分为K个折叠。对于每个超参数，它执行K 次训练，每次使用第 k个（ k=1 ，2，...，K）次折叠作为发展集，其余K1次折叠作为训练集.2. 最小描述长度将一半标记数据分配为联合训练数据，并将另一半平均划分为K个折叠。每次使用第k次折叠作为开发集，使用联合折叠和所有先前的k1次折叠进行训练。3. Multi-Splits执行K次训练，每次时间使用通过以固定比率r将标记的数据随机地划分为训练和开发集合而获得的不同数据划分。图1说明了每种数据拆分策略的工作原理。从本质上讲，它们在几个方面有所不同。1. 对于CV和MDL，K控制多个数据分割上的试验次数以及分割比。对于多分割，分割比与K解耦并且由另一超参数r控制。52. 他们使用不同数量的数据进行训练和开发，如表2所示。4 MDL 也被用于评估预训练模型的泛化能力（Yogatama et al. ，2019年）和探测（Voita和Titov，2020年）。5虽然多重分割使用了一个额外的超参数r，但我们将在第4.3.4节中展示，对于不同的r值，性能是稳健的。列车组开发集未使用的数据+v：mala2277获取更多论文P.Σ0.60.40.20.00.20.4在BoolQ0.80.6RTE相关性0.750.50COPA相关性表2：不同数据分割策略的培训和开发集示例数量。N是标记数据的总数，K是运行次数，k是MDL的第k分割，r是多分割的预先指定的分割比率。3. 在某些情况下，CV和“多重分割”共享相同的数据分割比率。不同之处在于，Multi-Splits允许不同数据分割之间的重叠，而CV则不允许。0.820.800.780.760.746422 4 816在BoolQ2 4 816布尔Q上的测试STD2 4 8160.840.820.800.780.760.747.55.02.52 4 816RTE上的性能2 4 816在RTE2 48160.9250.9000.875422 4 8 16关于COPA2 4 8 16COPA上的测试STD2 4 8 16在极限情况下，Multi-Splits类似于leave-P-out交叉验证（LPOCV;Celisse，2014）6，其中LPOCV运行N次（P是开发集示例的数量），而Multi-Splits运行K次。随着K的增加，多分割逐渐接近LPOCV。由于在实践中不可能遍历大量可能的拆分，因此多拆分可以被视为 LPOCV的实际版本。与 Gao etal. ，2020），我们提出的多分割策略对单个数据集使用多个数据分割。因此，它更实用，因为在现实世界的场景中，很难获得真正的少数问题的多个标记数据集;否则，它就变成了一个完全监督的学习问题。在（Liuet al. ，2021b）是当K=1时的多分裂的特殊情况，其对单个数据分裂进行采样并且遭受更高的方差。4.3.3实验装置我们用几个镜头的SuperGLUE基准进行实验（Wang et al. ，2019 a）。我们考虑使用32个标记样本的设置-与先前的工作相同（Schick和Schütze，2021 b; Menon等人，2012年）。，2021）-以及每个任务的64个标记样本我们评估基于广泛使用的基于小样本的少数拍摄方法PET（Schick和Schütze，2021 b）的策略，并以DeBERTa-xxlarge作为基础模型。7我们在相同的超参数空间上对相同的任务进行实验，以确保公平的比较;在这个实验中，我们搜索学习率，评价率，提示模式和最大训练步长。关于数据集和超参数的更多细节见附录A.1。6Leave-P-out交叉验证使用P数据示例作为开发集，其余数据示例作为训练集。在开发集和训练集中切割标记数据集的所有方法上重复此操作7.由于GPU内存的限制，我们修复了DeBERTA底层第三层的参数多分割CV MDL图2：在不同策略下，在BoolQ、RTE和COPA任务中的少次表现、Spearman秩和和标准差结果以及K的选择。平滑稳定的点线表示设置对K的选择不敏感。4.3.4主要结果及分析图2和表3显示了64个标记数据的数据集下的结果附录A.1中给出了32个标记示例的结果。测试性能结果。从表3a中，我们观察到多分割和CV策略都获得了最佳的总体平均测试集性能。Multi-Splits使用较少的标记样本进行训练（128），而CV和MDL使用更多（分别为192和176）。尽管使用了更多的训练数据，CV和MDL都没有实质性地表现得更好。这表明，少数镜头性能受到无法选择最佳模型的限制，而不是没有足够的训练数据。相关性结果。在表3b中，多重分割显著优于CV和MDL，平均优势约为0.2点。对于5/7任务，多分割显示最佳相关结果。一个潜在的原因是，CV和MDL分配给开发集的标记数据示例（分别为 64 和 32 ）少于 Multi-Splits（128），这导致相关性差，从而导致模型选择差。相对稳定性运行次数K。图2示出了相对于温度的结果。不同K.我们注意到以下情况：（1）Multi-Splits（蓝线）在相关性和性能方面最稳定，而CV和MDL对K的选择更敏感。(2)多重分割显示布尔Q和RTE上多次运行的最小方差。对于COPA，尽管当K = 2时多分割显示出高方差，但是随着K=2，方差变得更小。K越大，CV和MDL越大，或不稳定的方差。一个可能的解释是增加K并不影响训练和发展的数量CVMDL多重分割#train#dev（K-1）*N/KN/KN/2+N*（k-1）/（2K）N/（2K）N*rN*（1-r）+v：mala2277获取更多论文表3：PET对FewGLUE的不同数据分割策略的结果（K=4）。较大的分数表明该策略有效地选择了实现更好测试集性能的模型最佳结果以粗体表示(a) 在64个标注数据样本的数据设置下的测试性能。布尔QAcc.RTEAcc.WiCAcc.CBAcc.F1MultiRCF1aEM.WSCAcc.CopaACCAvg.CV79.01±4.3577.8±2.2565.3±1.7190.18±2.3187.52±2.280.08±1.1545.02±1.4682.69±1.7692.25±1.7178.35MDL76.43±7.1276.17±8.4264.64±2.9386.01±4.0983.03±4.7977.63±1.243.81±1.3280.05±1.2189.5±3.3276.00多重分割（r=1：1）82.67±0.7878.73±2.267.2±1.3491.96±3.7288.63±4.9178.18±1.5942.79±2.4280.53±1.8288.62±2.8878.36多重分割（r=3：1）81.92±0.9079.18±5.2364.86±1.4191.96±3.0987.92±5.2080.82±0.6045.93±1.0682.45±2.8790.13±3.6878.84(b) 在64个标记数据实例的数据设置下的相关结果。布尔QRTEWICCBMultiRCWSCCopaAvg.CV-0.04970.85610.81840.52860.14930.53980.56680.4870MDL-0.11430.78060.63260.32740.26520.43270.63420.4226多重分割（r=1：1）0.70790.82660.94640.75580.45300.15900.89970.6783多重分割（r=3：1）0.62200.81630.80070.04320.44700.26620.50490.5001这是多分割的示例;相反，它增加了结果的置信度。多重分裂的一个重要的实际好处是，人们总是可以选择增加K以降低方差。然而，对于CV和MDL，训练和开发集的大小受K的影响，其中极大的K值导致失败模式，而极小的K值导致不稳定的结果。在实践中，很难事先知道使用哪个K值。我们在Multi-Splits中对r超参数的两个值进行了实验，1：1和3：1。前者平均分割标记数据。后者构建了与CV相同大小的培训和发展分割。表3b中的结果表明，两个值具有相似的测试性能，而r=1：1具有更好的相关性。这两个比率的结果优于CV和MDL。对于具有少于一百个标记示例的少数NLU，r=1：1根据经验推荐。我们采用r=1：1在整个实验中。综上所述，基于上述结果和分析，我们得出以下结论。调查结果1. 多分裂是一种比K折交叉验证和最小描述长度更好的数据分裂策略，其优点在于：（1）测试性能，(2)开发集和测试集之间的相关性，以及（3）相对于测试集的稳定性。运行次数4.4哪些超参数至关重要4.4.1我们应该搜索随机种子吗？在这项工作中，我们专注于两种类型的因素，影响少拍评价，超参数和随机性随机性可能会导致训练过程中不同的权重初始化、数据分割和数据顺序。根据经验，如何处理随机性取决于用例。为了获得尽可能好的性能，可以搜索敏感的随机因子，如随机种子。然而，由于我们专注于对少数NLU方法进行基准测试，因此我们在实验中报告了平均结果（以及标准差），以排除随机性的影响，并反映方法的平均性能，以便进行公平的比较和测量。4.4.2实验实验设置为了检查某个因素在多大我们报告多个性能结果的标准差较大的值表明目标因子影响少拍性能，因此对于搜索是至关重要的我们实验了四个任务，包括BoolQ，RTE，CB和COPA。我们考虑了以下因素：训练过程中的样本顺序，提示模式，训练批量大小，学习率，评估频率和最大训练步骤。更多实验细节见附录A.2。结果和分析结果见表4。我们标记大于阈值2的值。0粗体提示模式是影响最大的因素，提示模式的设计或选择至关重要。培训+v：mala2277获取更多论文表4：基于PET和DeBERTa的不同因素对BoolQ、RTE、CB和COPA的敏感性分析。度量是标准差。我们将超参数设置为第5节中获得的性能最佳的参数，同时为目标因子分配不同的值对于CB，A/B表示Acc./F1. “Train超参数布尔QRTECopaCB列车秩序3.644.012.172.21/6.09开发集提示模式训练批次学习率3.443.340.0010.281.331.635.802.641.973.18/4.071.01/5.871.56/4.56评估频率2.392.962.730.45/0.82列车秩序0.871.872.173.01/4.73测试集提示模式训练批次学习率2.852.440.1710.031.090.652.650.720.526.45/7.080.89/1.324.82/7.25评估频率0.840.531.180.77/2.07示例顺序也显著地影响性能。评价频率对小开发的得分有影响我们推测，较低的频率选择一个模型，具有更好的性能在小的发展集，但增益不转移到测试集的原因是部分过拟合。总结：结论2. 我们建议在超参数调优期间至少搜索提示模式，搜索其他模式也是有益的。应该在同一组超参数下搜索和比较所有的com-encoding方法5最新方法的再评价5.1少射法我们现在开始在我们新的评估框架下重新评估最先进的我们考虑两种类型的少射方法：最小少射方法，其仅假设访问小的标记数据集，包括分类（CLS; Devlin et al. ，2018），PET（ Schick and Schütze ， 2021b ）， ADAPET（Menon et al. ，2021）和P调谐（Liuet al. ，2021 b）;和半监督的少数拍摄方法，允许访问额外的未标记数据集，包括 PET+MLM（Schick和Schütze，2021 a），iPET（Schick和Schütze，2021 b）和Noisy Student（Xie etal. ，2020）。5.2实验装置我们使用与4.3.3节相同的基准数据集、指标和超参数空间。在64个标记样本的数据集下，基于ALBERT-xxlarge和DeBERTa-xxlarge对于半监督方法（即，iPET和Noisy Student），它们需要未标记数据上的伪标记进行自训练。我们考虑了两种标记策略，包括单分裂标记和交叉分裂标记。在单分裂设置中（Schick和Schütze，2021b），伪标签由在相同数据分裂上训练的模型生成。在我们的评估框架中的交叉分割设置中，伪标签由在多个不同数据分割上训练的模型生成有关配置的详细信息，请参见附录A.3。5.3主要结果及分析重新评估结果我们的重新评估结果如表5所示。结果表明，基于分类的微调范式在所有任务和两个预训练模型上的表现都明显优于基于分类的微调（平均优势超过15分De- BERTA的表现一直优于ALBERT.我们在ALBERT上观察到不同的基于最小化的最小少数拍摄方法之间的性能差异（例如，PET和ADAPET平均相差超过4个点），而与DeBERTa的差异很小（例如，PET、ADAPET和P-tuning的性能差距平均小于1.0分）。相比之下，半监督的少数拍摄方法（包括iPET和Noisy）在两个模型上与最小少数拍摄方法相比通常平均显示1-2点改进在表7中，我们分别列出了来自先前评估以及我们的评估的绝对性能以及结果表明，在BoolQ，RTE和COPA上，以往的评估中，少数镜头方法的绝对性能通常被高估类似的发现也在先前的工作中得到了强调（Perez et al. ，2021; Zhang et al. ，2020年），我们的评估框架在更可靠的设置下证实了这些观察结果。此外，之前的评估不准确地估计了相对性能差距。例如，根据先前的评估，几种方法的相对性能（即，ADAPET、P-调谐和PET+MLM）与PET相比，在COPA上低 6.0多个点，这是由于在先前的工作中高估了PET然而，当将它们与PET在共同的基础上进行比较时，这些方法通常显示出改进。更广泛地说，我们观察到，perfor-+v：mala2277获取更多论文表5：在我们的评估框架下，使用我们设置的SuperGLUE测试集上的Multi-Splits策略，对ALBERT和DeBERTa上的少数方法进行重新评估。数据设置为64个标记的示例。对于iPET和Noisy Student，（cross）和（single）分别表示交叉分割标记和单分割标记策略，如第5.2节所述。每个任务的全局最佳结果以粗体表示。最小few-shot方法的最佳结果被加下划线。 The e~b~e~s t~r~e~s u~l~t s~f~o~r~s~e~m~i-~s~u~p~e r~v~i s~e~df~e~w~-~sh~o~t~m~~et~h~o~d~s用横线标出基础模型少射法BoolQRTEWiCCBMultiRCWSCCOPA平均值Acc.Acc.Acc. Acc.F1 F1a EM.Acc.ACCCLS55.0153.9750.8267.9752.1859.9518.8651.4464.2553.57宠物±2.9576.70±5.4972.83±3.0253.87±18.2984.38±10.3062.56±10.6976.51±9.8036.46±4.8775.72±9.3681.7570.12ADAPET±1.8579.24±1.3074.28±4.4758.07±4.4792.86±7.6689.99±1.5277.24±2.1337.17±6.4078.13±4.0381.7574.30P调谐±1.4276.55±3.5763.27±2.9655.49±1.4688.39±3.9184.24±1.9975.91±2.6438.01±3.4673.56±3.9585.2571.06±2.68±3.63±1.21±3.72±5.15±1.74±0.78±2.78±3.30阿尔伯特PET+MLM376.83±1.1874.29±4.1076.11±2.1676.83±1.3975.64±1.8259.49±1.7482.67±0.7881.28±1.2682.25±0.8571.48±1.6472.35±3.7172.62±2.8074.28±4.3175.27±1.9749.55±2.2379.42±2.4182.58±2.4482.22±1.2352.39±1.4454.78±3.9354.11±1.9858.35±2.4256.43±2.6754.08±2.1567.20±1.3466.50±2.1166.22±1.1883.93±5.0584.67±3.1884.38±5.6083.48±2.6884.82±4.4968.30±3.9691.96±3.7289.73±6.0894.20±2.2567.37±8.3176.92±5.4472.57±11.8473.86±2.4877.79±8.4660.10±10.1488.63±4.9186.63±7.2991.76±3.3075.15±0.3476.33±1.1876.59±1.4075.71±2.1477.11±1.4975.42±2.3978.18±1.5977.88±2.5578.45±1.4635.68±1.1037.72±2.5837.00±2.3437.30±2.7138.25±0.9234.23±5.0242.79±2.4243.05±3.6043.78±3.9376.20±5.5271.39±5.5973.16±3.7276.20±4.3378.61±2.7660.82±14.2380.53±1.8283.41±3.4684.62±4.6485.75±3.4084.00±6.0283.50±3.3483.25±4.1983.00±4.7685.25±2.2289.00±2.9488.75±4.4386.50±3.7070.5370.6670.6872.0172.5661.1778.5178.7479.42iPET（单）3、4噪音（单）3，4iPET（交叉）3， 4噪声（交叉）3， 4CLS宠物ADAPETP调谐DeBERTaPET+MLM3iPET（单）3，4噪音（单）3，4iPET（交叉）3， 4噪音（交叉）3， 4我们最好的3， 4（少数镜头）RoberTa5（完全支持）DeBERTa2（完全支持）82.80±0.9781.27±1.6181.60±1.548~3~。四、五、±0.9082.19±0.6584.0±0.5586.988.38~3~。3~0±2.4081.11±1.8981.95±2.0183.12±1.0481.95±0.5185.7±0.6386.693.558.23±4.9864.75±4.2765.97±2.44~6~9~。6~3岁±2.1568.26±1.1269.6±2.1575.6-90.18±3.0989.88±5.01~9~1~。6~7岁±2.3391.52±3.0590.18±2.3194.6±1.4698.2-87.18±6.1787.70±6.5289.17±2.95~9~0~。7~2±2.6886.74±3.0092.9±1.85--77.05±1.8079.99±1.9479.85±1.2279.92±1.1179.48±2.5381.5±0.7685.787.840.63±1.64~4~5~。2~3±2.1945.10±2.5844.96±3.1344.20±4.1448.0±0.99-63.679.81±4.0882.61±3.6882.61±3.838~5~。5~8岁±1.7685.10±3.2887.0±2.2991.3-85.75±3.4090.83±2.7990.67±2.53~9~3~。七、五、±2.99~9~3~。七、五、±3.3093.8±2.9994.097.076.7778.8579.3881.3080.2285.17188.33-DeBERTa罗伯塔DeBERTa1与RoBERTA（完全支持）相比我们最好的（少数拍摄）85.17的平均值不包括MultiRC-EM和CB-F1。2在DeBERTa上的完全监督结果在https://github.com/THUDM/GLM中报告。3使用未标记的数据4.使用了集成技术。5. The Roberta（fully-sup.）结果（Liu et al. ，2019）。RoBERTa-large的参数比DeBERTa-xxlarge-v2少表6：为每项任务实现最佳少数拍摄性能的方法组合。我们考虑了三种最小的几次射击方法，包括PET，ADAPET和P-调整，以及五种训练范例，包括单次运行，iPET（单/交叉）和Noisy（单/交叉）。“+MLM” denotes whether weinclude the MLM as the additional regularizationBoolQ RTE WiC CB MultiRC WSC COPA+v：mala2277获取更多论文最小少射方法PET ADAPET PET ADAPET PET培训模式iPET（交叉）噪声（交叉）iPET（交叉）iPET（交叉）噪声（交叉）噪声（交叉）iPET（交叉）+传销C- -C--+v：mala2277获取更多论文表7：先前评估和我们评估的比较。我们报告的绝对性能（Abs.）以及与PET的相对性能差距（Schick和Schütze，2021 b）（Rel.）不同方法的评价结果（Prev.）我们的评价框架（Ours）BoolQ、RTE、WiC和COPA任务。结果基于Albert。先前评估的结果取自原始论文，包括ADAPET（Menonet al. ，2021）、P调谐（Li

下载后可阅读完整内容，剩余1页未读，立即下载