扰动模型的一致性正则化集成学习方法详解：CAMERO提高了模型泛化性能

6 浏览量更新于2023-12-01 收藏 783KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文CAMERO：带权值共享的陈亮佐治亚理工学院cliang73@gatech.edu陈伟柱Microsoft Azure AIwzchen@microsoft.com摘要模型集成是一种流行的方法，以产生一个低方差和良好的推广模型。然而，它会导致大量的内存和推理成本，这对于现实世界的部署来说往往是不必要的。现有的工作已经诉诸于在模型之间共享权重。然而，当增加共享权重的比例时，所得到的模型往往是相似的，并且使用模型集成的益处为了在保持低内存开销的同时保留集成的优点，我们提出了一种基于扰动模型的一致性正则化集成学习方法具体地说，我们在所有模型之间共享底层的权重，并对不同模型的隐藏表示施加不同的扰动，这可以有效地提高模型的多样性。同时，我们在扰动模型上应用预测一致性正则化子来控制由于模型多样性而引起的方差。我们使用大型语言模型的实验表明，CAMERO显着提高了集成模型的泛化性能。具体而言，CAMERO在GLUE基准上的性能优于8个基于BERT的模型的标准集合0。7，具有明显较小的模型尺寸（114。2百万与八百八十6M）。1介绍何鹏程、沈业龙Microsoft Azure AI{penhe，yelong.shen}@microsoft.com赵拓佐治亚理工tourzhao@gatech.edu预测（ Yang 和 Lv ， 2021; Dong et al. ，2020）。例如，Zhang et al. （2018）表明，在计算机视觉任务中，一个简单的2模型集成比单个模型有显著的改进。尽管有这些显著的好处，模型集成还没有被广泛应用于大型语言模型。主要的障碍是其巨大的存储空间和昂贵的推理成本，这与模型的大小和数量呈线性因此，通常无法负担使用内存受限和低延迟边缘设备集成大型语言模型进行部署的为了减轻内存负担，最近的工作采取了权重共享策略，其中所有模型共享同一组底层权重，在其之上分支出一组并行的、非共享的顶层权重（Lan et al. ，2018; Chen et al. ，2020;Li等人，2020）。由于共享权重被优化以适应多个不同的非共享分支，因此它们可以更好地泛化学习共享表示（Liu et al. ，2020; Luong等人，2015; Ruder等人，2019）。然而，对于大型车型来说，这样的重量分担策略不再享有同样的好处。由于内存的限制，底层权重的重要比例需要共享。因此，顶层分支只有有限的容量，因此产生的模型往往深度神经网络（DNN）在各个领域取得了显著的成功，并且在学习复杂模型方面变得非常强大（De-vlin et al. ，2018; Brown et al. ，2020;He et al. ，2020）。然而，他们显着的表示能力是以牺牲大的模型方差为代价的，这可能会损害模型的泛化性能。减少这种方差的一种流行方法是模型集成，其中一组模型的权重或预测被聚合以产生这是在微软Azure实习期间完成的艾.类似（Chen et al. ， 2020; Rame and Cord，2021; Feng et al. ， 2020; Yang et al. ， 2021;Wu和Gong，2021）（图1（左））。由于缺乏模型多样性，它们的集成在泛化能力上不能如图1（右）所示，当分支大小较小时，集成模型的泛化为了在保持集成优势的同时保持较低的内存成本，我们提出了一种新的一致性规则化的集成学习算法。arXiv：2204.06625v1 [cs.CL] 2022年4月+v：mala2277获取更多论文·····i=1注意。我们使用D||到j=1·{· }2 4 6 810分支大小（层）0 2 4 6 810分支大小（层）基于BERT的模型在GLUE基准测试中达到0.在任务平均得分方面获得7个点，参数明显小于普通集成方法（114。2百万与八百八十6M），实现1. 2个点的增益与相同数量的学习参数超过正弦，图1：左：不同大小的分支之间的预测相似度。右：五个随机种子上集成模型的平均泛化性能和方差。这些结果是在BERT基础上通过微调SST-2分支大小为0对应于训练单个模型。基于PERTurbed模型的方法- CAMERO。具体来说，我们在所有模型中共享底层权重，并对不同模型的隐藏表示应用不同的这种扰动策略有效地提高了模型的多样性。因此，在每一层的权重被优化，以产生一致的输出，给出不同的输入表示从不同的扰动模型。换句话说，共享权重本质上是所有扰动模型的动态集合。最后，我们在共享权重之上集成所有分支以产生最终模型，该模型具有低方差和良好的泛化性能。由于我们在具有显著深度的大型模型中应用扰动，不同模型的隐藏表示可能最终会非常不同，特别是在上层。因此，优化共享权重以适应这种扰动可能非常具有挑战性。为了防止模型过于多样化，我们应用一致性正则化器来减少不同模型之间的方差。具体地说，这种一致性正则化器可以被视为跨模型的协作式正则化（Guo et al. ，2020; Lan等人，2018; Zhang etal. ，2018; Kim等人，2021; Chenet al. ，2020;Li等人，2020）。通过正则化每个模型的输出logits和这些logits的集合之间的因此，我们采用一致性正则化来控制扰动模型我们进行了全面的实验，以证明CAMERO的有效性和效率，在集成大量的模型与超过数亿的学习参数。具体来说，我们在微调几何模型CAMERO还在低资源和高资源语言对上实现了神经机器翻译的显著此外，我们验证了CAMERO可以学习共享层具有更好的泛化能力和增强模型具有更小的方差。我们还研究了使用不同类型和强度的扰动和一致性正则化技术的影响。特别是，我们观察到用虚拟对抗扰动创建的模型（Jiang etal. ，2019a）和神经元脱落（Srivastavaet al. ，2014）导致具有最佳泛化性能的集成模型。最后，我们在一个更大规模的模型上证明了CAMERO的有效性，Roberta-large（Liu et al. ，2019年），达到0。八比零。9点的增益比香草集成方法和单一模型的性能，分别。我们的代码在https上发布：//github.com/cliang1453/CAMERO网站。2背景符号。我们使用f（; θ）来表示从输入样本到输出空间的与参数θ相关联的映射f，其中输出是分类任务的多维概率单纯形和回归任务的标量。我们将模型的最终logits表示为g（; θ），其中f（; θ）= σ（g（; θ）），σ（）是Softmax函数。我们将目标任务的n对数据样本表示为（xi，yi）n。f（;θ）的训练损失被计算为对于任何给定的训练实例（xi，yi）的l（f（ xi; θ）， yi），其中l（·;·）表示损失函数。KL（PQ）= kpklog（pk/qk）表示两个离散分布P和Q的KL-散度，其参数分别为pk和qk。协同蒸馏。协同训练方法在部分训练两个或多个模型的同时，对它们最终预测分布的一致性进行正则化（Guo et al. ，2020; Lan等人，2018; Zhang et al. ，2018; Kim等人，2021; Chen et al. ，2020; Li等人，2020）。具体来说，我们使用f（;θ j）m表示具有相同架构的m个独立模型，参数为θ1，...，θ m，分别表示预测一致率（%）98.0 98.5 99.0模型精度92.893.093.2九十+v：mala2277获取更多论文--ΘΣJD··2JΣMJj-th模型。基于J哪里Mj=1JJ{θ（k）}K′对于某个KJ∈ {1，...， K}，其中共享{wj}j=1是非负标量求和k=1Jk=1{}Pj j j jjΘ =θ1，...，θ m。典型的协作优化方法解决了以下优化问题：minL（Θ）+αR（Θ），其中α>0是调谐参数，并且L（Θ）和R（Θ）定义为1L（Θ）=mMMl（f（x;θj），y），j=1图2：训练期间的摄像机示意图。1ΣR（Θ）=D（f（x; θ），E（x;Θ））。（一）j=1底层的共享权重，θ′ 表示的顶层权重为了符号简单，我们将省略下标这样一个组成结构，第j个模型输出可以表示为我在整个文件的其余部分这里，E（x; Θ）de-（一）（K−1）（K）细化与Θ相关联的映射函数，其将输入样本x映射到多维概率单纯形或标量，这取决于任务一种常用的组合蒸馏法f（x; θ j）= f K（f K−1（. . . f1（x; θj）. . . ; θ j）; θ j），其中fk（·;θ（k））是与第k层参数θ（k）相关联的映射，并且θ由以下组成：接近makesE（·;Θ）=σ（λmwg（x;θ）），j0到一个。表示两个离散分布P和Q或两个标量p和q的距离度量。D（P，Q）可以取对称KL-散度的形式，即1（DKL（P ||Q）+DKL（Q||（P））。跨模型。一个显着比例的共享权重导致模型在-D（p，q）2或欧几里德距离p-q为了增加模型将每个图层重量分担。权值共享技术已经在几种表示学习算法中被采用多任务学习（Liu et al. ，2020;Luong等人，2015; Ruder等人，2019），多领域学习（Britz et al. ，2017; Zeng et al. ，2018;Tars and Fishel，2018; Jiang et al. ，2019 b）和多语言任务（Gu et al. ，2018; Aharoniet al. ，2019）。权值共享策略可以减少模型中自由参数的数量，这有助于防止训练中的过拟合，并导致更好的泛化能力。3方法训练过程中的模型（图2）。具体而言是第j个f（x; θ j，θj）= f K（f K−1（. . .f1（x; θ（1））+ δ（1）. . . ; θ（K−1））+ δ（K−1）; θ（K）），其中δ（k）是在第k层的隐藏表示上应用的扰动，并且从分布中采样的δ j = δ（k）K −1。然后，我们使用SGD类型的算法使用以下损失来训练m个模型M我们介绍CAMERO，一种基于一致性的权重共享增强学习方法1L（Θ）=Ej=1[2019-04-25]（二更）正则化扰动模型3.1带扰动模型的包围学习根据神经网络的多层结构，我们将每个模型分为两个部分：底层和顶层。底层的模型参数在所有模型中共享。具体地，第j个模型的参数表示为θj= [θ0，θ′]，其中θ0表示第j个模型的参数。JM+v：mala2277获取更多论文Jl（f（x;[θ0，θ′]，θj），y）].注1. 我们可以考虑隐藏表示、输入嵌入或数据样本的各种扰动，例如，随机扰动（Aghajanyan et al. ，2020）、虚拟对抗扰动（Miyato et al. ，2018;Jiang et al. ， 2019a ）、神经元脱落（ Srivastava et al. ， 2014 年）和词dropout（Wei和Zou，2019年）。+v：mala2277获取更多论文Σj=1j=1Σ（j=1LRE{}jj=13.2一致性正则化扰动模型在具有显著深度的大型模型中，不同模型的隐藏表示可能最终会非常多样化，特别是在上层。因此，优化共享权重以适应这些不同的输入可能非常困难。为了解决这个问题，我们建议通过一致性正则化来控制模型的可变性。具体来说，我们通过最小化以下损失来正则化m个模型M4.1自然语言理解模型和数据。我们评估BERT基（110 M）的微调性能（Devlin et al. ，2018）和RoberTa-large（335M）（Liu et al. ，2019年）的一般语言理解评估（GLUE，王等。（2018））基准。GLUE包含九个NLU任务，包括文本蕴涵，问题回答，情感分析和文本相似性。有关基准的详细信息参见附录A.1.1。基线方法。我们将CAMERO与Vanilla进行了比较，其中所有模型都是独立训练的，没有一致性正则化。我们还与代表性的合作伙伴1R（Θ）=Ej=1[2019-04-25]（三）蒸馏方法：深度相互学习（DML，Zhang et al.（2018）），On-the-fly Native EntranceD（f（x;[θ0，θ′]，θj），E（x; Θ，{θj}m））]，其中（x; Θ，θ，m）表示由应用于具有扰动表示的模型的某些集成方法产生的最终预测分布。例如，通常采用的集成方法包括log-其合奏，哪里E （ x; Θ ，{\displaystyle {\fracj}m ）=的学习（ONE，Lan et al. （2018））和知识蒸馏通过协作学习（KDCL，郭等。（2020））1。DML通过交替更新来训练两个模型，同时正则化它们最终预测分布之间的一致性。KDCL将两个模型扩展为多个模型，同时训练所有模型，同时正则化预测分布之间的一致性mj=1 wj g（x;θj，{θj}m））。总之，我们每一个单独的模型和所有的整体通过最小化以下各项来训练m个所有损失函数：L（Θ）+α R（Θ），哪里在Eq.中定义（2）及（Θ）在Eq中定义。（三）、我们通过非负超参数α来调整一致性正则化的强度。备注 2. 与现有的权重共享策略不同，CAMERO通过扰动和正则化的强度来控制模型的多样性。这样的差异带来了显著的记忆益处。在实践中，我们安全地共享除了一个顶层之外的所有层。因此，存储器存储减少到单个模型的存储器存储这使我们能够在大量模型下探索集成学习的行为。4实验我们在广泛使用的自然语言理解和神经机器翻译基准测试中验证了CAMERO的有效性模型ONE采用传统的重量分配该策略具有分配给每个单独分支的可学习门控因子，这有助于控制模型多样性。干扰。我们证明了使用神经元脱落的CAMERO的有效性（Srivastava et al. ，2014），这是最直接的扰动技术之一，其基于小的固定比率随机地使神经元归零。特别地，在我们的实验中采用的比率为0。1.一、在第5.3节中，我们进一步证明了各种各样的扰动，包括虚拟对抗扰动（Jiang et al. ，2019 a），随机扰动（Agha-janyanet al. ，2020年）和词辍学（魏和邹，2019年），都可以发挥作用。一致性正则化我们证明了有效性的相机使用的合奏consideration定义在方程。（一）.在第5.4节中，我们进一步研究了不同类型的一致性正则化技术的有效性- 是的为了在下游任务上微调BERT编码器，常见的初始化方法是在编码器的顶部附加一个随机初始化的全连接分类层[1]为了进行公平比较，我们不包括KDCL中提出的数据增强技术。M+v：mala2277获取更多论文--数量模型方法MNLI-m/mmACCQQP一楼QNLI CoLA SST-2 RTE MRPC加速Mcc加速加速加速/一层STS-BAvg. #Param.P/S Corr评分（百万）1单个84.5/84.691.1/88.1 91.258.792.971.1 86.2/90.4 89.7/89.2 83.2109.52Camero85.2/85.791.6/88.8 92.259.893.272.6 87.1/90.9 89.9/89.5 84.0110.74Camero85.4/86.191.8/89.1 92.359.593.572.8 87.2/91.0 90.1/89.7 84.2111.9香草85.1/85.591.7/88.8 92.159.093.271.0 87.2/91.0 90.1/89.7 83.7880.68Camero85.6/86.391.9/89.2 92.760.593.672.4 87.4/91.2 90.2/89.8 84.4114.2表1：使用GLUE基准测试在集成BERT基础上的单任务微调开发结果。“单一”表示单一型号性能。所有结果都来自我们自己的实施。数量模型方法MNLI-m/mmACCQQP一楼QNLI CoLA SST-2 RTE MRPC加速Mcc加速加速加速/一层STS-BAvg. #Param.P/S Corr评分（百万）1单个90.2/90.292.2/-94.768.096.486.690.9/--/92.488.9356.4香草90.8/90.592.4/89.8 94.768.296.586.2 91.2/93.6 92.7/92.5 89.01425.64Camero91.1/90.992.5/90.0 95.370.397.087.7 91.7/94.0 92.8/92.6 89.8359.6表2：使用GLUE基准测试对集成的Roberta-large进行单任务微调的开发结果。“Single”表示Liu等人（2019）的单个模型性能;其他结果来自我们自己的实现。（ Devlin et al. ， 2018 ）。对于 ONE 和CAMERO，我们在编码器的顶部附加m个不同初始化的并行分类层。对于其他方法，我们初始化m个单独的编码器，并在每个编码器的顶部附加一个不同初始化的分类推理。对于ONE和CAMERO，我们进行通过编码器的单次通过，并对m个分类层的预测logit进行平均。对于其他方法，我们对m个模型的预测logit进行以下实验中的所有结果都基于这样的logits系综进行评估。实施细节。我们的实现基于MT-DNN代码库2。我们遵循Liu等人建议的训练和超参数设置。（ 2020 年）。具体来说，我们采用Adamax（Kingma和Ba，2014）作为优化器，β=（0. 九，零。999）。我们在0的范围内调整α。5、1、2、5用于所有方法。综合培训详情见附录A.1.2。种子，并且所有增益都是统计上显著的3。我们有以下观察结果：1）在学习参数显著较少的情况下， CAMERO 相对于Vanilla，DML和KDCL实现了突出且一致的边缘。这表明CAMERO能以较高的参数效率产生更好的广义系综模型。2)CAMERO显著优于ONE，表明对模型施加扰动有效地提高了权重共享策略的性能3)随着模型数量从2个增加到8个，CAMERORoberta-large的结果。我们进一步验证，相机可以受益于一个更大的模型，罗伯塔大。如表2所示，CAMERO在所有任务中都实现了一致的增益4。值得注意的是，Vanilla在单一模型性能上的改进有限涨势BERT-Base的结果表1显示了评估结果。BERT-based在GLUE开发集上的测试结果。结果是在五个随机2https://github.com/namisan/mt-dnn3所有结果均通过配对学生t检验，p值小于0。05.详细统计总结见附录A.1.3。[4]我们给出了Liu等人的五次运行的中位数。（2019年）。香草84.9/85.291.6/88.7 91.858.293.270.6 86.2/90.4 89.8/89.5 83.4220.1DML85.0/85.591.6/88.7 91.958.293.371.3 87.1/90.9 89.9/89.5 83.6220.1KDCL85.1/85.691.7/88.8 92.059.493.271.8 87.0/90.9 89.9/89.5 83.8220.1一84.5/84.791.1/88.1 91.759.293.070.8 87.0/91.1 89.7/89.3 83.4110.7香草85.0/85.291.7/88.9 91.858.493.170.8 87.2/91.0 90.0/89.6 83.5440.3KDCL85.0/85.791.7/88.8 92.058.693.371.3 87.4/91.1 90.1/89.6 83.7440.3一84.6/84.991.2/88.3 91.858.893.171.1 87.4/91.1 89.8/89.4 83.5111.9+v：mala2277获取更多论文−↔×--↔↔↔ ↔↔×0。0，0。1和0。QNLI、SST-2和RTE，）。我们推测，大模型中的高模型相比之下，通过正则化控制模型方差，CAMERO实现了0.六，零。6和1. 1、这些任务。4.2 神经机器翻译模型和数据。我们进一步在基于变换器的NMT模型上评估CAMERO（Vaswaniet al. ，2017）使用广泛使用的IWELSE（Cet toloetal. ，2016）5和WMT（Bojar et al. ，2016）6个数据集。具体而言，我们采用IWIT14嗯。IWARTEEN De和En Fr是包含160k和236k句子对的低资源数据集WMT En De是一个资源丰富的数据集，包含450万个句子对。模型和数据集详情参见附录A.2.1。实施细节。我们的实现基于fairseq代码库，并遵循Ott等人的训练和超参数设置。（2018，2019）.具体来说，我们使用5 10−4作为学习率，并使用Adam（Kingma andBa，2014）作为优化器，β=（0. 九，零。98）。我们在1 ， 2 ， 5 的范围内选择 α 。对于 ONE 和CAMERO，我们随机初始化多个并行解码器的最后一层作为非共享分支。全面培训详情见附录A. 2. 2。主要结果。表3显示了在IWALTS测试集上的BLEU评分和在WMT测试集7上具有化合物分裂的SacreBLEU评分（Post，2018）。WMT由于许多学习参数类似于单个模型，CAMERO在ONE上实现了约2和1点，并提高了约0点。4和0。在KDCL上，分别在低资源和高资源数据集上获得 4分。这表明，除了微调之外，CAMERO还提高了从头开始训练模型在低资源和丰富资源数据集中的泛化能力5分析我们首先验证，CAMERO导致一个良好的推广和低方差集成模型。我们5https://wit3.fbk.eu/6http://data.statmt.org/wmt16/translation-task/7我们根据上一次的平均值评估SacreBLEU评分十个检查站。 tokenizer版本为：nrefs：1|案例：混合| 效应：没有|tok：13a，smooth：exp|版本：2.0.0。然后演示扰动和一致性正则化强度如何影响模型的多样性和性能。最后，我们证明了CAMERO的5.1共享权重学习更好的表示我们验证，相机允许共享的权重，以学习更好的广义表示。具体来说，我们附加一个随机初始化的分类器上的BERT基编码器训练的摄像机。然后，我们修复编码器并仅微调附加的如表4所示，CAMERO训练的编码器在不同的任务和不同数量的模型下始终比ONE5.2包围模型在随机种子中具有低我们验证了CAMERO产生的系综模型，既概括良好，并具有低的变化，在不同的随机种子下的光参数预算。图3绘制了5个种子的2模型和4模型集合例如，在MNLI中，CAMERO的2- model ensemble（110. 7M）与KDCL的4 -model ensemble（440.2M）性能相近在不同的任务中，CAMERO完整方差统计量见附录A.1.3。5.3扰动的类型和强度扰动的类型我们验证了CAMERO产生各种类型的扰动下的广义系综模型。具体来说，我们应用虚拟对抗扰动（Jiang et al. ，2019a）和随机噪声扰动（Aghajanyanet al. ，2020），所有层的输入表示上的神经元丢弃（Srivastavaetal. ，2014年），以及输入句子上的单词丢失（Wei和Zou，2019年）。具体来说，我们将 dropout ratio设置为 0。神经元脱落1分，0分。05字辍学。对于虚拟对抗扰动和随机噪声扰动，我们设置范数约束ε = 1 10−5。随机噪声从正态分布中采样如表5所示，CAMERO在所有类型的扰动下都有显著的改善幅度。特别是，虚拟对抗+v：mala2277获取更多论文MMm（ m−1）j=1p=j+1Jp数量模型方法国际妇女联盟WMTEn-De De-En En-Fr Fr-En平均值#Param.恩德 De-En平均值#Param.1单个28.534.738.137.734.754.526.930.728.877.62Camero30.837.540.239.837.158.727.632.229.981.84Camero31.137.840.339.937.367.127.732.430.190.2表3：基于IWITOS任务（BLEU）和WMT任务（SacreBLEU）的集成Transformer的测试集分数。“单一”表示单一型号性能。所有结果都来自我们自己的实施。数量模型方法MNLI SST-2 MRPC Avg.Accc Accc Accc/F1评分1单个84.5892.9586.8888.142一Camero84.5385.4192.9493.0388.9489.0488.8089.164一Camero84.6785.5793.0393.4689.0789.2088.9289.41表4：使用GLUE dev集合的集成的基于BERT的编码器的性能。我们只在经过良好训练的编码器上对随机初始化的分类层进行微调。868584111.9 220.1 440.2MNLI949392111.9 220.1 440.2SST-2扰动和神经元丢失在所有任务上都表现良好随机噪声扰动在较大的任务上表现良好（例如，MNLI、QNLI、SST-2），而在较小的任务上收益会缩小。扰动强度。然后，我们验证了较大的扰动强度提高了扰动模型由于一致性损失被计算为每次迭代时所有扰动模型的输出logits与集合logits之间的平均距离，因此它直接反映了训练过程中的模型多样性。如图4（左）所示，较大的神经元丢弃率导致较大的一致性损失，因此具有较高的模型多样性。此外，我们观察到，较大的扰动强度导致较低的方差系综模型。如图4（右）所示，随着神经元脱落率的增加，CAMERO相比之下，一个有一个大的所有比率下的差异。5.4一致性正则化的类型和强度一致性正则化的类型然后，我们研究使用不同类型的considerable正则化技术的影响。我们特别比较现有的合奏一致性，定义在方程。（1）和一个新提出的成对70一致性，定义为111.9 220.1440.2RTE学习参数数量（百万）R（Θ）=2 πD（f（x; θ），f（x;θ））.图3：在GLUE开发集上集成BERT基础的性能和方差。成对一致性度量每对模型的输出log-its之间的平均距离，因此我们期望它能更准确地如图所示方法单一模型香子兰EncephaloneDMLKDCL相机精度精度精度香草28.634.838.237.834.9109.127.031.229.1155.3DML30.537.439.939.636.9109.127.131.829.5155.3KDCL30.637.239.839.536.7109.127.231.929.6155.3一28.935.138.538.235.258.727.031.029.081.875香草28.734.938.237.834.9218.127.031.229.1310.6KDCL30.837.439.939.736.9218.127.132.029.6310.6一28.835.038.237.935.067.127.131.129.190.2+v：mala2277获取更多论文扰动强度0.00.10.20.30.4精度扰动类型SST-2 MRPC CoLA Avg.加速加速加速加速/一层MCC评分没有一84.74 91.7689.0558.7583.48神经元脱落（Srivastava et al. ，2014年）85.73 92.30 93.4689.0959.5084.02虚拟对抗性人格（Jiang et al. ，2019年a）85.76 92.33 93.5389.1959.4984.08随机噪声特性（Aghajanyan et al. ，2020年）85.78 92.21 93.4289.0759.2283.94单词脱落（Wei和Zou，2019）85.61 92.00 93.2189.0659.1983.81表5：不同类型扰动下的摄像机“无”对应于一，它不对不同的模型应用不同的扰动我们报告的4模型集成BERT基础的结果。0.050.0493.50.0393.00.020.010.000 5 1015培训步骤（k）92.592.00.0 0.1 0.2 0.3 0.4扰动强度图4：扰动强度对训练期间模型多样性的影响我们对SST-2的BERT基进行了微调，并报告了4模式集合的结果。一致性类型SST-2 MRPC CoLA Avg.加速加速加速加速/一层MCC评分没有一85.23 91.76 93.3088.9758.4083.48包封一致性85.73 92.30 93.4689.0959.5084.02成对一致性85.73 92.3389.4059.8784.14表6：CAMERO“无”对应于α= 0，其中不应用正则化我们报告的4模型集成BERT基础的结果。85.7593.5089.585.5093.2589.085.2585.000 2 4 68MNLI93.000 1 2 3 45SST-2Regularizati on St re ngt h（α）88.588.00 1 2 3 45MRPC图5：一致性正则化强度对集成模型的泛化和方差的影响。我们微调BERT基地和报告的4模型合奏结果。在表6中，CAMERO显示了在两种类型的正则化下的一致改进。特别地，成对一致性在较小的任务上显示出更大的0。MRPC为3，0。4在CoLA上）。一致性正则化的强度。我们进一步研究了正则化因子α的强度对系综模型性能的影响如图5所示，随着α的增加，集成模型的泛化性能这表明，正规化可以有效地造福于一般-通过平衡模型多样性来提高性能。6结论我们提出了CAMERO，一个基于扰动模型的一致性正则化集成学习方法。这种策略显著提高了大型语言模型中模型集成的参数效率，使其成为学习具有更好泛化性能的集成模型的一种可访问和强大的技术方法一摄像机一致性损失精度+v：mala2277获取更多论文引用Armen Aghajanyan 、 Akshat Shrivastava 、 AlfreitGupta、Naman Goyal、Luke Zettlemoyer和SonalGupta。2020.通过减少代表性崩溃来进行更好的微调。arXiv预印本arXiv：2008.03156。Roee Aharoni，Melvin Johnson，Orhan Firat。2019年。大规模多语言神经机器翻译。arXiv预印本arXiv：1903.00089。罗伊·巴尔-海姆，伊多·达根，比尔·多兰，丽莎·费罗和达尼洛·詹皮科洛。2006.第二个PASCAL识别文本蕴涵的挑战。在第二代PASCAL语言的实现中，工作坊对文本蕴涵的提出了挑战.Luisa Bentivogli ， Ido Dagan ， Hoa Trang Dang ，Danilo Giampiccolo，and Bernardo Magnini. 2009.第五章认识文本蕴涵的挑战。在过程中文本分析会议（TACOnd Bagrej Bojar ， Rajen Chatterjee ， ChristianFedermann ， Yvette Graham ， Barry Haddow ，Matthias Huck，An- tonio Jimeno Yepes，PhilippKoehn，Varvara Lo- gacheva，Christof Monz，etal. 2016.2016年机器翻译会议的成果。在第一次机器翻译会议的筹备会上：第2卷，共享任务文件，第131- 198页。丹尼·布瑞兹，阔克·勒，里德·普雷赞特。2017.神经机器翻译的有效域混合。第二届机器翻译会议论文集，第118Tom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。arXiv预印本arXiv：2005.14165。Daniel Cer 、 Mona Diab 、 Eneko Agirre 、 IñigoLopez-Gazpio 和 Lucia Specia 。 2017.Semeval-2017任务1：语义文本相似性多语言和跨语言重点评估。第11届语义评估国际研讨会论文集，第1Mauro Cettolo ， Niehues Jan ， Stüker Sebastian ，Luisa Bentivogli，Roldano Cattoni，and MarcelloFederico.2016. iwslt 2016评估活动。口语翻译国际研讨会.陈德芳，梅建平，王灿，严锋，陈春。2020.与不同的同行进行在线知识交流。在AAAI人工智能会议论文集，第34卷，第3430Ido Dagan，Oren Glickman，and Bernardo Magnini.2006. pascal识别文本蕴涵的挑战。在第一届机器学习国际会议论文集中， Chal-ches ：Evaluating Predictive Uncertainty Visual对象分类和识别文本内涵，MLCW'05，第177-190页，柏林，海德堡。史普林格出版社Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2018年Bert：深度双向转换器的语言理解预训练 arXiv 预印本 arXiv ：1810.04805。William B Dolan和Chris Brockett。2005.自动构建一个语义释义语料库第三届释义国际研讨会（IWP2005）。Xibin Dong ， Zhiwen Yu ， Wenming Cao ， YifanShi，Qianli Ma.2020.集成学习综述。Frontiers ofComputer Science，14（2）：241Shaoxiong Feng ， Hongshen Chen ， XuanchengRen，Zhuoye Ding，Kan Li，and Xu Sun. 2020.协作小组学习。 arXiv 预印本 arXiv ：2009.07712。达尼洛·詹皮科洛，贝尔纳多·马格尼尼，伊多·达根，比尔·多兰。2007. 第三个PASCAL语言的文本蕴涵挑战。在ACL-PASCAL文本蕴涵和释义研讨会论文集，第1-9页，布拉格。计算语言学协会。顾佳涛，哈尼 · 哈桑，雅各布 · 德夫林，维克多·OK·李。2018.通用神经机器翻译，适用于资源极低的语言。 arXiv 预印本 arXiv ：1802.05368。Qiushan Guo ， Xinjiang Wang ， Yichao Wu ，Zhipeng Yu，Ding Liang，Xiaolin Hu，and PingLuo.2020. 透过合作学习的线上知识提炼 .IEEE/CVF计算机视觉和模式识别会议论文集，第11020-11029页。Pengcheng He，Xiaodong Liu，Jianfeng Gao，andWeizhu Chen. 2020. Deberta：解码增强的bert，注意力分散。arXiv预印本arXiv：2006.03654。Haoming Jiang，Pengcheng He，Wei

下载后可阅读完整内容，剩余1页未读，立即下载