没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文基于边缘下面积和显著性Seo Yeon Park和Cornelia Caragea伊利诺伊大学芝加哥分校spark313@uic.educornelia@uic.edu摘要经过良好校准的神经模型产生的置信度(概率输出)与预期精度非常接近。 虽然之前的研究表明,混合训练作为一种数据增强技术可以改善图像分类任务的模型校准 , 但 对 使 用 混 合 进 行 自 然 语 言 理 解(NLU)任务的模型校准知之甚少。在本文中,我们探讨了几个NLU任务的模型校准混淆,并提出了一种新的混合策略,用于预训练的语言模型,进一步提高模型校准。我们提出的混合是由两个面积下的利润(AUM)统计(Pleiss等人。,2020)和每个样本的显著性图(Si-monyanet al. ,2013)。此外,我们将我们的混淆策略与模型失配校正技术(即,标签平滑和温度缩放),并提供详细的分析,他们的影响,我们提出的混合。我们集中在三个自然语言理解任务的系统设计实验:自然语言推理,释义检测,常识推理。与域内和域外测试样本的强基线相比,我们的方法实现了最低的预期校准误差,同时保持了具有竞争力的准确性。1介绍训练一个校准良好的分类器,在置信度(模型分配给预测的概率输出)和正确性(准确性)之间产生匹配,在现代神经网络中很重要例如,如果基于AI的应用程序知道它不知道的东西,或者换句话说,当前预测错误的可能性,那么人类更有助于纠正错误。然而,许多研究表明,当前的深度神经网络容易过度自信,这意味着模型的信心是不可靠的(Guoet al. ,2017年)。 这是一个关键问题,部署基于AI的用户应用程序,例如医疗保健领域(Zhu et al. ,2018; Li et al. ,2019年)或安全关键域(Sarabadani,2019年)由于预测可信度的问题。近年来,对神经网络模型尤其是自然语言处理任务的校正研究开始受到关注。为了克服校准误差的问题,已经提出了许多关于如何解决它的建议。例如,Guo等人(2017)揭示了在最终软最大层之前使用温度缩放Müller等人(2019),Kumar和Sarawagi (2019)以及Wang等人(2020 a)发现,标签平滑及其变体可以为神经机器翻译提供更好的校准Desai和Durrett(2020)还报告说,上述错误校准校正方法可以应用于校准预训练的语言模型,这些模型通常由于过度参数化而可能被错误校准Mixup(Zhang et al. ,2018)是一种用于深度神经网络的数据增强方法,其中在训练期间通过组合训练输入的随机对及其相关联的标签来生成附加样本。 虽然实现简单,但mixup已被证明可以提高预测性能和模型校准,特别是在图像分类任务中,这是由于其通过数据增强的正则化效应(Thulasidasanet al. ,2019)。最近在图像分类上的混淆成功导致了各种NLU混淆策略的发展,特别是那些使用隐藏状态表示的策略(Guo et al. ,2019a; Chen et al. ,2020; Zhang et al. , 2020; Sun et al. , 2020;Kong et al. ,2020; Yin et al. ,2021年)。然而,NLU的大多数先前的工作集中在使用mixup而不是模型校准来提高性能。尽管它对校准有好处,但纠正错误校准预测的混合仍然是NLU中一个未充分探索的主题。而Kong etal.( 2020 ) 探 索 BERT ( Devlin et al. ,2019)卡利-arXiv:2203.07559v1 [cs.CL] 2022年3月+v:mala2277获取更多论文虽然他们使用域内和域外的混合来进行振动,但他们只专注于通过利用特征空间中实例之间的距离来生成混合样本相比之下,我们提出了一种新的mixup方法,在该方法中,我们首先利用模型在训练过程中对单个样本的依赖性(训练动态),这可以揭示具有不同显著特征的样本-无论它们是易于学习还是难以学习/模糊的模型,然后我们通过根据显着性图提供的相似性/相异性将易于学习与难以学习/模糊的样本混合来生成mixup样本显着性图捕获每个数据部分对样本的最终分类决策的贡献程度(Si-monyanet al. ,2013)。直观、易于学习的样本有助于模型优化,而难以学习或潜在模糊的样本对于学习至关重要,因为它们对模型最具挑战性(Swayamdipta et al. ,2020),并且使用显著图混合它们可以产生更好的校准模型(更真实的模型置信度),例如,通过显著图中的相似性将容易学习的样本与难以学习的/模糊的样本混合可以有益于域内校准,而通过不相似性将容易学习的样本与难以学习的/模糊的样本混合可以有益于域外校准。为了监控训练动态,我们使用了边际面积(AUM)统计(Pleiss et al. ,2020),其测量在每个时期,样本的真实标签与模型的信念相比有多不同,并且被计算为样本的分配类与其跨训练时期的最高未分配类的logit值之间的平均差。此外,我们将我们的混合与众所周知的误校准校正方法相结合,例如标签平滑和温度缩放(Guoet al. ,2017)来调查它们对我们提出的混淆的影响。我们使用BERT(Devlin et al. ,2019)和RoBERTa(Liu et al. ,2019年)通过测试三个NLU任务来展示我们的mixup方法的有效性:自然语言推理,释义检测和常识推理。与强基线相比,我们实现了最低的预期校准误差(ECE),而没有精度下降方法.我们的贡献如下:• 我们提出了一种新的混合方法,由AUM和显着性信号指导,旨在改善模型校准。具体地说,我们比较logits将样本分为两组(即,一套简单的-待学习样本和另一组难以学习/模糊样本),以及通过从另一组中找到最相似和最不相似的样本,同时利用显著性(以计算样本相似性)来对域内和域外数据进行预先训练的语言模型校准,从而在这两组中插入样本• 我们将我们的方法与误校准校正技术相结合(即,标签平滑,温度缩放),以研究它们对我们提出的混合的影响。• 我们进行了全面的实验,表明我们的方法实现了最低的预期校准误差(ECEs)在域内和域外样本上与强基线的一致性,而不会在多个NLU任务(即自然语言推理,释义检测和常识推理)上出现准确性下降。2相关工作NLU任务的模型校正在相关文献中得到了广泛的研究。Nguyen和Guo et al.(2017)研究了现代深度神经网络的校准,并发现温度缩放和dropout等技术会影响二进制/多类分类任务的校准。 Wang等人 (2020 b)研究了神经机器翻译模型的校准,发现推理存在严重的误校准。Jagannatha和Yu(2020)证明了神经网络在结构化预测(如NER,POS和QA)上显示出较高的校准误差Desai和Dur-rett(2020)探索了预训练语言模型的校准,结合域内和域外数据集的温度缩放和标签平滑。Jung等人(2020)联合优化了两个目标(交叉熵损失和校准损失),并在训练步骤中动态地直接惩罚预测和真实后验概率之间的He等人(2021)通过使用噪声对比估计与基于能量的模型联合增强和训练分类器,获得了自然语言理解任务的更好校准。+v:mala2277获取更多论文DD{}∈我不我Mixup Mixup(Zhang et al. ,2018)是一种用于数据增强的方法,其中在训练期间通过凸组合随机对及其相关联的标签来生成附加样本Verma等人(2019)表明,操纵隐藏的表示而不是操纵混合的输入级特征会产生更好的正则化效果,因为它鼓励神经网络更多地关注低维子空间中真实训练示例的表示。许多工作已经从经验上注意到正则化效应可以提高深度神经网络的模型性能。例如,Guo et al.(2019a)通过在CNN和LSTM上使用句子和单词嵌入来探索NLU特定的混合策略,以增加监督文本分类的性能增益。Chen et al.(2020)提出了半监督学习的mixup,其中标记和未标记的样本用其隐藏表示进行插值,以提高文本分类的性能。Zhang et al.(2020)探索了具有主动学习的序列标记任务的混淆,以提高监督序列标记任务的性能。 Yin等人 (2021)提出了mixup,在小批量中插入每个实例,以提高预训练语言模型RoBERTa上的NLU任务的性能(Liu et al. ,2019)。 与我们相似,Yoon etal. (2021)通过结合显着性信号来生成增强样本来探索混淆。准确地说,他们使用显着性信号从一个样本中选择一段文本,用另一个样本中的另一段文本替换。然而,相比之下,我们的方法首先根据它们的AUM将数据样本分为两个类别(容易学习和难以学习/模糊类别)(Pleiss et al. ,2020)在训练时期内监测的差异,然后使用显著性来找到这两个数据类别中最相似/最不相似的样本。最近,一些作品开始探索混淆用于NLU模型校准。例如,Thulasi-dasan et al.(2019)研究了混淆对NLU模型校准的影响,但 仅 探 索 了 具 有 简 单 深 度 学 习 架 构 (如CNN)的域内设置。 Kong等人 (2020)探索了使用mixup作为正则化的BERT校准AUM(Pleiss et al. ,2020),并基于显著性信号组合这两个集合上的样本,用于域内和域外模型校准。3方法3.1Mixup背景音乐让其中,n是训练集,f是语言模型。 Mixup training- ing根据Zhang等人介绍的规则生成邻近训练样本。 (2018年):x=λxi+(1−λ)xj(1)y=λyi+(1−λ)yj其中,xi和xj是两个随机采样的输入点,yi和yj是关联的独热编码标签,并且λ是从具有超参数α的Beta(α,α)分布采样的混合比。在混合中,通过在输入空间中线性插值训练样本来增加训练数据3.2该方法我们提出了一种旨在改善模型校准的混合方法 , 该 方 法 通 过 裕度下的 面 积 ( AUM )(Pleiss et al. ,2020)和显着性(Simonyan etal. ,2013)。数据分类在我们的方法中,我们首先根据每个样本的AUM将训练分为两组(一组易于学习的样本和一组难以学习/模糊的样本) 给定一个样本(x i,y i),我们计算AUM(xi,y i)作为在所有训练时期T上平均的裕度下的面积。具体地,在某个时期t T,裕度被定义为:M t(xi,yi)=zy−maxy!= k(zk)(2)其中M t(xi,yi)是具有黄金标签yi的示例xi的裕度,z yi是对应于黄金标签yi的logit,并且maxyi!= k(zk)是对应于不等于yi的标签k的最大其它logit。准确地说,保证金衡量的是黄金标签与模型在每个时期的信念相比有多大的t.所有时期的(xi,yi)的AUM为:AUM(x,y)=1Mt(x,y)(3)域内和域外的组件然而,他们的混淆方法仅仅依赖于特征i i T我我t=1样品之间的空间距离。相比之下,我们探索了一种新的混合方法,在该方法中,我们使用直观地说,具有高AUM的样本易于学习(模型的信念与黄金标签相+v:mala2277获取更多论文D∈DDDDDDDDD中文(简体)D ←DD←D←←D∈D∈DD D←D∈D∈D∈ DD算法1:识别高/低AUM样本要求:Dtrain={(xi,yi)}i=1 , ··· ,n;模型f1:函数DATA-CATEGORIZATION(Dtrain)2:高,低3:火车 f持续 T时期 和 计算AUM(xi,yi),对于每个i,如等式(三)4:对于每个(xi,yi) 列车,5:如果AUM(xi,yi)<中位数,则6:D低← D低(xi,yi)7:否则,如果AUM(xi,yi)≥中位数,则8:高(xi,yi)9:如果结束10:结束11:返回高,低12:结束功能具有低AUM的样本是难以学习的或模糊的(并且因此它们对于模型是最具挑战性的),但是它们对于学习是必不可少的。 我们提出的mixup方法首先 根据AUM值是高还是低将train分为两个数据类别,即高和低。在实验中,我们计算整个训练样本的中位数AUM,并将其用作分割数据集的阈值。如果样本具有比阈值低的AUM,则将样本添加到低,否则将其添加到高。因此,我们平衡高和低,但其他分裂是可能的。然后,我们通过引用彼此的集合来进行混合操作混合易学和难学调整样本的难度,从而根据样本的难度调整模型数据分类步骤总结在算法1中。使用显著性信号的混合我们使用显著性信号对算法1生成的两个数据类别进行混合操作(如下所述)。对于混淆,而不是选择-算法2:建议混淆要求:Dtrain={(xi,yi)}i=1,···,n;模型f1:高,低数据-分类(列车)2:对于k:= 0至T,3:Total_Loss←04:对于i:= 0至|D路车|做5:损失交叉熵(f(xi),yi)6:通过计算构造显著图S设置损失相对于z7:如果(xi,yi)高,则:8:使用等式从低水平(四)9:else if(x i,y i)低则:10:使用公式10从高(五)11:如果结束12:生 成 两 个 混 合 样 本 , 一 个 用 于(xi,yi)及其最相似的样本,另一个用于( xi, yi)及其最离散的样本,使用等式1.一、13:计算每个混淆样本的交叉熵损失14:损失β损失+γ损失J+δ损失JJ十五:端16:总损失总损失+损失十七:更新模型权重18:结束(xi,yi)根据其AUM不属于的其它数据类别,以便校准域内和域外数据。例如,如果( xi, yi)∈ Dhigh,我们找到它的最相似的sam-ple(xJi,yiJ)及其最不相似样本(xJiJ,yiJJ)从Low,其分别返回最大和最小余弦相似性,具有(xi,yi)的显著性图S。也就是说,最相似和最不一样的是从D高和D低为了混合,计算与(xi,yi)高相似的如下所示我们利用显著性信号来选择样本。为了测量显著性,基于梯度的方法通常用于显著性计算( Li et al. , 2016; Rei and Søgaard , 2018;Yoon et al. ,2021年)。遵循这一思想,我们简单地计算分类损失L相对于每个logit值ziz的梯度,并将梯度分量的绝对值作为显著性图或签名(xJi,yiJ)=argmax(xj,yj)∈Dlow(xJiJ,yiJJ)=argmin(xj,yj)∈DlowCosSim(S,S(xj,yj))CosSim(S,S(xj,yj))(四)S表示样本(x i,y i)火车 对于样本(xi,y i),我们然后利用其显著性图S来找到最相似和最不相似的样本类似地,如果(xi,yi)属于Low,则我们从high找到返回与S的最大/最小余弦相似性的最相似/最不相似的+v:mala2277获取更多论文我Σ||→J JMi如下所示(xJi,yiJ)=argmax(x,y)∈D(xJiJ,yiJJ)=argmin(xj,yj)∈DhighCosSim(S,S(xj,yj))CosSim(S,S(xj,yj))(五)binM=10,其中每个binbm包含该区间的预测概率。预期校准误差(ECE)通过对每个箱的准确度和置信度之间的差异的平均值进行加权计算,如下所示1acc(b)=1(y=y)然后,我们通过内插所选的sam,为给定的样本(x,y)|i ∈ bm|i∈bmi iJ J会议(b))=1p最相似的样本(xi,yi)和最不相似的样本(xi,YI,JJ)。为|b m|M我i∈bmmixup操作,我们遵循原始的混合比采样策略,如等式2所示。(一).比率λ从Beta(α,α)分布中采样,ECE=|BM|acc(bNm=1)− conf(b m)|超参数α。直观地说,通过综合原始样本和其他数据类别中最相似的样本,我们校准了域内数据。扩增的样品模仿域内样品,因为它与原始样品最对齐。此外,通过从另一个类别中选择样本,我们允许生成的mixup样本适当地组合易学和难学的样本。通过综合原始样本和其他数据类别中最不相似的样本,我们校准了域外数据。增强的样本模仿域外实例,因为我们选择了与原始样本最不相似的样本。如上所述,通过从另一个类别中选择样本,我们允许增强样本包含易学和难学样本的信息,这对两种优化都有用其中N是预测的总数。3.4误标定校正方法我们探索了误校准校正方法(如下所述)与混合的组合,以研究它们对我们提出的模型校准混合的影响标签平滑(LS)在监督学习中,由于所有概率质量都被赋予一个类,因此独热编码标签无法提供输入这导致过度自信的模型,因为最大的logit变得比其他的更大,这消除了标签空间的不确定性。标签平滑(LS)是通过防止模型变得过于自信来惩罚这种情况的解决方案在这项工作中,我们将标签平滑与我们提出的混合。我们生成平滑的单热目标信号,同时创建和学习 请注意,我们的mixup方法混合了在[CLS]隐藏状态水平上的样本表示,通过分布σ混淆实例非地面实况类,其中|y| −1质量超过由特定于任务的层在预训练的语言模型之上生成的句子我们在算法2中总结了该过程。我们把每个损失的加权总和(见Alg。其中β、γ、δ是总和为1的超参数。在我们的实验中,我们使用mini-batch SGD来更新模型权重。请注意,其他显着性度量可以计算样本之间的相似性/不相似性,并且将是一个有趣的未来方向。3.3校准量度当模型的置信度估计P_∞等于真概率(精度)P(y_∞=y_∞)=P_∞时,模型是完全校准的。 (N a einietal. ,2015; Guo等人,2017; Desai and Durrett,2020). 这可以通过将概率区间离散σ∈(0,1)是超参数,|y|是类的数量。1温度缩放(TS)是后处理步骤,其使用单个缩放参数温度(对于所有类别,T >0)来重新缩放logit向量z。 TS具有软化输出的作用,使其在T >1时趋于一致,而T0则具有使概率质量坍缩到一类的作用。我们探讨TS的效果时,与我们提出的混合。4实验4.1任务和数据集我们在三个自然语言理解任务上评估了我们的校准目标混淆:自然语言理解任务,1例如,当σ = 0时,[1,0,0]的平滑独热目标为[0.99,0.0005,0.0005]。001和|y|= 3。高MM+v:mala2277获取更多论文∈DD语言推理、释义检测和常识推理。我们评估了模型的域内(对来自相同分布的数据进行训练和测试)和域外(对来自不同分布的数据进行训练和测试 混合减少了预测时的不良振荡数量,尤其是在分布外样本上(Zhang等人,,2018)。因此,在处理分布外数据时,有效的混合应该不太容易过度拟合为了测试我们提出的预训练语言模型校准方法的好处,我们使用域内训练模型来预测分布外的测试样本。我们描述我们的域内和域外集合如下。斯 坦 福 自 然 语 言 推 理 ( Stanford NaturalLanguage Inference,SNLI)是一种自然语言推理任务,用于预测假设和前提之间的关系是蕴 涵 、 矛 盾 还 是 中 性 ( Bowman et al. ,2015)。多体裁自然语言推理(MNLI)捕获具有更多样化领域的自然语言推理(Williamset al. 2018年),比SNLI。释义检测Quora Question Pairs(QQP)是一个释义检测任务,用于测试两个问题是否在语义上等同(Iyer et al. ,2017年)。TwitterPPDB(TPPDB)是确定来自Twitter的句子对在共享URL时是否传达相似的语义(Lan et al. (2017年)具有广告生成的常识推理情境(SWAG)是一种常识推理任务,用于在四个候选项中选择句子的最合理的连续(Zellerset al. ,2018)。HellaSWAG是一个使用对抗过滤来生成具有挑战性的域外样本的数据集。它在分布上的不同之处在于它的例子利用了预训练模型中的统计偏差。4.2比较方法在这项工作中,我们探索了对NLU的混淆效应,目的是产生更好的校准模型,特别是预训练的语言模型,这些模型是BERT(Devlin etal. ,2019)和RoBERTa(Liuet al. ,2019)。我们考虑以下基线:• Mixup(Zhangetal.,2018;Thulasidasanet al. Mixup通过在输入空间中线性插值随机选择的训练样本来增加训练数据。Mixup的内插是在从语言模型的第一层获得的输入嵌入上执行的。• 歧管混合(M-mixup)(Verma et al. ,2019年):Mixup的扩展,在隐藏特征空间中插值训练样本对从语言模型的最后一层获得的特征执行Manifold-mixup的插值每种方法进行了比较与两个变体,其中应用误校准校正方法(标签平滑,LS和温度缩放,TS)。24.3实现细节我们在所有任务中使用与Desai和Durrett(2020)相同的超参数集进行公平比较。我们最多用3个epoch训练模型对于BERT,我们设置批量大小为16,学习率为1 e-5,梯度剪辑为1.0,并且没有权重衰减。对于RoBERTa,我们设置批量大小为32,学习率为2 e-5,梯度剪辑为1.0,权重衰减为0.1。我们遵循Desai和Durrett(2020)发表的训练/验证/测试划分。3对于混合,我们使用混合比采样策略超参数α=0。四、 我们使用损失重量超参数,β,γ,δ,值为0。八比零。1/0。1所示。 我们对标签平滑σ [0]进行了超参数搜索。001,0。003,0。01,0。03,0。1,0。3]。我们使用σ=0。01/0。03/0。3对于BERT,σ = 0。003/0。03/0。3因为SNLI/QQP/SWAG上的RoberTa。我们使用阈值将数据分为高和低两组(完整训练样本的中位AUM)。5/4。4/2。5为BERT,3。四分之四0/2。SNLI/QQP/SWAG上的RoberTa为7分别对于所有结果,我们报告了随机重新开始的五次训练运行的平均值。最后,所有实验都在一个NVIDIA RTX A5000 24G GPU上进行,所有模型的微调总时间不到24小时。使用开发数据集,在[0.01,5.0]范围内以0.01的粒度TS的完成速度非常快,因为它使用单独的缓存日志。• Pre-trained Language Models:预先训练的语言模型使用BERT对每个下游任务进行微调(Devlin et al. ,2019)和RoBERTa(Liu et al. ,2019)。2对于vanila预训练的语言模型,有/没有标签平滑结果,我们使用Desai和Durrett(2020)报告的结果。3https://github.com/shreydesai/calibration+v:mala2277获取更多论文域内域外SNLIQQPSWAGMNLIPPDBHellaSWAG无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TSBERTBERT +LS二、54 0. 8第七章12031 .一、14 1. 0八、37 0. 5二、710. 5第六章33 0.40。970. 1八、160. 7二、491. 810. 011. 00。850. 410. 89 1.1第七章09 2. 13. 74 1.43. 611. 7四、05 0. 9八、5106第六章300. 8第七章1509五、78 0. 712个。六二二。8五、730. 612个。83 2. 1五、340. 9MixupMixup +LS M-MixupM-Mixup + LS第七章七三一。1第七章92 1.03. 170. 83. 40043. 180. 9二、63 0. 81 .一、77 0. 3五、140. 7第九章04 0.8第九章65 0.4八、55 1. 23. 49 0.23. 36 1.1二、49 1. 3第六章111. 13. 710. 7第七章08 1.0第七章四四零。7五、180.6五、2405二、080. 61 .一、15021 .一、09 0. 41 .一、26 0. 219号。512. 1十八岁57 1. 212个。92 2. 6十六岁76 1. 33. 56 1.7二、311. 0二、34 1. 9四、57 0. 9十一岁70 1. 6十一岁160. 812个。10 2. 3第六章29 1. 1五、03 1. 3四、58 1. 1第七章98 2.6第六章54 1.710. 93 2.0八、571. 3第九章82 1. 2八、320. 7四、241. 63. 95 1.1五、12093. 64 0.6我们我们的+LS一点二九41 .一、85 0. 30.77 0. 71 .一、05 1. 0二、05 0. 6一点七。91 .一、02 0. 60.95 0. 12.010. 4二、090. 70。810. 20.79 0. 3二、732. 52.26 1. 03. 5006一点七。5五、690. 75.37 1. 03.16 1. 23. 54 1.1五、491. 9四点二六8四、111.53.28 0. 7域内域外SNLIQQPSWAGMNLIPPDBHellaSWAG无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TS罗伯塔1 .一、93 0. 50。840. 8二、33 0. 10。880. 61 .一、76 1. 00.76 0. 73. 六二三21 .一、46 2. 5第九章5506第七章八六零。5十一岁933. 2十一岁222. 9ROBERTA +LS第六章38 0.6八、70 1. 0第六章110. 3八、69 0. 6八、810.3十一岁4006四、501. 4五、931. 9八、9103 五、310. 7二、141. 4二、231. 1Mixup第七章67 0.8四、51073. 41051 .一、64 0. 63. 60091 .一、03 0. 9十六岁85 1. 3五、65 0. 9十一岁03 0. 9五、4108第七章02 0.23. 9006混合+LS第六章100. 71 .一、99 0. 5第六章56 0.9二、96 0. 5二、520. 10。85 0.310. 891. 11 .一、82 0. 3第九章011. 63. 091. 1第七章75 1.7二、4107M-Mixup第七章32 0.8四、56 0. 43. 54 0.5五、05 0. 61 .一、68 1. 20。96 0.319号。78 3. 1第七章65 1.3第七章18 1. 8八、76 2. 1五、632. 83. 43 1.5M-Mixup + LS3. 511. 03. 000。9二、82 0. 73. 03 0.61 .一、83 1. 50。94 0.4八、231. 6五、08 1. 0第六章170. 9第六章911. 1四、270. 6二、881. 6我们我们的+LS1 .一、34 0. 7一点二八。60.63 0. 51 .一、02 0. 6二、47 0. 62.18 0. 71 .一、41020.84 0. 41 .一、2401一点一二41 .一、03 0. 20。810. 11 .一、411. 9一点三七1. 7一点一八1.41 .一、60 1. 33.94 0. 93. 96 1.61.89 1. 2二、67 1. 8二、401. 8一点八六9二、081. 51.70 1. 2表1:BERT(顶部)和RoBERTa(底部)上的预期校准误差(ECE)百分比(%)。粗体显示最佳ECE。较低的欧洲经委会意味着更好的校准模型。我们报告了随机重新启动的五次运行的平均ECE下标表示相应的标准偏差(例如,1.一、290. 4表示1。29± 0。4)。4.4结果我们在表1中显示了BERT和RoBERTa上的实验结果(ECE)的比较。对于每个任务,我们在域内训练集上训练模型,并在域内和域外测试集上评估其预期校准误差我们提出以下意见:首先,对于域内数据,标签平滑(LS)在预训练语言模型的校准上没有表现出其有效性。具体地,对于域内数据,使用LS的预训练语言模型(即,BERT+LS/RoBERTa+LS)与 普 通 预 训 练 语 言 模 型 ( 即 ,BERT/ROBERTa)的所有任务。相反,域外增益受益于LS(MNLI上的RoberTa除外)。从这些结果中,我们得出结论,简单地引入标签不确定性(通过标签平滑)不是一种有效的正则化方法,因为LS不能持续改进模型校准(特别是对于域内设置)。虽然温度缩放(TS)校正了普通预训练语言模型的误校准(参见表中的BERT/RoBERTa No TS vs. TS),但它无法用LS 校 正 误 校 准 的 预 训 练 语 言 模 型 ( 参 见BERT+LS/RoBERTa+LS No TS vs.+v:mala2277获取更多论文TS)域内。有趣的是,对于域外数据的某些情况,具有LS的预训练语言模型显示出相对较低的ECE,而TS进一步减少了ECE(例如,BERT(LS)在TwitterPPDB/HellaSWAG上,RoBERTA(LS)在TwitterPPDB上)。然而,其影响是不够的,因为它仍然导致高ECE。这意味着TS不是一个值得注意的策略,无论是预训练的语言模型的校准。因此,我们得出结论,需要更强的正则化技术来校准预训练的语言模型。其次,我们发现隐藏特征空间上的混淆(即,M-Mixup)通常在输入嵌入空间上产生比mixup更低的ECE(即,在大多数任务上混淆。我们推断Mixup生成的扩增样本对于模型校准来说并不语义上或语法上),并且不能促进由混淆引起的正则化效果。我们观察到,混合训练与LS是有益的,以减少在某些任务上的ECES。我们发现,TS导致低得多的混合和M-Mixup(有和没有LS)在大多数任务的ECES。然而,这意味着基线混合方法不能独立地产生这支持了我们的直觉和动机,设计一个更强大的混合方法。+v:mala2277获取更多论文域内域外SNLIQQPSWAGMNLIPPDBHellaSWAG伯特九十。04 0. 3九十。27 0. 379. 4004七十三。52 0. 387岁63 0. 4三十四48 0. 2BERT + LS87岁110.887岁510474岁910372. 06 1. 287岁82 0. 6三十六。481. 8Mixup88岁82 0.289岁120574岁98 2.369岁190. 887岁45 0. 3三十三2204混合+LS88岁七四零。489岁2402七十五。75 0.569岁37 1.187岁69 0. 6三十五65 1. 7M-Mixup86岁。400389岁370. 676岁96 0.466岁610686岁。5108三十四57 1. 4M-Mixup + LS87岁500787岁170.676岁09 0.964岁88 0.986岁。551. 1三十三710. 6我们九十。010. 4九十。13 0. 278岁94 0.8七十三。48 0. 488岁04 0. 7三十四63 0. 4我们的+LS九十。140. 3九十。32 0. 279. 26 0.672. 36 0. 687岁六二零。9三十四97 0. 5域内域外SNLIQQPSWAGMNLIPPDBHellaSWAG罗伯塔91. 230391. 110.282. 45 1. 278岁79 0.286岁。七二零。241岁681. 1ROBERTA +LS89岁73 0.487岁640. 479. 13 0. 4七十七。400587岁48 1. 2四十050. 9Mixup九十。59 0. 489岁201. 479. 911. 5七十五。七四零。784. 七四零。6四十921. 4混合+LS九十。四四零。687岁450. 779. 160. 476岁四四一。087岁48 0. 439岁。95 1. 0M-Mixup九十。300. 589岁470. 7七十三。79 0.8七十三。69 1. 086岁。040. 741岁6008M-Mixup + LS九十。97 0. 488岁四四一。079. 6106七十五。550986岁。491. 541岁881. 1我们91. 610589岁190.481岁。470. 878岁010. 687岁13 0. 8四十951. 4我们的+LS91. 240389岁750. 682. 69 0. 778岁八六零。587岁63 1. 041岁371. 1表2:BERT(上图)和RoBERTa(下图)的准确度(%)比较。我们报告了五次训练运行的平均准确度,标准差以下标显示(例如, 九十。010. 4表示90。01± 0。4)。第三,我们观察到,我们提出的混合产生最好的校准模型(最低的ECES)在域内和域外的数据(除了SWAG与ROBERTA)。我们观察到,LS通常有效地与我们提出的混合一起操作,并在域内和域外设置的大多数任务上实现最低的ECE与基线混合方法相比,我们提出的混合方法在域内和域外表现良好,即使不应用校准后校正TS(参见基线的ECE值与我们的ECE值的比较)。我们还观察到,在大多数情况下,TS因此,我们确认了我们的AUM和显着性引导混合用于预训练语言模型校准的鲁棒性。准确性我们探索了混合训练的准确性,并在表2中进行了比较。我们进行以下观察:1)BERT+LS/RoBERTa+LS通常都导致实质性的准确度下降,特别是在与BERT/RoBERTa的域内比较上(即,SWAG上的准确度下降4.49%这意味着标签平滑(LS)无法通过简单地操纵标签(从硬标签变为软标签)来改善模型泛化。这可能会导致与模型泛化相关的信息丢失(Müller et al. ,2019)。2)Mixup和M-Mixup+v:mala2277获取更多论文无法实现与普通预训练语言模型一样好的准确性,这可能是由于混合的合成样本与原始训练数据之间的冲突导致的流形侵入的机会增加(Guoet al. ,2019 b)。3)相比之下,我们提出的混合方法通常可以达到有竞争力的精度,无论是否应用LS。这一证据支持了我们提出的混合的鲁棒性。请注意,TS不会影响模型4.5消融研究AUM和显著性的影响我们研究每个组件的有效性(即,AUM和显着性)在我们提出的混合。如表3所示,我们提出的没有AUM的混合(即,-AUM)和没有显著性(即,- 显著性)通常会增加预期的校准误差。在我们的方法中,我们不使用AUM,随机分为两类的训练数据和基于显着图进行混合操作。在我们的方法中,没有使用显着性,我们随机挑选两个样本从相反的低和高AUM集,并进行mixup操作。结果表明,这两个指标(AUM和显着性)需要改善模型校准。+v:mala2277获取更多论文域内域外SNLIQQPSWAGMNLIPPDBHellaSWAG无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TS无t植入物TS伯特我们1.851.051.700.952.090.792.261.705.373.544.263.28- 奥姆- 显著性2.742.340.953.164.435.971.394.942.154.191.441.117.749.511.684.149.086.034.176.7911.457.912.214.28- 异种- 类似0.603.760.764.941.512.881.161.984.335.580.812.874.918.382.523.078.337.674.325.5512.6018.916.383.24罗伯塔我们1.281.082.180.841.120.811.371.603.962.671.861.70- 奥姆- 显著性5.182.912.252.633.590.980.791.022.311.411.391.2711.294.805.754.548.096.921.784.7812.466.823.793.37- 异种- 类似2.012.690.932.332.985.141.583.402.523.100.732.626.692.014.771.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功