深度神经网络分类中低估良好示例问题及解决方案控制代码获得

123 浏览量更新于2023-12-01 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文|在使用深度神经网络进行分类时，分类良好的示例被低估赵广祥1、杨文凯2、任宣城1、李磊1、孙旭1、21北京大学2北京大学{赵广祥，任旭昌，徐孙}@ pku.edu.cn，{wkyang，李磊}@ stu.pku.edu.cn摘要学习深度分类模型背后的传统智慧是专注于分类不好的例子，而忽略远离决策边界的分类良好的例子。例如，当使用交叉熵损失进行训练时，具有较高似然性的示例（即，分类良好的例子）在反向传播中贡献较小的梯度。然而，我们从理论上表明，这种常见的做法阻碍了表示学习，能量优化和利润增长。为了弥补这一不足，我们建议用附加奖金来奖励分类良好的例子，以恢复它们对学习的贡献。这个反例从理论上解决了这三个问题。我们通过直接验证理论结果或通过我们的反例在不同任务（包括图像分类，图形分类和机器翻译）上的显著性能改善来实证支持这一此外，本文表明，由于我们的想法可以解决这三个问题，我们可以处理复杂的场景，如不平衡分类，OOD检测，以及对抗性攻击下的应用程序。代码可在 https://github.com/lancopku/well-classified-examples-are-underestimated获得。1引言在通常的实践中，使用深度神经网络（DNN）的分类降低了来自良好分类的示例的贡献的权重。DNN在主流分类任务中取得了领先的性能（He et al.2016;Kipfand Welling2016;Vaswani et al.2017;Devlin et al. 2019年）的报告。通常，DNN的训练依赖于通过反向传播优化目标和预测之间的设计指标（Rumelhart，Hinton和Williams1986）。均方误差（MSE）计算目标和概率预测之间的二次距离（ Rumelhart ， Hinton ， andWilliams1986）. 交叉熵（CE）损失测量目标分布和概率分布之间的距离（Baum和Wilczek1988）。与MSE相比，CE损失是首选的，因为CE损失通过为良好分类的示例带来陡峭的梯度来鼓励准确的预测（Baum 和Wilczek1988;Goodfellow，Bengio和Courville2016）。因此，由于陡峭度的增大，CE损失显示出更好的泛化能力（Solla，Levin，and Fleetman 1988）。在CE损失的训练过程中，分类良好的示例有助于预印本。图1：CIFAR-10上CE损失的能量和裕度图示。左：平均条件能量E（y x），用于类“dog”的示例。右：训练好的分类模型的边缘分布，有一些例子具有负边缘。与分类不好的相比，对梯度的影响更小。忽略好分类样本的操作背后的智慧是好分类样本在学习中所包含的信息相对较少。CE损失的改进变体仍然符合这种智慧（Liuet al. 2016;Szegedy等人2016;Lin et al. 2017年）。我们以下列三个事实对上述做法表示怀疑(1) 最近对不平衡学习的研究表明，降低相对分类良好的数据丰富类的学习权重严重损害了表征学习（Kangetal.2020;Zhou et al.2020）。这些研究启发我们思考在样本水平上是否也是这种情况，并且我们验证了降低分类良好样本的学习权重也会降低性能（表3）。(2) 关于基于能量的模型（ EBM ）（ LeCun et al.2006），需要更尖锐的能量表面。[1]然而，我们发现在CE损失的情况下训练的能量表面并不尖锐，如图1所示。可能的原因是，只要正例能量低于负例能量，CE损失就不足以压低正例能量我们在图5中的验证表明，对分类良好的示例进行向上加权会使我们获得更清晰的表面。（3）关于分类，公认的是，建筑物分类模式-1参考Yann LeCun在ICLR 2020上的演讲arXiv：2110.06537v3 [cs.LG] 2021年12+v：mala2255获取更多论文ΣL−softmax（f（x）[y]））=0。∈、expfθ（x）[y]y'∈Y<$σθ（ x）[ y']具有大边界的els导致良好的泛化（Bartlett1997;Jiang etal. 2019）和良好的稳健性（Elsayed et al. 2018;Matyasko和Chau2017;Wu和Yu2019），但我们发现CE损失的学习导致更小的利润率（如图1所示）。原因可能是进一步扩大利润的动机有限，因为分类良好的例子优化程度较低。我们在图6和图7中的结果显示-对于输入x。NLL损失为：LNLL=−logp θ（y|x）=− log p θ（x）[y]。（一）由方程式（1），我们从模型中得到预测概率θ，并希望最大化目标类的对数概率y. 我们用损失陡度这个术语来表示ΔL/Δ p。为NLL损失，损失的陡度为-1，表示不正确对分类后的样本进行加权，扩大了边界，有助于提高对抗鲁棒性。小pp优先学习贡献：我们系统地研究了分类良好的示例在DNN分类学习中的作用，结果挑战了常见的实践。首先，我们从理论上确定CE损失与反向传播的表示学习，学习的能量函数，和利润增长速度的问题（参考§2）。其次，我们提出了鼓励损失（EL），这可以被视为一个反例的常见做法，因为它的权重的学习分类良好的例子，与CE损失。此外，我们从理论上证明，也就是说，体现了更急剧的损失和更大的损失陡度。在本节中，我们将CE损失称为NLL损失，并讨论关于NLL损失和softmax归一化的梯度。然而，我们的结果也可以很容易地推广到带有sigmoid的BCE损失，因为在NLL损失的第二类情况下，BCE损失的相反类，并且sigmoid的导数与softmax相同。在NLL损失中，我们只能考虑来自标签类y的索引的梯度。为了简单起见，我们使用p来表示预测的正确性反向传播通过关注分类良好的样本，EL学习从分类良好的样本中恢复表示学习，降低数据流形上的能量（参见第3节）。第三、L=∂θy'∈Y=Lσθ（x）[y′]Lσ（fθ（x）[y′]）∂θ<$σ（ fθ（x）[ y′]）<$fθ（x）[ y′].（二更）用于训练规范和最先进模型的实例。基于异构数据类型的图像识别和机器翻译实验结果表明，该方法能持续提高学习性能.我们还实证地验证了关于表示学习、能量和利润率的分类良好的例子。进一步的分析表明，增强对分类良好的示例的学习可以提高模型（参见第4节）。2CE损失2.1设置和符号分类在分类任务中，我们有输入数据x∈RD和属于所有K个类别之一的标签y∈Y，并使用Y={1，2，.，K}表示所有类索引的集合。我们的目标是学习参数函数fθ（·）[Y]由方程式（2）梯度依赖于损失函数、logits归一化函数σ和当前模型fθ。2.2CE损失的三个方面归一化函数给CE损失带来了梯度消失问题，阻碍了表示学习在引入反向传播来训练深度神经网络之初，反向传播的损失函数是MSE，测量L2distance，概率和标签之间的比较（Rumelhart，Hinton，Williams1986）。然而，当预测接近目标时，MSE的陡度变为零。Baum和Wilczek（1988）将CE损失引入反向传播，并指出它解决了MSE中的上述问题，并使预测更加准确。结合NLL损失的导数和归一化的导数，具有CE损失的模型参数的梯度为：其预测数据x的K-dim对数（在归一化之前），即，fθ：RD→RK。设fθ（x）[y]表示第y个NLL=（p1）∂θf θ（x）[y]。∂θ(3)预测的K-dim logitsfθ（x）[Y]和pθ（x）[y]的值是类y的归一化概率。我们采用一般的softmax归一化，将logitf（x）[y]转换为概率p（x）[y]，因为它可以推广到两类和多类分类：exp（fθ（x）[y]）θy'Yexp（fθ（x）[y']）CE损失通常，使用最大似然估计（MLE）来估计参数分类器fθ（x）[Y]，其等效于最小化预测概率p（x）[y]与信号之间的交叉熵（CE），当预测变得正确时，归一化函数将梯度饱和度带回来。由于DNN被认为是提取特征的管道（Zeiler和Fergus2014;Tenney，Das和Pavlick2019），并且与我们的看法一致，即分类良好的示例与其他示例共享管道，梯度消失阻碍了从分类良好的示例中进行表示学习的部分CE损失在减少数据流形上的能量方面没有足够的力量基于能量的模型（EBM）（LeCun et al. 2006）计算概率密度类y是否为真标签。当我们有可能-通过所有类之间的softmax规范化，我们对于x∈RD，p（x）=exp（−Eθ（x））xexp（−Eθ（x））这里我们可以将CE损失简化为最小化−logpθ（x）[y]的负对数似然（NLL），其中y是真实标签类将分类器重新解释为条件EBMp θ（y |x）=<$y'∈Yexp（fθ（x）[y']），其中条件能量为我们进行了大量的实验，以经验验证更加关注分类良好fθ（x）[ y′]∂θ+v：mala2255获取更多论文交叉熵损失|−||//−−−“的∂θ∂θ−ΣE θ（yx）= f θ（x）[y]。故，在《易经》中，（1）可以写成：L NLL= E θ（y |x）+log[exp（−E θ（y|（x））惩罚错误20+奖励正确性022.50.02.5=也值正确性0.00美元0.250.500.75一点0.000.250.500.75一点0.000.250.500.75一点+y'/=yexp（−E θ（y′|（x））]。（四）图2：令人鼓舞的反例损失CE损失：−logp;奖金：log（1−p）;鼓励损失：最小化CE损失可以将能量推高出数据Eθ（y′x），y′=y，但是对于数据流形Eθ（yx）上的能量，尽管softmax函数的分子将该能量拉低，但包含该项的推动数据上的能量上升。因此，学习CE损失+奖金。Bonus加强了对分类良好的示例的学习。CE损失陷入困境，并且没有足够的功率来降低数据CE损失在扩大利润方面无效。先前的研究证明，较大的最小利润（ Bartlett1997;Bartlett ， Foster ， andTelgarsky2017;Neyshabur，Bhojana，0.0-0.5-1.0-1.5-2.0-2.5-3.0LE=1LE=0.75LE=0.5LE=0.25LE=0palli和Srebro2018）或大的整体利润率（ZhangandZhou2017;Jiang et al. 2019）在训练集上表明具有良好的泛化能力。虽然边际γ（x，y）=f θ（x）[y]−max y'yfθ（x）[y′]定义在0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0啪啪啪啪图3：这些是奖金的变化左：正常奖金log（1 p）;其他：保守奖金。LE是位置其中，对数曲线E表示保守对数奖金，损失曲线logits，因为softmax函数生成概率彼此相对，有指数项，在最大操作中，较大的可能性可能导致较大的裕度。然而，正如我们在Eq中推导的那样。（3），CE损失在其变大时不善于增加可能性。因此，在增加差额方面可能会受到限制。根据以前的工作（Wanget al. 2018;Cao etal.2019;Menon et al.2021），我们认为f θ（x）[y]f θ（x）[y′]在标签位置处的logit和在任何其他位置y′=y处的logit之间作为近似边界。注意，NLL损失然后可以被写为LNLL=log[1+y]。yexp（f θ（x）[y′]−f θ（x）[y]）].我们用A表示exp（fθ（x）[y′]fθ（x）[y]），NLL损失的梯度w.r.t.参数θ为：A（在LE之后继续，在对数曲线的p=LE处相切。这些变化从右到左逐渐增加了分类良好的例子的陡度原来的CE损失是案件奖金=常数。使得当p变高时损失再次变陡正常奖金是CE损失的镜像翻转：奖金=log（1p），而正常奖金的鼓励损失是：LEL=−logpθ（x）[y]）+log（1−pθ（x）[y]）（6）我们称之为鼓励损失，因为它鼓励模型通过奖励这些接近正确的预测来给出更准确的预测。NLL=∂θy'/=y 1个以上是的yA（五）只要额外的奖金是凹的，它的陡度为较大的p较大，表明EL与奖金以上公式解释了行政长官的培训程序损失随着标签fθ（x）[y]的logit的增加而减少，但其他类fθ（x）[y′]的logit减少，因此它扩大了比CE损失更关注分类良好的例子。为了研究分类良好的示例与其他示例相比的学习的相对重要性，我们gap和标准裕度fθ（x）[y]−maxy'yfθ（x）[y']可以调整额外奖金的相对陡度我们可能会更大。然而，当预测在训练过程中接近目标时，A接近0，但数值为常数1，因此进一步扩大裕度的动机接近0。因此，CE损失在一定程度上不能3从恢复良类样例在本节中，我们提出了一个反例鼓励损失（EL），它增加了优化中分类良好的例子的相对重要性。我们首先定义EL，然后证明它可以减轻上述CE损失的问题。设计许多接近正常奖金但更保守的变体，并在图3中显示它们。在这些损失中，分类良好的例子的优化的相对重要性大于CE，并从右到左逐渐增加。奖金也可以设计得比普通奖金更积极。3.2反例可以解决CE损失以普通奖金为例，分析了鼓励亏损的好处。鼓励损失增强了从分类良好的样本中学习的表示。令人鼓舞的损失是-1-1，所以梯度3.1反例：鼓励损失如图2所示，令人鼓舞的损失是损失和额外损失（我们称之为奖金），为：p1−pLEL=−1·（七）+奖金=鼓励损失损失损失+v：mala2255获取更多论文Σ−/与方程中的NLL/CE损失梯度形成对比。（3），这里gra-k独立于似然p（这有点像DNN中的cnu（Glorot，Bordes和Bengio2011））。对于具有保守奖金的EL，由于奖金是凹的，因此对于分类良好的例子，梯度也较大。激励损失使得模型在降低数据能量方面具有较小。EL的条件能量形式为：L EL=E θ（y|x）− log[exp（−E θ（y′|（x））]。（八）y'/=y它与方程中CE损失的条件能量形式之间的差异。（4）在第二个任期内。请注意，使用EL进行训练不需要推高数据上的能量来最小化第二项，因此有更多的动机来降低数据上的能量虽然保守的奖金 log（1p）在第二项中没有消除障碍，障碍小于CE损失。鼓励亏损使利润增长更快梯度的利润前景相对于EL是：A（Narumiruna的代码，使用pytorch的示例代码在ImageNet上训练ResNet-50，使用timm的代码在ImageNet上训练EfficientNet-B 0（Wightman2019）。我们选择ResNet-50和EfficientNet-B 0，因为它们分别是规范模型和SoTA参数有效模型。为了进行评估，我们按照惯例报告了测试集上的最佳top-1准确度。图分类的典型应用是对图结构的生物数据进行功能性的二进制分类，我们在PRO-100上进行了实验TEINS （ 1113 蛋白质结构图）（ Dobson 和Doig2003;Borgwardt等人2005）和NCI 1（4110化合物图）（Wale、Watson和Karypis 2008）。该模型是节点特征学习模型GCN（Kipf和Welling2016），具有池化方法SAGPooling（Lee，Lee和Kang2019）。我们报告测试精度的早期停止模型的最佳有效精度。机器翻译在这个任务中，我们需要从包含数万个词类的词汇表中顺序选择一个词类。我们在IWanderDe-En（160K训练句对）上进行了实验。和IWALTERFr-En（233K训练句子对）。基座EL=∂θy'/=y'是的yA（九）模型为Transformer（Vaswani等人，2017），评估结果为度量是BLEU，它计算有多少N-gram（N-gram是N个分类预测的连续序列现在，该市场的增长速度为1+10%。yA次两种情况都存在于预测序列和生成的y'=yA比在CE损失的训练期间更快当模型变得更好时，负差距A的指数接近0，比率变大，有助于进一步增加利润。具有保守奖金的EL具有较小的比率，但该比率仍大于1。4鼓励学习分类好的例题本节通过将反例应用于各种分类任务和设置来分析鼓励学习分类良好的示例的实际效果4.1实验装置在这里，我们简要地阐明了实验设置，请参阅附录B和代码了解更多细节。对于可靠性，每个结果均为5次不同运行的平均结果（带误差线）。特别是，在图数据集上，每次运行包含50个不同的训练，有效，测试数据分割（比例为0.8，0.1，0.1由于最近的研究表明，不同的数据集分割在很大程度上影响了测试性能（Shchuret al. 2019年）的报告。对于其他任务，我们使用他们的官方数据分割。图像识别是多类分类的一个典型应用.在这些任务中，我们需要预测图像所属的我们采用四个任务MNIST （ Le-Cunand Cortes 2010 ）、 CIFAR-10 、CIFAR-100（Krizhevsky，Hintonet al. 2009）和ImageNet（Russakovskyet al. 2015），数据集描述见附录B。为了训练，我们从具有良好复制准确性的存储库中借用代码，并保持其所有默认设置不变。具体来说，我们在MNIST上训练Liu等人（2016）的CNN模型，在CIFAR-10和CIFAR-100 上训练ResNet-50 （He等人2016 ）和EfficientNet-B 0（Tan和Le2019），使用序列（P apineniet al. 2002年）。我们采用fairseq的大部分设置，包括培训和评估。唯一的修改是，我们调整了默认损失的最佳超参数（带有标签平滑的CE损失），然后使用它们来训练模型，以鼓励损失进行公平比较。不平衡分类我们执行在大规模自然不平衡分类数据集iNaturalist 2018上进行实验样本和24K有效样本。训练的环境评价方法与Kanget al. （ 2020年），包括-ing分别评估“多镜头”、“中镜头”和“少镜头”子集上的结果4.2 提高分类性能图像识别中对像素数据的多类分类我们将结果绘制在图4 中，并进行总结。在表1 中列出改进。对于Imagenet上的EfficientNet-B 0，我们直接运行基线，并以保守的奖金（LE=0.75）鼓励损失，以节省能源，因为EfficientNet不具有时间效率。从所有的结果中，我们指出，加强学习的良好分类的例子，与额外的奖金确实可以帮助提高准确性。以ImageNet为例，通过加强对分类良好的示例的学习，规范模型ResNet-50改进了0. 94分，SOTA参数高效模型EfficientNet-B 0的精度也能从77. 8到7828岁我们想指出的是，与其他方法相比，EL的改进实际上是显着的，考虑到它们需要250倍的训练数据（Xie et al.2020）或几次epoch（Zhang et al.2018）来实现与我们类似的准确性改进。图结构数据+v：mala2255获取更多论文设置 C100-r50 C100-eb0 Img-r50CEEL75.80±0.0977.21±0.2676.43±0.1574.39±0.7076.22±0.3775.49±0.28Bleu≤±±|99.699.5599.599.4599.499.35MNIST-cnn93.2593.092.7592.592.2592.091.75Cifar10-resnet5076.075.575.074.574.0Cifar100-resnet5094.093.593.092.592.0Cifar 10-效率netb 077.477.277.076.876.676.476.276.075.8Cifar 100-高效netb 0设置CEImg-eb 0蛋白NCI 177.80±0.1572.32±0.1270.53±0.2876.6ImageNet-resnet50蛋白质-gnnNCI1-gnnDe->En-transformer38.0Fr->En-transformerEL78.28±0.1372.76±0.1871.04±0.3876.476.273.072.872.671.471.235.635.537.8设置德恩CE35.09±0.0737.10±0.0676.075.875.675.475.275.072.472.272.071.871.671.471.070.870.670.470.235.435.335.235.137.637.437.237.0EL 35.50±0.11 37.73±0.17表1：我们总结了CE和EL在各种任务上的结果。鼓励学习分类良好的示例会带来持续的改进。我们缩写了名字，例如，图4：增强对分类良好的示例的学习可以提高性能。 ImageNet是ImageNet。设置Cifar10-resnet50Cifar100-resnet50CECE（2xLR）92.34± 0.7091.53± 0.1974.39± 0.7073.57± 0.66ElEL（0.5xLR）92.74± 0.3893.69± 0.2575.80± 0.0976.37± 0.29表2：使用EL（LE=1）进行训练可以从减少梯度量中受益，因为理论上EL的总体梯度我们可以从图4中看到，用保守奖金加强分类良好的示例的学习可以带来0的准确率提高。蛋白质为44，准确度为0。NCI1上有51个从图4的最后两个子图中我们可以看到，在机器翻译上，奖励正确的预测可以带来BLEU分数的提高，0。41对德恩翻译和0。63篇关于翻译我们在附录C.1和表8中显示，我们的改进是加性标签平滑（Szegedyet al.2016年，与之比肩。图4中的权衡结果表明，在许多保守设置（LE 0.5）中，鼓励损失已经比CE损失更关注分类良好的示例然而，在某些情况下，用更高的奖金鼓励损失并不能进一步提高深度分类模型的准确性。原因可能是CE损失实际上隐含地降低了沿着训练的学习速率，因为CE损失的梯度范数在训练期间衰减，并且现有的适应CE损失的优化方法应该被修改。在我们的实验中，我们选择采用最佳的EL基线设置，这可能不是最适合鼓励损失。为了验证这一点，我们首先在表2中显示，当我们扩大CE损失的学习率时，准确率也会下降。然后，我们发现重新归一化的梯度通过降低全局学习率来鼓励损失可以帮助更好地学习分类良好的示例。例如，我们可以继续将CE损失和鼓励损失之间的准确性差距提高到1。Cifar 10-resnet 50上的35和1。Cifar 100-resnet 50上分别为98易于应用除了上面所示的所有有希望的结果之外，我们的方法还有另一个优点，即它可以作为一个直接的插件模块而广泛适用，而无需改变所有原始的超参数。4.3 在实践在本小节中，我们证明了加强对分类良好的示例的学习可以解决CE损失所面临的问题，正如我们在第2.2节中所讨论的那样。由于空间限制，我们将CE损失和EL之间的结果与CIFAR-10上训练ResNet-50的正常奖金进行比较。其他设置下的更多结果请参见附录。表示学习除了第4.2节中说明的整体准确性提高之外，我们还进行了实验，通过两个损失来评估学习的表示具体来说，我们首先使用CE损失和EL来训练整个模型，然后只训练重新初始化的输出层，但修复表示。该过程类似于Kang等人（2020），将训练分为表示学习阶段和分类阶段。我们观察到，使用EL的表示学习达到了92. 98 0. 01，但CE损失的表示学习仅获得91的准确率。690. 04.能量优化我们绘制条件能量E（y x）在图中的类“cat”的示例上平均5. 我们可以看到围绕数据的能量变得更加尖锐在鼓励损失的帮助下，因为它比CE损失更多地降低数据上的能量。利润增长我们可以从图6中看到，令人鼓舞的损失利润是CE损失利润的几倍。这些结果表明，学习分类良好的例子与额外的奖金，大大提高了分类模型，扩大了利润，这进一步使模型具有很大的泛化能力和鲁棒性，设置 MNIST C10-r50 C10-eb0CEEL99.56±0.0592.97±0.4294.24±0.1799.42±0.0692.34±0.7093.21±0.40精度精度+v：mala2255获取更多论文|∈图5：条件能量E（y|x）在目标类的示例（X y）上平均（这里是“猫”），图6：左：CE损失的边缘分布在-240到50之间，以15为中心右：EL的边缘分布在-70到170，以50为中心。学习分类良好的样本有助于使分类的边缘加倍。在EL的帮助下，数据（y = yθ）变得更尖锐。方法iNaturalList2018总体多中少我们将在下面讨论。4.4应对复杂的应用场景本节表明，通过EL增强对分类良好的示例的学习可以很好地应对三个复杂的应用场景，因为这个想法缓解了这三个问题。不平衡分类在不平衡分类中，我们通过从数据丰富的类样本中进行表示学习来提高稀有类的分类性能（Kangetal. 2020年）。因为增强简单样本的学习也增强了它们的表示学习，我们相信这个属性有利于不平衡学习。我们对iNaturalist 2018数据集进行了验证实验，结果见表3。我们发现，鼓励学习分类良好的样本使得模型的p >0。5、正常奖金）。我们还可以将我们的想法与其他先进的方法结合起来（ Cao et al.2019;Kangetal.2020）。对于“解耦分类器和表示学习”的加法实验在表示学习阶段，我们不仅保持了对数据丰富类的学习，而且恢复了对分类良好的示例的学习。在分类器学习阶段，我们保持所有设置不变。我们的方法将它们提高了1.9个点，这从经验上验证了传统的在样本水平上的重新加权（CE损失降低了分类良好的样本的重要性）也对表示学习。OOD检测我们可以提高OOD检测的性能，因为EL锐化了数据周围的能量表面。对于OOD检测，我们使用一个指标来检测样本是在训练集的分布（In-D）中还是在分布（OOD）之外。我们使用最小条件能量miny'YEθ（y'x）作为指标。我们在附录中显示，我们的指标优于最大概率和自由能（Liu et al.2020）。我们在小规模OOD 检测任务（ In-D ： MNIST ， OOD ： Fashion-MNIST）和大规模OOD检测任务（In-D：MNIST，Fashion-MNIST）上进行了实验。表3：在不平衡分类数据集iNaturalist 2018上比较CE损失和令人鼓舞的损失（为CE损失增加奖金额外的奖金，恢复良好分类的例子的学习带来了改善CE损失和其先进的方法。D：ImageNet，OOD：iNautralist 2018）。Fashion中的样本 - MNIST 是衣服，而 MNIST 中的样本是数字 ;ImageNet中的样本是对象的实例，而iNautralist 2018中的样本是物种的实例（详细设置请参阅附录C.2我们可以从表4中看到，EL导致比CE损失更好的性能例如，我们将度量FPR 95从8减少。10%到0。百分之九十五关于MNIST与时尚MNIST。这些结果证实加强对良好分类的示例的学习导致有区别的能量分布。对抗性攻击的鲁棒性我们已经在理论和实践中证明，更多地关注分类样本可以显着增加利润。这个道具很可能会增加对抗性考试的鲁棒性图7：在FGSM和PGD的对抗性攻击下CE损失和令人鼓舞的损失的准确性。CE损失64.374.165.959.8+ 保守奖金（LE=0.5）65.374.366.661.2+ 普通奖金65.874.466.662.4+ 积极的奖金66.3（+2.0）75.1（+1.0）67.4（+1.6）62.6（+2.8）去耦代表Cls（CRT）64.971.465.961.9+ 普通奖金66.8（+1.9）71.7（+0.3）67.6（+1.7）64.6（+2.7）延迟重新加权68.171.068.367.1+v：mala2255获取更多论文∞−- − −CE95.6820.9276.5475.40El98.048.6978.4171.86表4：EL显著改善OOD检测性能。我们使用F。MNIST表示时尚MNIST。较高的AUROC和较低的FPR95更好。名称起源损失+镜像奖励CE损失+softmax99. 42±0. 06 99. 56±0. 05MSE + softmax 99.56± 0.05 99.66± 0.04MSE+乙状结肠99.63±0.04 99.69±0.02表5：分类良好的例子也有助于改善MSE，这比MNIST上的CE损失更好。这是因为受干扰样本的预测可能远离决策边界。为了验证这一假设，在 MNIST 上，我们使用 FGSM（ Goodfellow ， Shlens 和 Szegedy 2015 ）， PGD（Madryet al. 2018）与L界和L2界的PGD构造对抗样本，分别对CE损失和EL训练的模型进行攻击。图7中的结果验证了我们的假设用EL训练的模型在接收特定范围的对抗性干扰时预测更鲁棒。我们在附录C.2中表明，我们的想法也可以提高其他强大攻击方法下的鲁棒性，并且可以与CE损失的大裕度变量相加，以进一步提高鲁棒性和裕度。4.5分类良好的例子在MSE中也被低估了社区众所周知，CE损失在训练深度神经网络方面优于MSE，并且优越性也已被证明来自CE的陡峭梯度（Solla，Levin和Fleetman1988）。然而，表5显示了在MNIST上MSE胜过CE损失。可能的原因是，CE损失对不好分类的例子然而，我们发现，通过增加镜像奖励，（年p）2（（1年）的（一）p））2到MSE（y p）2，以鼓励学习分类良好的示例，性能提高。这表明，MSE还具有低估分类良好的例子的问题。4.6这个想法是添加剂与改善CE损失我们已经表明，在该文件中，我们的想法改善了MSE，CE损失，和变化的CE损失不平衡分类。我们还在附录C.1中讨论了CE损失的先前改进，并证明我们的想法与包括局灶性损失在内的增加（Linet al. 2017）、标签平滑（ Szegedyet al.2016 ）、对抗训练（ Goodfellow ，Shlens，andSzegedy2015）和大边缘softmax（Liu et al.2016年）。5限制为了方便未来的研究，我们分析了在这个新领域的困难和可能的解决方案。首先，在某些情况下，具有正常奖金的EL不能提高深度分类模型的准确性。一个可能的原因是CE损失降低了整体梯度范数，现有的适应CE损失的优化应该被修改。我们在表2中表明，当采用鼓励性损失时，降低学习率是一种可能的其次，使用EL训练的模型往往会给出更自信的预测，预期校准误差（ECE）（Guo et al.2017）略有增加。然而，我们可以通过将 EL 与标签平滑相结合来缓解这个问题（Szegedyet al. 2016年）。我们在附录C.2中表明，EL和标签平滑的组合比CE或CE与标签平滑的组合获得更低的ECE6相关工作有几项研究在不同方面与我们的研究有关表征学习有几项研究直接或间接地缓解了从分类良好的示例中进行表征学习的不足。依赖于各种增强技术，对比学习是直接缓解该问题的方法之一，并且在学习表示方面取得了突出的进展（Heet al.2020;Chen等人，2020;Grill等人，2020）。Kang et al.（2020）通过在表示学习中关闭类别级重新加权，间接降低了分类良好的示例的权重，从而缓解了由类别级重新加权引起的表示学习问题。然而，它们并不能改善表征学习中的CE损失使用基于能量的模型来解释分类器最近的研究将分类器重新解释为EBM（Grathwohletal.2020）或条件EBM（Xie et al.2016;DuandMordatch2019）用于生成模型。但是，我们的重点是分别调查数据和数据上的能量通过分类模型中的CE损失进行优化。利用扩大最小余量的思想的一个典型例子是铰链损失（Suykens和Vandewalle1999），它被提出来帮助学习SVM中的考虑周全的余量（Cortes和Vapnik1995），只关注靠近决策边界的数据点。最近，扩大利润的想法已被引入CE损失的情况下（刘等。2016;王et al.2018;Liet al.2018;Menon et al.2021;Elsayed et al. 2018年）。由于这些方法是基于logits调整在softmax之前，它们可以通过在softmax之后用EL损耗替换原始CE损耗来与我们的方法组合。我们在附录C.1中表明，我们的想法可以与他们的大利润想法相结合。7结论本文从理论和实证两个方面证明了分类良好的样本对于进一步改进深层分类模型是非常有帮助的。为了说明这一发现，我们首先直接分析了常见实践的失败，这削弱了这些例子的学习，然后验证了我们提出的反例的积极作用，这价值的学习良好分类的例子。设置MNIST与F. MNIST Img vs.iNautralist 2018公制AUROC↑FPR95↓AUROC↑FPR95↓+v：mala2255获取更多论文引用Bartlett，P. 1997年。对于有效的泛化，权重的大小比网络的大小更重要。在Mozer，M. C.的; Jordan，M.;和Petsche，T.，编辑，神经信息处理系统进展，第9卷。麻省理工学院出版社.Bartlett ， P. L.; Foster ， D. J. 道：和 Telgarsky ， M. J.2017.神经网络的谱归一化边界在盖永岛，勒克斯堡大学五、 Bengio ， S.; Wallach ， H.; Fergus ， R.;Vishwanathan，S.;和加内特，R.，编辑，神经信息处理系统进展，第30卷，6240Curran Associates，Inc.Baum，E.;和Wilczek，F. 1988.概率分布的神经网络监督学习。在安德森，D。ed.，神经信息处理系统。美国物理学会.Bor g wardt，K. M.; 翁角，澳-地S.的; Sch o？naue r，S.;Vishwanathan，S.;Smola，A. J.道：Kriegel，H. P. 2005.通过图核进行蛋白质功能预测。生物信息学，21（增刊1）：i47-i56。Cao，K.;魏，C.; Gaidon，A.; Arechiga，N.;和妈妈，T。2019. 学习不平衡的数据集与标签分布感知的保证金损失。In Wallach，H.;Larochelle，H.; Beygelzime r，A.; d'Alc he'-Buc，F.; Fox，E.; 和加内特，R.，编辑，Advancesin Neural Information Processing Systems，第32卷。Curran Associates，Inc.Chen，T.;Kornblith，S.;Norouzi，M.;和Hinton，G.2020年。一个简单的视觉表征对比学习框架。在III中，H. D.的;和Singh，A.，编辑，第37届国际机器学习会议论文集，第119卷，机器学习研究论文集，1597-1607。PMLR。科尔特斯角;和Vapnik，V. 1995. 支持向量网络。Machine learning，20（3）：273Croce，F.; Hein，M. 2020.可靠的评估对抗性鲁棒性与不同的参数自由攻击的合奏在III中，H.D.的; 和Singh，A. ，编辑， Proceedings of the 37th InternationalConferenceonMachineLearning ， Volume119ofProceedingsofMachineLea

下载后可阅读完整内容，剩余1页未读，立即下载