带噪声标签的深度神经网络训练

130 浏览量更新于2023-10-12 收藏 2.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

322带噪声标签王一森1马兴军2陈在毅3罗元1易金凤4詹姆斯·贝利21上海交通大学2墨尔本大学3菜鸟AI4 JD AI摘要在有噪声标签的情况下训练精确的深度神经网络（DNN）是一项重要而具有挑战性的任务。虽然已经提出了许多方法来学习嘈杂的标签，许多开放的问题仍然存在。在本文中，我们表明，DNN学习与交叉熵（CE）表现出过度拟合噪声标签的一些类（直觉上，CE需要一个额外的术语来促进难类的学习，更重要的是，这个术语应该是噪声容忍的，以避免过度拟合到噪声标签。受对称KL-发散的启发，我们提出了对称交叉熵学习（SL）方法，用噪声鲁棒的反向交叉熵（RCE）对称地提升CE。我们提出的SL ap-proach同时解决了下学习和过拟合问题的CE在存在噪声标签。我们提供了SL的理论分析，也emperically显示，在一系列的基准和现实世界的数据集，SL优于国家的最先进的方法。我们还表明，SL可以很容易地纳入现有的方法，以进一步提高他们的性能。1. 介绍现代深度神经网络（DNN）通常是高度复杂的模型，具有数百个层和数百万个可训练参数，需要具有干净标签注释的大规模数据集（如ImageNet [2]）进行适当的训练。然而，标记大规模数据集是一个昂贵且容易出错的过程，即使是高质量的数据集也可能包含嘈杂（不正确）的标签。因此，在存在噪声标签的情况下训练准确的DNN已成为深度学习中具有重要实际意义的任务。最近，有几项工作研究了带有噪声标签的DNN学习的动态。Zhanget.al [28]认为DNN表现出记忆效应，即它们首先记住干净标签的训练数据，然后随后记住嘈杂标签的数据类似的发现*同等缴款。部分工作是在JD AI Research完成的。†通信地址：Yisen Wang（eewangyisen@gmail.com）和XingjunMa（xingjun.ma@ unimelb.edu.au）。(a) CE-清洁（b）CE -噪声（c）LSR-噪声（d）SL-噪声图1：CIFAR-10上的8层CNN的类测试准确度，通过（a）具有类偏置现象的干净标签上的CE，（b）具有放大类偏置现象的40%对称/均匀噪声标签上的CE以及硬类（例如，，类别3），（c）在相同设置下的LSR到（b）在困难类别仍然存在的学习不足，（d）我们在相同设置下的建议SL，(b) 在所有课程中表现出整体学习的改善。在[1]中也报道了DNN首先学习干净和简单的模式，并最终记住错误分配的标签。[13]中提供了进一步的证据，即DNN首先通过子空间维度压缩学习简单表示，然后通过子空间维度扩展过拟合到噪声标签。在[ 19 ]中报道了不同的发现，其中具有特定激活功能的DNN（即，，tanh）经历初始标签拟合阶段，然后是子标签表示压缩阶段，其中过拟合开始。尽管有这些重要的发现，但对DNN学习行为的完整理解，特别是它们对噪声标签的学习过程，仍然是一个悬而未决的问题。在本文中，我们通过研究跨类的学习动力学，进一步深入了解DNN的学习过程。虽然交叉熵（CE）损失是训练DNN最常用的损失，但我们发现使用CE的DNN学习可能会有类偏差：323(a) CE-清洁（b）CE-有噪声（c）SL -有噪声图2：在CIFAR-10上使用深度特征的t-SNE 2D嵌入在最后一秒密集层上的可视化表示，（a）清洁标签上的CE，（b）40%对称噪声标签上的CE，（c）与（b）相同设置的拟议SL一些类（“容易”类）容易学习，并且比其他类（“困难”类）更快。如图1a所示，即使标签是干净的，在整个训练过程中，类如图1b所示，当训练标签有噪声时，这种现象会被放大：而简单的类（例如，类6）已经过拟合到噪声标签，硬类（例如，类3）仍然遭受显著的学习不足（类准确性显著低于干净标签设置）。具体而言，等级3（底部曲线）在结束时仅具有>60%的准确度，远低于等级6（顶部曲线）的>90%的准确度。标签平滑正则化（LSR）[21，17]是一种广为人知的缓解过拟合问题的技术，如图1c所示，它仍然表现出在困难的班级学习严重不足。比较图1中的整体测试准确度（实心红色曲线），硬类上的低测试准确度（学习中）是高整体准确度的障碍这是一个不同的发现，与以前的信念，差的性能只是由于过度拟合噪声标签。我们还在图2b中可视化了噪声标签情况下的学习表示：一些集群的学习效果与使用干净标签的集群的学习效果相当（图2a），而其他一些集群则没有清晰的分离边界。直觉上，CE需要一个额外的术语来提高其对硬类的学习，更重要的是，这个术语需要容忍标签噪声。受对称KL发散的启发，我们提出了这样一个噪声容忍项，即反向交叉熵（RCE），它与CE结合形成了对称交叉熵学习（SL）方法的基础。SL不仅促进了硬类的充分学习（类准确度接近干净标签设置），而且还提高了DNN对噪声标签的鲁棒性。作为预览，我们可以在图1d和2c中检查类测试准确性和表示的改进学习曲线。在相同的40%噪声设置下，类间测试准确度的变化已经通过SL缩小到20%，最高为95%，最低为75%（图1d），并且学习的表示具有更好的质量，具有更多的分离集群（图2c），两者都非常接近干净设置。与通常涉及架构或重要算法修改的现有方法相比，SL非常简单易用。它需要对训练过程进行最少的干预，因此可以直接纳入现有模型，以进一步提高其性能。综上所述，我们的主要贡献包括：• 我们提供了对具有CE损失的DNN的类偏向学习过程的见解，并发现硬类的学习不足问题是DNN的关键瓶颈。学习噪声标签。• 我们提出了一个对称学习（SL）的方法，同时解决硬类学习问题和噪声标签过拟合问题的CE。我们提供了对SL的理论分析和经验• 我们的经验表明，SL可以实现更好的鲁棒性比国家的最先进的方法，也可以很容易地纳入现有的方法，以签署。大大提高了他们的业绩。2. 相关工作已经提出了不同的方法来训练具有噪声标签的准确DNN，并且它们可以大致分为三类：1）标签校正方法，2）损失校正方法，和3）精细化训练策略。标签校正的思想是提高原始标签的质量。一种常见的方法是通过使用复杂噪声模型的干净标签推断步骤将噪声标签校正为其真实标签，该复杂噪声模型的特征在于有向图模型[26]、条件随机场[23]、神经网络[11，24]或知识图[12]。这些方法需要额外的干净数据的支持或昂贵的检测过程来估计噪声模型。损失校正方法修改损失函数以用于对噪声标签的鲁棒性。一种方法是对噪声转移矩阵进行建模，该矩阵定义了一个类别改变为另一个类别的概率 [5] 。Backward [16]和For-ward [16]是两种使用噪声转移矩阵来修改损失函数的校正方法然而，在实践中，地面真实噪声转移矩阵并不总是可用的，并且也难以获得准确的估计[5]。[4，20]中的工作通过在神经网络顶部添加线性层来增强校正架构。Bootstrap [18]使用原始标签及其预测标签的组合。还有一些研究定义了噪声鲁棒损失函数，例如平均绝对误差（MAE）[3]，但挑战是由于梯度饱和，使用MAE训练网络的速度很慢。广义交叉熵（GCE）损失[29]将Box-Cox变换应用于概率（指数为q的概率幂律函数），并且可以表现为加权MAE。标签平滑正则化（LSR）[21，17]是另一种使用软标签代替独热标签来减轻对噪声标签的过拟合的技术。324i=1Kk=1改进的训练策略为噪声标签设计了新的学习范式。MentorNet [8 ， 27] 通过学习样本加权方案监督StudentNet的训练，以支持可能正确的标签。解耦训练策略[15]同时训练两个网络，当它们的预测不一致时更新参数。Co-teaching [6]在训练过程中同时维护两个网络，其中一个网络从另一个网络最自信的样本中学习这些研究都需要训练辅助网络进行样本加权或学习监督。D2L [13]使用子空间维度适应标签进行学习，与训练过程监视器配对。迭代学习框架[25]在学习过程中迭代地检测和隔离噪声样本。联合优化框架[22]交替更新DNN参数和标签。这些方法要么依赖于对学习过程的复杂干预，这可能很难适应和调整，要么对训练时期和学习率等超参数敏感。3. 交叉熵我们首先分析交叉熵（CE）及其在噪声标签学习中的局限性。3.1. 预赛GivenK 类数据集D={（x，y）（i）}n，其中x∈X <$Rd 表示 d 维输入空间中的样本，并且 y∈Y={1，· · ·，K}表示其相关联的标签。对于每个样本x，分类器f（x）计算其每个样本的概率。(a) CE-清洁（b）CE -噪声图3：在CIFAR-10上通过CE损失训练的epoch 10，50和100（总共120个epoch）的类测试准确度，其中（a）干净标签或（b）40%对称噪声标签。(a)（b）预测分布图4：CIFAR-10上CE损失的中间结果，具有40%对称噪声标签。（a）第3类样品清洁部分的平均置信度。(b)真阳性样本（正确）来自每个类别的预测（预测）。第50个时期）和以后的（第100个时期）阶段，关于总共120个时期的训练。如图3所示，CE学习对于干净标签和40%噪声标签都以高度类偏差的方式（蓝色曲线）标号k ∈ {1，···，K}：p（k| x）=ezkj=1ezj ，其中zj是这是因为样本内部的模式本质上是logits 我们表示标签对于样本x，由q（k| x），和q（k| x）= 1。考虑不同.对于干净的标签，网络最终管理学习所有类的一致性，反映在跨类的相对平坦的准确率曲线上（图中的绿色曲线在单个地面真值标签y的情况下，则q（y| x）= 1q（k）|x）=0对于所有k样品X为：ΣK=−k=1y. 交叉熵损失q（k| x）log p（k| X）。（一）（见第3a段）。然而，对于有噪声的标签，在不同的类别中差异很大，即使在后期也是如此（图3b中的绿色曲线）。特别是，网络努力学习困难的课程（例如，，等级2/3），与清洁设置的差距高达20%，而一些简单的等级（例如，，1/6班）学习得更好，已经开始3.2. 噪音标签我们现在强调了基于CIFAR-10数据集[9]（10类自然图像）的经验证据的带有噪声标签的DNN学习CE的一些弱点。为了生成嘈杂的标签，我们随机地将正确的标签均匀地翻转到其他9个不正确的标签中的一个（例如，对称标签噪声），并将不正确标签的部分称为噪声率。这里使用的网络是一个 8 层卷积神经网络（CNN）。详细的实验设置见第5.1节。我们首先更详细地探讨图1a和1b中所示的类偏见现象，重点关注三个不同的学习阶段：早期（第10纪元）、中期（过拟合噪声标签（精度从epoch 50下降到100）。看来，学习困难的类是一个主要的原因，整体性能下降，由于过拟合造成的准确性下降是相对较小的。我们进一步从表征的角度探讨了硬班英语学习不足的原因由于它们在表示上与其他一些类别高度相似（参见图2a中类别3的红色聚类），硬类别示例的预测可能会对这些相似类别具有相对较大的概率。在噪声标签场景下，类别3变得更加分散到其他类别中（图2b中的红色集群）。因此，CE没有学习到可见的集群325即使在这个sce- nario中仍然有60%的正确标签。进一步深入研究第3类样本的60%干净部分，我们在图4a中显示了神经网络的预测置信度输出。虽然类3处的置信度最高，但其仅在0.5左右，而对于其他类，置信度在0.05或0.1左右，这实际上是相对高的值，并且指示即使在干净的标记部分上类3的学习不足。学习不足的另一个证据可以从图4b中获得，其中硬类（例如，类2/3）在整个学习的中间阶段具有较少的真阳性样本。显然，CE本身不足以学习硬类，特别是在嘈杂的标签的情况下。我们注意到，这一发现为DNN在标签噪声下的学习提供了新的见解，并且与之前认为DNN一般过拟合所有类的观点不同[1，28]。在下一节中，我们提出了一种对称学习方法，可以解决CE的硬类学习和噪声标签过拟合问题4. 对称交叉熵学习在本节中，我们提出了对称交叉熵学习（SL），这是一种在充分学习和对噪声标签的鲁棒性之间取得平衡的方法。并对SL的形成和确定进行了理论分析。4.1. 定义给定两个分布q和p，交叉熵（记为H（q，p））和KL-散度（记为KL（q<$p））之间的关系KL（q<$p）=H（q，p）−H（q），（2）其中H（q）是q的熵。在分类的上下文中，q = q（k|x）是在样本x上的基础真值类分布，而p=p（k| x）是分类器f在标签上的预测分布。从角度来看-根据KL-发散，分类是学习一个预测分布p（k| x），其接近于地面真实值disq（k| x），这是为了最小化两个分布之间的KL-散度KL（q<$p）。在信息论中，给定一个真实分布q及其它来自p（k| x）当使用用于q（k）的代码时|X）。对称KL散度为：SKL=KL（q||p）+KL（p||q）。（三）把这个对称的概念从KL-散度转移到交叉熵，我们得到了对称交叉熵（SCE）：SCE=CE+RCE=H（q，p）+H（p，q），（4）其中RCE=H（p，q）是H（q，p）的反向版本，即反向交叉熵。样本x的RCE损失为：ΣKRce= −p（k| x）log q（k| X）。（五）k=1因此，样品SCE损失可以定义为：=（六）虽然RCE项是噪声容忍的，如将在第4.2节中证明的，但CE项对标签噪声不鲁棒[3]。然而，CE对于实现良好的收敛是有用的[29]，这将在第5节中进行经验验证。为了更有效和鲁棒的学习，我们提出了一个灵活的对称学习框架，使用两个解耦的超参数（例如，、α和β），其中α针对CE的过拟合问题，而β针对RCE的鲁棒性的灵活探索。形式上，SL损失为：αsl=αsce+ βsce。（七）作为地面真值分布q（k| x）现在在对数的内部，这可能会导致计算问题，当标签是独热的：对数内的零值。为了解决这个问题，我们定义log 0=A（其中A<0是某个常数），这将很快被证明是有用的定理1中的鲁棒性。这种技术类似于深度学习框架与另一种选项标签平滑技术相比，我们的方法在有限数量的点（如q（k））处向模型引入了更少的偏差（从训练的角度来看，偏差可以忽略不计|x）= 0但无偏倚在q（k|x）=1）。注意，β对RCE的影响可以是通过A的不同设置反映（参见等式（4.3））。4.2. 理论分析鲁棒性分析：在下文中，我们将证明，近似p，KL（qp）测量对编码的惩罚，使用针对p优化的代码从q中提取样本（惩罚RCE损失RCE是鲁棒的标签噪声以下[3]。我们所需的额外比特数）。在噪声标签的上下文中，我们知道q（k| x）不代表真实的类分布，而是p（k）|x）能在一定程度上反映真实分布。因此，除了取q（k|x）作为基础事实，我们还需要考虑KL发散的另一个方向，即KL（p||q），惩罚编码样本在实践中，H（q（k|x））项对于给定的类分布是常数，因此从等式中省略。（2）在等式中给出CE损失（一）.326ηη将x的噪声标记表示为y，与其真实标记相反y. 给定任何分类器f和损失函数f_rce，我们将f在干净标签下的风险定义为R（f）=Ex，y_rce，并且将标签噪声率 η下的风险定义为 Rη （f）=Ex ，y_rce。设f ∈R（f）和Rη（f）的全局极小. 在给定损失函数下的风险最小化是噪声鲁棒的，如果f_∞与无噪声数据下的f_∞具有相同的误分类概率。当满足上述条件时，我们还说损失函数是噪声容忍的。327KzjJzjK伊茨定理1. 在多类分类问题中，如果噪声率为η <1 −1，则在对称或均匀标签噪声下，分类器是噪声容忍的。并且，如果R（f ∈）= 0，则rce也是噪声其中A是log 0的平滑/削波替换。注意，逐样本CE损失斜率为：.当噪声率为ηyk<1−ηy且k/=yηyk=ηy时，在非对称或类s依赖于标签噪声下耐受。∂ℓce=zjpj−1≤0，qj=qy=1pj≥0，qj=0。（十一）证据对于对称噪声：在qj=qy=1（k = 1）的情况下，≤0），第二个Rη（f）=Ex，yrce=ExEy|xEy| x、y、c、e项Ap2-Apj是基于下式的自适应加速度项：pj. 具体地说，Ap2−Apj是一个连续的x抛物函数=ExEy|XΣ（1−η）πrce+ηK−1ΣKk/=yΣ布尔切J当pj∈[0，1]时，在第一象限中，且在pj = 0时具有最大值. 五、考虑到学习进展到-wardspj→1，RCE增加了标记y上的DNN预测=（1−η）R（f）+ηK（R（f））对于p，j为<0。5和smalleracceler-K−1.Σk=1对于pj>0。五、在qj=0（k=0）的情况，≥0），则=R（f）ηK1−K−1-An，ΣK第二项-Apjpy是最小值上的自适应加速度未标记类（pj）的概率最小化，基于标记类的置信度（py）。更大的py导致更大的加速度，也就是说，如果网络更自信的话最后一个等式成立，k=1rce=−（K−关于它在标记类上的预测，那么残差（1）下列等式（5）log 0=A的定义。因此，在本发明中，其他未标记类的概率应降低快当py=0时，没有加速度，这意味着Rη（f）−Rη（f）=（1−ηKK−1）（R（f）−R（f））≤0如果网络对标记的类根本没有信心，则标记可能是错误的，不需要加速。因为η<1−1和f是R（f）的全局极小。4.3. 讨论Kη这证明了f也是风险R（f）的全局最小值，也就是说，噪声是可容忍。同样，我们可以证明非对称噪声的情况，详情请参见附录A。□梯度分析：接下来，我们推导出一个简化的SL（α，β=1）的梯度，以粗略地了解它的学习过程与CE的学习过程有何不同。为了简洁起见，我们将pk，qk表示为p（k）的缩写|x）和q（k| X）。考虑单个真标签的情况，相对于logitzj的样本RCE损失可以推导为：一个简单的增加，以提高CE将是升级其梯度与一个更大的系数（例如，、“2CE”、“5CE”）。然而，这将导致更多的过拟合（参见以下第5节图9a中的也有其他选择要考虑，如MAE。虽然动机完全不同，即CE和RCE是（信息论）不确定性的度量，而MAE是距离的度量，但我们可以惊讶地发现，简单地表明，MAE是RCE在A = −2时的特殊情况，当x有一个真标签时（例如， q（y| x）= 1且q（k/=y| x）=0）。对于MAE，我们有，阿斯图里亚斯=−Σklogq，（8）ΣKmae=|x）− q（k| x）|=（1 − p（y|x））+|x))+Σp（k|x）zjk=1 zjk=1k/=y其中，可以基于k=j来进一步导出k = p k：J=2（1 − p（y| x）），pk=zj.pk（1 −pk），K= j− pjpk，k/=j。（九）而对于RCE，我们有，ΣKRce= −p（k| x）log q（k| x）k=1根据等式（9）和单个标签的情况下的地面实况分布（例如，，qy=1，且qk=0，Σ Σ=−p（y| x）log 1 − p（k| x）A = −Ap（k| x）k/=y），SL的梯度可以被导出为：.k/=y=−A（1 − p（y|X））。K328zjk/=y ∂ℓ∂ℓce−(Ap2 −Apj),qj=qy=1SL=zjj.j.ce+（−Apjpy），qj=0，（十）也就是说，当A=−2时，RCE正好减少到MAE。同时，与GCE损失（即，，加权[29]这是一个由两个对称学习的组合。†完整的推导可参见附录B。的条款。3295. 实验我们首先提供了一些经验的理解，我们提出的SL方法，然后评估其对噪声标签的鲁棒性MNIST，CIFAR-10，CIFAR-100，和一个大规模的真实世界的嘈杂数据集Clothing 1 M。噪音设置：我们测试两种类型的标签噪声：对称（均匀）噪声和非对称（类别相关）噪声。通过将给定比例的训练样本的标签均匀地翻转到其他类别标签之一来生成对称噪声标签。而对于不对称噪声标签，翻转标签仅发生在特定的类集合内[16，29]，例如，对于MNIST，翻转标签仅发生在特定的类集合内[16，29]。2→7，3→8，5参与6和7→1;对于CIFAR-10，翻转卡车→汽车，鸟→飞机，鹿→马，猫参与狗;对于CIFAR-100，100类被分成20个超类，每个超类有5个子类，然后在每个超类内的两个随机选择的子类之间翻转。5.1. 对SL的经验理解我们在CIFAR-10数据集上进行了实验，以更深入地理解SL。实验设置：我们使用8层CNN，其中6个卷积层，然后是2个完全连接的层。所有网络都使用SGD进行训练，动量为0.9，权重衰减为10- 4，初始学习率为0.01，在40和80个epoch（120 epoch到100epoch）之后除以10tal）。SL中的参数α、β和A分别设置为0.1、1和类式学习：SL在40%噪声标签上的类式测试准确度已经在图1d中呈现。这里，我们在图5中提供了60%噪声标签的进一步结果。在这两种设置下，每个类是更充分地学习SL比CE，伴随着准确性的增加。特别是对于硬类（例如，，班级2/3/4/5），SL显著提高了他们的学习成绩。这是因为SL促进了自适应的步伐，以鼓励从艰苦的课程中学习在学习期间，可以快速地学习来自简单类的样本以具有高概率pk> 0。5，而来自硬类的样本仍然具有低概率pk<0。五、SL将通过提高p k 0的样本的学习速度<来平衡这种差异。5，而对于pk> 0的那些降低学习速度。五、预测置信度和分布：与图4a中CE对干净样本的低置信度相比，我们在相同的设置下使用SL训练相同的网络。如图6a所示，在类别3样本的干净部分上，SL成功地将置信度提高到0.95，而同时将其他类别的残差置信度降低到几乎为0。如图6b进一步所示，预测分布表明每个类别包含超过4000个真阳性样本，包括硬类别（例如，，类别2/3/4/5）。一些类别（例如，类1/6/7/8/9）甚至获得接近5000个真阳性样本（理想情况）。与图中的早期结果相比，(a) CE（b）SL图5：CE和SL在CIFAR- 10数据集上的分类测试准确度红色实线是总体测试精度。(a) （b）预测分布图6：所提出的SL对具有40%噪声标签的CIFAR-10的预测置信度/分布的影响。（a）第3类样品清洁部分(b) 预测中的真阳性样本（正确）（预测）每个班级。(a) CE（b）SL图7：CE和SL在具有60%对称噪声标签的CIFAR- 10数据集上学习的4b，SL在每个类上都取得了相当大的改进。表述：我们进一步研究了SL学到的表征与CE学到的表征的比较。我们在倒数第二个密集层提取高维表示，然后使用t-SNE投影到2D嵌入[14]。图2和图7分别显示了40%和60%噪声标签在这两种设置下，SL学习到的表示具有比CE更好的质量，具有更多分离和清晰有界的簇。参数分析：我们调整SL的参数：α、β和A。由于β可以由A反映，所以这里我们只显示α和A的结果。我们在60%噪声标签下在CIFAR-10上用步骤2和α∈[10−2，1]测试了[−8，−2]中的A。图8a显示了大α（例如，，1.0/0.5）往往会导致更过拟合，而小α（例如，，0.1/0.01）可以帮助缓解330(a)α（A=-6）（b）A/β（α=0.1）(c)A/β（α=1）图8：在60%对称标签噪声下，在CIFAR-10数据集上使用8层CNN进行SL的参数分析：（a）调整α（固定A=-6）;（b）调整A/β（固定α= 0.1）;以及（c）调整A/β（固定α= 1）。(a)SL消融（b）SL与基线图9：不同模型在CIFAR-10上的准确性，具有60%对称标签噪声。(a)SL的烧蚀研究SL和其他基线之间的比较。CE的过拟合然而，当α太小时，收敛可能变得缓慢（例如，，0.01），类似于单个RCE的行为因此，相对较大的α可以帮助收敛困难的数据集，如CIFAR-100。对于参数A，若CE的过拟合由α = 0得到很好的控制，则在α = 0的条件下，CE的过拟合是不稳定的. 1，SL对A不敏感（图8b）。然而，如果CE过拟合没有被适当地解决，则SL变得对A轻度敏感（图8c）。消融研究：为了全面理解SL中的每个术语，我们进一步在60%噪声标签下对CIFAR-10进行了一系列烧蚀实验。图9a呈现了以下实验：1）删除RCE项; 2）删除CE条款; 3）提升CE项;以及4）放大RCE项。我们可以观察到，简单地提升CE并不能帮助学习，甚至会导致更多的过拟合。RCE项本身即使在放大时也不表现出过拟合，但它收敛得很慢。但是当CE和RCE结合到SL框架中时，性能得到了极大的提高。5.2. 噪声标签基线：我们将SL与最近提出的5种噪声标签学习方法以及标准CE损失进行比较：（1）前向[16]：通过将网络预测与地面真实噪声矩阵相乘来进行标签校正的训练;(2)Bootstrap [18]：使用由原始标签和预测标签的凸组合生成的新标签进行训练;（3）GCE [29]：使用包含MAE和CE两者的噪声鲁棒损失进行训练;（4）D2 L[13]：使用子空间维度自适应标签进行训练;（5）标签平滑正则化（LSR）[17]：在软标签，而不是一个热门的标签;（6）CE：使用标准交叉熵损失进行训练。实验设置：实验在 MNIST [10] 、 CIFAR-10 [9] 和CIFAR-100 [9]上进行。我们使用MNIST的4层CNN，与第一节相同的网络CIFAR-10的ResNet-5.1和CIFAR-100的基线的参数根据其原始文件。对于我们的SL，我们对所有数据集设置A= −4，α=0。01，β=1。0对于MNIST，α=0。1，β=1。0对于CIFAR-10，α = 6。0，β = 0。1对于CIFAR-100（以硬收敛而闻名的数据集）所有网络都是使用SGD进行训练的，动量为0.9，权重衰减为5×10−3，初始学习率为0.1。学习率除以对于MNIST，在10和30个时期之后（总共50个时期），对于CIFAR-10，在 40和80个时期之后（总共120个时期），以及对于CIFAR-100，在80和120个时期之后（总共150个时期CIFAR-10和CIFAR-100采用了简单的数据扩充技术（宽/高移位和水平翻转）。对于对称噪声，我们测试变化的噪声率η∈[0%，80%]，而对于非对称噪声，我们测试噪声率η∈[0%，40%]。稳健性性能：分类准确度报告见表1。可以看出，SL通过几乎所有噪声率和所有数据集的大裕度在基线上改进。请注意，Forward有时也提供相对较好的性能，因为我们直接为它提供了地面真实噪声矩阵。我们还发现，SL可以比GCE更有效，特别是对于高噪声率。CIFAR-10上SL和基线的完整学习过程如图9 b所示。SL显示出明显优于其他方法的优势，特别是在噪声标签学习的后期这可能是因为，在DNN学习的后期阶段，其他方法都在一定程度上受到困难类学习不足的影响，而SL确保了对它们的充分学习。用SL增强现有方法：我们介绍了一些一般原则，将SL到现有的方法，以进一步提高其性能。对于使用鲁棒损失函数或标签校正的方法，SL的RCE项可以直接添加到损失函数中，而对于仍然使用标准CE损失而没有标签校正的方法，SL可以使用小α和大β来代替现有的损失函数。这是为了避免过度拟合，同时促进充分的学习。作为概念验证，我们进行了实验，以增强SL的Forward和LSR。对于“Forward+SL”，我们将RCE项添加到β = 1的Forward损失中。0/0。对于对称/非对称噪声恢复，我们使用SL损耗，而对于CIFAR-10的结果见表2。这两种增强的方法都表现出明显的性能改善，他们原来的版本，无论是对称和非对称噪声（前向或LSR）然而，在某些情况下，增强的方法对于40%非对称噪声，CIFAR-10的β设置为5.0，CIFAR-100的α设置其他参数不变。331表1：不同模型在具有各种对称和不对称噪声标签率的基准数据集上的测试准确度（%）报告了5次随机运行的平均准确度和标准偏差，最佳结果以粗体显示。数据集方法对称噪声非对称噪声噪声率η噪声率η0.0 0.2 0.4 0.6 0.80.2 0.3 0.4MNISTCELSRBootstrapForwardD2LGCESL九十九。02± 0. 0188. 71 ±0。05 69. 56± 0。194654± 0。二十八二十一77 ±0。07九十九。28± 0。0189. 56 ±0。0668. 11± 0。244501± 0. 十五二十一28 ±0。27九十九。08± 0. 0188. 72 ±0。146997± 0。三十六四十七06± 0.二十六二十二60 ±0。27九十九。03± 0. 0194. 85 ±0。07 86. 02± 0. 1369. 77± 0。4149. 72 ±0。3099.27± 0.0198.80 ± 0.0198.49 ± 0.0161 ±0。0148.57 ±0.04九十九。04± 0. 0198. 66 ±0。0197. 17± 0。0179. 65± 0。十四点三十一分。55 ±0。18九十九。32± 0。0199. 02± 0. 0198. 97± 0。0197. 40± 0。0265. 02± 0. 19九十三14± 0。0487. 91 ±0。0581. 10 ±0。0794 18± 0。0888. 39 ±0。2081. 09 ±0. 35九十三31± 0。0387. 87 ±0 .01，P <0.05。09 80. 46 ±0。15九十七31± 0。0596. 25 ±0。109572 ±0。0997.98± 0.0277 ±0。0493.32 ±0.15九十六。73± 0。0888. 46 ±0。1881. 26 ±0。11九十九。18± 0。0198. 85± 0。0198. 00±0。02CIFAR-10CELSRBootstrapForwardD2LGCESL89.26± 0.03 82.96± 0.05 78.70± 0.07 66.62±0.15 34.80 ± 0.2588.57± 0.04 83.49± 0.05 78.41± 0.03 67.38±0.15 36.30 ± 0.1688.77± 0.06 83.95± 0.10 79.97± 0.07 71.65±0.05 41.44 ± 0.4989.39± 0.04 85.83± 0.05 81.37± 0.03 73.59±0.08 47.10 ± 0.1486.66± 0.05 81.13± 0.06 76.80± 0.12 60.67±0.12 19.83 ± 0.0586.76± 0.03 84.86± 0.06 82.42± 0.10 75.20±0.09 40.81 ± 0.2489岁。28± 0。0487. 63± 0。0685. 34± 0。0780. 07± 0. 0253. 81± 0。2785.98± 0.03 83.53±0.08 78.51 ± 0.0585.38± 0.05 82.89±0.12 77.88 ± 0.2086.57± 0.08 84.86±0.05 79.76 ± 0.0786.68± 0.0186± 0。0685. 73± 0。0482.72± 0.06 80.41±0.05 73.33 ± 0.1284.61± 0.09 82.11±0.13 75.32 ± 0.1088岁24± 0。05 85.36±0.14 80.64 ± 0.10CIFAR-100CELSRBootstrapForwardD2LGCESL64.34± 0.37 59.26± 0.39 50.82± 0.19 25.39±0.09 5.27 ± 0.0663.68± 0.5458.83 ± 0.4050.05 ± 0.3124.68 ± 0.435. 22 ±0。0763.26± 0.3957.91 ± 0.4248.17 ± 0.1812.27 ± 0.111. 00 ±0。0163.99± 0.5259.75 ± 0.3453.13 ± 0.2824.70 ± 0.262. 65 ±0。03六十四60± 0。3159. 20 ±0。43 52 01± 0. 三十七三十五。27±0。28533 ±0。54六十四43± 0。2059. 06 ±0. 2753. 25± 0。六十五三十六。16± 0。748. 43 ±0。8066岁。75± 0。0460. 01± 0. 1953年。69± 0。0741. 47± 0。0415. 00± 0。0462.97± 0.19 63.12±0.16 61.85 ± 0.3563岁03± 0. 4862. 32 ±0。4861. 59 ±0。4163岁44± 0。3563. 18 ±0。3562. 08 ±0. 22六十四09± 0. 61 64. 00 ±0。326091 ±0。3662. 43± 0。2863. 20 ±0。2761。35 ±0。6663岁03± 0.226317 ±0。2661. 69 ±1。15六十五58± 0。0665. 14± 0。0563. 10± 0。13表2：在各种标签噪声下SL增强的前向和LSR方法在CIFAR-10上的准确度（%）。方法对称噪声0.4 0.6不对称噪声0.4正向+SL84. 54 ±0。0379岁。64±0。0486岁。22 ±0。18LSR+SL八十五20±0。0179岁。28±0。05八十99±0.30还是比不上SL当原始方法和SL之间存在较大的性能差距时，通常会发生这种情况。我们相信，更多的自适应纳入和仔细的参数调整，SL可以与现有的方法相结合，以实现更好的性能。5.3. 真实世界噪声数据集上的实验在上面的实验中，我们已经看到SL在具有手动损坏表3：不同模型在真实世界噪声数据集Clothing 1M上的准确度（%）。最佳结果以粗体显示。方法CEBootstrap向前D2lGCESLACC68.8068.9469.8469.4769.75七十一02并在224×224的中心进行裁剪。我们训练的模型批量大小为64，初始学习率为10−3，在5个epoch（总共10个epoch）之后减少了1/10采用动量为0.9、重量衰减为10−3的SGD作为优化器。其他设置与第5.2节相同。结果：如表3所示，与基线相比，SL获得了最高的绩效。我们还发现，For-ward实现了一个相对较好的结果，虽然它需要使用的数据，既有噪声和清洁标签的一部分，以获得噪声转移矩阵，这是不经常在现实世界中的设置。 SL只需要噪音嘈杂的标签。接下来，我们评估它的适用性为一个真正的-世界大规模噪声数据集：[26]第二十六话Clothing1M数据集包含从在线购物网站获得的100万张服装图像，分为14类：采购产品T恤，衬衫，针织物，雪纺绸，毛衣，连帽衫，风衣，夹克，羽绒服，西装，披肩，洋装，背心和内衣。标签是由周围环境产生的-图像的文本，因此非常嘈杂。标签的总体准确度为1061。54%，一些类别经常相互混淆（例如，针织品和毛衣），其可以包含对称和不对称标签噪声。该数据集还分别提供了50k、14k、10k手工精炼的干净数据用于训练、验证和测试，但我们没有使用50k干净数据。在10k干净测试数据上的分类准确率被用作评估指标。实验设置：我们使用ResNet-50与ImageNet预训练的权重类似[16，26]。对于预处理，将图像大小调整为256×256，并减去平均值332不需要额外的辅助信息。6. 结论在本文中，我们发现了DNN学习中用于噪声标签的交叉熵（CE）的不足，到学习困难的课程。为了解决这个问题，我们提出了对称交叉熵学习（SL），用噪声鲁棒的反向交叉熵（RCE）对称地提升CE，以同时解决其下学习和过拟合问题。我们提供了对SL的理论和经验理解，并在基准和真实世界数据集上证明了其对各种类型和速率的标签噪声的有效性总的来说，由于它的简单性和易于实现，我们相信SL是一个很有前途的损失函数，用于训练鲁棒的DNN对抗噪声标签，并且是一个有吸引力的框架，可以与其他技术一起用于包含噪声标签的数据集。333引用[1] Devansh Arpit，Stanisaw Jastrzebski，Nicolas Ballas，David Krueger

下载后可阅读完整内容，剩余1页未读，立即下载