基于稀疏正则化的噪声标签学习

168 浏览量更新于2023-10-13 收藏 3.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

72≤基于稀疏正则化的噪声标签学习周雄1、2刘先明1、2*王晨阳1翟德明1蒋军军1、2季向阳31哈尔滨工业大学2鹏程实验室3清华大学{cszx，csxm，cswcy，翟德明，junjunjiang}@ hit.edu.cnxyji@tsinghua.edu.cn摘要带噪声标签的学习是训练准确的深度神经网络的一项重要且具有一些常用的损失函数，如交叉熵（CE），遭受严重的过拟合噪声标签。满足对称条件的鲁棒损失函数被定制以解决这个问题，然而，这遇到了欠拟合效应。在本文中，我们从理论上证明了任何损失都可以通过将网络输出限制为固定向量上的排列集合来对噪声标签具有鲁棒性。当固定向量是独热向量时，我们仅需要将输出约束为独热向量，然而，这几乎处处产生零梯度，并且因此使得基于梯度的优化困难。在这项工作中，我们引入了稀疏正则化策略来近似的one-hot约束，这是由网络输出锐化操作，使网络的输出分布是尖锐的和p-范数（p1）正则化，促进网络输出稀疏。这种简单的方法保证了任意损失函数的鲁棒性，同时不妨碍拟合能力。实验结果表明，我们的方法可以显着提高常用的损失函数在噪声标签和类不平衡的存在下的性能，并执行国家的最先进的方法。代码可在 https://github.com/hitcszx/lnl sr 上获得。1. 介绍深度神经网络（DNN）在各种计算机视觉任务上取得了显著的成功，例如图像分类、分割和对象检测[7]。DNN训练最广泛使用的范例是端到端监督方式，其性能在很大程度上依赖于大量高质量的注释数据。然而，收集具有完全精确的注释（或称为干净标签）的大规模数据集通常是昂贵且耗时的，并且有时甚至是不可能的。嘈杂的标签，* 通信地址：刘先明（csxm@hit.edu.cn）(a) FL（b）FL+SR(c)GCE（d）图1.MNIST上的学习表示的可视化0.8 对称标签噪声通过所提出的稀疏正则化（SR）增强方法学习的表示比通过原始损失学习的表示具有显著的区分性，其具有更分离和更清晰的边界。其被系统地从地面实况标签（ground-truthlabels）中破坏，在许多现实世界的应用中是普遍存在的，例如在线查询[19]、众包[1]、对抗攻击[30]和医学图像分析[12]。另一方面，众所周知，过度参数化的神经网络有足够的能力来记忆大规模数据，即使是完全随机的标签，导致泛化能力差[28，1，11]。因此，具有噪声标签的鲁棒学习已成为计算机视觉中一项重要且具有挑战性的任务[25，8，12，31]。为了防止对错误标记数据的过拟合，文献中已经提出了许多策略，其中鲁棒损失函数设计是最流行的方法之一，因为它具有简单性和通用性。Ghosh等人。[6]理论上证明，损失函数将固有地容忍对称标签噪声，只要73--ΣYXD X × Y--S·|C∈ CX → C−L，其中L∈L，L（u，i）=1（ui）+j=i2（uj），且1它满足对称条件。然而，根据该设计原理导出的损失函数，例如MAE [6]和反向交叉熵（RCE）[27]，在复杂数据集上遭受欠拟合效应[3，20]。如[29]所示，MAE的稳健性可能同时导致训练难度增加，从而导致性能下降。另一方面，常用的CE和焦点损失（FL）[18]具有充分学习的优势，其中优化器更加强调模糊的样本，但它们往往过拟合噪声标签。如何同时实现鲁棒性和学习充分性？这个问题激发了大量的工作，设计新的损失函数，是强大的噪声标签，以及易于适应干净的。例如，Zhang等人提出了交叉熵（GCE）的推广[29]，其表现类似于MAE和CE的广义混合Wang等人提出了对称交叉熵（SCE）损失[27]，它将RCE与CE相结合。然而，GCE和SCE都只是在对称性损失和CE之间进行权衡，这对噪声标签仅具有部分鲁棒性Ma等人。[20]理论上证明，通过应用简单的归一化，任何损失都可以对噪声标签具有鲁棒性。然而，归一化操作实际上改变了损失函数的形式，其不再保持原始拟合能力。作者进一步提出了有源无源损耗（APL）来解决这一问题，它是两种对称损耗的组合。如上所述，所有现有方法都试图设计满足对称条件的新损失函数[6] 通过结合多种形式的损失函数，例如[29，27]中的对称损失和CE以及[20]中的两个对称损失，同时实现鲁棒性和学习充分性。在这项工作中，我们提出了一个新的角度来理解对称条件，并在理论上证明，任何损失都可以通过限制假设类的鲁棒性。具体而言，我们证明了风险最小化下的标签噪声可以通过将网络输出限制为固定的独热向量的置换集而不是修改损失函数来减轻。然而，该离散过程将导致许多零梯度，使得基于梯度的优化困难。然后，我们提出了一种稀疏正则化策略来近似one-hot约束，其中包括网络输出锐化操作和p-范数（p≤1）正则化我们工作的主要贡献如下：• 据我们所知，我们是文献中第一个通过限制假设类来满足对称条件它提供了一个新的角度来理解对称条件和鲁棒学习的替代方法。• 我们从理论上证明，任何损失函数都可以通过将网络输出限制在固定向量上的排列集合来• 我们提出了一个简单而有效的方法，通过稀疏正则化的强大的训练。• 我们提供了一个原则性的方法，同时实现强大的训练，并保留常用的损失，如CE的拟合能力。2. 该方法在本节中，我们首先介绍一些关于鲁棒学习的预备知识。随后，我们在理论上提出了我们的发现，任何损失函数可以通过网络输出置换实现噪声容忍。此外，我们通过在网络训练中引入稀疏正则化，提供了一种简单但有效的鲁棒学习方法。最后，我们分析了我们的方案的优点-实现更好的鲁棒性和充分的学习之间的权衡。2.1. 预赛风险最小化。假设Rd是从中提取示例的特征空间，和为[k]=1、…K是类标签空间，即，我们…一个k-分类问题。在一个典型的分类器学习问题中，我们给出一个训练集，=（ x1 ， y1 ）， ... ，（xN，yN），其中（xi，yi）是dr a wni.i.d. 根据一个未知的分布，完毕。分类器是从特征空间到标签空间的映射函数h（x）=arg maxif（x）i，其中f：表示 p（x）的近似，并且[0，1]k，c，1Tc= 1。在深度学习中，f（x）通常由神经网络建模以softmax层结束的工作。损失函数定义为映射L：C × Y →R+，其中argminu∈CL（u，y）=ey，ey表示独热向量. 在这项工作中，我们考虑的损失功能真实世界的数据集表明，我们的方法可以显着提高性能的常用损失函数在噪声标签的存在下，如图所示。1，并且优于最先进的鲁棒损失函数。此外，我们评估了稀疏正则化策略的长尾和步骤不平衡的图像分类任务，这表明SR也可以减轻类不平衡。以及2是两个基本函数。例如，CE可以表示为1（ui）=logu i和2（u j）=0。给定任何损失函数L和分类器f，f的L-风险为RL（f）=ED[L（f（x），y）] =Ex，y[L（f（x），y）]，（1）其中E表示期望。在风险最小化框架下，目标是学习最优分类器f*，它是RL（f）的全局最小值。风险最小化。合成和表征的实验结果74|PLΣ̸LKΣKi=1HLPK∈12K12KC*Σ噪声容限。我们将噪声破坏过程定义为干净的标签y以概率ηx，y~=p（y~y，x）翻转为有噪声的版本y ~（可以在[6]中找到更多的标签噪声设置）。相应的噪声L风险为且π =[3，1，2]，则P π=[e3，e1，e2]T，置换运算后的向量为vπ=（v3，v1，v2）T。更一般地，令V表示上v我们有K KR η（f）= ED[（1 − ηx）L（f（x），y）+<$ηx，iL（f（x），i）]，<$η（u i）=<$η（v i），<$u ∈Pv.（四）i=yi=1i=1其中ηx=i=yηx，i表示噪声率。给定损失函数下的风险最小化是噪声容忍的，如果R η（f）与RL（f）共享相同的全局最小值。对称损失函数对称损失函数[22，6]被证明是噪声容忍的k-类分类。根据上述定义和推导，我们得出引理1：引理1. 给定一个向量v，L∈ L，我们有K对称噪声下的正离子，如果噪声率ηk−1且损失函数满足L（u，i）=C ，u∈ Pvi=1、（五）ΣL（f（x），i）=C，x∈X，f∈H，（2）其中，当v固定时，C = ΣkL（v，i）是常数。i=1其中C是常数，并且是假设类。上述对称条件（2）通过对称损失函数上的风险最小化来保证噪声容限，即在给定的假设条件下，在有噪声情况下训练的分类器与在无噪声情况下训练的分类器具有相同的误分类概率。此外，若RL（f *）= 0，则L在非对称噪声下也是噪声容忍的，其中f *是RL的全局风险最小值.2.2. 通过输出置换实现噪声容限引理1表明，当网络输出u被限制为属于固定向量v的置换集v时，任何损失函数满足对称条件。我们还具有以下关于对称和非对称噪声的定理，其可以类似于[6]被证明：定理1（对称噪声下的噪声容限）。在多类分类问题中，L ∈ L，如果η<1−1且f：X → Pv，则L在对称标签噪声下是噪声容忍的，即，arg minRL（f）= arg minRn（f），（6）对称条件（2）理论上保证了对称损失可以导致鲁棒训练。然而，根据该设计原理导出的损失函数f：X→Pv其中V是固定向量。Lf：X→Pv通常遭受欠拟合[27，3，20]。另一方面，现有的方法都注重设计新的损失函数，而没有试图限制假设类H满足对称性条件。在这项工作中，定理2（非对称噪声下的噪声容限）。在一个多类分类问题中，设f：X →Pv，其中v是一个固定向量，且L∈L满足0≤L（f（x），i）≤，i∈[k]. 如果R L（f）=0，则−我们建议限制假设类H，使得任何K1L在非对称或类条件下是噪声容忍的损失满足对称条件（2），因此变为对标签噪声鲁棒。此外，我们提供了一个理论分析，以证明我们的计划的噪声容忍度。证据可以在补充材料中看到。首先给出了置换运算的定义，它在我们的推导中起着重要的作用。定义1. 对于向量vRk，其上的置换操作被定义为[24]：vπ=Pπv，（3）其中P π=[eπ，eπ，…是置换矩阵，并且{π1，π2，… πk}=[k]。根据这个定义，很容易发现v和vπ共享相同的空间，即，{v π，v π，…v π}={v1，v2，… v k}。例如，当k=3时，v={v1，v2，v3}75Pi=1L（u2，i））|当u1− u22≤ ε时≤ δ，且当ε → 0时δ → 0，Σ当ηy，i<1−η y时的噪声，kyη y，i=η y，x。定理1和2启发我们，在风险最小化下，可以通过将网络输出限制为置换集而不是改变损失函数来减轻标签噪声。这提供了实现鲁棒学习的替代原理方法。然而，当使用基于梯度的策略时，优化是不平凡的，因为V是离散映射的约束产生许多零梯度。相反，我们转而通过下式来近似约束：放宽假设类的输出限制，误差界为ε，即，Hv ，ε={f：minu∈Pv<$f（x）−u<$2≤ε，<$x}. 我们可以确定风险范围如下：定理3. 在多类分类问题中，如果损失函数L∈ L满足|k（L（u1，i）-76KNP≤p≤≥·- -∥∥Σ→−≤≤ppp则对于满足η1−1的对称标签噪声，风险0的情况。8f∈ H的界v，ε可以表示为0的情况。70的情况。60的情况。70的情况。6RL（fη*）−RL（f*）≤2cδ，0的情况。50的情况。40的情况。50的情况。4其中c=ηη，（1−η）k−1fη*和f*表示全局最小值0的情况。30的情况。20的情况。30的情况。2的RL（f）和RL（f）。定理3表明，当限制网络的输出属于Hv，ε时，噪声最小值fη*，com-0的情况。10的情况。00 20 40 60 80100120历元(a) CE+SR0的情况。10的情况。00 20 40 60 80100120历元(b) FL+SR与干净的最小值f*相比，有一个风险误差界2cδ。当ε→0时，该界也趋于0。这意味通过收缩Hv，ε，f*=argminf∈HRη（f）con-图2.CIFAR-10上不同λ的测试准确度曲线，0.6对称标签噪声当增加CE和FL的p -范数的权重时，鲁棒性得到改善。η到f * 的边缘。v，ε LΣL（f（xi），y~i）+λf（xi）p.（九）i=1基于上述理论分析，我们提出了一个简单的而且是鲁棒学习的有效方法，其可以通过在网络输出上引入稀疏正则化来使任何损失对噪声标签鲁棒。具体地，我们将固定向量V视为独热向量，即，我们将网络输出限制为独热向量0−1。该离散过程将导致许多零梯度，使得优化困难。为了近似one-hot约束，我们提出了稀疏正则化策略，该策略由两个模块组成：网络输出锐化和p-范数（p1）正则化。网络输出锐化。输出锐化模块是为了使网络输出更接近一个独热向量。通过连续映射来近似独热向量的一种流行方式是使用温度相关的softmax函数，即、exp（zi/τ）它是值得注意即，如果我们定义L（u，i）=αlogui λui且p=1，则等式（1）（9）等价于对称交叉熵（SCE）损失[27]。因此，SCE可以被视为损失函数的特殊情况，其中DNP-范数正则化。为了有效的学习，等式（1）中的正则化参数λ可以是：（9）不能设置得太大，因为网络将倾向于最小化λf（xi）p而不是L（f（xi），y~i）。如图2（a），当λ=25和30时，尽管曲线看起来稳健，但它们遭受欠拟合效应。另一方面，λ不应设置得太小，否则不能保证鲁棒性（参见图1中的λ 7）。第2（a）段）。我们需要足够大的λ来保持鲁棒性。实际实施中的有效策略是在训练期间逐渐增加λ的值，即，λ t= λ0ρt/r（ρ 1），其中t表示训练时期，r表示λ的更新速率。στ（z）i=kj=1exp（zj/τ）、（7）2.4. 关于鲁棒性和学习充分性其中0τ1，στ（z）i是概率单形中的一个点。注意，在τ0的极限情况下，στ（z）收敛到一个独热向量。换句话说，在低温下，分布基本上将其所有概率质量都花费在最可能的状态中。同时，我们可以通过在输出锐化之前执行2归一化来将zi的值限制在[ 1，1]的范围内，以防止其成为平凡的缩放解。在下文中，我们提供关于所提出的方案的鲁棒性和学习充分性的分析。为了获得足够的鲁棒性，我们将网络的输出限制为one-hot，这自然满足对称条件。对于输出锐化过程，στ（z）j相对于zi的导数可以被导出为στ（z）j=1σ（z）（δ−σ（z）），（10）n-范数正则化我们进一步引入了范数斯塔兹岛10000λ=25λ=30λ=15λ=20λ =7。λ=10λ =3。λ =λ =0。λ =10000λ=25λ=30λ=15λ=20λ =7。λ=10λ =3。λ =λ =0。λ =测试精度测试精度2.3. 基于稀疏正则化的鲁棒学习77∥ ∥ ≤≤≤·我伊茨ττ i ij τ j正则化为风险最小化，以提高网络输出的稀疏性。具体来说，我们在网络训练中执行以下约束风险最小化：minR L（f）S.T.fpγ，（8）f∈H其中，0p1，并且γ是适当选择的参数。在实践中，我们可以通过最小化以下形式来转换训练神经网络：其中δij=I（i=j），I（）是恒等函数。我们可以看到导数是原始softmax函数，因此它不会改变优化方向，但会改变步长。方程中的较大步长公式（10）将加速收敛到独热向量。我们可以通过选择适当的τ值来达到这个目的。另一方面我们有limτ→0+στ（z）j=0，这表明梯度78pKp我∥ ∥≤τyτyστ（z）y伊茨[στ（z）i]1−p伊茨i=1N我我J.事实上j=i联系我们∀pΣp我我们的方案实现了两个世界的最佳鲁棒性如果τ很小，则将消失，因此τ不能过小以防止欠拟合。为了简单起见，我们在实现中固定τ，但我们建议在训练中逐渐衰减τ，这可以被视为一种早期停止策略[16]。此外，委员会认为，考虑的损失L（στ（z），y）=-logσ（z），我们有−logσ（z）+的导数0的情况。70的情况。60的情况。50的情况。40的情况。30的情况。20的情况。70的情况。60的情况。50的情况。40的情况。30的情况。2λστ（z）p关于z如下0的情况。10的情况。00的情况。10的情况。0p−logσ（z）020406080100120历元020406080100120历元τy+λτpz(a) 不同p的CE(b) 不同τ的CE=−1·<$σ τ（z）y+λp <$1·<$σ τ（z）ii=1图4.在具有0.6对称标签噪声的CIFAR- 10上测试不同参数的准确度曲线。1λp στ（z）y=−（−）·足够的学习。στ（z）y[στ（z）y]1−pz`装配术语x3. 实验+λpΣ1[στ（z）i]1−pστ（z）i·z在本节中，我们实证研究了有效的-合成数据集上稀疏正则化的性质，包括-i=y补项拟合项表示朝向目标y的学习梯度，而补充项限制στ（z）i，i y的增加。在训练的早期阶段，我们通过设置λp1来保证足够的拟合能力。随着λ增加，拟合项变得较弱以减轻标签噪声，但互补项通过最小化στ（z）i，σi，ying MNIST [15]，CIFAR-10/-100 [14]和真实世界的噪声数据集WebVision [17]。3.1. 实证分析One-hot约束意味着鲁棒性。我们首先在具有0.8对称标签噪声的MNIST上运行一组实验，以分析训练期间的稀疏率和测试准确度，其中稀疏率公式为ΣNI（maxjf（xi）j>1−0. 01），并且f（x）由输出锐化，τ=0。1.一、如果m≠axjf（xi）j>1−0。01，1 .一、01 .一、0则minu∈P0−1f（xi）−u2≤2·0。01= ε。我们添加0的情况。80的情况。60的情况。40的情况。20的情况。00 10 20 30 4050时代(a) 稀疏率0的情况。80的情况。60的情况。40的情况。20的情况。00 10 20 30 40 50时代(b) 测试精度稀疏正则化策略对CE、FL和GCE的结果如图所示。3.第三章。可以看出，在SR的作用下，稀疏率通常在几个epoch后保持较高的值，CE+SR、FL+SR和GCE+SR的测试精度曲线显示了模型在抑制标签噪声方面足够的鲁棒性和学习效率，而原始损失的稀疏率较低，精度较差这validates，噪声容限可以通过限制网络的输出到一个热向量。图3.上不同方法的稀疏率和检验精度具有0.8对称标签噪声的MNISTOne-hot约束显著提高了鲁棒性，同时不妨碍拟合能力。另一方面，我们可以把p-范数正则化损失函数L（u ， i ）+λup 看作一个新的损失函数。若存在α >0，使得L（u，i）+α up在u i上单调递减，则新损失可分为有功损失L（u，i）+ α up和无功损失L（u，i）+ α up。损耗（λ−α）u+ λuα总是ex-FL+SRGCECECE+SRFLCECEFLFL+SRGCE+Srp =0。9p = 1.p =0。5p =0。7p =0。1p =0。3p = 0。01p = 0。05τττ = 0。1τ = 0。3τ = 0。5τ = 0。7=0。9=1时。0=0。01=0。03稀疏率测试精度测试精度测试精度以被动地最大化στ（z）y。79p我- -稀疏正则化可以减轻标签噪声。如图2.当我们添加SR来增强CE和FL的性能时，随着λ的增加，训练过程越来越鲁棒，同时不妨碍拟合能力（λ20）。这表明，当减轻标签噪声时，具有稀疏正则化的学习可以是鲁棒的和有效的。MNIST上的投影表示如图所示。1.一、在这两种设置下，通过SR增强方法学习的表示具有显著性。比原来学的质量好得多常用的损失函数，例如，当L（u，i）=logui，我们有α<1使得logui +α up在ui上单调递减. 因此，我们提出的p-范数正则化与[20]中提出的主动被动损失一致。分析表明损失与更多的分离和明确界定的集群。参数分析我们选择不同的参数τ，λ和p来稀疏正则化CE。实验在CIFAR-10上进行，噪声为0.6对称噪声。我们80≤≥pp≈≈p··联系我们∥∥联系我们联系我们∥∥±≥(a) CE，η = 0。0（b）CE，其中η = 0。2 （c）CE，其中η = 0。4 （d）CE，其中η = 0。6 （e）CE，其中η = 0。8(f)CE+SR，其中η = 0。0（g）CE+SR，其中η = 0。2（h）CE+SR，其中η = 0。4⑴ CE+SR，其中η = 0。6（j）CE+SR，其中η = 0。8图5.MNIST上学习的表示的可视化，具有不同的对称标签噪声（η ∈ [0. 0，0。2，0。四，零。6，0。8]）。首先测试τ 0。010 03，0。1，0。3，0。5，0。七比零。九，一当λ=0时，计算结果如图所示。第4（b）段。当τ很小时（0. 003），该曲线是非常稳健的，但是它也遭受显著的欠拟合问题。随着τ增加，曲线陷入过拟合。然后我们测试了λ0 的情况。1，0。三一0，3。0，5。070、10、15、20、25、30而p=0。1且τ=1。如图 2、曲线获取随着λ的增大，算法的鲁棒性增强，但当λ> 7时，由于最优化更关注于最小化λf（x）p，因此会遇到严重的欠拟合问题。此外，我们调整了p 0。010 05，0。1，0。3，0。5，0。七比零。九，一当τ=1且λ=5。结果表明，该方法是可行的。4（a）表明小p和大p往往会导致对标签噪声更多的过拟合，所以我们需要选择合适的值。备注。对于参数调整，参数设置的简单原则性方法是，对于简单数据集选择具有强正则化的参数，否则选择具有弱正则化的参数。具体地，这可以通过设置适当的λ来实现：λ越大，正则化效果越强。然而，如图2，大的初始值λ导致欠拟合，因为很多人关注最小化λ f（x）p，特别是当λ p> 1时。相反，我们转向逐渐增加λ，即，λ t=λ0ρt/r，其中t是迭代次数，r=1; p=0。1和0。01，ρ= 501/1201。03和501/200 1。02对于CIFAR-10和CIFAR-100（其中120和200表示训练时期）。需要仔细调整的唯一参数是λ0，其设置为 λ0<1 。我们对 CIFAR-10 、 CIFAR- 100 、WebVision采用了类似的参数设置策略，均取得了令人满意的效果。3.2. Benchmark数据集实验细节。可以找到基准数据集、噪声生成、网络、训练细节、参数设置、更多比较和更多实验结果在补充材料中。基线。我们使用最先进的方法GCE[29]， SCE[27]，NLNL[13]， APL[20]和两种方法进行实验。有效损失函数CE和局灶损失（FL）[18]用于分类。此外，我们将所提出的稀疏正则化机制添加到CE、FL和GCE，即，CE+SR、FL+SR和GCE+ SR。所有的实现和实验都基于PyTorch。结果在对称标记噪声下的测试准确度（平均标准差）报告于表1中。正如我们所看到的，我们提出的SR机制显着提高了CE，FL和GCE的鲁棒性，在所有数据集的大多数测试用例中实现了前3个最佳结果。在噪声严重的情况下，我们的CE+SR，FL+SR比原来的损失有非常明显的改善。例如，在具有0.8对称噪声的MNIST上，CE+SR的性能优于CE超过52%。在具有0.8对称噪声的CIFAR-10上，CE+SR的性能优于CE超过31%。对于CIFAR-100，GCE和APL在η = 0时以小的差距优于我们的方法。6和0。8，但他们失败的情况下，噪声率小。其原因是拟合能力不够，这可以根据清洁情况下的实验得出。当APL和GCE在干净环境下满足复杂数据集CIFAR-100时，它们的测试精度比常用的损失CE和FL差，而SR增强的方法优于原始损失并实现0的改进。86岁。因此，我们的方法不仅具有良好的鲁棒性，而且还保证甚至提高了拟合能力。不对称噪声的结果报告于表2中。同样，我们的方法显着提高了原始版本在所有数据集上的鲁棒性在MNIST上，CE+SR和FL+SR在所有非对称噪声上以明显的裕度优于所有最先进的方法。更令人惊讶的是，测试81±××≥表1. 在具有干净或对称标签噪声的基准数据集上测试不同方法的准确度（%）（η ∈ [0. 2，0。四，零。6，0。8]）。报告了3次随机运行的结果（平均值±标准差），前3个最佳结果用黑体表示。数据集方法清洁（η = 0. 0个）0.2对称噪声率（η）0.4 0.60.8CE99.15 ±0.0599.13 ±0.0999.27 ±0.0599.23 ±0.1098.85 ±0.0599.34 ±0.0291.62 ±0.3991.68 ±0.1498.86 ±0.0798.92 ±0.1298.33 ±0.0399.14± 0.0573.98 ±0.2774.54 ±0.0697.16 ±0.0397.38 ±0.1597.80 ±0.0798.42 ±0.0949.36 ±0.4350.39 ±0.2881.53 ±0.5888.83 ±0.5596.18 ±0.1195.65 ±0.1322.66 ±0.6122.65 ±0.2633.95 ±0.8248.75 ±1.5486.34 ±1.4372.97 ±0.34FLGCESCEMNISTNLNLAPLCE+SRFL+SRGCE+SR99.33 ±0.0299.35 ±0.0599.27 ±0.0699.22± 0.0699.25± 0.0199.13 ±0.0799.16± 0.0499.10± 0.1099.06± 0.0298.85± 0.0298.81± 0.0698.84± 0.0998.06± 0.8697.00± 1.2898.37± 0.26CE90.48 ±0.1189.82 ±0.2089.59 ±0.2691.61 ±0.1990.73 ±0.2089.17 ±0.0974.68 ±0.2573.72 ±0.0887.03 ±0.3587.10 ±0.2573.70 ±0.0586.98 ±0.0758.26 ±0.2157.90 ±0.4582.66 ±0.1779.67 ±0.3763.90 ±0.4483.74 ±0.1038.70 ±0.5338.86 ±0.0767.70 ±0.4561.35 ±0.5650.68 ±0.4776.02 ±0.1619.55 ±0.4919.13 ±0.2826.67 ±0.5928.66 ±0.2729.53 ±1.5546.69 ±0.31FLGCESCECIFAR-10NLNLAPLCE+SRFL+SRGCE+SR90.06 ±0.0289.86 ±0.1190.02 ±0.4087.93± 0.0787.94± 0.1987.93± 0.2784.86± 0.1884.65± 0.0584.82± 0.0678.18± 0.3677.85± 0.7477.65± 0.0551.13± 0.5152.42± 0.7651.97± 1.13CE71.33 ±0.4370.06 ±0.7063.09 ±1.3970.64 ±0.0568.72 ±0.6067.95 ±0.2156.51 ±0.3955.78 ±1.5561.57 ±1.0656.07 ±0.2646.99 ±0.9164.21 ±0.2439.92 ±0.1039.83 ±0.4356.11 ±1.3539.88 ±0.6730.29 ±1.6457.70 ±0.6421.39 ±1.1721.91 ±0.8945.28± 0.6121.16 ±0.6516.60 ±0.9045.20± 0.757.59 ±0.207.51 ±0.0917.42± 0.067.63 ±0.1511.01 ±2.4824.91± 0.42FLGCESCECIFAR-100NLNLAPLCE+SRFL+SRGCE+SR72.19 ±0.0672.08 ±0.3172.11 ±0.2667.51± 0.2967.64± 0.1067.03± 0.4660.70± 0.2560.67± 0.4860.68± 0.9044.95± 0.6544.76 ±0.0844.66 ±0.8417.35± 0.1317.16 ±0.2417.35 ±0.42在0.4非对称噪声下，FL+SR的准确度（99.36 ± 0.05）高于干净情况。在具有0.1非对称噪声的CIFAR-10上，SCE具有最好的精度，但在其他三种情况下，它失去了优势，在其他三种情况下，我们的方法比所有其他基线至少增加1%。在CIFAR-100上，增强的损失函数在所有情况下都显示出特别优越的性能。陈述。我们进一步调查的representations学到的CE+SR相比，那些学到的CE。我们在倒数第二个全连接层提取高维特征，然后通过t-SNE [26]将所有测试样本的特征投影到2D嵌入中。在MNIST上具有不同对称噪声的投影表示如图所示。五、如可以观察到的，CE在标签噪声上遇到严重的过拟合，并且当η = 0时嵌入看起来完全混合。8.相反，CE+SR在所有噪声情况下学习具有更分离和明确有界的集群的良好表示3.3. 真实世界噪声数据集在这里，我们在大规模真实世界的噪声数据集WebVision 1.0上评估了我们的稀疏正则化方法[17]。它包含240万张带有真实世界噪声标签的图像它使用ImageNet ILSVRC12 [5]中的1，000个概念从Web上爬取。由于数据集非常大，为了快速实验，我们遵循[11]中的训练设置，仅采用Google调整大小的图像子集的前50个类。我们在相同的50类WebVision 1.0验证集上评估训练好的网络，这可以被认为是一个干净的验证集。我们添加稀疏正则化-灰CE和GCE。训练细节如下[20]，对于每次损失，我们使用SGD训练ResNet-50 [10] 250个epoch，初始学习率为0.4，nesterov momentum为0.9，权重衰减为3 10−5，批量大小为512。在每个训练阶段之后，学习率乘以0.97。所有图像的大小调整为224224。应用包括随机宽度/高度移位、颜色抖动和随机水平翻转的典型数据agumentations。如表3所示，我们提出的SR机制明显增强了CE和FL的性能，其优于现有的损失函数SCE和APL，具有明显的界限（2.2%）。这验证了SR对抗真实世界标签噪声的有效性更多比较我们还比较了样本选择的代表性工作Co-teaching[9]和梯度裁剪的简单变体PHuber-CE[23]82±∈≤表2. 在干净或不对称的基准数据集上测试不同方法的精度（%）标签噪声（η[0. 1，0。2，0。3，0。4]）。结果（平均标准差）报告超过3随机运行，并且前3个最佳结果是粗体的。3.4. 另外的实验分类不平衡。如表3所示，我们的方法在具有一定类不平衡的WebVision上实现了最佳结果。为了更好地展示类不平衡的性能我们首先遵循[21]中的可控数据不平衡，通过减少训练样本的数量并保持验证集不变来创建不平衡的我们还考虑了两种不平衡类型：长尾不平衡[4]和阶梯不平衡[2]。表5中所示的结果是令人鼓舞的，其中在所有情况下，与CE相比，具有稀疏正则化的CE实现了非常显著的改进。尽管简单，这些额外的实验证明SR也可以很好地缓解类不平衡。表5. 不平衡CIFAR-10/-100的确认准确度数据集方法lt-0.01 lt-0.1步进-0.01步进-0.1CE 64.16 81.81 57.44 79.35CIFAR-10 CE+SR69.78 84.49CIFAR-100CE35.17 51.4337.9253.43CE+SR 41.24 59.5140.2158.42表 3. 在[11] 中的 Mini 设置下，使用不同的损失函数在WebVision上训练的ResNet-50模型的WebVision验证集上的前1个验证准确率（%）。损失CE FL SCE APLCE+SR FL+SRACC66.9663.80 66.92 66.3269.12 70.28平.如表4所示，我们的方法比联合教学和PHuber-CE效果更好。表4.与其他方法的比较数据集方法标注噪波类型CE38.70 19.5579.3274.67CIFAR-10 合作教学PHuber-CE65.7475.4438.0141.1864.0176.0651.2655.78CE+SR78.18 51.1385.6379.29CE21.397.5950.6840.17CIFAR-100 合作教学PHuber-CE34.2821.547.949.3342.8226.9133.6723.43CE+SR44.95 17.3559.0949.514. 结论和未来工作在本文中，我们提出了一种新的方法学习与噪声标签。我们首先提供了一个理论结论，任何损失都可以通过将网络的输出限制为任何固定向量的置换集来对噪声标签进行鲁棒性。根据这一原理，我们提出了一种简单而有效的稀疏正则化鲁棒学习策略，它是对单热置换约束稀疏正则化的含义有两个方面：网络输出锐化操作被设计成使网络的输出分布变得尖锐，而p-范数（P1）正则化被定制成促进网络输出变得稀疏。实验结果表明，该方法优于SOTA方法在合成和真实世界的数据集上的性能。此外，我们还对不平衡分类进行了实验，结果令人鼓舞，这表明稀疏正则化也可以很好地缓解类别不平衡总之，本文研究了一热约束，即。将输出限制为独热向量上的置换集在未来的研究中，一个有希望的方向是用固定的平滑向量替换独热向量致谢本研究得到了国家自然科学基金项目61922027、62071155和61932022的资助。不平衡类型数据集方法非对称噪声率（η）0.2 0.3 0.4CE94.56± 0.22 88.81±0.10 82.27 ± 0.4094.25± 0.15 89.09±0.25 82.13 ± 0.4996.69± 0.12 89.12±0.24 81.51 ± 0.1998.03± 0.05 93.68±0.43 85.36 ± 0.1798.35± 0.01 97.51±0.15 95.84 ± 0.2698.89± 0.04 96.93±0.17 91.45 ± 0.40FLGCESCEMNISTNLNLAPLCE+SRFL+SRGCE+SR99.27± 0.06 99.24± 0.08 99.23± 0.0799.31± 0.02 99.23± 0.02 99.36± 0.0599.22± 0.02 99.13± 0.05 99.09± 0.02CE83.32± 0.12 79.32±0.59 74.67 ± 0.3883.37± 0.07 79.33±0.08 74.28 ± 0.4485.93± 0.23 80.88±0.38 74.29 ± 0.4386.20± 0.37 81.38±0.35 75.16 ± 0.3984.74± 0.08 81.26±0.43 76.97 ± 0.5286.50± 0.31 83.34±0.39 77.14 ± 0.33FLGCESCECIFAR-10NLNLAPLCE+SRFL+SRGCE+SR87.70± 0.19 85.63± 0.07 79.29± 0.2087.56± 0.29 85.10± 0.23 79.07± 0.5087.55± 0.08 84.69± 0.46 79.01± 0.18CE58.11± 0.32 50.68±0.55 40.17 ± 1.3158.05± 0.42 51.15±0.84 41.18 ± 0.6859.35± 1.10 53.83±0.64 40.91 ± 0.5750.19± 0.56 42.81±1.13 35.10 ± 0.2058.16± 0.73 50.98±0.33 41.54 ± 0.5262.80± 0.05 56.74±0.53 42.61 ± 0.24FLGCENLNLCIFAR-100SCEAPLCE+SRFL+SRGCE+SR64.79± 0.01 59.09± 2.10 49.51± 0.5964.61± 0.67 58.94± 0.33 46.94

下载后可阅读完整内容，剩余1页未读，立即下载