噪声标签检测的可扩展惩罚回归

156 浏览量更新于2023-10-25 收藏 965KB PDF 举报

噪声检测

深度学习

身份认证购VIP最低享 7 折!

30元优惠券

346∈∈∈∈−∥ ∥带噪声标签学习中噪声检测的可扩展惩罚回归王新伟孙艳伟傅*复旦大学{yikaiwang19，sunxinwei，yanweifu} @ fudan.edu.cn摘要噪声训练集通常会导致神经网络的泛化能力和鲁棒性下降。在本文中，我们提出了使用一个理论上有保证的噪声标签检测框架来检测和删除噪声数据的学习与噪声标签（LNL）。具体来说，我们设计了一个惩罚回归模型来模拟网络特征和独热标签之间的线性关系，其中噪声数据由回归模型中求解的非零均值漂移参数来识别。为了使框架可扩展到包含大量类别和训练数据的数据集，我们提出了一种分裂算法，将整个训练集分成可以通过惩罚回归并行求解的小块，从而形成可扩展惩罚回归（SPR）框架。我们提供了SPR正确识别噪声数据的非渐近概率条件。虽然SPR可以被视为标准监督训练管道的样本选择模块，但我们进一步将其与半监督算法相结合，以进一步利用噪声数据作为未标记数据的支持。在多个基准数据集和真实噪声数据集上的实验结果我们的代码和预训练模型在github.com/Yikai-Wang/SPR-LNL上发布。1. 介绍深度学习在监督学习的许多主题上取得了显着的成功，拥有数百万标记的训练数据。性能在很大程度上依赖于标签注释的质量，因为神经网络容易受到噪声标签的影响，甚至可以很容易地记住随机标记的注释[63]，导致的泛化能力和鲁棒性的下降。在许多现实场景中，获取精确的标签既昂贵又困难，这给监督深度模型在噪声数据中学习带来了现实挑战。*通讯作者。有大量文献从各种角度讨论了这一挑战，包括修改网络架构[6，12，13，59]或损失函数[11，27，53，65]，或在训练过程中动态选择干净的数据[5，14，17，27，34，40，44，61]。特别地，动态样本选择方法采用仅提供干净数据用于训练的精神。这种精神可以在噪声数据消除和网络训练之间形成“良性”循环：噪声数据的剔除有助于网络的训练，另一方面，改进后的网络具有更好的干净数据提取能力。随着这种良性循环的发展，性能可以得到改善。识别离群值的典型原则包括大损失[14]，不一致的预测[67]和不规则的特征表示[57]。前两个原则关注的是标签空间，而最后一个原则关注的是同一类的特征在本文中，我们统一了标签和特征空间，并假设数据i的特征标签对（记为（xi，yi））之间的线性关系，yi=xiβ+ε，（1）其中 xiRp 是特征向量，并且 yiRc 是独热标签向量;βRp×c是固定（未知）系数矩阵，ε Rc是随机噪声。这种线性关系是近似建立的，因为网络被训练成最小化特征的（软最大）线性投影和独热标签向量之间的分歧对于一个训练有素的网络，干净数据的输出预测应该尽可能类似于一个独热向量，而对于有噪声的数据，输出是密集的。直觉上，当线性关系在没有软最大运算的情况下被很好地近似时，对应的数据很可能是干净的数据。识别线性模型中可疑异常值的最简单方法是检查预测误差或残差，ri=yixiβ，其中β是β的估计值。的较大的r表示实例i是离群值/噪声数据。检验实例ri是否非零的经典统计方法是使用留一法[38]来检验外部学生化残差347−−−∈−i∈∈我−i我我t=yi−xiβi是的。1+x。XX−1x、（二）由于求解Eq.（3）训练数据。设计一个合适的优化环境求解方程组。（3）该等资料─有效和可识别的，我们利用整个训练集其中，σ是尺度估计值，下标i表示基于n1个观测值的估计值，省略了我们正在测试的第i个同样，线性回归模型可以重新公式化为通过均值漂移参数γ显式表示残差，如[39]所示Y=Xβ+γ+ε，εi，j<$N（0，σ2），（3）其中我们有特征XRn×p，标号YRn×c成排成对堆放;每一行γRn×c，γi表示相应数据的预测残差。这个公式已经在不同的研究主题中得到了广泛的研究，包括经济学[4，18，32，33]，稳健回归[8，39]，统计排名[9]，面识别[56]，半监督少数学习[54，55]和贝叶斯偏好学习[43]，仅举几例。根据具体研究任务的不同，重点表述也有所不同。例如，对于稳健回归问题，目标是针对γ的影响得到一个稳健的β估计。在这里，为了解决带噪声标签的学习问题，我们的目标是放大γ的影响，使得非零值可以表示训练集中存在的噪声标签。为此，从统计学的角度，本文从方程。（3）建立一个样本选择框架，称为可扩展惩罚回归（SPR），它具有一致识别噪声数据的理论保证，因此可以有效地学习噪声标签。自然，我们期望等式中的γ。（3）稀疏，只有少量的γi是非零的，这表明这些数据是有噪声的或离群的。因此，在γi上利用稀疏惩罚来鼓励非零解被限制在一小部分中。因此，我们优化了诱导惩罚回归问题以求解γ，并将具有非零γi的实例识别为噪声数据。从理论上讲，在模型选择一致性理论[51，66]中，我们的SPR框架中有一些很好的统计特性和理论见解，因为我们可以保证，通过满足某些条件，我们的SPR至少在原则上应该成功识别所有噪声数据。加入Eq.（3）进入深度架构的端到端训练管道，最简单的方法是求解Eq.（3）针对每个训练小批检测并去除噪声数据。然而，当我们用小批量训练大模型时，当前小批量的信息可能不足以区分真实模式和噪声。另一方面，在训练一个epoch之后对整个训练数据使用SPR导致不可接受的计算并提出了一种分割算法，这是具有适当数据大小的类平衡，使得噪声模式是可识别的，并且可以并行地高效求解，使得SPR可扩展到大数据集。受[69]的启发，为了进一步鼓励特征和标签之间的线性关系，我们建议在软最大化之前对全连接输出使用稀疏惩罚。此外，我们利用SPR使用CutMix [62]以半监督的方式训练网络，将检测到的噪声数据视为未标记数据，以充分利用特征信息。我们进行了广泛的实验，以验证我们的框架在几个基准数据集和现实世界的噪声数据集的有效性。捐款. 我们的贡献如下：• 我们提出了一种统计方法，SPR，在一般情况下识别噪声数据的理论保证。• 提出了一种分裂算法，使SPR可扩展到大数据集。• 提出了一种稀疏惩罚机制来鼓励线性关系，并设计了一个将SPR与半监督方法相结合的完整训练框架• 在基准数据集和真实噪声数据集上的实验验证了SPR的有效性。2. 相关工作带噪声标签学习（LNL）的目标是从噪声数据集中训练出一个更鲁棒的模型。LNL算法大致可以分为两类：鲁棒算法和噪声检测算法。鲁棒算法不关注特定的噪声数据，而是设计特定的模块，以确保网络即使在噪声数据集中也能得到良好的训练。遵循这个方向的方法包括构建鲁棒网络[6，12，13，59]，鲁棒损耗函数[11，27，53，65，68，69]，鲁棒正则化[31，47，58]反对嘈杂的标签。噪声检测方法旨在识别噪声数据并设计特定的策略来处理噪声数据，包括降低损失函数中的重要性以进行网络训练[48]，重新标记它们以获得正确的标签[46]，或者以半监督的方式将其视为未标记的数据[23]等。对于噪声检测算法，噪声数据通过一些不规则的模式来识别，包括大误差[40]，梯度方向[37]，多个网络内的不一致[61]，沿着训练路径的不一致[67]以及训练数据中的一些空间属性[22，52，57]。−i348−n| |≤||−i=1≥C|C|我联系我们∥ ∥12我--2n∞Σ··argmin2？Y−Xγ？+表示Ai，A·，j，ΔAΔ2i、jn{}∈I <$∈-我是说...Σ一些算法[37，50]依赖于额外的干净集的存在来检测噪声数据。在检测到干净数据后，最简单的策略是仅使用干净数据训练网络或重新加权数据[35]以消除噪声。一些算法[2，23]将检测到的噪声数据视为未标记数据，以充分利用训练集中的分布支持。β的最优解是（X，Y）上线性回归问题的普通最小二乘（OLS）估计 γ）;而对于固定的β，问题在γ的每一行中是可分离的，这可以通过软阈值来解决。此外，在[1，10]中示出了惩罚回归问题享有Huber的M-估计[ 16 ]的相同最优解半监督学习方式。还有一些设计标记校正模块的研究[25，46，49，50，59，60]，以进一步伪标记噪声数据来训练argminβΣi=1ρ.yi-xiβσ;λ+1cnσ，（5）2网络这些方法很少是从统计角度设计的，具有非渐近保证。在本文中，我们建议使用SPR识别噪声数据在一般情况下的统计保证。3. 方法问题表述。我们得到一个图像标签对的数据集（Ii，y i），where IiRm，y iR1=c，其中y1的独热编码为y1。我们假设对于每个实例i，yi从地面实况类别y-地面实况和腐败过程未知。我们的目标是预测对任意I∈I，用一个由特征提取器f（·）和分类器g（·）。通常网络工作者首先对图像进行编码对于固定常数σ>0，c0，λ>0，其中当t λ时ρ（t; λ）=t2/2，否则ρ（t; λ）=λ t λ2/2.惩罚P的一般公式可以用[39]中介绍的三步构造算法来定义在我们的实验中，我们使用的惩罚y的范数为0.01。3.2. LNL的惩罚回归在本文中，我们把γ作为噪声数据的指标，γi越大意味着实例i遭受的破坏越多。我们将O：=i：γi=0表示为噪声样本集。为了估计O，我们只需要求解γ，而不需要估计β。因此，为了简化优化，我们将γ固定的β的OLS估计替换到等式中。（四）、为了确保β1是可识别的，我们对X应用PCA，使pn，使X具有全列秩。表示i作为特征向量xi=f（Ii），并返回软最大概率yi=g（xi）。我们提出了我们的框架(SPR)，被设计为神经网络训练管道的样本选择组件。所称X=IXXX，Y=XY，等式（4）转化为¨ ¨ΣγFi=1在引言中，SPR是由预测残差的t检验的留一法[38]激励的，通过求解稀疏线性回归模型中的均值漂移参数来识别和去除用于网络训练的噪声数据（等式2）。（三））。具体来说，我们使用稀疏线性回归模型来拟合从当前训练时间接收到的特征-标签对xi，yin，并在这是γ的标准稀疏线性回归。请注意，在实践中，我们很难选择一个合适的λ，在所有情况下都能很好地工作进一步，利用惩罚回归问题与Huber M估计的等价性因此，不值得去求单个γ的精确解。相反，我们使用分块下降算法[41]来求解具有λs列表的γ并生成解路径。作为1argminβ、γ 2 Y−Xβ−γ<$F+Σi=1 P（γi; λi），（4）λ从0变化到0，稀疏惩罚的影响减小，γi逐渐用非零值求解，换句话说，由模型选择由于先前选定的其中P（i）是γ上的稀疏正则化，其中系数λ i在行γi上，以确保非零γi是稀疏的，其对应的实例被识别为噪声数据。我们实例更有可能是噪声，我们将所有样本按其选择时间的下降顺序排列，定义为：C i=sup{λ：γi（λ）<$= 0}。（七）F列和Frobenius范数的平方，分别。3.1. 统计学中的惩罚回归惩罚回归问题（Eq.（4））在统计学中被广泛研究，其中标准求解算法是交替优化流水线：对于固定的γ，全局大的C i意味着γi被较早地选择。然后将顶部样本识别为噪声数据。3.3. 可扩展惩罚回归Eq的计算成本。（6）是O（n2c），它随着训练样本的增长呈二次增长，使得n一P（γi;λi），（6）：=作为第i行，第j行2i、j349--Σ∈{}i=1，yi=c，i∈/Oxi它不能扩展到大型数据集。请注意，我们发现的数据比方程中的其他数据更具噪声。（7）因此我们可以生成噪声实例更容易被识别的环境，并且具有更少的计算代价。为此，我们建议将整个训练数据集分成许多部分，每个部分包含一小部分训练类别和少量训练数据。采用分片策略，SPR可以在多个分片上并行运行，大大减少了运行时间。回想一下，选择类别组的原则是降低优化难度，并生成一个更容易找到噪声数据的环境。我们的动机是，相似性较小的类别有助于识别噪声数据（基于我们将在后面介绍的噪声集恢复理论），其中相似性定义为s（i，j）=pipj，（8）对于类i，j，其中p表示类原型。具体来说，我们取网络在训练迭代中提取的每个类的干净特征xi，并将其平均，以获得当前训练期结束后的类原型pc，如Σn（九）算法一：可伸缩正则化回归输入：特征矩阵X，标签矩阵Y，噪声集O。使用等式计算每个类的原型P。（9）根据不同的类别，把不同的使用Eq. （8）;将同一组中的每个类的数据拆分为片段（X（i），Y（i））;f或（X（i），Y（i））的每一片并行地做使用等式求解γ（i）（6）;使用Eq.（7）;端将所有的O（i）组合在一起，并返回结果O。为了减少这个差距，受[69]的启发，我们在交叉熵损失上附加了一个Δq（q<1）惩罚，这鼓励了X和独热编码向量Y之间的线性关系：L（xi，yi）=1i∈/O（LCE（xi，yi）+λ∈x∈iWfc<$q），（10）其中q1，LCE表示交叉熵损失，以及<1i∈/O表示指示函数，使得损失仅在干净数据上计算。请注意，pc=n个，i=1，yi=c，i∈/O1只要q足够小，在这种训练方式下，SPR可以看作是一种鲁棒的损失函数算法然后将最不相似的类分组在一起。在我们的实验中，我们设计了一组10个班。对于每个组中的实例，我们以平衡的方式分割每个类的训练数据确定该数量以确保干净图案保持组中的大多数，使得可以容易地进行优化。在实践中，我们选择每个类的10个训练数据来构建组。当不同类之间存在不平衡时，我们使用过采样策略对训练数据较少的类的实例进行多次采样，以确保每个训练实例在某个分裂组中被选中一次。检测过程如算法1所示。3.4. 利用检测到的噪声数据进行监督培训方式。在估计噪声集合O之后，最简单的策略是删除它们，并使用剩余的干净数据训练网络。我们表明，这种策略将导致测试精度的提高。请注意，我们假设在Eq。（3）独热编码标签与特征X线性相关;然而，实际上，预测是经由XW_fc上的软最大函数获得的，其中W_fc是最终全连接层的权重（为了简单起见，我们忽略偏置项）。因为除了损失函数的修改之外，我们不修改训练流水线。半监督式训练。我们可以通过将SPR与半监督算法相结合来进一步利用噪声数据的支持。在本文中，我们在[62]中的干净数据和噪声数据之间插值部分图像，x=Mx干净+（1−M）x嘈杂（11a）y=λyclean+（1−λ）ynoisy（11b）其中M0.1W×H是二进制掩码，是逐元素相乘，并通过SPR来识别干净和有噪声的数据。然后，我们使用插值数据训练网络，L（x，y）=LCE（x，y）.（十二）由于y是插值的，它不再是一个独热向量，因此不是稀疏的。因此，当我们使用插值数据训练网络时，我们不使用稀疏惩罚。请注意，SPR是使用原始数据进行强制将x个字节Wfc近似为独热编码350的，没有插值，因此线性关系仍然成立。实际上，上述两种训练方法是在每个小批量中以预定义的概率随机选择的。完整算法如算法2所示。35112⊗⊗2Σ˚∥∥||∞ ii, jj⊆2¨¨21SS√X√SS−算法二：训练算法结论是S_∞ = S_∞，S_∞ = S_∞，S_∞ = S_∞，S_∞= S_∞. 这里我们初始化：噪声数据集{（I，y）}n特征矩阵表明SS导致OO，当然S=S我我i =1在我们的例子中得到O=O。F或实例i，i∈OconlyX，噪声标签矩阵Y，噪声集合O=0，CutMix概率P。当γi、j=0，则所有向量化索引都是对于EP，对于每个小批量DO，从0到总时期从U（0，1）采样r;如果r>p，则使用Eq. （十）、其他使用Eq. （十二）、端在当前小批量中访问的更新X端对（X，Y）运行SPR（算法1）并更新噪声集合O;端3.5. SPR的噪声集恢复在这一部分中，我们给出了Eq.（4）可以恢复Oracle支持集O. 对于简单的y，我们使用101范数作为惩罚。在上面，我们重新制定了Eq。（4）Eq.（6），这是一个标准的多响应回归问题。在这里，我们进一步矢量化的问题，使其共享LASSO的标准制定然后，我们可以使用经过充分研究的模型选择一致性结果[51，66]来支持我们的结论。具体地，我们在等式中向量化Y，γ。（6）如y，γ和Eq. （6）转向在Sc. 当S∈S时，实例i的所有向量化索引都在S∈c中，这意味着i∈O∈c，从而导致O∈O。C1是获得唯一解所必需的，并且在我们的情况下，C1基本上满足自然假设，即干净数据在训练数据中占大多数。如果C2成立，则估计的噪声数据是真正噪声数据的子集。这个条件是确保SPR成功的关键，SPR需要干净数据和噪声数据之间的差异，这样我们就不能用噪声数据来表示干净数据。如果C3进一步成立，则估计的噪声数据恰好是所有真正的噪声数据。C3要求由γi测量的误差足够大以从随机噪声中识别如果条件失败，SPR将以非零概率失败，而不是确定性的。4. 实验数据集。我们在合成噪声数据集 MNIST [21] 和CIFAR10 [20]以及真实世界噪声数据集ANIMAL10 [44]和WebVision [24]上验证了SPR的有效性。我们考虑MNIST和CIFAR 10的两种类型的噪声标签：（一）对称噪声：每个类都被所有其他标签均匀地损坏;（二）不对称噪声：标签被类似的（模式中的）类损坏。ANIMAL10发布时存在错误标记（比例为 8%），ANIMAL10中的损坏过程和噪声类型未知。WebVision收集了240万张图像argmin<$y −X<$γ<$+λ<$γ，（13）⃗γ从互联网上与ImageNet相同的类别列表ILSVRC 12. 因此，ANIMAL10和WebVision数据集可以被视为现实世界的挑战。其中X=IcX轴，表示Kroneck er乘积奥佩拉托河记S：=supp（γ_∞），则恢复S对于恢复噪声集合O是足够的。我们进一步将X<$S（X<$Sc）表示为X <$的列向量，其索引在S（Sc）中，并且μX<$=maxi∈Sc<$X<$<$2。然后我们就有了定理1（噪声集恢复）。假设：C1 ，限制特征值：λmin （ X<$$>X<$S ）=Cmin>0;骨干对于MNIST，我们使用两个卷积层，然后是两个全连接层，表示为 C2F2 。对于 CIFAR 10 ，使用ResNet-18 [15]网络。对于动物10，我们使用VGG 19-BN [42] 作为骨架。对于 WebVision ，我们使用Inception-ResNet [45]来提取特征。SC2，不可代表性：存在一个η<$X<$<$cX<$S（X<$$>X<$S）−1<$∞≤1−η;（1）（0）（1）（0）（1）（超参数设置。我们使用SGD来训练所有动量为0.9的网络和余弦学习率衰减策略。初始学习率设置为0.1，C3，La rgeerror：<$γmin：=mini∈S|γ⃗i∗|>h（λ，η，X，γ）;Wher e A：=maxA，且h（λ，η，X，λγ）=λ η/Cmin µ+λ（X <$$>X<$S）−1sign（<$γ<$）<$∞。动物10，其他动物0.01对于MNIST、CIFAR 10、ANIMAL 10，将重量衰减设置和WebVision。我们使用128的批量大小对于所有的实验。我们使用随机作物和随机设λ≥2σµXlogcn。然后，随着概率的增加，η比12（cn）−1，模型Eq. （13）有独特的解决方案如果C1和C2成立，则O≠O;如果C1、C2和C3成立，则O≠O。352注意，定理1是从[51]中的模型选择一致性扩展而来的，其仅提供了水平翻转作为CIFAR 10增强策略，Animal 10和WebVision。该网络针对MNIST训练了我们使用q=0。2在Eq. 其中稀疏惩罚的系数λ被初始化为1.2，并且通过乘以1.2来增加，353数据集方法Sym.噪声速率0.2 0.4 0.6 0.8Asy.噪音率0.20.30.4CE91.674.049.422.794.688.882.3FL91.774.550.422.794.389.182.1GCE98.997.281.534.096.789.181.5MNISTSCE98.997.488.848.898.093.785.4（C2F2）NLNL98.397.896.286.398.497.595.8APL99.198.495.773.098.996.991.5Sr99.299.298.998.099.399.299.2SPR99.399.299.298.799.399.299.2标准85.781.873.742.088.086.484.9忘86.082.175.541.389.588.285.0Bootstrap86.482.575.242.188.887.585.1向前85.781.073.331.688.587.385.3解耦87.483.373.836.089.388.185.1MentorNet88.181.470.431.386.384.878.7CIFAR-10（ResNet-18）合作教学Co-teaching+IterNLD89.289.887.986.486.183.779.074.074.122.917.938.090.089.489.388.287.188.878.471.385.0ROG89.283.577.929.189.688.486.2铅笔88.286.674.345.390.288.384.5GCE88.784.776.141.788.186.081.4SCE89.285.378.044.488.786.381.4TopoFilter90.287.280.545.790.589.787.9SPR93.291.082.764.192.891.389.0表1.在几个具有不同设置的基准数据集上测试精度。最好的结果是粗体。竞争对手的MNIST结果见[69]，CIFAR10结果见[57]。1.02，其他人。在噪声率为0.8的CIFAR10中，我们不增加λ。在所有的实验中，我们简单地选择一半的训练数据作为噪声数据。4.1. 合成标号噪声竞争对手在这一部分中，我们首先在MNIST上使用SPR，并仅使用监督训练方式与鲁棒损失函数方法进行比较。然后，我们使用CIFAR-10上的完整的SPR模型与样本选择算法和其他流行的算法进行比较。我们使用交叉熵损失（CE）作为两个数据集的基线算法。对于MNIST，我们还与竞争对手进行了比较，包括有效的损失函数Focal Loss（FL）[26]，一些用于CE损失的改进算法，如GCE [65]和SCE [53]，NLNL [19]利用互补标签对抗噪声，APL [28]结合了鲁棒的主动和被动损失来训练网络。SR [69]利用稀疏正则化结合特征归一化和温度缩放方法来训练网络。对于CIFAR-10，我们将SPR与算法进行比较，包括Forgetting [3]与使用dropout 策略训练网络， Bootstrap [36] 与 Bootstrap 训练，Forward Correction [35]校正损失函数来获得鲁棒模型，Decoupling [30]使用Meta更新策略来解耦更新时间和更新方法，MentorNet [17]使用教师网络来帮助训练网络，Co-teaching [14]使用两个网络来相互教学，Co-teaching+ [61]进一步使用不一致策略来改进Co-teaching，IterNLD [52]使用迭代更新策略，RoG [22]使用生成的分类器，PENCIL [60]使用概率噪声校正策略，GCE [65]和SCE [53]是标准交叉熵损失函数的扩展，TopoFilter [57]使用特征表示来检测噪声数据。对于每个数据集，所有实验都使用相同的主干进行公平的比较。在Tab。1、在MNIST上，SPR算法在不使用噪声数据的情况下，与其他鲁棒损失函数算法相比具有较高的性能，在CIFAR-10上，SPR算法表现出了较好的性能，验证了SPR算法在不同噪声场景下的有效性。4.2. 真实世界噪声数据集在这一部分中，我们在真实世界的噪声数据集，包括ANIMAL10和WebVision的SPR与其他方法进行了比较。354对于WebVision，我们使用CutMix概率为1。0的情况。竞争对手为动物10，我们比较与直接训练交叉熵损失（CE）的基线，以及以前的作品，包括嵌套（ ND ）， CE+ 辍学（ CED ）， SELFIE [44] ， PLC[64]，和NestedCoTeaching（NCT）[7].对于WebVision，我们将直接训练与交叉熵损失（CE）进行比较，以及解耦[30]，D2 L [29]，MentorNet [17]，Co-[14]，Iterative-CV [5]和DivideMix [23]。真实世界数据集的结果显示在Tab.2，其中报告了动物的CE和SELFIE结果在[44]中，ND、CED和NCT的结果在[7]中报道竞争对手在WebVision上的结果见[23]，CE结果见[69]。我们的算法SPR享有优越的性能，所有的竞争对手，表现出处理现实世界的挑战的能力。动物10模型精度WebVision模型精度CE79.4CE66.96嵌套81.3解耦62.54CED81.3MentorNet63.00自拍81.8合作教学63.58PLC83.4迭代-CV65.24NCT84.1DivideMix77.32SPR86.8SPR78.12表2.真实世界数据集的结果。最好的是大胆的。4.3. 更多SPR模型精度CE65.5CE + SPR80.4CE +Eq71.6CE + CutMix87.0CE + SPR +生物柴油88.5CE + SPR + CutMix89.2充分91.0表3. SPR中使用不同模块的准确性在非对称噪声环境中需要早期停止策略。我们把它作为未来的工作，为不同的噪声场景提供一个细粒度的框架。SPR中模块的消融研究。为了验证我们框架中每个模块的有效性，我们在CIFAR10上进行了40%对称噪声率的消融研究。具体地，“CE”表示香草交叉熵方法;“CE + SPR”是指仅在SPR检测到的干净数据上的交叉熵损失;“CE + Eq“表示等式（10）对于所有训练数据;“CE+ CutMix”表示对所有训练数据使用CutMix策略;基于所使用的组件，类似地定义其他变体，并且“完整”表示我们的SPR方法具有所有组件。如Tab.所示。3，简单地使用我们的框架来检测噪声数据将导致比标准CE损失更好的性能。全模型享有最佳性能。我们进一步可视化使用SPR的学习表示与图中的标准交叉熵方法相比。二、SPR将学习更好的判别表示。噪声检测的精度。除了准确性，测试样本选择算法的能力的度量是标签精度：检测到的干净实例中真正干净的标签的比率。在这一部分中，我们检查标签精度模型训练时间SPR w/o分割算法约6小时SPR w/分割算法54秒的SPR，以显示样本选择的有效性。我们在对称噪声率为0.4和0.8以及非对称噪声率为0.4的情况下进行我们的实验结果示于图1.一、SPR在对称噪声设置中享有单调增加的标签精度，从而导致比标准噪声数据集更好的训练环境。当训练过程结束时，几乎所有选择的训练数据都保证是干净的数据（对称-40%设置中为93.90%）。在对称80%设置中，由于选择一半训练数据的策略，精度的上限为40%，如图所示。在这种高噪声率的情况下，SPR仍然可以达到30.34%的精度，这意味着我们的算法检测到76.24%的干净训练实例。请注意，在不对称-40%中，标签精度先增加后减少，最后为93.50%。虽然它仍然很高，但准确性随着标签精度而下降，这表明表4.CIFAR-10上一个epoch的训练时间Split算法的影响。在我们的框架中，我们提出了一个分裂算法，将整个训练集分成小块并行运行SPR。在这一部分中，我们比较了使用分裂算法和不使用分裂算法的运行时间。结果见表1。4.第一章当我们不使用分裂算法时，每个epoch的训练时间将花费不可接受的时间，使得无法在大型数据集上进行训练。因此，我们提出了分裂算法，以减少训练时间。选择比的影响。在我们的实验中，我们简单地选择一半的训练数据来训练网络。研究检测到的噪声数据的比率如何影响训练过程是可取的在对称噪声率为0.8的CIFAR 10上进行了SPR到355SPR-LP清洁速率959060908085 5040.09037.58535.08097.595.092.570807560705065600 50 100 150时代(a) 对称-40%403020100 50 100150时代(b) 对称-80%32.530.027.525.022.520.07570656055500 50 100150时代(c) 不对称-40%90.087.585.082.580.0图1.不同噪声场景下SPR的准确度和标签精度。红线是SPR的准确度，而虚线是标签精度。87868584838281(a)CE（b）SPR图2.学习表征的可视化。0.2 0.4 0.6 0.8 1.0规范图4. SPR在不同条件下的精度。585654525048687276 80 848892 96SPR的局限性SPR的主要局限性是它需要几乎必要的不可表示性条件来识别噪声集。当该条件对于问题不成立时，SPR将以非零概率结束，以将至少一个干净数据识别为噪声数据。此外，恢复理论是基于高斯噪声假设，这可能不适用于特殊的问题。选择每个类别的噪声比（%）图3.选择不同比例的训练数据，SPR运行的最佳和最终精度。避免了半监督训练管道的影响，在这一部分我们只采用了有监督的训练方式。可以发现，最佳选择比接近训练集中的噪声比。因此，可以基于训练集中的噪声比的估计来设计更好的选择策略。我们把它作为一个未来的工作，因为在本文中，我们主要提出的样本选择框架。影响力的。在这一部分中，我们研究了在我们的框架中，NZq范数的影响。我们按顺序进行q从0.05到1，如图所示。4.第一章总的来说，较小的q促进了我们的框架所期望的线性关系，而太小的q将损害网络的表示能力。因此，存在凸精度曲线，建议选择q=0。2成为最好的因此，在我们的实验中，我们使用q= 0。二、5. 结论本文提出了一个统计样本选择框架具体来说，我们提出了一个等效的留一法t检验方法作为惩罚线性模型，其中非零均值漂移参数可以作为噪声数据的指标。我们提供了理论条件，以保证SPR的可识别性恢复的预言噪声集。在多个人工数据集和真实数据集上的实验表明了该方法的有效性。社会影响。我们的SPR将对社会产生积极的影响，因为它能够直接识别具有理论基础的噪声数据，以帮助训练网络。谢谢。本研究得到国家自然科学基金项目（ 62176061 ）和上海市科技重大专项（2018SHZDZX01）的部分资助。SPR-LP清洁速率上界SPR-LP清洁速率最佳精度最终准确率最佳精度最终准确率精度精度精度精度精度精度精度精度356引用[1] Anestis Antoniadis.统计学中的小波方法：最近的一些发展及其应用。统计调查，2007年。3[2] 埃里克·阿拉索，迭戈·奥尔特戈，保罗·阿尔伯特，诺埃尔·无监督标签噪声建模和损失校正。在ICML，2019。3[3] Devansh Arpit，Stanislaw Jastrzebski，Nicolas Ballas，DavidKrueger ， EmmanuelBengio ， MaxinderSKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville，Yoelman Bengio，et al.深入研究深度网络中的记忆ICML，2017。6[4] 德巴布拉塔·巴苏关于消除讨厌的参数。在Debabrata Basu的选集中。2011. 2[5] Pengfei Chen ， Ben Ben Liao ， Guangyong Chen ， andShengyu Zhang.理解和利用使用噪声标签训练的深度神经网络。在ICML，2019。1、7[6] 陈新蕾和Abhinav Gupta 。卷积网络的Webly 监督在ICCV，2015年。一、二[7] Yingyi Chen ， Xi Shen ， Shell Xu Hu ， and Johan AKSuykens.利用标签噪声的压缩正则化增强协同教学。在CVPR研讨会，2021。7[8] 范建青，唐润龙，施晓峰。稀疏附带参数的部分一致性。中国统计，2018年。2[9] Yanwei Fu ， Timothy M Hospedales ， Tao Xiang ，Jiechao Xiong ， Shaogang Gong ， Yizhou Wang ， andYuan Yao.来自众包成对标签的鲁棒主观视觉属性预测。IEEE Transactions on Pattern Analysis and MachineIntelligence，2015。2[10] 我是甘纳兹。部分线性模型中的稳健估计与小波阈值统计和计算，2007年。3[11] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒InAAAI，2017. 一、二[12] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。 2017. 1、 2[13] Bo Han，Jiangchao Yao，Gang Niu，Mingyuan Zhou，Ivor W Tsang，Ya Zhang，and Masashi Sugiyama.掩蔽：噪声监督的新视角。NeurIPS，2018。一、二[14] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor W Tsang，and Masashi Sugiyama.合作教学：具有极强噪声标签的深度神经网络的鲁棒训练。NeurIPS，2018。一、六、七[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[16] 彼得·J·胡贝尔。稳健的统计数据。2004. 3[17] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei. Mentornet：在损坏的标签上学习数据驱动的深度神经网络课程。在ICML，2018。一、六、七[18] 杰克基弗和雅各布沃尔福威茨。无穷多个随机参数下极大似然估计的相合性。数学统计年鉴，1956年。2[19] Youngdong Kim，Junho Yim，Juseung Yun，and JunmoKim.Nlnl：噪声标签的负学习。在ICCV，2019年。6[20] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 5[21] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录，1998。5[22] Kimin Lee，Sukmin Yun，Kibok Lee，Honglak Lee，BoLi，and Jinwoo Shin.通过生成分类器处理噪声标签的鲁棒推理。在ICML，2019。二、六[23] Junnan Li ， Richard Socher ， and Steven C.H.HoiDividemix：使用带噪声标签的学习作为半监督学习。在ICLR，2020年。二、三、七[24] Wen Li，Limin Wang，Wei Li，Eirikur Agustsson，andLuc Van Gool. Webvision数据库：从Web数据中进行可视化学习和理解。arXiv预印本arXiv：1708.02862，2017。5[25] Yuncheng Li ，Jianchao Yang ，Yale Song， LiangliangCao，Jiebo Luo，and Li-Jia

下载后可阅读完整内容，剩余1页未读，立即下载