深度学习噪声处理的通用框架PENCIL的研究和应用

87 浏览量更新于2023-10-18 收藏 558KB PDF 举报

深度学习

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7017带噪声标签吴坤毅建新南京大学软件新技术国家重点实验室，南京，中国网址：yik@lamda.nju.edu.cn，wujx2001@nju.edu.cn摘要深度学习在各种计算机视觉任务中取得了优异的性能收集带有噪声标签的数据集很容易，但这种噪声会使网络严重过拟合，准确性急剧下降。为了解决这个问题，我们提出了一个端到端的框架，称为PEN-CIL，它可以更新网络参数和标签估计作为标签分布。PENCIL不依赖于骨干网络结构，不需要辅助的干净数据集或噪声的先验信息，因此比现有方法更通用、鲁棒，易于应用。PENCIL在具有不同噪声类型和噪声率的合成和现实世界数据集上以很大的幅度优于以前的最实验表明，PENCIL在干净数据集上也是鲁棒的1. 介绍深度学习在各种视觉问题上表现出非常令人印象深刻的性能，例如，分类、检测和语义分割。虽然深度学习的成功有很多因素，但最重要的因素之一是具有清晰注释的大规模数据集的可用性，如ImageNet[3]。然而，收集具有干净标签的大规模数据集一方面，专家知识对于一些数据集是必要的，例如细粒度的CUB-200 [26]，这需要鸟类学家的知识。另一方面，我们可以通过图像搜索引擎轻松收集带有噪声注释的大规模数据集[4，11，20]。这些嘈杂的注释可以可以通过从周围的文本中提取标签或使用搜索关键字来获得[28]。对于像JFT300M这样的大型数据集（包含3亿张图像），国家自然科学基金部分资助项目J. Wu是通讯作者。不可能手动标记它，并且不可避免地约20%的噪声标签存在于该数据集中[22]。因此，能够处理嘈杂的标签是必不可少的。标签噪声问题已经研究了很长时间[1，17]。随着最近各种深度学习方法的成功，深度学习中的噪声处理也获得了动力[18，21，28]。然而，现有方法通常具有在许多应用中可能不实用的先决条件，例如，具有干净标签的辅助集[28]或关于噪声的先验信息[16]。一些方法非常复杂[29]，这损害了它们的部署能力。对噪声的过拟合是另一个严重的困难。对于具有足够容量的DNN，它可以记住随机标签[30]。因此，一些噪声处理方法最终可能仍然过拟合并且它们的性能严重下降，即，它们并不健壮。它们在干净测试集上的准确度在训练过程的中间达到峰值，但之后会下降，并且在最终训练期之后的准确度很差[16，24]。我们从两个方面来解决标签噪声问题首先，我们将图像的标签建模为所有可能标签之间的分布[6]，而不是固定的分类值。这种概率建模使我们能够以统一的方式灵活地其次，受[23]的启发，我们在网络参数学习（其中标签分布充当标签）和标签学习（其中标签分布被更新以校正噪声）中维护和更新标签分布。不像[23]简单地通过使用网络预测的运行平均值来更新标签，我们以原则性的端到端方式纠正噪声并所提出的框架被称为PENCIL，意思是标签中的概率性端到端噪声校正。PENCIL框架仅使用噪声标签来初始化我们的标签分布，然后通过更新标签分布来迭代地校正噪声标签，并且使用标签分布而不是噪声标签来计算我们的贡献如下。• 我们提出了一个端到端的框架PENCIL，7018嘈杂的标签处理。PENCIL不依赖于骨干网络结构，不需要辅助的干净数据集和噪声先验信息，易于应用。PENCIL利用反向传播来概率地更新和校正图像标签，而不是更新网络参数。据我们所知，PENCIL是这一行的第一种方法• 我们提出了DLDL方法的一个变体[6]，这对于校正我们的标签分布中包含的噪声是必不可少的PENCIL达到最先进的精度在具有合成和真实世界噪声标签的数据集上（例如，CIFAR-10、CIFAR-100和Clothing 1 M）。• PENCIL是强大的。它不仅在具有噪声标签的学习中是鲁棒的，而且足够鲁棒以应用于具有零或少量潜在标签噪声的数据集（例如，CUB-200），以提高精度。2. 相关作品我们首先简要介绍了相关的工作，启发了这项工作和其他噪声处理方法在文献中。在[6]中引入了深度标签分布学习（称为DLDL），提出通过转换分类标签（例如，25岁）到标签分发（例如，平均值为25，标准差为3的正态分布）。DLDL方法使用常数标签分布和Kullback-Leibler散度来计算网络损耗。在PENCIL中，我们使用标签分布用于不同的目的，使得标签分布可以更新，因此可以概率地校正噪声。原始的DLDL方法在我们的设置中不起作用，我们在PENCIL中设计了一个新的损失函数来克服这个困难。对于深度学习方法，[30]表明具有足够大容量的深度网络可以记住训练集标签，即使它们是随机生成的。因此，它们特别容易受到噪声标签的影响。标签噪声会导致严重的过拟合现象，从而大大降低网络精度.然而，[23]观察到，当学习率高时，DNN可以保持相对较高的准确性（即，标签噪声的影响不显著）。在[23]中利用该实验来使用具有较大学习率的网络预测的运行平均值然后，这些估计被用作监督信号来训练网络。PENCIL也受到了这一观察的启发[23]标签噪声是一个重要的问题，并且已经研究了很长时间[1，17]。标签噪声主要有两种类型：对称噪声和非对称噪声，分别在[13]和[21]中建模。[5]是对相对较早的方法的调查。[19]他认为，深度神经网络在一定程度上对标签噪声具有固有的鲁棒性。而且，近年来，这些方法已经取得了最先进的结果因此，我们在本节中主要关注深度学习模型中的噪声处理。一个直观和简单的解决方案是删除所有被认为是不可靠的样本[2]。然而，许多困难的样本将被删除，但这些样本对算法的准确性很因此，更深刻的噪声标签处理方法变得必要。对噪声标签问题的攻击主要有两条线：基于噪声标签或使用鲁棒损失函数构建特殊模型。这些方法的目的是构建一个明确处理噪声标签的噪声感知模型[28]构建了一个处理噪声标签的模型，并在他们收集的真实世界数据集上测试了他们的方法[24]提出了一个名为CNN-CRF的框架，该框架将卷积神经网络（CNN）与条件随机场（CRF）相结合，以表征噪声标签。[29]利用类似的想法来确定每个标签的置信度。这种方法近年来越来越流行（例如，在[14，15，25]中），并且诸如局部固有维度的不同技术已经被引入到噪声标签学习域中。另一种有效的方法是设计鲁棒的损失函数，以便对噪声容忍模型。前向和后向方法[16]在损失计算中明确地模拟了噪声转移矩阵。[7]研究了均方损失、平均绝对损失和交叉熵损失等不同损失函数的鲁棒性。[31]结合平均绝对损失和交叉熵损失的优点，得到更好的损失函数。[23]不属于这两类。它很特别在其用它们自己的标签估计替换噪声标签的意义上（即，网络预测的运行平均值这种方法在噪声处理中是有效的，但是是特别的。PENCIL在一定程度上受到了这项工作的启发，但更有原则性和有效性。现有方法通常具有不切实际的先决条件，诸如要求附加的干净数据集（例如，以抑制过拟合）或地面实况噪声转换矩阵。当这些先决条件得不到满足时，它们往往无法产生鲁棒的模型。这些方法有时过于复杂，无法在实际应用中部署。相比之下，所提出的PENCIL方法不需要额外的信息，它可以很容易地应用到任何骨干网络。3. 建议的PENCIL方法首先，我们定义了我们的研究的符号列向量以粗体表示（例如，x）和大写形式的矩阵X）。具体地，1是全1的向量。我们使用硬标签和软标签。硬标签空间是H={y：y∈ {0，1}c，1<$y=1}，软标签空间是是S={y：y∈[0，1]c，1<$y=1}。也就是说，软标签是7019我我我IJ我我cy我我DJI标签分发。3.1. 噪声标签在c类分类问题中，我们有一个训练集X={x1，x2，. . .，xn}。在理想情况下，每个图像xi都有一个干净的标签yi∈ H，这是一个独热向量（即，等于1和c之间的整数）。在我们嘈杂的标签问题，标签可能是错误的概率相对较高，我们使用yi∈H来表示可能包含噪声的标签。使用交叉熵，损失函数为图1.PENCIL学习框架。我们使用标签显示-1Σn ΣcL=−ny∈ijlogfj（xi;θ），（1）分配yd（其是标签初始化变量yd的softmax变换版本）来替换噪声标签yd。标签显示-i=1j =1其中y∈ij是y ∈ i的第j个元素，f是模型的预测（由softmax函数处理），θ是网络参数集。在PENCIL中，我们保持标签分布yd∈ S=在每次迭代中使用三个损失函数更新分配，其中，分类损失和兼容性损失通过要求标签分布产生平滑模型并且不太远离噪声标签来更新Ydi3.2. 标签中的端到端噪声校正{y：y∈[0，1]，1y= 1}对于每个图像xi，我们对x的无噪声标签的估计。yd是我们的标签分布yd对未知的无噪声模型进行我我在我们的学习中用作伪地面实况标签，它是基于噪声标签y*i初始化的。它被不断更新（即，噪声被逐渐校正）。这种概率设置允许噪声校正的充分灵活性请注意，我们对噪声标签的概率建模与DLDL中的不同[6]。DLDL中的标签分布是固定的，无法更新。在[6]中，损失函数是KL发散：Σn标签xi. 因此，我们需要估计这些分布in our learning学习process过程.设X和Yd分别是xi和yd的并集（对于所有1≤i≤n受[23]的启发，我们让Yd成为反向传播过程中要更新的参数的一部分。也就是说，PENCIL不仅如传统网络中那样更新网络参数θ，而且还更新Yd（即，yd）在每次迭代中。因此，我们认为，我们优化网络参数和标签分布如下：minL（θ，Y d|（十）（六）L=1KL（yd||f（x;θ）），和（2）θ，Ydni=1.ΣcydPENCIL的整体架构如图所示。1.一、在PENCIL框架中，三种类型的KL（yd||f（xi;θ））=j=1yd测井IJfj（xi;θ）.（三）y=0和y= 0）是无效的。通过反向传播更新标签分布yd。最后，yd将是潜在的未知无噪声标签的良好估计（即，噪音核心这一点，也是在[23]中得到了证实。然而，KL发散是不对称函数。因此，如果我们交换等式中的两个操作数。2，我们得到了一个新的损失函数1ΣnL=KL（f（xi; θ）||yd），以及（4）n引用的标签）。yd是一个变量，它帮助yd被归一化为概率分布，yd=softmax（yx）。（7）因此，y_n不受约束，并且可以使用i=1ΣcKL（f（xi; θ）||yd）=j=1.Σf（x;θ）logfj（xi;θ）IJ.（五）反向传播，但yd始终是有效分布。原始的噪声标签y不会直接影响参数（θ）学习。然而，它是有用的，因为我们使用它来间接初始化我们的标签分布yd。在PENCIL开始时，y_n由y_n初始化，如下所示：骨干CNN网络预测<$（x;softmax标签分布yd标号初始化y输入图像x相容性损失阿托洛分类损失布拉奇熵损失埃莱噪声标号^y7020我们很快就会发现，Eq。4更适合噪音处理。事实上，Eq。2导致非常差的结果，在我们的实验，我们建议使用方程。4作为PENCIL中更多细节将在第3.4节中讨论y=Ky，（8）其中K是一个大常数（在我们的实验中K = 10），因此从等式7在此初始化之后，我们已经进行了数据挖掘7021i，3i，3i，3IJyd伊DyJ我IJIJi，3第一卷，第7页D3.3. 兼容性损失（方程式10）不会（情况1）。现在考虑yd的更新。噪声标记y_（？）在PENCIL的损耗计算中也是有用的。事实上，有很多（例如，80%）正确的标签，即使在有噪声标签的数据集因此，我们不应该让估计的标签分布yd与那些噪声标签yd完全不同。我们定义了一个兼容性损失Lo（Yd，Yd）来实现这一点要求，如当量2（等式2）10)只会减少yd的一个中等数量，和方程。4（Eq. 11)将保持yd几乎不变（情况2）。综合这些观察，我们认为，虽然经典的KL损失（等式2）2)是一个很好的适合其他应用程序，我们提出的方程。4更适合于校正标签中的噪声因此，我们在等式中使用KL损失的变体4作为我们的分类损失LC。Lo（Y，Yd）=−1个月cn（9）关于我们3.5.熵损失显然，当预测f（x;θ）与i=1j =1这是标签分布和噪声标签之间的典型交叉熵损失。3.4. 分类损失我们的标签分布yd和网络预测f（x;θ）之间的偏差指导网络参数θ应该如何更新。在DLDL [6]和类似的工作[23]中，经典的KL损失（等式24）。2)用于计算这两个分布之间的距离。但我们标签分布yd，网络将停止更新。然而，f（x;θ）倾向于相当快地接近yd，因为标签分布被用作学习网络参数θ的监督信号。在[23]之后，我们添加了一个额外的损失（正则化）项来避免这个问题。熵损失可以迫使网络仅在一个类别处达到峰值，而不是平坦，因为独热分布具有最小的可能熵值。这一性质对于分类问题是有利的。熵损失定义为找到Eq。2在PENCIL中效果不佳，建议使用Eq.4相反，作为新的分类损失（我们表示1Σn ΣcLe（f（x;θ））=−nfj（x;θ）logfj（x;θ）.（十二）如Lc）。因为我们需要更新标签分布，所以我们需要计算BTLc。如果等式2用作分类损失i=1j=1同时，它也有助于避免训练在我们的PENCIL框架中停滞，因为标签分布-Lc那么C=1+Cijj=1日志Di j.（十）fj（xi;θ）如果f（x; θ）不是一个热分布，那么f（x;θ）会和YD不一样。3.6. PENCIL总体框架如果我们使用Eq。4作为Lc，我们有所有组件就绪后，PENCIL损失函数为L.L.C. f（x;θ）c=−IJJ IDj=1ij.（十一）1L=cLc（f（x;θ），Yd）+αLo（Yo，Yd）+βcLe（f（x;θ）），然后，我们对固定的训练样本i和任何类索引j有以下观察结果。情况1如果预测fj（xi;θ）比标签分布yd大得多，10导致中等负梯度（由于对数），但等式。11导致用于更新yd的大的负梯度。情形2如果fj（xi;θ）比yd小得多，则等式10导致中等正梯度，而Eq. 11导致梯度几乎为零。假设对于xi，噪声标签y∈i在j=3处被peak ed（即，y=i，3=1），但真正的标号是7。因此，最初yd将是我们的标签分布y d中的峰值。网络内部的平滑性可以使预测f（xi;θ）在j = 7处（正确地）达到峰值。因此，我们有f7（xi;θ）<$y<$i，7和f3（xi;θ）<$y<$i，3. 当量 4（Eq. （11）意志其中α和β是两个超参数。使用这个损失函数和PENCIL框架的架构，在图2中1，我们可以使用任何深度神经网络作为图1中的骨干网络。1，然后为其配备PENCIL网络来处理带有噪声标签的学习问题变量和损失函数之间的关系在图中清晰可见1如箭前向计算由红色实线箭头可视化，而反向传播计算由蓝色虚线箭头可视化PENCIL框架的算法描述如算法1所示。我们想补充两点关于PENCIL的注释首先，PENCIL中的例如，它可以在支持自动梯度计算的深度学习包中自动完成。第二，在网络已经被完全训练之后（参见图1）。第4节），图中的那些PENCIL相关组件。1根本不需要--仅主干网络就可以执行然后（正确地）增加yd一个很大的量，而Eq。2预测未来的测试示例。y伊C7022我我算法1提出的PENCIL框架输入：噪声训练集{xi，y<$i}（1≤i≤n），以及训练时期的数量T1：通过等式1初始化y=i（1≤i≤n）82：t←13：当t≤T时4：通过前向计算和反向传播以小批量方式更新θ和yd（1≤i≤n使用所有N个训练示例（即，完成一个epoch）5：t←t+1输出：训练的网络模型θ和噪声相关标签yd（1≤i≤n）。与[23]类似，我们通过3个步骤实施PENCIL培训。骨干学习：我们首先从零开始，在没有噪声处理的情况下，以较大的固定学习率训练骨干网络。如前所述，观察到当学习率高时，DNN通常不会过拟合标签噪声。因此，在这一步中，我们使用一个固定的高学习率，只有方程中的交叉熵损失函数。1.由此产生的DNN是图1中的骨干网络。1.一、PENCIL学习：然后，我们使用PENCIL框架更新网络参数和标签分布。学习率仍然是一个固定的高值。因此，我们认为，网络将不会过拟合标签噪声，并且标签分布将校正原始标签中的噪声在这一步的最后，我们为每个图像获得一个标签分布向量算法细节如算法1所示请注意，在实践中，我们发现更新y的学习率比更新其他参数的学习率要大得多。因为在这一步中整体学习率是固定的，所以我们简单地使用一个单一的超参数λ来更新yλ（即，不使用PENCIL的Ly←y−λ。（十三）阿夫里最终微调：最后，我们使用学习的标签分布来微调网络，只使用分类损失Lc（即，α=β=0）。在这一步中，标签分布将不会更新，学习率将逐渐降低。在普通神经网络训练中减少。4. 实验我们在合成和真实世界数据集上测试了所提出的PENCIL 框架： CIFAR-100 [12] 、 CIFAR- 10 [12] 、CUB-200 [26]和Clothing1M [28]。所有实验都是使用PyTorch框架实现的。4.1. 数据集CIFAR-100：在[31]之后，我们保留了10%的训练数据作为验证集，并且训练和验证都识别装置被噪声污染。但是，请注意，我们在方法中没有使用验证集，因为PENCIL不需要验证集。有两种类型的噪声：对称和不对称。在[31]之后，在对称噪声设置中，标签噪声在所有类别中均匀分布，并且标签噪声百分比为r∈[0，1]。对于每个例子，如果正确的标签是i，那么噪声污染的标签有1-r的概率保持正确，但有r的概率是从C标签中均匀地绘制。通过以噪声率r∈[0，1]循环地将每个类翻转到下一个类来生成非对称噪声标签。CIFAR-10：在[23]之后，我们保留了10%的CIFAR-10训练数据作为验证集并修改原始的正确的标签，以获得不同的噪声标签数据集。对称噪声的设置与CIFAR-100中对于非对称噪声，[16]噪声标签由测绘车产生→汽车，鸟→飞机，鹿→马和猫参与者的概率为r。这些噪声产生方法与通常发生在现实世界中。Clothing1M：Clothing1M是一个带有噪声标签的大规模数据集。它由来自14个类别的100多万张图像组成，其中有许多错误的标签。从几个在线购物网站获得图像，并根据其周围的文本生成标签噪音水平估计约为40% [28]。该数据集是严重不平衡的，并且标签错误大多发生在相似的类之间（即，不对称）。存在额外的训练、验证和测试集，分别有50k、14k和10k个样本，这些样本的标签被认为是干净的。CUB-200：我们在细粒度分类数据集CUB-200中测试了框架的鲁棒性。CUB-200包含200种鸟类的11788张图像，不被因此，我们在这个数据集上测试了我们的框架，以证明PENCIL是健壮的。此外，CUB-200中可能有一小部分噪声标签[27]。有趣的是观察PENCIL在这样的数据集中是否是稳健和有效的。4.2. 实现细节接下来，我们描述每个数据集的更多实现细节。CIFAR-100：我们使用ResNet-34 [9]作为骨干网络，与现有方法进行公平比较。学习率为0。35，α=0。1，β=0。4，λ=10000。在每侧填充4个像素后，进行平均减法、水平随机翻转和32×32随机数据预处理和增强。我们使用SGD与0的情况。9动量，重量衰减为10−4，批量大小为128. 在[23]之后，三个步骤的历元数分别为70，130和120。在最后一步中，我们使用7023表1. CIFAR-10实验的超参数。3000 → 0表示λ从3000线性减小到0。对称噪声噪声率（%）学习率αβλ100.020.10.8200300.030.10.8300500.040.10.8400700.080.10.8800900.120.10.41200非对称噪声噪声率（%）学习率αβλ100.060.10.4600200.060.10.4600300.060.10.4600400.0300.43000 →0500.0300.44000 →0学习率为0。2，并在40和80个时期后将其除以10[23]。对CIFAR-100的所有实验使用与上述相同的设置。事实上，我们可以通过进一步调整超参数（例如，正如我们将很快为CIFAR-10介绍然而，我们选择使用相同的超参数集来证明我们框架的鲁棒性。CIFAR-10：我们使用PreAct ResNet-32 [10]作为骨干网络，与现有方法进行公平比较。我们使用了与CIFAR-100相同的设置，除了总体学习率，α，β和λ超参数。在CIFAR-10上，这些超参数如表1所示。如表1所示，对于对称噪声，学习率随着噪声率的增加而这是合理的，因为当噪声率变得更高时，我们需要更强的鲁棒性，我们可以提高学习率以防止我们的网络过度拟合。并且，当噪声率非常高时（例如，50%不对称），有太多嘈杂的标签。因此，我们可以通过移除Lo（即，将α设为0）。同时，我们需要一个大的λ来快速纠正这些嘈杂的标签。然而，经过几次epoch，噪声标签被快速校正到稳定状态（cf.图2和图（3）第三章。因此，我们需要线性地减小λ，以防止在以后的时期中发生错误的更新。CUB-200：在这个数据集上，我们使用了在ImageNet上预训练的ResNet-50 [9]。对数据进行预处理和增强，包括均值相减、直方图随机翻转、256×256图像增强、224×224随机作物。我们使用SGD 0。9分钟-tum，重量衰减为10−4，批量大小为16。三个步骤的时期数分别为35、65和60，分别为。第一步和第二步的学习率是2×10−3。在最后一步中，学习率是10−3，在20个epoch和40个epoch之后除以10β为0.8，我们报告了不同α和λ值的消融研究结果。Clothing 1 M ：我们使用在 ImageNet 上预训练的ResNet-50作为骨干网络，现有的方法。数据预处理和增强与CUB-200相同。我们使用SGD 0。9个动量，重量衰减为10−3，批量大小为32。三个步骤的历元数分别为5、10和10。第一步学习率为1。6×10−3，第二个步学习率为8×10−4。最后一步学习率是5×10−4，在5个历元后除以10。α=0。08，β=0。8.在第二步的前5个时期中，λ=3000，并且在第二步的最后5个时期中，λ=500。该数据集存在严重的数据不平衡。因此，我们随机选择了一个小的平衡子集（使用噪声标签），以减轻不平衡造成的困难。小子集包括大约260k个图像，并且所有类具有相同数量的图像。我们所有的实验都是在这个子集上完成的。然而，请注意，这个子集并不是真正平衡的，因为标签是嘈杂的。4.3. 关于CIFAR 100首先，我们在CIFAR-100上测试了PENCIL结果示于表2中。所有数据集设置均遵循[31]。方法除了80%对称噪声情况外，PENCIL在所有对称和非对称噪声情况下均显著优于以前的方法即使对于80% 对称噪声的情况，它揭示了所提出的PENCIL方法的失效模式当噪声率太高时（例如，80%），正确的标签仅形成少数群体，并且它们太弱而无法引导噪声校正过程。因此，PENCIL在这种高噪声率问题中往往失败。幸运的是，我们在现实世界的应用中几乎没有处理这样高的噪声率例如，大规模真实世界图像数据集JFT 300M [22]仅包括约20%的噪声标签。我们有意在该数据集上的所有实验中选择相同的超参数集，结果证明了我们的PENCIL框架对这些超参数的鲁棒性。我们可以通过对不同的噪声率和噪声类型使用不同的超参数来获得更好的准确性，如CIFAR-10数据集上的表1所示4.4. CIFAR 10上的实验接下来，我们评估了PENCIL框架在CIFAR-10上的性能。所有设置均已在第4.2节中描述。在原始的无噪声 CIFAR-10 数据集上，我们的骨干网络（ PreActResNet- 32）的结果是94。05% 我曾在《古兰经》中这样说然而，[23]中的结果使用了先验知识（即，所有类别具有相同数量的无噪声训练示例），7024表2.CIFAR-100的结果我们报告了5次试验的平均准确度和标准差#1至#5引自[31]。PENCIL（#6）是最后一个epoch的结果（不使用验证集）。带有星号*的行（#2）不参与公平比较#方法对称噪声非对称噪声噪声率（%）20406080102030401交叉熵损失58.72±0.2648.20±0.6537.41±0.9418.10±0.8266.54±0.4259.20±0.1851.40±0.1642.74±0.612[16]第十六话63.16±0.3754.65±0.8844.62±0.8224.83±0.7171.05±0.3071.08±0.2270.76±0.2670.82±0.453For wardT [16]39.19±2.6131.05±1.4419.12±1.958.99±0.5845.96±1.2142.46±2.1638.13±2.9734.44±1.934Lq[31]66.81±0.4261.77±0.2453.16±0.7829.16±0.7468.36±0.4266.59±0.2261.45±0.2647.22±1.155[31]第三十一话67.61±0.1862.64±0.3354.04±0.5629.60±0.5168.86±0.1466.59±0.2361.87±0.3947.66±0.696铅笔（最后）73.86±0.3469.12±0.6257.79±3.86失败75.93±0.2074.70±0.5672.52±0.3863.61±0.23表3.在CIFAR-10上测试对称噪声的准确性。我们报告了5次试验的平均结果本表中的所有结果均基于我们自己的实现。#方法对称噪声噪声率（%）10305070901交叉熵损失最好91.6689.0085.1578.0950.74最后88.4372.7853.1133.3216.302Tanaka等人[23日] 最好93.2391.2388.5084.5154.36最后93.2391.2288.5184.5953.493铅笔最好93.2692.0990.2987.1061.21最后93.2892.2490.3687.1860.80不应该使用。为了公平比较，我们实现了表3列出了CIFAR-10的对称噪声结果在表3中，如前所述，当学习率较小时，深度神经网络网络是过度拟合的。如第1行所示，使用经典交叉熵损失的传统神经网络受到这种困难的严重影响。其最佳多历元测试精度明显优于最后一历元测试精度.而且，随着噪声率的增加，差距甚至更大，因为对噪声的过拟合变得更加严重。相反，我们的方法和Tanaka等人。 [23]在最佳和最后时期之间没有明显的准确性下降。因此，所提出的PENCIL方法具有较强的鲁棒性。至于测试集的准确度，PENCIL比表3中的竞争方法具有明显的优势。当噪声率增加到更大的值时，获胜的差距变得特别明显。例如，当噪声率为90%时，PENCIL获得的准确度比Tanaka等人的准确度高约7%，比交叉熵高约10%。表4列出了CIFAR-10的非对称噪声结果。在鲁棒性方面，行#1、#2和#3中所示的方法具有过拟合问题，并且它们的测试精度在最佳和最后时期之间具有较大的差距。Tanaka等人的方法在噪声率高（50%）时遇到了相同的问题，但在其他情况下是稳健的。然而，我们的PENCIL方法在整个过程中保持稳健。表4.在CIFAR-10上测试不对称噪声的准确性我们报告了5次试验的平均结果。问题#1、#4和#5基于我们自己的实现。#20033;，#20033;，#20033;，#20033;，#20033;。标有“*”的方法使用了#方法非对称噪声噪声率（%）10203040501交叉熵损失最好91.0989.9488.7887.7877.79最后85.2480.7476.0976.1271.052[16]第十六话最好92.491.491.090.383.8最后91.789.788.086.480.93[24]第二十四话最好92.091.590.789.584.0最后90.386.683.679.776.44Tanaka等人[23日] 最好92.5391.8991.1091.4875.81最后92.6491.9291.1891.5568.355铅笔最好93.0092.4391.8491.0180.51最后93.0492.4391.8091.1680.06所有的实验。Forward [16]和CNN-CRF [24]方法都需要地面真实噪声转移矩阵，这在应用中几乎不可用。我们的方法不需要任何关于噪声标签的先验信息表4显示，PENCIL一直是稳健的，是CIFAR-10的整体准确度赢家我们在PENCIL的第二步中记录了正确标签的数量。在标签分布向量中，概率分布中最大值对应的类别被识别为PENCIL估计的标签如果这个标签与无噪声地面实况标签相同，我们就说它是正确的。CIFAR-10上70%对称和30%非对称噪声的结果如图所示2和图3所示。我们可以观察到，即使在高噪声率的情况下，PENCIL也能例如，在70%的对称噪声率下，最初只有大约16000个标签是正确的，但经过PENCIL的学习过程后4.5. 在CUB 200我们使用不同的超参数α和λ在CUB-200上进行了额外的实验。该数据集通常被认为不包含或仅包含很少的噪声标签。因此，我们使用它来进一步测试PENCIL对7025CIFAR10，70%对称噪声908070605040表5.在CUB-200上使用不同的超参数测试精度PENCIL的准确性在具有干净标签的标准数据集中不会下降0 20 40 60 80 100 120时代图2.CIFAR-10上的正确标签具有70%对称噪声。CIFAR10，30%非对称噪声表6.在Clothing1M数据集上测试准确性 #1和[2][3][4][5][6][7][8][10][11][12][13][14][15][16][17][18][19][这些95.092.590.087.585.082.580.077.50 20 40 60 80 100 120时代基线方法使用完整的Clothing1M训练数据，但我们的方法仅使用小的伪平衡子集（即，在噪声标签方面平衡）。我们的方法在这个真实世界的数据集中取得了最先进的结果。#方法测试准确度（%）1交叉熵损失68.942前进[16]69.843Tanaka等人[23日]72.164铅笔73.49图3.CIFAR-10上的正确标签，具有30%的不对称噪声。不受噪声标签影响的问题。结果列于表5中。第1行是基线（经典方法），第2至7行是PENCIL结果。对于广泛的α和λ值，PENCIL始终表现出竞争性结果（即，没有明显的降解）。此外，我们观察了最终的标签分布，并且所有标签分布的最大值都是正确的（即，与正确的标签相同这一观察结果表明，PENCIL在干净的数据集上也能稳健地工作。在行#4至行#7的设置中，PENCIL实现了比基线更高的精度。特别地，行#4高0.71%。一小部分标签噪声可能在这个数据库中[27]。我们的假设是，通过在PENCIL中用概率建模替换原始的独热标签，我们获得了更好的鲁棒性，从而获得了较小的准确性。4.6.服装实验1M最后，我们在 Clothing1M 上测试了 PENCIL ，Clothing1M是一个真实的噪声标签数据集。它包含大量未知结构（非对称）噪声。结果示于表6中。所有结果均为最佳测试准确度。[16]中引用了第1和第2行，[23]中报告了第3行尽管这些基线模型是在整个Clothing1M训练集上训练的我们的PENCIL使用随机采样的伪平衡子集，包括大约260k个图像。所有方法的骨干在表6中，仅使用噪声标记的示例（即，而不使用干净的训练子集）。Forward [16]方法需要地面真实噪声转换矩阵，这是不可用的。因此，它使用了一个估计的矩阵。 Tanaka et al. [23]方法使用噪声标签的分布来缓解不平衡问题。在我们的PENCIL方法中，我们没有使用任何额外的先验信息。PENCIL的准确度比Tanaka等人 [23]高1.33%，比Forward [16]高3.65%，比交叉熵高4.55%。5. 结论我们提出了一个名为PENCIL的框架来解决噪声标签问题。PENCIL采用标签概率分布来监督网络学习，并在每个时期通过端到端的反向传播来更新这些分布。我们提出了一个KL损失，这是不同于以前的方法，但噪声标签处理是强大的PENCIL框架是端到端的，独立于骨干网络结构，因此易于部署。我们在具有不同噪声类型和噪声率的CIFAR- 100和CIFAR-10上测试了具有合成标签噪声的PENCIL我们还对CUB-200进行了实验，认为它是无噪声的。结果表明，PENCIL对不同的数据集和超参数具有鲁棒性。最后，我们在真实世界的大规模标签噪声数据集Clothing1M上测试了PENCIL。在这个数据集上，我们的准确率比以前的最先进水平高出1.33%。正确标签（%）正确标签（%）#方法测试准确度（%）1交叉熵损失81.93铅笔λα21000081.9132000081.8443000082.64510000.182.09620000.182.21730000.182.227026引用[1] Dana Angluin和Philip D.莱尔德从嘈杂的例子中学习。Machine Learning，2（4）：343[2] 卡拉·EBrodley和Mark A.弗里德尔识别错误标记的训练数据。J. Artif.内特尔Res. ，11：131[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. ImageNet：一个大规模的分层图像数据库。CVPR，第248-255页[4] 罗伯特·费格斯，李飞飞，皮埃特罗·裴罗纳，安德鲁·齐瑟曼。从互联网图像搜索中学习对象类别Proceedings ofthe IEEE，98（8）：1453[5] 本·奥莱特·弗雷奈和米歇尔·维勒·埃森。标签噪声存在下的分类：一项调查。 IEEE Trans. 神经网络学习系统，25（5）：845[6] Bin-Bin Gao，Chao Xing，Chen-Wei Xie，Jianxin Wu，and Xin Geng.标签模糊的深度标签分布学习。IEEETrans.图像处理，26（6）：2825[7] Aritra Ghosh，Himanshu Kumar，and P. S. Sastry标签噪声下深度神经网络的鲁棒损失函数。在AAAI，第1919-1925页[8] Isabelle Guyon，Nada Matic，and Vladimir Vapnik.发现信息模式和数据清理。在KDD，第181-203页[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习CVPR，第770-778页，2016年[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV，LNCS的第9908卷，第630-645页中。施普林格，2016年。[11] Jonathan Krause ， Benjamin Sapp ， Andrew Howard ，Howard Zhou，Alexander Toshev，Tom Duerig，JamesPhilbin，and Li Fei-Fei.噪声数据对细粒度识别的不合理有效性。在ECCV，LNCS的第9907卷，第301-320页中。施普林格，2016年。[12] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。硕士[13] Jan Larsen ， Lars Nonboe Andersen ， Mads Hintz-Madsen，and Lars Kai Hansen.鲁棒神经网络分类器的设计在ICASSP，第1205-1208页[14]

下载后可阅读完整内容，剩余1页未读，立即下载