负学习：降低噪声数据对卷积神经网络分类性能的影响

6 浏览量更新于2023-10-13 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

101NLNL：噪声标签的负学习Youngdong Kim Junho Yim Juseung Yun Junmo Kim电气工程学院，KAIST，韩国{ydkim1293，junho.yim，st24hour，junmo.kim}@ kaist.ac.kr摘要卷积神经网络（CNN）在用于图像分类时提供了优异的性能。训练CNN的经典方法是通过以监督的方式标记图像，如“输入图像属于该标签”（积极学习;PL），如果标签被正确地分配给所有图像，这是一种快速和准确的方法。然而，如果不准确的标签，或嘈杂的标签，存在，训练与PL将提供错误的信息，从而严重降低性能。为了解决这个问题，我们从称为负学习（NL）的间接学习方法开始因为选择真实标签作为互补标签的机会很低，NL降低了提供不正确信息的风险此外，为了提高收敛性，我们扩展了我们的方法，通过采用PL选择性，称为选择性负学习和正学习（SelNLPL）。PL被选择性地用于训练预期要干净的数据，其选择随着NL的进展而变得可能，从而导致滤除噪声数据的优异性能通过简单的半监督训练技术，我们的方法实现了最先进的精度为噪声数据分类，证明了SelNLPL的噪声数据过滤能力的优越性1. 介绍卷积神经网络（CNN）显著提高了图像分类的性能[17，8，29，11，7，38]。对于这种监督任务，需要由图像及其相应标签组成的庞大数据集来训练CNN。CNN是用于分类图像的强大工具，如果相应的标签是正确的。然而，准确地标记大量图像是令人生畏且耗时的，偶尔会产生不匹配的标记。当CNN用噪声数据训练时，它可能过拟合这样的数据集，导致分类性能差因此，利用噪声数据正确地训练CNN具有重要的现实意义。许多图1：积极学习（PL）和消极学习（NL）之间的概念比较。关于噪声数据，虽然PL为CNN提供了错误的信息（红色气球），但NL可以为CNN提供正确的信息（蓝色气球），因为狗显然不是鸟。解决这个问题的方法是应用一些技术和正则化项以及正性学习（PL），一种用于训练CNN的典型监督学习方法，然而，在这方面，当用图像和不匹配的标签训练CNN时，错误的信息被提供给CNN。为了克服这个问题，我们建议负学习（NL），这是一种间接学习方法，用于训练CNN“输入图像不属于这个互补标签”。NL不像PL那样频繁地提供错误信息（图1）。例如，当使用PL用噪声CIFAR10训练CNN时，如果CNN接收到狗的图像和标签在这种情况下，CNN是用错误的信息训练的。然而，利用NL，CNN将被随机地提供除了“汽车”之外的补充标签，例如“鸟”。训练CNN承认这张照片不是鸟，在某种程度上是为CNN提供正确信息的行为，因为狗显然不是鸟。以这种方式，噪声数据可以通过提供具有不选择真实标签作为互补标签的高机会的“正确”信息来有助于训练CNN102图版我们的研究证明了NL的有效性，因为它防止了CNN对噪声数据的过拟合。在此基础上，利用 NL 训练方法，我们提出了SelNLPL（SelectionNegativeLearningandPositiveLearning），它将PL和NL结合起来，充分利用了两种方法的优势，更好地训练噪声数据。虽然PL不适用于有噪声的数据，但对于干净数据，它仍然是一种快速而准确的方法。因此，在用NL训练CNN之后，PL开始选择性地仅使用高分类置信度的训练数据来训练CNN。通过这个过程，SelNLPL扩大了干净数据和噪声数据的置信度之间的差距，从而导致从训练数据中过滤噪声数据的优异性能。随后，通过丢弃过滤后的噪声数据的标签并将其视为未标记的数据，我们利用半监督学习进行噪声数据分类。基于SelNLPL优越的过滤能力，我们证明了用一个简单的半监督学习方法可以实现对噪声数据分类的最新性能。虽然这不是第一次通过过滤噪声数据来解决噪声数据分类问题[2，6，24]，但由于对噪声数据使用PL，过滤结果并不理想。本文的主要贡献如下：• 我们将负学习的概念应用于噪声数据分类问题。我们证明了它的适用性，证明它可以防止CNN过拟合噪声数据。• 利用建议NL，我们引入了一个新的框架，称为SelNLPL，用于过滤噪声数据从训练数据在NL之后，通过选择性地仅将PL应用于高置信度的训练数据，我们可以实现对噪声数据的精确滤波。• 我们通过相对简单的半监督学习基于SelNLPL实现的优越的噪声数据滤波。• 我们的方法不需要任何关于噪声数据点的类型或数量的它不需要依赖于先验知识的超参数的任何调整，使得我们的方法适用于现实生活。本文的其余部分组织如下：第3节描述了我们的方法的整体过程，每个步骤的详细解释第4节展示了SelNLPL的优越滤波能力。第5节描述了用于评估我们的方法的实验，并且第6节描述了用于进一步分析我们的方法的实验。最后，我们在第7节中总结本论文。2. 相关作品噪声标签学习最近，已经提出了许多方法用于利用噪声标签进行学习。在此，我们简要回顾了相关研究。一些方法试图创建噪声鲁棒损失[1，32，23，4，3，39]。Ghosh等人[4，3]从理论上证明了平均绝对误差（MAE）对噪声标签具有鲁棒性;然而，在神经网络中采用MAE会降低精度。Zhang等人[39]提出了一种广义交叉熵损失，不仅对标签噪声具有鲁棒性，而且在深度神经网络上表现良好。在其他研究中，每个训练样本根据给定标签的可靠性进行不同的重新加权[13，27，20]。[13，27]使用元学习算法，学习每个样本的最佳权重。然而，这两种方法都需要一定量的干净数据，这在许多情况下是很难获得的。CleanNet [20]也受到限制，因为它需要经过验证的标签一些方法使用校正方法。损失校正[25，31，36，10]方法假设噪声转移矩阵是已知的，或者可以获得一些干净的数据来计算噪声转移矩阵。[28，14，5]通过添加附加层对噪声转移矩阵进行其他几种方法试图直接校正标签[33，21]。然而，在这些方法中，需要清洁数据来训练标签清洁网络和教师网络。存在附加的标签清理方法，其逐渐地将数据标签改变为网络的预测值[26，30，22]。其他方法包括联合建模标签和工人质量[15]，创建一种鲁棒方法以在开集噪声标签情况下学习[34]，并尝试修剪正确的样本[6，2，24]。Ding等[2]建议基于softmax输出修剪正确的样本。被认为不可靠的样本以半监督方式而不是通过使用标签信息来训练我们的方法利用修剪正确的样本和标签校正方法。现有的修剪和标签清洁方法[6，2，26，30，22]使用直接用给定的噪声标签训练的网络;因此，即使执行修剪或清除过程，也可能发生对噪声标签的过拟合。同时，我们使用NL方法，它间接地使用了噪声标签，从而避免了记忆噪声标签的问题，并且在仅过滤噪声样本方面表现出了显著的性能。使用互补标签这不是第一次使用互补标签先前的研究[12，37]集中于给出互补标签的分类任务然而，与互补标签分类任务不同的是，我们从给定的噪声标签生成互补标签，并将它们用于NL。103CL（f，y）=−Σck=1yklogpk（1）(a)（b）第（1）款图2：PL和NL之间的比较。(a)：PL和NL的损失图。(b)：PL和NL的精度图。其中pk表示p的第k个元素。当量1适合于将给定标签对应的概率值优化为1（py→1），满足PL的目的然而，NL不同于PL，因为它优化了输出概率对应于互补标记的值远离1（最终达到0（py-0））。因此，我们提出如下损失函数：Σc3. 方法L（f，y）=−k=1yklog（1−pk）（2）本节描述了我们用于噪声数据分类的总体方法。第3.1节描述了NL的概念和实现，证明了与PL相比，它更适合于用噪声数据进行训练。第3.2节和第3.3节分别介绍了选择性负学习（ SelNL ）和选择性正学习（SelPL），这是NL之后的后续步骤，以进一步使CNN更好地使用噪声训练数据进行训练，同时防止过拟合。所有这些方法的组合被称为选择性消极学习和积极学习（SelNLPL），它在从训练数据中过滤噪声数据方面表现出出色的性能（第3.4节）。最后，利用SelNLPL的过滤能力，对噪声数据分类进行半监督学习（第3.5节）。3.1. 消极学习如第1节所述，训练CNN以用于具有给定图像数据和对应标签的图像分类的典型方法是PL。它是一种训练CNN输入图像属于该标签的方法。相比之下，使用NL，CNN被训练为算法1互补标签生成输入：训练标签y ∈Ywhile迭代做y=从{1，… C}\{y}输出：互补标签y我们考虑C类分类的问题。设x∈ X为输入，y，y∈Y={1，…，c}分别为其标号和补标号， y，y∈{0，1}c为其独热向量。假设CNNf （x;θ）将输入空间映射到c维得分空间f：X →Rc，其中θ是网络参数的集合。如果f通过通过softmax函数，输出可以解释为概率p∈<$c−1，其中<$c−1表示c维单纯形。当用PL训练时，网络f的交叉熵损失函数变为：这种互补标记是完全随机的，因为它是在训练期间的每次迭代中，从除了给定标签y之外的所有类别的标签中随机选择（算法1）。当量2使得互补标签的概率值被优化为零，导致其他类别的概率值增加，满足NL的目的。PL和NL之间的明显比较如图2所示。CNN在具有30%symm-inc噪声的CIFAR 10上用PL或NL训练。本文中使用的噪声类型在第5节中解释。注意，虽然CNN用PL（等式1）训练。1）或NL（Eq.图2（a））中所示的所有损耗均使用等式21.一、使用PL，测试损失下降，测试精度在早期阶段提高然而，它最终导致CNN过度拟合噪声训练数据，导致干净的测试数据上的性能差。相比之下，NL被示出为训练CNN而不过度拟合噪声训练数据，因为观察到测试损失逐渐减少并且测试准确度增加。图3（a）和（b）分别示出了PL和NL之后的训练数据的直方图。虽然PL增加了干净数据和噪声数据的置信度，但噪声数据的置信度远低于NL的干净数据的置信度，再次表明NL能够防止CNN过度拟合噪声数据。3.2. 选择性NL如第3.1节所述，NL可以防止CNN过度拟合噪声数据，如其低置信度值所示（图3（b））。作为下一步，我们引入SelNL来改善NL之后的收敛在用NL训练之后，SelNL仅用置信度超过1的数据训练CNN。在阈值化之后，训练中涉及的数据往往比之前噪声更小，从而有效地改善CNN的图3（c）示出了NL之后的SelNL的结果3.3. 选择性PLNL可以是一个更好的学习方法时，噪声数据。然而，如果训练数据被验证为具有104(a)（b）（c）（d）图3：直方图显示了具有30%对称噪声的CIFAR10训练数据的分布，根据概率py（置信度）。蓝色表示干净数据，而橙色表示有噪声数据。(a)：PL。(b)：NL。(c)：NL→SelNL。(d)：NL-SelNL-SelPL（SelNLPL）。图4：SelNLPL的准确度图。使用NL、SelNL和SelPL顺序执行训练。算法2SelNLPL的整体过程输入：训练数据（x，y）∈（X，Y），网络f（x;θ），总历元Tfori←1toTdoNL批次←样品x通过最小化等式来更新f2fori←1toTdoSelNLBatch← Samplex ifpy>1/ c通过最小化等式2更新f2fori←1toTdoSelPL批次←样品x，如果py>γ通过最小化等式来更新f1输出：净功f（x;θ）PL是一种比NL更快、更准确的方法。在用NL和SelNL训练之后，干净数据和有噪声数据的置信度被大幅度分开（图3（c））。SelPL仅使用在γ上具有置信度的数据训练CNN，假设这样的数据是干净的数据。在本研究中，我们将γ设置为0.5。图3（d）示出了在图3（c）之后的SelPL的结果，对于几乎所有干净的数据表现出接近1的高置信度值。3.4. 选择性NL和PL总之，NL、SelNL和SelPL的组合被称为SelNLPL。SelNLPL的总体过程在算法2中示出。图4显示了性能改变每一步。它清楚地表明，当每个步骤被应用时，性能的增强，从而证明SelNLPL中每个步骤的重要性在图4中证明，SelNLPL的每个步骤都有助于收敛，同时防止对噪声数据的过拟合，从而在整个训练过程中获得比训练准确度更高的测试准确度。如图3（d）所示，干净数据和噪声数据的总体置信度这意味着SelNLPL可以用于从训练数据中过滤噪声数据。该区域在第4节中进一步分析。3.5. 半监督学习利用SelNLPL的过滤能力，半监督学习方法可以应用于清洁数据和过滤的噪声数据，丢弃过滤的噪声数据的标签。对于半监督学习，我们应用伪标记方法[19]。图5示出了伪标记的总体过程。首先，通过使用使用SelNLPL训练的CNN将训练数据分为干净数据和噪声数据（图5（a））。接下来，在图5（b）中，用从SelNLPL获得的干净数据训练初始化的CNN。然后，用图5（b）中的CNN的输出更新噪声数据在这里，我们使用软标签作为更新的标签，类似于[30]。图像分类的典型标签是一个独热向量的形式，而软标签只是训练CNN的输出。结果表明，在更新标签时，软标签更好[30]。最后，干净的数据和标签更新的噪声数据用于训练初始化的CNN（图5（c））。这导致了国家的准确性，证明了高过滤能力的SelNLPL。结果见第5节。4. 过滤能力在第3.4节中提到，SelNLPL对于从训练数据中过滤噪声数据是有效的。在本节中，我们进一步解释SelNLPL的过滤过程。当用SelNLPL训练CNN时，置信度超过γ的数据被假设为干净的。以下105图5：半监督学习的伪标记（a）：使用CNN将训练数据划分为干净数据或噪声用SelNLPL训练。(b)：用来自（a）的干净数据训练初始化的CNN，然后在用干净数据训练的CNN的输出之后更新噪声数据的标签。(c)干净数据和标签更新的噪声数据都用于在最后一步中训练初始化的CNN。图6：过滤噪声数据时的精确度-召回率曲线。每条曲线表示 PL 、 NL 、 NL→SelNL 和 NL→SelNL→SelPL（SelNLPL）的滤波性能。估计噪声（%）召回精度910.2592.8785.20噪音（%）2727.6096.2894.014545.1595.8095.38表1：对来自CIFAR10的具有10%、30%和50%对称性噪声的噪声数据进行滤波的结果由于symm-inc噪声的特性（第5.1节），每种情况下的实际噪声分别为9%、27%和45%。在这种方法中，我们过滤掉没有用PL训练的数据作为噪声数据。表1总结了具有各种噪声比（symm-inc）的CIFAR 10上的SelNLPL估计的噪声比是指未用PL训练查全率和查准率是衡量噪声数据过滤质量的指标结果表明，估计的噪声比与实际噪声比几乎匹配88%至99%。此外，表1显示了我们过滤噪声数据的方法导致了高召回率和准确率值，表明我们的方法从训练数据中过滤掉了大部分这意味着即使在训练数据中混合的噪声量是未知的（这在实际情况中是正常的），噪声可以用SelNLPL估计，这是一个巨大的优势，因为它可以用作训练数据质量的指标。图6比较了所提出的方法的总体过滤能力当CNN在过拟合到噪声数据之前用PL训练时，获得PL的曲线曲线表明，SelNLPL的每一步都有助于提高滤波性能，超过PL。总而言之，SelNLPL表现出从训练数据中过滤噪声数据的优异结果，如图6所示。另外，来自SelNLPL的估计噪声比几乎与实际噪声比匹配;因此可以用于指示实际噪声比不可用的实际情况中的训练数据质量。5. 实验在本节中，我们描述了为评估我们的方法而进行的实验。SelNLPL伪标记后的结果相比，其他现有的为了表明我们的方法适用于各种环境，我们遵循其他基线方法的每个不同实验设置，这些设置在CNN架构，数据集和训练数据中的噪声类型方面有所不同。（表3、4、5、6）5.1. 实验设置我们在四个不同基线的报告每个基线的实验结果，并且我们将我们的结果添加到这些结果表中的每一个中以用于比较（表3、4、5、6）。表2总结了每个基线的不同实验设置我们使用的数据集是 CIFAR10 ，CIFAR100 [16]，FashionMNIST [35]和MNIST [18]。我们应用了三种不同类型的噪声以下的基线方法。对称噪声对称噪声的基本思想是在类之间随机选择具有相等概率的标签。在该实验中，两个对称噪声被106C表3表4表5表6验证拆分CCXC噪声西姆公司非对称XCCCXCXCXXCC表2：用于表3、4、5、6的实验设置（数据集准备和噪声类型）。使用：symm-inc噪声和symm-exc噪声。Symm-inc噪声是通过从所有类别中随机选择标签（包括地面真实标签）来创建的，而symm-exc噪声将地面真实标签翻转为其他类别标签之一，从而排除地面真实标签。在表4中使用Symm-inc噪声，并且在表3、5、6中使用symm-exc噪声。如Patrini等人所述。[25]，这种噪声模仿了类似类别的真实错误的一些结构。对于CIFAR10，通过映射TRUCK→ AUTOMOBILE生成不对称（asymm）噪声鸟→飞机，鹿→马，猫→狗。对于FashionMNIST，靴子→运动鞋，运动鞋→凉鞋、套头衫→衬衫和外套被映射，以下 [39 ]第39段。对于MNIST，2- 7，3-8、7→ 1和5→ 6被映射，随后[25]。对于CIFAR 100，噪声将每个类翻转到下一个，循环-大部分都是在超类中，[25]。为了优化，我们使用了随机梯度下降（SGD），动量为0.9，权重衰减为10−4，批量大小为128。对于NL，SelNL和SelPL，他们每个人都训练了CNN 720个epoch。除了MNIST，所有数据集和CNN架构的学习率都是统一的真的。NL、SelNL和SelPL的学习率分别设置为0.02、0.02和0.1。对于伪标记，对于每个步骤（图5（b）、（c）），学习率被安排为从0.1开始，并在192，288个时期（总共480个时期）除以10。作为例外，当使用MNIST时，NL和SelNL的学习率被设置为0.1。5.2. 结果表3显示了来自Zhang等人的结果。[39]，补充了我们的结果。 FashionMNIST 使用 18 层 ResNet [8]，而CIFAR10和CIFAR100使用34层ResNet [8]我们的方法在几乎所有情况下都达到了最佳的整体准确性，无论CNN架构，数据集，噪声类型或噪声比如何。在某些情况下，我们的方法明显优于其他方法，最高可达5%。我们的方法只在symm-exc噪声为80%时收敛失败，这可以忽略不计，因为这样的场景是不现实的。应当指出，Zhanget al.[39]引用验证数据的准确性，Pre-ResNet [9]用于CIFAR 10。类似于表3中的那些，我们的方法优于Tanaka等人中报道的所有其他可比方法。[30]，无论噪声类型和比率如何。这一结果值得注意，因为Tanakaet al. [30]通过根据噪声类型和噪声比改变一些超参数进行了实验。在实际情况下，此设置不适用，因为噪声的类型或比率未知。我们的方法非常出色，因为超参数不会根据噪声类型和比率而变化。此外，为了对非对称噪声的情况进行公平比较，我们将用于非对称噪声的参数设置与用于 10%（Joint*）和30%（Joint**）对称-inc噪声的参数设置相匹配，因为非对称噪声情况的噪声数据量介于10%对称-inc和30%对称-inc之间。在这种情况下，[30]对非对称噪声的总体准确性发生了变化，使得我们的方法优于所有非对称噪声情况。表5和6分别取自[22]和[2]。虽然表5针对MNIST采用了LeNet5的结构，但表6针对MNIST使用了2层全连接网络，并且针对CIFAR10使用了14层ResNet。这两张表都显示，我们的方法超过了所有CNN架构、数据集、噪声类型和比率的大多数其他可比结果。在在某些情况下，我们的方法的性能超过其他方法的性能达4 ~ 5%，证明了我们的方法的优越性。我们的方法仅在表6中的60%非对称噪声下表现第二好，但我们认为这并不重要，因为这种情况是不现实的。6. 分析6.1. 推广到类数我们的方法NL是一种使用互补标签的间接学习方法。由于NL优化过程的性质，收敛量取决于数据集中的类数c;随着c的增加，CNN的训练变得更慢。因此，当用与用CIFAR10训练CNN时使用的相同数量的历元来训练CNN时，我们的方法未能收敛于CIFAR100为了克服和分析这种现象，我们观察了由NL（等式1）产生的梯度。2）的情况。在这里，我们考虑与干净的数据点相关联的梯度，以深入了解我们将NL方法扩展到许多类情况的方式让我们考虑一个带有干净标签的数据点，这意味着给定的y总是不真实的标签y。通过假设CNN处于其初始状态，等式中的以下概率值。2近似为在所有类中是均匀的（pi=l）。梯度近似为防止过拟合噪声数据，而我们的方法是有利的，因为它没有参考任何验证精度。CIFAR100的结果是通过扩展的我们的方法的版本，这是在6.1节中详细说明。如下所示：L（f，y）.pi≈1如果i=y=pc（三）表4取自Tanaka等人。[30 ]第30段。32层fi-y p≈ −1我如果i=yc（c−1）107c（c−1）数据集模型方法20Symm40 608010不对称20 3040CE93.2492.0990.2986.2094.0693.7292.7289.82MAE [3]80.3979.3082.4174.7374.0363.0358.1456.04[25]第二十五话93.6492.6991.1687.5994.3394.0393.9193.65FashionMNISTResNet18For wardT [25]93.2692.2490.5485.5794.0993.6693.5288.53Lq[39]93.3592.5891.3088.0193.5193.2492.2189.53截短Lq[39]93.2192.6091.5688.3393.5393.3692.7691.62我们94.8294.1692.78-95.1094.8894.6693.96CE86.9881.8874.1453.8290.6988.5986.1480.11MAE [3]83.7267.0064.2138.6382.6152.9350.3645.52[25]第二十五话88.6385.0779.1264.3091.3290.3589.2588.12CIFAR10ResNet34For wardT [25]87.9983.2574.9654.6490.5289.0986.7983.55Lq[39]89.8387.1382.5464.0790.9189.3385.4576.74截短Lq[39]89.7087.6282.7067.9290.4389.4587.1082.28我们94.2392.4388.32-94.5793.3591.8089.86CE58.7248.2037.4118.1066.5459.2051.4042.74MAE [3]15.809.037.743.7613.3811.508.918.20[25]第二十五话63.1654.6544.6224.8371.0571.0870.7670.82CIFAR100ResNet34For wardT [25]39.1931.0519.128.9945.9642.4638.1334.44Lq[39]66.8161.7753.1629.1668.3666.5961.4547.22截短Lq[39]67.6162.6454.0429.6068.8666.5961.8747.66我们71.5266.3956.51-70.3563.1254.8745.70表3：与Zhang等人报道的结果的比较[39]第三十九届数据集模型方法10Symm30 507010不对称20 3040CE87.072.255.336.689.885.481.075.7前进[25]----91.789.788.086.4CNN-CRF [31]----90.386.683.679.7CIFAR10Pre-ResNet32联系我们[30]92.991.589.886.093.292.892.491.7联合国 * [30]----93.0592.6091.5989.23联合国 **[30]----93.2693.0692.0490.65我们94.2593.4291.4586.1394.1293.4492.5690.99表4：与Tanaka等人报道的结果的比较 [30个]数据集模型方法20Symm4060CE88.0268.4645.51前进[25]96.4594.9082.88向后[25]90.1270.8952.83MNISTLeNet[26]第二十六话87.6969.4950.45[26]第二十六话88.5070.1946.04D2L [22]98.8498.4994.73我们99.3599.2798.91表5：与Ma等人报告的结果的比较”[22]《明史》卷1223在附录中给出。当量图3示出了当梯度发生以减少对应于给定的y的分数，也会出现梯度以增强对应于其它剩余类别的分数，包括真标签y。这意味着在用NL训练CNN之后，在y处接收到的梯度是1 .一、假设我们用10类数据集或100类数据集训练CNN。在y处接收的梯度为10类数据集为11对于100类数据集。表6：与Ding等人报道的结果的比较 [二]《中国日报》9∗10 99∗100比较这两种情况，100级的梯度数据集比10类数据集小110倍该分析意味着，对于NL收敛于CI-FAR 100，它需要比CIFAR 10更多的时期，大约高达110倍然而，由于它需要由于训练CNN需要大量的时间，我们将我们的方法扩展为为每个图像提供多个随机互补标签。我们在一个数据上计算子110个损失，其中有110个随机y（允许重复），数据集模型方法Symm20不对称20 60CE83.785.0 57.6美国（公告牌单曲）[32]84.183.8 52.1Sigmoid（BN）[4]66.671.8 57.0野蛮人[23]77.476.0 50.5CIFAR10 ResNet14Bootstrap soft [26][26]第二十六话84.383.684.6 57.884.7 58.3向后[25]80.483.8 66.7前进[25]83.487.0 74.8半自动[2]84.585.675.8我们89.8574.44CE96.997.5 53.0美国（公告牌单曲）[32]96.997.0 71.2Sigmoid（BN）[4]93.196.7 71.4野蛮人[23]96.997.0 51.3MNISTFC2Bootstrap soft [26][26]第二十六话96.996.897.5 53.097.4 55.0向后[25]96.996.7 67.4前进[25]96.997.7 64.9半自动[2]97.797.883.4108(a)（b）（c）（d）图7：根据概率（置信度）示出具有50%对称性噪声的CIFAR10训练数据的分布的直方图。(a)：NL。(b)：NL→SelNL。(c)：NL-SelPL。(d)：NL-SelNL-SelPL（SelNLPL）。30%symm-inc噪声50%symm-inc噪声精度估计噪声（%）召回精度精度估计噪声（%）召回精度#1NL-SelNL-SelPL93.8227.6096.2894.0191.1745.1595.8095.38#2NL-SelNL92.44（-1.38）33.7698.4778.6289.36（-1.81）52.7598.5683.99#3NL-SelPL93.41（-0.41）28.1797.0492.8472.91（-18.26）54.3592.1276.19#4NL87.32（-6.5）52.2499.8051.4972.53（-18.64）89.2199.9950.38表7：SelNLPL的每个步骤的测量显著性的分析。#1：SelNLPL。#2：从#1中删除SelPL。#3：从#1中删除SelNL。#4：从#1中删除SelNL和SelPL。因为110个损耗共享为一个图像计算的特征，所以反向传播的时间仅略微增加通过这种简单的扩展方法，我们观察到当用与CIFAR10相同数量的历元训练时，CNN可以收敛于CIFAR100，并且在噪声数据分类方面表现出普遍的改进（表3）。对于symm-exc噪声，我们获得了最先进的结果。对于非对称噪声，Forward T[25]显示出最佳性能。然而，这不是一个公平的比较，因为它依赖于混淆矩阵的先验知识，混淆矩阵总结了一个类在噪声下翻转到另一个类的概率因此，可以得出结论，我们的方法获得了类似的结果，不包括Forward T。在本节中，我们证明了我们的方法可以通过为每个图像提供多个互补标签来推广到具有许多类号的数据集6.2. 消融研究我们的论文提出了一种新的噪声数据分类方法，由多个步骤组成：SelNLPL（NL→SelNL→SelPL），然后是用于半监督学习的伪标记。为了调查SelNLPL中每个步骤的强度，我们进行了一项分析，揭示了当从整个训练过程中省略SelNLPL的每个步骤时的性能差异。从SelNLPL中删除一个或多个步骤，然后将其应用于伪标记。表7示出了在表4的实验设置之后进行的用于分析的所有实验，其中具有30%和50%的对称噪声。它包括 SelNLPL（ #1 ）和从 #1 删除SelPL（#2）、SelNL（#3）或SelNL和SelPL两者（#4）。在表7中，与#1相比，#2和#3都显示出劣化的性能，而#4下降（图7）。虽然在symm-inc30%噪声情况下准确度下降相当小，但在symm-inc50%噪声情况下显示出性能的显著下降，尤其是对于#3和#4，其中SelNL从训练过程中删除。当使用NL训练时，CNN的收敛性在很大程度上取决于训练数据中的噪声量，随着噪声比的增加，收敛性降低（图3（b），图7（a））。因此，随着噪声比的增加，SelNL变得至关重要，因为它负责忽略具有低置信度值的噪声数据。SelNL增强了训练中涉及的整体干净数据比率，从而产生更好的收敛性（图3（c），图7（b））。7. 结论我们提出了用噪声数据进行训练的NL，这是一种训练CNN的学习方法，这降低了用错误信息训练CNN的风险，因为随机选择不是地面真实标签的互补标签此外，由于PL是更快，更准确的学习与干净的数据相比，NL，我们开发了一种新的方法，SelNLPL，通过结合PL和NL，获得优异的性能，从训练数据中过滤噪声数据。我们的研究通过使用基于SelNLPL的过滤结果的半监督学习（伪标记）来进行成功的噪声数据分类，在不基于任何先验知识调整我们的方法的情况下实现了最先进的结果。引用[1] 保罗·布鲁克斯。具有斜坡损失和硬边缘损失的支持向量机。运筹学，59（2）：467- 479，2011。2109[2] 丁一凡，王立强，范德良，龚伯庆。从噪声标签中学习的半监督两阶段方法。 arXiv 预印本 arXiv ：1802.02679，2018。一、二、六、七[3] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒在AAAI，第1919-1925页，2017年。一、二、七[4] Aritra Ghosh，Naresh Manwani，and PS Sastry.使风险最小化容忍标签噪音。神经计算，160：93-107，2015。二、七[5] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。2016. 2[6] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：强大的训练深度神经网络，带有非常嘈杂的标签。arXiv预印本arXiv：1804.06872，2018. 一、二[7] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 Computer Vision and Pattern Recognition（CVPR），2017 IEEE Conference on，第6307-6315页中。IEEE，2017年。1[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1、6[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。6[10] Dan Hendrycks ， Mantas Mazeika ， Duncan Wilson 和Kevin Gimpel。使用可信数据在被严重噪声破坏的标签上训练深度网络。arXiv预印本arXiv：1802.05300，2018。2[11] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。CVPR，第1卷，第3页，2017。1[12] Takashi Ishida ， Gang Niu ， Weihua Hu ， and MasashiSugiyama.从互补标签中学习。在神经信息处理系统的进展中，第5639-5649页，2017年。2[13] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei.Mentornet：在损坏的标签上正则化非常深的神经网络arXiv预印本arXiv：1712.05055，2017。2[14] Ishan Jindal，Matthew Nokleby，和Xuewen Chen.使用dropout正则化从噪声标签中学习深度网络在数据挖掘（ICDM）中，2016年IEEE第16届国际会议，第967-972页IEEE，2016. 2[15] Ashish Khetan、Zachary C Lipton和Anima Anandku- mar.从噪声单标记数据中学习 arXiv 预印本 arXiv ：1712.04577，2017。2[16] 亚历克斯·克里热夫斯基从微小图像中学习多层特征，2009年。5[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。1[18] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010. 5[19] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。在表征学习的挑战研讨会上，ICML，第3卷，第2页，2013年。4[20] 李光辉，何晓东，张磊，杨林军。 Cleannet：迁移学习用于带有标签噪声的可扩展图像分类器训练。arXiv预印本arXiv：1711.07131，2017。一、二[21] Yuncheng Li ，Jianchao Yang ，Yale Song， LiangliangCao，Jiebo Luo，and Li-Jia Li.用蒸馏从噪声标签中学习。在ICCV，第1928-1936页，2017年。一、二[22] Xingjun Ma ， Yisen Wang ， Michael E Houle ， ShuoZhou ， Sarah M Erfani ， Shu-Tao Xia ， SudanthiWijewickrema，and James Baile

下载后可阅读完整内容，剩余1页未读，立即下载