PNP：概率噪声预测用于稳健学习

180 浏览量更新于2023-10-25 收藏 14.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ID noisy sampleOODsample53110PNP：通过概率噪声预测从嘈杂标签中进行稳健学习0Zeren Sun 1，Fumin Shen 2，Dan Huang 3，Qiong Wang 1，Xiangbo Shu 1，Yazhou Yao 1*，Jinhui Tang 101南京理工大学，中国南京02中国电子科技大学，中国成都03中国机械设备研究开发院，中国北京0摘要0标签噪声一直是深度学习中的一个实际挑战0由于深度神经网络在拟合所有训练数据方面具有强大的能力，因此噪声标签一直是一个困扰的问题。先前的文献主要采用样本选择方法来对抗噪声标签。然而，这些方法侧重于通过排序或阈值选择来划分样本，不可避免地引入了难以调整和依赖于数据集的超参数（例如选择比例/阈值）。为此，我们提出了一种名为PNP的方法。0一种名为PNP（概率噪声预测）的简单而有效的方法，用于明确地建模标签噪声。具体而言，我们同时训练两个网络，其中一个网络预测类别标签，另一个网络预测噪声类型。通过概率地预测标签噪声，我们识别出嘈杂的样本，并相应地采用专门的优化目标。最后，我们通过统一分类损失、辅助约束损失和内分布一致性损失，建立了一个联合损失来更新网络。对合成和真实世界数据集的全面实验结果表明了我们提出的方法的优越性。源代码和模型已经在https://github.com/NUST-Machine-Intelligence-Laboratory/PNP上提供。01. 引言0尽管深度神经网络（DNNs）已经取得了令人印象深刻的成就0令人印象深刻的成就，超越了各种视觉任务中的传统方法[3,15, 28, 31, 38,46]，但是它们对大规模高质量的人工标记训练样本（例如ImageNet [4]和COCO[21]）的需求在应用于现实场景时往往会成为瓶颈。精确的注释总是费时费力的，特别是当需要领域特定的专家知识时（例如细粒度视觉分类[13, 24,41]）。为了缓解这个问题，一个有前途的替代方案是利用网络图像来训练深度网络[19, 22, 34, 35, 39, 43,0*通讯作者。0干净：50%0ID：30%0OOD：20%0（a）（b）（c）0干净样本ID嘈杂样本0OOD嘈杂样本嘈杂样本0干净样本嘈杂0图1.早期的样本选择方法（a）倾向于将样本分为两个子集（即干净和嘈杂），忽略了ID和OOD嘈杂样本之间的差异。一些最近的方法（b）努力识别干净的、ID嘈杂的和OOD嘈杂的样本。然而，这些方法通常受到调整依赖于数据集的阈值超参数的困扰（在（a）和（b）中表示为决策边界）。相比之下，我们提出的方法（c）试图以概率的方式建模噪声标签。PNP采用专用的预测器来估计噪声类型的概率分布。045, 47-49, 53,54]。然而，在网络图像中不可避免地存在噪声标签[34]。已经证明，噪声标签会损害深度网络的性能，因为过度参数化不仅赋予DNNs大的学习能力，还赋予了强大的记忆能力[16,52]。因此，开发从噪声标签中学习的稳健模型具有重要意义。0真实世界数据集中的噪声标签可以被分类为0将噪声问题分为两种类型：开放式和封闭式[48]。在封闭式场景中，有噪声样本的真实标签来自训练数据中存在的已知标签空间Yknown。相反，在开放式场景中，样本的真实标签在Yknown之外。换句话说，封闭式有噪声样本是分布内（ID）样本，而开放式有噪声样本是分布外（OOD）样本。大量的先前文献主要关注封闭式场景。53120假设只存在分布内噪声。然而，在现实世界的应用中，分布内噪声的假设可能不成立。最近，越来越多的研究人员开始关注开放式噪声问题，这也是本文的主要关注点。0解决噪声问题的主要策略主要有两种常见的方法：0标签噪声问题的解决方法主要分为两类：损失修正[5, 9, 26,29, 33, 39, 50, 56]和样本选择[1, 6, 11, 25, 42,51]。经典的损失修正方法要么试图估计噪声转移矩阵[2, 5,9, 26, 33]，要么基于网络预测来规范化损失[29,56]。不幸的是，噪声转移矩阵很难估计，而基于预测的损失修正则会导致误差累积。0样本选择方法本质上遵循一种直观的策略。0但是直观而简单的想法是：消除噪声数据并使用更干净的子集进行训练。研究人员最近观察到深度网络在记忆噪声标签之前往往会适应干净和简单的模式。因此，许多方法已经提出利用这一观察结果，并将低损失样本视为干净样本。例如，Co-teaching[6]同时维护两个网络，并使它们选择低损失样本用于其对等网络。早期的样本选择方法通常将样本分为两个子集：干净和有噪声的，忽略了分布内有噪声和分布外有噪声标签之间的差异。最近，CRSSC [34]和Jo-SRC[48]被提出将样本分为三组：干净样本、分布内有噪声样本和分布外有噪声样本，并对它们进行不同的处理。前者采用两步样本选择过程将样本分类为三组，而后者提出全局样本选择准则来区分不同类型的噪声。尽管已经观察到了有希望的结果，但现有方法不可避免地涉及难以调整和依赖数据集的阈值超参数来选择样本，从而限制了这些方法在各种更大的现实场景中的可靠性和可扩展性。0为了解决上述问题，我们提出了一种简单的方法。0PNP（概率噪声预测），以端到端的方式概率建模标签噪声。具体而言，我们同时训练两个网络，其中一个（即标签预测网络）预测输入数据的类别，而另一个（即噪声预测网络）预测噪声类型（即干净/ ID噪声/OOD噪声）。根据噪声预测网络的预测结果，可以自然地识别出干净的、ID噪声的和OOD噪声的样本。为了有效学习噪声预测网络，我们提出以回归方式优化它，使用预测-标签对和预测-预测对之间的JS散度。最后，我们对分布数据施加一致性正则化，进一步推进我们的标签预测网络和噪声预测网络的学习。0我们的PNP与现有的样本选择方法之间的比较如图1所示。我们的主要贡献是：0(1) 我们提出了一种简单而有效的方法，名为0PNP，以应对嘈杂的标签。PNP同时预测所有训练样本的类别标签和噪声类型。通过为不同样本采用不同的损失函数，PNP可以从嘈杂的训练数据中稳健地学习。0（2）PNP在辅助回归损失中采用了样本选择0powering the model to learn to predict the noise typeof each sample.采用预测-标签对和预测-预测对之间的JS散度来近似地估计地面真实的噪声类型。此外，鼓励在内部分布数据的不同视图之间的一致性，以增强识别能力。0（3）我们在我们的方法中评估了两种样本选择范式0方法：PNP-hard（硬选择）和PNP-soft（软选择）。我们通过在合成和真实世界的嘈杂数据集上提供广泛的实验结果来验证我们方法的有效性和优越性。此外，我们还进行了全面的消融研究，以验证我们方法的每个组成部分。02. 相关工作0关于从嘈杂标签中学习的先前工作可以简要地0分为三个类别：0标签。早期的方法主要集中在纠正0rupted labels. 例如，F-correction[26]提出了采用两步方法估计噪声转移矩阵。S-model[5]提出了采用额外的softmax层来建模噪声转移矩阵。对于这些方法，一个良好估计的噪声转移矩阵对于实现优越和稳健的性能至关重要。然而，噪声转移矩阵很难估计，特别是在复杂的场景（例如真实世界的嘈杂数据集）。0样本。从样本的角度来看，核心思想是0以执行样本重新加权或样本选择。样本重新加权方法主要旨在为训练样本分配不同的权重。例如，Ren等人[30]提出了一种元学习算法，以不同的权重对训练数据进行加权。然而，这一系列工作往往涉及复杂的优化过程，并需要一小组干净的验证数据。与样本重新加权不同，样本选择方法旨在选择正确标记的样本进行训练。研究人员已经证明，低损失样本更有可能具有正确的标签。例如，Co-teaching[6]训练两个网络，并让它们为彼此选择低损失样本。JoCoR[42]采用联合损失来选择低损失数据，鼓励网络之间的一致性。CRSSC[34]采用基于损失和基于置信度的选择来识别干净、ID嘈杂和OOD嘈杂的样本。Jo-SRC[48]利用Jensen-Shannon（JS）散度和预测不一致性来全局选择不同类型的嘈杂数据。53130共享权重0标签预测网络0噪声预测网络0辅助模块0一致性0模块0分类0模块0加权0总和0主干头部0头部0主干0图2. PNP的整体框架。每个输入图像 x i 被同时输入两个网络。噪声预测网络相应地预测 x i 是干净的概率（ P clean ）/ ID（ P id ）/ OOD（ P ood ）。同时， x i在输入标签预测网络之前被增强为两个弱增强和一个强增强的视图，从而导致三个标签预测 p ( v w0i ) ，和 p ( v s0i ) . 之后，0分类损失 L cls 是基于估计的噪声类型和分类模块中的选择范式（硬/软）计算的。约束损失 L aux是通过辅助模块中的近似地面真实噪声类型获得的。一致性损失 L cons是通过鼓励内部分布样本的不同视图之间的（标签）预测一致性获得的。最后，我们的模型通过反向传播一个联合损失进行更新，该损失本质上是上述三个损失的加权和。0准备工作。给定一个N个样本C类的数据集D =03. 提出的方法0i。通常，我们隐式地0{ ( x i , y i ) | 1 ≤ i ≤ N }，其中x i 表示第i个训练样本，y i ∈ { 0 , 1 }^C是其标注标签。我们将x i 的真实标签表示为y �0i )和0假设所有标注标签都是准确的（即y i = y �）0因此，通过最小化经验损失来优化模型0N X0N0l ce (x i , yi)0i = 10l ce ( x i , y i ) = -0其中0c = 10C X0y 0i0�表示模型参数。p c ( x i , �)表示第i个训练样本x i属于第c类的预测softmax概率。（为简单起见，我们使用符号p c0然而，干净标签的假设可能对于现实世界的场景过于严格，在许多真实世界的数据集中，噪声标签是不可避免的。在本文中，我们关注的是标注标签不保证正确的情况。由于记忆效应的影响，0解决标签噪声的最常见策略之一是使用鲁棒的损失函数[23, 29, 40,56]。例如，bootstrapping损失[29]将感知损失项添加到传统的分类损失中。GCE[56]集成了平均绝对损失和交叉熵损失。然而，这些方法在实际情况下往往会产生不令人满意的性能。03.1. 概率噪声建模0为了找到干净的样本，我们需要根据预先设计的选择过程来选择干净的样本。由于DNN在学习简单模式之前适应噪声标签的行为，先前的研究通过选择低损失样本作为干净样本取得了有希望的结果。然而，这些方法往往涉及复杂的超参数调整。例如，Co-0然而，这些超参数（例如噪声比例和选择阈值）通常很难调整，并且依赖于数据集。0为了缓解上述问题，我们提出了一种方法来解决标签噪声问题。0为了直接建模标签噪声，我们提出了一种端到端的概率建模方法。具体而言，我们提出了训练两个并行网络的方法。第一个网络称为标签预测网络（LPN），用于预测类别标签：0p ( x i ) = σ ( h ( f ( x i , Φ L )) )^2 R^C, (3)0其中ΦL表示LPN的预测头的参数。表示骨干网络的参数。f(∙,)和h(∙, ΦL)是骨干和预测头的映射函数。σ(∙)是softmax函数。相反，第二个网络称为噪声预测网络（NPN），用于预测噪声类型：0t ( x i ) = σ ( g ( f ( x i , Φ N )) )^2 R^3, (4)lclean(xi, yi) = �CXc=1yci log(pci) �CXc=1pcilog(plid(xi) = lce(p(vlood(xi) = lce(p(v)kp(vin which v53140其中Φ N表示NPN的预测头的参数。g(∙, ΦN)是该预测头的映射函数。在我们的实现中，NPN的预测头是一个具有一个隐藏层的多层感知机（MLP）网络。在这里，我们将t(0)(x i)、t(1)(x i)和t(2)(x i)定义为x i属于干净集、ID集和OOD集的概率，为简单起见，我们将P clean0i = t (0) ( x i )， P id0i = t (1) ( x i )，和 P ood0i = t (2) ( x i )。它0值得注意的是，在我们的实现中，为了减少资源消耗并实现端到端的联合优化，LPN和NPN共享相同的骨干特征提取器，但在它们的预测头部上有所不同。通过概率建模标签噪声，我们可以方便地识别和处理不同类型的噪声样本。03.2. 不同噪声的分类损失0NPN通过估计每个样本的噪声类型来预测。0通过对其“干净/ID/OOD”的“可能性”进行建模。我们针对不同类型的噪声样本采用不同的损失函数。对于干净样本，我们采用交叉熵损失和熵正则化项：0i )，(5)0对于内分布/外分布噪声样本，0受无监督一致性训练[44]的启发，我们提出将强增强和弱增强的输入的输出分别视为预测和目标。具体而言，对于一个ID噪声样本xi，我们提供其两个增强视图（即强增强视图vs0i和一个弱增强的0增强视图vw0i ) 输入到我们的网络中。相应地，LPN0产生预测p ( v s0i ) 和 p ( v w0i )，然后进行利用0计算交叉熵损失的方法：0i)，"( p ( v w0i )，�))，(6)0其中0"( z, T ) = ex0z � exp ( z � /T )。(7)0同样，对于一个OOD噪声样本xi，我们也使用其两个增强视图来计算分类损失：0i )，"( p ( v 0i)，1/�))。(8)0在这里，受Jo-SRC[48]的启发，我们经验性地设置�=0.1，使"(∙, ∙)成为Eq. (6)中的锐化操作，但成为Eq.(8)中的平坦化操作。0讨论。采用Eqs. (6)的动机0和(8)对于噪声样本的作用是三重的。首先，通过优化从Eqs.(6)和(8)计算得到的损失，我们隐式增强了每个噪声样本的强增强和弱增强视图之间的一致性，从而使模型更加平滑，样本效率更高。其次，强0数据增强倾向于提供更多样化和自然的视角，有利于泛化性能。最后，尽管Eqs.(6)和(8)中的第一个项（即预测）是相同的，但第二个项（即目标）是根据ID和OOD噪声样本的性质构建的。对于ID噪声样本，预测0来自经过良好训练的模型的预测往往比给定的注释更可靠。因此，我们采用锐化操作来通过强制更自信的预测来推进训练。相反，OOD噪声样本通常由于其超出任务的真实类别而使模型混淆。通过施加平坦化操作，它们的预测将适应近似均匀分布，从而提高鲁棒性和泛化性能。03.3. 概率噪声建模的约束0我们提出训练一个额外的预测器（即NPN）0用于估计每个样本的噪声类型。然而，由于缺乏地面真实监督，NPN很难优化。在这项工作中，我们提出近似每个样本的地面真实噪声类型，并相应地训练NPN。具体而言，我们遵循Jo-SRC[48]，采用Jensen-Shannon（JS）散度[20]来近似样本xi的概率Q clean 是干净的：0Q 0i = Q clean (x i) = 1 - D JS (p(vw0i) ky i), (9)0其中DJS（∙k∙）是JS散度函数。此外，受[48]的启发，我们使用预测分歧来估计样本成为OOD的“可能性”Qood。与[48]不同的是，为了实现更平滑的优化，我们设计了0Q 0i = Q ood (x i) = D JS (p(vw0i))), (10)0i表示x i的另一个弱增强视图。0一旦近似得到地面真实噪声类型0为了优化NPN，采用以下辅助约束损失：0l aux (x i) = |P clean0i - Q clean0i| + |P ood0i - Q ood0i|. (11)0讨论。（1）尽管方程（11）只提供了一个弱约束0由于地面真实近似的约束，该辅助损失的优化驱使噪声类型的估计朝着正确的方向进行。（2）方程（11）的优化实际上是一个回归任务。因此，损失函数可以是任何适用的回归损失（例如，平均绝对误差，均方误差等）。为了简单起见，我们在实现中经验性地采用了平均绝对误差（MAE）损失。（3）Jo-SRC[48]使用预测不一致性来衡量预测分歧，产生一个0/1的“可能性”。相反，我们使用JS散度来估计预测不一致性，以使我们的NPN能够以更平滑的方式进行优化。)kp(vw0i )) + D(p(v8>>>>><>>>>Pcleani�max(Pidi ,P+Pidi >max(Pcleani,P+Poodi>max(Pidi ,PPoodi><>(15)531503.4. ID数据的一致性0直观上，一个训练良好的模型应该能够预测一致性0在不同的ID样本变体上一致，但在OOD数据上矛盾。由于在检测OOD样本时使用了预测分歧，我们提出在ID数据上施加一致性正则化损失（即方程（12））。0l cons (x i) = D(p(vw0i) kp(vw0i)). (12)0D(∙k∙)表示Kullback-Leibler（KL）散度。一致性正则化不仅隐式增强了表示学习，还明确地使我们的模型能够更好地区分ID噪声和OOD噪声。03.5. PNP-hard和PNP-soft0我们PNP方法的整体工作流程如图所示0图2.我们的算法以两步方式进行训练。在热身期开始时，我们的网络通过优化方程（1）来训练原始噪声标签，持续几个时期。这一步骤为我们提供了一个合理的模型，用于后续的鲁棒学习。热身步骤之后，我们开始PNP训练，通过优化以下端到端的目标损失函数：0L = L cls + γ L aux + ! L cons, (13)0其中γ和!被设计用于平衡不同的损失项。0在这项工作中，我们评估了两种样本选择的范例0tion: hard selection and soft selection. Following the ideaof hard sample selection [34, 48], PNP-hard employsdifferent loss functions on different types of samples:0L cls = E D [0i) l clean (x i, y i)0i ) l id ( x i )0i ) l ood ( x i )]0L cons = E D [0i ) l cons ( x i )].0A是一个指示函数，如果A为真，则等于1，否则为0。0否则为0。相反，PNP-soft采用软样本选择，根据噪声类型的预测对损失进行重新加权：0L cls = E D [ P clea0i l clean ( x i , y i )0+ P i0i l id ( x i ) + P ood0i l ood ( x i )]0L cons = E D [( P clean0i + P id0i ) l cons ( x i )].0PNP-hard和PNP-soft之间的比较。0PNP-hard是直观和简单的，为每个样本分配一个离散的标签，揭示其噪声类型。根据估计的噪声类型，相应地采用不同的损失函数。0PNP-hard和PNP-soft之间的比较。PNP-hard采用硬选择的方式计算损失。虽然硬选择可以明确地识别噪声类型，但可能会增加错误预测的风险，导致潜在的过拟合问题。相反，PNP-soft在计算损失时采用重新加权的方式。虽然硬选择可以明确地识别噪声类型，但可能会增加错误预测的风险，导致潜在的过拟合问题。相反，PNP-soft在计算损失时采用重新加权的方式。即使噪声类型被错误预测，PNP-soft也能保证至少部分损失被正确优化。然而，PNP-soft可能会遇到欠拟合问题。经验上，如果噪声情况不显著且可信的NPN可以获得，PNP-hard可以获得更好的性能。当训练数据严重受损时，PNP-soft会更优越，因为它对来自NPN的错误具有鲁棒性。04. 实验04.1. 实验设置0数据集。我们在两个合成数据集（即CIFAR100N和CIFAR80N）上评估我们的PNP方法。0合成数据集（即CIFAR100N和CIFAR80N）和四个真实世界数据集（即Web-Aircraft、Web-Bird、Web-Car和Food101N）。CIFAR100N和CIFAR80N源自CIFAR100[14]。具体而言，我们按照Jo-SRC[48]的方法创建了闭集噪声数据集CIFAR100N和开集噪声数据集CIFAR80N。我们采用了两种经典的噪声结构：对称和非对称。Web-Aircraft、Web-Bird和Web-Car是WebFG-496[36]的子数据集，这是一个网络监督的细粒度数据集。Food101N[17]是一个大规模的真实世界噪声数据集。0评估指标。为了评估PNP方法的性能，我们采用测试准确率作为评估指标。0我们采用测试准确率作为评估指标来评估我们提出的PNP方法。报告的结果是在相同设置下进行的五次重复实验的平均性能。0实现细节。我们采用一个七层的DNN模型。0对于CIFAR100N和CIFAR80N，我们使用Adam优化器进行训练。我们将初始学习率设置为0.001，批量大小设置为128。我们在训练的前10个epoch进行网络预热。学习率在训练的80个epoch后开始线性衰减。整个训练过程持续200个epoch。为了获得更好的性能提升，我们采用标签平滑正则化（LSR）[38]技术来计算干净样本的分类损失（即方程（5））。LSR参数�经验性地设置为0.6。γ和!默认设置为1.0。对于Web-Aircraft、Web-Bird和Web-Car，我们使用在ImageNet上预训练的ResNet-50[8]作为我们的骨干网络，与其他最先进的方法进行比较。我们使用带有0.9动量的SGD优化器[37]来更新网络参数。初始学习率和批量大小分别为0.0005和16。预热阶段持续10个epoch，我们训练网络120个epoch。我们在10个epoch后以余弦退火的方式开始衰减学习率。γ和!也默认设置为1.0。对于Food101N，我们遵循Jo-SRC[48]的设置，并采用预训练的ResNet-50进行比较。γ和!的默认值分别为1.0和0.2。ated to simulate the real-world (open-set) noisy scenario.The comparison between our method with state-of-the-artapproaches is also provided in Tab. 1.Results of exist-ing methods are directly from Jo-SRC [48], and perfor-mances of our method are obtained under the same exper-imental settings. From Tab. 1, we can have the followingobservations: (1) Our PNP-hard / PNP-soft method consis-tently outperforms state-of-the-art approaches across differ-ent noise scenarios. Our model can achieve the best per-formance even when facing severe label noise (i.e., Sym-80%). (2) PNP-soft exhibits better performance than PNP-hard in all noisy cases. We believe this results from the com-plicated noisy labels existed in the open-set noisy datasetCIFAR80N. (3) PNP-hard and PNP-soft obtain impressiveperformance boost in the case of Asym-40%, validatingour design for open-set real-world (asymmetric) problems.These observations ﬁrmly validate the effectiveness and su-periority of our proposed method in open-set noisy cases.4.3. Evaluation on Real-world Noisy DatasetsBeyond the above evaluations, we conduct experimentson real-world noisy datasets, including three medium-scaleweb-image-based ﬁne-grained datasets and one large-scalefood dataset, to verify the effectiveness of PNP.Results on Web-Aircraft / Bird / Car. Web-Aircraft,Web-Bird, and Web-Car are three real-world web imagedatasets for ﬁne-grained vision categorization. Within eachdataset, more than 25% of training samples are associ-ated with unknown (asymmetric) noisy labels. Even worse,these datasets do not provide any label veriﬁcation infor-mation, making it a practical and challenging label noiseproblem.Tab. 2 illustrates a comparison between ourmethod with state-of-the-art methods. From this table, theleading performance obtained by our method can be wit-nessed. PNP-hard and PNP-soft both outperform state-of-53160方法出版物CIFAR100N CIFAR80N0Sym-20% Sym-80% Asym-40% Sym-20% Sym-80% Asym-40%0标准-35.14 ± 0.44 4.41 ± 0.14 27.29 ± 0.25 29.37 ± 0.09 4.20 ± 0.07 22.25 ± 0.080Decoupling [25] NeurIPS 2017 33.10 ± 0.12 3.89 ± 0.16 26.11 ± 0.39 43.49 ± 0.39 10.01 ± 0.29 33.74 ± 0.260Co-teaching [6] NeurIPS 2018 43.73 ± 0.16 15.15 ± 0.46 28.35 ± 0.25 60.38 ± 0.22 16.59 ± 0.27 42.42 ± 0.300Co-teaching+ [51] ICML 2019 49.27 ± 0.03 13.44 ± 0.37 33.62 ± 0.39 53.97 ± 0.26 12.29 ± 0.09 43.01 ± 0.590JoCoR [42] CVPR 2020 53.01 ± 0.04 15.49 ± 0.98 32.70 ± 0.35 59.99 ± 0.13 12.85 ± 0.05 39.37 ± 0.160Jo-SRC [48] CVPR 2021 58.15 ± 0.14 23.80 ± 0.05 38.52 ± 0.20 65.83 ± 0.13 29.76 ± 0.09 53.03 ± 0.250PNP-hard-64.25 ± 0.12 30.26 ± 0.15 56.01 ± 0.31 65.87 ± 0.23 30.79 ± 0.16 56.17 ± 0.420PNP-soft-63.27 ± 0.14 31.32 ± 0.19 60.25 ± 0.21 67.00 ± 0.18 34.36 ± 0.18 61.23 ± 0.170表1. CIFAR100N和CIFAR80N上最后10个时期的平均测试准确率（％）（“Sym”和“Asym”分别表示对称和非对称标签噪声）。0基线。为了评估我们在合成数据集上的PNP方法0数据集，我们遵循Jo-SRC [48]的方法，将PNP-hard /PNP-soft与最先进的样本选择方法进行比较：Decoupling[25]，Co-teaching [6]，Co-teaching+ [51]，Jo-CoR[42]和Jo-SRC [48]。在Web-上进行评估0此外，我们还将PNP与其他最先进的方法（例如SELFIE[32]，PENCIL [50]，AFM [27]，CRSSC[34]，Self-adaptive [10]，DivideMix [18]，PLC[55]和Peer-learning[36]）进行比较。在评估我们在Food101N上的方法时，我们遵循Jo-SRC [48]的方法。我们将我们的方法与CleanNet[17]，DeepSelf [7]和Jo-SRC[48]进行比较。最后，我们将“标准”表示为直接使用噪声数据集训练深度网络的基线情况。我们使用PyTorch实现了上述所有方法，以进行公平比较。04.2.在合成噪声数据集上的评估0我们首先在合成数据集上评估PNP。通过改变0通过了解标签噪声的结构和比例，我们可以更好地理解PNP在不同噪声情况下的有效性。0在CIFAR100N上的结果。从评估我们的开始0在封闭集场景中的方法，我们在CI-FAR100N上与最先进的方法进行了测试准确率的比较。现有方法的结果来自Jo-SRC[48]，我们的方法的结果是在相同的实验设置下获得的。从表1中，我们可以观察到PNP-hard和PNP-soft都能够始终取得领先的性能。而现有的最先进方法在最差的情况下（即Sym-80%）几乎失败，我们的PNP-hard和PNP-soft仍然取得了最佳的性能。我们可以观察到只有在噪声结构和比例为Sym-20%时，PNP-hard优于PNP-soft。这验证了我们的论点，即在噪声情况不明显时，硬选择（PNP-hard）将取得更好的结果。在其他情况下，PNP-soft始终优于PNP-hard。值得注意的是，现实世界的噪声标签大多是非对称的。表1显示，我们的PNP-hard /PNP-soft在Asym-40%的情况下表现明显优于最先进的方法。0我们方法在非对称噪声方面的显著优势表明PNP在真实世界的噪声数据集中将取得令人满意的结果。0CIFAR80N的结果。CIFAR80N是专门创建的MethodsPublicationsBackbonePerformances (%)Web-AircraftWeb-BirdWeb-CarStandard-ResNet5060.8064.4060.60Decoupling [25]NeurIPS 2017ResNet5075.9171.6179.41Co-teaching [6]NeurIPS 2018ResNet5079.5476.6884.95Co-teaching+ [51]ICML 2019ResNet5074.8070.1276.77SELFIE [32]ICML 2019ResNet5079.2777.2082.90PENCIL [50]CVPR 2019ResNet5078.8275.0981.68JoCoR [42]CVPR 2020ResNet5080.1179.1985.10AFM [27]ECCV 2020ResNet5081.0476.3583.48CRSSC [34]ACM MM 2020ResNet5082.5181.3187.68Self-adaptive [10]NeurIPS 2020ResNet5077.9278.4978.19DivideMix [18]ICLR 2020ResNet5082.4874.4084.27Jo-SRC [48]CVPR 2021ResNet5082.7381.2288.13PLC [55]ICLR 2021ResNet5079.2476.2281.87Peer-learning [36]ICCV 2021ResNet5078.6475.3782.48PNP-hard-ResNet5085.0381.2089.93PNP-soft-ResNet5085.5481.9390.11Table 2. Comparison with state-of-the-art approaches in test accuracy (%) on Web-Aircraft, Web-Bird, and Web-Car.MethodBackboneTest accuracyStardardResNet-5084.51CleanNet !hard [17]ResNet-5083.47CleanNet !soft [17]ResNet-5083.95DeepSelf [7]ResNet-5085.11Jo-SRC [48]ResNet-5086.66PNP-hardResNet-5087.31PNP-softResNet-5087.50Table 3. Comparison with state-of-the-art approaches in test accu-racy (%) on Food101N.53170在Web-Aircraft和Web-Car上，我们的方法与最先进方法相比，有着相当大的优势（在Web-Aircraft上为2.30％/2.81％，在Web-Car上为1.80％/1.98％）。尽管PNP-hard在Web-Bird数据集上的结果略低于CRSSC [34]和Jo-SRC[48]，但PNP-soft仍然表现出最佳性能。除了卓越的性能外，PNP-soft在所有三个数据集上始终优于PNP-hard。这一行为再次证实了我们的观点，即PNP-soft对于复杂的噪声标签比PNP-hard更具鲁棒性。0Food101N上的结果。Food101N是另一个实际应用中的数据集。0嘈杂的数据集，包含101个不同的食品类别和超过310k个训练样本。该数据集还包含大量的噪声标签。表3展示了我们的方法与最先进方法的实验结果进行比较。如表3所示，PNP-hard和PNP-soft的测试准确率均优于现有方法，支持我们的观点，即PNP在大规模实际应用中减轻噪声标签方面是有效的。0Clean ID OOD AUX CONS PNP0hard soft0X 42.10 47.130X X 49.34 52.110X X X 50.69 54.090X X X X 52.90 57.350X X X X 51.30 60.200X X X X X 58.54 62.180表4.CIFAR80N（Asym-40%）中不同成分对测试准确率（％）的影响。呈现最佳时期的结果。04.4.消融研究04.4.1 不同成分的影响0表4展示了PNP中不同成分的影响。Clean，ID和OOD分别表示采用方程（5），方程（6）和方程（8）。AUX表示使用约束损失方程（11）。CON

下载后可阅读完整内容，剩余1页未读，立即下载