标签噪声鲁棒性与两阶段检测在文件中的应用

160 浏览量更新于2023-10-15 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

paul.albert@insight-centre.orgTurtleTurtleTurtleTurtleTurtleTurtleAlligatorAlligatorAlligatorAlligatorx1180你的噪声修正是否有噪声？PLS：对标签噪声的鲁棒性与两阶段检测0Paul Albert，Eric Arazo，Tarun Krishna，Noel E. O'Connor，KevinMcGuinness电子工程学院，洞察数据分析SFI中心，都柏林城市大学（DCU）0摘要0设计能够在网络上的非策划数据集上训练准确的神经网络的鲁棒算法一直是研究的重点，因为它减少了耗时的人工劳动的需求。许多先前的研究贡献的重点是检测不同类型的标签噪声；然而，本文提出在检测到噪声样本后改进噪声样本的修正准确性。在许多最先进的研究中，采用了两阶段方法，即在半监督方式下先检测噪声样本，然后猜测修正的伪标签。然后，在没有确保标签猜测可能是正确的情况下，将猜测的伪标签用于监督目标中。这可能导致确认偏见，从而降低噪声鲁棒性。在这里，我们提出了伪损失，这是一个简单的度量，我们发现它与噪声样本上的伪标签正确性强相关。使用伪损失，我们在训练过程中动态降低置信度不足的伪标签的权重，以避免确认偏见并提高网络准确性。我们还提出使用基于置信度引导的对比目标，在自信修正样本的类边界（监督）和置信度不足的标签修正的无监督表示之间学习鲁棒表示。实验证明了我们的伪损失选择（PLS）算法在包括合成数据和两个真实网络噪声数据集在内的各种基准数据集上的最先进性能。我们的实验是完全可复现的，网址为github.com/PaulAlbert31/PLS。01. 引言0使用深度学习进行图像分类的标准监督数据集[15, 7, 20,14]由从网络上收集的大量图像组成，这些图像已经被0真实标签猜测0分类损失最小化0真实标签猜测0分类损失最小化0伪损失过滤0标签噪声鲁棒算法0图1.对检测到的噪声样本进行两阶段标签噪声抑制。与现有的标签噪声鲁棒算法相反，我们使用伪损失来过滤掉不正确的伪标签，以避免对错误修正的确认偏见。0由多个人工注释者精心策划的标注。在本文中，我们提出设计一种算法，旨在在跳过人工策划过程的网络爬取数据集[19,32]上训练准确的分类网络。通过这样做，可以大大减少数据集创建时间，但标签噪声成为一个问题[2]，并且可能严重降低分类准确性[42]。为了对抗噪声注释的影响，以前的研究贡献集中在在早期训练阶段通过深度学习架构对噪声的自然鲁棒性进行噪声样本的检测[3,4]。这些算法将识别出噪声样本，因为它们的学习速度比其干净对应物要慢[17]，因为它们与特征空间中接近邻居的标签不一致[23,18]，神经网络在不同类别而不是目标类别中进行自信预测[38, 21]，在迭代中的不一致预测[22,34]等等。一旦识别出噪声样本，就会产生一个修正的标签，但确保标签的正确猜测在标签噪声文献中研究较少。最近，Li等人提出了一些受半监督学习[28,41]启发的建议，其中仅保留伪标签在最大softmaxbin（置信度）中的值超过超参数阈值的伪标签，或者Song等人提出的低熵预测表明有一个自信的伪标签。本文提出1190关注一旦检测到噪声样本后如何纠正它们。我们特别提出了一种新颖的度量标准，伪损失，能够检索到正确猜测的伪标签，并且我们证明它优于半监督文献中先前使用的伪标签置信度。我们发现，错误猜测的伪标签对于最近的一些贡献中使用的有监督对比目标特别有害[23, 1,18]。我们提出了一种插值对比目标，用于干净或正确纠正的样本的类条件（有监督），在这种情况下，我们鼓励网络学习属于同一类的图像的相似表示；以及对于错误纠正的噪声的无监督目标。这导致了P¯ seudo- L¯ oss S¯election（PLS），这是一个两阶段的噪声检测算法，第一阶段检测数据集中的所有噪声样本，第二阶段去除错误的纠正。然后，我们训练一个神经网络来共同最小化分类和有监督对比目标。我们在合成损坏的数据集上设计了PLS，并在两个真实的网络爬取噪声数据集上验证了我们的发现。图1说明了我们提出的改进标签噪声鲁棒算法。我们的贡献包括：0•使用一种新颖的度量标准的两阶段噪声检测，确保噪声样本的纠正目标准确；0•一种新颖的软插值置信度引导的对比损失项，用于从所有图像中学习鲁棒特征；0•对合成损坏和网络爬取的噪声数据集进行了大量实验，以展示我们算法的性能。02. 相关工作0标签噪声鲁棒算法0网络爬取的数据集中的标签噪声被证明是内分布（ID）噪声和外分布（OOD）噪声的混合[2]。内分布噪声表示一个图像被错误地分配了一个标签，但可以在标签分布中被更正为另一个标签。外分布噪声是指真实标签位于标签分布之外且无法直接更正的图像。虽然一些算法被设计用于分别检测ID和OOD，但其他算法通过假设所有噪声都是ID来取得良好的结果。本节的其余部分将介绍最先进的方法来检测和纠正噪声样本。02.1. 标签噪声检测0数据集中的标签噪声可以通过加剧神经网络对噪声的自然抵抗力来检测。小损失算法[3, 17,22]观察到噪声样本倾向于产生小的损失。0学习速度比其干净对应物慢，并且训练损失呈现双峰分布，其中噪声样本属于高损失模式。然后，使用混合模型拟合损失分布以无监督方式检索两个模式。其他方法在网络特征空间中评估邻居的一致性，其中预期图像具有许多来自同一类别的邻居[23, 18,25]，并且在来自同一类别的邻居数量上使用超参数阈值来识别噪声样本。在某些情况下，可以执行单独的OOD检测以区分可更正的ID噪声和不可更正的OOD样本。OOD样本通过评估当前神经网络预测的不确定性来检测。EvidentialMix[24]使用证据损失[26]，JoSRC评估预测之间的Jensen-Shannon散度[38]，DSOS[2]计算碰撞熵。另一种方法是使用一个干净子集以元学习的方式学习检测标签噪声[36, 10, 35,37]，但在本文中我们假设可信赖的集合不可用。02.2. 噪声纠正0一旦检测到噪声样本，最先进的方法使用网络学到的当前知识来猜测真实标签。选项包括使用网络对未增强样本的预测进行猜测[3, 21]，半监督学习[17,23]，或者在特征空间中使用相邻样本[18]。一些方法也简单地舍弃检测到的噪声样本，仅使用干净数据进行训练[11, 12,27,40]。在进行单独的超出分布检测的情况下，可以从数据集中删除样本[24]，分配一个类别上均匀的标签分布以促进网络的拒绝[38, 2]，或者在无监督目标中使用[1]。02.3. 噪声正则化0在训练标签噪声数据集时，另一种策略是使用强正则化，可以是数据增强，如mixup[43]，或使用专用损失项[21]。无监督正则化还显示出有助于提高在标签噪声数据集上训练的神经网络的分类准确性[18, 30]。03. PLS0我们将图像数据集 dataset X = { xi } N i =1 与 C类的独热编码分类标签 Y 关联起来。Y = { yi } N i =1中的一定比例的标签是噪声，即 yi 与 xi的真实标签不同。我们的目标是在不完美的标签噪声数据集上训练神经网络ϕ，以在一个保留的测试集上进行准确的分类。�γ,(1)lpseudo = −ˆyi log ϕ(xi).(2)lclassif =1Nwmix,iN−wmix,iˆymix,i log ϕ(xmix,i),lnaivecont = 1BB�i=1− Li log PiCc=1 Li,c,(5)12003.1. 检测噪声样本0我们的贡献不包括检测噪声标签，但我们在这里提出专注于改进一旦检测到噪声样本后的噪声样本的纠正。我们使用先前研究中的已知现象进行标签噪声分类[3, 17,22]，即在训练的早期阶段，观察到 ϕ 在图像 ϕ(xi)的未增强视图上的预测与相关（可能是噪声的）真实标签 yi之间的交叉熵损失分为低损失的干净模式和高损失的噪声模式。因此，我们建议使用高斯混合模型（GMM）拟合训练损失，以无监督的方式检索每个模式。最终，干净样本被识别为属于低损失模式的概率高于阈值 t =0.95。已经提出了其他度量来检索噪声标签，但我们发现，尽管方法在合成噪声的情况下检索噪声样本非常相似，但在真实世界噪声的情况下，训练损失更准确。我们在第4.2节中对此进行了解释。03.2. 对噪声标签的自信纠正03.2.1 为检测到的噪声样本猜测标签0为了猜测检测到的噪声样本的真实标签，我们提出使用一种一致性正则化方法。给定与噪声标签相关联的图像xi，我们生成两个弱增强视图 xi1 和xi2。弱增强是在零填充后进行随机裁剪和随机水平翻转。使用当前的 ϕ 状态，我们猜测伪标签 ˆ yi 为0ˆ yi = � ϕ(xi1) + ϕ(xi2)0其中 γ = 2 是一个温度超参数。然后，我们对 ˆ yi进行最大归一化，以确保伪标签的值在0和1之间。03.2.2 仅纠正自信的伪标签0我们建议仅纠正那些 ϕ可能正确猜测的伪标签。这个解决方案已经在半监督文献中进行了探索[28,41]，其中只有当最大概率值超过超参数阈值时，伪标签才被保留。在标签噪声文献中，预测置信度通过最高概率区间[18]或预测熵[29]也已成功应用。我们提出通过评估一种不同的度量来识别正确的伪标签，我们将其称为伪损失。伪损失评估伪标签 ˆ yi 与模型在未增强视图 ϕ(xi)上的预测之间的交叉熵损失：0我们观察到，与第3.1节中的噪声检测损失一样，伪损失也是双峰的（见图1和第4.3节）。我们建议对伪损失拟合第二个GMM，并使用样本属于低伪损失模式（正确伪标签，最左边的高斯分布）的后验概率作为权重 w，用于减少错误伪标签的影响。低置信度的高伪损失样本的权重接近于0（属于低伪损失模式的概率较低），而高置信度的伪标签的权重接近于1（属于低伪损失模式的概率较高）。我们使用的分类损失是带有mixup的加权交叉熵：0(3) 其中 w mix ， x mix 和 y mix与小批量中的另一个随机样本进行线性插值，使用参数 λ �U(0, 1) ，每个小批量采样一次（mixup[43]）。我们在第4.3节中评估伪损失与伪标签置信度的比较。03.2.3 监督对比学习0为了提高 ϕ学到的表示的质量，我们建议同时训练一个监督对比目标和分类损失。我们通过从分类特征到 L2归一化的对比空间计算对比特征的线性投影 g。对比目标旨在学习属于同一类别的图像具有相似的对比特征。给定一个训练小批量图像 X b 和相关的分类标签 Y b，我们生成一个弱增强视图 X b 1 和一个强增强视图 X ′ b。强增强使用的是SimCLR增强方法[5]：随机调整大小裁剪、颜色抖动、随机灰度和随机水平翻转。我们计算标签相似性矩阵 L = Y b Y t b 和特征相似性矩阵：0P = g(ϕ(Xi1))g(ϕ(X′i))T0µ ，(4)0其中 µ = 0.2 是温度缩放参数。P 和 L 都是 B × B矩阵，其中 B是小批量大小。对比损失是逐行的交叉熵损失：0其中 L i 和 P i 分别表示相应矩阵的第 i行。由于训练数据集中存在标签噪声，直接最小化 l naivecont是有害的，因为会强制执行伪标签不可信的样本之间的相似性。相反，我们建议在存在标签噪声的情况下考虑置信度引导的对比学习。ycont,i = concat(wi × ˆyi, (1 − wi) × O(i, B)),(6)lcont = 1BB�i=1− L′i log P ′iCc=1 L′i,c,(7)l = lclassif + lcont.(8)1210伪标签不正确性并训练置信度引导的对比目标。03.2.4 在存在标签噪声的情况下进行置信度引导的对比学习0到目前为止，提出的置信度引导对比目标没有考虑数据集中的标签噪声，这与分类目标相冲突，对学习到的表示有害。解决标签噪声的第一步是将第3.2.1节中正确猜测的标签替换为检测到的噪声样本，以产生ˆ Y b。与分类损失一样，我们还希望防止错误的伪标签干扰对比算法。我们提出使用对比损失的无监督能力，而不仅仅是为低置信度的伪标签噪声样本加权对比损失。根据噪声样本的伪标签的置信度，将使用伪标签来强制同一猜测类别的其他样本具有相似的特征（高伪标签置信度），或者仅鼓励学习同一图像的增强视图之间的相似特征（低置信度伪标签）。为了以连续的方式做到这一点，而不需要对 w设置阈值，我们通过使用 w将小批量样本的加权独热位置编码与 ˆ Y b连接来修改初始分类标签 ˆ Y b 。小批量中样本 i的标签变为：0其中，O(i,B)，表示小批量中样本i的one-hot位置编码，是一个大小为B的零向量，其中位置i的值为1，B为小批量大小。计算ycont的示意图可在补充材料中找到。重复这个过程，我们创建大小为B × (C + B)的Ycont,b。最后，为了在对比目标中受益于mixup的噪声鲁棒性，我们采用与iMix [16]相似的设置，并在线性插值X i 1之间在小批量中的样本中创建Xmix,i（InputMix），以及相应的标签Y cont b，使用β � U(0,1)创建Y mixb。为了计算置信度引导的对比目标，我们使用L′ = Y mix bY t mix b和P′ = g(ϕ(X mix,i)) g(ϕ(X′ i)) T/µ。我们最小化的置信度引导、噪声鲁棒的对比学习损失为0我们优化的最终训练目标是：04. 实验04.1. 设置0我们在四个图像数据集上进行噪声鲁棒性实验。对于合成损坏的数据集，我们在CIFAR-100和miniImageNet上进行训练。CIFAR-100受到对称或非对称的分布内噪声的影响，我们随机将固定百分比的数据集标签翻转为同一分布中的另一个标签。对于分布外噪声，我们用ImageNet32或Places365中的图像替换固定百分比的样本，如Albert et al.[1]中所述，其中rin和rout分别表示分布内和分布外噪声比例。对于miniImageNet，我们使用Jiang et al.[11]中的网络噪声破坏。我们使用32×32的分辨率和预激活ResNet18[13]在这两个数据集上进行训练。我们训练200个时期，起始学习率为0.1。我们使用批量大小为256的随机梯度下降，权重衰减为5×10-5。我们在CIFAR-100上进行30个时期的监督目标热身阶段，而在MiniImageNet上进行1个时期的热身阶段。我们通过在webly finedgrained数据集[32]上进行实验来评估我们的方法在真实世界数据上的表现。我们遵循Zeren et al.[30]的设置，使用在448×448分辨率下在ImageNet[15]上预训练的ResNet50[13]。我们使用学习率为0.003进行训练，批量大小为16，随机梯度下降，权重衰减为10-3，并在10个时期进行热身。我们发现，在标签噪声文献中常用的类平衡正则化（classreg）有助于提高验证准确性，因此我们将其与分类目标一起最小化。对于所有实验，我们在热身阶段结束后采用余弦学习率衰减。04.2. 检测和纠正标签噪声0我们建议评估常用的度量方法在合成和受控网络噪声数据中检索噪声样本的效果。图2绘制了文献中提出的不同度量方法在噪声样本的AUC检索分数。我们研究了对比特征空间中的邻居一致性和不一致性，如[23]中所述，这也是[18]中使用的；基于训练（小）损失的方法，如[3, 17]中所述；如[38, 31,30]中的Kullback-Leibler（kl）散度。图2中报告了噪声样本的AUC检索分数。我们观察到，在存在ID噪声的情况下，度量方法的行为相似，但在检索CNWL数据集中的受控网络噪声时，观察到更大的差异。在这种情况下，交叉熵损失（小损失）在检索噪声网络样本时最准确。还要注意，与合成分布内噪声相比，不同度量方法的检索准确性大大降低，这促使进一步研究如何改进检测网络噪声的方法。0255075100125150175200.70.75.80.85.90.951..94.96.980255075100125150175200.50.55.60.65.70.70.68.66.64.62255075100125150175200.70.75.80.85CIFAR-100 40% IDconfidenceentropypseudo-loss.74.76.78CorrectIncorrectEpoch 30CorrectIncorrectEpoch 1990255075100125150175200020406080100with pseudo losswithout pseudo loss7476780255075100125150175200020406080100with pseudo losswithout pseudo loss5556575859601220CIFAR-100 40% ID0CE损失一致性不一致性 kl无伪损失有伪损失0CE损失一致性不一致性 kl无伪损失有伪损失0CNWL 40% 网络噪声0图2.在检索噪声样本时常用指标的AUC。实线表示使用伪损失移除不正确的伪标签。虚线表示使用所有伪标签。考虑到不正确的伪标签可以提高噪声样本的检测。0图3.伪损失的双峰性以及检索正确猜测的伪标签的能力。顶部图表示使用预测置信度、熵或伪损失检索正确猜测的伪标签时的AUC。图的底部显示了训练过程中伪损失的双峰性以及训练结束时的确认偏差。0没有保留的标记集。04.3. 识别不正确的伪标签0我们的目标是证明在检测到的噪声中不考虑伪标签的正确性对噪声检测以及整个训练过程中的真实标签恢复和验证准确性都是有害的。我们将伪损失与常用的预测置信度或熵进行比较，这在半监督文献中很常见。0CIFAR-100 40% ID0CNWL 40% 网络噪声0图4. 每个时期的验证准确性，是否使用伪损失移除不正确的伪标签0在图3中，我们在CIFAR-100上训练，使用40%的ID噪声，没有伪标签过滤。我们观察到，当检索到正确猜测的伪标签时，伪损失与其他指标相当，而在训练过程中，对于不正确的伪标签的检测变得更具挑战性。✗✗✗66.3159.5446.40✓✗✗74.5369.1755.08✓✗✓75.5769.5355.72✓✓✗76.2170.1058.62✓✓✓77.4372.2159.901230表1.消融研究和伪损失选择w对对比损失lcont的重要性。在CIFAR-100上进行的实验，使用r in = 0.4，r in = r out =0.2进行了40%的噪声污染，以及使用40%网络噪声进行的CNWL实验。Top-1准确性。0噪声水平0r in = 0.2 正确 cont w r in = 0.4 r out = 0.4 CNWL 40%0� � l classif 77.84 69.09 57.760学习率降低，确认偏差增加。更重要的是，我们发现检测到的噪声样本上的伪损失分布与噪声检测的小损失类似，呈双峰分布。因此，我们采用与第一阶段检测相同的方法，对伪损失进行双峰高斯混合拟合，并使用样本属于低损失（正确伪标签）模式的概率作为w。这样我们就不需要像半监督文献中那样始终使用伪标签置信度/熵的超参数阈值。伪损失在训练过程中动态适应，网络在预测中自然变得非常自信。04.4. 基于伪损失的正确伪标签选择0在对检测到的噪声样本上的所有猜测伪标签分配正确概率之后，我们评估了在图2中开始进行伪标签选择的伪损失对标签噪声检测的影响。我们使用方程3和6中的伪损失权重训练了一个神经网络，有或没有我们提出的伪标签选择（全线）。我们观察到，当移除不正确的伪标签时，噪声检索和验证准确性（图4）都得到了改善。通过避免对不正确的伪标签进行权重更新计算，我们的伪损失选择减少了确认偏差，并提高了噪声样本的检索准确性。在方程6中将无法猜测的样本视为未标记的有助于进一步提高分类准确性（见表1中的消融研究）。04.5. 消融研究0为了更好地理解每个组成部分对最终分类准确性的好处，我们在表1中进行了消融研究。我们研究了仅存在内部分布噪声的情况（ r in = 0 . 4 ），当存在外部分布噪声时（ r in =0 . 2 ， r out = 0 . 4 ），以及在存在网络噪声（带有 40%网络噪声的CNWL）的情况下。我们注意到使用伪损失选择伪标签显著改善了分类准确性。0当训练数据集同时存在ID、OOD或Web噪声时，我们在分类准确性上评估了伪标签选择的重要性。我们运行PLS并在分类目标 l classif 中应用标签选择，但在对比目标 l cont中不进行过滤。噪声样本使用当前一致性正则化猜测进行修正，但不正确的伪标签不会被过滤（对于 l classif会过滤）。表1报告了CIFAR-100受到 40%内部分布（ID）或 20% ID以及 40%外部分布（OOD）（来自ImageNet32和带有 40%网络噪声的CNWL数据集）的最佳准确率结果。尽管我们观察到ID损坏没有发生重大变化，但在存在OOD或网络噪声时，保留对比目标中的不正确伪标签会导致分类准确性显著降低（最后一行）。对于CIFAR-100受到 40% OOD和 20%ID噪声的情况，与我们的噪声修正基线（第2行）相比，训练对比目标的准确性优势被抵消。我们认为这激发了进一步研究在使用监督对比目标训练网络噪声数据集时，OOD噪声和不正确伪标签对训练的有害影响。04.6. 最先进的标签噪声鲁棒算法0我们提出与以下最先进的标签噪声鲁棒算法进行比较：mixup（M）[43]已经证明是一种对标签噪声具有天然鲁棒性的强大正则化方法；MentorMix（MM）使用学生-教师架构在忽略之前检测噪声样本；FaMUS（FaMUS）是一种用于检测标签噪声的元学习算法；DynamicBootstrapping（DB）将贝塔混合拟合到训练样本的损失中以检测噪声样本；S-model（SM）使用EM算法优化的噪声适应层；DivideMix（DM）使用一组网络来检测噪声样本；PropMix（PM）仅根据其训练损失修正最简单的噪声样本；ScanMix（SM）使用语义聚类方法来修正样本；RobustRepresentationLearning[18]对类别原型进行聚类，并使用邻居标签的加权平均值来修正噪声样本；Multi Objective InterpolationTraining（MOIT）训练插值对比目标，并使用邻居标签一致性来检测噪声样本。关于执行显式的内部和外部分布噪声检测的算法，EvidentialMix（EDM）将三个组分的GMM拟合到证据损失中；JoSRC（JoSRC）使用Jensen-Shannon散度；Dynamic Softening for Out-of-distributionSamples（DSOS）使用碰撞熵和基于对比特征的SpectralNoise聚类（SNCF）使用OPTICS对无监督特征进行聚类；Progressive LabelCorrection（PLC）在贝叶斯保证下迭代地改进其噪声检测。1240表2. 在CIFAR-100上减轻ID噪声。准确率数字来自于各自的论文或使用公开可用的代码运行。我们将最高的准确率加粗，并报告3个随机噪声数据集和网络初始化的标准差。0噪声类型 r in CE M DB DM ELR+ MOIT+ Sel-CL+ RRL PLS0对称 0.0 76.99 79.29 64.79 72.75 83.14 77.07 79.90 80.70 78 . 85 ± 0 . 21 0.2 62.60 71.55 73.9 77.3 77.675.89 76.5 79 . 4 ± 0 . 1 80.03 ± 0 . 15 0.5 46.59 61.12 66.1 74.6 73.6 67.54 72.4 75 . 0 ± 0 . 4 76.48 ±0 . 25 0.8 23.46 37.66 45.67 60.2 60.08 51.36 59.6 32.21 63.33 ± 0 . 380表3. 在CIFAR-100上受到ImageNet32或Places365图像损坏时减轻ID噪声和OOD噪声。准确性数字来自[1]。我们将最佳准确性加粗，并报告3个随机噪声损坏和网络初始化的标准偏差。0损坏 r out r in CE M DB JoSRC ELR EDM DSOS RRL SNCF PLS0INet32 0.2 0.2 63.68 66.71 65.61 67.37 68.71 71.03 70.54 72.64 72.95 76.29 ± 0.28 0.4 0.2 58.9459.54 54.79 61.70 63.21 61.89 62.49 66.04 67.62 72.06 ± 0.19 0.6 0.2 46.02 42.87 42.50 37.9544.79 21.88 49.98 26.76 53.26 57.78 ± 0.26 0.4 0.4 41.39 38.37 35.90 41.53 34.82 24.15 43.690Places365 0.2 0.2 59.88 66.31 65.85 67.06 68.58 70.46 69.72 72.62 71.25 76.35 ± 0.05 0.4 0.253.46 59.75 55.81 60.83 62.66 61.80 59.47 65.82 64.03 71.65 ± 0.61 0.6 0.2 39.55 39.17 40.7539.83 37.10 23.67 35.48 49.27 49.83 57.31 ± 0.31 0.4 0.4 32.06 34.36 35.05 33.23 34.71 20.3329.54 26.67 50.95 55.61 ± 0.550表4.在细粒度网络数据集上与最先进算法进行比较。我们将最佳结果加粗显示。最佳准确性为Top-1。0算法 Web-Aircraft Web-bird Web-car0CE 60.80 64.40 60.60 Co-teaching 79.5476.68 84.95 PENCIL 78.82 75.09 81.68 SELFIE79.27 77.20 82.90 DivideMix 82.48 74.4084.27 Peer-learning 78.64 75.37 82.48 PLC79.24 76.22 81.870PLS 87.58 79.00 86.270Peer-Learning [32]，Co-teaching [9]，PENCIL[39]共同训练两个网络，并通过投票一致性识别出干净样本；SELFIE[29]选择低熵噪声样本进行重新标记，而丢弃其余样本。04.7. 合成损坏0我们首先评估PLS在分布内合成损坏中的能力。我们在CIFAR-100上进行实验，并与最先进的算法进行比较，结果见表2。为了评估比较算法的改进有多少来自于改进的基准准确性而不是更好的噪声校正，我们还运行了没有噪声的情况。因为我们不使用无监督正则化和网络集成等技巧，所以当没有噪声存在时，我们的算法呈现较低的基准，但一旦引入噪声，我们就能达到最先进的结果。这证明了我们的方法在数据集中存在标签噪声时的优越性。04.8. 分布外损坏0真实世界的嘈杂数据通常是分布外的[2]。我们在CIFAR-100上提出了在受到来自ImageNet32或0Places365和对称的分布噪声。表3报告了我们的结果，并与最先进的算法进行了比较。我们在这里观察到，伪损失使我们能够有效处理筛选出伪损失中无法猜测到修正标签的分布外图像。04.9. 受控网络噪声0我们使用CNWL数据集中训练的分辨率为32×32的受控网络损坏来验证我们的方法。我们在表5中报告结果，并观察到相对于包括使用自监督预训练来检测标签噪声的SNCF[1]在内的最先进算法的改进。04.10. 真实世界噪声0我们在直接从网络上爬取的真实世界嘈杂数据集上进行实验，没有人工筛选。表4报告了来自Zeren等人的其他算法的细粒度网络数据集的结果[31]。请注意，即使我们使用单个网络进行训练和预测，我们得到的结果与集成或共同学习方法相比是可比较或更好的。我们报告了不使用标签软化策略（LSR[33]）的算法的结果，因为使用这种正则化技术在[32]中显示，它可以提供强大的基准性能提升，而不依赖于使用它的算法的噪声校正能力。04.11. 超参数0表6报告了所有实验中使用的超参数05. 结论0本文提出了一种新颖的方法来检测在处理标签噪声时的错误伪标签修正2047.36 49.10 50.96 51.0251.4259.06 61.24 61.56 63.10 ± 0.144042.70 46.40 46.72 47.1448.0354.54 56.22 59.94 60.02 ± 0.156037.30 40.58 43.14 43.8045.1052.36 52.84 54.92 54.41 ± 0.498029.76 33.58 34.50 33.4635.5040.00 43.42 45.62 46.51 ± 0.20CIFAR-1000.00.00.120032PreRes180.955 × 10−5300.20.00.120032PreRes180.955 × 10−5300.50.00.120032PreRes180.955 × 10−5300.80.00.120032PreRes180.55 × 10−530CIFAR-1000.20.20.120032PreRes180.955 × 10−5300.20.40.120032PreRes180.955 × 10−5300.20.60.120032PreRes180.955 × 10−5300.40.40.120032PreRes180.955 × 10−530CNWL0.00.20.120032PreRes180.955 × 10−510.00.40.120032PreRes180.955 × 10−510.00.60.120032PreRes180.955 × 10−510.00.80.120032PreRes180.955 × 10−51Web-aircraft––0.003110448Res500.9510−310Web-bird––0.003110448Res500.9510−310Web-car––0.003110448Res500.9510−310[1] Paul Albert, Eric Arazo, Noel O’Connor, and Kevin McGuin-ness. Embedding contrastive unsupervised features to clusterin-and out-of-distribution noise in corrupted image datasets.In European Conference on Computer Vision (ECCV), 2022.[2] Paul Albert, Diego Ortego, Eric Arazo, Noel O’Connor, andKevin McGuinness.Addressing out-of-distribution labelnoise in webly-labelled data. In Winter Conference on Appli-cations of Computer Vision (WACV), 2022.[3] E. Arazo, D. Ortego, P. Albert, N. O’Connor, and K. McGuin-ness. Unsupervised Label Noise Modeling and Loss Cor-rection. In International Conference on Machine Learning(ICML), 2019.[4] D. Arpit, S. Jastrzebski, N. Ballas, D. Krueger, E. Bengio,M.S. Kanwal, T. Maharaj, A. Fischer, A. Courville, Y. Bengio,and S. Lacoste-Julien. A Closer Look at Memorization inDeep Networks. In International Conference on MachineLearning (ICML), 2017.1250表5. 来自CNWL[11]的Web损坏的miniImageNet（32×32）。我们运行了我们的算法；其他结果来自[6]。我们报告了最佳的top-1准确率，并将最佳结果加粗显示0噪声水平 CE M DM MM FaMUS SM PM SNCF PLS0表6. 实验中使用的超参数0数据集 r in r out lr epochs Res Net GMM thresh wd warmup0ruption.我们使用最先进的噪声检测度量来检测噪声样本，并使用一种一致性正则化方法来猜测它们的真实标签。然后，使用伪损失来评估猜测的真实标签的有效性，我们展示了伪标签正确性与伪损失之间的强相关性。在训练过程中，删除对于伪标签概率较低的权重更新。我们还提出使用插值对比目标，其中正确的伪标签用于学习类间语义，而带有错误伪标签的图像用于无监督目标。我们在合成和真实世界数据上取得了最先进的结果0致谢0本出版物源于在爱尔兰高级计算中心（ICHEC）的支持下进行的研究，该研究得到了爱尔兰科学基金会（SFI）的资助，资助号码为16/RC/3835 - Vistamilk和12/RC/2289 P2 -Insight0参考文献0[5] Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi,and Geoffrey Hinton. 大型自监督模型是强大的半监督学习器. arXiv:2006.10029，2020年。0[6] Filipe R Cordeiro, Vasileios Belagiannis, Ian Reid, andGustavo Carneiro. PropMix:用于学习噪声标签的难样本过滤和比例混合. arXiv:2110.11809，2021年。0[7] Mark Everingham and John Winn.Pascal视觉对象类别挑战2012（voc2012）开发工具包.模式分析、统计建模和计算学习，技术报告，2011年。0[8] J. Goldberger and E. Ben-Reuven.使用噪声适应层训练深度神经网络.在学习表示（ICLR）国际会议上，2017年。0[9] B. Han, Q. Yao, X. Yu, G. Niu, M. Xu, W. Hu, I. Tsang, and M.Sugiyama. 对严重噪声损坏的标签进行真实评估的深度半监督学习.1260学习算法.在神经信息处理系统（NeuRIPS）的进展中，2018年。0[10] Dan Hendrycks, Mantas Mazeika, Duncan Wilson, andKevin Gimpel. 使用可信数据训练受严重噪声污染的深度网络.在神经信息处理系统（NeurIPS）的进展中，2018年。0[11] Lu Jiang, Di Huang, Mason Liu, and Weilong Yang.超越合成噪声：在受控噪声标签上进行深度学习.在机器学习（ICML）国际会议上，2020年。0[12] L. Jiang, Z. Zhou, T. Leung, L.J. Li, and L. Fei-Fei.Mentor-Net:在受损标签上为非常深的神经网络学习数据驱动的课程.在机器学习（

下载后可阅读完整内容，剩余1页未读，立即下载