图像标注中干净与嘈杂标签的关系及其学习算法

60 浏览量更新于2023-10-15 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15344引导图像与其干净和嘈杂标签之间的关系布兰登·斯马特澳大利亚阿德莱德大学澳大利亚机器学习研究所a1743623@adelaide.edu.au古斯塔沃·卡内罗英国萨里大学视觉、语音和信号处理中心g. surrey.ac.uk摘要许多最先进的噪声标签学习方法依赖于在训练期间估计样本的干净标签并丢弃其原始噪声标签的学习机制。然而，这种方法阻止了图像、噪声标签和干净标签之间的关系的学习，这在处理依赖于实例的标签噪声问题时已经被证明是有用的。此外，旨在学习这种关系的方法需要干净注释的数据子集，以及用于训练的蒸馏或多方面模型。在这篇文章中，我们提出了一种新的训练算法，它依赖于一个简单的模型来学习干净和嘈杂的标签之间的关系，而不需要一个干净的标签的数据子集我们的算法遵循3阶段过程，即：1）自我监督的预训练，然后是分类器的早期停止训练，以自信地预测训练集的子集的干净标签; 2）使用来自阶段（1）的干净集来引导图像、噪声标签和干净标签之间的关系，我们利用该关系来使用半监督学习对剩余训练集进行有效的重新标记;以及3）使用来自阶段（2）的所有重新标记的样本对分类器进行监督训练。通过学习这种关系，我们在不对称和依赖于实例的标签噪声问题 1 中实现了最先进的性能。代码可在https://github.com/btsmart/bootstrapping-label-noise上获得。1. 介绍监督式深度学习已经取得了巨大的成功，从标记的训练数据集生成有效的分类模型[23，25]。现代深度学习模型需要大规模数据集来实现最先进的（SOTA）结果[37，38]。然而，现实世界中的大-1由澳大利亚研究委员会通过赠款DP180103232和FT190100525支持。规模数据集，例如从搜索引擎收集的或从医院和诊所获得的数据集，往往具有不可忽略的实例相关标签噪声（IDN）量[31，51]。现有方法通常尝试解决实例无关标签噪声（IIN），例如对称或非对称噪声[14，56，63]。如何处理大规模真实世界数据集中的IDN已成为该领域的主要研究问题之一。当使用噪声标记的数据进行天真训练时，深度学习模型的泛化能力很差，因为它们很容易过拟合错误标记的样本[60]。已经开发了许多方法来处理标签噪声，SOTA方法依赖于样本重新标记机制。这些策略基于估计图像和干净标签之间的关系的技术，并且在重新标记之后，旧的噪声标签被丢弃[28，46，63]。然而，为了模拟不同的图像特征和噪声标签如何影响IDN中的错误标签过程，我们需要估计图像，干净标签和噪声标签之间的关系[16，63]。一些方法试图用噪声转换矩阵和非对称噪声的校正层[14，36，55]或部分相关噪声代替实例相关噪声[54]来建模这种关系，但它们未能实现SOTA结果。而不是通常的噪声标签学习设置，其中一组干净注释的样本不可用，一些方法假设存在包含图像，干净标签和噪声标签的训练数据子集[16，20，50]。通过训练从图像和噪声标签预测干净标签的模型（参见图1右侧），这些方法能够学习图像特征、噪声标签和干净标签之间的关系，使它们能够对IDN进行建模，并更有效地重新标记噪声样本。然而，它可以是昂贵的，困难的和耗时的，以获得一个干净的数据子集与噪声标签和干净的标签，是代表数据集中的实例相关的噪声。此外，这些方法需要蒸馏到更标准的模型（例如图1左侧的模型），用于对没有标记的样品进行评估。15345图1. 在左边，我们展示了一个在右边，我们提出了一个x、噪声标签y和干净标签y，类似于冰毒使用的那些ODS可以访问一组干净的数据[16，20，50]。在本文中，我们介绍了一种新的算法来学习图像之间的关系，他们的清洁和噪声标签，而不使用任何清洁标签集。我们的算法遵循3阶段过程（见图1）。2）：1）Bootstrapping：自监督预训练，然后是分类器的早期停止训练[60]，该分类器接收图像和“空”标签作为输入，并预测噪声标签作为输出-该阶段形成用于第二阶段训练的预测干净标签的子集; 2）半监督学习：使用该预测干净子集来学习图像，噪声标签和干净标签之间的关系，我们利用剩余训练集的有效，明确的重新标记;以及3) 最终训练：使用重新标记的样本对分类器进行监督训练本文的主要贡献• 一种有效的三阶段训练算法，旨在通过学习图像与其干净和嘈杂标签之间的关系来解决实例相关的标签噪声-• 使用简单的单模型架构实现SOTA非对称和实例相关标签噪声结果的方法，不像DivideMix[28]（及其衍生物，如[10，21，34，41，66]）需要一个更复杂的2模型架构。• 一种2. 相关工作2.1. 基于半监督学习（SSL）的噪声标签学习中的许多SOTA方法使用SSL技术来执行标签校正和一致性正则化。DivideMix [28]和变体[10，41，66]通过共同教学和MixMatch数据增强[6]执行样本重新标记。ELR+[32]和PES[5]类似地在正则化损失函数之上使用基于MixUp[61]的SSL。这些技术对于对称和非对称噪声是有效的，但依赖于仔细调整的超参数和所使用的样品重新标记和SSL技术的谨慎整合。为了识别用于形成未标记集合的错误标记样本，许多方法依赖于损失分离技术，依赖于深度网络比噪声样本更快地学习干净样本的能力[2]，这导致在几个训练阶段之后干净样本的损失值更低[1，7，17，28，57]。FINE也可以使用特征分解来分离特征空间中的样本[21]。然而，这种噪声标签样本的自动和动态识别是一个脆弱的过程，在具有挑战性的噪声标签学习场景中往往会失败，例如依赖于实例的标签噪声，因为硬清洁标签和噪声标签样本之间的差异在早期训练阶段可能是微妙的。2.2. 标签转换估计方法许多方法尝试对类别相关的非对称噪声进行建模，例如使用标签转换模型[55]，通过学习噪声自适应层并执行损失校正[14，36]，或者使用重建误差作为一致性目标[39]。然而，这些方法不像SEC中的SSL方法那样具有竞争力。2.1，因为它们通常不解决依赖于实例的噪声，并且具有有限的机制来利用错误标记的样本。试图通过估计基于实例的转移矩阵来处理语义噪声的方法原则上可以处理语义噪声[14]，并且可以提供收敛保证和泛化误差的范围[63]，但它们在实践中不提供SOTA结果。2.3. 基于清洁验证集的或者，研究人员已经探索了学习方法，需要一个小的，额外的干净的数据集的存在来学习。例如，许多元学习策略需要干净的验证样本来调整每个训练样本的权重[40]，用合成噪声标签模拟规则训练[29]，学习显式加权函数[43]，或估计噪声转移矩阵[52]。其他噪声标签学习算法依赖于干净的数据集，15346∈D∈ Y <${}|Y|−×D{}∈X图2. 我们提出的算法。自举阶段包括自监督预训练，然后是早期停止分类训练，以识别一小组自信地重新标记的样本（即，清洁的标记样品）。然后，在半监督学习过程中，这个集合用于学习图像、噪声标签和干净标签之间的关系，在这个阶段结束时，我们在自举过程中重新标记被分类为噪声的样本。最后一个阶段是最后的训练，使用SSL阶段中识别的干净样本和噪声样本训练分类器。样本存在干净标签，因此可以学习图像特征，噪声标签和干净标签之间的关系[16，20，50]，使用全连接神经网络从图像及其噪声标签中预测真实标签。总之，这些方法显示了代表性干净数据集对噪声标签问题的实用性，但它们依赖于手动标记，这可能是昂贵且耗时的收集，特别是在需要标记者高度专业知识的领域，例如医学成像[33，65]。其他方法旨在动态构建高置信度样本的伪干净集，例如通过使用K-最近邻来识别特征空间中的相关样本[4，35]，或者通过使用元学习来识别动态更新有价值的训练样本的字典[64]。2.4. 背景材料我们的方法依赖于许多技术以前开发的领域，如自我监督，SSL和数据增强。最近，自监督方法（如Simplified[8，9]和SCAN[49]）已用于预训练，或作为噪声标签学习任务的辅助目标[41，66]，因为它们能够从噪声数据中学习高级特征，而不会有过度拟合不正确标签的风险。在本文中，我们利用 SSL 方法FixMatch [45]，该方法使用伪标记阈值和强增强和弱增强之间的一致性，通过一致性正则化[3，24，48]和熵最小化[15，26]来正则化训练。强大的数据增强策略，如RandAugment [12]，AutoAugment [11]和MixUp[61]已被证明可有效用于正则化训练，防止过拟合并显著提高算法对更高噪声水平的耐受性[1，28，34]。3. 方法我们的算法（见图）。2）的动机是训练一个模型，该模型可以通过从图像和噪声标签中预测真实标签来准确地重新标记样本，而不需要干净标记的数据。所提出的算法的阶段是：1）自举：执行自我监督的预训练和早期停止训练，以识别样本的代表性的干净子集，2）SSL：从干净集合（来自阶段1）学习依赖于实例的噪声关系，并使用它来重新标记剩余的噪声样本，以及3）最终训练：使用来自阶段2的重新标记的样本来训练最终的正则化分类器。对于下面描述的方法，假设训练集的可用性=（xi，yi）|iD=|1，其中xRH×W×R表示具有R个颜色通道的大小为HW的图像，并且y=0，1|Y|代表了噪音标签。我们的模型，被称为“修改”，在输入端接收图像和噪声标签，并输出一个干净的标签分类分布，f θ：X×Y→X| Y|-1，在哪里|Y|-1表示1概率单纯形，并且θΘ表示模型参数。请注意，我们还考虑了一个∆| Y|-1。3.1. 自举第一阶段的目标是训练一个接受图像和噪声标签并预测干净标签的模型在 [49 ， 66] 之后，我们从Simplified预训练开始[8]，它允许我们学习初始从D的特征表示，而没有过拟合的风险接下来，我们使用上面的预训练模型来学习一个类-15347ΣθΣΣ一|Y|ΣΣ×|Y|×C{|∈ D}CCU具有早期停止和小学习率的筛选器，3.2. 用于噪声拉贝尔校正的半监督学习（SSL）θ= arg min1|D|（xi，y<$i）∈DEa（. ）JesusSfθ（a（xi），0|Y|））的情况下，（一）我们框架的下一个阶段是进行初始的清理其中a（？）是从强数据增强函数集合AS，AMCE（. ）去注释交叉熵损失函数，0| Y|为“null”标签向量，零.然后，我们使用我们的训练模型，使用测试时弱增强为所有训练样本生成预测分布，如下所示：yi=Ea（. ）AW fθ∈（a（xi），0|Y|）、（2）其中a（？是从弱数据增强函数W的集合采样的弱增强。我们还在此评估过程中启用了dropout。通过使用dropout和多个弱增强来评估样本，我们惩罚了具有高度置信但不一致预测的样本[63]。x i的置信度预测为giv en，其中maxc∈Yy<$i（c）。然后，我们将数据集分成一个置信的干净集和一个嘈杂集。然而，如果我们天真地选择最有信心的样本，我们将从简单的类中选择样本我们希望干净集包含来自数据集中所有类和噪声转换的代表性样本，因为即将到来的SSL过程只能学习干净集中存在的噪声转换。为了实现这一点，我们提出了噪声转换样本平衡，首先通过使用每个类的90%最置信预测的噪声标签和预测标签来估计数据集然后，我们从每个噪声过渡中选择KTij 最置信样本，以及任何其他样本 xi ，其中 maxc∈Yyi（c）>τ，其中K是控制我们想要选择的每个子集中样本的最小分数的超参数，τ是控制预测在保证被选择之前需要有多置信的超参数。我们注意到，这个过程并不保证捕获图像特征和噪声标签转换之间的所有实例相关关系这种“基于噪声”的平衡方法可以与通常在噪声标签学习方法中看到的通常的基于类的平衡形成对比，其中选择样本以平衡每个类的样本数量。初始清洁集将包含具有噪声和估计清洁标签的样本，为（xi，yi，yi）（xi，yi），并且初始噪声集合将包含样本和噪声标签，如U={（xi，y<$i）|（xi，yi，yi）∈fC，且（xi，yi）∈D}。集合和初始噪声集合来训练SSL模型，其中图像和噪声标签（模型输入）存在于所有样本中，而真实标签（模型输出）存在于样本中。我们的SSL算法是基于FixMatch（见图）。3），它通过关注一致性正则化和熵最小化来实现竞争性能[45]。我们在半监督学习之前不重新初始化网络，而是使用自举过程作为一种预热形式。图3. 噪声标签FixMatch算法。因为我们正在学习从图像和噪声标签中预测样本的“真实”标签，所以我们的模型能够学习三者之间的联合分布，类似于需要干净集的作品[16，20，50]。然而，如果我们训练我们的模型总是从图像和噪声标签进行预测，我们的模型将不再能够对没有相关噪声标签的样本进行有意义的预测，例如“测试”集中的样本。为了解决这个问题，我们在50%的时间内从样本中随机通过这样做，我们的模型还学习了图像和真实标签之间的直接关系，而不依赖于嘈杂的标签，允许我们通过将测试样本与“空”标签一起传递到模型在我们的FixMatch实现中，我们在50%的时间内删除了监督样本的噪声标签和非监督样本的强增强。然而，我们保留了弱增强无监督样本的噪声标签，因为我们希望始终使用这些噪声标签来预测更高准确度的伪标签，因为损失不会沿着这些样本反向传播（见图2）。（3）第三章。我们在15348×⌈ ⌉D×|C|--CE我 θ我我CE我θ我我我我我我Σ我花絮SSL培训基于以下优化：θ*= arg minθ∈ΘAnimal10N数据集由50，000张训练图像和5，000张大小为64 64的测试图像组成，由五对语义相似的类组成。使用在线搜索引擎收集每个标签的图像，结果-1名厄立特里亚人（xi，x<$i，y<$i）∈C[n（y）n，f（a（x），i（y））]+估计有6%到10%的的样本。最后，我们使用Mini-Webvision进行测试，1（xi，x<$i）∈UI（maxy<$> κ）E[（y <$，f（a（x），ι（y））]，（三）由65，944个样本组成，包含图像列的Webvision数据集的类从互联网上挑选的。图像大小调整为256 ×256，哪里I（. ）表示一个指示器功能，伊=Ea（. ）<$AW[f（a（xi），y<$i）]，ι50%（y<$i）随机返回y<$i或0|Y|，每个都有50%的机会，y<$i是将y<$i转换为二进制向量r的运算符，其中1表示具有最大概率的类，否则为0。在这个SSL阶段之后，我们重新标记整个训练集以形成D<$={（x，y<$，y<$）|（x，y∈D）}，（4）在（3）中定义了y′i。与训练的自举阶段一样，我们在对多个弱增强的预测进行平均以计算 y′i 时启用dropout。请注意，在（4）中，我们的模型使用图像，噪声标签和“真实”标签之间的学习关系3.3. 最终模型训练在形成后，我们用强增强和MixUp训练最终模型，因为它们对重新标记的训练集中可能存在的任何噪声具有鲁棒性[1，28]。MixUp同时应用于两个图像及其噪声标签。在应用Mixup之后，我们在50%的样本中随机将嘈杂的标签替换为4. 实验4.1. 数据集为了研究我们的方法，我们使用 CIFAR-10 ，CIFAR-100[22]， Animal 10 N[46]和Webvision[31]数据集进行实验。CIFAR-10和CIFAR-100由50，000个大小为3232像素的训练图像和10，000个测试图像组成，分别具有10个和100个类。由于CIFAR-10和CIFAR-100不包含标签噪声，因此我们遵循文献并使用不同类型的受控合成标签噪声进行实验。第一种类型的噪声是多项式边际递减（PMD）语义噪声[62]，其中决策边界附近的混淆样本的错误标记率高于远离决策边界的样本。第二种是Lee等人提出的语义噪声。[27]，其中来自训练的VGG [44]，DenseNet [19]和ResNet [18]模型的错误预测用于生成错误标记的样本（我们称之为“RoG”噪声）。我们还测试了我们的系统与对称噪声率为20%，50%，80%，90%和非对称噪声使用映射从[28，36]与40%率。a（. ）∈AW百分之五十|U|我a（. ）∈AS百分之五十15349以及ILSVRC 12数据集中[13]也用于验证。4.2. 执行在当代工作[10，28，32]之后，我们使用PreAct-ResNet-18 （ PRN 18 ）网络 [18] 作为 CIFAR 10 和CIFAR 100实验的骨干模型，使用VGG19模型[44]作为Animal10N的骨干，使用Inception-ResnetV 2模型[47]作为Webvision的骨干。对于弱增强，我们使用水平翻转和随机裁剪，对于强增强，我们使用AutoAugment[11]，然后是水平翻转和随机裁剪。对于所有的实验，我们进行强增广的自举和25弱增广的伪标记。最终的模型训练使用Mixup[61]（α= 1）完成。对于训练的所有阶段，我们使用随机梯度下降，并在补充材料中提供有关优化器和训练计划超参数的额外信息。对于Webvision，我们还使用了label平滑（其中λ= 0。①的人。根据现有的FixMatch实现（例如TorchSSL [59]），我们使用指数移动平均（EMA）模型来执行时间集成[24]。为了与现有的噪声标签学习方法进行公平比较，我们缩短了FixMatch实现通常使用的训练时间表（我们使用µ= 4的100，000次训练迭代，而不是µ= 8的1，000，000次迭代）。我们报告两组结果，我们的实验或-为了理解在半监督学习期间使用噪声标签如何改善结果：“正常模型”和“修改模型”。在这两种情况下，我们使用图2中概述的训练过程，但是：1) 在“正常模型”中，我们使用一个只接受图像输入的标准模型。因为这种类型的模型不旨在学习噪声标签和干净标签之间的关系，所以我们执行基于类的平衡，而不是建议的基于噪声的平衡。2) 在“Modified Model”中3.第三章。对于我们所有的实验，我们还报告了从测试时间增强中获得的准确度，其中25个弱aug，15350方法Top-1交叉熵79.4[46]第四十六话81.8PLC[62]83.4NCT[42]84.1我们的（正常模式）85.84+测试时间8月86.98我们的（改良型）88.48+测试时间8月89.38表1.动物10 N的试验准确度（%）内的顶级方法1%以粗体显示（除我们之外的结果来自[42]）。方法Webvision ILSVRC 2012Top-1Top-5Top-1Top-5ELR[32]76.2691.2668.7187.84ELR+[32]77.7891.6870.2989.76PropMix[10]78.8490.56//NGC[53]79.1691.8474.4491.04[58]第五十八话79.4092.8077.0092.76RRL[30]76.3091.5073.3091.20我们的（正常模式）80.2490.8476.4490.00+测试时间8月81.5292.5278.3691.80我们的（改良型）80.8892.7675.9692.20+测试时间8月83.1694.2879.6494.20表2. Webvision的测试准确度（%）。0.5%以内的最佳方法以粗体显示生成每个测试样本的分段版本，并对模型因为这延长了我们模型的推理时间，我们用斜体单独报告这些结果。4.3. 结果在表1和表2中，我们分别展示了我们的模型在Animal10N和Webvision基准测试中的准确性。在这两种情况下，可以看出，修改后的模型改善了结果，证明了在这些依赖于实例的噪声数据集上，学习图像、噪声标签和“真实”标签之间的关系允许更准确的重新标记，以及最终模型准确性Animal10N由五对通常混淆的图像类组成，它的性能有了显著的提高，提高了2。64%来自于使用我们修改后的训练方法，这是因为常见混淆的类之间的关系很容易学习。 Webvision看到了一个更温和但仍然意义重大的改善0。使用我们的修改模型时，准确率为64%可以看出，在这两个基准测试中，我们报告了最先进的结果，并且使用基于丢弃的测试时间增强进一步提高了我们的准确性。接下来，我们将注意力转向表 3 和表 4 中基于CIFAR10 和 CIFAR100 的合成 “ 多项式裕度递减（PMD）”[62]和“RoG”[27]实例依赖的噪声标签基准。在所有考虑的在这两个表中，即使没有我们的修正模型，我们的准确性结果也比其他方法高得多。当我们使用修改后的模型来进行这些合成的实例相关噪声标签基准测试时，我们发现混合的结果，性能通常会下降，这可能是由于学习的噪声转换没有像在现实世界的实例相关噪声数据集中那样泛化。最后，在表 5 中，我们显示了我们的方法对CIFAR10和CIFAR100的合成构造的对称和这些噪声类型在实践中很少见，但它们是常见的噪声标签基准，因此我们在这里包含它们以确保完整性。我们看到，我们的方法与CIFAR10对称和非对称噪声的最新技术相比具有竞争力，尽管设计用于解决这些类型噪声的机制较少。我们特别注意到40%的非对称噪声，这得益于修改后的模型，由于噪声标签大大限制了每个图像的可行样本集，使我们能够超越最先进的技术。与此相反，我们报告我们的结果对称标签噪声在CIFAR100，现有的方法比我们的表现更好。在所有情况下，我们的修改后的模型能够利用噪声提供更准确的重新标记，但其他方法使用的正则化策略在对称噪声的假设下工作良好，并提供更强的结果。然而，在实践中，超过100个类的完全对称噪声是罕见的，我们的结果在现实世界的实例相关数据集上显示出普遍的强大性能。4.4. 带有噪声标签的我们的方法的一个独特的特点是，我们的最终模型可以用来预测标签的样本和无噪声标签。在一些应用中，例如，标记的图像分类，测试时的图像也可能具有与其相关联的噪声标签，我们的模型可以使用该噪声标签来改进分类性能。为了证明这一点，我们使用与我们用于40%非对称噪声相同的程序为CIFAR10测试集中的所有样本生成人工噪声标签，并且在表6中，我们显示了当使用和不使用这些噪声标签时，我们的模型在这些样本上的准确性我们看到，当使用噪声标签时，我们的模型性能会提高，因为我们的模型已经学会使用噪声标签（当它们可用时）来提高预测精度。我们在表7中进一步展示了这种学习关系，其中我们展示了模型的预测如何根据向模型提供的噪声标签而变化。在这个40%非对称噪声数据集中，所显示的狗的图像只会被标记为狗或猫，并且在这两种情况下，可以看出我们的模型做出了正确的预测。我们的模型在没有噪声标签的情况下也能做出正确的预测，尽管具有较低的15351Dataset CIFAR-10 CIFAR-100噪音类型I型35%II型35%III型35%I型35%II型-35%III型-35%交叉熵78.1176.6576.8957.6857.8356.07PLC[63]82.8081.5481.5060.0163.6863.68我们的（正常模式）94.0693.2593.3565.8765.8066.36+测试时间8月94.7293.7993.9766.8366.4867.42我们的（改良型）94.0093.7694.2368.2568.1468.22+测试时间8月94.3994.1994.2370.1369.3570.13表3.多项式裕度递减噪声的测试准确度（%）[62]。最好的方法是粗体。数据集CIFAR-10CIFAR-100方法/噪声比DenseNet（32%）ResNet（38%）VGG（34%）DenseNet（34%）ResNet（37%）VGG（37%）[27]第二十七话68.5760.2559.9431.6739.9245.42[27]第二十七话68.3364.1570.0461.1453.0953.64PropMix[10]84.2582.5185.7460.9858.4460.01我们的（正常模式）93.2692.0593.2962.4764.9164.98+测试时间8月93.8792.6693.8663.4065.7466.10我们的（改良型）89.4690.9789.7763.6863.0963.89+测试时间8月90.2591.8590.4265.1564.7065.30表4. RoG标签噪声基准[27]的测试准确度（%），其中基线结果来自[27]。最好的方法是粗体。数据集CIFAR-10CIFAR-100噪声类型Sym.不对称Sym.方法/噪声比百分之二十百分之五十百分之八十百分之九十百分之四十百分之二十百分之五十百分之八十百分之九十交叉熵[28]82.757.926.116.872.361.837.38.83.5ELR[32]95.894.893.378.793.077.673.660.833.4[28]第二十八话95.794.492.975.492.176.974.259.631.0AugDesc[34]96.395.493.891.994.679.577.266.441.2[66]第六十六话96.495.394.493.693.578.776.467.858.7PropMix[10]96.0995.5393.7793.2094.6476.9973.7166.7558.32我们的（正常模式）95.0495.1394.5191.7294.9169.0268.8764.0955.91+测试时间8月95.4795.3994.9092.3295.1470.1769.5765.1056.81我们的（改良型）95.9995.5994.4893.5295.8575.0970.8657.0339.95+测试时间8月96.7596.1694.9893.9396.4276.6572.9557.8340.31表5. 在对称和非对称噪声下，在CIFAR-10和CIFAR-100上测试所有竞争方法的准确度（%）。相关方法的结果见[28]和[53]。1%以内的方法以粗体显示。测试集无噪声标签有噪声标签精度95.8597.59表6. 在CIFAR10 Asym上测试了我们的模型在有和没有噪声标签的情况下的准确性。40%噪音使用相同的过程为训练和测试样本生成噪声标签。信任，因为它不能访问噪声标签。因为我们的模型已经了解到，没有任何其他类与狗混淆，所以当提供这些标签时，它会做出其他预测。这些结果表明，我们的模型已经学习了噪声关系，并且它可以使用图像特征和噪声标签（当它可用时）来生成更高置信度的预测。153524.5. 清洁集选择在图4的左侧，我们显示了自举后模型的置信度分布，并且可以看到最高置信度预测几乎完全是针对其预测在右边，我们显示了干净集合中最初干净的选定样本的百分比（即，如果没有执行任何形式的噪声平衡，则Y与真实标签匹配的样本）。我们看到，如果我们不执行噪声平衡，所选的干净集将不成比例地由干净样本组成，这将导致在SSL训练阶段学习噪声标签和干净标签之间的退化关系，从而防止从其他噪声转换中准确地重新标记样本。15353火车评价8月无弱强培训战略错误数量标签噪声预测（置信度）训练阶段精度Bootstrapping之后91.41半监督学习94.98最后训练95.85表7.由我们的模型在CI-FAR 10的Asym 0.4噪声中对测试样本（显示狗）使用不同的噪声标签进行预测‘-’ represents usinga null label in place of a noisy图4.直方图显示了自举后正确/不正确分类的置信度分布（左），以及CIFAR 10上50%对称噪声的最高置信度样本如何在理论上干净（右）。4.6. 消融和训练时间在表8、9和10中，我们对CIFAR 10 40%非对称噪声进行了大量消融研究。在表8中，我们显示了每个训练阶段后训练模型的准确性。我们看到，模型的准确性在每个训练阶段后都有所提高，最终训练使用MixUp和强增强提供了额外的0。在半监督学习阶段的准确率为87%在表9中，我们可以看到选择增强对自举阶段之后的干净集合中的错误数量的影响。我们看到，使用强增广训练大大减少了错误的数量然而，在评估阶段，对模型在多个弱增强上的预测进行平均执行得最好。我们看到这与Nishi等人的发现相匹配。[34]，他们发现使用强增强进行训练，使用弱增强进行损失建模效果最好。在表10中，我们看到使用自我监督预训练对自举后干净集中的错误数量产生了类似的巨大影响。在补充材料中，我们展示了使用“空标签”和不同模型架构的其他实验表8. 在CIFAR10 Asym上训练每个阶段后的模型精度。40%噪音没有一579361456弱26556300强282131表9. 不同的训练/测试增强对自举后选择的10，000个干净样本中错误数量的影响。在CIFAR10 Asym上进行测试。40%噪音没有自我监督369自我监督21表10. 自我监督对自举后选择的10 ，000 个干净样本在CIFAR10 Asym上执行测试40%噪音至于 CIFAR10 问题的训练时间，我们的方法在Nvidia RTX 2080上平均花费13.8h用于Simplified预训练，0.5h用于自举，7.5h用于SSL，2.5h用于最终训练（总计24.3h）。相比之下，Di- videMix[28]平均耗时5小时，而PropMix[10]的最新方法可能耗时长达10小时。5. 结论在本文中，我们提出了一种新的方法，预测标签从图像和它们的噪声标签。与其他方法不同，我们的训练过程不需要访问一组干净的数据，我们通过引入引导和仔细的基于噪声的平衡过程来实现。通过利用图像、噪声标签和“干净”标签之间的关系来准确地重新标记样本，我们发现我们可以实现SOTA结果。通过简单地改变所使用的模型，我们进一步统一了噪声标签学习和半监督学习领域，从而简化了架构，可以提高具有挑战性的实例相关噪声标签任务的性能。此外，我们发现，通过在训练过程中用“空”标签随机替换噪声标签-狗（90.27%）飞机汽车鸟鸟类（65.39%）汽车（62.75%）鸟类（98.30%）猫狗（94.51%）鹿鹿（96.06%）狗狗（96.29%）蛙马船卡车青蛙（96.49%）马（75.84%）船舶（95.46%）卡车（96.88%）15354引用[1] 埃里克·阿拉索，迭戈·奥尔特戈，保罗·阿尔伯特，诺埃尔·无监督标签噪声建模和损失校正。在机器学习国际会议上，第312-321页[2] Devansh Arpit，Stanisław Jastrzebski，Nicolas Ballas，DavidKrueger ， Emmanuel Bengio ， Maxinder S Kanwal ，Tegan Maharaj ， Asja Fischer ， Aaron Courville ，Yoelman Bengio，et al.深入研究深度网络中的记忆在机器学习国际会议上，第233242. PMLR，2017年。[3] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。《神经信息处理系统》，2014年第27期。[4] Dara Bahri，Heinrich Jiang和Maya Gupta。深k-nn对于嘈杂的标签。国际机器学习会议，第540-550页。PMLR，2020年。[5] 白颖斌，杨尔坤，韩波，杨艳华，贾彤Li，Yinian Mao，Gang Niu，and Tongliang Liu.理解和改进带噪声标签的学习早期停止。神经信息处理系统的进展，34：24392[6] David Berthelot ， Nicholas Carlini ， Ian Goodfellow ，NicolasPapernot ， AvitalOliver ， andColinARaffel.Mixmatch：半监督学习的整体方法。神经信息处理系统的进展，32，2019。[7] 鹏飞陈先生， Ben Ben 獠广勇 Chen和张胜宇。理解和利用使用噪声标签训练的深度神经网络。在International Conference on Machine Learning，第1062PMLR，2019年。[8] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[9] Ting Chen ， Simon Kornblith ， Kevin Swersky ，MohammadNorouzi和Geoffrey E Hinton。大的自监督模型是强半监督学习器。神经信息处理系统进展，33：22243[10] F. R. Cordeiro，Vasileios Belagiannis，Ian Reid和GustavoCarneiro Propmix：硬样本过滤和比例混合，用于带噪声标签的学习。2021年第32届英国机械视觉会议[11] Ekin D Cubuk ， Barret Zoph ， Dandelion Mane ， VijayVasude-van和Quoc V Le。自动扩增：从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集，第113[12] Ekin D Cubuk、Barret Zoph、Jonathon Shlens和Quoc V乐随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[14] 雅各布·戈德伯格和埃胡德·本·鲁文。训练深度使用噪声适应层的神经网络在ICLR中，2017.[15] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。神经信息处理系统进展，17，2004.[16] Keren Gu ， Xander Masotto ， Vandana Bachani ， BalajiLaksh-Minarayanan，Jack Nikodem，and Dong Yin.标签噪声学习的实例依赖仿真框架，2021。[17] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。神经信息处理系统的进展，31，2018。[18] Kaiming He ， Xiangyu Zhang， Shaoying Ren ， and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。[19] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKil-伊恩·Q·温伯格密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[20] Naoto Inoue， Edgar Simo-Serra ， Toshihiko Yamasaki ，and石川浩多标签时尚图像分类与最少的人的监督。在IEEE计算机视觉工作室国际会议论文集，第2261-2267页[21] Taehyeon Kim，Jongwoo Ko，JinHwan Choi，Se-YoungYun，Fine sampl

下载后可阅读完整内容，剩余1页未读，立即下载