噪声数据中提取硬置信样本的深度学习方法

94 浏览量更新于2023-10-15 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9312我-动量：从噪声数据中提取硬置信样本刘颖斌白同良*悉尼大学可信机器学习实验室摘要接近决策边界的例子-我们称之为硬例子，对于形成准确的分类器是必不可少的。在噪声标签学习社区中，提取置信样本已经得到了广泛的研究。然而，如何从噪声训练数据中提取硬置信样本仍然是难以捉摸的。在本文中，我们提出了一种深度学习范式来解决这个问题，它建立在深度神经网络的记忆效应上，即它们首先学习简单的模式，即其由多个训练示例所共享的这些来定义。为了提取包含非简单模式并且与不准确标记的示例纠缠在一起的硬置信示例具体来说，我们交替更新的信心的例子和完善的分类。注意，可以利用在前一轮中提取的置信示例来学习更好的分类器，并且更好的分类器将帮助识别更好的（并且困难的）置信示例。我们称这种方法为基准模拟和现实世界的标签噪声数据的实证结果说明了有效性的Me-Momentum提取硬置信的例子，导致更好的分类性能。1. 介绍由于训练数据集越来越大，而准确地标记它们通常是昂贵的，有时甚至是不可感染的，因此具有标签噪声的廉价数据集在许多现实世界的应用中无处不在。如果不加任何照顾，标签噪声会降低学习算法的性能，特别是对于那些基于深度神经网络的算法[57]。带噪声标签的学习[1]旨在减少标签噪声的副作用，因此已成为机器学习中的一个重要课题。现有的噪声标签学习方法可以分为两类：导致sta-n的算法*与刘同良的通信（tongliang. sydney.edu.au）。统计上一致或不一致的分类器。第一类中的方法旨在设计分类器一致的算法[58，14，35，7，39，56，24，54，50，45，49，20]，其中通过使用噪声数据学习的分类器将在统计上收敛到由干净数据定义的最佳分类器。然而，这些方法严重依赖于噪声转移矩阵[23，32，51]。在现实世界的应用中，很难学习依赖于实例的噪声转移矩阵[5]。为了避免估计噪声转移矩阵，第二类中的方法采用启发式来减少标签噪声的副作用[27，25，38，33，9，8，43，41，21，19]。据报道，这些方法凭经验工作良好，特别是在实例依赖性标签噪声的设置中。第二类中的一个有希望的方向是提取具有干净标签的示例-置信示例- [31，40，30，6，44，34，47，48]。其思想是，与原始噪声训练数据相比，提取的样本噪声较小，因此将导致具有更好性能的分类器。仅给定噪声数据，最先进的方法利用记忆效应[57，2]来提取置信示例。记忆效应将使深度神经网络能够首先学习大多数训练示例共享的模式。由于干净的标签在每个噪声类中占多数[29，52]，因此深度神经网络将首先用干净的标签拟合训练数据，然后逐渐用不正确的标签拟合样本[4]。因此，早期停止[19，36]和小损失技巧[13，10，55]可以用于利用置信示例。接近决策边界的例子被称为硬例子。如图1所示，硬（置信）示例在形成决策边界方面起着重要作用在传统的分类问题中，硬样本对于训练准确的分类器是必不可少的，这一点也得到了广泛的研究[42，3，12，11]。然而，由于硬置信样本的重要性，现有的方法都没有研究如何从噪声数据中提取硬置信样本。请注意，提取困难的自信示例是不费力的。由于困难的例子往往是一个小的比例，并包含较少的判别信息相比，容易的（这些是远离决策边界），他们往往是entan。9313(a) 分类与干净数据(b) 分类与噪声标签(c) 分类无硬可信实例(d) 分类与硬可信实例图1.分类中困难（自信）示例的影响的说明圆圈表示正面示例，而三角形表示负面示例。绿色和蓝色表示具有准确标签的示例，而红色表示具有不正确标签的示例。空白圆圈和三角形表示未提取的数据。(a)显示了使用干净数据进行分类的示例。(b)显示噪声的例子，特别是那些接近决策边界，将显着退化的分类器的准确性。(c)显示自信的例子有助于学习一个相当好的分类器。（d）示出了硬置信示例对于训练准确的分类器是必不可少的在提取过程中，使用不准确的标记示例。在本文中，通过交替更新置信样本和改进分类器，我们提出了一种深度学习范式，能够从噪声训练数据中提取出难以置信的样本，从而获得更好的分类性能。具体来说，这个想法类似于物理学中动量的用法如统计学习理论所述，使用更好的训练数据，可以获得更好的分类器[28]。然后，我们可以将分类器视为穿过假设空间的粒子，从置信数据中获得加速。通过适当地利用先前提取的置信样本，可以获得具有更好性能的分类器这类似于优化中使用的动量技巧，即先前的梯度信息可用于逃避局部最小值并实现快速收敛速度[37]1。在高水平上，所提出的方法建立在深度神经网络的记忆效应和直觉上，即更好的置信示例将产生更好的分类器，并且更好的分类器将识别更好的置信示例（和硬置信示例）。因此，所提出的方法被称为记忆动量（Me-Momentum）。我们进行实验，以显示所提出的Me-Momentum的有效性的噪声版本的MNIST，CIFAR 10，CIFAR 100，和现实世界的标签噪声数据集Clothing 1 M。具体来说，在MNIST和CIFAR上，我们生成依赖于类和依赖于实例的标签噪声，并可视化提取的硬置信示例，这证明了为什么Me-Momentum始终优于基线方法。2. 我-动量在本节中，通过指定所提出的动量记忆法（Me-Momentum;总结在算法1），我们想详细说明如何完成提取困难的信心的例子，并提高1在优化中，参数向量可以被认为是通过参数空间行进的粒子，从损失的梯度获得加速度动量技巧表明，在以前的更新梯度可以帮助逃脱局部最小值，并实现快速收敛率。分级性能在高级别上，通过交替地更新置信示例和改进分类器，Me-Momentum实现了一个正循环，即更好的置信示例将产生更好的分类器，并且更好的分类器将识别更好的置信示例。特别地，Me-Momentum具有两个回路，即，内环和外环。在内部循环中，Me-Momentum 交替更新置信示例和分类器（步骤2和3）。然而，内部循环不断地细化分类器，因此严重依赖于分类器的初始化（步骤1）。它可能导致记忆噪声标签和样本选择偏差的劣性。为了处理这个问题，外循环重新初始化分类器（步骤5），同时保持先前提取的置信示例。对于所提出的算法1，有一些要点需要澄清：Q1.如何在步骤1中初始化一个好的分类器？Q2.如何在步骤2中提取自信的例子？Q3.如何在没有干净的验证集的情况下验证步骤3和步骤5中学习的分类器？Q4. 什么是坚定自信的例子？Q5.为什么可以提取出有信心的例子？Q6. 为什么这个方法被称为Me-Momentum？为了回答第一个问题，我们要提到的是，步骤1中初始化的目的是为正循环初始化一个好的分类器：更好的分类器将识别更好的置信示例，并且更好的置信示例将产生更好的分类器。好的候选应该具有相当高的分类准确度，例如，高于随机猜测。否则，就无法启动正循环幸运的是，可以通过利用深度神经网络的记忆效应来进行初始化，该深度神经网络将首先拟合干净的数据[2，57]。请注意，这种记忆效应与训练优化或网络骨干无关[2]。具体地说，我们使用提前停止的技巧。为了便于理解，我们将引入高峰值的定义。如果第i个历元处的噪声验证精度达到第i个峰值，则将其称为第i个高峰值。9314--- −≤在历元范围1，. . . ，岛假设第i个和第j个高峰值彼此相邻地出现，分别具有a和b的噪声验证精度如果（ba）/（j i）τ，则训练提前停止，其中τ是超参数。在实验中，我们设置τ=0。1，其在所有数据集上都有效。在3.4节中，我们比较了早期停止方法和传统验证方法之间的差异。我们还研究了超参数的敏感性。第二个问题的答案与记忆效果密切相关。注意，在步骤1中初始化的分类器将很好地拟合干净的数据，但由于记忆效应和过早停止而不能拟合不正确标记的数据。因此，我们可以将噪声标签与步骤1中获得的分类器预测的噪声标签相同的训练示例视为置信示例。这也适用于步骤3中的分类器以提取置信样本，其通过采用更新的置信数据来迭代地训练注意，存在一些其他可行的方法来提取置信示例，例如，提取那些有一个大类后。在步骤3中，我们的目标是学习一个比上一轮更好的分类器。这可以通过两个原因实现：（1）我们用在前一轮中学习的分类器的参数初始化网络;(2)我们有一组更好的置信样本作为训练样本。这开始了一个积极的循环，即更好的置信示例将产生更好的分类器，并且更好的分类器将识别更好的置信示例。第三个问题对于确定循环中的量词是必不可少的请注意，准确标记的示例始终被假定为在社区中的每个类中占主导地位学习噪声标签[29，23，10]。否则，真正的类别标签不能被识别，仅利用噪声数据。该假设意味着在有噪声的验证集（从有噪声的训练集分离）上的性能和在测试集上的性能是正相关的。如果没有干净的验证集可用，则噪声验证集可以用作验证分类器的代理。因此，我们在训练期间以最高的噪声验证精度验证步骤3和5中的分类器实验结果表明，该方法效果良好。为了回答第四个问题，我们通过利用深度神经网络的记忆效应来定义硬示例，即，深度神经网络首先拟合大多数（或容易）模式，然后拟合少数（或困难）模式。具体地，硬示例是包含次要（或硬）图案的那些请注意，硬模式通常与不正确的标签纠缠在一起。在回答了第五个问题之后，我们再回答第五个问题。通过简单地利用记忆效应，提取具有硬模式的自信示例是困难的。然而，通过使用所提出的 Me-Momentum方法，我们可以从中提取一些具体的例子。由于深度神经网络的记忆效应，模型首先拟合简单模式，即，具有简单特征的示例，其中一些然后，深度神经网络可以从拟合的示例中学习硬模式，这使得深度神经网络可以从与不正确的标签纠缠的那些示例中提取硬置信示例。可视化如图3所示。为了回答第六个问题，我们首先要指出，所提出的方法严重依赖于深度神经网络的记忆效应具体地，在步骤1中，通过利用经由早期停止的记忆效应来初始化分类器，该早期停止用于识别置信示例。之后，分类器和置信样本分别被迭代地细化和更新，这是我们之前提到的正循环请注意，此循环还依赖于记忆效应来更新置信示例和改进分类器。我们的方法被命名为记忆的动量（我动量），因为它使用的动量的技巧，以更好地利用记忆效果。具体地，我们可以将分类器视为穿过假设空间的粒子，从更新的提取的置信数据中获得加速。我们利用先前提取的置信示例来帮助学习更好的分类器，通过使用上一轮提取的置信示例来训练网络。随着我们继续提取更多的置信示例，置信示例的影响将增加。与现有工作的关系交替优化分类器和更新训练样本的策略例如，Joint Optim [38]，Co-teaching [10，55]和SELF [30]与我们的相似。具体而言，联合优化和协同教学更新分类器的一个步骤的随机梯度下降，而SELF和所提出的方法完善的分类器是最佳的相对于提取的置信度的例子。然而，现有的方法并没有集中在提取硬置信的例子，因此是实质上不同于本文，因为他们忽略了避免的重要性，所造成的累积误差的单一初始化的分类器和样本选择的偏见。实验（例如，图2和图3）示出了具有外环部分的Me-Momentum（即，分类器的重新初始化）显著地有助于提取硬置信示例并实现高标记精度。Me-Momentum类似于课程学习，因为它也是从容易到困难的学习。然而，课程学习需要预定义的课程（样本加权方案），例如，为置信/噪声数据分配大/小权重。如果课程不可用，则需要一些干净的数据来学习mentornet以提供课程[13]，或者可以通过自定进度学习[16]引入潜在变量不同的是，我--9315×个×个算法1我-动量输入：噪声训练数据，噪声验证数据，迭代次数N内部和N外部;输出：抽取出置信样本和分类器;1：通过使用噪声训练数据和早期停止来初始化分类器f 〇;//记忆效果对于i = 1，. . . ，N外DO对于j = 1，. . . ，N个内部do2：更新提取的置信示例;//即，噪声标签与由fj-1预测的噪声标签相同的训练样本3：获得分类器fj;//使用fj−1的参数初始化网络，并使用置信样本训练它;分类器fj将在整个训练过程中被选择为具有最高噪声验证精度4：如果最高验证精度在循环中不增加，则中断并输出fj-1端5：重新初始化分类器f〇;//随机初始化网络，并使用置信样本进行训练;将在整个训练过程中选择具有最高噪声验证精度的分类器f06：如果最高验证精度在循环中不增加，则中断并输出fj−1端Momentum仅基于噪声数据，并不明确学习课程。Me-Momentum也与主动学习有类似的味道，主动学习倾向于在每次迭代中选择和标记困难的例子来学习然而，对于主动学习，在选择数据之前没有标签信息可用，而Me-Momentum具有噪声标签，并且需要考虑标签噪声的副作用。3. 实验数据集：为了验证所提出的方法的有效性，我们在具有合成和真实世界标签噪声的数据集上进行了实验。具体来说，我们使用类相关标签噪声和实例相关标签噪声手动破坏 MNIST[17] 、 CIFAR10 和CIFAR100[15]我们在附录1中详细介绍了如何生成类相关和实例相关的标签噪声。我们采用真实世界的噪声数据集Clothing1M[52]。这些数据集已被广泛用于带有噪声标签的研究[10，38，51]。对于MNIST、CIFAR10和CIFAR100，我们省略了10%的噪声训练数据作为噪声验证数据。Cloth-ing 1 M包含100万个带噪训练图像，这些图像是从购物网站上抓取的，通过环绕标记正在处理文本。几乎所有现有的工作在他们的实验中使用14k干净的验证数据为了验证所提出的方法的鲁棒性，我们还采用噪声验证数据在我们的实验中。具体地，随机地留下100k噪声数据作为噪声验证数据，并且剩余的900k噪声数据作为训练数据。基线：将Me-Momentum与以下最先进的方法进行比较。(1)统计一致性方法：Forward [32]、T-修订[51]和DMI [53];(2)统计学不一致的方法：[ 13 ]，[14]，[15]，[16]，[17]，[18]，[19]videMix [18] ， ELR+ [22] ，其中 MentorNet ， Co-teaching，SELF和DivideMix使用通过采用小损失技巧提取自信示例的想法。请注意，Di- videMix和ELR+采用半监督方法用于不自信的示例，这使它们在自信示例数量有限的合成数据集因此，我们只在真实世界的数据集上将我们的方法与网络结构和优化：所有的方法都是在PyTorch v1.5中实现的。对于MNIST、CIFAR 10和CIFAR 100上的实验，我们为每个内环设置Ninner=20，Nouter=3，100个epoch，并遵循T-修订版的设置[51]。具体而言，LeNet-5 、 ResNet- 18 和 ResNet-34 网络分别用于MNIST、CIFAR 10和CIFAR 100我们使用SGD，动量为0。9，权重衰减10-4，批量大小128，初始学习率为10-2，分别在第40个epoch和第80个epoch后除以10（我们将提前停止方法的学习率固定为10-2数据增强与水平随机翻转和32 - 32随机裁剪一起使用，在每侧填充4个对于Clothing 1 M，使用ResNet-50。为了证明所提出的方法的有效性，我们做了实验，随机初始化的网络和预训练，它采用ImageNet，分别。由于噪声训练样本包含大量示例，因此我们为每个内部循环设置N内部=6和N外部=3和5个我们使用SGD，动量为0.9，权重衰减为10−3，批量大小为32，学习率为510-3，并将其除以在第3轮和第5轮内循环中以10分领先。对于每个外部循环，模型将被随机重新初始化（或被预先训练的模型替换）。学习率将重置为5×10−3。对于数据增强，所有图像9316标签精度标签精度×个×个（CIFAR 10，对称-40%）99（CIFAR 10，实例-40%）98（CIFAR 100，对称-40%）100（CIFAR 100，实例-40%）98九八九六九七九四九六九二969994九八九二90九七八八86九五九五九五84940246810十二个轮（CIFAR 10，对称-40%）28k880 5 10 1520轮（CIFAR 10，实例-40%）30k9505十个15202530轮（CIFAR 100，对称-40%）28k820 5 10 15 20轮（CIFAR 100，实例-40%）28k27k29k26k26k26k25k24k28k27k26k25k24k22k20k18k24k22k20k18k23k0246810十二个轮（CIFAR 10，对称-40%）908886848224k0 5 10 1520轮（CIFAR 10，实例-40%）9088868482807816k05十个15202530轮（CIFAR 100，对称-40%）646260585654525016k0 5 10 15 20轮（CIFAR 100，实例-40%）6260585654525048800246810十二个轮760 5 10 1520轮4805十个15202530轮460 5 10 15 20轮图2.我们将分类器的一次更新和提取的置信示例称为一轮。我们说明了如何提取的置信示例的标签精度，提取的置信示例的数量，以及通过使用提取的置信示例训练的分类器的分类精度在Me-Momentum的训练过程中的变化我们在这些图中有三个明显的峰值因为我们已经设置了N_outer = 3并且分类器在外循环中被重新初始化。第二行中的虚线表示数字在嘈杂的训练数据中的干净标签。大小调整为256 256，水平随机翻转，以及256 256随机裁剪，每边填充32个像素。请注意，由于页面限制，一些补充-第3.1节和第3.2节的初步实验以及与SELF的该代码可在 https://github.com/tmllab/Me-Momentum上获得。3.1. 验证记忆在第2节中，我们讨论了Me-Momentum是通过实现正循环来实现的，即更好的置信示例将产生更好的分类器，并且更好的分类器将识别更好的置信示例。在本小节中，我们将根据经验验证这个正循环，这可以在合成数据集上完成，因为我们有它们的地面实况标签。在图2中，我们可以看到，在内部循环（例如，图的第一列中的轮0-5、轮6-9和轮10-12分别表示三个内部循环），分类准确度通常增加（注意，图是不平滑的，因为分类器是在看不见的测试数据上测试的），并且所提取的置信样本的数量增加。样本明显增加（尽管它们的标签精度稍微降低）。我们还可以看到，在外环中（例如，图的第一列中的轮次0、6和10由外循环组成），分类精度明显增加，并且提取的置信样本的标记精度明显增加（尽管提取的置信样本的数量略微减少）。这意味着，与以前的分类器和提取的置信度的例子相比，得到更好的，这从实证上证明了正循环。注意，外循环中的图2还显示了Me-Momentum外环的重要性。我们可以看到，提取的置信样本的标签精度在内部循环中略有下降这是因为深度模型在我们不断完善它时会逐渐记住噪声标签。这个问题可以通过在外部循环中重新初始化深度模型来处理。具体来说，我们可以从图2中看到，通过在外循环中重新初始化模型，提取的置信示例的标签精度显著提高。置信数据编号测试精度标签精度置信数据编号测试精度标签精度置信数据编号置信数据编号测试精度测试精度9317图3.提取的置信示例的可视化。第一列和第三列是关于在内部循环的第一次运行中提取的置信数据;而第二和第四列是关于在外部循环中提取的置信数据。具体地，绿点表示在第一轮中选择的数据。蓝点和红点分别表示中间和结束轮次中新提取的数据。补充材料中提供了CIFAR100表1.MNIST分类精度的均值和标准差翻转速率交叉熵MentorNet合作教学向前联合优化DMIT型翻修CDR我们Sym-20%97.88%0.27%96.57%0.18%97.22%0.18%百分之九十八点二二0.08%百分之九十八点五八0.15%±0.15%98.92%0.11%百分之九十八点九一±0.04%百分之九十八点七六±0.07%百分之九十八点九四±0.13%Sym-40%97.41%0.18%96.16%±0.49%94.64%±0.33%96.71%0.16%百分之九十八点一二0.06%百分之九十八点六三0.11%百分之九十八点四二±0.47%百分之九十八点四0.17%百分之九十八点六六±0.07%仪器-20%97.61%0.28%94.66%±0.35%95.37%0.08%95.89%±0.12%98.10%0.14%98.75%0.11%百分之九十七点一二0.09%百分之九十八点一八0.09%98.96%0.06%仪器-40%92.93%±0.81%88.51%±0.36%90.06%±0.81%88.95%±2.47%92.00%±1.39%97.58%±0.82%94.89%±0.66%93.43%±1.12%98.11%±0.35%表2.CIFAR10分类准确度的平均值和标准差翻转速率交叉熵MentorNet合作教学向前联合优化DMIT型翻修CDR我们Sym-20%85.00%±0.43%百分之八十点四九0.11%87.16%±0.52%85.63%0.11%89.70%±0.36%88.18%±0.13%89.63%±0.33%89.68%±0.38%91.44%±0.33%Sym-40%79.59%±1.31%77.48%±3.45%83.59%0.28%74.30%0.26%87.79%±0.20%83.98%±0.48%86.81%±0.21%86.13%±0.44%88.39%±0.34%仪器-20%85.92%±1.09%79.12%±0.42%86.54%0.11%85.29%±0.38%89.69%±0.42%89.14%±0.36%90.46%±0.13%90.24%±0.39%百分之九十点八六±0.21%仪器-40%79.91%±1.41%70.27%±1.52%80.98%±0.39%74.72%±3.24%82.62%±0.57%84.78%±1.97%85.37%±3.36%83.07%±1.33%86.66%0.91%9318虽然所提取的置信示例的数量减少，但是所提取的置信示例的总体质量正在增加，如由置信度的增加所证明的在提取的置信数据上训练的分类器的分类准确度。请注意，内部循环的第一次运行中的低数据质量也证明了单个深9319表3.CIFAR100分类精度的平均值和标准差翻转速率交叉熵MentorNet合作教学向前联合优化DMIT型翻修CDR我们Sym-20%57.59%±2.55%52.11%0.10%±0.10%59.28%±0.47%57.75%±0.37%64.55%±0.38%58.73%±0.70%65.40%±1.07%66.52%±0.24%68.03%±0.53%Sym-40%45.74%±2.61%35.12%±1.13%51.60%±0.49%38.59%±1.62%57.97%±0.67%49.81%±1.22%57.71%±0.84%60.18%0.22%63.48%±0.72%仪器-20%59.85%±1.56%51.73%0.17%57.24%0.69%58.76%±0.66%65.15%±0.31%58.05%±0.20%60.71%±0.73%67.06%±0.50%68.11%±0.57%仪器-40%43.74%±1.54%百分之四十点九±0.45%45.69%0.99%44.50%±0.72%55.57%±0.41%47.36%±0.68%51.54%0.91%56.86%±0.62%58.38%±1.28%模型初始化可能导致样本选择偏差。存在所提出的方法的有趣观察，即所提取的置信示例的数量接近于训练集中的准确标记的数据的数量，并且所提取的置信示例的标记精度几乎都在90%以上。这从经验上证明了Me-Momentum在提取有信心的例子方面是强大的。在下一小节中，我们将可视化Me-Momentum也擅长提取难以置信的示例。3.2. 形象化地展示艰难自信的例子为了证明Me-Momentum能够提取硬置信示例，我们通过采用t-SNE [26]来可视化提取的置信具体来说，我们展示了如何逐步提取的内部和外部循环的信心的例子。结果如图3所示，其中绿色、蓝色和红色点分别表示在循环的开始、中间和结束循环时提取的置信样本。在MNIST和CI-FAR 10的数据集上，我们可以清楚地看到蓝色和红色的点大多位于绿色点集群的边界。虽然CIFAR100的数字很小，但我们也可以清楚地看到，在第二和第四个数字中，绿色集群之外有很多蓝色和红色的点。这支持并证明了我们的主张，即Me-Momentum能够提取硬置信样本（接近决策边界）。将内循环的第一次运行的提取结果（第一列和第三列）与外循环的提取结果这进一步证明了为什么可以通过在外部循环中重新初始化来获得更好的分类性能。通过比较类相关标签噪声数据集和实例相关标签噪声数据集上提取的置信样本，我们可以观察到该方法对标签噪声的类型不敏感，并且可以很好地工作在最一般的实例相关标签噪声情况下。3.3. 分类精度合成数据为了评估Me-Momentum的分类性能，我们首先对以下数据进行实验：表4.Clothing1M上的分类精度。方法验证精度交叉熵清洁69.54%MentorNet清洁56.77%合作教学清洁58.68%向前清洁69.84%联合优化清洁72.23%DMI清洁72.46%T型翻修清洁74.18%DivideMix清洁74.76%ELR+清洁74.81%我们的（预先训练）嘈杂73.13%我们的（划痕）清洁74.75%我们的（预先训练）清洁75.18%MNIST、CIFAR10和CIFAR100，具有类相关和实例相关标签噪声。每个试验重复五次。结果分别列于表1、2和3中。Me-Momentum始终优于基线。具体而言，CIFAR100是三个数据集中最具挑战性的一个。Me-Momentum在所有设置中的表现都明显优于基线，如表3所示。注意，Me-Momentum中的性能增益是由所提取的置信示例的质量的提高引起的。在基线中，Co-teaching，Joint Optim和T- revision是分别通过提取置信样本，细化噪声标签和利用噪声转移矩阵来学习鲁棒分类器的代表性方法。请注意，协同教学不断更新SGD中使用的小批量中的因此，我们不与第3.2节中提取的置信示例进行比较，因为我们的方法一次从整个训练数据中提取置信示例通过比较分类性能，我们可以清楚地看到，所提出的方法是更强大的提取自信的例子。注意，联合优化和T-修正采用所有训练数据来训练分类器;而我们的方法只使用确信的样本而丢弃不确信的样本。结果进一步证明Me-Momentum能够提取高质量的置信样本。请注意，Me-Momentum的性能可能9320}{- −≤（CIFAR 10，对称-20%）90807060504030（CIFAR 10，对称-40%）706050403020（CIFAR 10，实例-20%）807060504030（CIFAR 10，实例-40%）706050403020图4.比较步骤1中的提前停止方法与传统验证方法之间的差异，其中在整个训练过程中具有最高验证精度的分类器将被输出。绿色虚线表示早期停止发生的时期;而橙色虚线表示在整个训练过程中达到最高验证精度的时期。在第三图中，两条虚线彼此相同。τ=0。1，它在所有数据集上都能很好地工作。在图4中，我们比较了所提出的提前停止方法和传统验证方法之间的差异。将图4中的蓝色虚线与黄色虚线进行比较，我们可以观察到所提出的早期停止策略停止得更早并且适合更少的噪声，而传统方法将继续适合更多的数据并且因此适合更多的噪声。我们还研究了超参数的敏感性。具体地说，我们通过将 τ 设置为范围内的值来研究其对 CIFAR10 的0.05，0.07，0.1，0.3，0.5.其他设置与本文相同。结果示于图5中。我们可以看到，类-图5.说明提取硬置信示例。通过联合优化的思想对不可信数据进行修正，可以进一步提高算法的性能在表4中，我们将Me-Momentum与Clothing 1 M上的基线方法进行了比较，其中“预训练”和“scratch”分别意味着网络通过采用ImageNet进行预训练并随机初始化;“干净”和“有噪声”分别意味着验证数据是干净的和有噪声的。首先，据观察，Me-Momentum与噪声验证一起工作得很好，甚至超过了清洁验证的许多基线为了公平的比较，我们还使用清洁验证来验证我们的方法，它达到了最高的测试准确率为75.18%，比T-修订1%和联合优化2.95%。注意，Forward和T-revision需要50 k干净数据来估计转换矩阵，而Me-Momentum不需要任何干净数据来进行训练。此外，为了展示Me-Momentum的鲁棒性，我们从头开始使用ResNet-50进行实验，它达到了第二好的准确性。3.4. 消融研究我们讨论的早期停止技巧中使用的步骤1的Al-m1。如果（b a）/（j i）τ，则训练提前停止，其中τ是超参数。在实验中，我们设置Me-Momentum算法具有较强的鲁棒性，对τ值的变化不敏感。4. 结论在本文中，我们提出了一种名为Me-Momentum的方法，该方法能够通过利用深度神经网络的记忆效应，从噪声标记的数据中提取硬置信样本。在高水平上，它实现了一个正循环，即更好的置信度示例将产生更好的分类器，并且更好的分类器将识别更好的置信度示例。我们通过分析提取的示例的统计数据，可视化硬置信示例，并将其分类性能与最先进的基线进行比较，来实证验证其有效性。在未来，我们将通过利用和开发不确定的示例来扩展我们的工作，例如，以半监督的方式来进一步提高性能。5. 致谢作者要感谢Yu Yao和Xiaobo Xia提供的有益建议。作者还要感谢审稿人和地区主席的有益评论。YB得到了农业顾问和Smart Management的支持。TL得到了澳大利亚研究委员会项目DE-190101473的支持。精度精度精度精度列车接入值访问选择最高0102030400十点二十分30010 20 3040010 20 3040时代时代时代时代9321引用[1] Dana Angluin 和 Philip Laird 从嘈杂的示例中学习。Machine Learning，2（4）：343-370，1988. 一个[2] Devansh Arpit，Stanisław Jastrzebski，Nicolas Ballas，DavidKrueger ， EmmanuelBengio ， MaxinderSKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville，and Yoshua Ben- gio.深入研究深度网络中的记忆在ICML，第233-242页，2017年。一、二[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。在ICML ，第41-48页，2009中。一个[4] Pengfei Chen ， Ben Ben Liao ， Guangyong Chen ， andShengyu Zhang.理解和利用使用噪声标签训练的深度神经网络。在ICML，第1062- 1070页，2019年。一个[5] JiachengCheng，TongliangLiu，KotagiriRamamohanarao，and Dacheng Tao.使用有界实例和标签相关标签噪声进行学习。在ICML，2020。一个[6] 马克·德雷兹科比·克莱默和费尔南多·佩雷拉置信度加权线性分类。在ICML，第264-271页，2008中。一个[7] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。在ICLR，2017。一个[8] Sheng Guo ， Weilin Huang ， Haozhi Zhang ， ChenfanZhuang，Dengke Dong，Matthew R Scott，and DinglongHuang.Cur- riculumnet：大规模网络图像的弱监督学习。在ECCV，第135-150页，2018年。一个[9] Bo Han，Jiangchao Yao，Gang Niu，Mingyuan Zhou，Ivor Tsang，Ya Zhang，and Masashi Sugiyama.掩蔽：噪声监督的新视角。在NeurIPS，第5836- 5846页，2018年。一个[10] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。在NeurIPS，第8527-8537页，2018年。一、三、四[11] Warren He，Bo Li，and Dawn Song.对抗性实例的决策边界在ICLR，2018年。一个[12] Sheng-Jun Huang，Rong Jin，and Zhi-Hua Zhou.通过查询信息丰富和有代表性的示例进行主动学习。在NeurIPS，第892-900页，2010中。一个[13] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei. MentorNet：在损坏的标签上学习非常深的神经网络的数据驱动课程。在ICML，第2309-2318页，2018年。一、三、四[14] Jan Kremer，Fei Sha，and Christian Igel.稳健的活动标签校正。在AISTATS，第308-316页，2018年。一个[15] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，2009年。四个[16] M Pawan Kumar，Benjamin Packer，and Daphne Koller.潜变量模型的自定进度学习在NeurIPS，第1189-1197页三个[17] Yann LeCun、Corinna Cortes和Christopher J.C.伯吉斯MNIST手写数字数据库。http://yann.lecun.com/exdb/mnist/，1998年。四个9322[18] Junnan Li，Richard Socher，and Steven C. H. Hoi Di-videmix ：带噪声标签的学习是半监督学习。在ICLR，2020年。四个[19] Mingchen Li ， Mahdi Soltanolkotabi ， and SametOymak.具有早期停止的梯度下降可证明对过参数化神经网络的标签噪声具有鲁棒性。在AIS中-TATS，2020年。一个[20] Xuefeng Li，Tongliang Liu，Bo Han，Gang Niu，andMasashi Sugiyama.可证明的无锚点的端到端标签噪声学习在ICML，2021。一个[21] Yuncheng Li，Jianchao Yang，Yale Song，LiangliangCao，Jiebo Luo，and Li-Jia Li.用蒸馏从噪声标签中学习。在ICCV，第1910-1918页，2017年。一个[22] Sheng Liu，Jonathan Niles-Weed，Narges Razavian，and Car- los Fernandez-Granda.早期学习正则化防止噪声标签的记忆。在NeurIPS，2020年。四个[23] 刘同良和陶大成。通过重要性重新加权的噪声标签分类。IEEE Transactions on pattern analysis and machineintelligence，38（3）：

下载后可阅读完整内容，剩余1页未读，立即下载