没有合适的资源?快使用搜索试试~ 我知道了~
Ahmet Iscen1Jack Valmadre* 2Anurag Arnab1Cordelia Schmid146720学习邻居一致性以处理噪声标签01 谷歌研究 2 阿德莱德大学人工智能与机器学习实验室0摘要0最近深度学习的进展依赖于大型标记数据集来训练高容量模型。然而,以时间和成本高效的方式收集大型数据集往往会导致标签噪声。我们提出了一种从噪声标签中学习的方法,利用特征空间中训练示例之间的相似性,鼓励每个示例的预测与其最近邻的预测相似。与使用多个模型或不同阶段的训练算法相比,我们的方法采用了简单的额外正则化项的形式。它可以被解释为经典的归纳式标签传播算法的一种形式。我们在评估合成(CIFAR-10,CIFAR-100)和现实(mini-WebVision,WebVision,Clothing1M,mini-ImageNet-Red)噪声的数据集上对我们的方法进行了全面评估,并在所有数据集上实现了竞争性或最先进的准确性。01. 引言0尽管深度学习在图像分类任务中可以达到前所未有的准确性,但它需要一个通常很昂贵的大型有监督数据集。无监督和半监督学习试图通过整合无标签示例来减轻这个要求。然而,这些方法无法利用现代世界中各种噪声标签的来源,例如社交媒体中带有标签的图像或通过文本查询检索的网页中包含的图像。因此,对于深度学习来说,对标签噪声具有鲁棒性的训练算法非常有吸引力。最近的工作中,处理有噪声标签的主要方法是使用模型自身的预测来拒绝或修改训练示例(例如[1, 13, 22, 26, 29, 33, 37,46])。由于深度网络可以拟合任意标签[47],这本质上是有风险的,因此重要的是采取重要的措施来防止过拟合。此外,这种范式通常会导致复杂的训练过程,例如维护多个模型或在更新模型和更新训练集之间交替。0* 在谷歌完成的工作。0本文提出了邻居一致性正则化(NCR)来解决在有噪声标签的情况下学习的特定问题,如图1所示。与采用模型预测作为伪标签不同,NCR引入了额外的一致性损失,鼓励每个示例的预测与其邻居的预测相似。具体而言,邻居一致性损失惩罚了每个示例的预测与其邻居的预测的加权组合之间的差异,权重由它们在特征空间中的相似性确定。NCR的动机是通过邻居的标签改进或至少减弱错误标签,这依赖于噪声足够弱或无结构,以至于不会压倒正确标签的假设。与流行的模型预测引导方法相比[33],NCR可以看作是对学习到的特征表示进行引导,这可能降低其对过拟合的敏感性并提高其在随机初始化时的稳定性。NCR受到半监督学习中标签传播算法的启发[15, 19,49],这些算法根据特征空间中的相似性将标签从有监督示例传播到相邻的无监督示例。然而,标签传播通常在整个数据集上以批处理方式执行,而我们的方法在随机梯度下降期间在小批量内有效地执行标签传播。这导致了一个简单的单阶段训练过程。此外,与现有的标签传播方法不同,它们只在训练期间提供的特定示例上产生标签,NCR可以被理解为一种归纳形式的标签传播,因为它产生了一个稍后可以应用于对未见示例进行分类的模型。本文的主要贡献如下。0• 我们提出了Neighbor ConsistencyRegularization(NCR),一种用于处理带有噪声标签的深度学习的新型损失项,它鼓励具有相似特征表示的示例具有相似的预测。0•我们凭经验证明,NCR在从合成和真实分布中的各种噪声水平上比几个重要的基准方法都具有更好的准确性。46730,并且与流行的mixup正则化技术相辅相成。0•我们证明NCR在评估合成(CIFAR-10和CIFAR-100)和真实(mini-WebVision [22],mini-ImageNet-Red[18],Clothing1M[43])噪声场景的数据集上实现了竞争性或最先进的准确性。02. 相关工作0本节回顾了使用深度学习进行图像分类的相关工作,并将其与我们提出的方法进行比较。需要注意的是,虽然有很多研究工作在假设有一小部分可信的干净样本的情况下研究噪声标签问题,但本文考虑的是没有这种情况的变体。正则化。正则化在标签噪声下起到了重要作用,它限制了高容量模型拟合任意标签的能力。事实上,仅仅通过正则化就可以显著提高对标签噪声的鲁棒性,许多算法将有效的正则化策略与显式的噪声处理技术相结合,以进一步提高鲁棒性。一种特别有效的正则化形式是mixup增强[48],它通过在图像空间和标签空间中对一对样本进行线性插值来生成额外的样本。最初它被证明对CIFAR-10上的合成标签破坏提供了鲁棒性。除了正则化的选择外,还有许多可能的方法来处理噪声标签。早期对带有标签噪声的深度学习的研究集中在估计标签转移矩阵[31, 35]或对异常值鲁棒的损失函数[11, 33,45]上。最近,已经提出了许多方法来重新加权或重新标记被认为具有错误标签的示例。我们在下面简要回顾这些研究成果。噪声标签的模型预测。许多方法在训练过程中使用模型自身的预测结果来生成伪标签或识别错误示例(或两者兼有)。对于深度学习,这通常利用了正确标签往往比错误标签更早近似的现象[26]。Reed等人首次提出了引导损失,其中注释标签和当前预测的固定线性组合被采用作为每个示例的回归目标。我们的方法可以被认为是一种引导方法,它使用了学习到的相似性而不是实际的预测。[33]的扩展包括使用模型置信度自适应地设置注释和预测标签的比例[1,46],以及随时间平均模型权重和预测[26,29]。Lukasik等人表明,通过标签平滑可以获得一定程度的噪声鲁棒性。0相反,它在注释标签和均匀分布之间进行插值。为了避免过拟合,一些研究提出将训练集分成两半,训练两个模型,每个模型用于评估另一个模型的训练示例[13,22]。使用邻居识别噪声示例。而我们的方法实际上使用邻居来修改每个示例的监督,一些方法则使用邻居来识别和消除噪声示例。[41]和[12]都提出使用相同注释的示例的局部密度来识别和重新加权具有错误标签的示例。Wu等人构建了一个k-NN图,并仅保留组成每个类别最大连通分量核心的示例[42]。Bahri等人通过消除标签与k-NN分类器的预测不一致的示例来消除示例[2]。多目标插值训练(MOIT)[30]通过将每个示例的预测与其邻居的平均预测进行比较,然后用模型当前的预测替换最不可靠的标签,来识别错误标记的示例。MOIT+在此基础上增加了一个半监督学习的额外阶段,其中被认为是噪声的标签被丢弃。标签传播。标签传播的变体已经应用于各种计算机视觉任务,包括检索[8,17],半监督学习[15, 19]和少样本学习[9, 27,34]。特别是对于半监督学习,[15]使用它来根据特征空间中的邻居为无监督示例获取标签。虽然大多数方法以批处理的方式在包含许多示例的大型图上执行标签传播,但[27]和[34]考虑了在随机梯度下降中进行标签传播以进行情节式少样本学习[39]。这是一种元学习方法,它在元测试期间寻找合适的特征表示来执行标签传播。它不适用于学习带有噪声标签的任务,并且无法扩展到大量示例。对于学习带有噪声标签的任务,虽然邻居经常被用来识别错误标签的示例(见上文),但很少有工作考虑使用邻居生成伪标签。Iscen等人使用图卷积将标签从具有可信标签的小示例集传播到具有噪声标签的大示例集。相比之下,我们的方法不需要一个干净的集合,并且具有归纳性质。与我们的方法最相似的方法可能是[46],其中一次将图滤波应用于所有示例的全局图以改进初始模型的预测。相比之下,我们的一致性损失通过整个训练过程鼓励相似的示例具有相似的标签,并且实现起来更加简单。一致性。将网络约束为产生一致输出以利用无标签数据的思想已经出现在几个先前的工作中。ICT [38]和Mix-res̸̸46740热狗0邻居0一致性正则化0交叉熵0主干网络0特征0分类器0损失函数0特征空间中的邻域0空间0小批量0图1.为了解决训练集中噪声标签的问题,我们提出了邻居一致性正则化。这个正则化器鼓励具有相似特征表示的示例具有相似的输出,从而减轻了训练集中具有错误标签的示例的影响。0匹配[3]提出了半监督学习的mixup变体,其中预测替代了无监督示例的标签。Xie等人[44]引入了半监督图像分类的无监督数据增强,通过最小化转换和非转换图像的预测之间的差异,鼓励模型对保持标签的变换具有鲁棒性,即使没有标签。与我们的工作最相关的是,[10]使用了与图像变换相关的预测一致性,以便直接将监督传递给错误标记的示例。虽然这些一致性形式是有效的正则化器,但邻居一致性提供了直接将监督传递给错误标记示例的能力。03. 准备工作0我们首先定义我们的符号并制定具有噪声标签的学习任务。然后我们描述了标签传播,这是一种基于图的半监督学习方法,旨在与封闭数据集一起使用。问题定义。我们假设由X:= {x1, ...,xn}定义的数据集。每个示例,例如图像xi,都有一个相应的真实标签˜yi ∈C。在我们的任务中,一些标签yi是有噪声的:yi ≠˜yi,并且不能正确反映示例xi的视觉内容。在训练过程中,我们不知道yi是否有噪声(yi ≠ ˜yi)或干净(yi =˜yi)。我们的目标是在真实标签˜y上获得最高的准确性,尽管我们的训练集中有一些标签是有噪声的。我们学习一个用于分类的卷积神经网络。网络,表示为fθ,W:X →Rc,以数据集示例xi作为输入,并输出用于softmax分类的logits。它的两个可学习变量θ和W分别为...0对应于特征提取器和分类器。特征提取器将图像xi映射到d维向量vi := gθ(xi) ∈Rd。分类器将d维向量映射到类别得分zi := hW(vi) ∈Rc。通常,网络参数通过最小化有监督分类的损失函数来学习:0LS(X, Y ; θ, W) := 10m0i = 1 ℓ(σ(zi), yi), (1)0其中X和Y对应于小批量中的示例集,m = |X| =|Y|表示小批量的大小,σ是softmax函数,ℓ(q,p)是用于预测q的交叉熵损失函数。当目标分布p是单个标签y ∈ C时,我们采用简写ℓ(q, y) = ℓ(q,δy)表示具有one-hot向量δy的交叉熵。0标签传播是一种基于图的半监督学习技术[49]。我们假设我们在数据集中有标记和未标记的示例,并且数据集也由一个图定义,该图可以是给定的,也可以是从每个示例的k-NN创建的[8]。该方法根据图中的连接将每个节点的标签信息传播到其他节点。这个过程重复进行,直到达到全局平衡状态。最后,未标记的示例被分配给它们接收到最多信息的类别。形式上,对于由亲和矩阵W表示的数据集X的图,其中Wij= similarity(xi, xj),Zhou等人[49]展示了...+ 12LNCR(X, Y ; θ, W) :=1mm�i=1DKL�σ(zi/T)�����j∈NNk(vi)si,j�k si,k· σ(zj/T)�,(3)L(X, Y ; θ, W) := (1 − α) · LS(X, Y ; θ, W)+ α · LNCR(X, Y ; θ, W),(4)46750标签传播可以通过最小化来计算0Q ( P ) =102 µ0i =1 ∥ P i − Y i ∥ 20i,j =1 W ij = 1 √ D ii P i− 10D jj P j = 2, (2)0其中D是度矩阵(对角线矩阵,其条目为D ii = ∑ j W ij),P ∈ R n × c 是分类预测的矩阵,Y ∈ R n × c是所有示例的独热标签矩阵,µ是正则化参数。该目标函数包含两个项:拟合约束,鼓励每个点的分类与其分配的标签一致;平滑项,鼓励图中附近点的输出相似。标签传播的一个主要局限性是其转导性质。在转导学习中,目标是对已见的未标记示例进行分类。这与归纳学习不同,归纳学习学习一个通用的分类器来对任何未见的数据进行分类。为了在新的测试示例上应用标签传播,每次看到一个测试示例时都需要构建一个新的图W。这在实践中效率低下。标签传播的另一个要求是特征空间需要在计算相似性矩阵W之前固定。这要求特征提取器需要事先学习,可能是从噪声数据中学习的。现有的工作[15]尝试通过交替优化特征空间和执行标签传播来克服这个问题。然而,这样做并不能直接强制平滑性,因为两个组件的优化是分开进行的。我们的目标是通过以下方式克服标签传播的局限性:1)将其适应归纳设置;2)在优化过程中直接应用平滑性约束。在第4节中,我们提出了一种简单高效的方法,通过施加正则化器的形式来推广标签传播。因此,我们避免了构建显式图来传播信息,并且可以对任何未见的测试示例进行推断。04. 方法0我们现在介绍我们的方法邻居一致性正则化,并将其与经典的标签传播进行比较。然后我们突出其与类似的在线技术的关系。04.1. 邻居一致性正则化0当使用噪声标签进行学习时,网络容易过拟合或记忆从训练数据中的xi到噪声标签yi的映射[26]。这种行为通常导致在干净的评估集上的非最优分类性能,因为网络不能很好地泛化。0为了解决这个问题,我们提出了邻居一致性正则化(NCR)。我们的主要假设是,在分类器hW之前,过拟合发生得不那么剧烈。这得到了MOIT[30]的支持,该研究表明,当训练网络时,特征表示足够稳健,能够区分噪声和干净的样本。基于这个假设,我们可以在训练网络时设计一个类似于标签传播(2)的平滑性约束。我们的方法概述如图1所示。让我们通过两个示例的特征表示的余弦相似度来定义它们之间的相似性,即si,j =cos(vi, vj) = viTvj /(∥vi∥∥vj∥)。请注意,特征表示在经过ReLU非线性变换后会产生非负值,因此余弦相似度在区间[0,1]内。我们的目标是通过利用由gθ产生的特征空间的结构来增强分类器hW,从而强制实施邻居一致性正则化。更具体地说,如果si,j很高,那么hW(vi)和hW(vj)的行为应该是相似的,而与它们的标签yi和yj无关。这将防止网络过度拟合到一个错误的映射,即一个示例xi和一个标签yi之间的映射,如果yi和/或yj是噪声的话。为了实施NCR,我们设计了一个目标函数,如果相应的特征表示vi和vj相似,则最小化logits zi和zj之间的距离。0其中 D KL是KL散度损失,用于衡量两个分布之间的差异, T是温度,NN k ( v i ) 表示特征空间中 i 的 k个最近邻的集合。我们将 T 设置为 2,以保持实验的一致性。我们对相似性值进行归一化,以使KL散度损失的第二项保持为概率分布。我们将自相似性 s i,i 设置为 0,以避免其在归一化相似性中占主导地位。梯度将反向传播到所有输入。目标(3)确保 x i的输出与其邻居的输出一致,而不受其潜在嘈杂标签 y i的影响。我们将其与监督分类损失函数(1)相结合,得到训练过程中要最小化的最终目标:0其中超参数 α ∈ [0 , 1]控制每个损失项的影响。类似于标签传播,最终的损失目标(4)有两个项。第一项是分类损失项 L S 。这类似于拟合LB(X, Y ; θ, W) := 1mm�i=1(1 − α) · ℓ(σ(zi), yi)+ α · ℓ(σ(zi), σB(zi)),(5)46760约束条件(2)中的第二项是NCR损失 L NCR,它与(2)中的平滑约束类似。我们发现,在启用NCR项之前,将网络的 α 设置为 0,在几个时期(在我们的实验中用 e表示)上进行训练有时会有所帮助。然而,标签传播和我们的方法之间的主要区别在于,标签传播基于整个数据集计算的图边缘 W ij进行平滑。另一方面,我们的方法是在线的,不需要全局图W。我们通过正在学习的特征空间中的局部邻域来强制执行NCR。因此,我们的方法不需要具有噪声示例的学习特征表示。它通过减少噪声示例的负面影响来丰富学习到的特征表示。与标准训练相比,NCR会产生额外的计算成本,其数量级为 O ( m 2 ( d + c )) ,其中 m 是批量大小, d是特征维度, c是类别数。这是在(3)中计算相似性值和加权预测时产生的。然而,对于适度的 m值,这个操作的计算速度相对较快,因为它是一次密集矩阵乘法,现代GPU对此进行了优化。04.2. 与其他方法的关系0引入自举法会采用模型自身的预测作为标签引入额外的损失[33]。其动机是防止模型过度拟合难以拟合的示例。总体损失以固定比例结合了监督损失和自举损失:0其中 σ B是自举激活函数,可以是argmax或softmax(可选温度)。NCR可以被理解为从表示引起的邻域结构中引入自举,而不是从模型的预测中引入。这消除了对分类器参数 W的依赖,这可能特别有优势,因为已经证明线性模型可以在足够高维的表示下拟合随机标签[ 26]。标签平滑是一种正则化方法[ 36],它将真实标签与均匀分布混合在一起。它已被证明能够去噪损坏的标签[ 28]。在标签平滑下,监督分类损失函数变为:0L LS(X,Y;θ,W):=10i=1(1-α)∙ℓ(σ(zi),yi)0+α∙ℓ�σ(zi),10C1�.(6)0请注意,损失的线性组合等效于标签的线性组合,因为ℓ(q,p)=-pT logq对p是线性的。我们的方法可以被认为是标签平滑的修改版本,其中均匀分布被由相邻示例定义的分布替换。如果邻居是随机的或使用高温T,则它将坍缩为标签平滑。mixup[48]与我们的方法有些相似,因为它采用标签的凸组合。然而,mixup将此组合用作由输入的凸组合获得的新示例的回归目标,而NCR将其用作现有示例的目标。05.实验05.1.实验设置0我们首先在具有合成噪声的数据集上进行消融研究,其中噪声水平可以变化,然后再考虑具有有机噪声的数据集,其中噪声水平是固定且未知的。对于具有合成噪声的实验,我们使用CIFAR-10和-100[20]的标准变体以及带有“Blue”和“Red”噪声的mini-ImageNet[18]。CIFAR和mini-ImageNet-Blue数据集受到均匀标签噪声的污染,而mini-ImageNet-Red则通过用来自图像搜索引擎的误报替换每个类别中的一些示例来构建,代表了更现实的噪声。对于具有有机噪声的实验,我们使用mini-WebVision [22],WebVision [25]和Clothing1M[43]。所有数据集都包括干净的验证和/或最终评估集。详尽的实现细节和超参数也包含在补充材料中。05.2.消融研究0我们首先在CIFAR-10验证集上研究NCR的关键超参数在不同噪声水平下的影响。具体而言,我们研究了控制(4)中NCR项强度的α,邻居数k和初始化时期数e的影响。我们首先将邻居数k设置为m(批量大小)和初始化时期数为零,同时变化α。随后,我们为每个噪声水平选择最佳α,并变化k。最后,我们采用最佳k并变化e。图2显示了不同噪声比率的验证准确率。对于0%和20%的噪声比率,性能在不同超参数下保持相对稳定。对于任何非零噪声比率,将α设置为较高(0.9)是最优的,表明NCR的更大影响有益于这些设置。类似地,当噪声比率高于0%时,较小的k(例如k=10)导致更高的准确性。我们还观察到对于更高的噪声比率(即40%和80%),e=0的表现更好。这表明NCR需要在...0.20.40.60.86070809011010070809005010015070809046770α0准确率(%)0k0e00%噪声 20%噪声 40%噪声0图2.消融研究。在CIFAR-10验证集上使用ResNet-18评估了超参数α,k和e的影响。0在训练早期启用NCR,以防止网络在噪声比率高时记忆噪声标签。05.3.基线比较0我们现在将NCR与第4.2节中定义的基线进行比较。结果报告在mini-ImageNet-{Red,Blue}数据集的官方验证集上。我们每个实验运行五次,并在训练完成时报告平均准确率。我们不报告训练过程中达到的峰值验证准确率,因为结论可能不太可能推广到未见过的测试集。表1显示了不同噪声分割上每种方法在mini-ImageNet-{Red,Blue}数据集上的最终准确率。与标准基线(公式(1))相比,我们的方法在所有噪声比率上显著提高了性能,最高达到17.5%。此外,我们还表明我们的方法与一些现有的基线兼容。将mixup与我们的方法相结合,在几乎所有情况下都能进一步提高性能。我们观察到NCR即使在0%的噪声下也能提高方法的准确性。这表明它具有一般的正则化效果。然而,在包含标签噪声的训练集中,准确性的提高更加显著。图3进一步证明了NCR抑制了噪声标签的记忆。训练完成后,我们进行最后一次前向传递,并获得模型对每个训练样本分配的注释标签的置信度p。顶行显示基线模型过度拟合噪声标签,导致干净和噪声图像的p=1。另一方面,NCR避免了过度拟合,并将大多数噪声训练标签的置信度p=0。一些噪声示例仍然被分类为mini-Imagenet-Red上的分配标签。这可能是由于数据集包含现实和相关噪声:错误标记的类和真实类通常具有共同的视觉模式。对于合成噪声(mini-Imagenet-Blue),NCR将干净和噪声示例分开,噪声比率高达40%。然而,模型在80%噪声下欠拟合,导致干净和噪声示例的p接近0。这导致NCR的小幅改进,参见表1中80%噪声的mini-ImageNet-Blue。表1还包括通过执行...0包括从训练集中删除被错误标记的示例,相应地减小其大小20%,40%或80%。在现实噪声(mini-ImageNet-Red)下,结果表明,当使用mixup时,NCR在所有噪声比率下优于理想模型。虽然这可能令人惊讶,但可以解释为每个类别的噪声示例通常在视觉上与干净示例相似,因此仍然包含一些有用的信息。然而,在合成噪声(mini-ImageNet-Blue)下,NCR的性能明显低于理想模型,其中噪声示例通常与干净示例完全不同。05.4. 特征嵌入的影响0使用具有已知噪声的数据集,我们可以比较正确或错误标记为属于相同或不同类别的训练示例的特征相似性。在理想情况下,干净示例的类内和类间相似性分布将没有重叠,并且与错误标记示例的真实类内和类间相似性完全相同。图4显示了mini-ImageNet-Blue和-Red的相似性分布。(请注意,对于mini-ImageNet-Red,已知干净示例的集合,但不知道错误标记示例的真实类别,因此我们无法获得错误标记示例的真实类内相似性。)我们比较基线模型和使用NCR训练的模型的分布。虽然基线模型的分布有重叠,但它们并不相同,表明特征相似性包含一些NCR可以利用的信号。使用NCR进行训练在特征空间中实现了更大的类别分离,这必须归因于通过(3)中的特征相似性进行的梯度反向传播。05.5. 最先进的比较0除了与mini-ImageNet-Red上的先前技术进行比较的表1之外,我们还在表2中将NCR与mini-WebVision、WebVision和Clothing1M上的最先进技术进行比较(评估现实噪声)。最后,我们还在表3中与CIFAR-10和-100上的先前工作进行比较(代表合成噪声)。在表2中,我们还提供了NCR的数据增强(DA)变体,其中我们生成每个示例的第二个视图。Standard65.8±0.4 49.5±0.4 36.6±0.5 13.1±1.063.5±0.5 55.3±0.9 49.5±0.7 36.4±0.4Mixup67.4±0.4 60.1±0.2 51.6±0.8 21.0±0.565.5±0.5 61.6±0.5 57.2±0.6 43.7±0.3Bootstrap66.4±0.4 54.4±0.5 44.8±0.52.9±0.364.3±0.3 56.2±0.2 51.3±0.6 38.2±0.3Bootstrap + Mixup67.5±0.3 61.9±0.4 51.0±0.71.3±0.165.9±0.4 62.7±0.2 58.3±0.5 43.5±0.6Label smoothing67.5±0.8 60.2±0.5 50.2±0.4 20.9±0.865.7±0.5 59.7±0.4 54.0±0.6 39.7±0.5Label smoothing + Mixup68.6±0.3 63.3±1.0 57.1±0.2 14.4±0.366.9±0.2 63.4±0.4 59.2±0.4 45.5±0.7Ours: NCR66.5±0.2 61.7±0.3 54.1±0.4 20.7±0.564.0±0.4 60.9±0.3 56.1±0.7 40.9±0.2Ours: NCR + Mixup67.9±0.6 64.3±0.1 59.2±0.6 14.2±0.466.3±0.5 64.6±0.6 60.4±0.3 45.4±0.4Standard65.8±0.4 63.9±0.5 60.6±0.4 45.4±0.863.5±0.5 61.7±0.1 58.4±0.3 41.5±0.5Mixup67.4±0.4 64.2±0.5 61.5±0.3 46.9±0.865.5±0.5 63.1±0.6 59.7±0.7 43.6±0.40.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.0cleannoisy46780表1.基线和理想模型比较。使用ResNet-18架构在mini-ImageNet-{蓝,红}数据集上报告分类准确性,对于每个噪声比例(0%,20%,40%,80%)。我们提供来自五次试验的平均准确性和标准差。理想模型仅使用训练集中已知的干净示例使用交叉熵损失进行训练。0mini-ImageNet-Blue mini-ImageNet-Red0方法 0% 20% 40% 80% 0% 20% 40% 80%0基线0O URS0其他工作0D-Mix [22] – – – – 55.8 50.3 50.9 35.4 ELR [26] – – – – 57.4 58.1 50.6 41.7 MOIT [30] – – – – 64.7 63.1 60.8 45.90理想模型:干净子集0蓝-40% 蓝-80% 红-40% 红-80%0标准0NCR0图3.训练示例的预测置信度。基线将干净示例和错误标记示例分配给相似的置信度分数(通常都很高),NCR更经常将较低的置信度分配给错误标记示例,并将较高的置信度分配给正确示例。0通过应用随机颜色抖动在小批量中对示例进行增强,受[14]的启发。表2显示,NCR在具有现实噪声的数据集上实现了最先进的准确性,例如mini-WebVision,在最佳先前结果上提高了1.2%。当使用ResNet50时,NCR在WebVision上优于其他方法,并且与使用Inception-ResNetV2的方法相比具有竞争力,后者是一种更强大的架构。我们的方法在Clothing1M上也具有竞争力,仅比最先进的方法少0.2%。0请注意,NCR不涉及其他步骤,例如将数据集分成多个拆分,学习多个模型,应用半监督学习或在其他工作中所做的第二阶段的额外训练。我们与之进行比较的其他工作[22,26,30]采用了这些策略。虽然NCR与这些策略正交,但我们展示了我们实现了最先进的结果。0与最小的额外处理相比(例如数据增强),NCR实现了更高的性能。此外,与仅在每个示例的不同增强上应用类似一致性正则化的GJS[10]相比,NCR实现了更高的性能。这证实了邻居一致性在增强一致性之上带来了进一步的改进。0为了显示我们的方法与现有方法的兼容性,我们将NCR与ELR[26]结合起来,用于CIFAR-10和-100的比较,见表3。我们重新复制了所有的比较(通过运行公共代码),除了MOIT[30]的结果取自论文。我们的方法在几乎所有CIFAR的噪声比率中都比ELR表现更好,达到了最先进的结果。对于NCR未获得最高结果的噪声比率,通常是第二高的。请注意,我们固定了相同的超参数。0.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.0different class, labels correctsame class, labels correctdifferent class, same labelsame class, different label46790Blue-40% Blue-80% Red-40% Red-80%0标准0NCR0图4.相似度分布。我们比较了mini-ImageNet中正确标记为相同类别或不同类别的训练示例的余弦相似度分布。对于mini-ImageNet-Blue,使用NCR学习的特征在40%(或更少,未显示)的噪声下实现了更好的类别分离。对于更真实的mini-ImageNet-Red,NCR仍然实现了更好的干净示例分离,但无法将错误标记为相同类别的示例分离出来。0表2.与真实噪声的最新比较。我们将NCR和我们的基线与mini-WebVision、WebVision和Clothing1M上的其他方法进行比较。所有结果都使用ResNet-50,除了标有†的结果使用Inception-ResNetV2。0mini-WebVision WebVision Clothing1M0标准 75.8 74.9 71.7 Mixup 77.2 75.5 72.2 我们的方法:NCR77.1 75.7 74.4 我们的方法:NCR+Mixup 79.4 75.4 74.5我们的方法:NCR+Mixup+DA 80.5 76.8 74.60MLNT; 3 iter. [23] – – 73.5 CleanNet [21] – – 74.7 L DMI [40]– – 72.5 LongReMix [6] – – 73.0 ELR [26] 76.3 † – – ELR+ [26]77.8 † – 74.8 DMix [22] 76.3 – 74.8 GJS [10] 79.3 – – MoPro[24] – 73.9 – MILe [32] – 75.2 – Heteroscedastic [5] – 76.6 † –CurrNet [12] – 79.3 † –0表3.CIFAR上与合成噪声的最新比较。A-40%指的是40%的非对称噪声。其他列都是对称噪声。0CIFAR-10 CIFAR-100020% 40% 50% 80% 90% A-40% 20% 40% 50% 80% 90% A-40%0标准 83.9 68.3 58.5 25.9 17.3 77.3 61.5 46.2 37.4 10.4 4.1 43.9 MOIT+ [30] 94.1 92.0 - 75.8- 93.2 75.9 67.4 - 51.4 - 74.0 D-Mix [22] 95.1 94.2 93.6 91.4 74.5 91.8 76.7 74.6 73.1 57.129.7 72.1 ELR+ [26] 94.9 94.4 93.9 90.9 74.5 88.9 76.3 74.0 72.0 57.2 30.9 75.8 Ours+ [26]95.2 94.5 94.3 91.6 75.1 90.7 76.6 74.2 72.5 58.0 30.8 76.30与Divide-Mix[22]相比,我们的方法在所有噪声比率上都能取得更好的结果,这在实践中更符合实际情况。06. 结论0这项工作介绍了邻域一致性正则化,并证明它是一种有效的深度学习标签噪声策略。虽然我们的方法受到了半监督学习的多阶段训练过程的启发,该过程采用了传导式标签传播,但它只需要在目标函数中添加额外的损失,并在随机梯度下降中进行优化,因此训练过程相对简单。NCR的有效性得到了强调,因为它在合成(CIFAR-10和-100)和真实(mini-WebVision)噪声场景下都取得了最先进的结果。NCR的局限性和未来工作。NCR的一个局限性是,我们提出的损失函数假设它可以访问训练数据的充分特征表示。我们通过在应用NCR损失之前首先对网络进行e个时期的训练来克服这个局限性,但未来的工作是消除这个额外的训练超参数。未来研究的有希望的方向包括将NCR与在文献中使用的拒绝训练过程中的超出分布示例的技术相结合[22,30]。我们还注意到,NCR可以作为一种正则化项应用于相关问题,例如半监督学习。更广泛的影响。我们提出的方法适用于从嘈杂数据中学习,这些数据可能是通过自动从互联网上获取的(如我们在mini-ImageNet-Red和mini-WebVision上的实验所示)。以这种方式收集的数据可能存在偏差[4,7],而能够更有效地从这些数据中学习的方法可能会无意中放大这些偏差。此外,当使用从网络上自动获取的训练数据时,可能会将数据用于原始所有者未同意的目的,可能侵犯他们的隐私权。46800参考文献0[1] Eric Arazo,Diego Ortego,Paul Albert,NoelO'Connor和Kevin McGuinness. 无监督标签噪声建模和损失修正.在ICML,312-321页. PMLR,2019年. 1, 20[2] Dara Bahri,Heinrich Jiang和Maya Gupta.带有噪声标签的深度k-NN. 在ICML,540-550页. PMLR,2020年. 20[3] David Berthelot,Nicholas Carlini,IanGoodfellow,Nicolas Papernot,Avital Oliver和Colin ARaffel. MixMatch:半监督学习的整体方法. 在NeurIPS,2019年.30[4] Abeba Birhane和Vinay Uday Prabhu.大规模图像数据集:计算机视觉的胜利?在IEEE/CVF冬季计算机视觉应用会议上,2021年. 80[5] Mark Collier,Basil Mustafa,E� Kokiopoulou,RodolpheJe- natton和Jesse Berent.大规模图像分类中相关的输入相关标签噪声. 在CVPR,2021年. 80[6] Filipe R Cordeiro,Ragav Sachdeva,VasileiosBelagiannis,Ian Reid和Gustavo Carneiro.Longremix:在嘈杂的标签环境中使用高置信度样本的稳健学习.arXiv预印本arXiv:2103.04173,2021年. 80[7] Terrance de Vries,Ishan Misra,Changhan Wang和Laurens vander Maaten.目标识别对每个人都有效吗?在CVPR研讨会上,页码为52-59,2019年. 80[8] Michael Donoser和Horst Bischof. 重访用于检索的扩散过程.在CVPR,2013年. 2, 30[9] Matthijs Douze,Arthur Szlam,BharathHariharan和Herv´e J´egou. 使用大规模扩散进行低样本学习.在CVPR,2018年. 20[10] Erik Englesson和Hossein Azizpour.用于学习带有噪声标签的广义Jensen-Shannon散度损失.arXiv预印本arXiv:2105.04522,2021年. 3, 7, 80[11] Aritra Ghosh,Himanshu Kumar和PS Sastry.用于深度神经网络的标签噪声下的稳健损失函数.在AAAI,第31卷,2017年. 20[12] Sheng Guo,Weilin Huang,Haozhi Zhang,ChenfanZhuang,Dengke Dong,Ma
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功