基于图形建模的实例相关噪声标签学习

181 浏览量更新于2023-10-15 收藏 12.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

22880基于图形建模的实例相关噪声标签学习0Arpit Garg *1，Cuong Nguyen 1，Rafael Felix 1，Thanh-Toan Do 2和Gustavo Carneiro 1,301澳大利亚阿德莱德大学机器学习研究所，澳大利亚2莫纳什大学数据科学与人工智能系，澳大利亚3英国萨里大学视觉、语音和信号处理中心0摘要0噪声标签在深度学习的生态系统中是不可避免的，但却很麻烦，因为模型很容易过拟合它们。有许多类型的标签噪声，例如对称、非对称和实例相关噪声（IDN），其中IDN是唯一依赖于图像信息的类型。这种对图像信息的依赖使得IDN成为研究的一个关键类型的标签噪声，因为标注错误在很大程度上是由于图像中的视觉类别的信息不足或模糊。为了提供一种有效的技术来解决IDN，我们提出了一种称为InstanceGM的新的图形建模方法，它结合了判别模型和生成模型。InstanceGM的主要贡献是：i）使用连续伯努利分布来训练生成模型，提供了显著的训练优势；ii）探索最先进的带有噪声标签的判别分类器，从实例相关的噪声标签样本中生成干净的标签。InstanceGM在当前的噪声标签学习方法中具有竞争力，特别是在使用合成和真实数据集的IDN基准测试中，我们的方法在大多数实验中显示出比竞争对手更好的准确性。01. 引言0深度神经网络（DNN）的最新发展在各种应用中取得了出色的结果，从计算机视觉[31]到自然语言处理[48]和医学图像分析[47]。这样的成功在很大程度上依赖于高容量模型，而高容量模型则需要大量正确注释的数据进行训练[34,67]。0* arpit.garg@adelaide.edu.au 1代码可在https://github.com/arpit2412/InstanceGM找到。通过澳大利亚研究理事会的DP180103232和FT190100525资助。0然而，处理大量数据是困难、昂贵和耗时的，因此通常通过众包[56]来完成，但这往往会产生低质量的注释。尽管这降低了成本并扩大了过程的规模，但代价是数据的错误标记，导致深度模型的性能下降[3, 35]，这是由于记忆效应[2, 35,44,70]。因此，这激发了对新型学习算法的研究，以解决标签噪声问题，其中数据可能被错误标记。0在标签噪声的早期研究[17]中，假设标签噪声是独立于实例的（IIN），即无论图像中存在的视觉类别的信息如何，都会发生错误标记。在IIN中，我们通常有一个包含预定义的标签翻转概率的转换矩阵（例如，任何显示猫的图像具有高先验概率被错误标记为狗，低先验概率被错误标记为汽车）。这种类型的噪声也可以分为两种子类型：对称，其中真实标签以相等的概率翻转为另一个标签，和非对称，其中真实标签更有可能被错误标记为某些特定类别之一。然而，对于许多真实世界的数据集来说，独立于实例的噪声假设是不切实际的，因为我们可以直观地认为，标注错误主要是由于图像中存在的视觉类别的信息不足或模糊。因此，最近的研究逐渐将重点转向实例相关噪声（IDN）的更现实的情况，其中标签噪声取决于真实类别标签和图像信息的两者[62]。0已经提出了许多方法来处理IIN和IDN问题，其中包括但不限于样本选择[12, 27, 33,61,72]，它检测干净和有噪声的标签，并在处理后的数据上应用半监督学习方法，鲁棒损失[1, 38,46]，它可以很好地处理干净或有噪声的标签，以及概率方法[66]，它对数据生成过程进行建模，包括噪声标签的生成方式。尽管取得了一些成功，但大多数方法通常在具有模拟的对称和非对称噪声的IIN设置中进行演示。然而，当在包括真实世界和合成数据集的IDN问题上进行评估时，它们的性能会下降。虽然有一些研究专注于IDN设置[10, 26, 62, 66,74]，但它们相对不准确的分类结果表明算法还有进一步改进的空间。22890本文提出了一种解决IDN问题的新方法，称为InstanceGM。我们的方法基于一个图模型设计，该模型将干净标签Y视为潜变量，并引入另一个潜变量Z来表示图像特征，以建模标签噪声ˆY和图像X的生成。InstanceGM集成了生成模型和判别模型，其中生成模型基于变分自动编码器(VAE)[28]，不同的是，在建模重构图像的似然时，我们用连续伯努利分布[40]替代了常规的均方误差(MSE)，这样可以简化训练过程，避免调整额外的超参数。对于判别模型，为了缓解在训练过程中仅使用干净标签数据的问题，这是类似图模型方法中常见的问题[66]，我们依赖于DivideMix[33]，它通过探索半监督学习的MixMatch[5]来使用干净和有噪声标签数据进行训练。DivideMix被证明是InstanceGM的一个相当有效的判别分类器。总之，所提出的方法的主要贡献是：0•InstanceGM采用图模型方法来生成图像X及其有噪声的标签ˆY，真实标签Y和图像特征Z作为潜变量。该建模过程与连续伯努利分布相关联，以模拟实例X的生成，从而简化训练过程，避免调整额外的超参数（见注释3）。0• 对于InstanceGM的判别分类器，我们用DivideMix[33]替代了常用的只依赖于被分类为干净的训练样本的双模型co-teaching，DivideMix使用了所有被分类为干净和有噪声的训练样本。0•InstanceGM在各种IDN基准测试中展示了最先进的结果，包括模拟和真实世界的数据集，如CIFAR10和CIFAR100 [30]，来自受控噪声网络标签的Red Mini-ImageNet(CNWL) [65]，ANIMAL-10N [53]和CLOTHING-1M[64]。02. 相关工作0由于DNN已经被证明很容易适应随机标记的训练数据[68]，它们也可以过度拟合有噪声的标记数据集，最终导致对干净标记的测试数据的泛化能力较差[2, 35, 44,70]。因此，已经进行了一些研究来研究在标签噪声设置下的监督学习，包括鲁棒损失函数[41, 58]，样本选择[53, 55,59]，鲁棒正则化[14, 23, 43, 60]和鲁棒架构[11, 16, 29,64]。下面，我们将回顾处理有噪声标签的方法，特别是IDN，而不依赖于干净验证集[22, 50,57]。让我们从处理“任何”类型的标签噪声的方法开始，包括IDN和IIN。对于这两种类型的标签噪声，一个重要的技术是样本选择[53, 55,59]，它旨在自动选择干净标签样本进行训练。尽管这是有充分理由且通常有效的，但它会受到选择过程中错误累积误差的影响，特别是当训练数据中存在许多不清晰的类别时。因此，样本选择方法通常依赖于多个干净标签样本分类器，以增加它们对这种累积误差的鲁棒性[33]。此外，半监督学习(SSL)[4, 12, 27, 33, 53,72]也已经与样本选择和多个干净标签分类器结合起来，以便从干净和有噪声的标签样本进行训练。特别是，SSL方法将干净和有噪声的样本视为标记和未标记的数据，采用MixMatch方法[5]。上述方法被设计来处理“任何”类型的标签噪声，因此通常在合成的IIN基准和真实的IDN基准上进行评估。鉴于真实世界的数据集通常不包含IIN，最近提出的方法旨在解决IDN基准[6, 10, 37, 62, 66,73]。在这些基准中，区分难以区分的干净标记样本和有噪声标签样本的任务是一个重大挑战。宋等人[54]指出，与其他类型的噪声相比，IDN中的模型性能可能会显著下降。解决IDN问题的一种直接方法是使用图模型方法，其中随机变量表示观察到的有噪声标签、图像和潜在的干净标签。该模型还具有生成过程，以根据(干净和有噪声)标签信息生成图像[32]。另一种方法使用判别过程来检查图模型[49]，其中模型试图通过平均干净类别标签的后验概率来解释观察到的有噪声标签的后验概率。姚等人[66]开发了一种新的因果模型来解决IDN问题，该模型还使用了与上述方法相同的变量，以及一个依赖于生成模型的潜在图像特征变量。minqKL�q(Z, Y |X, ˆY ) || p(Z, Y |X, ˆY )�,(2)q(Z, Y |X, ˆY ) = q(Z X, ˆY , Y ) q(Y X, ˆY )22900Y X Z ˆ Y0图1.提出的生成过程的图形模型，该模型从隐藏的数据表示Z和干净标签Y生成可观测（阴影节点）数据X和噪声标签ˆY。0标签和图像特征，并从图像特征和干净标签生成噪声标签。然而，这种方法[66]与现有技术相比并没有产生竞争力的结果。我们认为模型的性能差主要是由于使用了一个小样本集合作为干净样本进行训练的共同教学[17]，这可能会包含不正确的噪声标签样本，这是一个可能导致累积误差的问题，特别是在IDN问题中。我们的工作受到上述图形模型方法的启发，旨在解决IDN问题。我们的方法主要区别在于使用了一个更有效的干净样本识别器，它用DivideMix[33]替代了共同教学[66]，DivideMix考虑了整个训练集，而不仅仅是被分类为干净的样本。此外，我们提出了一种基于连续伯努利分布[40]的图像生成模型的更有效训练方法。03. 方法论03.1. 问题定义0我们将X表示为表示图像的观测随机变量，Y表示对应于X的干净标签的潜在随机变量，Z表示表示X的图像特征表示的潜在随机变量，ˆY表示噪声标签的观测随机变量。训练集由D= {(xi, ˆyi)}|D|i=1表示，其中图像由x ∈ X �RH×W×3（具有3个颜色通道和大小为H×W像素）表示，噪声标签ˆy ∈ Y ∈ {0,1}|Y|由一个独热向量表示。在传统的监督学习中，使用D来训练一个模型fθ：X →∆|Y|−1（其中∆|Y|−1表示概率单纯形），参数化为θ ∈Θ，可以预测测试图像的标签。目标是利用训练集中的噪声数据（X，ˆY）来推断一个能够准确预测测试集中数据的干净标签Y的模型fθ。03.2. 概率噪声标签建模0我们采用类似于[66]中提出的方法来模拟通过图形模型生成带有噪声标签的样本的过程，如图1所示，其中干净标签Y和图像特征表示Z是潜在变量。在这种建模假设下，可以如下生成带有噪声标签的样本（x，ˆy）：01. 从先验中采样一个干净标签：y � p(Y)，02. 从先验中采样一个表示：z � p(Z)，03. 从连续伯努利分布中采样输入数据：ˆx � CB(X; λ(z,y))，04. 从其分类分布中采样相应的噪声标签：ˆy � Cat(ˆY; γ(ˆx,y))0注1：传统上，生成数据x的过程通常被建模为伯努利分布或多元正态分布，分别对应二元交叉熵（BCE）或均方误差（MSE）重构损失。然而，这样的建模会导致一个普遍的错误[40]，因为图像像素在[0, 1]而不是{0,1}（伯努利分布）或（-∞，+∞）（多元正态分布）。因此，我们采用连续伯努利分布[40]来正确建模这个图像生成过程。0注意，连续伯努利分布和分类分布的参数是基于Z，X和Y条件的，并且被建模为两个DNN的输出：0λ = fθx(z, y) and γ = fθˆy(ˆx, y), (1)0其中 f 表示神经网络，θ x ，θ ˆ y表示网络参数。按照机器学习的惯例，我们称 f θ x ( . )为解码器，f θ ˆ y ( . )为含噪标签分类器。为了解决由上述过程生成的标签噪声问题，我们需要推断后验概率 p ( Z, Y | X, ˆ Y )。然而，由于图模型的复杂性，图1中的后验概率 p ( Z, Y |X, ˆ Y )的精确推断是不可行的，因此估计必须依赖于近似。受[66]的启发，我们采用变分推断来近似真实的后验概率 p ( Z, Y| X, ˆ Y ) ，近似的“后验” q ( Z, Y | X, ˆ Y )可以通过最小化以下Kullback-Leibler（KL）散度来获得：0其中变分后验 q ( Z, Y | X, ˆ Y )可以根据概率的乘法规则进行分解。我们假设干净标签 Y的后验与给定实例 X 的含噪标签 ˆ Y 独立：q ( Y | X, ˆ Y )= q ( Y | X)。此外，特征表示的变分后验在给定干净标签和输入数据的情况下与含噪标签独立：q ( Z | X, ˆ Y , Y ) = q ( Z | X, Y)。因此，感兴趣的变分后验可以写成：0= q ( Z | X, Y ) q ( Y | X ) . (3)GMMMixMatchDivideMixz1 ~ q1(Z|X,Ŷ)z2 ~ q2(Z|X,Ŷ)(X,Ŷ) x̂ 1 ~ CB1(X̅ ; λ(z1,y1))Continuous Bernoulli Loss Cross-Entropy Loss x̂ 2 ~ CB2(X̅ ; λ(z2,y2))P1(Ŷ|x̂ 1,y1) P2(Ŷ|x̂ 2,y2) y1y2y1y2y1y2y1 ~ qρ1(Y|X)y2 ~ qρ2(Y|X)L(vi) = Eq(Z|X,Y )q(Y |X) [− ln p(X|Z, Y )]+ Eq(Y |X)�− ln p( ˆY |X, Y )�+ KL [q(Y X) p(Y )]22910噪声样本0干净样本0热身0分类器-110数据集0编码器0分类器-10解码器-10解码器分类器-20分类器-120编码器-1编码器-20分类器-22分类器-210解码器-20图2.提出的InstanceGM训练分类器以为依赖于实例的含噪标签样本输出干净标签。我们首先使用分类损失热身两个分类器（分类器-{11,12}），然后使用分类损失训练GMM将干净样本和噪声样本分离，使用半监督模型MixMatch [5]从DivideMix[33]阶段开始。此外，另一组编码器（编码器-{1,2}）用于生成图1中所示的潜在图像特征。此外，为了图像重构，解码器（解码器-{1,2}）使用连续伯努利损失，并且另一组分类器（分类器-{21,22}）使用标准交叉熵损失帮助识别原始的噪声标签。0(2)中的目标函数可以展开为：0+ E q ( Y | X ) [KL [ q ( Z | X, Y ) || p ( Z )]] . (4)0注2：目标函数 L (vi) 在 (4)中与变分自编码器[28]中的损失函数相似。特别地，(4)中的前两项类似于重构损失，而剩余的项类似于KL损失，用于规范后验 q 与其先验之间的偏差。0为了优化式（4）中的目标函数，必须指定后验概率q(Z|X,Y)、q(Y|X)和先验概率p(Z)、p(Y)。我们假设q(Z|X,Y)是一个具有对角协方差矩阵的多元正态分布，q(Y|X)是一个分类分布：0q(Z|X = x, ˆY = ˆy) = N(Z; µ(x, ˆy), diag(σ2(x, ˆy))0q(Y|X = x) = Cat(Y; ρ(x)), (5)02 除了黑白图像。0其中这些分布的参数被建模为两个DNN的输出。此后，我们将模型q(Y|X)称为干净标签分类器，模型q(Z|X,ˆY)称为编码器。对于先验，我们遵循生成模型（特别是VAE）中的约定，假设p(Z)为标准正态分布，而p(Y)为均匀分布。在这些假设下，我们可以通过最小化式（4）中的损失函数L(vi)来确定两个分类器、编码器和解码器的参数。得到的干净标签分类器q(Y|X)将被用作最终分类器来评估测试集中的数据。0备注3：优化式（4）中的目标函数通常需要定义超参数来加权KL散度[15]。然而，这种加权机制依赖于使用验证集进行网格搜索来估计KL散度权重，使得解决方案依赖于数据集。这种加权机制的原因在于用作重构损失的对数似然函数。例如，−ln p(X|Z,Y)简单地被相应的损失函数（如MSE）所取代，而不考虑这些似然函数的归一化常数，导致重构损失和正则化之间的平衡不正确。22920算法1：使用标签噪声的图模型方法进行学习01: 过程INSTANCE GM(D, T, τ)02: D = {(xi, ˆyi)}|D|i=1: 噪声数据集03: T: 总的迭代次数04: τ: 决定DivideMix中使用的干净或噪声样本的阈值05: q1(Y|X), q2(Y|X) ← WARMUP(D) � 在噪声数据集上对2个干净标签分类器进行预热训练06: 对于e = 1:T07: L1, U1, L2, U2 ← CO-DIVIDE(D, q1(Y|X), q2(Y|X), τ)08: 对损失值应用高斯混合模型，并通过似然度阈值过滤出干净和噪声09: L1:2是标记集合（主要是干净的）010: U1:2是未标记集合（主要是噪声）011: L(dm)(1) ← DIVIDE MIX LOSS(L1, U1, q1(Y|X), q2(Y|X)) � 在DivideMix中计算训练损失012: L(dm)(2) ← DIVIDE MIX LOSS(L2, U2, q2(Y|X), q1(Y|X))013: 对于k = 1:2 � 在两个模型上计算损失014: 对于Lk中的每个(xi, ˆyi)015: 计算每个实例的损失：L(vi)i ← VARIATIONAL-FREE ENERGY(xi, ˆyi, qk, pk)016: qk是变分后验018: 计算平均损失：L(vi)(k) = 1/|Lk| Σ|Lk|i=1 L(vi)i019: 通过最小化L(k) = L(vi)(k) + L(dm)(k)来更新模型参数 � 式（6）020: 返回 q1(Y|X)的干净标签分类器021: 函数VARIATIONAL-FREE ENERGY(x, ˆy, q, p) � 计算式（4）中的损失022: 从其变分后验中采样y � q(Y | X = xi) � 从其变分后验中采样一个干净标签023: 从其变分后验中采样z � q(Z | X = x, ˆY = ˆy) � 从其变分后验中采样一个特征表示024: 计算公式（4）中的第一项：−ln p(X = x | Z = z, Y = y) � 图像重建损失025: 计算公式（4）中的第二项：−ln p(ˆY = ˆy | X = x, Y = y) � 噪声标签的交叉熵损失027: 根据公式（4）中的指定，计算L(vi)为上述项的总和028: 返回L(vi)0在本文中，我们提出使用正确的对数似然形式，即连续伯努利分布用于p(X | Z,Y)和分类分布用于p(ˆY | X,Y)，并考虑到它们的归一化常数。因此，我们不再需要KL散度的加权，使得我们的方法更容易训练。303.3. 实际实现0在实践中，通常使用小损失假设来有效地识别训练集中的干净样本[17，33]。然而，使用单个模型天真地实现这种假设可能会由于样本选择偏差而累积误差。避免这种情况的一种方法是同时训练两个模型，其中每个模型仅使用另一个模型选择的干净样本进行更新。在本文中，我们将类似的方法整合到我们在第3.2节中提出的建模中，以解决标签噪声问题。0更详细的信息见附录B。0具体而言，我们建议并行训练两个模型，从而得到四个分类器（两个用于干净标签分类器q(Y |X)和另外两个用于噪声标签p(ˆY | X, Y)），两个编码器q(Z |X, Y)和两个解码器p(X | Z, Y)。在CausalNL[66]中，使用共同教学作为一种将小损失假设整合到干净标签分类器的正则化方法。然而，共同教学可能会限制建模的能力，因为它仅使用被分类为干净的样本，并忽略被分类为噪声的其他样本。此外，共同教学最初是为IIN问题设计的，而我们的重点是IDN问题。因此，我们建议将基于小损失假设的方法DivideMix[33]整合到我们的建模中，如图2所示。该方法从预热阶段开始，并使用两分量高斯混合模型（GMM）将所有训练样本分类为干净和噪声（共分）。训练样本由MixMatch[5]使用，MixMatch是一种半监督分类技术，将干净样本视为标记样本，将噪声样本视为未标记样本。DivideMix表现出了令人满意的性能，尤其是在IDN设置中，并且有其公开可用的实现。22930如表1所示，对于IDN问题，该方法具有合理的效果。0备注4：与DivideMix[33]类似的其他基于实例的方法，如Contrast-to-Divide[72]，ELR+[35]，也可以整合到我们提出的框架中。之所以使用DivideMix，是因为它在IDN设置中表现出了卓越的性能，并且有公开可用的实现。0一般来说，训练所提出模型的损失函数由两个损失组成：一个是图形建模中的损失L(vi)（4），另一个是用于训练DivideMix的损失[33，公式（12）]，表示为L(dm)。整个损失表示为：0L = L(vi) + L(dm) (6)0训练过程总结如算法1所示，并在图2中描述。04. 实验0在本节中，我们展示了在两个标准基准数据集IDN，CI-FAR10 [30]和CIFAR100[30]以及三个真实世界数据集ANIMAL-10N[53]，CNWL的Red Mini-Imagenet[24]和CLOTHING-1M[64]上以不同的噪声率4进行的大量实验结果。在第4.1节中，我们解释了上述所有数据集。在第4.2节中，我们讨论了所有模型及其参数。在第4.3节中，我们将我们的方法与IDN基准和真实世界数据集中的最先进模型进行了比较。04.1. 数据集0在CIFAR10和CIFAR100中，训练图像有50k张，测试图像有10k张，每个图像的大小为32×32×3像素，其中CIFAR10包含10个类别，CIFAR100包含100个类别，两个数据集都是类别平衡的。由于CIFAR10和CIFAR100数据集默认不包含标签噪声，我们按照Xia等人的设置[62]添加了具有噪声率为{0.2, 0.3, 0.4, 0.45, 0.5}的IDN。CNWL [24]的RedMini-Imagenet是一个现实世界的数据集，其中图像及其对应的标签是从互联网上以各种可控的标签噪声率进行爬取的。该数据集旨在研究受控设置中的现实世界噪声。在本研究中，我们专注于RedMini-ImageNet，因为它展示了一种真实的标签噪声类型。RedMini-ImageNet有100个类别，每个类别包含来自ImageNet数据集[51]的600个图像。将图像从原始尺寸84×84调整为32×32像素，以与[12,65]进行公平比较。噪声率从0%到80%不等，但我们使用20%、40%、60%和80%的噪声率，以与文献[12, 65,66]保持一致。0附录C中呈现了高IDN下的性能下降。0ANIMAL-10N是Song等人提出的另一个现实世界数据集，其中包含10种动物，其中5对具有相似的外观（例如狼和土狼，仓鼠和豚鼠等）。估计的标签噪声率为8%。训练图像有50k张，测试图像有10k张。没有使用数据增强，因此设置与[53]中提出的设置相同。CLOTHING-1M[64]是一个包含来自14个在线购物网站的1百万个训练服装图像的现实世界数据集。该数据集中的标签是从周围的文本中生成的，估计的噪声率为38.5%。由于图像大小的不一致，我们遵循文献[12, 18,33]中的标准设置，将图像调整为256×256像素。该数据集还包括50k、14k和10k个经过手动验证的干净训练、验证和测试数据。在训练过程中，不使用干净的训练和验证集，只使用干净的测试集进行评估。04.2. 实现0所有方法都是在PyTorch [45]中实现的，并在NVIDIA RTXA6000上运行。对于基准模型Di-videMix，所有默认超参数都按照Li等人的原始论文[33]中提到的进行考虑。下面提到的所有超参数值都来自CausalNL [66]和DivideMix[33]，除非另有说明。对于CIFAR10、CIFAR100和RedMini-Imagenet，潜在表示Z的大小固定为25，ANIMAL-10N为64，CLOTHING-1M为100。对于CIFAR10、CIFAR100和RedMini-Imagenet，我们使用非预训练的PreaAct-ResNet-18（PRN18）[21]作为编码器。ANIMAL-10N使用VGG-19作为编码器，遵循SELFIE [53]和PLC[71]的方法。对于CLOTHING-1M，我们使用ImageNet预训练的ResNet-50。训练中不使用干净数据。模型的训练使用随机梯度下降（SGD）进行DivideMix阶段，动量为0.9，批量大小为64，L2正则化参数为5×10-4。此外，使用Adam来训练模型的VAE部分。CIFAR10（约30小时）、CIFAR100、RedMini-Imagenet和ANIMAL-10N的训练运行300个时期。学习率为0.02，在训练时期的一半降低为0.002。WarmUp阶段对于CIFAR10持续10个时期，对于CIFAR100、ANIMAL-10N和RedMini-Imagenet持续30个时期。对于CLOTHING-1M，WarmUp阶段持续1个时期，批量大小为32，训练运行80个时期，学习率为0.01，在第40个时期后降低10倍。对于CIFAR10、CIFAR100 [30]、Red Mini-Imagenet[24]和ANIMAL-10N [53]，编码器的架构与CausalNL[66]类似，具有4个隐藏的卷积层和特征图，包含32、64、128和256个特征图。0附录A中提供了实现细节。450.50InstanceGM96.6896.5296.3696.1595.9079.6979.2178.4777.4977.190.8InstanceGM58.3852.2447.9639.62InstanceGM-SS60.8956.3753.2144.03InstanceGM84.622940表1. 不同方法在CIFAR10和CIFAR100[30]上在不同IDN噪声率下的测试准确率（%）。大多数结果来自[66]，带有*的结果来自各自的论文。kMEIDTM [10]的结果用†表示。0模型 IDN - CIFAR10 IDN - CIFAR1000CE [66] 75.81 69.15 62.45 51.72 39.42 30.42 24.15 21.45 15.23 14.42 Mixup [69] 73.17 70.02 61.56 56.45 48.95 32.92 29.76 25.92 23.13 21.31 Forward[46] 74.64 69.75 60.21 48.81 46.27 36.38 33.17 26.75 21.93 19.27 T-Revision [63] 76.15 70.36 64.09 52.42 49.02 37.24 36.54 27.23 25.53 22.54Reweight [36] 76.23 70.12 62.58 51.54 45.46 36.73 31.91 28.39 24.12 20.23 PTD-R-V [62] * 76.58 72.77 59.50 _ 56.32 65.33 † 64.56 † 59.73 † _ 56.80 †0Decoupling [42] 78.71 75.17 61.73 58.61 50.43 36.53 30.93 27.85 23.81 19.59 Co-teaching [17]80.96 78.56 73.41 71.60 45.92 37.96 33.43 28.04 25.60 23.97 MentorNet [25] 81.03 77.22 71.8366.18 47.89 38.91 34.23 31.89 27.53 24.15 CausalNL [66] 81.79 80.75 77.98 79.53 78.63 41.47 40.9834.02 33.34 32.13 HOC [74] * 90.03 _ 85.49 _ _ 68.82 _ 62.29 _ _ CAL [73] * 92.01 _ 84.96 _ _ 69.11 _63.17 _ _ kMEIDTM [10] * 92.26 90.73 85.94 _ 73.77 69.16 66.76 63.46 _ 59.18 DivideMix [33] 94.8094.60 94.53 94.08 93.04 77.07 76.33 70.80 57.78 58.610表2. 在RedMini-Imagenet（CNWL）[24]上的测试准确率（%）。其他模型的结果如FaMUS [65]和PropMix[12]所示。我们使用我们提出的InstanceGM和包含自监督[8]的算法（InstanceGM-SS）来展示我们提出的结果。0方法噪声率0CE [65] 47.36 42.70 37.30 29.76 MixUp [69] 49.1046.40 40.58 33.58 DivideMix [33] 50.96 46.72 43.1434.50 MentorMix [24] 51.02 47.14 43.80 33.46 FaMUS[65] 51.42 48.06 45.10 35.500包含自监督学习0PropMix [12] 61.24 56.22 52.84 43.420在解码阶段，我们使用了4层隐藏层的转置卷积网络，特征图中包含256、128、64和32个特征。在RedMini-Imagenet中，我们使用了与CIFAR100类似的架构，包括自监督和非自监督[8]。对于CLOTHING-1M[64]，我们使用了5个卷积层的编码器网络，特征图中包含32、64、128、256和512个特征。解码器网络有5个转置卷积层，特征图中包含512、256、128、64和32个特征。04.3. 与基准和测量方法的比较0在本节中，我们将在第4.3.1节的基准IDN噪声数据集上比较我们提出的InstanceGM和其他方法。0表3. 在仅使用噪声数据训练模型的ANIMAL-10N[53]上评估的不同方法的测试准确率（%）。其他模型的结果如Nested-CE [9]所示，带有*的结果来自各自的论文。0方法测试准确率（%）0CE [71] 79.4 Nested-Dropout [9]81.3 CE+Dropout [9] 81.3 SELFIE[53] * 81.8 PLC [71] * 83.4Nested-CE [9] 84.10我们还在第4.3.2节中验证了我们提出的模型在各种真实世界的噪声数据集上的性能。04.3.1 实例相关噪声基准数据集0我们的InstanceGM与最近提出的方法在CIFAR10和CIFAR100IDN基准上的比较结果如表1所示。值得注意的是，我们的方法在两个数据集上在各种IDN噪声率（从20%到50%）下都取得了相当大的改进。与CausalNL作为我们方法的主要参考相比，两种方法的性能是重要的比较。对于CIFAR10，我们的方法在所有噪声率下大约提高了15%，而对于CIFAR100，我们的方法提高了38%到45%。与此基准中的当前最先进方法（kMEIDTM [10]和DivideMix[33]）相比，我们的方法在CIFAR10上提高了约2%，在CIFAR100上提高了2%到近20%。22950表4. CLOTHING-1M [ 64]上竞争方法的测试准确率（%）。基线模型（CausalNL和DivideMix）的准确率以斜体显示。其他模型的结果来自于各自的论文。实验中只使用有噪声的标签进行训练。精度为1%的顶部结果以粗体突出显示。0方法测试准确率（%）0CausalNL [ 66 ] 72.24 IF-F-V [ 26 ]72.29 DivideMix [ 33 ] 74.76Nested-CoTeaching [ 9 ] 74.900InstanceGM 74.4004.3.2真实世界噪声数据集0在表2到表4中，我们分别展示了ANIMAL-10N，RedMini-Imagenet和CLOTHING-1M的结果。总体上，结果表明InstanceGM在大规模网络爬取数据集和小规模人工标注噪声数据集上优于或与现有最先进模型竞争。表3报告了ANIMAL-10N的分类准确率。我们可以观察到InstanceGM的性能略优于所有其他基线模型。对于其他真实世界数据集RedMini-Imagenet和CLOTHING-1M，InstanceGM具有竞争力，如表2和表4所示，展示了其处理真实世界IDN问题的能力。特别是，表20使用两种设置在RedMini-Imagenet上显示结果：1）没有预训练（表的上半部分），2）使用自监督（SS）预训练（表的下半部分）。自监督预训练基于DINO [ 8 ]和未标记的RedMini-Imagenet数据集，与使用类似自监督预训练的PropMix [ 12]进行公平比较。没有自监督预训练，我们的InstanceGM明显优于最近提出的方法。通过自监督预训练，结果表明InstanceGM可以提高性能，使我们在RedMini-Imagenet上实现了最先进的结果。05.消融研究我们在CIFAR10 [ 30 ]和ANIMAL-10N [ 53]上展示了我们提出方法的消融研究，在IDN噪声率为0.5的情况下。在表5中，CausalNL [ 66]的性能相对较低，这可以通过co-teaching [ 17]使用的干净样本数量较少以及使用MSE进行图像重建损失6来解释。我们认为将co-teaching [ 17 ]替换为DivideMix [33]将提高分类准确性，因为它允许使用整个训练集。为了证明这一点，我们采用CausalNL [ 66]并将其co-teaching替换为DivideMix，但保持MSE重建损失-该模型被命名为CausalNL +DivideMix（无连续伯努利）。注意，这允许一个0https://github.com/a5507203/IDLN/blob/main/causalNL.py中的第80行显示0表5.这个消融研究显示了在IDN噪声率为0.5的情况下在CI-FAR10上的测试准确率%。首先，我们展示了CausalNL [ 66]的结果。其次，我们展示了将CausalNL [ 66]的co-teaching替换为DivideMix [ 33]（不包括连续伯努利重建）的结果。然后最后我们展示了我们提出的算法InstanceGM的结果。0方法测试准确率（%）0CausalNL [ 66 ] 78.63 CausalNL [ 66 ] +DivideMix [ 33 ] 88.62 *无连续伯努利0InstanceGM 95.900表6.这个消融研究显示了在ANIMAL-10N上使用各种架构（无自监督）的测试准确率%，包括ResNet [ 20 ]，VGG [ 52]和ConvNeXt [ 39 ]与InstanceGM。表3报告了VGG [ 52]的结果，以与其他方法进行公平比较。0方法测试准确率（%）0InstanceGM与ResNet [ 20 ] 82.2InstanceGM与VGG [ 52 ] 84.6InstanceGM与ConvNeXt [ 39 ] 84.70≈ 10%从CausalNL中提高了准确性，但是使用MSE重建损失仍然会限制分类准确性。因此，通过将MSE损失替换为连续伯努利损失进行图像重建，我们注意到进一步≈7%的准确性提高。对于ANIMAL-10N [ 53]，我们使用各种骨干网络（VGG [ 52 ]，ResNet [ 20]和ConvNeXt [ 39]）测试InstanceGM的结果显示在表6中。由于架构差异，ConvNeXt [ 39]在我们提出的算法中表现最好，但为了与其他模型进行公平比较，我们在表3中使用VGG骨干[ 52 ]的结果。06. 结论在本文中，我们提出了一种实例依赖的噪声标签学习算法方法，称为InstanceGM。InstanceGM探索生成模型和判别模型[66]，其中对于生成模型，我们用连续伯努利重构损失[40]替代了通常的MSE图像重构损失，从而改善了训练过程；对于判别模型，我们用DivideMix[33]替代了共同教学，使得在训练过程中可以使用干

下载后可阅读完整内容，剩余1页未读，立即下载