学习鲁棒表示以应对噪声数据中的标签噪声、分布外输入和输入损坏

53 浏览量更新于2023-10-14 收藏 14.77MB PDF 举报

噪声数据

标签噪声

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

94850通过鲁棒表示学习从噪声数据中学习0Junnan Li Caiming Xiong Steven C.H. HoiSalesforce研究部门0{junnan.li,cxiong,shoi}@salesforce.com0摘要0学习噪声数据一直受到广泛关注，其中大多数方法都集中在标签噪声上。在这项工作中，我们提出了一个新的学习框架，同时解决了现实世界数据中常见的三种噪声类型：标签噪声、分布外输入和输入损坏。与大多数现有方法不同，我们通过学习鲁棒表示来对抗噪声。具体而言，我们将图像嵌入到低维子空间中，并通过鲁棒对比学习来规范子空间的几何结构，其中包括无监督的一致性损失和有监督的混合原型损失。我们还提出了一种新的噪声清理方法，利用学习到的表示对相邻样本施加平滑性约束。在多个基准测试上的实验证明了我们方法的最先进性能和学习表示的鲁棒性。代码可在https://github.com/salesforce/RRL/上获得。01. 引言0现实生活中的数据是嘈杂的。然而，具有显著性能的深度模型大多是在具有高质量人工注释的干净数据集上训练的。手动数据清理和标注是一项昂贵的过程，很难扩展。另一方面，几乎存在无限数量的在线嘈杂数据。深度神经网络(DNNs)能够利用嘈杂的训练数据至关重要。然而，已经证明DNNs容易过拟合噪声[43]。如图1所示，一个真实世界的嘈杂图像数据集通常包含多种类型的噪声。标签噪声指的是错误地标记为另一个类别的样本(例如将花标记为橙色)。分布外输入指的是不属于任何已知类别的样本。输入损坏指的是导致训练和测试之间的数据偏移的图像级失真(例如低亮度)。文献中的大多数方法都集中在解决更有害的标签噪声。两种主要方法包括：(1)找到损失较小的干净样本和0输入损坏标签噪声0分布外输入0图1. 使用关键词“橙色”从WebVision[22]数据集中的Google搜索图像。0分配更大的权重给它们[6, 42, 32,1]；(2)使用模型的预测重新标记噪声样本[31, 25, 34, 41,23,18]。以前解决标签噪声的方法没有考虑到分布外输入或输入损坏，这限制了它们在实际场景中的性能。此外，使用模型自身的预测来重新标记样本可能会导致确认偏差，其中预测误差累积并损害性能。我们提出了一种从噪声数据中有效学习的新方向。与现有方法不同，我们的方法学习了噪声鲁棒的低维表示，并通过对相邻样本施加平滑性约束来进行噪声清理。具体而言，我们的算法贡献包括：0•我们提出了噪声鲁棒的对比学习，引入了两种对比损失。第一种是无监督的一致性对比损失。它强制具有扰动的输入具有相似的归一化嵌入，有助于学习鲁棒和有区分性的表示。0•我们的第二个对比损失是一种弱监督的原型对比损失。我们将类别原型计算为归一化的平均嵌入，并使每个样本的嵌入更接近其类别原型。受Mixup[44]的启发，我们构造虚拟训练样本作为输入的线性插值，并鼓励与类别原型之间具有相同的线性关系。0•我们提出了一种新的噪声清理方法，利用学习到的表示对邻近样本施加平滑性约束。对于每个样本，我们从其前k个邻居中聚合信息来创建一个伪标签。随着伪标签变得更准确，一部分训练样本被用于计算弱监督损失。Lcc =b�i=1− logexp(ˆzi · ˆzj(i)/τ)2bk=1 1i̸=k exp(ˆzi · ˆzk/τ),(1)94860选择依赖伪标签计算弱监督损失。这个过程可以有效地清理标签噪声和分布外（OOD）噪声。0我们的实验贡献包括：0•我们通过实验证明我们的方法在多个数据集上实现了最先进的性能，包括受控噪声和真实世界噪声。0•我们证明了所提出的噪声清理方法可以有效地清理大部分标签噪声。它还学习了一个渐进的课程，随着伪标签的准确性逐渐利用更多样本来计算弱监督损失。0•我们通过展示k最近邻分类优于softmax分类器来验证学习到的低维表示的鲁棒性。(2)OOD样本可以与分布内样本分离。02. 相关工作02.1. 标签噪声学习0噪声标签学习在文献中得到了广泛的研究。虽然一些方法需要访问一小部分干净样本[40, 35, 36, 17,11]，但大多数方法侧重于更具挑战性的情况，即没有干净标签可用。这些方法可以分为两种主要类型。第一种类型使用网络的预测结果进行标签校正[31, 25, 34, 41,23]。第二种类型试图将干净样本与损坏的样本分离，并在干净样本上训练模型[6, 1, 14, 13, 38, 3, 24, 20]。DivideMix[18]将标签校正和样本选择与Mixup[44]数据增强结合在一个共同训练框架下，但其计算资源消耗是我们方法的2倍。与现有方法不同，我们的方法通过学习鲁棒的表示来解决标签噪声学习问题。我们提出了一种更有效的噪声清理方法，利用了学习到的表示的结构。此外，我们的模型不仅对标签噪声具有鲁棒性，还对分布外和损坏输入具有鲁棒性。之前的工作研究了开放式噪声标签[38]，但他们的方法没有我们的方法具有的同样的鲁棒性。02.2. 对比学习0对比学习是最近自监督表示学习方法的核心[4, 8, 29,39]。在自监督对比学习中，为每个输入图像生成两个随机增强的图像。然后应用对比损失，将来自同一源图像的嵌入拉近，而将来自不同源图像的嵌入推开。最近，提出了原型对比学习（PCL）[21]，它使用聚类原型来计算对比损失。0我们的方法使用原型作为质心，并通过将图像嵌入拉近到其分配的原型来训练网络。与这些方法不同，我们的方法通过训练线性自编码器在主要子空间中进行对比学习。我们的弱监督对比损失改进了PCL[21]，通过使用伪标签计算类别原型，并使用Mixup[44]增强输入。与原始的Mixup不同，原始的学习发生在分类层，我们的学习发生在低维子空间中，以学习鲁棒的表示。03. 方法0给定一个嘈杂的训练数据集 D = {(x_i, y_i)}_n_i=1，其中 x_i是一张图像，y_i ∈ {1, ..., C}是它的类别标签。我们的目标是训练一个对训练数据中的噪声具有鲁棒性并在干净的测试集上达到高准确率的网络。所提出的方法分为两个步骤迭代地进行：(1)噪声鲁棒对比学习，训练网络学习鲁棒的表示；(2)带有平滑邻居的噪声清理，旨在纠正标签噪声并去除OOD样本。算法1给出了伪代码。接下来，我们详细说明每个步骤。03.1. 噪声鲁棒对比学习0如图2所示，网络由三个组件组成：（1）深度编码器（卷积神经网络），将图像xi编码为高维特征vi；（2）分类器（全连接层后跟softmax），将vi作为输入并输出类别预测；（3）线性自编码器，将vi投影到低维嵌入zi∈Rd。我们的目标是学习具有两个对比损失的鲁棒嵌入：无监督一致性损失和弱监督混合原型损失。无监督一致性对比损失。根据NT-Xent[4]用于自监督表示学习的损失，我们的一致性对比损失强制具有语义保持扰动的图像具有相似的嵌入。具体而言，给定一个大小为b的小批量图像，我们对每个图像应用弱增强和强增强，并获得2b个输入{x i }2b i=1。弱增强是一种标准的翻转和平移增强策略，而强增强包括颜色和亮度变化，详细信息在第4.1节中给出。我们将输入投影到低维空间，并获得其归一化嵌入{ˆzi}2bi=1。设i∈{1，...，b}是弱增强输入的索引，j(i)是来自同一源图像的强增强输入的索引，一致性对比损失定义为：0其中τ是一个标量温度参数。一致性Softmax0.2×+0.8×ℒ!"#$%ℒ!"#$%ℒ##ℒ&#_()*zc =1|Ic|�i∈Icˆzi,ˆzc =zc∥zc∥2,(2)2b2b94870低维0高维0弱监督0增强0强化0增强0归一化0低维0高维0类原型插值嵌入0归一化0� #" 损失函数0插值0输入0子空间投影0图2.我们提出的噪声鲁棒对比学习框架。我们将图像投影到低维子空间，并通过（1）Lcc：一致性对比损失来规范子空间的几何结构，该损失强制具有扰动的图像具有相似的嵌入；（2）L pcmix：通过混合增强的原型对比损失，鼓励线性插值输入的嵌入具有相同的线性关系，相对于类别原型。低维嵌入还被训练以重构高维特征，从而保留了学到的信息并规范了分类器。0对比损失最大化正样本嵌入对的内积ˆzi和ˆzj(i)，同时最小化负样本嵌入对的内积2(b-1)。通过将同一图像的不同视图（增强）映射到相邻的嵌入中，一致性对比损失鼓励网络学习具有鲁棒性的区分性表示，能够抵抗低级图像损坏。0弱监督混合原型对比损失。我们的第二个对比损失将类别的结构知识注入到嵌入空间中。设Ic表示D中标记为类别c的图像的索引子集，我们计算类别原型作为归一化的平均嵌入：0其中ˆzi是中心裁剪图像的嵌入，类别原型在每个时期开始时计算。原型对比损失要求图像嵌入ˆz i与其对应的类别原型ˆz yi更相似，而与其他类别原型不同：0L pc ( ˆ z i , y i ) = - log exp( ˆ z i ∙ ˆ z y i /τ ) � C c=1 exp( ˆ z i ∙ ˆ z c /τ ) . (3)0由于标签yi存在噪声，我们希望通过正则化编码器来避免记忆训练标签。Mixup[44]已被证明是一种有效的对抗标签噪声的方法[1,18]。受此启发，我们通过线性插值一个样本（由i索引）与另一个样本（由m(i)索引）来创建虚拟训练样本：0从同一小批次中随机选择的样本（由m(i)索引）：0x m i = λ x i + (1 - λ ) x m ( i ) , (4)0其中λ�Beta(α,α)。让ˆz m i是x mi的归一化嵌入，原型对比损失的混合版本被定义为两个Lpc相对于类别y i和y m(i)的加权组合。它强制插值输入的嵌入与类别原型具有相同的线性关系。0L pc mix =0i =1 λ L pc ( ˆ z m i , y i ) + (1 - λ ) L pc ( ˆ0(5) 重构损失。我们还训练一个线性解码器W d，根据zi重构高维特征v i。重构损失定义为：0L recon =0i =1 ∥ v i - W d z i ∥ 2 2 . (6)0训练自动编码器有几个好处。首先，最优线性自动编码器将将v i投影到其低维主子空间中，并可以理解为应用PCA[2]。因此，低维表示zi对输入噪声具有内在的鲁棒性。其次，最小化重构误差是最大化v i和zi之间的互信息的下界[37]。因此，从提出的对比损失中学到的知识可以在高维表示中得到最大程度的保留，这有助于正则化分类器。0204080100707580859095CIFAR-10CIFAR-10002040801005060708090100CIFAR-10CIFAR-10002040801004681012CIFAR-10CIFAR-100bqti = 12pti + 12k�j=1wtijqt−1j,(9)J(qti) =k�j=1wtij�qti − qt−1j�22 +�qti − pti�22 .(10)Dtws = {xi, yi | qti(yi) > η0}∪{xi, ˆyti = arg maxcqti(c) |∀ maxcqti(c) > η1, c ∈ {1, .., C}}(11)94880时期0伪标签准确性（％）0时期0监督样本数量（％）0时期0监督噪声比例（％）0(c) 图3. 使用提出的标签修正方法在带有50％对称噪声的CIFAR数据集上进行训练的课程学习。 (a)伪标签相对于干净训练标签的准确性。我们的方法有效地清除了大部分标签噪声。 (b) 弱监督子集D tws中的样本数量。随着伪标签变得更准确，使用更多样本来计算监督损失。 (c)弱监督子集中的标签噪声比例，即使子集的大小增长，也保持在较低水平。0分类损失。给定分类器的softmax输出p ( y ; x i)，我们将分类损失定义为交叉熵损失。注意，它仅应用于弱增强输入。0L ce = -0i =1 log p ( y i ; x i ) . (7)0整体训练目标是最小化所有损失的加权和：0L = L ce + ω cc L cc + ω pc L pc mix + ω recon L recon (8)0对于所有实验，我们固定ω cc = 1，ω recon =1，并仅在数据集之间更改ωpc。我们的方法通常对权重的值不敏感。在我们的消融研究中，我们表明设置ω cc = 0或ω recon =0仍然可以获得与当前最佳结果相当或更好的性能。03.2. 使用平滑邻居进行噪声清理0通过使用噪声标签 { y i } n i =1 进行 t 0个时期的训练来预热模型，我们的目标是通过生成每个训练样本的软伪标签 q i来清除噪声。与先前的方法纯粹使用模型的softmax预测进行标签校正不同，我们的方法利用低维子空间的结构，通过聚合来自前k个邻居样本的信息来缓解确认偏差问题。在第t个时期，对于每个样本 x i ，让 p t i是分类器的softmax预测，让 q t − 1 i是上一个时期的软标签，我们计算当前时期的软标签如下：0其中 w t ij 表示样本和其邻居之间的归一化关联度，定义为w t ij =0exp( ˆ z t i ∙ ˆ z t j /τ ) � k j =1 exp( ˆ z t i ∙ ˆ z t j /τ )0由方程（9）定义的软标签是以下二次损失函数的最小化器：0第一项是平滑约束，鼓励软标签采用与其邻居标签相似的值，而第二项试图保持模型的类别预测。我们构建了一个包含以下内容的弱监督子集：（1）干净样本，其原始类别 y i的软标签得分高于阈值 η 0，（2）伪标记样本，其最大软标签得分超过阈值 η 1。对于伪标记样本，我们通过选择具有最大得分的类别来将其软标签转换为硬标签。0给定弱监督子集，我们修改分类损失 L ce，混合原型对比损失 L pc mix 和原型 ˆ z c的计算，使其仅使用来自 D t ws 的样本。无监督损失（即 Lcc 和 L recon ）仍对所有训练样本进行操作。0学习课程。我们的迭代噪声清理方法学习了一个有效的训练课程，随着伪标签变得更准确，逐渐增加了 D t ws的大小。为了展示这样的课程，我们分析了在50%标签噪声下在CIFAR-10和CIFAR-100数据集上训练我们的模型的噪声清理统计数据（实验3{ˆzi}ni=1 = fθ(xi) ni=194890算法1：我们方法的伪代码01 输入：有噪声的训练数据 D = { ( x i , y i ) } n i =1，模型参数 θ 。02 for t ← 0 to t 0 − 1 do // 从噪声标签中学习 t 0个时期（热身）0// 获取归一化的低维度0所有图像的嵌入04 { ˆ z c } C c =1 = 计算原型( { ˆ z i , y i } n i =1 )0// 计算类别原型05 for { ( x i , y i ) } 2 b i =1 in D do // 加载一个小批量06 ˆ z i = f θ ( x i ) // 获取归一化的0低维嵌入07 λ � Beta( α, α ) // 从beta分布中采样一个混合权重08 x m i = λ x i + (1 − λ ) x m ( i ) // 生成虚拟训练样本09 ˆ z m i = f θ ( x m i ) // 获取010 L = � bi=1 Lce(xi, yi) + � 2bi=1 � ωccLcc(ˆzi) + ωpcLpcmix(ˆzmi, yi, λ) + ωreconLrecon(xi, ˆzi) �011 θ = SGD(L, θ) // 计算损失并更新模型参数012 end013 end014 for t ← t0 to MaxEpoch do // 从伪标签中学习015 {ˆzti, pti}ni=1 = {fθ(xi)}ni=10// 获取所有图像的嵌入和softmax预测016 qti = 102 pti + 102 � k j =1 w t ij q t − 1 j, q t 0 − 1 i = p t 0 i0// 从前k个邻居中聚合信息生成软标签017 D_tws = {xi, yi | qti(yi) > η0} ∪ {xi, ˆyti = arg max cqti(c) | � max c qti(c) > η1, c ∈ {1, .., C}}0// 构建一个包含干净样本和伪标记样本的子集018重复第4-12行，但只使用D_tws中的样本计算ˆzc，Lce，Lpc019 end0详细信息在下一节中解释）。在图3(a)中，我们展示了软伪标签相对于干净训练标签的准确率（仅用于分析目的）。我们的方法可以将标签噪声比例从50%降低到5%（对于CIFAR-10）和17%（对于CIFAR-100）。图3(b)显示了D_tws的大小作为训练样本总数的百分比，图3(c)显示了弱监督子集D_tws中的有效标签噪声比例。我们的方法在弱监督子集中保持低噪声比例，同时逐渐增加其大小以利用更多样本。0弱监督损失的样本。04. 实验0在本节中，我们在受控噪声和真实噪声的多个基准测试上验证了所提出的方法。我们的方法在所有基准测试中都取得了最先进的性能。为了公平比较，我们与没有集成的DivideMix[18]进行比较。在表7中，我们报告了我们的方法在协同训练和集成的情况下的结果，进一步提高了性能。04.1. 对受控噪声标签的实验0数据集。按照[34,18]的方法，我们使用两种类型的标签噪声（对称和非对称）来破坏CIFAR-10和CIFAR-100[16]的训练数据。对称噪声是通过随机选择一定比例的样本并将其标签更改为随机标签来注入的。非对称噪声是类别相关的，其中标签只被更改为相似的类别（例如狗�猫，鹿→马）。我们尝试了多个噪声比例：sym 20%，sym50%和asym 40%（在表7中查看sym80%和90%的结果）。请注意，非对称噪声比例不能超过50%，因为某些类别将变得理论上无法区分。0实现细节。与之前的工作[1, 18]相同，我们使用PreActResNet-18[9]作为我们的编码器模型。我们将瓶颈层的维度设置为d =50。我们使用带有0.9动量、0.0005权重衰减和128批大小的SGD进行模型训练。网络训练200个epochs。我们将初始学习率设置为0.02，并使用余弦衰减策略。我们应用标准的裁剪和水平翻转作为弱数据增强。对于强数据增强，我们使用AugMix [12]，尽管其他方法（例如SimAug[4]）效果也很好。对于所有的CIFAR实验，我们将超参数固定为ωcc = 1，ωpc = 5，ωrecon = 1，τ = 0.3，α =8，η1 = 0.9。对于CIFAR-10，我们在第t0 =5个epoch激活噪声清理，并设置η0 =0.1（对称）或0.4（非对称）。对于CIFAR-100，我们在第t0 = 15个epoch激活噪声清理，并设置η0 =0.02。我们使用faiss-gpu[15]在低维子空间中进行高效的knn搜索，搜索时间不超过10结果。表1显示了与现有方法的比较。我们的方法在所有标签噪声设置下都优于先前的方法。在更具挑战性的CIFAR-100上，我们实现了3-4%的准确率提升。为了展示所提出的抗噪声表示学习方法的优势，我们进行k最近邻（knn）分类（k =200），将训练和测试图像投影到归一化的低维嵌入中。与训练的分类器相比，knn实现了更高的准确率，验证了学习表示的鲁棒性。94900数据集 CIFAR-10 CIFAR-100 噪声类型 Sym 20% Sym 50% Asym 40% Sym 20% Sym50%0交叉熵[18] 82.7 57.9 72.3 61.8 37.3 前向[30] 83.1 59.4 83.1 61.4 37.3Co-teaching+[42] 88.2 84.1 - 64.1 45.3 Mixup[44] 92.3 77.6 - 66.0 46.6P-correction[41] 92.0 88.7 88.1 68.1 56.4 MLNT[19] 92.0 88.8 88.6 67.7 58.0M-correction[1] 93.8 91.9 86.3 73.4 65.4 DivideMix[18] 95.0 93.7 91.4 74.8 72.1ELR[23]（复现）94.7 ± 0.1 93.5 ± 0.2 91.7 ± 0.9 75.3 ± 0.2 71.3 ± 0.3DivideMix（复现）95.1 ± 0.1 93.6 ± 0.2 91.3 ± 0.8 75.1 ± 0.2 72.1 ± 0.30我们的（分类器）95.8 ± 0.1 94.3 ± 0.2 91.9 ± 0.8 79.1 ± 0.1 74.8 ± 0.4我们的（knn）95.9 ± 0.1 94.5 ± 0.1 92.4 ± 0.9 79.4 ± 0.1 75.0 ± 0.40表1.在CIFAR数据集上与最先进的方法进行比较，其中包含标签噪声。数字表示过去10个时期的平均测试准确率（%）。我们报告了3次独立运行的结果，其中包含随机生成的标签噪声。先前方法的结果来自[1，18]。我们使用与我们相同的嘈杂数据重新运行DivideMix和ELR（不使用模型集成）的公开可用代码。0输入噪声CE迭代[38] GCE[45] DivideMix[18] 我们的（分类器）我们的（knn）0+ CIFAR-100 20k 53.6 87.2 87.3 89.0 91.5 93.1 ± 0.3 + SVHN 20k 58.1 88.6 88.8 91.9 93.393.9 ± 0.2 图像损坏 53.8 87.7 87.9 89.8 91.4 91.6 ± 0.20表2.在CIFAR-10数据集上与最先进的方法进行比较，其中包含标签噪声（50%对称）和输入噪声（OOD图像或损坏图像）。数字表示过去10个时期的平均测试准确率（%）。我们报告了3次独立运行的结果，其中包含随机生成的噪声。我们使用与我们相同的数据和模型重新运行先前的方法，使用公开可用的代码。04.2. 在带有噪声图像的受控噪声标签上的实验0数据集。我们进一步通过注入两种类型的输入噪声来破坏一个噪声标记（50%对称）的CIFAR-10数据集：超出分布（OOD）图像和输入损坏。对于OOD噪声，我们遵循[38]，并从另外两个数据集中添加20k个额外图像：CIFAR-100和SVHN[28]，将训练集扩大到70k。每个OOD图像被分配一个随机的CIFAR-10标签。对于输入损坏，我们遵循[10]，并从以下四种类型中随机选择一种噪声来损坏CIFAR-10中的每个图像：雾，雪，运动模糊和高斯噪声。图4展示了这两种类型的输入噪声的示例。对于训练，我们遵循第4.1节中描述的CIFAR-10实验的相同实现细节。0结果。表2显示了结果。我们的方法始终以较大的优势优于现有方法。我们观察到来自类似领域（CIFAR-100）的OOD图像比来自更不同领域（SVHN）的OOD图像更具有害性。这是因为与测试数据分布更接近的噪声图像更有可能扭曲决策边界，从而对测试性能产生负面影响。尽管如此，进行k最近邻分类0CIFAR-1000高斯雾0雪花运动模糊0SVHN0OOD图像0图像0损坏0图4.注入到CIFAR-10的输入噪声示例。0使用学习的嵌入对输入噪声表现出很高的鲁棒性。0在图5中，我们展示了所有训练样本的低维嵌入的t-SNE[26]可视化，包括内部分布的CIFAR-10图像和外部分布的CIFAR-100或SVHN图像。随着训练从第10个epoch到第200个epoch的进行，我们的模型学会了将OOD样本（表示为灰色点）与内部分布样本（表示为彩色点）分开。它还学会了根据真实类别对CIFAR-10图像进行聚类，尽管它们有噪声标签。因此，该可视化展示了所提出的方法学习到了对标签噪声和OOD噪声都具有鲁棒性的表示。94910图5. CIFAR-10图像的低维嵌入的t-SNE可视化（颜色表示真实类别）+来自CIFAR-100或SVHN的OOD图像（灰色点）。该模型在带有50％标签噪声的noisyCIFAR-10（50k图像）和20k具有随机标签的OOD图像上进行训练。我们的方法可以有效地学习（1）根据真实类别对CIFAR-10图像进行聚类，尽管它们有噪声标签；（2）将OOD样本与内部分布样本分开，从而减少它们的危害。0CIFAR-10 Sym 50% + CIFAR-100 20k + 图像损坏 CIFAR-100 Sym 50%0w/o L pc mix 85.9 (86.1) 79.7 (81.5) 81.6 (81.7) 65.6 (65.9) w/o L cc 93.7 (93.8) 91.3 (91.5) 89.4(89.5) 71.9 (71.8) w/o L recon 93.3 (94.0) 90.7 (92.9) 90.2 (91.0) 73.2 (73.9) w/o mixup 89.5 (89.9)85.4 (87.0) 84.7 (84.9) 69.3 (69.7) w/ standard aug. 94.1 (94.3) 90.8 (92.9) 90.5 (90.7) 74.5 (75.0)0DivideMix 93.6 89.0 89.8 72.1 Ours 94.3 (94.5) 91.5 (93.1) 91.4 (91.6) 74.8 (75.0)0表3. 提出组件的效果。我们展示了具有不同噪声的四个基准上分类器（knn）的准确性。请注意，DivideMix [18]也执行了mixup。0瓶颈维度d = 25 d = 50 d = 100 d = 2000CIFAR-10 Sym 50% 93.4 94.3 94.2 93.7 CIFAR-100 Sym50% 73.8 74.8 74.4 73.80表4. 具有不同低维度的分类器的测试准确性（%）。04.3. 割舍研究0提出组件的效果。在表3中，我们研究了来自所提出方法的5个组件的效果，包括（1）弱监督的mixup典型对比损失Lpc mix，（2）无监督的一致性对比损失Lcc，（3）重构损失Lrecon，（4）mixup增强和（5）使用AugMix的强数据增强。我们去除了这些组件中的每一个，并报告了分类器和knn在四个基准上的准确性。结果显示L pcmix对模型的性能最为关键。Lcc在图像损坏或更多类别（CIFAR-100）时具有更强的正面效果。当去除L cc或Lrecon时，我们的方法仍然达到了竞争性能。当使用标准数据增强（随机裁剪和水平翻转）而不是AugMix时，我们的方法仍然达到了最先进的结果。瓶颈维度的影响。我们改变瓶颈层的维度d，并在表4中检查性能的变化。我们的模型通常对此不敏感。0d的变化。04.4. 在真实噪声数据上的实验0数据集。接下来，我们在两个真实的噪声数据集WebVision[22]和Clothing1M[40]上验证我们的方法。WebVision包含使用与ImageNetILSVRC12[5]相同的概念从网络上爬取的图像。根据之前的工作[3,18]，我们在Google图像子集的前50个类上进行实验。Clothing1M包含从在线购物网站收集的图像，其中标签是从周围的文本生成的。请注意，我们不使用额外的干净集进行训练。0实现细节。对于WebVision，我们遵循之前的工作[3,18]，使用inception-resnet v2[33]作为编码器。我们使用带有0.0001权重衰减和批量大小为64的SGD训练模型。我们以初始学习率0.04训练40个epoch。超参数设置为d = 50，ωcc = 1，ωpc = 2，ωrecon= 1，τ = 0.3，α = 0.5，η0 = 0.05，η1 = 0.8，t0 =15。对于Clothing1M，我们94920测试数据集 WebVision ILSVRC120准确率（%） top1 top5 top1 top50Forward [30] 61.1 82.7 57.4 82.4 Decoupling [27]62.5 84.7 58.3 82.3 D2L [25] 62.7 84.0 57.8 81.4MentorNet [14] 63.0 81.4 57.8 79.9 Co-teaching [6]63.6 85.2 61.5 84.7 INCV [3] 65.2 85.3 61.0 85.0 ELR[23] 76.3 91.3 68.7 87.8 DivideMix [18] 75.9 90.173.3 89.20我们的方法（无噪声清理） 75.5 90.2 72.0 90.0我们的方法（分类器） 76.3 91.5 73.3 91.2我们的方法（knn） 77.8 91.3 74.4 90.90表5. 在WebVision（mini）上与最先进方法的比较。数字表示WebVision验证集和ImageNetILSVRC12验证集上的准确率（%）。我们报告了ELR和DivideMix的结果，没有使用模型集成。0方法 CE Forward Joint-Opt ELR MLNT MentorMix SL DivideMix 我们的方法（分类器）我们的方法（knn）0准确率 69.21 69.84 72.16 72.87 73.47 74.30 74.45 74.48 74.84 74.970表6.在Clothing1M数据集上与最先进方法的比较。之前方法的结果直接从相应的论文中复制。我们报告了ELR和DivideMix的结果，没有使用模型集成。0数据集 CIFAR-10 CIFAR-1000噪声类型对称非对称对称0噪声比例 20% 50% 80% 90% 40% 20% 50% 80% 90%0DivideMix [18]（无集成） 95.0 93.7 92.4 74.2 91.4 74.8 72.1 57.6 29.2 DivideMix [18]（集成） 95.7 94.492.9 75.4 92.1 76.9 74.2 59.6 31.0 ELR+ [23]（集成） 95.6 94.6 93.1 76.1 92.0 77.1 74.0 59.9 31.30我们的方法 95.8 94.3 92.4 75.0 91.9 79.1 74.8 57.7 29.3 我们的方法（带有协同训练） 96.1 94.8 92.8 76.392.4 79.8 75.3 58.9 31.5 我们的方法（带有协同训练和集成） 96.4 95.3 93.3 77.4 92.6 80.3 76.0 61.1 33.10表7. 我们提出的带有协同训练和模型集成的方法的结果。我们报告最后10个epoch的平均测试准确率。0遵循之前的工作[7,18]，使用带有ImageNet预训练权重的ResNet-50。我们将1000个小批次采样为一个epoch，并以初始学习率0.01训练模型50个epoch。超参数设置为d = 32，ωcc = 1，ωpc =1，ωrecon = 1，τ = 0.3，α = 0.5，η0 = 0.4，η1 =0.9，t0 =1。大部分超参数在数据集之间保持不变。结果。我们在表5中报告了WebVision和表6中的Clothing1M的结果。我们的方法在这两个数据集上都达到了最先进的性能。即使没有进行噪声清理，WebVision上的性能也很有竞争力，这表明了学到的表示的鲁棒性。04.5. 协同训练和模型集成0协同训练和模型集成已被证明在对抗标签噪声方面很有用[6, 18, 23]。因此，我们0通过以下两种技术来结合这两种技术：（1）同时训练两个随机初始化的模型，并平均它们的软标签qti以产生新的软标签，（2）在测试期间使用它们的集成预测。CIFAR数据集上的结果如表7所示。05. 结论0在本文中，我们提出了一种通过学习鲁棒表示来学习噪声数据的新方法。我们提出了一种用于表示学习的噪声鲁棒对比学习框架，以及一种基于最近邻约束的噪声清理方法。我们的方法可以处理标签噪声、OOD噪声和图像损坏。我们通过对多个噪声数据集进行广泛实验，展示了我们模型的最先进性能。对于未来的工作，我们计划将我们的框架扩展到其他领域。94930参考文献0[1] Eric Arazo，Diego Ortego，Paul Albert，Noel E.O'Connor和Kevin McGuinness.无监督标签噪声建模和损失修正。在ICML，2019年，第312-321页。1，2，3，5，60[2] Pierre Baldi和Kurt Hornik. 神经网络和主成分分析:从示例中学习而无需局部最小值。神经网络，2(1):53-58，1989年。30[3] Pengfei Chen，Benben Liao，GuangyongChen和Shengyu Zhang.理解和利用用噪声标签训练的深度神经网络。在ICML，2019年，第1062-1070页。2，7，80[4] Ting Chen，Simon Kornblith，MohammadNorouzi和Geoffrey Hinton.对视觉表示进行对比学习的简单框架。arXiv预印本arXiv:2002.05709，2020年。2，50[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi和Fei-Fei Li. ImageNet:一个大规模的分层图像数据库。在CVPR，2009年，第248-255页。70[6] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor W. Tsang和Masashi Sugiyama.共同教学:用极其嘈杂的标签训练深度神经网络。在NeurIPS，2018年，第8536-8546页。1，2，80[7] Jiangfan Han，Ping Luo和Xiaogang Wang.从嘈杂的标签中进行深度自学习。在ICCV，2019年，第5137-5146页。80[8] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie和RossGirshick.动量对比用于无监督视觉表示学习。arXiv预印本arXiv:1911.05722，2019年。20[9] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深度残差网络中的身份映射。在ECCV，2016年，第630-645页。50[10] Dan Hendrycks和Thomas Dietterich.将神经网络的鲁棒性与常见的破坏和扰动进行基准测试。在ICLR，2019年。60[11] Dan Hendrycks，Mantas Mazeika，DuncanWilson和Kevin Gimpel.使用可信数据在严重噪声中训练深度网络的标签。在NeurIPS，2018年，第10477-10486页。20[12] Dan Hendrycks，Norman Mu，Ekin Dogus Cubuk，BarretZoph，Justin Gilmer和Balaji Lakshminarayanan. Augmix:一种简单的数据处理方法，用于提高鲁棒性和不确定性。在ICLR，2020年。50[13] Lu Jiang，Di Huang，Mason Liu和Weilong Yang.超越合成噪声:在受控噪声标签上进行深度学习。在ICML，2020年。20[14] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-JiaLi和Li Fei-Fei. Mentornet:为受损标签的非常深的神经网络学习数据驱动的课程。在ICML，2018年，第2309-2318页。2，80[15] Jeff Johnson，Matth

下载后可阅读完整内容，剩余1页未读，立即下载