“联合训练的协正则化解决带噪音标签的学习问题”

38 浏览量更新于2023-10-25 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13726通过协议打击噪音标签：一种联合训练的协正则化魏洪新1雷锋1陈翔宇2柏安11新加坡南洋理工大学计算机科学与工程学院2开放FIESTA中心，清华大学，中国{owenwei，boan}@feng0093@e.ntu.edu.sgchenxian18@mails.tsinghua.edu.cn摘要带噪声标签的深度学习是弱监督学习中的一个实际挑战性问题。最先进的方法“解耦”和“合作教学+”声称“分歧”策略对于缓解带有噪声标签的学习问题至关重要。在本文中，我们从不同的角度出发，提出了一种称为JoCoR的鲁棒学习范式，旨在减少训练过程中两个网络的多样性。具体来说，我们首先使用两个网络对相同的小批量数据进行预测，并为每个训练示例计算联合损失。然后我们选择小损失的例子来同时更新两个网络的参数。由于协正则化的作用，两个网络在联合损失训练下会越来越相似。对基准数据集（包括MNIST、CIFAR-10、CIFAR-100和Clothing 1 M）的损坏数据进行的大量实验结果表明，JoCoR优于许多最先进的方法，可用于带噪声标签的学习。1. 介绍深度神经网络（DNN）在各种任务上取得了显着的成功，其中大多数都是以超监督的方式训练的，这在很大程度上依赖于大量具有准确标签的训练实例[14]。然而，收集具有完全精确注释的大规模数据集是昂贵且耗时的。为了缓解这个问题，数据标注公司选择了一些交替的方法，如众包[39，43]和在线查询[3]来提高标注效率。不幸的是，这些方法通常会受到不可避免的噪声标签的影响，这已被证明会导致DNN的性能显著下降[1，44]。由于这个问题严重限制了神经网络应用的扩展，*通讯作者。已经被开发用于具有噪声标签的学习，其属于弱监督学习框架的家族[2，5，6，7，8，9，11]。其中一些侧重于改进估计潜在噪声转换质量的方法[21，24，32]。然而，准确地估计噪声转移矩阵是具有挑战性的。另一种方法是在选定的或加权的样本上进行训练，例如，[16]《礼记》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”（13.14）此外，包括Co-teaching+ [41]和Decoupling [23]在内的最先进方法通过引入“Disagreement然而，只有一部分训练样本可以通过“不一致”策略选择因此，出现了一个需要回答的问题：训练两个网络处理噪声标签是否需要“不一致”？受多视图学习和半监督学习的联合训练的启发，旨在最大限度地提高对多个不同视图的一致性[4，19，34，45]，处理噪声标签的直接方法是在训练每个单网络时应用对等网络的正则化。然而，尽管正则化可以通过消除它们之间的一致性来提高网络的泛化能力，但它仍然会受到噪声标签的记忆效应的影响[44]。为了解决这个问题，我们提出了一种新的方法，名为JoCoR（Joint Train- ing withCo-R egularization）。具体来说，我们训练了两个具有联合损失的网络，包括常规监督损失和Co-Regularization损失。此外，我们使用联合损失来选择小损失的例子，从而确保有偏选择的错误流不会在单个网络中累积。为了证明JoCoR显著提高了深度学习对噪声标签的鲁棒性，我们对模拟和真实世界的噪声数据集进行了广泛的实验，包括MNIST，CIFAR-10，CIFAR-100和13727Clothing1M数据集。实证结果表明，我们提出的方法训练的深度模型的鲁棒性优于许多最先进的方法。此外，消融研究清楚地证明了联合正规化和联合训练的有效性。2. 相关工作在本节中，我们简要回顾了现有的学习工作0iQi–EDWFK0iQi-EDWFK 20iQi-EDWFK 30！=$%$ %！！=$ %$ %$ %$ %带着嘈杂的标签。噪声率估计早期的方法侧重于估计标签转换矩阵[24，25，28，37]。例如，F校正[28]使用两步解决方案来解析地估计噪声转移矩阵。引入了一个额外的softmax层来模拟噪声转换矩阵[10]。在这些方法中，噪声率估计的质量是提高鲁棒性的关键因素。然而，噪声率估计是具有挑战性的，特别是在具有大量类别的数据集上。小损失的选择。最近，处理噪声标签的一种有前途的方法是在小损失实例上训练模型[30]。直观地说，DNN的性能将是如果训练数据变得不那么嘈杂，情况会更好。以前的工作表明，在训练过程中，DNN倾向于首先学习简单的样本，然后逐渐记住所有样本[1]，这证明了广泛使用的小损失标准：将训练损失小的样本视为干净样本。特别是，MentorNet [16]首先训练教师网络，然后使用它来选择干净的实例来指导学生网络的训练。对于Co-teaching [12]，在每个小批量数据中，每个网络选择其小损失实例并与其对等网络交换它们以更新参数。作者认为，这两个网络可以过滤噪声标签带来的不同类型的错误，因为它们具有不同的学习能力。当来自噪声数据的错误流入对等网络时，由于其鲁棒性，它将衰减不同意。“分歧”策略也适用于这一问题。例如，解耦[23]仅使用前两个不同网络的描述是不同的。不一致更新的想法类似于硬示例挖掘[33]，它用错误分类的示例训练模型，并期望这些示例帮助引导分类器远离当前的错误。对于“不一致”策略，“何时更新”的决定取决于两个网络之间的不一致，而不是取决于标签。因此，它将有助于减少这些网络之间的分歧。然而，由于噪声标签分布在整个示例空间中，因此在不一致区域中可能存在许多噪声标签，其中解耦方法不能显式地处理噪声标签 Co-teaching+ [41] 将 “ 不一致 ” 策略与 Co-teaching中的交叉更新相结合图 1. MentorNet （ M-Net ） [16] 、 Decoupling [23] 、 Co-teaching+ [41]和JoCoR之间的错误流比较。假设误差流来自训练样本的有偏选择，来自网络A或B的误差流分别用红色箭头或绿色箭头表示。第一个面板：M-Net主-只有一个网络（A）。第二小组：脱钩维持两个网络（A B）。当两个网络的预测值不一致时（！=）.第三个面板：在Co-teaching+中，每个网络都教授其预测不一致的小损失实例（！=）到它的对等网络。第四个面板：JoCoR也维护了两个网络（A B），但将它们作为一个整体进行训练，这使得每个网络的预测更接近于地面真实标签和对等网络在提高DNN对噪声标签的鲁棒性方面表现出色。尽管如此，Co-teaching+只从两个模型中选择具有不同预测的小损失实例，因此当数据集具有极高的噪声率时，在每个小批量中使用很少的示例进行训练。这将妨碍训练过程有效地使用训练实例。这种现象将在我们的实验中明确显示在对称的80%标签噪声的情况下。其他深度学习方法除了上述方法之外，还有一些其他深度学习解决方案[13，17]来处理噪声标签，包括基于伪标签的方法[35，40]和基于鲁棒损失的方法[28，46]。对于基于伪标签的方法，联合优化[35]学习网络参数并同时推断地面真实标签。PENCIL [40]采用标签概率分布来监督网络学习，并通过每个时期的端到端反向传播来更新这些分布。对于鲁棒的基于损失的方法，F-correct[28]提出了一种鲁棒的风险最小化方法，通过估计标签损坏概率来学习神经网络进行多类分类GCE [46]结合了平均绝对损失和交叉熵损失的优点，以获得更好的损失函数，并在噪声标签的背景下对所提出的损失函数进行了半监督学习半监督学习也属于弱监督学习家族-框架[15，18，22，26，27，31，47]。半监督学习中有一些有趣的工作与我们的方法高度相关。与“不一致”战略相反！$$%！=$$ %！=$$ %13728S1S2&URVV-（QWURS\/RVV 21HWZRUN100&RQWUDVWiYH /RVV（J6 DiYHUJHQFH）1HWZRUN1000&URVV-（QWURS\/RVV 112i=1M121111分段最大化算法Co-RLS [34]通过优化标记和未标记样本的一致性和平滑度，将标准正则化方法（如支持向量机（SVM）和正则化最小二乘（RLS））扩展到多视图半监督学习。EA++ [19]是一种基于共正则化的半监督域自适应方法，它建立在增强空间的概念基础上，并利用目标域中的未标记数据来进一步帮助信息的传输1HWZRUNV3UHGiFWiRQV++从源头到目标直觉是，每种观点中的不同模型都会同意大多数前样本，并且不太可能训练兼容的分类器图2. JoCoR示意图。sup（xi，yi）=独立的观点来同意一个不正确的标签。这种直觉也促使我们处理基于噪声的标签。ΣN=−i=1ΣMm=1 yilog（pm（xi））（二）协议最大化原则。ΣN−i=1ΣMm=1 yilog（pm（xi））3. 所提出的方法如前所述，我们建议应用协议最大化原则来解决噪声标签问题。在我们的方法中，我们鼓励两个不同的分类器通过显式正则化方法而不是“不一致”策略所采用的硬采样来使预测更接近彼此该方法可以被认为是通过一个损失函数训练两个基本分类器的元算法，该损失函数包括正则化项以减少两个分类器之间的分歧。对于M类的多类分类，我们假设N个样本的数据集为D为{xi，yi}N ，其中xi是第i个实例，其ob服务标签为y i∈ {1，. . .，M}。类似于解耦和共同教学+，我们制定了拟议的JoCoR ap-用f（x，Θ1）表示的两个深度神经网络的方法和f（x，Θ2），而p1=[p1，p2，. . .，p M]和p2 =直觉上，两个网络可以过滤噪声标签带来的不同类型的错误，因为它们具有不同的学习能力。在协同教学[12]中，当两个网络交换每个小批量数据中所选的小损失实例时，可以通过对等网络相互减少错误流。凭借联合训练范例，我们的JoCoR将在“小损失”选择阶段考虑两个网络的分类损失。这样，JoCoR可以共享协同教学中交叉更新策略的优点。这一论点将得到后面章节中消融研究的明确支持。对比损失。从一致性最大化原则[4，34]的角度来看，不同的模型在大多数例子的标签上会达成一致，但在以下方面不太可能达成一致：正确的标签。基于这一观察，我们应用共正则化方法来最大化两个分类器之间的一致性一方面，协正则化项[p1，p2，. - 是的- 是的，p M]表示它们的预测概率。22 2分别为stancexi。换句话说，P1和P2是Θ 1和Θ 2中的“softmax”层的输出网络对于JoCoR，每个网络都可以单独用于预测标签，但在训练阶段，这两个网络使用伪连体范式进行训练，这意味着它们的参数不同，但通过联合损失同时更新在这项工作中，我们把这种模式称为“具体地说，我们提出的损失函数xi是con-结构如下：（xi）=（1−λ）在损失函数中，第一部分是两个网络的常规监督学习损失，第二部分是两个网络预测之间的对比损失可以帮助我们的算法选择具有干净标签的因为具有小的共正则化损失的示例意味着两个网络在其预测上达成一致另一方面，来自对等网络的正则化有助于模型找到更宽的最小值，这有望提供更好的泛化性能[45]。在JoCoR中，我们利用了一个对比性的术语--协同正则化（Co-Regularization）来使网络相互引导.为了衡量两个网络预测p 1和p 2的匹配程度为了简化实现，我们可以使用对称的Kullback-Leibler（KL）散度来替代这项。DKl= DKL（p1||p2）+DKL（ p2||第1页）（3）哪里网络，以实现共同规范化。ΣNΣMD KL（p1||p2）=pm（xi）p（xi）日志分类损失。对于多类分类，我们使用交叉熵损失作为监督部分，以最小化i=1ΣNm=11ΣMpm（xi）pm（xi）D KL（p2||p1）=pm（xi）log2预测和标签之间的距离。i=1m=12pm（xi）13729Tk无无无无无无无算法1JoCoR输入：网络f，其中Θ={Θ，Θ}，学习率η，表1.将最先进的技术和相关技术与我们的JoCoR方法进行比较。在第一栏，“1.将2个损耗小的样品归为“固定τ、历元T_k和T_max、迭代次数I_max;1：对于t = 1，2，. - 是的- 是的，Tmaxdo2：洗牌训练集D;3：对于n = 1，. - 是的- 是的我最爱你4：从D获取小批量Dn;5：p1=f（x，Θ1），n∈Dn;6：p2=f（x，Θ2），n∈Dn;7：使用p1和p2通过（1）计算联合损失;8：从Dn通过（4）获得小损失集Dn;9：在Dn上通过（5）获得L;10：更新Θ=Θ-ηL;深度神经网络的记忆效应;“双重分类”：同时训练两个分类器;“交叉更新”：以交叉方式而不是并行方式更新参数;“联合训练”：训练具有联合损失的两个分类器;“分歧”：在整个训练时期期间，在不一致的示例上更新两个分类器;“协议”：在整个训练过程中通过正则化使两个分类器的一致性最大化。11：结束12：更新R（t）= 1-min13：结束输出：Θ1和Θ2、、、tτ，τRelations to other approaches.我们在表1中比较了JoCoR与其他相关方法。具体而言，解耦采用“另外，科-在介绍细节之前，我们首先澄清小损耗和清洁物质之间的联系。直观地说，小损失的例子很可能是那些被正确标记的例子[12，30]。因此，如果我们只使用每个小批量数据中的小损失实例来训练我们的分类器，它将抵抗噪声标签。为了处理噪声标签，我们应用“在设置Co-teaching+之后，我们更新R（t）（步骤12），其控制在每个训练时期中应该选择多少小损失数据。在训练开始时，我们在每个mini-natch中保留更多的小损失数据（具有较大的R（t）），因为深度网络将首先适应干净的数据[1，44]。随着历元的增加，我们降低了R（t）逐渐达到1-τ，保持较少的例子，每一个小批量。这样的操作将阻止深层网络从过度拟合噪声数据[12]。在我们的算法中，我们使用联合损失（1）来选择小损失的例子。直觉上，具有小联合损失的实例意味着两个网络可以容易地达成共识并对其做出正确的预测由于两个网络基于不同的初始条件具有不同的学习能力，因此所选择的小损失实例比单个模型所选择的实例更有可能具有干净的标签具体来说，我们进行小损失选择如下：Dn=argminD′：|D′|≥R（t）|D|（4）在获得小损失实例后，我们计算这些示例的平均损失，以进行进一步的反向传播：示教采用“交叉更新”策略更新网络参数，以减少累积错误流。Co-teaching+结合了“分歧”策略和“交叉更新”策略，取得了良好的效果。至于我们的JoCoR，我们也选择了小损失的例子，但通过联合训练来更新网络。此外，我们使用了共正则化来最大化两个网络之间的一致性。注意，我们提出的方法中的协同正则化和解耦中的“不一致”策略本质上都是为了减少两个分类器之间的分歧。它们之间的区别在于，前者使用显式正则化方法与所有的训练样本，而后者使用硬采样，减少了有效的训练样本的数量。这在小损失选择的情况下尤其重要，因为这种选择会进一步减少训练样本的有效数量。4. 实验在本节中，我们首先将JoCoR与一些最先进的方法进行比较，然后通过消融研究分析联合训练和协同正则化的影响。通过灵敏度分析，分析了（1）中λ的影响，并将其纳入补充资料中。4.1. 实验装置数据集。我们在四个基准数据集上验证了我们提出的al-出租m的有效性：MNIST、CIFAR-10、CIFAR-100和Clothing 1 M [38]，这些数据集的详细特征可以在补充资料中找到L=1|D~ |Σx∈D（x）（5）材料.在以前的文献中，这些数据集通常用于评估带噪声标签的学习[10，18，29]。特别是，Clothing 1 M是一个大型的真实的-解耦合作教学合作教学+JoCoR小亏✗✓✓✓交叉更新✗✓✓✗联合训练✗✗✗✓分歧✓✗✓✗协议✗✗✗✓13730标准F校正解耦协同教学协同教学+我们的100.097.595.092.590.087.585.082.580.077.510095908580757065605510090807060504030100.097.595.092.590.087.585.082.580.077.575.00255075100 125 150 175 200时代500255075100125150175 200时代200255075100125150175 200时代75.00255075100125150175 200时代100959085807570656055500255075100125150175 200时代(a) 对称性-20%10090807060504030201000255075100125150175 200时代(b) 对称性-50%90807060504030201000255075100125150175 200时代(c) 对称性-80%100959085807570656055500255075100125150175 200时代(d) 不对称-40%图3. MNIST数据集上的结果。上图：测试准确度（%）与时期;底部：标签精密度（%）与时代表2.过去10个时期MNIST的平均测试准确度（%）翻转速率标准F校正解耦合作教学合作教学+JoCoR对称性-20%79岁。56±0。44九十五38±0。10九十三16±0。11九十五10±0。16九十七81±0。0398.06 ±0。04对称性-50%52岁66 ±0。4392. 74 ±0。2169岁。79±0。5289岁。82±0。31九十五80±0。0996.64 ±0. 12对称性-80%23岁43 ±0。31七十二96±0。9028岁51 ±0。6579岁。73±0。35五十八92±147384.89 ±4。55不对称-40%79岁。00±0。2889岁。77±0。9681. 84 ±0。38九十28 ±0。27九十三28±0。4395.24 ±0. 10对称噪声0.4非对称噪声0.4对于Clothing1M的实验，我们使用带有噪声标签的1M图像进行训练，分别使用14k和10k干净数据进行验证和测试。请注意，我们没有在所有实验中使用50k干净的训练数据，因为在训练过程中只需要噪声标签[20，35]。对于预处理，我们调整图像大小，256×256，裁剪中间的224×224作为输入，并执行归一化。基线。我们将JoCoR（算法1）与以下算法进行比较：图4.噪声转移矩阵T示例（以6类、噪声比0.4为例）世界数据集与噪声标签，这是广泛使用的相关作品[20，28，40，38]。由于所有数据集都是干净的，除了Clothing1M，遵循[28，29]，我们需要通过标签转换矩阵Q手动破坏这些数据集，其中Qij=Pr[yj=j|y=i]g，这表明噪声y从干净y翻转。假设矩阵Q有两种代表性的结构：（1）对称性flipping [36];（2）不对称翻转[28]：模拟带有噪声标签的细粒度分类，其中标签器可能仅在非常相似的类别内出错。在F校正之后[28]，在非对称噪声的设置中，数据集中只有一半的类具有噪声标签，因此整个数据集中的实际噪声率τ是噪声类中噪声率具体地，当非对称噪声率为0.4时，意味着τ=0。二、图4示出了噪声转移矩阵的示例。采用最先进的算法，并在PyTorch中使用默认参数实现了所有方法，并在NVIDIA Tesla V100 GPU上进行了所有(i) Co-teaching+ [41]，它训练两个深度神经网络，包括不一致更新步骤和交叉更新步骤。(ii) Co-teaching [12]，它同时训练两个网络，并交叉更新对等网络的参数。(iii) 解耦[23]，仅使用来自两个分类器的具有不同预测的实例来更新参数。(iv) F-校正[28]，它通过标签转换矩阵校正预测正如作者所建议的，我们首先训练一个标准网络来估计转换矩阵Q。测试精度标签精度测试精度标签精度测试精度标签精度测试精度标签精度百分之六十百分之八百分之八百分之八百分之八百分之八百分百 0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比百分之八百分之六十百分之八百分之八百分之八百分之八0%的百分比百分之六十0%的百分比0%的百分比百分之四十0%的百分比百分之八百分之八百分之六十百分之八百分之八百分之八百分之四十0%的百分比百分之六十0%的百分比0%的百分比0%的百分比百分之八百分之八百分之八百分之六十百分之八百分之八0%的百分比0%的百分比0%的百分比百分百0%的百分比0%的百分比13731测试精度标签精度标签精度标签精度Tk标准F校正解耦协同教学协同教学+我们的90 9085808075 7070606560 5055405045 804075357030652560201555450255075100125150175 200时代300255075100125150175 200时代100255075100125150175 200时代500255075100125150175 200时代100 100 50 9590 90904580 808570 70408060 60357550 50307040 406530 302520 20602010 105500255075100125150175 200时代(a) 对称性-20%00255075100125150175 200时代(b) 对称性-50%150255075100125150175 200时代(c) 对称性-80%500255075100125150175 200时代(d) 不对称-40%图5. CIFAR-10数据集。上图：测试准确度（%）与时期;底部：标签精密度（%）与时代表3.过去10个时期内CIFAR-10的平均测试准确度（%）翻转速率标准F校正解耦合作教学合作教学+JoCoR对称性-20%69岁。18±0。5268岁74 ±0。2069岁。32±0。4078岁23 ±0。2778岁71 ±0。3485.73 ±0. 19对称性-50%四十二71±0。42四十二19±0。60四十22 ±0。30七十一30±0。13五十七05±0. 5479.41 ±0. 25对称性-80%十六岁24±0。39十五岁88±0。42十五岁31±0。43二十六岁58±2。22二十四岁19±2。7427.78 ±3。06不对称-40%69岁。43±0。33七十60 ±0。4068岁72 ±0。30七十三。78±0。2268岁84 ±0。2076.36 ±0. 49(v) 作为一个简单的基线，我们将JoCoR与直接在噪声数据集上训练的标准深度网络（简称为Standard）进行比较。网络结构和优化。我们对MNIST使用2层MLP，对CIFAR-10和CIFAR-100使用7层CNN网络架构。详细资料见补充材料。对于Clothing1M，我们使用18层的ResNet。对于MNIST、CIFAR-10和CIFAR-100上的实验，使用Adam优化器（动量=0.9），初始学习率为0.001，批量大小设置为128。我们总共运行200个epoch，从80到200个epoch，学习率线性衰减到零。对于 Clothing1M 上的实验，我们还使用 Adamoptimizer（动量=0.9）并将批次大小设置为64。在训练阶段，我们总共运行了15个epoch，速率分别为8×10−4、5×10−4和5×10−5，每次5个历元至于损失函数（1）中的λ，我们在[0.05，0.10，0.15，. . . ，0.95]，具有用于最佳性能的干净验证集。当验证集也含有噪声标签时，我们使用小损失选择来选择一个干净的子集进行验证。由于深度网络是高度非凸的，即使使用相同的网络和优化方法，不同的初始化也会导致不同的局部最优值。因此，在解耦[23]之后，我们也将具有相同架构但初始化不同的两个网络作为两个类，菲尔斯测量.为了衡量性能，我们使用测试精度，即，测试准确度=（正确预测数）/（测试编号）。此外，我们还在每个小批次中使用标签精度，即，标签精度=（清洁标签数量）/（所有选定标签的编号）。具体来说，我们在每个小批量中对小损失实例的R（t）进行采样，然后计算小损失实例中干净标签的比例。直观地说，更高的标签精度意味着更少的噪声实例，样本选择后的小批量，因此具有更高标签精度的算法对标签噪声的鲁棒性也更强所有实验重复五次。每个图中STD的误差条已突出显示为阴影。选择设置。在共同教导之后，我们假设噪声率τ是已知的。为了在基准数据集中进行公平的比较，我们将比值o，fsmall-l，osssamples R（t）设置为相同： R （ t ） =1−mintτ ， τ ，其中 T k=10 ，对于MNIST、CIFAR-10和CIFAR 100，T k= 5服装1M如果不提前知道τ，τ可以在-使用验证集[21，42]进行验证。4.2. 与最新技术MNIST上的结果。在图3的顶部，它显示了测试精度与时代在MNIST。在所有四个图中，我们可以看到网络的记忆效应，即，标准的测试精度首先达到很高的测试精度标签精度测试精度测试精度13732水平，然后逐渐提高，13733测试精度标签精度测试精度标签精度标准F校正解耦协同教学协同教学+我们的60 505545405035453040 25352015301025520 4018351614301210 2582064152200255075100125150175 200时代00255075100125150175 200时代00255075100125150175 200时代100255075100125150175 200时代10090908070806060 70556550604540557050604030502035 5030452540201535400255075100125150175 200时代(a) 对称性-20%100255075100125150175 200时代(b) 对称性-50%100255075100125150175 200时代(c) 对称性-80%300255075100125150175 200时代(d) 不对称-40%图6. CIFAR-100数据集。上图：测试准确度（%）与时期;底部：标签精密度（%）与时代表4.过去10个时期内CIFAR-100的平均测试准确度（%）翻转速率标准F校正解耦合作教学合作教学+JoCoR对称性-20%三十五14±0。44三十七95±0。10三十三岁。10 ±0。12四十三73±0。16四十九27±0。0353.01 ±0。04对称性-50%十六岁97±0。40二十四岁98±1。82十五岁25±0。20三十四96±0。50四十04 ±0.7043.49 ±0. 46对称性-80%4.第一章41±0。14二、10 ±2。233 .第三章。89 ±0。16十五岁15±0。46十三岁44±0。3715.49 ±0. 98不对称-40%二十七岁29±0。25二十五94±0。44二十六岁11±0。3928岁35 ±0。2533.62 ±0. 39三十二70±0。35艾丽下降。因此，一个好的鲁棒训练方法应该停止或减轻下降的过程。在这一点上，在所有四种情况下，Jo- CoR始终比所有其他基线实现更高的准确性我们可以在表2中详细比较不同算法的测试精度。在最自然的对称性-20%的情况下，所有新方法都明显优于标准方法，这证明了它们的鲁棒性。其中，JoCoR和Co-teaching+的效果明显优于其他方法。当它进入对称-50%的情况和不对称-40%的情况时，解耦开始失败，而其他方法仍然工作正常，特别是JoCoR和Co-teaching+。然而，Co-teaching+无法对抗最难的对称性-80%的情况，它只能达到58.92%。在这种情况下， JoCoR 再次实现了最佳的平均分类准确率（84.89%）为了解释如此出色的性能，我们绘制了标签精度与图3底部的epoch。这里只考虑解耦、协同教学、协同教学+和JoCoR，因为它们包括培训期间的示例选择首先，我们可以看到JoCoR和Co-teaching都可以成功地选择干净的实例。请注意，JoCoR不仅在所有四种情况下都达到了高标签精度，而且随着时代的增加表现得越来越好，而Co-teaching在达到顶部后逐渐下降。这表明我们的方法在寻找干净的实例方面更好然后，解耦和共教+在选择清洁例子.如在相关工作中所提到的，当噪声率变得非常高时，在训练过程中，Co-teaching+使用很少的示例。通过这种方式，我们可以理解为什么Co-teaching+在最困难的情况下表现不佳。CIFAR-10的结果。表3显示了CIFAR-10的测试准确度。正如我们所看到的，JoCoR在所有四种情况下的表现都是最好的。在对称-20%的情况下，JoCoR比所有其他基线工作得更好，并且联合教学+比联合教学和解耦更好。在其他三种情况下，JoCoR仍然是最好的，Co-teaching+甚至无法达到与Co-teaching相当的性能。图5显示了测试准确度和标签精密度与时代JoCoR在测试准确性和标签精度方面优于所有其他比较方法。在标签精度方面，虽然解耦和协同教学+无法找到干净的实例，但JoCoR和协同教学都可以做到这一点。一个有趣的现象是，在不对称-40%的情况下，尽管在前100个时期中，联合教学可以实现比JoCoR更好的性能，但JoCoR在所有后续时期中的性能始终优于JoCoR。实验结果表明，JoCoR比Co-teaching具有更好的泛化能力。CIFAR-100的结果。然后，我们将结果显示在CIFAR-100。试验准确度见表4。测试准确度和标签精度与图6中示出了时期。请注意，MNIST和CIFAR-10数据集中只有10个类。总的来说，准确度是非常高的。测试精度标签精度测试精度标签精度13734Standard+Co_teachingJoCoR表5.Clothing 1M测试集的分类准确度（%）1009896949290881009896949290860255075100125150175200时代880255075100125150175200时代低于表2和表3中的先前值。但是JoCoR在这个数据集上仍然达到了很高的测试精度。在最简单的对称性-20%和对称性-50%的情况下，JoCoR图7.MNIST消融研究结果90 9685 94效果明显优于Co-teaching+、Co-teaching等方法。在最难的对称性-80%的情况下，JoCoR和Co-teaching结合在一起，但JoCoR仍然获得更高的测试精度。当非对称性-40%的情况下，JoCoR和Co-teaching+比其他方法表现得更好。在标签精度上，JoCoR保持最佳807570656055500255075100125150175200时代929088868482800255075100125150175200时代四种情况下的表现。衣服1M的结果。最后，我们使用Clothing1M数据集证明了所提出的方法对真实世界噪声标签的有效性。如表5所示，best表示验证准确度最佳的时期的分数，last表示训练结束时的分数。所提出的JoCoR方法得到更好的结果比最好的最先进的方法。在所有时期之后，JoCoR在以下方面实现了显著提高：比标准方法提高+5.11，比最佳基线方法提高+1.284.3.消融研究为了进行烧蚀研究以分析共正则化的效果，我们在MNIST和CIFAR-10 上设置了对称性-50%噪声的实验。为了实现没有共正则化的联合训练（仅联合），我们将（1）中的λ 此外，为了验证联合训练模式的效果，我们引入了合作教学和标准增强的“回想一下，联合训练方法通过联合损失来选择示例，而协同教学使用交叉更新方法来减少错误流[12]，根据前面的分析，这测试准确度和标签精密度与MNIST上的时期如图7所示。正如我们所看到的，JoCoR在测试精度和标签精度方面都比其他人表现得更好前者几乎没有下降，而后者在达到顶峰后下降了很多。这一观察结果表明，Co-Regularization强烈阻碍了神经网络记忆噪声标签。测试准确度和标签精密度与CIFAR-10上的历元如图8所示。在这个数字上，JoCoR仍然保持着对其他三家冰毒的巨大优势，图8. CIFAR-10的消融研究结果而Joint- only、Co-teaching和Standard+与MNIST保持相同的趋势，在增加到最高点后保持下降趋势。这些结果表明，共正则化在处理噪声标签中起着至关重要的作用。此外， Joint-only 在测试准确性方面与 Co-teaching具有相当的性能，并且在标签精度方面优于Co-teaching和Standard+结果表明，在协同教学中，联合训练是一种比交叉更新更有效的范例选择方法。5. 结论本文提出了一种名为JoCoR的有效方法，以提高具有噪声标签的深度神经网络的鲁棒性。JoCoR的核心思想是用一个联合损失同时训练两个分类器，它由正则监督部分和Co-Regularized部分组成与Co-teaching+类似，我们也选择小损失的实例，通过联合损失来更新每个小批量数据中的网络。我们在MNIST，CIFAR-10，CIFAR-100和Clothing 1 M上进行了实验，以证明JoCoR可以在轻微和极度噪声的超视下鲁棒地训练深度模型。此外，消融研究清楚地证明了共同正规化和联合训练的有效性。在未来的工作中，我们将基于传统协同训练算法的观点探索JoCoR的理论基础[19，34]。致谢本研究得到新加坡国家研究基金会项目AISG-RP-2019-0013、NSOE-TSS 2019 -01和NTU的支持。我们衷心感谢NVIDIA AI技术中心（NVAITC）对我们研究的支持。Standard+Co_teachingJoCoRStandard+Co_teachingJoCoR测试精度Standard+Co_teachingJoCoR测试精度标号精度标号精度方法最好最后标准67.2264.68F校正68.9365.36解耦68.4867.32合作教学69.2168.51合作教学+59.3258.79JoCoR70.3069.7913735引用[1] D ev anshArpit，Stanisła wJastrz ebski，NicolasBallas，Da vid Krueger，Emmanuel Bengio，Maxinder S Kanwal，Tegan Maharaj，Asja Fischer，Aaron Courville，YoshuaBengio，et al.深入研究深度网络中的记忆在第34届机器学习国际会议论文集，第233-242页[2] H.鲍，加-地Niu和M.杉山基于成对相似性和未标记数据的分类.在国际机器学习会议上，第452-461页[3] Avrim Blum，Adam Kalai，and Hal Wasserman.噪声容忍学习、奇偶校验问题和统计查询模型。Journal of theACM，50（4）：506[4] Avrim Blum和Tom Mitchell结合标记和未标记数据与协同训练。在计算学习理论第十一届年会论文集，第92-100页[5] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习麻省理工学院出版社，2006年。[6] M. C. du Plessis，G. Niu和M.杉山从正的和未标记的数据中学习的分析。In Advances神经信息处理系统，第703-711页，2014年。[7] 雷锋和保安。利用潜在标签分布进行部分标签学习。在人工智能国际联合上，第2107-2113页[8] 雷锋和保安。通过语义差异最大化的部分标签学习。在人工智能国际联合会议上，第2294-2300页[9] 雷锋和保安。带自我引导再训练的部分标签学习。在AAAI商业情报会议论文集，第3542-3549页[10] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。在2016年第五届学习代表国际

下载后可阅读完整内容，剩余1页未读，立即下载