带噪声标签学习的对比表征及其在深度神经网络中的应用

87 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

深度神经网络

标签噪声

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16682关于带噪声标签学习的对比表征李毅1盛刘2戚舍3甲.Ian McLeod1Boyu Wang王博宇1，41西安大略大学，2纽约大学数据科学3字节跳动4矢量研究所lyi7@uwo.caaimcleod@uwo.cabwang@csd.uwo.casheqi1991@gmail.comshengliu@nyu.edu摘要深度神经网络能够在softmax交叉熵（CE）损失的情况下轻松记住有噪声的先前的研究试图解决这个问题，重点是将噪声鲁棒损失函数并入CE损失。然而，由于非鲁棒CE损失，记忆问题得到缓解，但仍然存在。为了解决这个问题，我们专注于学习数据的鲁棒对比表示，分类器很难记住的标签噪声下CE损失。我们提出了一种新的对比正则化函数来学习这种表示噪声1类2类点（干净标签）点（错误标签）分类器Class 1分类器2类标签噪声不主导表示学习的数据通过理论研究由所提出的正则化函数诱导的表示，我们揭示了学习的表示保留与真实标签相关的信息，并丢弃与损坏标签相关的信息此外，我们的理论结果还表明，学习表示是鲁棒的标签噪声。在基准数据集上的实验证明了该方法的有效性1. 介绍深度神经网络的成功[19，34]在很大程度上依赖于正确标记的大规模数据集的可用性，这些数据集收集起来非常昂贵和耗时[46]。解决这个问题的方法包括：从类众包平台或非专业标签人员或其他不可靠的来源获取标签[49，55]，但尽管这些方法可以降低标签成本，但标签噪声是不可避免的。由于深度网络的过度参数化[19]，带有噪声标签的示例最终可能会被记忆，并产生交叉熵损失[3，27，32]，这被称为记忆效应[30，53]，导致性能不佳[53]。因此，重要的是开发对标签噪声具有鲁棒性的方法。*通讯作者图1.说明所提出的方法与噪声la-贝尔斯黑色曲线是在训练过程中学习到的最好的分类器。左：没有对比正则化的深度网络。右：具有对比正则化的深度网络。两个类可以通过深度网络更好地分离，具有相同类的点被拉到一个紧密的集群中，集群被彼此推开。交叉熵（CE）损失被广泛用作图像分类任务的损失函数，因为它在干净的训练数据上具有很强的性能[37]，但它对标签噪声不鲁棒当训练数据中的标签损坏时，性能下降[4，5]。考虑到深度网络的记忆效应，在具有CE损失的噪声数据上进行训练会导致数据的表示根据其噪声标签而不是基础事实进行聚类。因此，深度网络的最后一层无法从这些噪声表示中找到良好的决策边界。为了克服记忆效应，在文献[12，31，42，55]中积极研究了他们的目标是设计噪声鲁棒损失函数，以便在干净数据上实现小损失，在错误标记的数据上实现大损失。然而，经验表明，仅具有鲁棒性并不足以获得良好的性能，因为它还存在欠拟合问题[29]。为了解决这个问题，必须显式或隐式地联合使用这些噪声鲁棒损失函数16683X Y{}XY.Σ--p（z）RR具有CE损失，这带来了非鲁棒损失和鲁棒损失之间的折衷。结果，记忆效应得到缓解，但由于非鲁棒CE损失而仍然存在。在本文中，我们从一个不同的角度来处理这个问题具体来说，我们研究对比学习和聚类结构的效果与噪声标签的学习。由于对比表征学习方法[7-对比学习的关键成分是正对比对（x1，x2）。训练一个对比目标可以促使x1，x2的表示更接近。在监督分类任务中，正确的正对比对由来自同一类的示例形成。当标签噪声存在时，根据其噪声标签来定义对比对会导致不利影响。鼓励不同阶级的代表更加接近，这使得区分不同阶级的形象变得更加困难。与我们尝试从噪声数据中学习对比表示类似，以前的工作集中在通过根据伪标签重新定义对比对来减少不利影响[10，14，24，25]。然而，伪标签可能是不可靠的，然后错误的对比对是不可避免的，并可能主导表示学习。为了解决这个问题，我们提出了一个新的对比正则化函数，不会受到不利影响。我们从两个方面从理论上研究了由所提出的对比正则化函数引起的表示的好处。第一，可以主导表征学习。• 我们的经验表明，我们的方法可以应用于现有的标签校正技术和噪声鲁棒损失函数，以进一步提高性能。我们进行了大量的实验来证明我们的方法的有效性。2. 理论分析在本节中，我们首先介绍一些符号，然后研究通过对比正则化函数学习的表示的好处。2.1. 预赛我们使用大写字母X，Y，. - 是的- 是的来表示随机变量，书法字母，，。.. 表示样本空间，小写x，y，. - 是的- 是的代表他们的意识-选项。设X是输入随机变量，Y是它的真标号。我们用Y表示错误标记的随机变量，不等于Y的能力。随机变量Y的熵用H（Y）表示，X和Y的互信息是I（X，Y）。对比学习旨在学习数据的表示只有来自同一类的数据具有相似的表示。在本文中，我们建议通过引入以下对比正则化来学习表示-在所有示例（xi，yi）上的函数，yi是基本事实。Lctr （ xi ， xj ） =-hqi ， zji+hqj ， zii{yi=yj}，（1）其中qk=qk 而zk=zk-是的FollowingSimSiam[9]，图像保持与真实标签和显示相关的信息，我们定义kqkk2kzkk2与损坏的标签相关的卡信息。第二，我们从理论上证明了分类器很难记住已知表示的损坏标签，这表明我们的表示对标签噪声具有鲁棒性。直观地说，学习这种数据的对比表示有助于对抗标签噪音。如果数据点在其真实标签方面紧密聚集，则它使得分类器难以绘制决策边界以根据其损坏的标签来分离数据。我们在图1中说明了这种直觉。我们的主要贡献如下。• 我们从理论上分析了由对比正则化函数诱导的表示，表明表示保留了与真实标签相关的信息此外，我们正式表明，表示与不足损坏的标签相关的信息是强大的标签噪声。• 我们提出了一种新的算法，在数据与噪声标签学习对比表示，并提供梯度分析，以显示正确的对比对q=h（f（x）），z=stopgrad（f（x）），f是一个en-编码器网络由骨干网络和支持网络组成，其中h 是 MLP ，h 是MLP 。最小化方程（ 1 ）在（xi，yi）上，如果yi = yj，则（xj，yj）将xi和xj的表示拉得更近。停止梯度操作和h应用于表示的设计主要是为了避免平凡常数解2.2. 由对比正则化我们首先将最小化Eq的解决方案。（1）到互信息I（Z; X+）=p（z，x+）logp（z|x+）dx+dz，其中z=f（x）和x+与x属于同一类。定理 1. 通过最小化 Eq.（ 1 ）最大化互信息 I（Z;X+）。定理1揭示了对比学习与互信息最大化之间的等价性。In-tuture，Eq.（1）鼓励将同一类的表示拉到一起，并将不同类的表示推到一起16684p（z）E[e]≥✓联系我们apart. 以x+为条件的z的估计比随机猜测更准确，因为x的表示z类似于x+的表示。因此，逐点互信息logp（z|x+）通过最小化Eq. （一）.我们用Z表示？ =argmaxZI（Z， X+），通过最大化互信息的表示，其中Z是由具有参数的神经网络f参数化的X的表示。去了解Z？是从输入中学习的，为了证明Z？是噪声鲁棒的，我们引入（k，k）-分布的概念：定义1（（ n，n）-分布）。一分布D（X，Y，Y ）称为（X，Y）-分布，如果r ∈X>0，使得I（X;Y|X+），（2）和I（X;Y） |X+）>X。（三）当量（2）刻画了图像与其真实标签之间的联系。如果我们已经知道了一个图像X+，那么通过额外知道X，就有了与真实标签相关的有限的额外信息。我们使用一个小的数字来限制这种额外的信息增益。当量（3）描述了这些图像与其被破坏的标签之间的联系。通过知道附加图像X+，信息X包含关于它的中断标签Y的信息，Y仍然大于Y。上面的条件>0表示来自同一类的图像相对于真实标签比损坏的标签更相似。正如在[ 38 ]中提到的，如果存在Yg iv enX+的完美预测，则x=0。我们在图1中说明了定义1背后的直觉ure2.我们使用Grad-CAM [35]突出显示图像中的重要区域进行预测。模型捕获的突出显示区域与标签最相关。对于具有相同干净标签的图像，它们与真实标签相关的信息是相似的。例如，当图2中的Cat 1和Cat 2被标记为“cat”时，猫的脸被捕获为真实的标签相关信息，并且它们看起来都很对于带有损坏标签的图像，它们与损坏标签相关的信息是完全不同的。当图2中的Cat 1和Cat 2被标记为有了（Z，Z）-分布的概念，下面的定理有助于我们理解表示Z的好处。深入了解第二章. 给定一个分布D（X，Y，Y），即（X，Y）-分布，我们有I（X; Y）-I（Z？;Y） I（X;Y），⑷I（Z？;Y） I（X;Y）-+.（五）原始噪声标签清洁标签猫1猫2狗1狗2图2. Resnet 34的Grad-CAM [35]结果的示例分别在具有40%对称标签噪声的噪声数据集和当存在标签噪声时，与由模型捕获的损坏标签相关的信息在图像之间变化第2类中的地板和墙壁）。当没有标签噪声时，与真实标签相关的信息对于来自相同类别的图像是猫脸（Cat 2）给定图像X和它们的标签Y，相互信息i（X;Y）是固定的。该定理指出，学习表示Z？尽可能多地保留真实的标签相关信息，并丢弃许多损坏的标签相关信息信息.由于损坏的标签相关的信息被丢弃的表示Z？基于Z？已经减少了。引理1es-在错误的情况下建立预期误差的下限标记数据。引理1. 考虑一对随机变量（X，Y）。设Y是基于输入Z的任何分类器的输出，并且Y是的，当你A是的指示函数事件A。然后，我们有H（Y′ ）-I（Z′;Y′ ）-H（e′）。日志|Y|-一个引理1提供了基于表示学习的噪声标签学习成功的必要条件，并通过突出最小化I（Z;Y）的作用。要看到这一点，请注意，小I（Z;Y）意味着对标签噪声的鲁棒性，因为E[e]是损坏标签上的预期误差另一方面，在一项研究中，当最小化Eq. （1）、小I（Z？;Y= 0 ）可以如等式（1）中的上限所指示的那样实现。（十二）、同时，给出了I（Z？;Y）在Eq.（11）显示这个Z？可以保留数据为了避免I（Z_i;Y_i ）最小化（即，Z轴是一个常数）。而引理1与定理2相结合表明，阿Z？对于标签噪声是鲁棒的，下面的引理表明，16685⇥LPY（i）（i）L（p，y）=ylogp是CE损失，g是函数，}{！⇡2Lctr（xi，xj）=-hqi，zji+hqj，zii{pipj≥0}，（6）|样本量约为0。1，它是参数化不足的。这就解释了为什么图3显示记忆{z0}¨.Σ加拿大元80% 6 0加拿大元80% 6 0加拿大元40%$6 0加拿大元40%$6 0图3.标签噪声的记忆结果和CIFAR-10上测试数据的性能，具有80%对称标签噪声（SYM）和40%非对称标签噪声（ASYM）。记忆是由错误标记的例子的预测等于他们的标签的分数定义的。阿Z？也可以避免不匹配。具体而言，它意味着一个很好的分类器下实现的清洁分布也可以实现我们的代表Z？.引理2. 设R（X）=infgEX，Y[L（g（X），Y）]是联合分布X<$Y上的最小风险，其中i=1从输入空间映射到标签空间。设R（Z？）=在fg0EZy中，Y[（g0（Z？）， Y）]是联合分布Z上的最小风险？ Y和g0从表示空间映射到标签空间。然后，R（Z？）R（X） +λ.为了显示对比（CTR）表示Z的鲁棒性和性能？，我们经验地将其与通过CE损失学习的表示进行比较。我们首先使用干净的标签来训练具有不同损失函数的神经网络。然后，我们初始化最终线性分类器的参数，并使用噪声标签微调线性层我们用预测值等于标签的坏例子的分数来表示记忆。图3示出了CTR表示在测试准确性和减少记忆方面的改进的性能和鲁棒性。传统上，标签噪声的记忆随着训练的进行而增加[27，44]。我们注意到，先前的记忆是观察到的，并证明在过参数化模型，其中的数量参数和样本大小的比例是220左右。在他们的布景里-3. 算法实际上，由于我们只得到一个有噪声的数据集，我们不知道标签是否干净。因此，简单地最小化Eq.（1）可能导致性能恶化要看到这一点，请注意，Eq。（1）仅当yi=yj=1时才被激活。因此，当存在噪声标签时，来自不同类别的两个表示将被拉到一起由于深度网络首先拟合具有干净标签的示例，并且这些示例的概率输出高于具有损坏标签的示例[3，26]，因此解决此问题的一种直接方法是替换指示符具有更可靠准则的函数{p>ipj≥n}：联系我们其中pi是线性分类器在图像xi的表示产生的概率输出，并且pi是置信度阈值。然而，最小化Eq.（6）只有帮助在早期阶段进行表征学习。在此期间之后，具有损坏标签的示例将主导学习过程，因为来自正确对比对的梯度幅度压倒了来自错误对比对的梯度幅度传递对特别地，给定两个干净的例子xi，xj，其中yi=yj，以及错误标记的例子xm，其中yi=yi=yj，在早期阶段，表示1且qi>qm0的情况。在早期阶段，深度网络开始适应错误标记的数据。此时，错误的对比对（xi，xm）和（xj，xm）被错误地拉在一起，它们损害了表征学习，而不是正确的对（xi，xj）：<$ @L0ctr（xi，xm）<$2-我是我在这种情况下，模型记忆的例子的分数将增加然而，在我们的环境中记忆是指-�qi=c（1q>q）（7）2| {z1}在冻结数据之上的线性分类器上确定，<$ @L0ctr（xi，xj）<$2其中，数量参数和ci（1-qi>qj）=<$@q<我2随着训练的进行而减少。其中ci=1/kqik2，我们将h作为恒等函数、16686eL！！！$2个⇡eLe2个¨CTR我 J ¨¨¨为了简单起见。证明在补充材料中示出。为了解决这个问题，我们提出了以下正则化函数，以避免错误对比对的负面影响：ctr（xi，xj）=✓洛格。1- hqi，zji+log. 1- hq<$j，z<$ii <${p>ipj≥<$}当量（8）仍然旨在学习具有相同真实标签的数据的类似表示。由于最大的Eq。（8）与Eq相同（1）、我们关于阿Z？仍然保持。此外，方程的梯度分析。（8）给出Le（x， x）和5000张测试图片。其噪音水平约为8%。Clothing1M拥有14个类的100万张训练图像和10，000张测试图像其噪音水平估计在40%左右。噪声生成。对于CIFAR-10 我们考虑具有各种噪声电平的两种不同类型的合成噪声。对于对称噪声，每个标签都有相同的概率翻转到任何其他类别，我们随机选择r个带有标签的训练数据，被翻转为r20%，40%，60%，80%，90%。对于非对称噪声，遵循[6]，我们在TRUCK之间翻转标签汽车，鸟飞机，鹿马和猫狗。我们随机选择40%的训练数据，根据不对称标记规则将其标记翻转。对于CIFAR-100，我们还考虑了两种不同类型的合成噪声，各种噪音水平。对称标号的生成@qi2这表明，如果qi和q j彼此接近，则L2范数中的梯度增加。换句话说，正确对（xi，xj）的梯度大于错误对（xi，xm）的梯度（1 +qi>qj>1 +qi>qm（1）在学习过程中。与梯度由Eq给出。（7），我们提出的正则化函数不会受到错误对的梯度支配。同时，该模型不会过拟合干净的例子，即使方程的梯度（8）正确的配对大于错误的配对。如等式（7）描述了相对于表示的梯度，其大小可以被看作是将干净样本从同一类拉得更近的强度，这与对干净样本的过拟合没有此外，我们在表示的顶部使用单独的线性层作为分类器，因此只要分类损失相对于线性层中的参数的梯度在干净的示例上不大，模型就不会过拟合。最后，总体目标函数由下式给出：L=Lce+λLctr，（10）其中ctr用作表示的对比正则化（CTRR），λ控制正则化的强度。4. 实验数据集。我们在两个人工损坏的数据集CIFAR-10[15] 和 CIFAR-100 [15] 以及两个真实世界的数据集ANIMAL-10 N [36]和Cloth-ing 1 M [47]上评估了我们的方法。CIFAR-10和CIFAR 1 -00分别包含50，000张训练图像和10，000张测试图像，分别具有10个和100个类别。ANIMAL-10 N有10个动物类和50，000个外观混乱的训练图像噪声与CIFAR-10相同，噪声级r为20%、40%、60%、80%。为了产生不对称的标签噪声，我们随机抽取40%的数据，并将它们的标签翻转到下一个类别。基线方法。为了评估我们的方法，我们主要比较了我们的鲁棒损失函数与其他鲁棒损失函数方法：1）CE损失。2）前向校正[33]，其通过估计的噪声转移矩阵校正损失值。3）GCE [55]，它同时利用MAE损失和CE损失，并设计了一个鲁棒的损失函数。4)Co-teaching [17]，它维护两个网络并使用小损耗示例进行更新。5）LIMIT[18]，它将噪声引入梯度以避免记忆。6)SLN [6]，它将高斯噪声添加到嘈杂的标签中以对抗标签噪声。7)SL [42]，其使用CE损失和反向交叉熵损失（RCE）作为鲁棒损失函数。8)APL（NCE+RCE）[29]，它结合了两个相互增强的鲁棒损失函数进行训练。实作详细数据。我们使用PreAct Resnet18 作为CIFAR数据集的编码器，Resnet18作为两个真实世界数据集的编码器投影MLP和预测MLP对于所有编码器是相同的在SimSiam [9]之后，投影MLP由3层组成，具有2048个隐藏维度并输出2048维嵌入。预测MLP由2层组成，具有512个隐藏维度并输出2048维嵌入。在[7]之后，我们应用强增强来学习数据表示，其中强增强包括高斯模糊，颜色失真，随机翻转和随机裁剪。我们使用弱增强来优化交叉熵损失，其中包括随机翻转和随机裁剪。更多的实施细节可以在补充材料中找到。（八）2=ci（1+qi>qj），（16687前进93。47±0。1988年。87±0 . 01，P <0.05。 218328±0。37 75. 15±0。七三五八。58±1。0538. 49±1。02 82. 93±0。74第92章. 38±0。3291. 22±0。258926±0。3485. 76±0。58 70 57±0。8331. 25±1。0482. 23±0。6193. honeymoon 37±0。12 92. 05±0. 1587. 73±0。178510±0。49 44. 16±0。7130.39±1。0877. 78±0。5993. honor 47±0。5689. 63±0。4285。39±0。6378. 05±0. 8558. 71±0。8340. 46±0。9783。56±0。70SLN93. 21±0。218877±0。23 87. 03±0. 7080. 57±0。5063. 99±0。七九三十六。64±1。7781. 02±0. 25SL94. 21±0。1392. 45±0。0889. 22±0。0884. 63±0。217259±0。235113±0。27 83。58±0。60APL93. 97±0。2592. 51±0。3989. 34±0。3385. 01±0.177052±2。36 49. 38±2。8684. 06±0. 20CIFAR-10方法0%的百分比百分之二十Sym.40% 60%百分之八十百分之九十不对称百分之四十CE九十三97±0。2288岁51±0。1782岁73 ±0。 167626±0。29五十九25±1。0139岁43±1。1783岁23±0。59CTRR94 29±0。21九十三05±0. 3292. 16±0。3187岁34±0。8483岁66±0。5281. 65±2。4689岁。00±0。56表1.CIFAR-10在不同噪声类型和噪声级别下测试精度所有方法均使用相同的模型PreAct Resnet 18 [19]，并在三次运行中报告了其最佳结果。方法0%的百分比百分之二十Sym.百分之四十百分之六十百分之八十不对称CE远期GCE合作教学LIMITSLNSLAPL七十三。21 ±0。14七十三。01 ±0. 33七十二27±0。27七十三。39 ±0。27六十五53±0。9163岁13±0。21七十二44±0。44七十三。88 ±0。99六十岁。57 ±0。53五十八72±0。5468岁31±0。34六十五71±0。20五十八02±1。9355. 35 ±1。2666岁。46±0。2668岁09 ±0.1552岁48±0。3450块10±0。8462. 25 ±0。48五十七64±0。71四十九71±1。8151岁39±0。4861岁44±0。2363岁46±0。17四十三20±0。2139岁35±0。82五十三86±0。9531岁59±0。88三十七05±1。39三十五53±0。58五十四17±1。32五十三63±0。45二十二岁96 ±0。84十七岁15±1。8119号。31±1。14十五岁28±1。9420块01 ±0.1111个国家。96±2。03三十四22±1。0620块00±2。0244. 45 ±0。37-四十六岁。50±0。71---四十六岁。12±0。4752岁80±0。52CTRR74岁36±0。41七十09±0.45六十五32±0。20五十四20±0。34四十三69±0。28五十四47±0。37表2. CIFAR-100在不同噪声水平下测试精度。所有方法均使用相同的模型PreAct Resnet 18 [19]，并在三次运行中报告了其最佳结果。方法动物-10 N服装1MCE远期GCE合作教学SLNSLAPL83岁18 ±0。1583岁67 ±0。3184. 42 ±0。39八十五73±0。2783岁17 ±0。0883岁92 ±0。七十88±0。45七十一23±0。39七十一34±0。12七十一68±0。21七十一17±0。122884. 25 ±0。11七十二03±0. 13七十二18±0。21CIFAR-10016688CTRR86岁。71±0。15七十二71±0。19表3.在真实世界数据集ANIMAL-10 N和Clothing 1 M上测试准确性。根据三次不同运行获得结果4.1. CIFAR结果表1和表2显示了CIFAR-10的结果和CIFAR-100，具有各种标签噪声设置。我们使用PreAct Resnet18 [19]用于所有方法，并报告最佳方法根据三次运行测试它们的准确性。我们的方法在所有测试的噪声设置上实现了最佳性能。当噪声水平较高时，改善更为显著。特别是当噪音水平达到80%甚至90%，我们的方法明显优于其他方法。例如，在r = 90%的CIFAR-10上，CTRR保持81的高精度。65%，而第二个最好的是49。百分之六十五4.2. 动物-10 N衣物1 M结果表3显示了真实世界数据集ANIMAL-10 N和Clothing1 M的结果。所有方法都使用相同的模型，并在三次运行中报告最佳结果。为了与以前的公平计算工作保持一致，我们分别在ANIMAL-10 N和Cloth-ing 1 M上使用随机初始化的Resnet 18和ImageNet预训练的Resnet18 ，并且在三次运行中报告了最佳结果。对于Clothing1M，在[6，23]之后，我们随机抽取20个平衡子集。48K图像来自嘈杂16689正则化函数0%的百CIFAR-1040%60%百百Lectr（8）表4.模型对不同正则化函数的性能对比框架百百CIFAR-1060%百百CTRR（SimSiam）CTRR（ Simsiam ）CTRR（BYOL）九十三05±0. 3292. 50 ±0。35九十三31±0。1692. 16 ±0。31九十12±0。4392. 12 ±0。1687岁34±0。8487岁41±0。8388岁71±0。5283岁66±0。5284. 96 ±0。4486岁。99±0。5981. 65 ±2。4679岁。57±1。3284. 31 ±0。66表5.将我们的方法扩展到其他对比学习框架。5.2.正则化函数为了研究所提出的正则化函数的效果，我们比较了Eq.（8）Eq.（六）、经验结果与之前的梯度分析一致，如表4所示。我们提出的正则化函数方程。（8）优于Eq.（6）大图4.在具有60%对称标记噪声的CIFAR-10上分析λ和λ训练数据并报告10K测试图像的性能。我们的方法在两个真实世界的数据集上优于其他基线。5. 消融研究和讨论5.1. 超参数的影响超参数λ控制对数据表示的正则化的强度弱正则化不能解决记忆问题，而强正则化使得神经网络主要关注于优化正则化项，而忽略了优化线性分类器。图4（左）显示了不同λ的测试精度。结果与太强或太弱的正则化导致性能差的预期一致该阈值是从相同类中选择两个示例的置信阈值。当两个示例的分数超过阈值时，这两个示例被认为是正确的对。如果将设置得太低，则会选择许多错误的对。图4（右）显示了不同的测试精度。当我们总是对任何对有信心时（=0），模型性能会显著降低（约20%）。所有噪声水平的裕度因此，学习数据表示与方程。（8）可以避免错误对主导表示学习。5.3. 其他对比学习框架由于对比学习的InfoMax原则[40]和梯度分析可以应用于其他对比学习框架，因此我们将CTRR应用于其他对比学习框架。表 5 表明，我们的原则不仅限于SimSiam框架，还可以应用于其他对比学习框架。由于BYOL利用额外的指数移动平均模型来学习表示，因此与SimSiam相比，使用BYOL的CTRR的性能更好。CTRR在Simplified下的工作情况比其他两个框架稍差。为了实现它，我们简单地用我们的正则化函数Eq替换Simplified中正表示的内积。（8）并保持来自负对的Simplified目标函数相同。在标签噪声存在的情况下，来自Simplified的负对如何影响表征学习的研究超出了本文的范围。5.4. 与其他方法此外，CTRR与标签校正技术正交[27，54]。换句话说，我们的方法可以与这些技术相结合，以进一步提高学习性能。具体来说，我们使用基本的标签校正策略[6]，即用模型预测和原始预测的加权平均值L0CTR（6）九十三58±0。1186岁。05±0. 3382岁34±0。2574岁35±0。54五十四83±1。00四十96±0。9994 29±0。九十三92. 16±0。87岁83岁81. 65±2。16690标签校正技术百分之二十CIFAR-1040% 60%百分之八十73九十三05±0. 32九十三32±0。1192. 16 ±0。3192. 76±0。6787岁34±0。8489岁。23±0。1883岁66±0。52八十五40±0。93表6. 3/7表示启用/禁用标签校正技术。表7.模型在GCE、CTRR和CTRR+GCE方面的性能。标签，其中权重是按比例缩放的样本损失。在表6中，我们显示了在启用简单的标签校正技术后性能得到了改善。请注意，GCE [55]是一个部分噪声鲁棒损失函数，隐式地结合了CE和MAE。重新验证损失函数GCE以及我们提出的正则化函数是有我们在表7中显示了我们的方法和GCE [55]的组合的性能。与我们提出的方法诱导的表示，有一个显着的改进GCE，这表明了学习表示的有效性。同时，这种组合的成功意味着我们提出的方法是有益的其他部分噪声鲁棒损失函数。6. 相关工作在本节中，我们简要回顾了现有的标签噪声学习方法噪声鲁棒损失函数的设计目的是在噪声训练数据上训练时，在干净数据而不是损坏数据上实现小误差[1，29，37]。平均绝对误差（MAE）对标签噪声具有鲁棒性[13]，但无法解决复杂的分类任务。基于确定性的互信息损失L*被证明对标签噪声具有鲁棒性[49]，但它仅适用于与实例无关的标签噪声。广义交叉熵（GCE）[55]利用了MAE的优势，并将其与CE隐式结合。对称交叉熵（SL）[42]设计了一种噪声鲁棒的反向交叉熵损失，并将其与CE结合起来。然而，他们没有完全解决这个问题，因为CE容易记住损坏的标签。LIMIT [18]建议将噪声添加到梯度中以解决记忆问题。SLN [6]提出通过向数据标签添加噪声来对抗标签噪声。然而，它们可能遭受不合适的问题。有许多不同的对比正则化函数和架构被提出来学习表示，如Simplified [7]，MoCo [8]，BYOL [16]，SimSiam [9]和SupCon [20]，其中SupCon是学习带有干净标签的监督表示，而其他人则专注于学习没有标签的自监督表示。我们的目标是学习带有噪声标签的表示。我们主要遵循SimSiam框架，但我们的方法不限于SimSiam框架。最近，一些现有方法[10，14，24，25]利用对比表示学习来解决噪声标签问题。与他们的方法相比，我们从理论上分析了学习这种对比表示的好处，我们专注于解决一个根本问题，即如何避免错误的对比对主导表示学习。有许多其他方法可以使用噪声标签进行学习。样本选择方法（如Co-teaching [17]，Co-teaching+ [52]，SELFIE [36]和JoCoR [43]）选择小损失示例以更新模型，将小损失示例视为干净的示例。损失校正方法（如前向/后向方法[33]）基于噪声转移矩阵修改样本损失。一些工作建议改进噪声传输矩阵的估计，例如T-修订[45]和双T [50]。标签校正方法，如ELR [27]，M-DYR-H [2]和PENCIL [51]，使用不同的策略用伪标签替换噪声标签像DivideMix [23]这样的方法结合了样本选择，标签校正和半监督技术，并以经验证明了它们在对抗噪声标签方面的成功。7. 结论我们提出了一个简单而有效的CTRR来解决记忆问题。我们的理论分析表明，CTRR诱导噪声鲁棒表示，而不会遭受欠拟合问题。从算法的角度来看，我们提出了一种新的正则化函数，以避免错误的对的不利影响。实证结果也证明了CTRR的有效性。一方面，我们展示了现有方法的潜在组合，以提高模型的性能。另一方面，我们在不同的对比学习框架下评估我们的方法。它们都揭示了我们方法的灵活性和正确正则化数据表示的重要性。我们相信，CTRR可以与其他现有方法联合使用，以更好地解决存在标签噪声的机器学习任务。确认李毅获得了NSERC发现资助计划的支持。Sheng Liu部分获得了NSF资助DMS 2009752，NSF NRT-HDR奖1922658和阿尔茨海默氏症协会授予 AARG-NTF-21-848627 。Boyu Wang获得了NSERC发现资助计划的支持。方法GCECTRR百分之二十91. 22CIFAR-1040%60%89岁。26±0。34八十五76 ±0。58百分之八十七十57CTRR+GCE九十三94±0。09九十三06±0. 2992. 79±0。06九十25±0。40九十三05 ±0. 3292. 16 ±0。3187. 34 ±0。8483.66±0。5216691引用[1] 作者：Ehsan AmidWarcourt，Rohan Anil，and TomerKoren.基于bregman散度的鲁棒双调和逻辑损失。在神经信息处理系统的进展，2019。8[2] Eric Arazo，Diego Ortego，Paul Albert，Noel E.奥康纳和凯文·麦吉尼斯无监督标签噪声建模和损失校正。在2019年第36届机器学习国际会议上8[3] Devansh Arpit，Stanislaw Jastrzebski，Nicolas Ballas，David Krueger，Emmanuel Bengio，Maxinder S.放大图片创作者：Aaron C. Courville，Yoellow Bengio，andSimon Lacoste-Julien.深入研究深度网络中的记忆2017年第34届机器学习国际会议论文集。1、4[4] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。马赫学习. ，2010年。1[5] Shai Ben-David ， John Blitzer ， Koby Crammer ， andFernando Pereira.域适应的表示分析。神经信息处理系统进展，2006年。1[6] Pengfei Chen ， Guangyong Chen ， Junjie Ye ， JingweiZhao，and Pheng-Ann Heng.噪声对抗噪声：随机标签噪声有助于对抗固有的标签噪声。在2021年第九届国际学习代表大会上。五六七八[7] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E.辛顿大的自监督模型是强半监督学习器。在神经信息处理系统的进展，2020年。二五八十一[8] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。二、八[9] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE计算机视觉和模式识别会议上，2021年。二、五、八、十一、十二[10] Madalina Ciortan，Romain Dupuis，and Thomas Peel.一个使用对比学习进行噪声标签分类的框架。Data，6（6）：61，2021. 二、八[11] Farzan Farnia和David Tse。监督学习的极小极大方法在神经信息处理系统的进展，2016年。13[12] 雷锋、舒森林、林卓义、吕丰茂、李莉、薄安。交叉熵损失对标签噪声是否具有鲁棒性？在2020年第二十九届国际人工智能联合会议上。1[13] Aritra Ghosh，Himanshu Kumar和P.S. Sastry标签噪声下深度神经网络的鲁棒损失函数在2017年第31届AAAI商业智能会议的会议记录中。8[14] Aritra Ghosh和Andrew Lan。对比学习提高了模型在标签噪声下的鲁棒性在IEEE/CVF计算机视觉和模式识别会议论文集，第2703-2708页二、八[15] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在Pro-第十三届人工智能和统计国际会议的会议记录，第249-256页。JMLR Work-shop and Conference Proceedings，2010.5[16] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreH.Richemond，ElenaBuchatskaya ， CarlDoersch ， BernardoA'vilaPires ，ZhaohanGuo，Moham-madGheshlaghiAzar ， BilalPiot ， KorayKa vukcuoglu ，Re'miMunos ， and Michal Valko.Bootstrap Your OwnLatent：一种新的自我监督学习方法。在神经信息处理系统的进展，2020年。二、八[17] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor W. Tsang和Masashi Sugiyama.合作教学：对带有非常嘈杂标签的深度神经网络进行鲁棒训练。在神经信息处理系统的进展，2018年。五、八[18] Hrayr Harutyunyan，Kyle Reing，Greg Ver Steeg，andAram Galstyan.通过控制神经网络权值中的标签噪声信息来在2020年第37届机器学习国际会议上五、八[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年1、6、11[20] Prann

下载后可阅读完整内容，剩余1页未读，立即下载