没有合适的资源?快使用搜索试试~ 我知道了~
3932标签噪声Deep Patel和P S Sastry印度科学研究所,印度班加罗尔,560012deeppatel,sastry@iisc.ac.in摘要深度神经网络(DNN)已被证明在存在噪声标记数据的情况下容易被记忆或过拟合。针对这种噪声数据下的鲁棒学习问题,已经提出了几种算法。一类突出的算法依赖于样本选择策略,其中,本质上,选择具有低于某一阈值的损失值的样本的一部分用于训练。这些算法对这样的阈值敏感,并且难以修复或学习这些阈值。通常,这些算法还需要诸如在实践中通常不可用的标签噪声率的信息。在本文中,我们提出了一个自适应的样本选择策略,只依赖于一个给定的小批量的批量统计,以提供对标签噪声的鲁棒性。该算法不具有用于样本选择的任何额外的超参数,不需要关于噪声率的任何信息,并且不需要访问具有干净标签的单独数据。我们的经验证明了我们的算法的有效性的基准数据集。11. 介绍在许多应用中非常有效的深度学习模型需要大量的训练数据。这种大规模的标记数据通常是通过众包或自动标记生成的,这自然会导致随机标记错误。此外,人类注释者的主观偏见也可能导致这样的错误。深度网络的训练受到标签噪声的不利影响,因此标签噪声下的鲁棒学习是当前感兴趣的重要问题。近年来,已经提出了许多不同的用于分类器的鲁棒学习的方法,例如鲁棒损失函数[9,6,53,42]、损失校正[35]、Meta-元。学习[25,43],样本重新加权[38,39,41,16,1码为再现性将被制成可用此处:https://github.com/dbp1994/masters_thesis_codes/tree/main/BARE在本文中,我们提出了一种新的算法,自适应选择样本的基础上的统计观测损失值在一个小批量,并取得了良好的鲁棒性标签噪声。我们的算法不使用任何额外的系统来学习权重,不需要带有干净标签的额外数据,也不假设任何噪声率知识。该算法的动机是课程学习,可以被认为是一种设计自适应课程的方式。课程学习[4,21]是一种对示例进行排序的一般策略,以便网络在学习“难”示例之前从“简单”示例中学习。这通常是通过对训练集中的不同示例赋予不同的权重来实现的。许多基于样本重新加权的鲁棒学习的最新算法可以被看作是由类似的想法激发的。这种方法的一个很好的理由来自最近的一些研究[50],这些研究表明,深度网络可以学习在完全随机标记的数据上实现零训练错误进一步的研究,如[3,29]已经表明,当在噪声标记的数据上训练网络时,在过度拟合噪声标记的数据之前,首先学习更简单的模式。在过去的几年中,已经提出了若干策略,其旨在选择(或给予更多权重)[16、11、49、47、27、38、13])。所有这样的方法基本上采用“小损失”的启发式这些方法中的许多使用辅助网络来评估示例的损失或学习将损失值映射到样本权重。这样的方法需要额外的计算资源来学习多个网络,并且还可能需要单独的干净数据(没有标签噪声),并且这些方法涉及对额外超参数的仔细选择。一般来说,很难将样本的损失值与其标签的可靠性直接联系起来。任何特定示例的损失值本身都是当前学习状态的函数,并且随着时代的发展而发展偶数的损失值3933干净样本在学习过程中可能在很大范围内变化。此外,对于不同类别的示例,甚至在干净样本上由网络可实现的损耗值可能不同。出于这些考虑,我们提出了一个简单的,自适应的选择策略,称为BATCH重新加权(BARE)。我们的算法利用小批量中损失值的统计来计算样本的阈值在这一小批的选择。由于即使在同一时期内,该自动计算的阈值对于不同的小批量也可能不同,因此我们的方法相当于使用随着学习进行而自然演变的动态阈值。此外,在计算批量统计时,我们还考虑了类别标签,因此动态阈值也取决于示例的给定标签。本文的主要贡献是一个自适应样本选择策略的鲁棒学习,是简单的实现,不需要任何干净的验证数据,不需要在所有的噪声率的知识,也没有任何超参数的样本选择策略。它不需要任何辅助网络进行样本选择。我们经验性地证明了我们的算法在基准数据集上的有效性:MNIST [22],CIFAR-10 [19]和Clothing-1M [46],并表明我们的算法在时间方面更有效,并且与其他算法相比,对于不同类型的标签噪声和噪声率具有良好或更好的鲁棒性。本文其余部分的组织结构如下:第2节讨论了相关的工作,第3节讨论了我们提出的算法。第4节讨论了我们的实证结果,结论性意见在第5节中提供。2. 相关工作[4]中提出的课程学习(CL)是设计一种(最佳)排序训练样本的方式(基于示例的简单性以提高学习系统的性能。在[21]中提出了一种称为自定进度学习(SPL)的课程,其中基于损失值有多小来决定容易度。在[15]中提出了统一CL和SPL的框架多样性SPL[14]提出了一种样本选择方案,以鼓励选择一组不同的简单示例。 这一点在[56]中得到了进一步的改进。在学习的早期阶段鼓励更多的探索。最近,[18]提出了一个课程,该课程计算损失值的指数移动平均值作为训练样本的难度分数。受类似思想的启发,许多样本加权算法被提出来处理神经网络中的标签噪声。已经提出了固定/学习这样的权重的许多不同方式(例如, [16,11,49,47,27,38,13,39]),一般的启发是,低损失值表示可靠的标签。算法如Co-Teaching [11]和Co-Teaching+ [49]使用两个网络,并在一个网络中选择损失值低于阈值的样本来训练另一个网络在协同教学中,阈值是基于噪声率的知识来选择的。在Co-Teaching+中使用了相同的阈值,但样本选择是基于两个网络之间的分歧。[27]也依赖于“小损失”试探法,但是用于样本选择的阈值基于标签噪声率的知识来适配。MentorNet [16]是另一种基于课程学习的最新算法,它使用经过训练的辅助神经网络作为样本选择函数。[31]中提出了另一种样本选择算法,其思想是训练两个网络并仅在两个网络之间不一致的情况下更新网络参数这些样本选择函数大多是手工制作的,因此,它们可能是次优的。另一种策略是求解双层优化问题以找到最优样本权重(例如,[13])。[11,49]中使用的样本选择函数是次优选择,[47]提出了一种基于AutoML的方法,通过对具有干净标签的单独数据进行微调来找到更好的函数在[38]中提出的样本重新加权算法和[39]使用在线元学习,需要一些带有干净标签的额外数据除了上述样本选择/重新加权方法之外,还有其他方法来处理标签噪声。标签清洗算法[41,48,40]试图通过样本权重和网络权重的联合优化来识别和纠正潜在不正确的标签。损失校正方法[35,43]适当地修改损失函数(或后验概率),以校正标签噪声对风险最小化的影响;然而,它们需要知道(或估计)噪声率。那里 也是研究风险最小化稳健性的理论结果[9,53,20,42,28,32]。正则化方法,其中样本重新加权方法是一部分,采用显式或隐式正则化来减少对噪声数据的过拟合[1,24,30,51,37,33]。最近,一些工作已经使用自监督学习方法来获得更好的鲁棒性初始化[10,54],用于标签清理的二阶统计[57]和基于聚类的共识方法[58]来改善噪声转移矩阵估计,从而改善损失校正方法。在本文中,我们的兴趣是在样本选择的方法,实现标签噪声的鲁棒性。所提出的算法BARE是一种简单的、自适应的样本选择方法,它只依赖于统计量损失值的统计(或者,等价地,类后验概率的统计,因为我们使用CCE损失)。我们不需要任何带有干净标签的额外数据或者任何关于标签噪声率的知识。由于采用批量统计,评选门槛自然打了个平手3934我我我K−1K到网络学习的进化状态,而不需要任何可调的超参数。 反观其他许多 在上述算法中,我们不需要任何辅助网络来学习样本选择函数或交叉训练或噪声率估计,因此,我们的算法在计算上更有效。3. 批量重加权算法我们用L(f(x;θ),y)表示用于分类器训练的损失函数,在我们的情况下是CCE损失。3.2. 通过批量统计的自适应课程一般的课程学习可以被看作是加权损失的最小化[21,16]。Σm在本节中,我们将描述所提出的依赖于小批量统计的样本重新加权算法。minθ,w∈[0,1]mLwtd(θ,W)=i=1wiL(f(xi;θ),yi)(二)3.1. 问题公式和符号在标签噪声下,训练集中提供的标签可能是考虑一个K类问题,其中X作为特征/模式空间,Y={0,1}K作为标签空间。 我们假设所有标签都是独热向量,用ek表示对应于类的+G(W)+ β||θ||2其中G(W)表示课程。由于通常使用SGD进行学习,因此我们在这里将m作为一个小批的大小。课程的一个简单选择是[21]:G(W)= −λ|| W||1,λ >0。把这个放进上面,省略正则化项并取L(f(xi;θ),yi),则优化问题变为ΣmK.设Sc={(xi,yc),i= 1,2,· · ·,m}为在X × Y上按分布D抽取的iid样本。我们minθ,w∈[0,1]mLwtd(θ,W)=i=1(wili-λwi)(3)对学习一个在测试中表现良好的分类器感兴趣根据D.我们可以这样做,如果我们被给予Sc作为训练集。然而,我们有一个训练,Σm=i=1(wili+(1−wi)λ)−mλ(4)集合S ={(xi,yi),i = 1,2,···,m}根据分布Dη绘制。这里的yi是“损坏的P[yi=ek′|yc=ek]=ηkk′(1)ηkk′ 称为噪声率。 (一般情况下,在损失函数为非负的一般假设下,对于上述问题,对于任意固定的θ,最优W为:如果li<λ,则wi= 1,否则wi= 0.我们首先考虑一个修改,其中我们使λ依赖于类标签。优化问题变成Σm概率也可以取决于特征向量xi,尽管我们在本文中没有考虑这种可能性)。我们称minθ,w∈[0,1]mLwtd(θ,W)=i=1(wili−λ(yi)wi)(5)这个一般模型作为类条件噪声,因为这里标签损坏的概率取决于原始标签。这种情况的一个特殊情况是所谓的对称噪声ΣK=j=1Σmi=1(wili+(1−wi)λj)−ΣKj=1Σmi=1λj(6)其中我们假设ηkk=(1−η)且ηkk′=η,ηk′=k。i:yi=eji:yi=ej这里,η表示“错误”标签的概率。与对称噪声,则损坏的标签同样可能是任何其他标签。我们可以把ηkk′表示为一个矩阵,并假设它是对角占优的 ( 即 , ηkk>ηkk′, ηkk′=k ) 。 ( 注 意,如果η K−1,则对于对称噪声也是如此<)。在这种情况下,如果我们把所有的模式标记为一个特定的类,那么真正属于该特定类的模式在该集合中仍然占多数 现在标签噪声可以表述如下:我们想学习一个分布D的分类器,但给定的训练数据来自Dη。We表示参数化的分类器函数f(·;θ的θ。我们假设我们使用的神经网络分类器使用softmax输出层。因此,虽然训练集标签yi是独热向量,但我们将使f(x;θ)∈其中K−1<$[0,1]K是概率单形。3935其中λj=λ(ej)。很容易看出,最佳wi(对于任何固定的θ)仍然由相同的关系给出:对于yi=ej 的i,当li<λj 时w i = 1。请注意,即使我们使λj是θ和所有xi的函数,且yi=ej , 最 优 w i 的 这个 关 系 也 是 正 确 的。 因此,我们可以通过使这些λj取决于小批量中该类的所有xi和当前θ来获得真正动态自适应的课程。上面是一个有趣的见解:在自定步学习公式[21]中,即使我们使λ参数成为类别标签以及与该类别对应的其他特征向量的函数,最终解的性质也是相同的。这就产生了依赖于类别标签的损失值阈值。据我们所知,这个方向的课程学习还没有探索。下一个问题是我们应该如何决定或发展这些λj。正如我们前面提到的,我们希望这些由小批量中的损失值的统计数据来确定。3936|Sp|考虑那些满足yi=ej的i。 我们将设置wi= 1,因此使用此示例来更新此小批中的θ,如果此li<λj。我们希望λj基于该小批量的观测损失值固定。 由于有足够的经验证据表明,我们倾向于在过度拟合到有噪声的样本之前从干净样本中学习,因此小批量中观察到的损失值集合的某个分位数或类似统计量(在标记有特定类别的模式中)将是λ j的良好选择。以来我们是使用CCE损失,我们有Ii=-ln(fj(xi;θ)),并且由于网络具有softmax输出层,fj(xi;θ)是-j类的后验概率,算法1BATCH重新加权(BARE)算法一曰: 输入:噪声数据集Dη,类K的数量,时期的数量Tmax,学习率α,最小批量|M|2:初始化:分类器f(·;θ)的网络参数θ03:对于t= 0至Tmax−1,4:对训练数据集Dη进行5:对于i= l至|Dη|/|M|做6:从D η 7抽取小批量M:m = |M|// mini-batch size8:对于p= 1到K,9:Sp={k∈[m]|yk= ep}//在数据库中收集-p类的样本当前θ为xi。因为损失和后验概率是反向相关的, 我们的标准选择一个10:µp=1s∈Sp fp(xs;θt)//mean po posterior prob.对于p类样本例如,分配的后验概率为11:σ2=1(fp(xs;θt)−µp)2p| S p|s∈Sp高于一个阈值,这个阈值是观察到的小批量中的后验概率。在本文中,我们采取的统计量是平均值加一个标准差。换句话说,在任何小批量中,我们将样本的权重设置为.//后验概率方差对于p类样本12:λp←µp+σp//根据公式7的p类样本选择阈值13:结束14:R←φ//以M为单位的选定样本15:对于每个x∈M,wi=1若fyi(xi;θ)≥λyi=μyi+κ<$σyi(七)16:如果fyx(x;θt)≥λyx然后其中μ0其他=1Σf(x;θ)和σ2=17:R ← R(x,yx)//根据公式7阿吉岛|SYI|s∈Sy iyisyi18:结束,如果1(fy(xs;θ)−µy)2表示样本平均值19:结束|S YI |s ∈S yiii.ΣΣ以及具有类标签的样本的类后验概率的样本方差。[注:Syi ={k∈[m]|其中m是迷你批量的大小]。 我们在本文中使用κ= 1,但我们根据经验观察到,只要选择了来自“顶部分位数”的样本(即,κ>0),我们在不同的κ上获得了良好且相似的针对标签噪声的鲁棒性。参见附录中的表19,20:θt+1= θt−α//参数更新21:结束22:结束二十三: 输出:θt1|R|(x,yx)∈RL(x,yx;θt)消融研究。图9-在小批量中的损失值的统计的这种变化性质进一步证明了我们选择自适应阈值的方法的基本原理算法实现算法1概述了所提出的方法。 保持考虑到神经网络是以小批量方式训练的,算法1由三部分组成:(一)计算给定小批量数据的样本选择阈值λyx(步骤8-13),ii.)根据等式7基于这些阈值进行样本选择(步骤15-19),以及iii.)使用这些选择的样本更新网络参数(步骤20)。4. 噪声数据集上的实验数据集:我们在两个基准图像数据集上证明了所提出的算法的有效性:MNIST和CIFAR10.这些数据集被用来基准测试几乎所有的算法在标签噪声下的鲁棒学习,我们简要地描述了数据集。MNIST包含60,000张训练图像和10,000张测试图像(大小为28×28),共10个类。CIFAR-10包含50,000张训练图像和10,000张测试图像(大小为32×32),具有10个类别。我们在两种类型的标签噪声上测试算法:对称和类别条件标签噪声。在对称标签噪声中,每个标签以相等的概率被随机翻转到任何剩余的类,而对于类条件噪声,标签翻转是在一组类似的类中完成的。对于这里的模拟,对于MNIST,以下翻转是完成:1←7,2→7,3→8,5参与6。同样地,对于CIFAR10,执行以下翻转:卡车→汽车,鸟→飞机,鹿→马,猫参与狗。我们使用这种类型的噪音,因为它是可以说是一个更现实的场景,也因为它是除了对称噪声之外,其他用于在标签噪声下学习的算法已经使用的噪声类型。我们还提供了具有任意噪声3937率矩阵的结果(参见3938补充)。对于所有的数据集,80%的训练集用于训练,从剩下的20%的数据中,我们抽取了1000张图像作为验证集。我们还对Clothing-1 M数据集进行了实验[46],这是一个大规模的数据集,通过从网络上抓取与服装相关的不同图像来获得。它包含的噪声可以被描述为有点接近于特征相关噪声,最常见的标签噪声。估计有40%的图像具有噪声标签。训练数据集包含100万张图像,类别数为14。还有额外的训练,验证和测试集,分别为50k,14k和10k图像,带有干净的标签。由于存在数据增强:MNIST不使用数据增强。CIFAR-10使用填充为4的随机裁剪和服装-1 M。我们做随机裁剪,同时确保图像大小是固定的。基线:我们将所提出的算法与文献中的以下算法进行比较:1.)的人。Co-Teaching(CoT)[11],涉及通过选择低损失值样本的一部分(取决于噪声率)来交叉训练两个相似的网络;2.)的情况。Co-Teaching+(CoT+)[49]它改进了CoT,不同之处在于仅从两个网络的预测不一致的子集中选择样本; 3.)第三章Meta-Ren(MR)[38],它涉及通过比较干净和有噪声数据的梯度来动态地对样本权重进行元学习; 4.)Meta- Net(MN)[39],通过单独的神经网络显式学习样本权重来改进MR;课程损失(CL)[27],涉及基于( 估 计 ) 噪 声 率 的 样 本 选 择 课 程 ; 和 6. ) 标 准(CCE),这是通过具有交叉熵损失的经验风险最小化(使用带有噪声标签的数据)进行的通常训练。在这些基线中,CoT、CoT+和CL是需要噪声率知识的样本选择算法。算法CoT+和CL需要少量的初始迭代,而不需要任何样本选择作为预热期;在MNIST和CIFAR-10的训练过程中,我们分别使用了5个和10个epoch作为热身期。MR和MN假定访问一小组干净的验证数据。因此,为了在所有基线之间进行公平比较,在MR和MN的情况下使用1000个样本的干净验证集,并且将具有噪声标签的相同样本集用于包括所提出的算法的其余算法。网络架构&优化器:虽然用于在标签噪声下学习的大多数算法使用MNIST和CIFAR10数据,但是不同的算法使用不同的网络体系结构因此,为了更公平的比较,我们决定使用在干净数据上提供最先进性能的小型网络,并研究我们在这些网络上使用我们的算法所获得的鲁棒性。有关网络架构和优化例程的详细信息,请参阅补充材料。性能测试:对于所有算法,我们在一个单独的测试集上使用干净的标签来比较测试精度。所有样本选择方案的主要思想是确定嘈杂的标签。因此,除了测试准确度外,我们还比较了识别噪声标签的精度(选择的干净标签数量/选择的标签数量)和召回率(选择的干净标签数量/数据中的干净标签数量4.1. 结果讨论MNIST上的性能。图1显示了在对称(η∈ {0. 5,0。7})和类条件(η= 0. 45)标记不同算法的噪声。我们可以从图所提出的算法优于对称噪声的基线。对于类条件噪声的情况下,所提出的算法的测试精度略低于最好的基线,即CoT和MR。CIFAR-10的性能。图2示出随着训练的进行,各种算法的测试精度对于对称(η∈ {0. 3,0。7})和类条件(η= 0. 4)标签噪声。从图中可以看出,该算法优于基线方案,其测试精度一致优于各种标签噪音。值得注意的是,虽然测试我们的算法的准确度在达到最大性能后保持饱和,其他算法的性能似乎恶化,可以在训练结束时以准确度下降的形式看到。这表明我们提出的算法即使在长时间的训练之后也不会让网络过拟合,这与其他算法的情况不同。所有的算法,除了提出的一个,有超参数(在样本选择/加权方法)和精度报告这里是通过调整获得的最佳可能的超参数值。MR和MN算法对Meta学习算法中的超参数值特别敏感。相比之下,BARE没有用于样本选择的超参数,因此不涉及这种调整。对于MNIST和CIFAR-10的测试准确度,可以注意到有时MN准确度的标准偏差很高。如前所述,我们注意到MN对超参数的调整非常敏感。虽然我们尽了最大的努力来调整所有的超参数,但我们发现这些情况下的最终参数可能仍然不是最好的,这就是为什么标准差很高。服装1M 在这个数据集上,BARE实现了72.28%的测试准确率,3939(a)(b)(c)第(1)款图1:测试精度-MNIST-对称(a b)类条件(c)标签噪声(a)(b)(c)图2:测试精度-CIFAR 10-对称(a b)类条件(c)标签噪声(a)(b)(c)图3:标签精度- MNIST -对称(a b)类条件(c)标签噪声CCE达到68.8%。对于所有其他基线,BARE实现的准确度优于相应论文中报告的准确度,除了C2D [54]DivideMix [24], 其 报 告 的 准 确 度 分 别 为 74.58% 和74.76%。(The结果总结在表3中补充)。这些结果表明,即使对于实际使用的具有特征依赖标签噪声的数据集,BARE的性能也优于除两个基线外的所有基线。我们注意到,性能最好的基线DivideMix所需的计算 时 间 大 约 是 BARE 所 需 的 2.4 倍 。 除 此 之 外 ,DivideMix还需要调整5个超参数,而BARE不需要这样的调整。性能第二好的基线C2D在计算上也比BARE昂贵,因为它依赖于自我监督学习。疗效的检测清洁样品图图3和图4分别显示了MNIST和CIFAR-10上各种算法的标签精度(跨时期)。从这些图中可以看出,BARE具有可比或更好的精度。因此,与其他样本选择算法相比,BARE选择用于训练的样本中有更高比例的样本具有干净的标签。3940(a)(b)(c)图4:标签精度-CIFAR 10-对称(a b)类条件(c)标签噪声(a)(b)(c)图5:标签召回-对称(a b)类条件(c)标签噪声虽然测试准确率和标签精度值确实证明了算法的有效性,但查看标签召回率值也是有指导意义的。标签召回告诉我们样本选择算法在选择可靠、干净的样本时的表现。图5显示了MNIST(5a)和CIFAR-10(5 b和5c)的CoT、CoT+、CL和BARE的标签召回值。可以注意到,与基线相比,BARE始终实现更好的召回值。较高的召回值表明该算法能够更可靠地识别干净的样本。这对于例如对标记为有噪声的样本(即,未选择)。CoT+选择两个网络不一致的一部分样本,因此,在最初的几个时期之后,它在每个时期中选择非常少的样本(由于这些是网络不同意的样本,因此一个好的它们中的一部分可能具有噪声标签。这可能是CoT+的精确度和召回率值较差的原因,如这些图所示。这也可以从图6c中看出,图6c示出了在η = 0的情况下,随着历元的流逝,由样本选择算法选择的样本的分数。CIFAR-10数据集上的4(类别条件噪声)。可以注意到,由于要向CoT和CL提供噪声率,因此它们选择1−n = 0。6每个时期的数据部分 然而,如果表1:用于训练的算法运行时间(以秒为单位)一个长约MNISTCIFAR10裸310.64930.78CO T504.51687.9T+537.71790.57先生807.48130.87MN1138.48891.6CL730.151254.3CCE229.27825.68CoT+,由于训练动态,网络不一致的样本很小,因此,在几个时期之后,它始终选择很少的样本。因为噪声是类条件的,即使η = 0。4号标签翻转的实际量为±20%。 这就是为什么有趣的样本选择率为80%。(我们在补充资料中为不同的噪声率和数据集提供了类似的图裸的效率。表1显示了使用所有算法进行200次训练的典型运行时间。从表中可以看出,所提出的算法在CCE丢失的情况下与通常的训练所花费的时间大致相同3941(a)(b)(c)图6:(a& b):当估计(对称)噪声率η = 0时的测试精度。5,真噪声率η= 0。7,分别用于MNIST CIFAR-10;(c):η = 0时的样品分数值。CIFAR-10上的4而所有其它基线在计算上明显更在MR和MN的情况下,运行时间大约是CIFAR-10的BARE的8倍。对噪声率的敏感性。一些基线方案,如CoT、CoT+和CL,需要事先了解真实噪声率。(In事实上,在到目前为止所示的模拟中,我们使用了这些基线的实际噪声率)。这种信息在实践中通常无法获得。人们可以估计噪声率,但性能指标和计算复杂性。此外,在精确度和召回率方面的性能数据表明,BARE在选择干净样本方面非常可靠。这一点,再加上没有额外的超参数需要调整的事实,显示了BARE可以为标签噪声下的鲁棒学习提供的优势。表2:批次大小∈{64,128,256}的MNIST CIFAR- 10上BARE的测试准确度(%)估计中不可避免的错误。图6显示了效果这3个基线方案的噪声率的错误指定。从这些图中可以看出,虽然当真实噪声率已知时,算法可以表现出鲁棒的学习,但是如果估计的噪声率是错误的,则性能恶化BARE没有这个问题,因为它不需要任何关于噪声率的信息。对批量的敏感性。为了显示对批量的不敏感性,我们在表2&中显示了两种类型的标签噪声和三种批量的MNIST CIFAR- 10结果:64、128(用于纸)和256。5. 结论我们提出了一种自适应样本选择方案,BARE,用于标签噪声下的鲁棒学习该算法依赖于统计的分数(后验概率)的所有样本在一个小批量选择样本从该小批量。目前文献中的样本选择算法依赖于启发式方法,例如交叉训练多个网络或样本权重的元学习,这通常在计算上是昂贵的。他们可能还需要噪声率的知识或一些带有干净标签的数据,这些数据可能不容易获得。相比之下,BARE既不需要具有干净标签的额外数据集,也不需要任何噪声率的知识,也不需要学习多个网络。此外,它在选择算法中没有超参数。与基准数据集上的基线方案的比较表明,该算法的有效性,无论是在BARE中使用的小批量统计信息是类-特定.因此,当班级数目众多时,这些统计数字是否可靠,可能令人怀疑因此与小批量大小相当。我们的初步研究表明,即使在101类数据集上,该方法也能提供良好的性能(参见补充材料中的表18)。处理大量类的一种可能的方法是以这样的方式制作小批量,即任何给定的小批量仅包含少数类的示例(尽管对于完整的时期,将不存在类不平衡)。需要更多的调查来研究BARE的这方面。DATASETNOISE(η)BATCH尺寸测试一个CCURACY64九十五31±0。16MNIST50%(SYM.)12894 38 ±0。1325694 44 ±0。4864九十三31±0。63MNIST45%(CC)12894 11 ±0。7725694 68 ±0。6364七十六。77±0。38CIFAR-1030%(SYM.)12875. 85 ±0。4164七十一87±0 . 01,P<0.05。28CIFAR-1040%(CC)128七十63 ±0。463942引用[1] 埃里克·阿拉索,迭戈·奥尔特戈,保罗·阿尔伯特,诺埃尔·无监督标签噪声建模和损失校正。国际机器学习会议,第312-321页。PMLR,2019年。[2] 埃里克·阿拉索,迭戈·奥尔特戈,保罗·阿尔伯特,诺埃尔·无监督标签噪声建模和损失校正。国际机器学习会议,第312-321页。PMLR,2019年。[3] Devansh Arpit,Stanislaw Jastrzebski,Nicolas Ballas,DavidKrueger , EmmanuelBengio , MaxinderSKanwal , TeganMaharaj , Asja Fischer , AaronCourville,Yoelman Bengio,et al.深入研究深度网络中的记忆在机器学习国际会议上,第233- 239242. PMLR,2017年。[4] YoshuaBengio , Je´romeLouradour , RonanCollobert ,andJason Weston.课程学习。第26届机器学习国际年会论文集,第41-48页,2009年[5] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101-用随机森林挖掘判别成分。欧洲计算机视觉会议,第446-461页。Springer,2014.[6] Nontawat Charoenphakdee 、 Jongyeong Lee 和 MasashiSugiyama。从损坏的标签中学习的对称损失。国际机器学习会议,第961-970页。PMLR,2019年。[7] Pengfei Chen , Junjie Ye , Guangyong Chen , JingweiZhao , and Pheng-Ann Heng.Beyond class-conditionalassumption:对抗实例相关标签噪声的主要尝试arXiv预印本arXiv:2012.05458,2020。[8] Ting Chen,Simon Kornblith,Mohammad Norouzi,andGeoffrey Hinton.视觉表征对比学习的一个简单框架。国际机器学习会议,第1597-1607页。PMLR,2020年。[9] Aritra Ghosh,Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒损失函数。在第三十一届AAAI人工智能会议论文集,第1919-1925页[10] Aritra Ghosh和Andrew Lan。对比学习提高了模型在标签噪声下的鲁棒性。在IEEE/CVF计算机视觉和模式识别会议(CVPR)研讨会论文集,第2703-2708页[11] Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,MiaoXu,Weihua Hu,Ivor Tsang,and Masashi Sugiyama.合作教学:具有极强噪声标签的深度神经网络的鲁棒训练。神经信息处理系统的进展,第8527-8537页,2018年[12] CharlesRHarris , KJarrodMillman , Ste'fanJvanderWalt,Ralf Gommers,Pauli Virtanen,David Cournapeau,EricWieser , Julian Taylor , Sebastian Berg , Nathaniel JSmith , Robert Kern , Matti Picus , Stephan Hoyer ,Marten H.vanKerkwijk,Matthe wBrett,All anHaldan,JaimeFerna'ndezdelR'ıo , MarkWiebe , Pe aruPeterson ,PierreGe'rard- Marchant,Kevin Sheppard,Tyler Reddy,Warren Weckesser,Hameer Abbasi,Christoph Gohlke和Travis E.奥列芬特用NumPy编程。Nature,585(7825):357- 362,Sept.2020年。[13] 西蒙·詹尼和保罗·法瓦罗深度双层学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第618-633页[14] Lu Jiang,Deyu Meng,Shouou-I Yu,Zhenzhong Lan,Shiguang Shan,and Alexander Hauptmann.自主学习与多样性。神经信息处理系统进展,第2078-2086页,2014年[15] Lu Jiang,Deyu Meng,Qian Zhao,Shiguang Shan,andAlexander Hauptmann. 自定进度的课程学习。在AAAI人工智能会议论文集,第29卷,2015年。[16] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei. Mentornet:在损坏的标签上学习数据驱动的深度神经网络课程。国际机器学习会议,第2304-2313页。PMLR,2018。[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[18] 孔雅静,刘柳,王军,陶大成。适应性课程学习。在IEEE/CVF计算机视觉国际会议论文集,第5067-5076页[19] 亚历克斯·克里热夫斯基从微小图像中学习多层特征。博士论文,多伦多大学,2009年。[20] H. Kumar和P. S. Sastry用于学习多类分类器的鲁棒损失函 数 。 2018 年 IEEE International ConferenceonSystems,Man,and Cybernetics(SMC),第687-692页[21] M Pawan Kumar,Benjamin Packer,and Daphne Koller.潜变量模型的自定进度学习。在Proceedings of the 23rdInternationalConferenceonNeuralInformationProcessing Systems-Volume 1,pages 1189[22] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE,86(11):2278-2324,1998.[23] Kuang-Huei Lee,Xiaodong He,Lei Zhang,and LinjunYang. Cleannet:迁移学习,用于带有标签噪声的可扩展图像分类器训练。 在IEEE计算机视觉和模式识别会议论文集,第5447-5456页[24] Junnan Li , Richard Socher , and Steven C.H.HoiDividemix:使用带噪声标签的学习作为半监督学习。在2020年国际学习代表会议上。[25] Junnan Li ,Yongkang Wong,Qi Zhao,and Mohan SKankanhalli.学习从有噪声的标记数据中学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第5051-5059页[26] Sheng Liu,Jonathan Niles-Weed,Narges Razavian,andCarlos Fernandez-Granda.早期学习正则化防止记忆噪声标签。神经信息处理系统的进展,33:203313943[27] Yueming Lyu和Ivor W.曾。课程损失:鲁棒学习和泛化,防止标签损坏。在2020年国际学习代表会议上。[28] Xingjun Ma , Hanxun Huang , Yisen Wang , SimoneRomano,Sarah Erfani,and James Bailey.带噪声标签的深度 学习 的归一 化损 失函 数。 国际 机器 学习,第6543PMLR,2020年。[29] 马兴军,王义森,Michael E. Houle,Shuo Zhou,SarahErfani,Shutao Xia,Sudanthi Wieldickrema,and JamesBailey.带噪声标签的维度驱动学习。第35届机器学习国际会议论文集,第3355-3364页,2018年[30] Xingjun Ma , Yisen Wang , Michael E Houle , ShuoZhou , SarahErfani , ShutaoXia , SudanthiWijuickrema,and James Bailey.带噪声标签的维度驱动学习。国际机器学习会议,第3355-3364页。PMLR,2018。[31] Eran Malach和Shai Shalev-Shwartz。将“何时更新”与“如何更新”脱钩第31届神经信息处理系统国际会议论文集,第961-971页,2017年[32] Naresh Manwani和P. S. Sastry风险最小化下
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功