没有合适的资源?快使用搜索试试~ 我知道了~
11944使深度神经网络对标签噪声具有鲁棒性:一种损失校正方法Giorgio Patrini1,2,Alessandro Rozza3,Aditya Krishna Menon2,1,Richard Nock2,1,4,Lizhen Qu2,11澳大利亚国立大学,2Data61,3Waynaut,4悉尼大学{name.surname}@data61.csiro.au,alessandro. waynaut.com摘要我们提出了一种理论上有基础的方法来训练深度神经网络,包括递归网络,受类别相关标签噪声的影响。我们提出了两个程序的损失校正是不可知的应用程序域和网络架构。只要我们知道每一个类被破坏成另一个类的概率,它们最多相当于矩阵求逆和乘法。我们进一步展示了如何可以估计这些概率,适应最近的技术噪声估计的多类设置,从而提供了一个端到端的框架。在MNIST、IMDB、CIFAR- 10、CIFAR-100和一个大规模的服装图像数据集上进行了大量的实验,这些数据集顺便说一句,我们还证明,当ReLU是唯一的非线性,损失曲率是免疫的类相关标签噪声。1. 介绍用于训练现代机器学习模型(如深度神经网络)的大型数据集通常会受到标签噪声的影响这个问题之所以普遍存在,原因很简单:大规模地对每个实例进行人工专家标记是不可行的,因此研究人员经常求助于廉价但不完美的替代物。两种这样流行的替代品是使用非专家标签的众包和-特别是对于图像-使用搜索引擎通过关键字查询实例,假设关键字为有效标签[5,35,3,29,17]这两种方法都提供了扩展训练标签的获取的可能性,但总是导致标签噪声的引入,这可能不利地影响模型训练。我们的目标是在标签噪声下有效地训练具有现代架构的深度神经网络我们通过结合两条不同的近期研究路线来做到这一点第一股是针对问题量身定制的ad-hoc深度架构主要是在计算机视觉中开发的[27,32,39,42]。虽然一些这样的方法在特定领域表现出良好的实验性能,但它们缺乏坚实的理论框架,并且通常需要大量干净的标签来获得可接受的结果-特别是用于预训练或验证超参数[42,17,32]。第二个方面是最近的机器学习研究,即理论上有基础的对抗标签噪声的方法。特别是,我们感兴趣的是对标签噪声具有鲁棒性的校正损失的设计[38,28,30]。尽管它们有正式的保证,但这些方法在实践中并没有得到充分的理解,因为至关重要的是,它们需要先验地知道噪声率。噪声的估计通常可以通过抛光训练数据的子集来提供给从业者[42] -这对于模型选择是有用的并且通常是必要的。然而,有趣的是,最近的工作提供了用于估计噪声率的实用算法[36,34,21,26,31];值得注意的是,这是在绝对不知道地面真实标签的情况下可以实现的。据我们所知,之前没有工作将这些估计与损失校正技术相结合,也没有任何想法被应用于现代深度架构。我们的贡献旨在统一这些研究流:• 在已知随机矩阵T的条件下,我们介绍了两种可供选择的损失校正方法总结了在噪声下一个类被翻转到另一个类的概率第一个过程是应用于神经网络的[ 28,30 ]的多类扩展,被称为“向后“,因为它将损失乘以T-1。第二种方法受[39]的启发,被命名为• 我们证明,这两个程序享有正式的鲁棒性保证w.r.t. 干净的数据分布。由于我们只对损失函数进行操作,因此该方法是独立于体系结构和应用领域,并且对于任何选择的损失函数都是可行的。• 我们采取进一步措施,将[26]的噪声估计器扩展到我们的多类设置,从而制定一个11945端到端的解决方案。• 我们证明了对于ReLU网络,损失的Hessian与标签噪声无关。我们将我们的损失校正应用于MNIST,CIFAR-10,CIFAR-100上的图像识别和IMDB上的情感分析;我们通过在训练标签上人工注入噪声来模拟腐败为了表明没有架构选择是我们鲁棒化配方的秘密成分,我们对目前流行的各种网络模块进行了实验:卷积和池化[20],dropout [37],批量归一化[15],单词嵌入和残差单元[11,12]。对LSTM [13]的其他测试证实,这些过程也可以无缝地应用于递归神经网络。与非校正的损失和几个已知的方法的比较证实了我们的两个程序的鲁棒性,与前向校正为主的向后。不出所料,噪声估计是获得近乎完美的鲁棒性的瓶颈,但在大多数实验中,我们的方法往往是最好的相比,以前的工作。最后,我们用Clothing1M([42]的1M服装图像数据集)进行了实验,并建立了最新的技术水平。2. 相关工作我们的工作利用了许多不同领域的最新研究,总结如下。噪声鲁棒性1. 带噪声标签的学习在文献中得到了广泛的研究[7]。从理论的角度来看,标签噪声已在两个不同的制度,有很大不同的结论进行了研究。在低容量(通常为线性)模型的情况下,即使是轻度对称,即类独立(相对于非对称,即类相关),标签噪声也可以产生类似于随机猜测的解决方案[22]。另一方面,贝叶斯最优分类器在对称[28,26]甚至实例相关标签噪声[25]下保持不变,这意味着高容量模型对基本上任何级别的此类噪声都是鲁棒的,给定足够多的样本。替代品损失。假设一个人希望将损失降到最低对干净数据进行加密。 当噪声水平先验已知时,噪声率估计最近的工作提供了直接从噪声样本估计标签翻转概率的方法。通常,要求生成分布使得对于每个类,存在一些“完美”实例,即,一个被分类的概率等于1的人。提出的估计量涉及使用内核均值嵌入[31],或对标准类概率估计量的输出进行后处理,例如使用得分范围[21,26]或诱导ROC曲线斜率的顺序统计的逻辑回归[34]。带噪声标签的深度学习最近,深度学习领域的一些研究试图处理噪声标签,特别是在计算机视觉领域。这通常通过制定噪声感知模型来实现。[27]建立了一个用于航空影像分块二值分类的噪声模型,该模型能够处理训练标签的遗漏和错误定位。[42]构建了一个更复杂的对称,非对称和实例相关噪声的混合;两个网络通过EM学习作为分类器和噪声类型的模型。 通常情况下,需要一小组干净的标签来预训练或微调模型[42,17,32]。[39]的工作值得一提。该方法通过在网络顶部添加线性层来一旦学习,这一层就扮演了我们的矩阵T的角色。然而,学习这种架构似乎是有问题的;跟踪正则化和线性层的固定更新时间表等算法是必要的。我们通过分离两个阶段来回避这些问题:我们首先估计T,然后用损失校正来学习。我们不知道有任何其他尝试将[28]的噪声校正损失方法应用于神经网络,也没有将这些损失与上述噪声率估计相结合。我们的工作就在这个交叉点上请注意,尽管原则上损失校正对于像深度神经网络这样的高容量模型来说不应该是必要的,但由于上述理论结果,在实践中,这种校正可能会抵消这些模型的次优性,这些次优性来自于对有限样本的训练。具体来说,我们期望直接优化我们关心的(校正后的)目标在有限样本情况下是有益的。3. 预赛[28]提供了噪声校正损失的一般形式我们是通过固定符号来学习的。 我们让[c]=。{1,. . . ,c},使得噪声数据上的干扰最小化等效于干净数据上的干扰最在对称标签噪声的理想情况下,对于某些情况,实际上不需要知道噪声率:[8]给出了一个充分条件,其中的鲁棒性,和这样的鲁棒非凸损失的几个例子,而[41]表明,(凸)线性或非铰链损失是它自己的噪声校正损失。另一个鲁棒非凸损失在[24]中给出。1我们使用鲁棒性一词的含义是对噪声的免疫力,而不是一般意义上的“对各种场景的适应性”,例如:[6]的文件。任何c个正整数。列向量用粗体表示(例如v)和大写的矩阵(例如,V)。矢量的坐标用下标表示(例如,而矩阵的行和列表示为例如,Vj·和V·j。我们用1表示全一向量,其大小从上下文中清楚,并且<$c−1<$[0,1]c是c维单形。在有监督的c类分类中,特征空间X ∈Rd,标签空间Y={ei:i∈[c]},其中ei表示Rc中的第i个标准典范向量,即. ei∈{0,1}c,1ei= 1。我们观察所画的例子(x,y)119461cc根据未知分布p(x,y)=p(y|x)p(x)在X × Y上。我们用Ex,y表示p(x,y)上的期望。注意,每个y在坐标处只有一个非零值对应于底层标签。n层神经网络2包括变换h:X →Rc,其中h=(h(n)<$h(n−1)<$··<$h(1))是一系列中间转换的组合-4. 标签噪声和丢失鲁棒性我们现在考虑标签噪声。我们假设不对称,即类条件噪声设置[28],其中训练集中的每个标签y以概率p(y ∈ Y)翻转到y∈Y|y);特征向量未被触及。因此,我们观察到v e样本从分布p(x,y)=yp(y|y)p(y|x)p(x)。去-层-定义如下:(n∈[n−1])h(i)(z)=σ(W(一)z+B (i)),注意,T∈[0,1]c×c是指定一个标签被翻转到另一个标签的概率的噪声转移矩阵,因此,Tij=p(yi=ej|y=ei)。 矩阵是r-随机的,并且不一定在类之间对称。h(n)(z)=W(i)z+b(i).其中W(i)∈Rd(i)×d(i−1)和b(i)∈Rd(i)是要估计的参数3,σ是任何作用于坐标的激活函数,例如ReLUσ(x)i= max(0,xi)。观察最后一层应用线性投影,与前面所有层不同。为了简化符号,我们写:这是真实世界腐败的近似值,在某些情况下仍然有用一个这样的例子是表示概念的细粒度层次结构的类,例如狗的品种和鸟类[17]或狭窄的服装类别[42]。对于非专业的人类标签人员来说,类彼此之间可能太相似而无法区分,而不管具体实例如何。关于在更通用的特征依赖噪声下(i∈[n])x(i)=.h(i)(x(i-1)),只有少数例外[42,8,25]。我们的目标是修改一个损失模型,使其对不对称具有鲁棒性在基本情况下,x(0)=。 x,因此,例如, x(1)表示第一层中的表示。h(x)的坐标表示模型分配给每个类i = 1,.,.的相对权重。. . C是可以预测的。因此,预测标签由arg maxi∈[c]hi(x)给出。在训练阶段,将最终层的输出与真实标签进行对比通过两个步骤。首先,h(·)通过softmax公制标号噪声事实上,如果T已知,这是可能。在这个假设下-我们稍后放松-我们引入了两个受[28]和[39]启发的替代校正。4.1. 后向校正法我们可以建立损失函数的无偏估计,使得在预期标签噪声,校正损失等于函数ehi(x)/Ck=1 e hk(x). softmax输出可以是原始数据是根据干净数据计算此属性是被解释为近似类条件概率p(y|x);我们用p(y)表示它|x)∈{\displaystyle\frac-1}。Ne xt,我们通过损失函数y:Y ×kc−1→R来测量标签y =ei和网络输出之间的差异,例如通过交叉熵:(ei ,p|x))=−(ei )logp(y|x)=−logp(y=ei|X)。(一)我们也可以用向量形式定义损失:Rc−1→Rc,在每个可能的标号上计算.Σ⊤(p)|x))=(e,p(y|(x)), . . ,(e,p(y|x))∈R.(二)在下一个定理中,一个多类推广的[28,定理1]。该定理也是更抽象的[40,定理3.2]的一个特殊例子。定理1假设噪声矩阵T是非奇异的。给定一个损失率,后向校正损失定义为:←(p|x))=T−1<$(p<$(y|X))。因此,损失校正是无偏的,即,:阿克斯岛|x←(y,p(y|x))=Ey|x(y,p(y|x)),因此最小化器是相同的ar gminEx,y←(y,p(y|x))=ar gminEx,y<$(y,p<$(y|X))。在下文中,形式结果在非常温和的条件下保持不变p(y|x)p(y|x)11947一般损失函数的条件;有时我们提供交叉熵的例子。为了简单起见,每次提到交叉熵时,我们都可以想到交叉熵。2W.l.o.g. ,我们假设所有层都是完全连接的或密集的;例如,卷积可以由具有共享稀疏权重的密集层表示。3这里,d(0)=d,原始特征维度,d(n)=c,标签维度。P ro f.EY|x←(p(y|x))=Ey|xT←(p(y|x))=Ey|xTT−1<$(p<$(y|x))=Ey|x(p(y|X))。□校正的损失实际上是每个可观察标签的损失值的线性组合,其系数是由于T−1归因于每个可能的真标签y的概率,g iv en观察到的一个y。直觉告诉我们,我们正在11948ψ马尔可夫链T.校正后的损失是可微的-尽管不总是非负的-并且可以用任何现成的反向传播算法来最小化。尽管在实践中T几乎肯定是可逆的,但它的条件数可能是有问题的。一个简单的解决方案是在求逆之前将T与单位矩阵混合;这可以看作是采用更保守的无噪声先验。4.2. 前向校正过程或者,我们可以纠正模型预测。接下来[39],我们首先观察到,在没有损失校正的情况下学习的神经网络将导致噪声标签p(y)的预测器|X)。我们可以明确地说明T的依赖性。例如,使用交叉熵,我们有:(ei,p|x))=−logp(y=ei|(3)证据首先注意:→(y,h(x))=(八)其中我们记为φ−1=。等价地,φ=(T−1)是可逆函数的复合,它的定义域是c−1,它的上定义域是Rc。因此,公式8中的最后一个损耗是适当的复合损耗连接φ。最后,根据等式7,噪声分布上的损耗最小化器为:argminEx,y∈φ(y,h(x))=φ(p(y∈|(9)H=<$((T−1)<$p(y<$|x))=p(y|(x))、(10)再次证明了等式7的定理。□记住,p(y|x)逼近p(y|(x)因此,我们可以Σc=−logj=1Σp(y)=ei|y=ej)p(y=ej|(四)把结果与任何一个有足够表达能力的神经网络虽然,财产是弱于无偏见的-=−logCj=1 T记p(y=ej|(十)、(五)定理1的性质鲁棒性仅适用于最小值,也就是说,通过前向校正学习的模型是或以矩阵i x形式表示,|x))=−logTp(y|X)。该损失将噪声标签y*与平均噪声预测进行被T腐蚀我们称这个过程为“前向”校正。为了分析它的行为,我们首先需要回忆一个广泛的损失族的定义和性质,称为适当的复合[33,第4节]。 考虑一个链接函数: 许 多 损 失 被 称 为 复 合 损 失 , 并 表 示 为 : Y×Rc→R,在这个意义上,它们可以借助于链接函数表示为:ℓ ψ(y, h(x))= ℓ(y, ψ−1(h(x))).(六)在交叉熵的情况下,softmax是逆链接函数。当复合损失也是适当的[33]时,它们的最小值假设应用于类条件概率p(y)的链接函数的特定形状|x):argminEx,y(y,h(x))=(p(y|X))。(七)H交叉熵和平方是适当的复合损失的例子一个有趣的鲁棒性属性适用于正确的复合损失的前向定理2假设噪声矩阵T是非奇异的。给定一个适当的复合损失修正,将远期损失修正定义为:11949最小化在干净的分布。然而,定理2在没有显式矩阵求逆的情况下保证噪声鲁棒性这在实践中是一个重要因素;请参阅下文。4.3. 整体算法上述方法的局限性在于它们需要知道T.在大多数应用中,矩阵T是未知的,需要估计。我们在这里提出了[21,26]的最新噪声估计器到多类设置的它是在两个假设下得出的。定理3假设p(x,y)是这样的:(1) 存在(<$x<$j∈X):p(x<$j)>0<$p(y=ej|x<$j)=1。(2) 给定足够多的损坏的样本,h足够丰富以建模p(y),|x)准确性由此得出,Ti,j∈[c],Tij=p(y∈ j=ej|(xi)。P roof. 通过(2),我们可以考虑p(y)|x)而不是p(y|X)。对于任何j∈[c]和任何x∈ X,我们有:Σc→(h(x))=p(y)=ej|x)=Σk=1 p(y)=ej|y=ek)p(y=ek|x)ψ然后,在噪声下的校正损失的最小化C=k=1 Tkj p(y= ek|X)。(十一)分布与干净分布下原始损失的最小值相同由(1)可知,当x=x<$i时,p(y=ek|x<$i)=0,其中k/=i。□令人惊讶的是,定理3告诉我们,我们可以估计-argminE→(y,h(x))=argminEℓ(y,h(x))。只根据噪声类别匹配矩阵T的每个分量x,yψHx,yH概率估计,也就是softmax的输出,11950e算法1稳健的两阶段训练损失校正Ex,yHessianofEx,y输入:噪声训练集S,任何损失如果T未知:在S上训练网络h(x),损失为获得未标记的样本X′通过X′上的方程(12)-(13)估计T在S上训练网络h(x),损失为←或→输出:h(·)用噪声标签训练的网络。特别地,设X′为-无保证不变表1:损失更正证据为了简单起见,我们给出了交叉熵的证明;见[30]。当y=ei时,损失为:eW(n)x(n−1)+b(n)任何一组特征向量。这可以是训练集本身,-logp(y=ei|x)i·i=−log但不一定:我们不要求这个样本具有i∈cW(n)x(n−1)+b(n)k=1k·k任何标记,因此任何未标记的样品=−W(n)x(n−1)+b(n)+logceW(n)x(n−1)+b(n)也可以使用相同的分布我们可以近似i·k·kik=1T有两个步骤:x<$i=argmaxx∈X′p<$(y<$i=ei|(十)(12)Tij=p(y=ej|(xi)。(十三)唯一依赖于上面的真类ei的是前两项。对数划分与精确类i无关。显然,噪音只影响损失通过W(n)和b(n):这些是唯一的项,·i i实际上,当X′足够大时,定理3的假设(1)可能成立定理3的假设(2)是(y,p|x))和p(y),p(y|x))可以不同。因此我们可以将后向校正损失重写为:更难证明;我们要求网络可以每-.Σ←(ej,p|x))=T−1<$(p<$(y|x))(十四)对噪声标签的概率进行有效建模。尽管在在实验中,我们经常可以恢复接近地面真实的T,并发现小的估计误差有一个温和的,而不是.Σ=−T−1W(n)j·Σx(n−1)−J.ΣT−1b(n)J(十五)对校正质量的灾难性影响。+ logceW(n)x(n−1)+b(n)算法1总结了端到端方法。如果k·k=1K.(十六)我们知道T,例如通过手动清洁事实上,注意T−1并不影响对数分区函数。训练数据,我们可以用←或→进行训练。 否则我们第 要看到这一点,让A(x)=log(logceW(n)x(n−1)+b(n)首先,必须用噪声数据训练网络,并获得k·k=1K)的情况下,从它估计p(y)|x)通过softmax的输出为每个类。训练后,T* |X′|)的情况。最后,我们用校正后的损失重新训练,利用第一网络帮助初始化第二网络。4.4. 题外话:通过ReLU实现我们现在在标签噪声的上下文中提出独立感兴趣的结果。ReLU激活函数似乎很适合我们的噪声模型中的架构,因为它带来了特殊的便利,即损失的Hessian不依赖于噪声,因此局部曲率保持不变。与此同时,我们确信T的向后校正-或矩阵的任何任意坏估计-对损失的二阶性质没有影响我们强调的事实是,其他激活函数,如sigmoid,并不享有这种保证。这个证明利用了[30]中的因式分解技巧。定理4假设所有的激活函数都是Re-.11951其中(向量)对数分区为A(x)1。 因此,它的修正是T −1A(x)1 = A(x)1,通过T的左乘,因为T1=1,因为T是行随机的。因此,<$←(ej,hs(x))=B(x)+A(x),其中B(x)=−(T−1W(n))j·x(n−1)−(T−1b(n))j是分段线性的模型参数的函数,以及对数分割A(x)由于损耗和结构,它是非线性的,但不依赖于噪声。由于分段线性函数的合成是分段线性的,因此B(x)的Hessian是可变的,因此对于任何T,Hessian是噪声无关的。 这同样适用于T = I的无校正,因此Hessian是相同的。□定理4不提供关于最小值的任何保证:实际上,由于标签噪声,静止点可能改变位置。它所保证的是一阶方法的收敛速度是相同的:损失曲率不会爆炸或变平,而是在模型空间中逐点相同该定理提倡使用ReLU网络,这与最近的理论突破相一致,允许深度学习没有局部极小值[16]。表1总结了损失校正的性质。LUs4. 然后,在噪声下,Hessian的Hessian不改变。此外,对于任何T,Hessian的Hessian和Hessian的Hessian都是相同的。4一个警告:熵必须是[30]中研究的线性奇数损失;交叉熵和平方损失是这样的。同时,我们可以将定理4推广到任何表达分段线性函数的神经网络,包括例如max-pooling。119525. 实验我们现在在MNIST [20],IMDB [23],CIFAR-10,CIFAR-100上训练的[18]和Clothing1M [42],以强调我们的方法独立于架构和数据域。5.1. T已知或估计的损失更正我们通过参数矩阵T人为地破坏标签。基本原理是模仿类似类的一些实际错误结构,例如CAT→DOG。过渡由N∈[0,1]参数化,使得地面真值和错误类的概率分别为1−N,N。用于MNIST的T的示例,其中N= 0。七是左边:10000000001ǫǫǫǫǫǫǫǫǫ0100000000ǫ1ǫǫǫǫǫǫǫǫ00. 30000. 700ǫǫ. 33ǫ ǫǫǫ. 67ǫǫ(一)(d)其他事项000. 30000. 7 0ǫǫǫ. 35ǫǫǫǫ. 65ǫ0000100000ǫǫǫǫ1ǫǫǫǫǫ,中国(17)00000的情况。3 .第三章。7000ǫǫǫǫǫ . 29岁71ǫǫǫ(b)第(1)款(e)00000的情况。7 .第一次会议。3000ǫǫǫǫǫ . 七十三。26ǫǫǫ0 . 700000. 300好吧75ǫǫǫǫǫ. 25ǫǫ0000000010ǫǫǫǫǫǫǫǫ1ǫ000000000 1ǫǫǫǫǫǫǫǫǫ1所有实验的共同点如下。 选择用于比较的损失熵是交叉熵。10%的训练数据用于验证。在训练过程中对损失进行评估。通过校正的损失,我们可以对噪声数据进行验证,这比其他测量噪声验证准确性的方法更有优势可用的标准测试集用于测试。我们使用ReLU(c)第(1)款(f)第(1)款网络并在ReLU之前初始化权重,如[10]所示,否则通过[-0]中的均匀采样。05,0。05]。最小批量大小为128。噪声标签的T的估计器被应用于X′是训练集和验证集。事实上,初步实验强调,X′明显地改善了T的逼近,在估计后,我们对矩阵进行了行正规化在[26]之后,我们采用α百分位数代替方程12的argmax,并且我们发现α= 97%对于大多数实验都很好;估计器在CIFAR-100中的表现非常差,可能是由于每个类的图像数量很少,我们发现最好计算argmax。MNIST上的完全连接网络。在第一组实验中,我们考虑MNIST。像素在[0,1]中归一化。 噪声翻转一些类似的数字:2→7,3 →8,5参与6,7→1;参见等式(17,左)。 我们训练一个-有两个密集的隐藏层大小为128,概率0。五是辍学。 AdaGrad [4]运行40个epoch,初始学习率为0。01,δ= 10−6。 我们重复每个实验5次,以考虑噪声和权重初始化。从图1a中可以清楚地看出,尽管模型对轻微的噪音来说有些健壮,高水平的腐败对噪音有破坏作用。相反,我们的损失并没有急剧下降。使用T估计的性能介于两者之间,但它明显优于没有校正。等式(17,右)中给出了T的一个例子,其中<10−6。11953图1:在已知或估计的T下,交叉熵与其修正值的比较。IMDB上的Word嵌入和LSTM 我们只在语料库中保留前5000个最频繁的单词。每个评论要么被截断,要么被填充为400字长。为了在这个二进制问题中模拟非对称噪声,我们保持常数对于转换0→1,噪声为5%,而1→0如上所述被参数化;0/1是两个评论我们受[2]基线的启发,训练了两个模型 第一个将单词映射到50维嵌入中,然后通过ReLU;概率为0的中途退出8应用于嵌入输出。在第二个模型中,嵌入的维度为256,后面是一个512个单元的LSTM,最后一个512维的隐藏层为0。5人辍学。AdaGrad使用与上述相同的设置运行50个epoch;结果是5次运行的平均值。图1b-1c显示了与先前在MNIST上观察到的结果相似的结果,尽管T的数据集、类的数量、体系结构和结构存在差异。值得注意的是,我们的方法在递归网络上也是有效的。用T修正与这里的真实T一致;我们相信这是因为在这个二元问题上估计更容易。CIFAR-10和CIFAR-100上的剩余网络。对于这两个数据集,我们执行每像素均值减法,11954数据增强如[11],通过水平随机翻转和32×32随机裁剪,在每边填充4个像素CIFAR-10的T描述为:卡车→汽车,鸟→飞机,鹿→马,猫参与。在CIFAR-100,100个班级被分成20个5大小的超级纲,例如水生哺乳动物包括海狸、海豚、水獭、海豹和鲸。在超类中,噪声循环地将每个类翻转到下一个类。对 于 最 后 一 个 实 验 , 我 们 使 用 深 度 残 差 网 络(ResNet),即[11]中的CIFAR-10/100架构。简而言之 , 残 差 块 实 现 与 恒 等 捷 径 并 行 的 非 线 性 运 算 F(x):x→x+F(x). F是两次批量归一化→ReLU→3×3的级联卷积,遵循“[12]。在这里,我们使用深度为14和32(CIFAR-10)和44(CIFAR-100)的ResNet进行实验 按照惯例[14],我们用0运行SGD。9动量和学习率0。01 , CIFAR-10 在 40 和80epoch 后( 共 120 ) 除以10,CIFAR-100在80和120 epoch后(共150)除以10;权重衰减为10−4。 训练深度ResNets更耗时,因此实验只运行一次。 由于我们使用的网络比[11]中的网络更浅,因此性能无法与原始工作进行比较。在图1d-1f中,前向校正没有遭受任何重大损失。除了最浅的ResNet,后向校正似乎在低噪声区工作得不好最后,噪声估计在CIFAR-100上特别困难5.2. 与其他损失函数相比我们现在比较其他方法。数据、架构和人工噪声同上。此外,我们测试了对称噪声的情况,其中N是标签翻转的概率,该概率在所有其他类别中均匀分布我们选择的方法规定的损失函数的变化,类似于我们的:unhinged [41],sigmoid [8],Savage [24]和软硬自举[32];最后两种方法的超参数根据他们的论文设置。无意识的损失是无限的,不能单独使用在在训练非参数核模型时,采用L2我们试图规范每一层,但收效甚微;学习或者不收敛(太少的正则化)或者收敛到非常差的解(太多)。在初步实验中,S形损失遇到了相反的问题,即过早饱和;损耗过快地达到平台,这是S形激活函数的一个众所周知的问题[9]。为了使这些损失可用于比较,我们在损失函数之前堆叠了本质上,网络输出是白化的,并且可能在有界的非饱和损耗区域中运行;注意,这对于线性或核模型是不需要的。表2是实证分析。我们列出了主要发现:(a)在没有人为噪音的情况下(第一栏对于每个数据集),所有损失都达到了相似的精度,范围为2个点; 2例外是一些非铰链、S形和Savage的实例。此外,在IMDB中,存在使用噪声估计进行损失校正的情况(表2中的†),其性能略好于假设没有噪声。显然,估计器能够恢复情感评论中的自然噪声。(b)对于低非对称噪声(第二列),结果在简单架构/任务(左侧的数据集)和深度网络/更困难的问题(右侧)之间存在差异;在前一种情况下,两种修正行为相似,并且在统计上与竞争者相差不远;在后一种情况下,已知T的前向修正是不败的,在剩余的修正中没有明显的赢家。(c)对于非对称噪声(最后两列),已知T的两种损失校正总体上表现最好,证实了其形式保证的实际含义;正向通常是最好的。(d)如果我们排除CIFAR-100,噪声估计会导致平均准确度在0(使用LSTM模型的IMBD)和27点(MNIST)之间下降;然而,在许多情况下,我们的性能优于其他任何方法。(e)在CIFAR-100上的实验中,我们获得了基本上完美的噪声鲁棒性和理想的forward校正。除了最后一列之外,噪声估计效果很好,但它再次保证了比竞争方法更好的我们将在第6节讨论这个问题。5.3. 服装实验1M最 后 , 我 们 在 Clothing 1 M [ 42 ] 上 进 行 测 试 ,Clothing 1 M由带有噪声标签的1 M图像组成,分别具有额外的50k,14k,10k干净数据用于训练,验证和测试;我们通过它们的大小来指代这些集合。 我们的目标是在14类内对图像进行分类,例如T恤西装背心在最初的工作中,两个AlexNet [19]通过EM一起训练;网络使用ImageNet进行预训练。两个实用技巧是基本的:第一个学习阶段使用干净的50k来帮助EM(表3中的#1),第二个阶段使用50k自举到500k和1M的混合(#3)。还应用了数据扩充,与CIFAR-10的第5.1我们学习了一个在ImageNet上预训练的50层ResNet-[ 11 ]的瓶颈架构-使用SGD,学习速率为10−3和10−4,每次5个epoch,0。9动量,批量32。当我们用50k训练时,我们使用5·10−2的权重衰减和数据增强,而用1M训练时,我们只使用10−3的重量衰减。 ResNet提供了一个上升约2。5%通过仅使用50k的训练(#7vs.#1)。然而,大量的噪声图像对于与#3竞争至关重要。代替通过(12)-(13)估计矩阵T,我们利用50k的策划标签及其1M中的噪声版本。前向和后向校正被证实比交叉熵更好地工作(#6、#5对#4),但是在没有额外的干净数据的情况下不能达到现有技术。因此,我们用50k微调网络,使用与#7中相同的学习参数,因为11955没有 噪声MNIST,完全连接SYMM。N= 0。2ASYMM。N=0。2ASYMM。 N =0。6无噪音CIFAR-10,14层ResNetSYMM。N= 0。2 ASYMM。 N =0。2ASYMM。N =0。6交叉熵九十七9±0。0九十六。9± 0。 1975± 0的情况。0五十三0± 0的情况。687岁883岁785. 0五十七6精神错乱(BN)九十七6 ±0。0九十六。9± 0。 1970± 0的情况。1 七十一2 ± 1 .一、086岁。984.183852岁1乙状(BN)九十七2 ±0。1九十三1± 0。2967± 0的情况。1七十一4 ± 1 .一、3七十六。066岁。671。8五十七0野蛮九十七3±0。0九十六。9± 0。 0970± 0的情况。151岁3 ± 0的情况。4八十1七十七。476. 050块5自举软件九十七9±0。0九十六。9± 0。 0975± 0的情况。0五十三0± 0的情况。487岁784.384. 6五十七8硬引导九十七9±0。0九十六。8± 0。0974± 0的情况。055. 0 ± 1 .一、387岁383岁6847五十八3落后九十七9 ±0。0九十六。3± 0。1966± 1 .一、1九十三0 ± 0的情况。9⋆87岁681.583875. 2⋆后壁T形九十七9±0。0九十六。9± 0。0967±0的情况。167岁4 ± 1 .一、587岁7八十483866岁。7向前九十七9±0。0九十七3± 0。0197.7±0的情况。0九十七3 ± 0的情况。0⋆87岁8八十五6186. 384. 5⋆对于WardT九十七9±0。0九十六。9± 0。0977± 0的情况。0六十四9± 4.第一章487岁483岁487. 074岁8IMBD,词嵌入CIFAR-10,32层ResNet没有 噪声SYMM。N= 0。1ASYMM。N =0。1ASYMM。 N =0。4无噪音SYMM。N= 0。2 ASYMM。 N =0。2ASYMM。N =0。6交叉熵86岁。7±0。084. 6± 0。1850± 0的情况。2五十八1± 0的情况。5九十186岁。6890五十三6精神错乱(BN)83岁3 ±0。0七十六。9± 0。5806± 0的情况。3 七十二9± 0的情况。4九十286岁。587. 1六十岁。0乙状(BN)84. 3 ±0。0八十2± 0。381. 7± 0的情况。5 七十二8± 0的情况。681. 669岁。679. 161岁8野蛮86岁。5±0。084. 3± 0。4852± 0的情况。3 五十八3± 1 .一、088岁386岁。2863五十三5自举软件86岁。7 ±0。084. 5± 0。1851± 0的情况。1 五十七8± 0的情况。7九十986岁。988. 6五十三1硬引导86岁。7±0。084. 6± 0。385. 1± 0的情况。3 五十九0± 0的情况。6九十486岁。488. 6五十四7落后86岁。7±0。0八十五3± 0。3块 85。7± 0的情况。182岁1 ± 0的情况。1⋆九十183岁084。474岁3后壁T形87岁0 ±0。0†八十五1± 0。4858± 0的情况。2七十七。0± 1 .一、4九十886岁。986466岁。7向前86岁。7±0。0八十五3± 0。两千八百五。9±0的情况。1八十9 ± 1 .一、3⋆91. 287岁789987岁6⋆对于WardT87岁0 ±0。0†八十五2± 0。385. 9± 0的情况。2七十三。0± 1 .一、2九十587岁9901七十七。6IMBD,词嵌入+LSTMCIFAR-100,44层ResNet无噪音SYMM。N= 0。1ASYMM。N= 0。1ASYMM。N = 0。4无噪音SYMM。N= 0。2 ASYMM。 N =0。2ASYMM。N =0。6交叉熵87岁8 ±0。4八十五2± 0。5868± 0的情况。4七十一4± 1 .一、368岁5五十七9635十七岁1精神错乱(BN)84. 3 ±4。469岁。7± 15。9852± 1 .一、2 五十九4 ± 12个。950块9四十七5480十四岁5乙状(BN)87岁7 ±0。5七十七。6 ± 13。6863±3 .第三章。1七十0 ± 十四岁6五十八2四十七6556十六岁4野蛮87岁4 ±0。3八十五1± 0。687. 2± 0的情况。3七十4 ± 3 .第三章。81 .一、4二、0个1. 81 .一、6自举软件87岁1 ±0。683岁5± 2。5861± 1 .一、269岁。0± 五、367岁9五十七863. 8十六岁3硬引导86岁。5±0。584. 3± 1。0867± 0的情况。4七十一8± 3 .第三章。368岁5五十七3639十七岁0落后87岁6 ±0。284. 3± 0。9867± 0的情况。583岁6 ± 1 .一、468岁555.1538三十六8⋆后壁T形87岁2 ±0。782岁8± 2。787. 3± 0的情况。182岁3 ± 1 .一、768岁651岁七六三。8十八岁5向前87岁5 ±0。2八十五0± 0。287. 0± 0的情况。484. 7 ± 0的情况。6⋆68岁8六十四0168. 1⋆68岁4⋆对于WardT87岁8 ±1。5†84. 1± 1。0875± 0的情况。284. 2 ± 0的情况。968岁1五十八6642十五岁9表2:当通过p值5%的Welcht检验时,统计学上远离其他值时,具有标准差的平均准确度(5次运行,左侧部分)以粗体显示;如果最高准确度是由于具有地面真实值T的←或→,则我们将其表示为,< 对于没有标准偏差的实验(右侧部分),应用相同的规则,但粗体表示0范围内的所有精度。从最高的5分。N的含义取决于对称噪声与非对称噪声以及类别的数量(见5.1节)。在没有注入噪声的第一列上,†指示噪声估计何时恢复一些自然噪声并且击败服装1M#模型损失init培训精度1AlexNet交叉。ImageNet50K七十二632AlexNet[39]交叉。#11名男子,50千人七十六。223AlexNet[42]交叉。#11名男子,50千人78岁24450-ResNet交叉ImageNet1M68岁94550-ResNet落后ImageNet1M69岁。13650-ResNet向前ImageNet1M69岁。847850-ResNet50-ResNet交叉。交叉。ImageNet#650K50K75. 19八十38表3:顶部部分的结果来自[42]。在#2、#3中
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功