没有合适的资源?快使用搜索试试~ 我知道了~
5138从嘈杂的标签中进行深度自学习韩江帆1罗平2王晓刚11香港中文大学-商汤科技联合实验室2香港大学{jiangfanhan@link.,xgwang@ee. }cuhk.edu.hkpluo@cs.hku.hk摘要ConvNets在从干净的数据中训练时取得了良好的效果与以前的作品受到许多条件的限制,使它们不受真实噪声情况的影响,这项工作提出了一种新的深度自学习框架,可以在原型决策边界原型真实的噪声数据集,无需额外的监督。所提出的方法有几个吸引人的好处。(1)与大多数现有工作不同(2)它不需要额外的清洁监督或辅助网络来帮助培训。(3)自我学习提出了一个框架,以迭代方式训练网络原型原型决策边界端到端的方式,这是有效和高效的。在具有挑战性的基准测试,如布料ing 1 M和食品101-N的广泛的实验表明,我们的方法优于其同行在所有的经验设置。1. 介绍深度神经网络(DNN)在许多计算机视觉任务上取得了令人印象深刻的结果,例如图像识别[13,33,34],语义分割[22,40,24],对象检测[5,30,27,18]和跨模态任务[20,21,41]。然而,这些任务中的许多都需要具有可靠和干净注释的大规模数据集来训练DNN,如ImageNet [2]和MS-COCO [19]。但是,收集具有精确注释的大规模数据集是昂贵且耗时的,这使得DNN无法在现实世界的嘈杂场景中使用此外,大多数另一种解决方案是通过使用不同的图像级标签作为查询来从互联网收集数据。这些标签可以被视为所收集的图像的标签。这种解决方案比人工标注更便宜且更省时,但所收集的标签可能包含噪声。大量先前的工作表明,嘈杂的标签会导致DNN的性能明显下降[38,23,26]。因此,如何提高我国的经济效益,图1.两类分类问题的一个实例使用不同数量的原型。左:原始数据分布。具有相同颜色的数据点属于同一类。右上角:通过对每个类使用单个原型获得的决策边界。右下角:每个类的两个原型获得的决策边界。每个类有两个原型,这会带来更好的决策边界。证明DNN对噪声标签的鲁棒性。以前的方法试图纠正嘈杂的标签通过在其损失函数中引入转移矩阵[25,9],或者通过添加额外的层来估计噪声[6,32]。这些方法中的大多数都遵循一个简单的假设来简化问题:在噪声标签和地面实况标签之间存在单一的转换概率,并且该概率与各个样本无关。但在实际情况下,每个样本的外观对它是否会被误分类有很大的影响。 由于这一假设,尽管这些方法在手工制作的噪声数据集上工作良好,例如CIFAR 10[12],具有手动翻转的噪声标签,但它们的性能在真正的噪声数据集上受到限制,例如Clothing 1 M [38]和Food 101-N[15]。此外,噪声容限损失函数[35,39]已被开发用于对抗标签噪声,但它们具有与上述噪声校正方法类似的假设因此,它们对于真实世界的噪声数据集也是不可行的然而,许多方法[15,17,37]解决了这个问题。5139通过使用额外的监督。例如,他们中的一些人手动选择了一部分样本,并要求人类标签人员清理这些嘈杂的标签。通过使用额外的监督,这些方法可以提高深度网络对噪声的鲁棒性这些方法的主要缺点是它们需要额外的干净样品,使得它们在大规模现实世界中应用起来昂贵。在所有上述工作中,CleanNet [15]在现实世界的数据集(如Clothing 1M [38])上实现了现有的最先进性能。CleanNet使用代表性样本)来代表每个类类别,并通过与原型比较来然而,CleanNet还需要额外的信息或监督来进行训练。为了解决上述问题,我们提出了一个新的框架,自学习与多原型(SMP),其目的是训练一个强大的网络上的真实噪声数据集,没有额外的监督。通过观察同一噪声类别中样本的特征,我们推测这些样本具有广泛的分布。一个类原型很难代表一个类的所有特征.应该使用更多的原型来更好地表示特性。图1说明了这种情况,并在实验中进行了进一步的探索。此外,在实践中不一定需要额外的信息(监督)。所提出的SMP以迭代方式训练,其包含两个阶段:第一阶段是用原始噪声标签和在第二阶段中生成的校正标签来训练网络。第二阶段使用第一阶段训练的网络选择几个原型。这些原型用于生成第一阶段的校正标签。该框架不依赖于对噪声分布的任何假设,这使得它对现实世界的噪声是可行的。它也不使用辅助神经网络,也不需要额外的监督,提供了一个有效和高效的训练方案。本文的主要贡献如下。(1)我们提出了一个迭代学习框架SMP来重新标记噪声样本,并在真实的噪声数据集上训练ConvNet,而不使用额外的干净监督。重新标记和训练阶段都只包含一个可以在不同阶段共享的ConvNet,使SMP有效且高效地进行训练。(2)SMP在从噪声数据中学习方面产生了有趣的发现例如,与以前的工作[15]不同,我们证明了单个原型可能不足以表示噪声类。通过提取一个类别的多个原型,我们证明了更多的原型将得到一个类的更好的表示,并获得更好的标签校正结果。(3)大量的实验验证了SMP在不同的真实世界的噪声数据集上的有效性我们展示了新的在所有这些数据集上的最先进性能。2. 相关工作在噪声数据上学习。ConvNets在使用干净数据进行训练时取得了很好的成绩。然而,当在具有噪声标签的数据上训练时,ConvNets的性能不可避免地下降[23,26]。人类标签人员在亚马逊土耳其机器人[10]等网站上提供的注释也会引入偏见和不正确的标签。由于标注大规模干净和无偏差的数据集是昂贵和耗时的,因此已经做出了许多努力这些建议可概括为以下三个部分。首先,转移矩阵被广泛用于捕获噪声标签和真实标签之间的转移概率,即。具有真实标记Y的样本具有被错误标记为噪声标记Y的一定概率。Sukhbaatar等人在[32]中添加了一个额外的线性层来模拟真实和损坏标签之间的转换关系Patrini等人在[25]中提供了一种损失校正方法,通过使用在噪声数据集上训练的深度网络来估计转移矩阵通过使用[9]中干净标记数据的子集估计转移矩阵。上述方法遵循的假设是,转移概率在类别之间是相同的,并且与各个图像无关。因此,这些方法在人类通过标签翻转有意创建的噪声数据集(例如CIFAR 10的噪声版本)上运行良好然而,当将这些方法应用于Clothing1M [38]等真实世界数据集时,它们的性能受到限制,因为上述假设不再有效。其次,另一种情况是探索对标签噪声的鲁棒损失函数。[4]探讨了均匀标签噪声下不同损失函数的容忍度。Zhang和Sabuncu [39]发现平均绝对损失函数比交叉熵损失函数更鲁棒,但它有其他缺点。然后,他们提出了一个新的损失函数,使两者都受益。然而,这些鲁棒的损失函数具有某些约束,使得它们在真实世界的噪声数据集上表现不佳。第三,CleanNet [15]设计了一个额外的网络来决定标签是否有噪音。在网络训练过程中,每个样本的权重由Clean-Net产生,以减少噪声标签对优化的影响。Ren等人[29]和Liet al. [16]试图通过元学习来解决嘈杂的标签训练。还开发了一些基于课程学习的方法[7,11]来训练对抗标签噪声。CNN-CRF模型由Vahdat [36]提出,用于表示噪声和清洁标签之间的关系。然而,这些方法中的大多数要么需要额外的清洁样品作为额外的信息,要么采用一个复杂的训练过程。相反,SMP不5140它不仅在不使用额外的干净监督的情况下纠正有噪声的标签,而且还以有效的端到端方式训练网络,在Clothing 1 M [38]和Food 101-N [15]基准上实现最先进的性能。当配备一些额外的信息时,SMP进一步提高了这些数据集的准确性。通过伪标签进行自学习。伪标记[3,35,14]属于自学习场景,它经常用于半监督学习,其中数据集具有一些LA。这些数据是未标记的,并且大部分数据是未标记的。在这种情况下,通过使用来自在标记数据上预训练的模型的预测,将伪标签赋予未标记数据。相比之下,当从噪声数据集学习时,所有数据都有标签,但它们可能是不正确的。Reed等人[28]提出联合训练噪声和伪标签。然而,[28]中提出的方法过度简化了噪声分布的假设,导致次优结果。联合优化[35]通过使用伪标签完全取代了所有标签。然而,[35]丢弃了原始噪声标签中的有用在这项工作中,我们通过使用SMP来预测伪标签,并通过使用自学习方案中的原始标签和伪标签来训练深度网络。3. 我们的方法概况.设D是噪声标记的数据集,D={X,Y}={(x1,y1),.,(xN,y N)},其包含N个样本,并且yi∈ {1,2,.,K}是对应于图像xi的噪声标签。 K是类的数量,数据集。由于标签是嘈杂的,它们将是不正确的,阻碍模型训练。为此,定义了具有参数θ的神经网络F(θ)来变换图像x标签概率分布F(θ,x)。当火车-在一个干净标记的数据集上,一个优化问题是定义为图像xi 的校正标签y<$i ( xi , Xs ) ∈Y<$ (X,Xs)由图像xi和原型集合Xs之间的相似性度量给出。由于每个数据的分布类的分布是复杂的,单个原型很难代表整个类的分布我们声称,使用多原型可以得到一个更好的代表性的dispensing,导致更好的标签校正。在下面的章节中,我们将详细介绍迭代自学习框架,其中深度网络从原始的噪声数据集学习,然后训练它来纠正图像的噪声标签。校正后的标签将迭代地监督训练过程。3.1. 迭代自学习渠道.总体框架如图2所示。它包含两个阶段,训练阶段和标签校正阶段。在训练阶段,训练一个参数为θ的神经网络F,x作为输入,并产生相应的标签predic。f(θ,x)。监控信号由两个分支组成,(1)对应于图像x的原始噪声标记y和(2)由标记校正的第二阶段生成的校正标记y在标签校正阶段,我们通过使用在第一阶段训练的网络G来提取训练集中图像的深度特征。然后,我们探讨了一个选择方案,为每个类选择几个类原型之后,我们根据以下要求更正每个样品的标签:原型的深层特征的相似性。然后,在第一个训练阶段中,将校正后的标签用作监督的一部分第一和第二阶段迭代进行,直到训练收敛。3.2. 训练阶段训练阶段的流水线如图所示θ*= argminL(Y,F(θ,X))(1)第2(a)条。该阶段旨在优化深度网络F的参数θ。一般来说,目标函数是其中L代表经验风险。 然而,当Y包含噪声,则上述方程的解将是次优的。 当标签噪声被呈现时,所有的标签噪声都是随机的。交叉熵损失的经验风险,其公式如下:1Σn我们的工作,提高了模型的鲁棒性可以处理调整Eqn中的项(一). 在这项工作中,我们建议L(F(θ,x),y)=−n i=1 log(F(θ,xi)yi)(3)以自我训练的方式获得校正的标签Y(X,Xs)ner,其中Xs表示要表示的一组类原型。发送类的分布。我们的优化目标被公式化为其中,n是小批量大小,yi是标签正确性。响应于图像xi.当在噪声数据集上学习时,原始标签yi可能是不正确的,因此我们引入了一个-其他校正标签作为补充监督。的θ*= argminL(Y,Y<$(X,Xs),F(θ,X))(2)校正的标签是由一个自我训练计划,标签校正阶段。有了校正后的信号,物体-虽然校正后的标签Y_ (X,X_s)比原始标签Y更精确,但我们认为它仍然有可能将硬样本误分类为噪声。因此,我们保留了原始噪声标签Y作为上述目标中监督的一部分功能θθ5141损失函数是Ltotal=(1−α)L(F(θ,x),y)+αL(F(θ,x),y)(4)其中L是交叉熵损失,如等式n所示。(3),y是原始的噪声标签,而y是校正后的标签。5142i=1i=1训练阶段图像x(一)网络标签噪声特征提取器FC预测标签纠正阶段共享参数更正标签(b)第(1)款图像x特征提取器标签更正聚类原型选择类原型随机采样图像功能集特征 (x)XX图2.在噪声数据集上的迭代自学习框架的流水线的说明。(a)图1示出了训练阶段,并且(b)示出了标签校正阶段,其中这两个阶段迭代地进行。深度网络G可以被共享,使得在测试中仅需要评估单个模型。由第二阶段引入。 权重因子α∈[0,1]是第c个类的类原型,我们提取一组控制着这两项的重要权重。深度特征,{G(xi)}n,对应于一组IM-由于所提出的方法不需要额外的信息,年龄{xi}n在具有相同噪声标签C的数据集中。mation(通常通过使用另一个深度网络或额外的干净监督产生),在训练的最开始,我们将α设置为0,并通过仅使用原始噪声标签y来训练网络F。经过初步的网络经过培训,我们可以进入第二阶段,然后,我们计算深度之间的余弦相似度,特征并构造相似性矩阵S∈Rn×n,n是具有噪声标签c的图像的数量,Sij∈S,G(xi)TG(xj)更正后的标签是y。此时,α是一个非线性值,Sij = ||G(x)||||G(x)||(五)其中,网络由y和y′联合训练,目标如等式n所示。(四)、3.3. 标签纠正阶段在标签校正阶段,我们的目标是为训练集中的每个图像获得校正后的标签。这些正确的标签将依次用于指导第一阶段的培训程序对于标签校正,第一步是为每个类别选择几个类原型。受聚类方法[31]的启发,我们提出了以下方法来提取这些原型。(1)我们使用在第一阶段训练的初步网络来提取训练集中图像的深层特征。在实验中,我们采用ResNet [8]架构,其中在完全-连通层被认为是深特征,表示为G(x)。因此,F(θ,x)与我2j2这里Sij是两个图像xi和xj之间的相似性的度量。较大的Sij表示具有较高相似性的两个图像。[31]和[7]都使用欧几里德距离作为相似性度量,但我们发现余弦相似性是更好的选择来校正标签。实验中对欧氏距离和余弦相似度进行了比较一个问题是,在一个单一的类别 中 的 图 像 的 数 量 n 是 巨 大 的 , 例 如 。 对 于Clothing1M,n=70k,使得该余弦相似矩阵S的计算耗时。此外,使用这种巨大矩阵的后一计算也是昂贵的。因此,我们只需在同一类中随机抽取m幅图像(m n)来计算相似度矩阵Sm×m,以减少计算量。为了选择原型,我们为每个图像xi定义密度ρi,ΣmG(x)是F(θ,x)=f(G(x)),其中f是对ResNet的全连接层。 (2)为了选择ρi=j=1sign(Sij−Sc)(6)5143正确错其中sign(x)是符号函数1。Sc的值是由S中排名前40%的元素的值给出的常数,其中S中元素的值从小到大以升序排列。我们发现Sc的具体选择对最终结果没有影响,因为我们只需要图像的相对密度。讨论。 从上面密度ρ的定义,具有较大ρ的图像在其周围具有更多相似的图像0.200.150.100.050.001000 500 0 500 1000密度1.00.90.80.70.60.51000 500 0 500 1000密度这些具有正确标签的图像应该彼此接近,而具有噪声标签的图像通常与其他图像隔离。带有正确标签的图像和带有错误标签的图像的概率密度ρ如图3(a)所示。我们可以发现,正确标签的图像更有可能有大的ρ值,而那些错误的标签的图像出现在低ρ的区域。换句话说,具有较大密度ρ的图像具有在噪声数据集中具有正确标签的较高概率,并且可以被视为表示该类的原型。如果我们需要p个类的原型,我们可以将具有前p个最高密度值的图像视为类原型。然而,上述选择原型的策略有一个弱点,即如果所选的属于同一类的p个原型彼此非常接近,则这p个原型的表示能力相当于只使用为了避免这种情况,我们进一步为每个图像xi定义相似性度量ηi.(a)(b)第(1)款图3.(a)从Cloth-ing 1 M数据集中的同一噪声类中采样的1280幅图像的具有正确标签的样本(蓝线)和具有错误标签的样本(绿线)的概率密度和密度ρ(b)相似度η与密度ρ之间的分布。样品与(a)相同。红点是具有前8个最高ρ值的样本。其他.这也证明了我们的主张,即同一个类中的样本往往聚集在几个集群中,因此单个原型类型很难代表整个类,因此需要更多的原型。在实验中,我们选择了η0值最高的原型<。九十五在为每个类选择了原型之后,原型集{G(X1),.,G(Xc),.,G(XK)}(由深度特征表示),其中Xc={xc1,., xcp}是第c个类的选定图像,p是第c个类的原型数量。每个类,K是数据集中类的数量。给定图像x,我们计算提取的特征G(x)和不同的原始图像集合η=maxj,ρj>ρiSij,ρi<ρmax(七)G(Xc)型。第c个类的相似性得分σc为我最小j Sij,ρi=ρmax计算为1Σp其中ρ max=max{ρ1,.,ρ m}。根据η的定义,我们发现,对于密度值等于的图像xi,ρmax(ρi=ρmax),其相似性度量ηi是最小的-σc= pl=1cos(G(x),G(xcl)),c = 1.中文(简体)est.否则,对于那些具有ρi ρmax的图像xi,相似度ηi被定义为余弦simi的最大值具有特征G(xi)的图像i与具有特征G(xj)的另一图像j的密度值大于xi(ρj> ρi)之间的一致性从上述定义中,较小的相似度值ηi表示对应于图像i的特征是其中G(xcl)是第c个类的第l这里我们使用p个原型上的平均相似度,而不是最大相似度,因为我们发现,(投票)可以防止将具有几乎相同的高相似性的一些硬样本错误分类到不同的类。然后,我们得到校正标签y∈{1,. . . ,K}通过不要太靠近密度ρ大于它的其他图像。因此,具有高密度值ρ(概率a)的样本y=argmaxcσc, c= 1…(9)儿童干净标签)和低相似度值η(干净标签但适度远离其他干净标签)可以满足我们作为类原型的选择标准。在实验中,我们发现密度ρ高的样本排序靠前,其相似度η往往相对较小。如图3(b)所示,红点是密度ρ排在最前面的样本超过80%的样本η >0。9,一半的样品具有η >0。九十五所以这些红点的η值相对较小,且彼此相距较远,1如果x >0,则sign(x)=1;如果x=0,则sign(x)=0;否则sign(x)=−1。在得到校正后的标签y_n之后,我们将其作为复杂的监督信号来训练神经网络F。3.4. 迭代自学习如算法1所示,训练阶段和标签校正阶段迭代地进行。训练阶段首先通过使用具有噪声标签y的图像x来训练初始网络,因为没有提供校正的标签y。 然后我们进入标签校正阶段。该阶段中的特征提取器与图1中的网络F共享相同的网络参数。概率密度相似性5144算法1迭代学习1:初始化网络参数θ 2:对于M =1:num epochs,执行3:如果M开始epochs,则<4:来自训练集的样本(X,Y5:θ(t+1)←θ(t)−θ(t)L(F(θ(t),X),Y)6:其他7:样本{x,c} 1,. . . .,xcm}。8:提取特征并计算相似度S。9:计算密度ρ并为每个类c选择类原型G(Xc)。10:获得每个样本xi的校正y11:来自训练集的 sample(X,Y,Y )。12:θ(t+1)<$θ(t)− θ(t)−θ((1−α)L(F(θ(t),X),Y)+αL(F(θ(t),X),Y(t))13:如果结束14:结束训练阶段。我们从每个类的噪声数据集中随机抽取m个图像,并通过F提取特征,然后原型选择过程为每个类选择p个原型类型。通过计算每幅图像x的特征G(x)与原型之间的相似度,将校正后的标签y赋予每幅图像x。然后使用该校正后的标签y在下一个时期训练网络F上述过程-during迭代地进行直到收敛。4. 实验数据集。我们采用了两个具有挑战性的真实世界噪声数据集来评估我们的方法,Clothing 1 M [38]和Food101-N [15]。(1)Clothing1M包含100万张衣服图片,分为14类。这些标签是由Web上图像的周围文本生成的,因此它们包含许多噪声。噪声标签的准确率为61.54%。Clothing1M分为训练集、验证集和测试集,分别包含50k、14k人类注释者被要求清理一组25k的标签作为一个干净的集合。在我们的方法中,它们不需要在训练中使用(2)Food 101-N [15]是一个对食物进行分类的数据集。它包含101个类,从Web上搜索到310k图像。噪声标签的准确率为80%。它还在训练集中提供了55k个验证标签(由人类清理)。实验设置。对于Clothing1M数据集,我们使用在ImageNet上预训练的ResNet50数据预处理过程包括对256的短边图像进行去噪,并从图像中随机裁剪出224×224的小块调整大小的图像。 我们使用SGD优化器,智力0.9重量衰减因子为5×10−3,批量为128。初始学习率为0.002,每5个epoch下降10总培训师--cesses包含15个epoch。 在标签校正阶段,我们#方法数据精度1交叉熵1M噪声69.542前进[25]1M噪声69.843关节优化[35]第三十五届1M噪声72.234[16]第十六话1M噪声73.475我们1M噪声74.456前进[25]1M噪声+25k验证73.117[15]第十五话1M噪声+25k验证74.158[15]第十五话1M噪声+25k验证74.699我们1M噪声+25k验证76.4410交叉熵1M噪声+50k清洁80.2711前进[25]1M噪声+50k清洁80.3812[15]第十五话1M噪声+50k清洁79.9013我们1M噪声+50k清洁81.16表1. Clothing1M的分类准确率(%)与其他方法相比。在噪声训练集中,对每个类别随机抽取1280幅图像,并为每个类别挑选8个类别原型。对于Food-101 N,每10个epoch,学习率下降10,总共有30个epoch其他设置与Clothing1M相同。4.1. 服装1M在前人工作的基础上,我们采用了以下三种设置.首先,只使用噪声数据集进行训练,而不使用任何额外的干净监督。第二,提供了验证标签,但它们不直接用于训练网络e.G. 它们用于训练辅助网络[15]或帮助选择我们方法中的原型。第三,噪声数据集和50k个干净标签都可用于训练。我们比较表1中的结果。我们看到,在第一种情况下,所提出的方法优于其他的大幅度,例如。准确率从69.54%提高到74.45%,优于联合优化[35](#3)2.22%和MLNT-Teacher [16](#4)0.98%。我们的结果甚至比使用额外验证标签的#6和#7更好。对于第二种情况,传统的交叉熵不适用。[25]使用这些信息来估计转移矩阵,而CleanNet [15]使用验证标签来训练一个额外的网络来预测标签是否有噪声。我们的方法使用这些信息来选择类原型。在这种情况下,与所有方法相比,我们仍然实现了最佳对于第三种情况,所有数据(噪声和干净)都可以用于训练。 所有的方法首先在有噪声的数据集上训练一个模型,然后在干净的数据集上使用香草交叉熵损失对模型进行微调。我们看到我们的方法仍然优于其他方法。CurriculumNet [7]在这种情况下提供了稍好的结果(81.5%)。但是它使用了与所有其他的不同的主干,所以我们不考虑它。在所有这些情况下,我们的方法获得了最先进的性能相比,以前的5145100806040200类名7675747372最后的噪音71嘈杂的初始70噪音+验证最终噪音+验证初始值2 4 6 8 10每个类的原型数p767574737271700.0 0.2 0.4 0.6 0.8 1.0权重因子(a)(b)(c)第(1)款图4. (a)Clothing 1M中每个类别的原始数据集中标签的标签准确度(%)(原始)、第一个迭代周期中由标签校正阶段校正的标签(校正初始)和训练结束时由模型校正的标签(校正最终)。(b)测试精度(%),每个类的原型数量p范围从1到10。实线表示模型在训练结束时(最终)获得的准确度。虚线表示模型第一次(初始)进入标签校正阶段时的正确精度。Noisy是仅来自噪声数据集的训练结果,noisy+verify表示使用了额外的验证(c)测试准确度(%),权重因子α范围为0.0 - 1.0。Noisy和noisy+verify的含义与(b)相同。原始正确初始最终正确精度61.7474.3877.36表2.原始噪声数据集中标签的总体标签准确度(%)(原始),第一个迭代循环中标签校正阶段生成的校正标签的准确度(校正初始)和训练结束时最终模型生成的校正标签的准确度(校正最终)。方法,表明我们的方法是有效的,适用于董事会的情况。4.2. 消融研究标签校正精度。我们探讨了在标签校正阶段的分类精度 表2列出了原始噪声集中的总体精度:在初始迭代循环中校正标记的准确性(即,在训练初步模型之后我们第一次进入标签校正阶段),以及在训练结束时(最终)通过最终模型校正标签我们看到,初始周期后的准确率已经达到74.38%,将原始准确率提高了12.64%(61.74%vs.74.38%)。训练结束时,准确率进一步提高到77.36%我们进一步探索了不同类别的分类准确性,如图4(a)所示我们可以发现,对于大多数类的原始准确率低于50%,我们的方法可以提高准确率到60%以上。即使对于第5类(通过我们的方法成功校正的一些噪声样本如图5所示。类原型的数量p。类原型的数量是类表示能力的关键。当p=1时,情况类似于CleanNet [15]。在我们的方法中,我们使用p≥1。另一个区别是CleanNet通过训练一个额外的网络来实现原型但我们只需要选择图像作为原型连帽夹克衬衫t恤夹克连帽衫夹克套装毛豆饺子苹果派杯子蛋糕油条冰淇淋刺身寿司图5.用我们的方法校正样品。左:原始的嘈杂标签。右:通过我们的方法校正的正确标签。第一行来自Clothing 1 M,第二行来自Food 101-N。密度和相似性。图4(b)显示了改变每个类的原型数量的效果。我们选择五个p值,并评估通过仅使用1M噪声数据或添加25k验证信息训练的最终测试准确度,如实线所为了更好地观察p值引起的影响,我们通过模型步骤进入第一个标签校正阶段来评估标签但这次我们在测试集上进行评估。这个指标很容易评估,所以我们探索从1到10的10个p值,如虚线所示。当比较这两个设置时,它们遵循相同的趋势。结果表明,当p= 1时,即当p =1时,每类一个原型,其精度与其它精度相比是次优的。当使用更多的原型时,性能提高了很多,例如。使用两个原型类型的准确率比使用单个原型类型的准确率高2.04%。2这也证明了我们的主张,即单个原型不足以代表一个类的分布。多个原型为类提供了更全面的表示。权重因子α。权重因子α在训练过程中起着重要作用,它决定了网络将集中于原始噪声标签Y或原始更正初始更正最终噪音噪音+验证标签正确准确度(%)T恤衬衫针织衫雪纺毛衣连帽衫风衣夹克羽绒服西装披肩连衣裙背心内衣测试集的准确度(%)测试集的准确度(%)5146M320640128025601M噪声(最终)1M噪声(初始)74.3772.0474.0772.0374.4572.0974.2772.051M噪声+25k验证(最终)1M噪声+25k验证(初始)76.4374.0976.4973.9776.4474.1776.5574.21表3. Clothing1M上的分类准确率(%),不同数量的样本用于为每个类别选择原型。Final表示模型在训练结束时获得的精度初始表示模型刚进入第一个标签校正阶段时的正确精度。更正了标签Y。如果α=0,则仅使用噪声标签来训练网络而另一种极端情况是当α=1时,训练过程丢弃原始噪声标签,仅依赖于校正后的标签。我们研究了不同α的影响,0.0至1.0,不同α的测试准确度如图4(c)所示从结果中,我们发现,训练只使用噪声标签Y,即。α=0会导致性能较差。虽然校正后的标签更精确,但仅使用表4.用不同的聚类方法对Clothing1M进行原型选择,分类准确率(%)。#方法精度1交叉熵84.512[15]第十五话83.473[15]第十五话83.954我们85.11表5. Food-101 N的分类准确率(%)与其他方法进行了比较。广泛使用的K-means算法,即K-means++ [1]。用所有方法得到的原型生成训练用的校正标签。结果列于更正标签Y也是次优的。 模型表4.我们看到,用于生成原型的方法通过使用原始噪声标签Y和校正标签Y联合训练,当α=0的情况。五、准确度曲线也证明了我们的说法,校正可能将一些硬样本误认为噪声。直接用正确的标签替换所有有噪声的标签会使网络专注于简单的特征,从而降低泛化能力。样本数量m。为了避免与相似性矩阵S相关的大量计算,我们随机选择m个图像,而不是使用同一类中的所有图像来计算相似性矩阵。我们研究了有多少样本足以选择类原型来很好地代表类分布。我们探讨了图像数量m对每个类的影响。结果列于表3中。实验设置类似于上面的实验,类的原型。模型分别在噪声数据集和噪声数据集加上额外的验证标签上进行训练。结果是训练模型在测试集上的准确性除了对最终模型的分类精度进行评估外,我们还考察了模型刚进入第一个标签校正阶段时的校正精度,该阶段在表中表示为“初始”。通过分析不同情况下的结果,我们看到性能对图像的数量m不敏感。与Clothing1M中每个类的70k个训练图像相比,我们只对其中的2%进行了采样,并获得了很好地代表类分布的类原型。原型选择。为了探讨原型选择方法的影响,我们还使用了另外两种聚类方法来获得原型。一个是通过欧几里得距离的密度峰值[31],而另一个是类型并不影响准确性,这意味着我们的框架对聚类方法不敏感但在这项工作中提出的选择方法仍然比其他人表现得更好。4.3.食品101N我们还在Food-101 N [15]数据集上评估了我们的方法。结果示于表5中。我们发现,我们的方法在Food-101 N上也达到了最先进的性能,比CleanNet [15]高出1.16%。5. 结论在本文中,我们提出了一个迭代的自学习框架工作的学习实际噪声数据集。我们证明了一个单一的原型是不够的,代表一个类的分布和多原型是必要的。我们还验证了我们的说法,即原始噪声标签在训练过程中是有帮助的,尽管校正后的标签更精确。通过使用几个类原型类型来校正标签,并使用校正后的和原始的噪声迭代地联合训练网络,这项工作提供了一个有效的端到端训练框架,而无需使用辅助网络或在真实的噪声数据集上添加额外的监督。我们在不同的真实噪声数据集上评估了这些方法,并获得了最先进的性能。确认这项工作部分由商汤科技集团有限公司支持,部分由香港研究资助局的一般研究基金资助,资助额为CUHK14202217,CUHK14203118,CUHK14205615,CUHK14207814,CUHK14213616。方法数据精度K-means++[1]1M噪声74.08密度峰Euc。[三十一]1M噪声74.11我们1M噪声74.45K-means++[1]1M噪声+25k验证76.22密度峰Euc。[三十一]1M噪声+25k验证76.05我们1M噪声+25k验证76.445147引用[1] 大卫·亚瑟和谢尔盖·瓦西里茨基。k-means++:仔细播种的优点。在第18届ACM-SIAM离散算法研讨会论文集,第1027工业与应用数学学会,2007年。[2] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年[3] 丁一凡,王立强,范德良,龚伯庆。从噪声标签中学习的半监督两阶段方法。2018年IEEE计算机视觉应用冬季会议(WACV),第1215-1224页。IEEE,2018年。[4] Aritra Ghosh,Naresh Manwani,and PS Sastry.使风险最小化容忍标签噪音。神经计算,160:93[5] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[6] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。2016年。[7] Sheng Guo , Weilin Huang , Haozhi Zhang , ChenfanZhuang,Dengke Dong,Matthew R Scott,and DinglongHuang.Cur- riculumnet:大规模网络图像的弱监督学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第135-150页[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[9] Dan Hendrycks , Mantas Mazeika , Duncan Wilson 和Kevin Gimpel。使用可信数据在被严重噪声破坏的标签上训练深度网络。神经信息处理系统的进展,第10477-10486页,2018年[10] Panagiotis G Ipeirotis,Foster Provost和Jing Wang。亚马逊土耳其机械的质量管理。ACM SIGKDD人类计算研讨会论文集,第64-67页。ACM,2010年。[11] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei. Mentornet:在损坏的标签上学习数据驱动的深度神经网络课程。国际机器学习会议,第2309-2318页,2018年。[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,Cite- seer,2009年。[13] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[14] 李东贤伪标签:简单高效的深度神经网络半监督学习方法。在表征学习挑战研讨会,ICML,第3卷,第2页,2013年。[15] Kuang-Huei Lee,Xiaodong He,Lei Zhang,and LinjunYang. Cleannet:可扩展映像类标签噪音训练。在IEEE计算机视觉和模式识别会议论文集,第5447-5456页[16] 李俊南,黄永康,赵奇,和莫汉·S·康康-哈利.学习从有噪声的标记数据中学习。在IEEE计算机视觉和模式识别会议论文集,第5051-5059页,2019年[17] Yuncheng Li ,Jianchao Yang ,Yale Song, LiangliangCao,Jiebo Luo,and Li-Jia Li.用蒸馏从噪声标签中学习。在IEEE计算机视觉国际会议论文集,第1910-1918页[18] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[20] 刘希慧,李洪生,邵晶,陈大鹏,王晓刚.显示,告诉和歧视:图像字幕的自我检索与部分标记的数据。在欧洲计算机视觉会议(ECCV)的会议记录中,第338-354页[21] Xihui Liu,Zihao Wang,Jing Shao,Xiaogang Wang,and Hongsheng Li.用跨模态注意引导擦除改善指称表达基础。在IEEE计算机视觉和模式识别会议论文集,第1950-1959页[22] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集,第3431-3440页[23] David F Nettleton , Albert Orriols-Puig , and AlbertFornells.不同类型噪声对监督学习技术精度ArtificialIntelligenc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功