没有合适的资源?快使用搜索试试~ 我知道了~
大规模Web图像的弱监督学习方法
CurriculumNet:大规模Web图像的弱监督学习Sheng Guo,WeilinHuang,Haozhi Zhang,Chenfan Zhuang,DengkeDong,Matthew R.斯科特和黄鼎龙中国深圳马龙科技有限公司深圳马龙人工智能研究中心,中国深圳{sheng,whuang,haochang,fan,dongdk,mscott,dlong}@ malong.com抽象。我们提出了一种简单而有效的方法,能够在大规模弱监督网络图像上训练深度神经网络这些图像是通过使用文本查询从互联网上粗略抓取的,没有任何人类注释。我们开发了一个原则性的学习策略,利用课程学习,有效地处理大量的嘈杂的标签和数据不平衡的目标。 我们设计了一个新的学习课程,通过测量数据的复杂性,使用其在特征空间中的分布密度,并在一个非监督的方式排序的复杂性。 这允许在大规模网络图像上有效地实施课程学习,从而产生高性能的CNN模型,其中噪声标签的负面影响大大减少。重要的是,我们通过实验表明,这些图像与高噪声标签可以令人惊讶地提高模型的泛化能力,作为一种正则化的方式。 我们的方法在四个基准测试中获得了最先进的性能,包括Webvision,Ima-geNet,Clothing-1 M和Food-101。 通过多个模型的集成,我们在Webvision挑战中实现了5.2%的前5名错误率[18],用于1000个类别的分类,这是超过其他结果的最高性能,相对错误率约为50%。代码和模型可在https://github.com/guoshengcv/CurriculumNet获得。关键词:课程学习·弱监督·噪声数据·大规模·网络图像1介绍深度卷积网络迅速推进了许多计算机视觉任务,在图像分类[9,31,34,14,37,8],对象检测[28,27,22,20],语义分割[23,11,4,10]等方面提供了最先进的性能。它们通过使用大规模手动注释数据集(如ImageNet [5],MS-COCO [21]和PASCAL VOC [6])以完全监督的方式训练网络来产生强大的视觉特征。显然,完整和干净的人工注释对于实现高性能Weilin Huang为通讯作者(e-mail:whuang@malong.com)。2S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄Fig. 1. WebVision数据集[19]的图像样本来自Carton,Dog,Taxi和Banana类别。该数据集是通过使用从Imagenet基准[5]的1,000个语义概念生成的文本查询从互联网收集的显然,每个类别都包括一些错误标记的图像,如右图所示模型,并且如果为更大的数据集提供干净的注释,则可以合理地预期更好的结果。然而,获得大量且干净的注释是极其昂贵且耗时的,使得深度模型的能力此外,特别难以为需要专家知识的任务收集干净的注释,并且由不同注释器提供的标签可能不一致。另一种解决方案是使用网络作为数据和监督的来源这些查询信息可以被认为是图像的自然注释,提供对收集的数据的弱监督,这是增加规模的廉价方式的数据集。然而,这样的注释是高度不可靠的,并且通常包括大量噪声标签。过去的工作表明,这些嘈杂的标签可能会显着影响深度神经网络在图像分类方面的性能[39]。为了解决这个问题,最近的方法已经通过提出针对噪声标签的鲁棒算法来开发[30]。另一种解决方案是开发噪声清除方法,旨在去除或纠正训练数据中错误标记的示例[32]。然而,噪声净化方法通常遭受区分错误标记的样本与硬样本的主要困难,这对于提高模型能力至关重要此外,还通过使用手动标记图像的一个小子集引入了半监督方法,然后将在该子集上训练的模型推广到具有未标记或弱标记数据的较大数据集[36]。与这些方法不同,我们的目标不是提出一个噪声清除,噪声鲁棒或半监督的al。CurriculumNet:大规模Web图像的弱监督学习3gorithm.相反,我们研究通过引入新的训练策略来提高标准神经网络的模型能力。在这项工作中,我们研究了从具有大量噪声标签的大规模图像中学习卷积网络的问题,例如WebVision挑战[18],这是一个1000类别的图像分类任务,与ImageNet [5]具有相同的类别。标签是通过简单地使用从ImageNet的1,000个语义概念生成的查询文本来提供的[5],没有任何手动注释。图中给出了几个图像样本1.一、我们的目标是提供一个解决方案,能够有效地处理大量嘈杂的标签和数据不平衡。我们设计了一系列实验来研究当训练图像的量足够大时,噪声标签对深度网络性能的影响我们开发了一种简单但令人惊讶的高效训练策略,通过利用高噪声标签,可以提高模型泛化能力和标准深度网络的整体能力我们观察到,使用干净和有噪声的数据从头开始训练CNN比只使用干净的数据更好。这项工作的贡献是三方面的。– 我们提出了一个课程网络,通过开发一个有效的学习策略与课程学习。这使我们能够从具有大量噪声标签的大规模网络图像中训练高性能CNN模型,这些图像是在没有任何人类注释的情况下获得的。– 我们设计了一个新的学习课程排名数据的复杂性,使用分布密度在无监督的方式。这允许通过直接探索高噪声标签来有效地实施针对该任务定制的课程学习。– 我们对许多基准测试进行了广泛的实验,包括WebVision [19],ImageNet [5] , Clothing1M [39] 和 Food101 [2] , 其 中 提 出 的CurriculumNet 获 得 了 最 先 进 的 性 能 。 在 CVPR 2017 的 WebVisionChallenge上,Cur- riculumNet集成了多个模型,以5.2%的前5名错误率获得了最佳性能,大幅优于其他结果。2相关工作本文简要回顾了近年来在图像分类中处理噪声的研究进展。对于标签噪声分类和噪声鲁棒算法的全面概述,我们参考[7]。最近从嘈杂的网络数据中学习的方法可以大致分类分为两类。(1)方法旨在直接从噪声标签中学习。这组方法主要关注噪声鲁棒算法[16,39,25],以及旨在删除或纠正错误标记数据的标签清洗方法[3,15]。然而,它们通常遭受从硬训练样本中识别错误标记样本的主要挑战,这对于提高模型能力至关重要。(2)半监督学习方法也被开发来处理这些缺点,通过将嘈杂的标签与一小组干净的标签相结合[40,26,38]。迁移学习方法通过迁移来解决标签噪声4S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄...子集1子集2子集N-1子集N输出输入−1−2最终网络321Meta数据课程设计课程学习图二.建议的WebNet的管道。培训过程包括初始特征生成、课程设计和课程学习三个主要步骤。标签对其他类的正确性[17]。在这个子集上训练的模型被推广到具有未标记或弱标记数据的更大数据集[36]。与这些方法不同,我们没有提出一个噪声净化或噪声鲁棒或半监督算法。相反,我们研究通过引入一种新的训练策略来改善标准神经网络的模型能力,该策略可以减轻噪声标签的负面影响。卷积神经网络最近已被应用于训练具有噪声数据的鲁棒模型[39,30,25,17,15]。 Xiao等[39]引入了一个通用框架,用有限数量的人类注释以及数百万的噪声数据来训练CNN。在[30]中研究了CNN在具有高噪声标签的训练集上的行为MentorNet [15]通过学习对训练示例进行加权的额外网络,提高了在噪声数据上训练的CNN的性能。我们的方法与这些方法的不同之处在于,我们在训练过程中直接考虑了错误标记的样本,并且我们通过实验表明,通过有效的训练方案,标准的深度网络对高噪声标签具有很强的鲁棒性。我们的工作与[13]的工作密切相关,[13]能够对缺失引起的噪声进行[13]中的方法以输入图像为条件,并且被设计用于每个图像的多个标签。它没有利用清洁标签的优势,重点是缺失的标签,而我们的方法在高噪声标签上可靠地工作,没有任何清洁(手动注释)的标签,并且学习课程以完全无监督的方式正确设计。任务1任务2任务N......CurriculumNet:大规模Web图像的弱监督学习53方法在本节中,我们将详细介绍由人类学习驱动的CurriculumNet,其中该模型从学习概念的较简单方面开始我们介绍了一种新的方法来设计一个学习课程在一个无监督的方式。然后通过遵循设计的课程来训练CNN,其中噪声标签的数量逐渐增加。3.1概述CurriculumNet的流水线如图所示。2.它包含三个主要步骤:(i)初始特征生成,(ii)课程设计和(iii)课程学习。首先,我们使用所有的训练数据来学习一个初始模型,然后应用它涉及计算深度表示(例如,全卷积(FC)特征)。第二,初始模型旨在大致绘制将所有训练图像转换到特征空间中,其中可以发现每个类别中的图像的基础结构和关系,从而提供定义图像复杂性的有效方法。我们探讨了定义的复杂性,设计一个学习课程,在每个类别中的所有图像被分成许多子集的复杂性排序。第三,基于设计的课程,我们采用课程学习,从一个简单的子集开始训练CNN,该子集结合了所有类别的简单子集。假设在简单子集中具有更多带有正确标签的干净图像。然后,通过不断地将具有增加的复杂度的数据添加到训练过程中来逐渐提高模型能力。3.2课程设计课程学习最初是在[1]中提出的。它最近被应用于处理噪声和异常值。实现这一学习理念的主要问题之一是设计一个针对我们任务的高效学习课程设计的课程应该能够发现有意义的潜在的局部结构的大规模噪声数据在一个特定的特征空间,我们的目标是设计一个学习课程,能够排名的训练图像从简单到复杂的无监督的方式。我们应用基于密度的聚类算法,使用数据分布密度来衡量训练样本的复杂性。与以前开发的用于处理小规模或中等规模数据集中的噪声标签的方法不同,我们设计了一个新的学习课程,该课程允许我们使用标准CNN的训练策略在大规模数据集上实际工作良好,例如,WebVision数据库包含超过2,400,000个带有大量噪声标签的网络图像。具体来说,我们的目标是将整个训练集分成多个子集,这些子集从具有更可靠标签的干净图像的简单子集到包含大量噪声标签的更复杂子集进行排名。受[29]中描述的最近聚类算法的启发,我们进行以下过程6S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄在每个类别中。首先,我们使用Inception v2架构[14]从整个训练集中训练初始模型。然后,通过使用初始模型的fc层特征,将每个类别中的所有图像投影到深特征空间中,对于每个图像Pi ,Pi-f(Pi)。然后,我们计算欧几里得距离矩阵DRn×n为,D=f(P)−f(P)2(1)i j i j其中,η是当前类别中的图像的数量,并且Dij指示Pi与Pj之间的相似度值(较小的Dij意味着Pi与Pj之间的较高相似度)。我们首先计算每个图像的局部密度(ρi)Σ哪里ρi=X(Dij−dc)(2)J.X(d)=1 d00其他其中dc通过将DRn×n中的n2个距离从小值到大值排序来确定,并选择排名在k%处的数字该结果对50和70之间的k值不敏感,并且我们在所有实验中根据经验设置kρi是到i的距离小于dc的样本数。很自然地假设具有正确标签的一组干净图像通常具有相对相似的视觉外观,并且这些图像彼此紧密地投影,从而导致大的局部密度值相比之下,噪声图像通常具有显著的视觉多样性,导致具有较小密度值的稀疏分布。新定义的用于计算的精细距离(δi):.δi=minj:ρj>ρi(Dij)ifjs. t. ρj>ρimax(Dij)otherwise(三)如果x是距离Ij具有ρj>ρi,则δi是Dij,其中rej是在a处对i进行采样。在其他情况下,如果δ是较大的库存量,则ρ是最低的库存量,并且处于距库存量较远的位置。 具有最高局部密度的数据点具有最大值δ,并被选为该类别的聚类中心。由于我们已经计算了类别的聚类中心,因此距离聚类中心更近的数据点具有更高的置信度以具有正确的标签。因此,我们简单地进行k-均值算法将数据点划分为多个聚类,根据它们到聚类中心的距离Dcj,其中c是聚类中心。图3(左)是WebVision数据集中猫类别中所有图像的δ−ρ图我们在每个类别中生成三个聚类,并简单地使用每个聚类中的图像作为数据子集。因为每个集群都有一个密度值来衡量它内部的数据分布,以及不同集群之间的关系。这提供CurriculumNet:大规模Web图像的弱监督学习7图3.第三章。左:具有三个子集的猫类别的样本右:设计课程的学习一种自然的方式来定义子集的复杂性,为设计学习课程提供了一个简单的规则。具有高密度值的子集意味着所有图像在特征空间中彼此接近,这表明这些图像具有很强的相似性。我们定义这个子集作为一个干净的,假设大多数的标签是正确的。具有小密度值的子集意味着图像在视觉外观上具有大的多样性,这可能包括具有不正确标签的更多不相关图像。该子集被认为是噪声数据。因此,我们在每个类别中生成一些子集,从干净的,嘈杂的,高噪声的,这是有序的,随着复杂性的增加。每个类别都有相同数量的子集,我们将它们组合到所有类别中,形成我们最终的学习课程,按顺序实施培训在干净的、有噪声的和高噪声的子集上。图3(左)示出了来自W eb Vi s i on d at as et的“c at”的分类中的三个子集合的如可以发现的,来自干净子集的图像具有非常封闭的视觉外观,而高噪声子集包含数字这些随机图像与干净子集中的那些完全不同3.3课程学习学习过程是通过遵循数据结构的性质来执行的。所设计的课程能够以无监督的方式基于视觉外观发现底层数据结构我们设计了一个学习策略,它依赖于直觉-任务的顺序增加的难度,和训练是从较容易的任务,以较难的顺序进行。我们开发了一个多阶段的学习过程,可以更有效地训练标准神经网络,并增强处理大量噪声标签的能力。培训详情见图1。3(右),其中卷积模型通过三个阶段进行训练,通过连续混合训练子集从干净子集到高噪声子集。首先,使用标准的卷积架构,例如Inception v2 [14]。该模型仅使用干净的数据进行训练,其中每个类别中的图像具有接近的视觉外观。这允许8S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄该模型从每个类别学习基本但清晰的视觉信息,作为后续过程的基本特征其次,当第一阶段训练的模型收敛时,我们通过添加噪声数据来继续学习过程,其中图像具有更显著的虽然噪声数据可能包含不正确的标签,但它大致保留了数据的主要结构,从而导致性能的提高。第三,通过添加包含大量具有不正确标签的视觉无关图像的高噪声数据来进一步训练模型。通过遵循前两阶段课程学习的深层特征能够捕获数据的主要底层结构。我们观察到,在最后阶段添加的高噪声数据不会对学习的数据结构产生负面影响。相比之下,它提高了模型的泛化能力,并通过提供一种正则化的当训练在最后阶段收敛时,获得最终模型,其中三个此外,当来自不同子集的样本在第二和第三阶段中组合时,我们将不同子集的训练样本的不同损失权重分别设置为1,0.5和0.5,分别用于干净,有噪声和高噪声子集3.4实现细节培训详情:WebVision数据的规模[19]明显大于ImageNet [5],在评估和比较中进行广泛的实验时,考虑计算成本是很重要的。在我们的实验中,我们采用了带有批处理规范化(bn- inception)[14]的inception体系结构作为我们的标准体系结构。采用所提出的密度排序课程学习训练bn-inception模型使用小批量随机梯度下降(SGD)优化网络权重,其中批量大小设置为256,并采用均方根传播(RMSprop)算法学习率从0.1开始,以10的因子递减在30×104、 50×104、 60×104、 65×104、70×104的迭代下,整个训练过程在70× 104次迭代时停止为了降低过度拟合的风险,我们使用常见的数据增强技术,包括随机裁剪,比例抖动和比率抖动。我们还在全局池化层之后添加了比率为0.2的dropout操作。选择性数据平衡:与ImageNet相比,WebVision数据的另一个挑战[18]是不同类别的训练图像高度不平衡。例如,大规模类别可以包含超过10,000个图像,而小规模类别仅包含少于400个图像。在这种不平衡的类上直接使用随机抽样进行训练的CNN模型将偏向于大类别。为了缓解这个问题,我们开发了一个两级的数据平衡方法:子集级平衡和类别级平衡。在子集级平衡中,在每个最小批次中选择训练样本如下:(256,0,0)、(128,128,0)和(128,64,64)。CurriculumNet:大规模Web图像的弱监督学习9对于类别级平衡,在每个最小批次中,我们首先从1000个类别中随机选择256个请注意,类别级别的余额只在干净的子集上实现。当我们将其应用于噪声或高噪声子集时,性能下降因为我们从类别级平衡中的每个类别中随机收集单个样本,所以有可能从噪声或高噪声子集中获得单个但完全不相关的样本,这将对训练产生负面多尺度卷积核:我们还在第一个卷积层中应用多尺度卷积核,具有三种不同的内核大小:5 ×5、7×7和9×9。然后,我们将由三种类型的过滤器生成的三个卷积映射连接起来,它们形成了第一个卷积层的最终特 征 映 射 多 尺 度 过 滤 器 增 强 了 第 一 层 中 的 低 级 特 征 , 从 而 在WebVision数据的前5个错误上实现了约0.5%的性能提升。4实验结果和比较拟议 的CurriculumNet 是根 据四 项基 准进 行评 估的 : WebVision [19] ,ImageNet [5],Clothing1M [39]和Food101 [2]。特别是,我们研究了大规模的网络图像的学习能力,没有人的注释。4.1数据集WebVision数据集[19]是一个以对象为中心的数据集,并且比用于对象识别和分类的ImageNet[5]这些图片是从Flickr和Google图片搜索中抓取的,通过使用ILSVRC 2012的1000个语义概念Meta信息连同那些web图像(例如,标题、描述、标签等)也是爬行的。WebVision 2017的数据集包含1,000个对象类别(与Ima-geNet相同)。训练数据总共包含2,439,574张图像,但没有任何人工注释。它包括大量的噪声标签,如图所示1.一、有50,000个手动标记的图像被用作验证集,另外50,000个手动标记的图像用于测试。评估度量基于前5个误差,其中每个算法提供最多5个对象类别的列表以匹配地面实况。Clothing1M数据集[39]是一个大规模的时尚数据集,其中包括14个服装类别。它包含100万个噪声标签图像和74,000个人工注释图像。我们称标注后的图像为干净集,分为训练数据、验证数据和测试数据,分别为50,000、14,000和10,000张图像。在干净集合和噪声集合之间存在一些图像该数据集被设计用于在没有人类监督的情况下从噪声数据中学习鲁棒模型。10S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄见图4。使用BN-Inception架构测试四种不同模型的丢失。(左)基于密度的课程和(右)基于K均值的课程。Food-101数据集[2]是评估视觉食物识别准确性的标准基准。它包含101个类,总共有101,000个真实世界的食物图像。每个类别的训练和测试图像的数量分别为750和250。这是一个干净的数据集,提供了完整的手动注释。为了使用噪声数据进行实验,我们手动将20%的噪声图像添加到训练集中,这些图像是从ImageNet [5]的训练集中随机收集的4.2实验与比较我们进行了广泛的实验,以评估所提出的方法的效率。我们通过使用BN-Inception来比较各种训练方案。关于培训策略。我们使用标准的Inception v2架构评估了四种不同的训练策略,产生了四个模型,如下所述– Model-A:直接使用整个训练集来训练模型– 模型B:模型仅使用干净子集进行训练– 模型-C:通过使用所提出的学习策略训练模型,具有2个子集课程:干净的和有噪声的 子集。– 模型D:通过使用所提出的学习策略训练模型,具有3个子集的课程:干净、有噪声和高噪声子集。四个模型的测试损失(在WebVision的验证集上)在图中进行了比较。4,如果建议的课程网有两个子集的课程,3子集课程(模型C和模型D)具有更好的收敛速度。WebVision确认集上四个模型的前1和前5结果报告见表1。结果与图1中给出的测试损耗基本一致。4.所提出的方法,与3子集课程学习,显着优于模型训练的所有数据,与改进CurriculumNet:大规模Web图像的弱监督学习11表 1. 验 证 集 上 具 有 BN-Inception 架 构 的 四 个 不 同 模 型 的 前 1和 前 5 个 错 误(%)。模型在Webvision训练集上进行训练,并在各种模型下在WebVision和ILSVRC验证集莫思德WebVision ImageNetTop-1Top-5Top-1Top-5a型30.1612.4336.0016.20B型30.2812.9837.0916.42型号c28.4411.3835.6615.24D型27.9110.8235.2415.11三十16%→ 27. 91%和12。43%→ 10。前1和前5个错误分别为82%这些改进对于这样一个大规模的挑战来说意义重大。在ImageNet的验证集上获得了一致的改进,其中模型是在WebVision数据上训练的。在所有1000个类别中,我们的方法导致668个类别的性能改进,而只有195个类别减少了前5名的结果,其余137个类别的结果保持不变。高噪声数据或训练标签。我们进一步研究了高噪声数据对所提出的学习策略的影响。我们使用了不同百分比的数据,从高噪声子集的3子集课程学习,从0%到100%。结果报告于表2中如图所示,Top 1和Top 5的最佳结果都是在高噪声数据的50%处实现的这表明,通过使用所提出的训练方法,即使是高噪声数据也可以通过增加具有更显著多样性的训练数据的量来提高模型的泛化能力,从而证明了所提出的方法的效率进一步增加高噪声数据的量不会改善性能,但具有非常有限的负面影响。为了提供更多的见解并对标签噪声进行更深入的分析,我们应用了最新的ImageNet训练的SEnet [12](ImageNet上的前5名错误率为4.47%)来对WebVision数据训练集中的所有图像进行我们假设SEnet对每个图像的输出标签是正确的,并计算每个类别中正确标签的比率。我们观察到,WebVision数据的整个训练集的平均噪声率高达52%(前1),这表明包含了大量不正确的标签我们进一步计算了设计的学习课程的三个子集的平均噪声率,分别为65%,39%和15%。这些数字与三个子集的复杂度增加一致,并且表明第三子集中的大多数图像是高噪声的。我们计算了训练标签正确率的10个不同区间中的类别数,如图所示。5(左)。有12个类别的正确率低于10%。我们进一步计算每个区间的平均性能增益,如图所示。5(右)。我们发现具有较低正确率的类别(例如,<40%)业绩较大12S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄图五、类别数量(左)和训练标签的10个不同速率间隔中的性能改进(右)增加(>4%),并且最显著的改善发生在10%-20%的区间,其具有7.7%的改善。不同的聚类算法。提出的基于聚类的课程学习可以很好地推广到其他聚类算法。我们通过比较我们的密度为基础的课程设计与K-均值聚类建议的3子集CurriculumNet。如图如图4(右)所示,通过K均值使用干净子集训练的模型B* 具有显著较低的性能,这意味着没有所提出的课程学习的训练对质量高度敏感。通过调整所提出的方法,Model-D* 显著提高了性能,从16.6%提高到11.5%(前5名),这与Model-D相当。这些结果表明所提出的CurriculumNet的强大的鲁棒性,允许由不同的算法生成的数据的各种质量WebVision挑战赛的最终结果。 我们通过使用各种网络架构(包括Inception v2 [14]、Inception v3 [35]、Inception v4 [33]和Inception resnet v2[33])进一步评估了CurriculumNet(模型D)的性能。结果报告于表3中。可以发现,Inception v3在前5名中的表现大大超过了Inception v2,从10.82%上升到7.88%,而诸如Inception v4和Inception resnet v2之类的更复杂的模型仅具有类似的性能,其中获得了边际性能增益。我们的最终结果是用六个模型的集合得到的。我们有在2017年WebVision挑战赛中以5.2%的前5名错误获得最佳性能[18]。它以约2.5%的幅度优于第二个,这是约50%的相对误差,因此对于这个具有挑战性的任务是重要的。5.2%最高5误差也与ImageNet上的人类表现相当,但我们的方法是通过使用弱监督训练数据获得这一结果的,任何人类注释。与最先进方法的比较。 我们的方法通过将其与最近专门用于从标签噪声中学习的最先进方法进行比较来进行评估,例如CleanNet[17],FoodNet [24]和Patrini等人。CurriculumNet:大规模Web图像的弱监督学习13表2.通过使用来自高噪声子集的各种百分比的数据的模型D的性能(%)表3.使用各种网络的模型D的性能(%)。噪声数据(%)Top1Top5028.4411.38百分之二十五28.1710.93百分之五十27.9110.82百分之七十五28.4811.07百分百28.3310.94网络Top1Top5Inception v227.9110.82Inception v322.217.88Inception v421.976.64Inception resnet v220.706.38阿湖 的应用[ 25]。在 四个品牌上进行了测试和比较:WebVision [19],ImageNet [5],Clothing1M [39]和Food101 [2]。在我们所有的实验中使用了带有Inception v2的Model-D。通过遵循[17],我们使用WebVision的训练集来训练模型,并在WebVision和ILSVRC的验证集上进行测试,两者都具有相同的1000个类别。在Clothing1M上,我们按照[17]进行了两组实验,首先将我们基于课程的训练方法应用于100万个噪声数据,然后使用50K干净数据来微调训练模型。我们将这两个结果与CleanNet [17]和Patrini等人的方法进行比较。al. [ 25]第20段。完整结果见表4。CurriculumNet在所有四个数据库中显著提高了我们基线的性能。此外,我们的结果与最近的CleanNet在所有数据集上的结果相比,一致的改进范围约为1.5%至3.3%。特别地,Curriculum-Net 将 CleanNet 的 前 5 个 错 误 从 12.2% 减 少 到 10.8% 。此 外 ,CurriculumNetalsotperfsPatriniet。 阿湖 的方法(19.6%→18.5%)[25]。在Food 101上,使用20%的额外噪声数据和完全随机标签进行训练的Curriculum-Net比CleanNet(16.0%→12.7%)和FoodNet(27.9%→12.7%)都有了实质性的改进[24]。这些显著的改进证实了CurriculumNet的优势,展示了从大量嘈杂标签中学习的强大能力使用更干净的数据进行训练:WebVision+ImageNet。我们通过增加WebVision训练集中的干净数据量来评估CurriculumNet的性能。由于ImageNet数据是完全清理和手动注释的,因此一种简单的方法是简单地组合WebVision和ImageNet数据的训练集。我们使用Inception v2实现CurriculumNet,将ImageNet数据视为额外的干净子集,并在两个数据库的验证集结果报告于表5中我们将主要观察结果总结如下。(i)通过将WebVision数据组合到ImageNet数据中,由于训练数据量的增加,性能通常会得到提高(ii)通过增加干净数据(ImageNet)的数量,所提出的CurriculumNet的性能在 两 个 验 证 集 上 都 得 到 了 显 着 改 善 , 例 如 WebVision 上 的10.8%→8.5%,以及15.1%→7.1%。14S. Guo,W.Huang,H.Zhang C.,中国古猿科Zhuang,D.董,M.R.斯科特,D。黄表4.与Webvision,ImageNet,Clothes-1 M和Food 101数据库上的最新结果进行比较对于Webvision和ImageNet,模型在WebVision训练集上进行训练,并在WebVision和ILSVRC验证集上进行测试莫思德WebVisionImageNet服装1M食品101Top-1(Top-5)Top-1(Top-5)Top-1Top-1基线[17]32.2(14.2)41.1(20.2)24.818.3CleanNet [17]29.7(12.2)36.6(15.4)20.116.0MentorNet [15]29.2(12.0)37.5(17.0)––我们的基线30.3(13.0)37.1(16.4)24.215.0课程网27.9(10.8)35.2(15.1)18.512.7表5. ImageNet和WebVision 验证集的性能模型在ImageNet、WebVision或ImageNet+WebVision的训练集上进行训练。培训数据WebVision ImageNetTop-1Top-5Top-1Top-5ImageNet32.813.926.98.6ImageNet+WebVision25.39.025.67.4CurriculumNet(WebVision)CurriculumNet(WebVision+ImageNet)27.924.710.88.535.224.815.17.1在ImageNet上。(iii)通过使用WebVision和ImageNet作为训练数据,CurriculumNet能够提高两个验证集的性能。例如,在相同的训练集下,它将WebVision的前5个错误从9.0%降低到8.5%。(iv)在ImageNet上,CurriculumNet通过利用额外的噪声数据(例如,WebVision)。这一性能提升在ImageNet上非常显著,这进一步证实了CurriculumNet在从噪声数据中学习方面的强大能力。5结论我们已经提出了一种CurriculumNet-一种新的训练策略,能够在大规模弱监督网络图像上更有效地训练CNN模型,其中不提供人工注释利用课程学习的思想,我们提出了一种新的学习课程,通过测量数据的复杂性,使用聚类密度。实验结果表明,该方法具有较强的处理大量噪声标签的能力。它们不仅减少了噪声标签的负面影响,而且,通过使用 高 噪 声 数 据 , 显 著 地 提 高 了 模 型 的 泛 化 能 力 。 所 提 出 的CurriculumNet在Webvision、ImageNet、Clothing-1 M和Food-101基准测试 中 达 到 了 最 先 进 的 性 能 。 通 过 多 个 模 型 的 集 成 , 它 在2017 年Webvision Challenge上 获 得 了5.2%的 前 5名 误 差 , 相对 误 差 率 约 为50%,大大优于其他提交的作品。CurriculumNet:大规模Web图像的弱监督学习15引用1. Bengio,Y.,Louradour,J.,科洛伯特河Weston,J.:课程学习。In:ICML. pp. 41阿、中、男(2009)2. 波士顿路,L. 你好,M., 万戈湖:Food-101-min in g d i s c rim in a t i v e co n t e c o n e n t s w i t h ra n o m for s t s。 In:ECCV. pp. 446-461 02TheDog(2014)3. Brodley , C.E. Friedl , M.A. : 识 别 错 误 标 记 的 训 练 数 据 。 CoRR ,abs/1106.0219(1999)4. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。CoRRabs/1606.00915(2016)5. Deng,J.,Dong,W.,索赫尔河Li,L.,Li,K.,Li,F.:ImageNet:一个大规模的历史数据库。 In:CVPR. pp. 2486. Everingham,M. Gool,L.V.,Williams,C. Winn,J.,齐瑟曼,A.:pascal visual object classes challenge 2007 ( pascal visual object classeschallenge2007)在:URLhttp://www.pascal-network.org/challenges/VOC/voc2007/workshop/index. 02 The Dog(2008)7. 早上好B Verlieysen,M. :ClasicaticIEEETransacti onsac t i onsoneurnetworksandlearngsystems25(5),8458. Guo,S.,黄伟,Wang,L.,美国,Qiao,Y.:局部监督的深度混合模型,用于搜索引擎。IEEETrans. OnImagegeProocesssingg(TIPs)26,8089. 他,K.,张,X.,Ren,S.,孙杰:图像识别的深度残差学习(2016),cVPR10. H e,K., G.,G., 做吧,P Girshi ck,R. :Maskr-cnn。 In:ICC V. pp.298011. Hong,S.,诺H汉,B.:用于半监督语义段的解耦深度神经网络。 In:NIPS. pp. 149512. 胡,J,Shen,L.,Sun,G.:压缩-激励网络。CVPR(2018)13. I.米斯拉角L. Zitnick,M.M.,Girshick,R.:看穿人类报告偏见:来自嘈杂的以人为中心标签的视觉分类器见:CVPR(2016)14. Ioffe,S.,Szegedy,C.:批量归一化:通过减少内部协变量偏移来加速深度网络训练CoRR abs/1502.03167(2015)15. 江,L.周志,Leung,T.,Li,L.J.,李菲菲:Mentornet:在损坏的标签上正则化非常深的神经网络CoRR abs/1712.05055(2017)16. Larsen,J.,农波湖Hintz-Madsen,M.,Hansen,L.K.:鲁棒神经网络分类器的设计02 The Dog(1998)17. Lee,K.H.,他,X.,张,L.,Yang,L.:Cleannet:迁移学习,用于带有标签噪声的可扩展图像分类器训练CoRR abs/1711.07131(2017)18. 李伟,Wang,L.,美国,李伟,Agustsson,E.,Berent,J.,Gupta,A.,Sukthankar河Van Gool,L.:Webvision Challenge:Visual Learningand Understanding with Web Data.CoRR abs/1705.05640(2017)19. 李 伟 , Wang , L. , 美 国 , 李 伟 , Agustss
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功