没有合适的资源?快使用搜索试试~ 我知道了~
7373MetaCleaner:学习幻觉清晰的表示,用于噪声标记的视觉识别Weihe Zhang张伟1Yali Wang王亚莉1 Yu Qiao<$1,21中国科学院深圳先进技术研究院SIAT-SenseTime联合实验室深圳市计算机视觉与模式识别重点实验室2香港中文大学摘要深度神经网络(DNN)在大规模视觉识别方面取得了显著的成功。然而,他们经常遭受过度拟合下嘈杂的标签。为了缓解这个问题,我们提出了一个概念上简单,但有效的MetaCleaner,它可以学习幻觉一个干净的表示对象类别,根据一个小的嘈杂的子集从同一类别。特别地,Meta- Cleaner由两个灵活的子模块组成。第一个子模块噪声加权,通过联合分析噪声子集中所有图像的深度特征来估计它们的置信度。第二子模块,即清洁幻觉,可以通过将噪声图像与它们的置信度分数进行汇总来从噪声子集生成清洁表示。通过MetaCleaner,DNN可以增强其对噪声标签的鲁棒性,并通过更丰富的数据多样性增强其泛化能力。此外,MetaCleaner可以很容易地集成到DNN的标准训练过程中,这提升了它在现实生活中的应用价值。我们在噪声标记识别中的两个流行的基准上进行了广泛的实验,即,食物-101 N和衣服1 M。对于这两个数据集,我们的MetaCleaner显著优于基线,并实现了最先进的性能。1. 介绍在过去的几年里,视觉识别一直由深度神经网络(DNN)驱动[10,11,32]。然而,这些模型依赖于具有手动注释标签的大规模数据集。收集这些数据集是昂贵或耗时的。或者,一个实用的解决方案是从互联网上自动抓取图像。但是这些网络图像被噪声标记,例如,比萨饼图像通常被收集到牛排类别中。许多研究表明同等贡献的第一作者({wh.zhang1,yl.wang} @ siat.ac.cn)†通讯作者(yu. siat.ac.cn)图1.MetaCleaner。假设在牛排类别中总共有5个图像,其中2个图像被噪声标记,即,汉堡包和比萨饼。在一个训练批次中,我们输入这个类别的随机采样子集(例如,4个图像)转 换 为 DNN , 并 生 成 这 些 图 像 的 语 义 表 示 。 首 先 ,MetaCleaner在特征空间中比较这些表示,这可以发现图像之间的关系,从而生成子集中每个图像的置信度得分。其次,MetaCleaner总结了子集中不同图像的重要性,以产生牛排的这种虚表示可以提高DNN对标记噪声的鲁棒性,并使DNN的容量具有更丰富的数据多样性。这种损坏的标签往往会恶化DNN的分类性能[5,26]。一种解决方案是标签噪声校正[23,42]。然而,这些方法主要在标签空间上工作,这需要混淆矩阵来建立干净标签和噪声标签之间的连接。在实践中,获得大规模数据集的这种静态信息通常是困难的并且是劳动密集型的。为了进一步提高有效性,通过加权[12,15,25]提出了另一种将每个图像的置信度得分分配到相应的训练损失中。然而,这种机制7374i=1可能受到以下限制。首先,独立估计置信度评分[12,25]。因此,它可以忽略该类别中的图像之间的关系,即,降低噪声标签混淆的关键因素。其次,区分硬清洁图像和噪声图像通常具有挑战性。在这种情况下,简单的加权可以通过降低硬清洁图像的重要性来降低数据多样性[12,15,25]。最后,这些方法要么需要复杂的课程学习设计[12],要么需要对清洁/验证集进行额外的监督[15,25]。这可能会限制其在实际应用中的能力。为了解决这些困难,我们提出了一个概念上简单但有效的MetaCleaner,它可以学习hallucinate干净的表示噪声标记的视觉识别。首先,我们提出了一个噪声加权子模块。我们的Noisy Weighting可以将特定类别的一个小的噪声子集中的所有图像进行比较,而不是将每个图像的置信度得分独立地分配到训练损失中。这允许发现图像之间的重要关系,并且因此为子集中的每个图像提供置信度分数的更好估计。 其次,我们引入了一个干净的幻觉子模块,它可以利用子集中不同图像的重要性来总结相应类别的干净表示。通过我们的MetaCleaner,DNN可以提高其对标签噪声的鲁棒性,并以更丰富的数据多样性推广其模型能力。此外,MetaCleaner可以灵活地集成到DNN的标准训练过程中,没有任何困难。这种简洁性大大提高了它在实践中的价值。最后,我们在噪声标记识别中的两个流行基准上评估MetaCleaner食物-101 N和衣服1 M。对于这两个数据集,我们实现了最先进的性能。2. 相关工作噪声标记识别。最近的研究表明,DNN经常遭受过拟合噪声标签[5,26,31]。为了缓解这些问题,已经通过离群值去除[19,29,41],弱/半监督学习[34,40,45,46],知识蒸馏和迁移学习[15,17,18,22],鲁棒损失函数设计[8,21,35,44],标签预测和校正[14,23,24,31,33,36,42],样品重量-[7,12,15,25]等等。一个众所周知的解决方案是标签预测和校正,其中预测的标签被用作DNN的额外训练监督[14,24,33,36],或者通过标签混淆管理器来重建噪声标签[23,31,42]。然而,预测标签的可靠性往往是有限的,并且地面真值混淆矩阵很难获得用于现实生活中的应用。为了提高有效性,最近提出了几种方法,通过加权训练,Meta学习的精神,即,通过课程学习[7,12]、梯度方向[25]、相似性匹配[15]等来学习评估不同图像然而,[7,12]通常需要复杂的培训程序或预定义的课程,这可能会限制其在实践中的应用。此外,[12,25]将每个图像的权重独立地分配到相应的训练损失中,这可能会忽略类别中图像之间的重要关系。[15]通过匹配查询和引用嵌入之间的相似性,可以在一定程度上减轻这种困难然而,这种方法需要额外的验证集作为监督。与现有的方法不同,我们的MetaCleaner可以有效地利用类别的随机子集中不同图像之间的关系,并利用图像的重要性来产生多样化的清洁表示以降低噪声。Meta学习。Meta学习监控自动学习过程本身,在它遇到的学习问题的背景下,并试图调整其行为以执行更好[16]。因此,它也被称为学习。最近,它已经被强调用于优化和初始化[2,4,20],强化学习[38],少数镜头图像识别[9,27,30,37,39]等。特别是,[9,39]和我们的MetaCleaner遵循类似的幻觉见解。然而,[9,39]的目标是少量学习,而我们的MetaCleaner适用于噪声标记的识别。这导致了不同的幻觉机制和训练程序。此外,我们的MetaCleaner分享了[30]中的原型精神。但与原型网络不同的是,我们的MetaCleaner主要开发了一个健壮的分类器来减少嘈杂标签的混淆因此,它自适应地使用加权原型作为3. MetaCleaner本节介绍用于噪声标记图像分类的MetaCleaner我们的方法部分灵感来自人类视觉系统从噪声图像中提取视觉概念的显着能力。认知研究表明,人类可以在无监督和噪声条件下从输入图像中感知和学习新概念[28]。具体来说,人类可以分析输入样本的关系,并识别哪些是可靠的,重要的目标概念。然后,人类可以利用这些知识来总结输入样本,以学习目标概念。为了模拟这个过程,我们引入了一个概念上简单而通用的MetaCleaner,用于在嘈杂的标签下训练深度CNN其关键思想是通过在同一类别中随机采样N个噪声标记图像的一个小子集来产生第k个对象类别的清晰表示vc每个训练样本的损失他们含蓄地继承了血淋淋的,即,V ={vi}N其中,V1可以是特征vec。7375M图2.MetaCleaner的整个框架。它可以模仿人类的学习过程,从对象类别的噪声标记集合中幻觉出干净的表示(例如,牛排)。为了实现这一目标,MetaCleaner由两个子模块组成,即,嘈杂的重量和干净的幻觉。首先,通过比较该集合中的所有表示,使用噪声加权来估计每个图像的重要性。第二,Clean Hallucinating将加权表示总结为用于分类的干净表示。值得一提的是,没有先验知识(即,哪些图像带有噪声标签)是我们的MetaCleaner所必需的。它可以在端到端的学习框架中自适应地抑制噪声标记的图像并突出干净的图像。CNN的记者理想情况下,我们希望MetaCleaner可以识别V中正确标记的样本,并将其表示总结为vc。随后,vc作为用于训练CNN的可靠且丰富的(从多个样本生成的)表示。此外,子集V对于第k个对象类别具有小的大小N因此,可以构造大量的子集(即,其中M是第k个对象类别的训练样本的总数。这允许构建用于学习的多样化vc从数学上讲,我们用以下公式来表达幻觉基于以上分析,我们设计了MetaCleaner,它包括两个模块,用于置信度得分估计的噪声加权,用于干净表示生成的干净幻觉。MetaCleaner的整个框架如图所示。二、3.1. 噪声加权如上所述,噪声加权旨在估计关于vi是否是正确标记的样本的置信度得分αi例如,比萨饼图像被错误地收集到牛排类别中(图1)。2)的情况。为了有效避免混淆,vc=MetaCleaner( V)= E [v·p清洁(v |V)]1991年v·p(v|(1)在学习牛排时,噪声加权应该为披萨图像分配低置信度分数,而对其他牛排图像应用高分。为了实现这一目标,我们建议采用多层ΣNi=1 p清洁 (vi|(五)i=1i清洁i用于置信度分数估计的网络,其中pclean(v|V)是给定子集V的干净表示的条件密度函数。使用上述公式的主要挑战在于如何估计pclean(v|V),因为子集V仅包括少量具有噪声标签的样本。 从统计学上讲,很难用V来估计精确的p。然而,pclean(vi|V)可以被视为样本Vi具有给定子集V的正确标记的置信分数。因此,我们不是估算密度pclean,而是通过直接计算p clean(v i)的值来规避这一困难|V)。[α1,..., αN]=f噪声加权([v 1,..., vN]),(2)其中网络的输入是V中特征向量的级联,输出是预测的置信度分数。注意,f噪声加权通常是非线性映射,其不依赖于特定的训练类别。在我们的实验中,我们研究了这种映射的不同选择,并根据经验发现,一个简单的两层MLP工作得很好。7376此外,虽然样本加权方法[12,737725]已经研究了噪声标签,我们的MetaCleaner在两个方面区分了这些方法。首先,先前的方法独立地估计每个图像的置信度分数评价因素,如训练损失[12],梯度[25]。他们往往忽略了图像之间的关系,即,一个重要的线索来发现噪音标记的混乱。或者,我们的方法应用一个类别的子集作为输入,并利用MLP进行关系比较。因此,它可以通过自适应加权来抑制噪声标签。其次,我们使用置信度得分来构建新的干净样本,而不是用样本的重要性重新加权训练损失[25]。因此,我们的MetaCleaner倾向于用更丰富的数据多样性来概括DNN。3.2. 清洁幻觉在获得子集中的噪声标记图像的置信度分数之后,我们可以通过将这些噪声图像与它们的权重相加来产生 ( 生 成 ) 干 净 的 表 示 。 我 们 将 此 过 程 称 为MetaCleaner中的Clean Hallu-清理子模块。根据等式(1)和等式(2),我们可以得到一个干净的表示vc,αv3.4. MetaCleaner的原型解释MetaCleaner旨在学习从一个类别的噪声子集中产生代表性嵌入。它隐含地继承了原型网络的精神[30],其中类别的聚类中心被用作低射学习的原型。接下来,我们解释这两个Meta学习器之间的联系并澄清它们之间的区别。在Meta训练阶段,两个元学习器都利用深度CNN来生成语义表示。然而,由于学习目标的不同,这两种Meta学习者采用了不同的训练策略.Prototypical Network的目标是低射击学习。因此,它主要是建立一个度量分类器,以减少过拟合,即,该分类器基于查询与每个所选类别的平均表示(原型)的距离,直接分配查询的类概率与原型网络不同,MetaCleaner的目标是噪声标记识别。因此,它估计输入样本的置信度得分,并通过使用这些得分来显示干净的表示在端到端的训练过程中,不同图像的权重可以自适应地调整,以将softmax分类器推广到噪声标记的图像。在Meta测试阶段,原型网络的目标是vc= Σi我iαi(3)在对新类别的测试图像进行分类时,给出这些类别的低拍摄支持集。为了实现这一目标,它将其作为分类器的训练样本3.3. MetaCleaner的培训测试我们的MetaCleaner是一个通用且灵活的模块,可以轻松集成到任何具有小批量SGD训练的深度分类架构中。在训练阶段,我们使用MetaCleaner作为分类器之前的新层对于每个批次,我们随机选择K个类别。然后,对于每个选定的类别,我们随机选择N个示例作为子集。对于每个子集,我们可以使用MetaCleaner为训练创建一个干净的表示。通过这种方式,我们可以为不同批次生成具有可靠标签的多样化样品。此外,当我们执行拼接时,图像表示的顺序在子集中是随机随着批次数量的增加,所有可能的订单都将被枚举。这使得我们的MetaCleaner能够在训练中很好地通用化,避免了特定订单的影响在使用MetaCleaner的幻觉干净特征进行训练后,我们预计softmax分类器已经逐渐推广到学习如何识别图像 中 的 对 象 。 因 此 , 我 们 建 议 在 测 试 阶 段 删 除MetaCleaner层,并将测试样本的特征向量直接输入softmax分类器进行视觉识别。但是,如果测试输入是一个噪声标记的集合(而不是单个样本),仍然可以应用经过训练的MetaCleaner来提高性能。利用支持集生成新类别的原型,并使用基于度量的分类 器识 别 测试 图 像。 或 者,MetaCleaner 旨 在提 高softmax分类器对噪声标签的鲁棒性。因此,在测试阶段,可以将图像的特征向量直接输入softmax分类器进行视觉识别。4. 实验数据集。在本文中,我们主要评估我们的Meta-Cleaner在两个流行的基准噪声标记的视觉识别,即,[15]第101话:吃东西(1)Food-101 N由310 k/25 k训练/测试图像组成大约80%的训练集被正确标记,55 k/5k训练/测试图像包含额外的噪声验证标签。(2)Clothing 1 M由1 M/14 k/10 k训练/验证/测试图像组成,具有14个时尚类别。大约61.54%的列车集被正确标记。此外,还有一个额外的干净训练集,大约有50k张图像,其中大约25k张图像包含干净和嘈杂的标签。由于Food-101 N和Clothing 1 M中的类别是细粒度的,具有很大的混淆,因此它们是噪声标记识别的两个具有挑战性的实施详情。除非另有说明,我们执行MetaCleaner如下。首先,我们使用ResNet50作为CNN骨干。对于每个图像,我们生成语义表示(在全局池化之后),即,第2048章-第一次7378方法食品-101N服装1M基线81.4468.94MetaCleaner82.5272.50表1. 基线与MetaCleaner。Baseline是没有MetaCleaner的标准CNN。操作食品-101N服装1M恒定81.2470.41注意信号81.4471.08注意力指数81.7870.68FC-FC-Sig82.0971.15FC-FC-ReLU-Sig82.5272.50FC-ReLU-FC-ReLU-Sig82.1871.67表2. 噪声加权。(I)常数我们为小子集中的每个图像分配重要性得分αi= 1。在这种情况下,Eq. (3)作为噪声标记表示的平均值减少。(II)关注我们使用两种广泛使用的注意力机制作为加权操作,即,αi =Sigmoid[a·tanh ( Wvi+b ) ] 和 αi=Exp[a·tanh(Wvi+b)]。(III)的fc我们使用FC层作为加权操作。以来αi是置信度得分,我们在最后一层使用sigmoid(Sig)作为软门。此外,我们还探讨了ReLU在不同层中的作用。更多解释见第4.1节。操作食品-101N服装1M(I)丢失重新称重78.7768.89(II)幻觉82.5272.50表3. 干净的幻觉。(I)减重。由于αi是每个图像的置信度得分,因此我们将αi乘以相应图像的训练损失以进行重新加权。(II)幻觉。它是Eq中的幻觉表示。(3),其是原始表示的加权和如所料,(二)出-执行(I)。实验结果表明,该方法对噪声标签具有更好的鲁棒性。真向量噪声加权中的神经网络结构是两层的,即,FC-FC-ReLU-S 形 。 第 一 FC 层 的 输 入 / 输 出 尺 寸 为N×2048/384(食物-101N),N×2048/512(衣物1 M)。 输入/第二FC层的输出维度为384/N(食品-101 N ) , 512/N ( Clothing1M ) 。 对 于 Food-101N/Clothing 1 M,MetaCleaner中的小子集N的大小为每个类别4/4,批次大小为480/256。其次,对于这两个数据集,我们只使用噪声标记的训练集来训练我们的模型,并报告测试集的分类准确率第三,我们通过PyTorch实现我们的网络,其中我们使用标准SGD,动量 为 0.9 , Food-101 N/Clothing 1 M 的 权 重 衰 减 为0.001/0.005。初始学习率为0.01. 在每20/5个时期将其除以10,并且对于Food-101 N/Clothing 1 M,训练过程以80/20个时期完成4.1. 消融研究为了研究我们的MetaCleaner的属性,我们主要评估其关键模型子模块。为了公平起见,当我们探讨一个子模块的不同策略时,其他子模块在实现细节上都采用基本策略基线与MetaCleaner。首先,我们比较一下带有基线的MetaCleaner,即, 标准的CNN,在 MetaCleaner 如 表 1 所 示 , MetaCleaner 显 著 优 于Baseline,显示了MetaCleaner的重要性。噪声加权。我们调查不同的加权运算的噪声加权。(I)常数我们不使用任何权重操作,并为小组中的每个图像分配重要性得分αi=1 在这种情况下,Eq. (3)作为噪声标记表示的平均值减少。(II)关注我们使用两个广泛使用的注意力机制作为加权操作。 注意力sig和注意力exp分别为公式化为即,αi=Sigmoid[a·tanh (Wvi+b)]和αi=Exp[a·tanh (Wvi+b )],参数集{a∈R1×384,W∈R384×2048 , b∈R384×1} ( 对 于 Food-101 N ) ,{a∈R1×512,W∈R512×2048,b∈R512×1}(对于服装-1 M。(III)的fc我们用FC层作为重量-ing操作。由于αi是重要性得分,因此我们在最后一层中使用sig-moid(Sig)作为软门。此外,我们还探讨了ReLU在不同层中的作用结果示于表2中。首先,注意力设置优于恒定设置。这说明,在实现干净的表示之前,有必要第二,FC设置--一般执行注意设置。主要原因是,注意力的输入是每个图像的个体表征。因此,它可能缺乏发现不同图像之间关系的能力。或者,FC的输入是子集中所有表示的级联。因此,FC层可以通过相似性比较来产生不同图像的重要性。最后,我们研究FC层中的ReLU。在表2中,FC-FC-ReLU-Sig优于FC-FC-Sig。主要原因是,Food-101 N和Clothing 1 M经常表现出细粒度特征,即,许多噪声标记的图像看起来类似于类别中的干净标记的图像。换句话说,噪声标记图像的重要性αiFC-FC-ReLU- Sig的设计允许αi在0.5到1的范围内,这合理地考虑了噪声标记图像的重要性。相反,FC-FC-Sig的αi的神经网络往往会低估噪声标记图像的 重要性。此外,FC-FC-ReLU-Sig优于FC-ReLU-FC-ReLU-Sig。这可能是因为第一层用于降维,这可以通过线性变换有效地实现。干净的幻觉。我们探索不同的幻觉7379图3.批次大小子集大小。注意,批次大小=子集大小×批次中抽样类别的数量,即,批量大小必须被子集大小精确地划分在这种情况下,当我们改变子集大小时,我们必须稍微改变批量大小第一,使用时在大多数情况下,可比较的批量大小、具有不同子集大小的性能往往具有显著的波动因此,子集大小对于噪声标记识别可能更重要其次,子集大小与噪声水平密切相关Clothing 1 M的噪声水平(约40%)高于Food-101 N的噪声水平(约20%)。因此,Clothing 1 M需要比Food-101 N更大的子集大小在图4中,我们进一步研究了子集大小和噪声水平之间的关系。图4.噪音水平。具体来说,我们在原始Food-101数据集的标签上添加随机噪声。正如预期的那样,当噪声水平较高时,较大的子集大小允许产生更鲁棒的表示,并且显著提高准确性。更多解释见第4.1节。运营(I)减重。由于αi是每个图像的置信度得分,因此我们将αi乘以相应图像的训练损失以进行重新加权。(II)幻觉。它是Eq中的幻觉表示(3),这是原始表示的加权和。正如预期的那样,所提出的幻觉优于表3中的Loss Reweight。它说明,噪声代表的加权和,感知对噪声标签更鲁棒。批次大小子集大小。&我们在MetaCleaner中研究了两个重要的超参数,即,子集大小和批量大小。请注意,当探索不同大小的子集时,我们应该固定批量大小。但是,批次大小=子集大小×批次中抽样类别的数量批量大小必须被子集大小精确地划分。 在在这种情况下,当我们改变子集大小时,我们必须稍微改变批量大小。结果示于图3. 首先,当使用相同的子集大小值时,不同批量大小的性能往往是相当的。相反,当使用批量大小的可比值时,不同子集大小的性能差异很大。说明了子集大小对带噪识别的重要性.其次,子集大小往往在数据集之间是不同的,即,Food-101 N/Clothing 1 M的最佳性能为2/4这一观察结果表明,子集大小可能与噪声水平密切相关如数据描述中所述,布料的噪声水平-ing 1 M(约40%)高于Food-101 N(约20%)。因此,Clothing1M需要比食品-101 N。接下来,我们进一步研究了子集大小与噪声水平之间的关系。噪音水平。为了研究噪声水平的影响,我们在原始Food-101 [1]数据集上添加随机噪声。例如,20%的噪声水平表示,我们均匀采样20%的训练集,并随机将正确的标签翻转到另一个类别中。结果示于图4,其中所有病例的批量为480。首先,当噪声水平较低时,性能趋于比较低。7380方法数据ACCSoftmax [15]食品-10181.67Softmax [15]食品-101N81.44弱监督[46]食品-101N83.43CleanNet(硬)[15]食品-101 N +VF(55 k)83.47CleanNet(wsoft)食品-101 N +VF(55 k)83.95方法数据ACC基线[25]嘈杂67.97[24]第二十四话嘈杂69.66S-Model [6]嘈杂70.64[第12话]嘈杂76.60重锤[25]Noisy+Clean(1k)86.92我们的MetaCleaner嘈杂90.09表4.与最新技术水平(Food-101 N)进行比较。VF(55k)是CleanNet中使用的噪声验证集[15]。方法数据ACCSoftmax [23]噪音1M68.94[23]第二十三话噪音1M69.84弱监督[46]噪音1M71.36[33]第三十三话噪音1M72.23我们的MetaCleaner噪音1M72.50CleanNet(硬)[15]噪音1M+清洁(25k)74.15CleanNet(wsoft)噪音1M+清洁(25k)74.69我们的MetaCleaner噪音1M+清洁(25k)76.00CleanNet(wsoft)噪音1M+清洁(50k)79.90[23]第二十三话噪音1M+清洁(50k)80.38我们的MetaCleaner噪音1M+清洁(50k)80.78表5.与最新技术水平(Clothing1M)的比较。Clean(25k)在CleanNet [15]中用于获取验证集。为了保持相同的数据设置,我们在1M嘈杂的训练集上训练我们的MetaCleaner此外,我们在Noise1M+Clean(50k)设置上实现了最先进的性能,即使其他方法使用额外的验证标签[15],额外的标签混淆信息[23]。在不同的子集大小之间是可接受的。 但是,具有图像子集的情况仍然优于具有单独图像的情况(子集大小=1),即,没有MetaCleaner的基线。例如,(子集大小=3)的准确度在20%噪声设置中最好它的性能优于基线(子集大小=1,acc:80.11%)。这一观察结果表明,小图像集的幻觉对于噪声标记的识别是重要的。其次,当噪声水平较高时,较大的子集大小允许产生更鲁棒的表示,并显着提高准确性。4.2. 与最新技术为了公平起见,我们的比较基于相同的CNN主干,即 , 所 有 方 法 都 建 立 在 ResNet 50 ( 用 于 Food-101N/Clothing 1 M/ ImageNet)和WideResNet-28-10(用于CIFAR-10)上。食品-101 N。如表4所示,MetaCleaner的性能明显优于 softmax 基 线 。 更 重 要 的 是 , 它 优 于 最 先 进 的CleanNet [15],使用额外的55k噪声验证图像。它显示了MetaCleaner对噪声标签的鲁棒性。7381表6.与最新技术水平(Cifar-10)的比较。我们为Cifar-10执行MetaCleaner,通过添加40%的噪声比和均匀翻转[25]。服装1M.我们主要在表5中根据不同训练集的使用情况进行比较。首先,当仅使用1 M噪声训练集时,我们 的 Meta- Cleaner 略 微 优 于 最 先 进 的 JointOp- tim[33]。但我们声称,我们的MetaCleaner的训练过程是CNN的标准优化,而JointOptim需要一个交替的优化过 程 , 并 进 行 仔 细 的 正 则 化 。 因 此 , 我 们 的MetaCleaner是一种更实用的噪声标记识别解决方案。其次,我们将MetaCleaner与CleanNet [15]进行了比较,后者需要25k个干净的图像才能获得验证集。为了保持相同的数据设置,我们在1M嘈杂的训练集上训练我们的MetaCleaner,然后在25k干净的图像上对 其 进 行 微 调 在 表 5 中 , 我 们 的 MetaCleaner 优 于CleanNet , 显 示 了 其 有 效 性 。 最 后 , 我 们 将MetaCleaner与不同的方法进行了比较,其中所有干净的训练集都是可用的。和以前一样,我们在1M嘈杂的训练集上训练我们的MetaCleaner,然后在50k干净 的 图 像 上 对 其 进 行 微 调 正 如 人 们 所 看 到 的 ,MetaCleaner在此设置中实现了最先进的性能,即使其他方法使用额外的验证标签[15],额外的标签混淆信息[23]。Cifar-10我们在Cifar-10上执行MetaCleaner[13],通过均匀翻转增加40%的噪声比[25]。我们使用与[25]相同 的 主 干 ( WideResNet-28-10 , dropout 0.3 ) 。 此外,在使用MetaCleaner进行训练后,我们将其卸载并进一步微调CNN以进行特征泛化。如表6所示,我们的MetaCleaner优于所有最先进的方法。此外,它优于[25],后者使用了额外的干净数据集(1k)。这说明MetaCleaner对噪声标签更鲁棒。ImageNet.我们在ImageNet上执行MetaCleaner[3],通过均匀翻转添加40%的噪声比。在使用MetaCleaner训练之后,我们卸载它并进一步微调CNN以进行特征泛化。ResNet 50在不使用/使用MetaCleaner的情况下,前1名的准确率为66.47 / 69.12。它进一步展示了MetaCleaner在大规模噪声标记识别方面的强大功能。7382Σ图5.可视化。我们展示了子集中不同图像的重要性,其中我们展示了归一化得分αi/(iαi)在EQ中产生幻觉 (三)、一方面,我们的MetaCleaner可以有效地降低噪声标记图像的负面影响,降低这些图像的重要性分数。另一方面,我们的MetaCleaner可以感知Food-101 N和Clothing 1 M的细粒度特征,即,带噪声标记的图像看起来与干净的图像相似。因此,它可以合理地为这些图像分配较低的分数,但不会完全删除它们的贡献。4.3. 可视化我们可视化的重要性,不同的图像中的s的子集,在那里我们证明了归一化的分数A/D转换器(iαi)对于等式中的幻觉, (三)、 结果示于图5.一方面,我们的MetaCleaner可以通过降低这些图像的重要性得分,有效地降低噪声标记图像的负面 影响 。 另一 方 面, 我 们 的MetaCleaner 可 以感 知Food-101 N和Clothing 1 M的细粒度特征,即,带噪声标记的图像看起来与干净的图像相似。因此,它可以合理地为这些图像分配较低的分数,但不会完全删除它们的贡献。5. 结论在本文中,我们提出了一个灵活的MetaCleaner,它可以学习幻觉干净的表示噪声标记的视觉识别。它主要由两个子模块组成.首先,Noisy Weighting比较类别的随机采样图像子集中的语义血淋淋的通过利用图像之间的关系,它可以估计每个图像在子集中的重要性。然后,Clean Hallucinating通过考虑不同图像表示的权重来总结干净的表示。因此,我们的MetaCleaner可以提高DNN对噪声标签的鲁棒性。更重要的是,它可以通过更丰富的数据多样性和变化来概括DNN的容量我们主要在Food-101 N和Clothing 1 M上评估MetaCleaner在未来,进一步研究MetaCleaner的理论方面将是有趣的,例如[43]中的邻近风险最小化。鸣 谢 。本 工 作 得 到 了 国 家 自 然 科 学 基 金( 61876176 ) 、 深 圳 研 究 计 划 ( JCYJ20150925163005055,CXB 201104220032A)、联合实验室(国家发展和改革委员会资助的机器人与智能制造2015581)。7383引用[1] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议[2] 陈 宇 天Matth e wW. 何 福 福 曼 ,作 者 :Go'mezColmenarejo,Misha Denil,Timothy P. Lillicrap,Matt Botvinick,and Nando de Freitas.学习用梯度下降来学习无梯度下降.在Doina Precup和Yee Whye Teh,编辑,第34届国际机器学习会议论文集,机器学习研究论文集第70卷,第748PMLR。[3] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[4] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML,2017。[5] 伯努瓦·弗雷奈和米歇尔·维尔莱森。标签噪声存在下的分类研究综述。IEEE Transactions on Neu- ral Networksand Learning Systems,2014。[6] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。2017年。[7] Sheng Guo , Weilin Huang , Haozhi Zhang , ChenfanZhuang,Dengke Dong,Matthew R.斯科特和黄定龙Cur- riculumnet:大规模网络图像的弱监督学习。在ECCV,2018。[8] Bo Han,Ivor W.曾,凌尘。关于随机梯度下降鲁棒损失族的收敛性。在ECML/PKDD,2016年。[9] Bharath Hariharan和Ross B.娘娘腔。通过缩小和幻觉特征进行低镜头视觉识别。2017年IEEE计算机视觉国际会议(ICCV),第3037-3046页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在 arXiv :1512.03385,2015。[11] 高煌,刘庄,劳伦斯·范德马腾,和Kilian Q.温伯格密集连接的卷积网络。在CVPR,2017年。[12] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei. Mentornet:在损坏的标签上学习数据驱动的深度神经网络课程。在ICML,2018。[13] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。2009年[14] 李东贤伪标签:简单高效的深度神经网络半监督学习方法。2013.[15] Kuang-Huei Lee,Xiaodong He,Lei Zhang,and LinjunYang. Cleannet:迁移学习,用于带标签噪声的可扩展图像分类器训练。在CVPR,2018年。[16] Christiane Lemke,Marcin Budka,and Bogdan Gabrys.满足学习:对趋势和技术的调查。人工智能评论,2015年。[17] Yuncheng Li ,Jianchao Yang ,Yale Song, LiangliangCao,Jiebo Luo,and Li-Jia Li.用蒸馏从噪声标签中学习。在IEEE International Conference on Computer Vision(ICCV),2017年10月。[18] 或者连塔尼和丹尼尔·弗里德曼。Soseleto:一个统一的方 法 来 转 移 学 习 和 训 练 与 嘈 杂 的 标 签 。 CoRR ,abs/1805.09622,2018。[19] Wei Liu,Gang Hua,and John R.史密斯无监督单类学习自动剔除离群点。在IEEE计算机视觉和模式识别会议(CVPR)上,2014年6月。[20] Dougal Maclaurin,David Duvenaud,and Ryan Adams.通过可逆学习的基于梯度的超参数优化。在FrancisBach 和 David Blei , 编 辑 , Proceedings of the 32 ndInternational Conference on Machine Learning,第37卷Proceedingsof Machine Learning Research,第2113-2122页,Lille,France,2015年7月7日至9日。PMLR。[21] Volodymyr Mnih和Geoffrey E.辛顿学习从噪声数据中标记航空图像。InICML,2012.[22] Li Niu , Qingtao Tang , Ashok Veeraraghavan , andAshutosh Sabharwal.基于类别级监督的噪声数据学习. 在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月。[23] Giorgio Patrini , Alessandro Rozza , Aditya KrishnaMenon,Richard Nock,and Lizhen Qu. 使深度神经网络对标签噪声具有鲁棒性:损失修正方法。在CVPR,2017年。[24] 斯科特·E. Reed,Honglak Lee,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功