没有合适的资源?快使用搜索试试~ 我知道了~
2219基于注意力的丢弃层弱监督目标定位Junsuk Choe和HyunjungShim韩国延世大学综合技术学院{junsukchoe,kateshim}@ yonsei.ac.kr摘要弱监督对象定位(WSOL)技术仅使用图像级标签学习对象位置,而不使用位置注释。这些技术的一个共同的局限性为了解决这个问题,我们提出了一个基于注意力的丢弃层(ADL),它利用自注意力机制来处理模型的特征图。所提出的方法由两个关键部分组成:1)从模型中隐藏最具鉴别力的部分以捕获对象的完整程度,以及2)突出信息区域以提高模型的识别能力。实验结果表明,该方法能有效提高WSOL的定位精度,在CUB-200-2011数据集上实现了新的定位精度。我们还表明,提出的方法是更有效的参数和计算开销比现有的技术。1. 介绍弱监督对象定位(WSOL)旨在仅使用图像级标签而不是位置注释来识别场景中对象的位置。现有的方法挖掘和跟踪用于对象检测的每个类别的区别特征[45,36,37,9,45,25,21,41,19,2,39,15,63,7,5,4,48,14,65,32,31,58,62,8,6]和以下各节-心理学[33,29,18,16,24,52,50]。因为每个对象部分的辨别能力与另一个不同,所以这些技术倾向于仅识别目标对象的最有辨别力的部分,而不能覆盖对象的整个范围。例如,在人的情况下,面部可能比由于衣服而外观发生显著变化的身体更具辨别力。在这种情况下,现有的WSOL技术只能定位面部,而不是整个区域。这个问题在对象定位中可能是关键的。具体来说,类激活映射(CAM)[63]利用*通讯作者。卷积神经网络(CNN)分类器,用于学习判别特征。其核心思想是,具有合理精度的换句话说,区分特征应该与对象区域共现从这个想法出发,他们通过跟踪特征响应的空间分布来执行定位不幸的是,分类器往往只关注最具鉴别力的特征,以提高其分类精度。因此,特征响应的空间分布也倾向于仅覆盖对象的最具辨别力的部分,这导致局部化准确度降低。最近,已经提出了各种技术[49,35,17,59,20,52,51,60]来解决这个问题。他们中的大多数这些技术类似于dropout [38],因为它们通过在训练阶段将特征图的特定节点这就防止了模型仅仅依赖于最具区分性的部分进行分类,而是鼓励它学习区分性较低的部分。为了实现这一目标,Hide-and-Seek(HaS)[35]将输入图像划分为网格状的块,并随机选择要擦除的块。虽然随机选择是简单和快速的,但它不能有效地删除最有区别的部分。为了有效地去除最具鉴别力的部分,已经提出了几种技术[49,17,59,20]这些技术多次重新训练模型[49,17],使用额外的分类器[17,59],或者每一次迭代执行两次前向-后向传播[20]以找到最具鉴别力的部分。因此,需要大量的额外计算资源来有效地消除最具区分性的从以前的方法,我们得出结论,擦除的想法,只有最具歧视性的部分是有效的,以捕捉对象的全部范围。然而,现有的方法需要大量的计算资源来准确地去除最具鉴别力的部分。我们的目标是以有效和高效的方式消除为此,我们提出了一个基于注意力的丢弃层2220图1.ADL框图。自注意力图是由输入特征图的通道平均池化生成的基于自注意图,我们分别使用阈值和使用S形激活的重要性图来产生丢弃掩模。在每次迭代时随机选择丢弃掩码和重要性图,并将其应用于输入特征图。请注意,此图说明了选择重要性图的情况。(ADL)是一种轻量级但功能强大的方法,它利用自注意机制去除目标对象中最具鉴别力的具体地,通过对输入特征图执行通道平均池化来获得自注意力图基于自我注意图,我们产生了ADL的两个关键组成部分,丢弃掩码和重要性图。丢弃掩码用于在训练期间隐藏最具鉴别力的部分。这导致模型也学习较少区分的部分。我们通过对自注意图进行阈值化来获得这个下降掩模。利用重要度图突出信息区域,提高模型的分类能力。由于重要性图,可以产生更准确的自我注意力图通过将S形激活应用于自注意力图来计算重要性图。在训练期间,在每次迭代中随机选择丢弃掩码或重要性图中的任一个,然后通过空间乘法将所选择的一个应用于输入特征图图1示出了所提出的方法的框图。与现有的WSOL技术相比,所提出的方法是更有效的计算和参数开销。这是因为我们可以通过单个模型中的单个前向-后向传播找到并删除最具鉴别力的区域。此外,无论模型架构如何,ADL都可以很容易地应用于模型的卷积特征图,以提高定位精度。与现有的自注意力技术[46,12,26,53]相比,所提出的方法非常轻量级,因为没有用于提取自注意力图的额外可训练参数所提出的方法是轻量级和高效的,也报告了出色的精度。定量地,所提出的方法实现了优越的准确性,超过CUB-200-2011数据集[44]上现有最先进技术[59,60]的准确性提高了15%-年龄点,并且与当前最先进技术[44]的准确性相当。技术[60]在ImageNet-1 k数据集上[30]。我们还观察到定性评价的一致结果;具有ADL的模型比香草模型更好地学习了较少的区分部分[63]。2. 相关工作辍学生Dropout [38]是一种正则化技术,用于消除神经网络中的过拟合。具体来说,dropout通过在训练阶段将神经网络的每个隐藏节点随机归零来丢弃信息这样,网络就可以享受小子网的集成效果,从而达到良好的正则化效果。然而,与全连接层不同,对卷积特征映射应用dropout并不有效。其中一个原因是空间相邻的像素在卷积特征图上是强相关的;它们共享冗余的上下文信息。因此,传统的基于像素的丢弃不能完全丢弃卷积特征图上的信息[42]。为了将dropout应用于卷积特征图,Tompson et al.[42]提出了SpatialDropout,随机丢弃特征图的部分通道,而不是丢弃每个像素。基于此通道的丢失,像素级丢失的问题可以得到解决。该方法与SpatialDropout方法的不同之处在于,我们只丢弃强激活区域,而不是丢弃整个通道区域。由于这种基于区域的丢失,我们也可以绕过像素级丢失的问题。同时,Park和Kwak[27]提出了MaxDrop,它在特征图上通过通道或空间方式丢弃最大激活像素与MaxDrop类似,所提出的方法丢弃了强激活部分。然而,我们与MaxDrop的不同之处在于,我们使用注意力机制来找到最大激活的部分。此外,该方法不丢弃最大激活像素,而是丢弃最大激活区域。2221注意力机制。人类选择性地使用数据的重要部分来做出决策[3,13]。类似地,当查询进入时,人工模型不会平等地处理所有数据,而是只关注重要数据。这个过程被称为注意力机制,并积极用于各种领域,如机器翻译[43],图像字幕[55],图像修复[56,23],迁移学习[57],视觉问答[64]和生成模型[28,60]。当查询本身是输入时,这种注意被专门称为自我注意,这是有效的学习有意义的表示进行给定的任务。例如,在分类任务的情况下,自我注意力图以强调用于分类的信息特征的形式出现(例如,目标对象的最有区别的部分)。最近,各种方法[46,47,12,26,53]利用自注意机制来提高地图,他们扮演相反的角色。放置遮罩惩罚最有区别的部分,以诱导模型覆盖对象的完整范围同时,重要性图奖励最具鉴别力的部分,以提高模型的分类能力在训练期间,丢弃掩码或重要性图被随机选择用于每次迭代。然后,所选择的一个被应用到输入特征图。通过随机应用每个组件,我们可以同时享受它们的优点。ADL有两个主要的超参数:下降率和γ.丢弃率指示丢弃遮罩的应用频率,γ控制要丢弃的区域的大小。每个组件的示例如图2所示。具体地,ADL的输入是卷积特征映射FRH×W×C。注意,C是通道的数量,H和W分别是高度和宽度。为了简单起见,我们在这个表示法中省略了mini-batch维度我们-CNN分类模型。 剩余注意力网络绘制自我注意力地图att 通过压缩实现RH×W(RAN)[46]提高了分类的准确性使用3D自我注意力地图的模型。然而,参数开销是非常大的,因为没有任何压缩的原始特征图用于注意力提取。挤压和激励(SE)[12]仅使用1D通道自注意图提高了分类模型的准确性。为了提取自我注意力地图,F使用通道平均池化。因为模型是为了分类而训练的,所以自注意力图中每个像素的强度与区分能力成正比。通过这种方式,我们可以有效地近似最有区别的部分的空间为了获得跌落掩模,我们首先通过以自我注意的最大强度的比率γ为前缀来设置跌落阈值首先使用全局平均值压缩特征图池化(GAP),然后通过2层MLP。在地图然后,我们产生滴掩模M滴公司简介这样,与RAN相比,SE可以显著减少用于注意力提取的参 数开 销。 然而,参 数开 销仍 然不 可忽 略( 例如,,ResNet50上的10%[10])。瓶颈注意力模块(BAM)[26]和卷积块注意力模块(CBAM)[53]通过利用1D通道和2D空间自我注意力图来提高分类器的准确性。他们使用辅助卷积层计算空间自我注意力图。将计算出的自注意图应用于输入特征图以奖励信息区域。同样,所提出的方法使用重要性图来奖励信息区域。然而,与它们的关键区别在于,我们使用下拉掩码随机惩罚该区域。与这些技术不同的是,如果大于下降阈值,则将每个像素设置为0,如果小于下降阈值,则将每个像素设置为1。也就是说,液滴掩模对于最有区别的区域具有0,而对于其他区域具有1。注意,要丢弃的区域的大小随着γ减小而增大,反之亦然。通过空间乘法将放置遮罩应用于输入特征图通过这种方式,我们可以从模型中隐藏最具鉴别力的部分;我们鼓励模型学习用于分类的较少区别的部分,但是学习用于定位的有意义的区域。然而,如果在每次迭代时应用丢弃掩码,则在训练阶段期间永远不会观察到最具区分性的部分。结果,模型的分类精度显著降低,这不利地影响定位精度。为了解决这个问题,我们根据掉落率随机应用掉落遮罩。如果未应用拖放蒙版,则会应用重要性贴图。我们-不需要额外的可训练参数来提取自我注意地图评价重要性图MImp从自我角度看H×W3. 基于注意力的辍学层在本节中,我们将详细介绍所提出的方法,即基于注意力的丢弃层(ADL)。将ADL应用于分类模型的每个特征图上,并引入模型学习对象的整个区域。ADL从输入的特征图生成一个自我注意力图尽管这两个分量都是从自我注意力中使用sigmoid激活的注意力地图。 也就是重要性图中的每个像素的强度对于最具辨别力的区域接近1,而对于较不具辨别力的区域接近0与放置遮罩一样,重要性图通过空间乘法应用于输入特征图。通过这种方式,我们可以提高模型的分类精度。所提出的方法独立地应用于每个卷积特征图。因此,它可以很容易地插入到现有分类的多个特征图2222图2.在VGG-GAP的每一层上丢弃掩码和自我注意力图[63]。在较低级别的层中,自注意力图包括一般特征,而类特定的特征包括在较高级别层的自注意力图中。液滴掩膜还在更高级别的层中更有效地擦除大多数辨别部分。请注意,为了更好的可视化,液滴蒙版与输入图像重叠。因为重要性地图的分布与自我注意力地图的分布非常相似,所以我们没有将其可视化。提高定位精度的模型。 此外,它不需要任何可训练的参数。这意味着,即使同时应用于多个特征图,也没有参数开销此外,使用ADL,可以有效地识别和删除最具区分力的区域,而无需辅助分类器[17,59],重新训练[49]或额外的前向-后向传播[20]。ADL是仅在训练期间应用的辅助模块在测试阶段,ADL被停用。也就是说,我们的测试阶段与vanilla模型的测试阶段相同。因此,可以使用各种热图提取方法[63,31,59,20]来执行对象定位,而无需花里胡哨。请注意,我们不像其他基于丢弃的WSOL技术那样补偿训练和测试之间的不同分布[17,35,59]。与其他注意力提取方法的关系。我们的提取方法不需要可训练的参数,与现有方法相比非常轻量级[46,12,26,53]。因此,人们可能想知道我们的方法如何能够产生语义上有意义的结果,尽管它很简单。最近,Zagorukyo和Komodakis [57]表明,可以通过将channelwise pooling应用于卷积特征映射来识别迁移学习的信息区域也就是说,用于迁移学习的自注意力映射是通过逐通道池化来获得的。受此启发,CBAM[53]利用自我注意力图来提高分类精度。具体来说,他们使用辅助卷积层和sigmoid激活来细化地图这种改进的自注意力映射通过空间乘法应用于输入特征映射。以这种方式,辅助卷积层被训练以细化自注意力图,用于提高分类准确度。然而,从实证研究中,我们观察到,自我注意力地图可能不需要细化的辅助层。我们推测这是因为CNN模型中现有的卷积层足够强大,可以产生有意义的自我注意力图。因此,在通过通道平均池化计算自注意力图之后,我们使用sigmoid激活来规范化该图,然后将其乘以输入特征图。然后,来自损失函数的梯度更新现有的卷积层,使得所得的自注意力图对于提高分类准确性是有用的。例如,如果自注意力图未能突出对象区域,则这可能降低分类精度。因此,现有的卷积层被训练以产生更准确的自我注意力图。这相当于将CBAM中使用的辅助卷积层的角色分配给模型中的现有请注意,Lin等人引入了类似的原理。[22];他们用GAP层取代CNN分类器的全连接层。我们的注意力方法在分类精度上的提高然而,我们的方法是更有效的,可以产生足够有意义的结果,为我们的应用。这在我们的实验结果中得到了证明;我们的自我注意力图可以有效地提高分类精度,并识别目标对象中最具鉴别力的部分。丢弃掩码和重要性映射之间的关系。 在我们的模型中,丢弃掩码惩罚最具鉴别力的人们可能会认为丢弃掩码和重要性映射是互斥的。然而,我们的实验结果支持它们不是相互排斥的。我们认为这是因为重要性图可以准确地产生具体地,随着重要度图提高分类精度,可以产生更精确的自关注度图。因此,放置掩模可以更有效地擦除对象的最有区别的区域。分类与定位的关系。 先前的研究[35]已经报道,当定位精度在皱了皱。他们推测这是由于使用了一个下降的面具。因为我们也是用一个下拉蒙版来擦除最有辨别力的部分,这样一个取舍关系2223图3. VGG-GAP [63]在CUB-200-2011和ImageNet-1 k上的定性评估结果。每个图中的左侧图像是输入图像。红色边界框是地面实况,而绿色边界框是估计值。中间的图像是热图,右边的图像显示了输入图像和热图之间的重叠我们还比较了我们的方法和香草模型并排。在我们的实验中一致地观察到定位的准确性和分类的准确性之间的差异。然而,所提出的方法可以使用重要性图来提高分类能力,因此分类的准确性下降不像其他技术那样显著。与当前最先进技术的关系。目前最先进的WSOL技术是对抗性补 充学习 (ACoL)[59]和自 我生成 指导(SPG)[60]。ACoL在主干特征提取器上并行地添加了两个辅助分类器,用于找到目标对象的最具区分力的部分该方法与ACoL的不同之处在于,我们可以找到最具鉴别力的部分,而无需额外的分类器,这是更有效的。最近,SPG被提出,这是一种新的WSOL技术,它利用了对象和背景的空间分布分类器可以使用该分布作为辅助监督来学习对象的完整范围。所提出的方法不同于SPG,因为SPG不会擦除对象的最有区别的此外,SPG需要大量的计算资源来提高定位精度。4. 实验结果数据集。我们在CUB-200-2011 [44]和ImageNet-1 k [30]中评估了所提出方法的性能。ImageNet-1 k是一个大规模的数据集,包含1,000个不同的类,由大约130万张训练图像和50,000张验证图像组成对于这个数据集,我们使用训练集训练模型,并使用验证集评估性能。CUB-200-2011包括200种鸟类,包括5,994张训练图像和5,794张测试图像。对于这个数据集,我们使用训练集训练模型,并使用测试集评估性能。CUB-200-2011的类内变异比ImageNet-1 k小,因为这个数据集的所有类都属于鸟类。在这种情况下,最具区别性的区域的范围可能相当小。例如,在普通乌鸦和白颈乌鸦中,除了脖子的颜色外,外观上也就是说,最有区别的部分是颈部,与颈部相比,颈部非常小鸟的整个区域。因此,尽管CUB-200- 2011不是像ImageNet-1 k那样的大规模数据集,但这是一个特别具有挑战性的数据集。实作详细数据。 我们使用VGG[34],ResNet [10],MobileNetV1 [11]和InceptionV3 [40]作为骨干网,工程.请注意,根据[63],我们将VGG16的最后一个池化层和两个全连接层替换为GAP层我们还使用定制的InceptionV3作为主干,遵循SPG [60]。我们将SE块[12]插入ResNet50,以证明ADL与其他自我注意方法的兼容性。对于ResNet和Mo-bileNetV1中,我们将最后一个步幅卷积的步幅设置为1,以将热图的空间分辨率提高到14×14。ADL插入CNN模型以顺序方式; ADL的输出是下一层的输入。我们使用一个预先训练好的模型,该模型是用ImageNet-1 k数据集[30]训练的,然后对网络进行微调。我们使用CAM从分类模型中提取热图[63]。此外,使用与[63]中相同的方法从热图中提取边界框。我们使用Tensorpack [54]在Ten- sorflow [1]上实现模型,并使用NVIDIA Titan XpGPU对其进行训练基于广泛的消融研究,我们发现将ADL应用于网络的中级和高级层是特别地,对于中间层,优选将其施加到瓶颈部分(例如,池化层或跨步卷积)。我们设定的下降率为75%。对于丢弃阈值,我们将VGG-GAP和InceptionV 3的γ设置为80%然而,这里提到的超参数只是推荐的设置。注意,当使用最佳设置时,可以进一步提高定位精度。指标. 我们使用三个评估指标[35]:Top-1分类准确度(Top-1 Clas)、具有已知地面实况类的定位准确度(GT-已知Loc)和Top-1定位准确度(Top-1 Loc)。Top-1 Clas在估计类等于地面真值类时确定答案正确。当地面实况边界框和地面实况类的估计框之间的交集(IoU)为50%或更大时,GT已知Loc判断答案为正确。最后,Top-1 Loc认为,当Top-1 Clas和GT-2224面罩脱落(%)重要性图(%)GT-已知Acc(%)前1类(%)前1个位置(%)应用特征图GT-已知接入(%)前1类(%)前1个位置(%)100072.4357.3744.11752574.7862.2549.69505071.5164.9349.33257567.2968.9947.98010047.5167.7832.24N/A51.09 67.5534.4175N/A73.2361.5547.67N/A2550.6268.5033.91752574.7862.2549.69表1.上限:根据跌落率的准确度。中间:基线精度.较低:每个组件已停用时的准确度。粗体文本表示最佳定位精度,而斜体文本表示最佳分类精度。N/A表示ADL输出原始输入特征图,而不是应用丢弃掩码或重要性图。已知的位置是正确的。请注意,根据[30],使用Top-1Loc评估整体本地化性能被认为是最合适4.1. 消融研究在本小节中,我们使用预训练的VGG-GAP [34,63]作为骨干网络。对于训练,我们在所有池化层和conv 5-3层中插入ADL,然后使用CUB-200-2011数据集对模型进行微调。首先,我们在图2中可视化自我注意力地图和下拉掩码。我们观察到,表2.对选择使用ADL的特征图的准确性的影响粗体文本表示最佳定位精度,而斜体文本表示最佳分类精度。下降率太低(从25%下降到0%),分类准确率又下降(从68.99%下降到67.78%)。我们认为这是由过度拟合引起的。 液滴掩膜是一种基于液滴的技术,其原理与MaxDrop相似[27]。因此,具有适当下降率的下降掩模可以防止过拟合,从而提高分类准确性。我们认为,分析的下降掩模的正则化效果超出了本文的范围。然而,我们计划在未来的工作中严格分析这一点。第三,我们通过分别停用重要性图或丢弃掩码来表1的下半部分总结了实验结果。由此,我们可以确认,同时应用丢弃掩码和重要性图比仅应用其中之一具有更好的定位精度这支持了放置掩码和重要映射不互斥的论点。当单独应用重要性图时,分类-较低级别的层(即,、池1和池2)包含类不可知的一般特征。同时,更高级别层的自注意力图(即,、pool 4和conv 5 -3)包含类特定的特性。我们还观察到,从更高级别的层的下降掩模擦除的最歧视性的部分更准确地比那些从较低级别的层。接下来,我们研究下降率对准确性的影响。表1的上半部分报告了结果。从这些结果中,我们观察到,最好的定位精度可以达到时,下降率为75%。同时,当在每次迭代时应用丢弃掩码时(即,丢失率100%),分类(Top-1类)和局部化(Top-1位置)的准确性大大降低。这是因为,正如第3节所提到的,模型从来没有观察到最有区别的部分。结果,模型的分类能力显著降低,这对定位精度产生不利影响。鉴于GT已知Acc的准确度下降相对小于Top-1 Loc和Top-1 Clas的准确度下降,我们可以得出结论,这是分类精度下降的结果。我们观察到,分类精度随着丢弃率的降低而增加。但是,当下降率是-阳离子精度增加,但是定位精度降低。我们认为,这是因为分类器在重要图的指导下,更关注最具区分力的部分这一结果支持了我们的论点,即所提出的轻量级注意力方法是有效的,以提高分类精度。另一方面,当单独应用丢弃掩模时,定位精度增加,但分类精度降低。我们认为,这是因为该模型利用较少的歧视性部分进行分类,由下降掩模引导。这些结果还支持以下观察结果:当应用液滴掩模时,定位和分类的准确性处于权衡关系[35]。最后,我们研究了在使用ADL的情况下选择特征图时准确度的影响,并将结果报告在表2中。 从这些结果中,我们可以看到,将ADL应用于额外的卷积特征图进一步提高了定位精度。我们发现,ADL可以提高定位和分类精度。然而,最好的定位精度可以通过牺牲分类精度来实现。此外,当ADL被应用于较低水平的fea时,Conv 5-357.9968.9541.73+池468.2267.1748.02+泳池375.4165.2752.36+池271.8563.7648.46+池174.7862.2549.69N/A N/A51.09 67.5534.412225方法主干编号CUB-200-2011 ImageNet-1kParams(兆字节)参数(%)计算(Top-1Top-1Top-1Top-1表3. CUB-200-2011和ImageNet-1 k的定量评估结果。粗体文本表示每个骨干网络的最佳定位精度。我们还强调了每个数据集中的最佳得分。开销根据其骨干网络计算。带星号 * 的准确度表示分数来自原始论文。我们留下了一些前1级的分数空白,因为它们没有在原始论文中报告[60]。为了重现基线方法,我们使用他们的原始论文[63,35]中建议的超参数此外,我们在相同的设置下训练和测试HaS和ADL,以进行公平的比较。例如池2和池1的真实地图,定位准确度相当降低。我们认为这是因为较低级别的特征映射包含了与目标类无关的一般特征。因此,在使用ADL的低层特征图中,不能有效地消除最具区分性的部分.4.2. 与现有技术方法的我们将所提出的方法与各种最新的WSOL技术进行比较,包括最先进的:[63],[64],[65],[67],[69].我们从他们的原始论文中报告了ACoL和SPG的准确性。同时,我们使用与ACoL和SPG中相同的预处理方法来训练骨干网络.然后,在骨干网络上应用HaS或ADL。以香草模型的精度为基准,分别评估HaS和ADL的精度增益。请注意,ACoL和SPG是WSOL当前最先进的技术。此外,在无参数开销的技术中,HaS的性能最好.图3显示了CUB- 200-2011和ImageNet-1 k数据集上的定位结果,用于定性评估。从结果中,我们一致地观察到,ADL模型比vanilla模型更好地捕获了区分度较低的部分。例如,从图3中最左边的示例可以看出,从vanilla模型中提取的热图和边界框与此相反,ADL模型不仅覆盖了脸部,而且覆盖了鸟的整个部分,从头部到翅膀。此外,从图3中最右侧的样本来看,vanilla模型仅关注左轮手枪的圆柱体,而具有ADL的模型定位了左轮手枪的整个框架。接下来,在CUB-200- 2011和ImageNet-1 k数据集上的定量评估结果汇总于表3. 为了比较每种技术所需的计算资源,我们描述了参数的数量以及计算和参数开销以及Top-1 Loc和Top-1Clas。ADL没有参数开销,并且计算开销几乎为零(例如,,ResNet 50-SE中为0.003%)。所提出的方法是更有效的比现有的国家的最先进的技术,ACoL和SPG,在参数和计算开销。我们通过采用MobileNetV1 [11]作为骨干网络,进一步推动WSOL的效率最大化由于MobileNetV1的轻量级特性,采用ACoL或SPG是不合适的,因为这需要大量额外的计算资源。另一方面,尽管资源有限,但ADL和HaS从实验结果中,我们可以观察到,所提出的方法的准确性增益优于HaS。此外,HaS相对于基线降低了分类准确性。这是由第3节中讨论的定位和分类精度之间的权衡关系引起的幸运的是,ADL的重要性图可以通过增加分类能力来消除这样的缺点。因此,ADL的分类准确性下降不像HaS那样显著除了其高效率之外,所提出的方法在CUB-200-2011数据集上实现了新的最先进的定位精度。当ResNet 50-SE用作主干时,所提出的方法将本地化准确度提高了15个百分点以上,超过了最先进的准确度[59,60]。请注意%) Loc(%)Clas(%)Loc(%)Clas(%)凸轮VGG-GAP [34,63] 780034.4167.5542.80美元 *66.60美元 *AcolVGG-GAP [34,63] 181132.0537.6345.92美元 *71.90美元 *45.83美元 *67.50美元 *ADLVGG-GAP [34,63] 7800.0052.3665.2744.9269.48凸轮[11]第16话0043.7071.9441.6668.38HaS-32[11]第16话0044.6766.6441.8767.48ADL[11]第16话00.0047.7470.4343.0167.77凸轮ResNet50-SE [10,12] 1070042.7280.6546.1976.56ADLResNet50-SE [10,12] 10700.0062.2980.3448.5375.85凸轮[40,60]第101页0043.67美-46.29美-2226ResNet 50-SE与ADL的参数数量远小于ACoL和SPG。这一成就是相当令人印象深刻的,考虑到最近的技术是竞争的准确性2-3个百分点的差异。此外,当其他三个骨干网络,所提出的方法实现了更好的定位精度比现有的国家的最先进的技术。在ImageNet-1 k实验中,当使用VGG-GAP作为主干时,ADL的准确性优于CAM,但略低于ACoL。然而,以ResNet 50-SE为骨干网时,ADL的定位精度优于ACoL,与SPG相当,但所需的计算资源要少得多。此外,当Incep-tionV 3用作主干时,实现了与SPG相当的精度(0.11个百分点的差异)。总之,我们在CUB-200-2011 数 据 集 上 实 现 了 新 的 最 先 进 的 精 度 ; 在ImageNet-1 k数据集上,ADL实现了与当前最先进技术相当的准确性[60],尽管其效率优越。讨论我们在单目标检测任务上验证了所提出的方法,遵循当前最先进的方法[59,60]。然而,应该注意的是,所提出的方法也可以用于提高弱监督语义分割精度。在测试期间,具有ADL的分类器与其普通版本相同,因此它可以很容易地与弱监督语义分割框架相结合,例如[18,24]。接下来,为了分析我们在两个数据集之间的准确性增益的实质性差异,我们研究了ImageNet-1 k实验中的失败示例。从失败的情况下,我们观察到,分类器提取的歧视性特征,从背景中出现频繁的目标对象。图4示出了这样的示例。在雪地摩托类的情况下,目标对象经常与雪共存。香草模型只关注雪地车,而ADL模型不仅学习雪地车,还学习雪和树。这是因为与对象一起频繁出现的背景可能是辨别力较低的区域。ImageNet-1 k包括各种各样的类,其中特定类型的背景与目标对象共同出现。在这种情况下,背景具有一定的区分力。因此,当丢弃最具区分力的部分时,模型可能会学习背景特征。同时,由于CUB-200-2011的所有类别都属于鸟类,因此无论类别如何,都会出现类似的背景(例如,天空,树)。换句话说,这个数据集的背景几乎与类别无关,因此背景不是一个有区别的区域[61]。因此,该模型不会从背景中学习特征,尽管最具鉴别力的部分被隐藏了。(a) 输入(b)CAM(c)ADL(我们的)图4.ImageNet-1 k实验失败案例目标是雪地摩托。具有ADL的模型学习不包括在对象中的较少具体来说,该模型不仅捕捉了雪地车,还捕捉了雪和树。这解释了我们在两个数据集上的准确度增益的差距;ADL在诱导分类器学习区分度较低的部分方面具有显著的性能,如CUB-200-2011评估所支持的。我们认为,这个问题可能是至关重要的所有WSOL方法诱导分类器学习歧视性较低的部分。目前,解决这个问题似乎不是小事,因此我们将在未来的工作中解决这个问题。最后,我们注意到差距不是由数据集的规模引起的,因为ADL很少会在ImageNet-1 k类中失败,这些类共享类似的背景统计数据(例如,各种品种的狗)。5. 结论我们提出了一种基于注意力的丢弃层(ADL),这是一种新的弱监督对象定位方法,可以诱导CNN分类器学习对象的整个范围。该方法比现有的最先进的方法更有效和轻量级。此外,该方法取得了良好的性能;CUB-200-2011 上 的 新 的 最 先 进 的 精 度 , 以 及 与ImageNet-1 k上的当前最先进的精度相当的精度。我们还证明了所提出的方法可以很容易地应用于各种CNN分类器,以提高定位精度。对于未来的工作,我们将分析下降掩模的正则化效果。此外,我们将解决模型从对象外部学习区分度较低的区域的问题。确认本研究得到了基础科学研究计划的支持,该计划由韩国国家研究基金会(NRF)资助,由MSIP(NRF-2019 R1 A2C2006123)和韩国MIST(科学和ICT部)资助,由IITP(信息通信技术研究所)监督的&“ICT一致性创造计划”(IITP-2018-2017-0-01015)逻辑规划&评价)。这项工作也得到了MSIP/IITP的ICT研发计划的支持[R7124-16-0004,基于上下文感知和人类意图理解的智能交互技术2227引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR,第2846-2854页[3] Maurizio Corbetta和Gordon L Shulman。控制大脑中目标 导 向 和 刺 激 驱 动 的 注 意 力 。 Nature ReviewsNeuroscience,3(3):201,2002.[4] Ali Diba ,Vivek Sharma ,Ali Mohammad Pazandeh ,Hamed Pirsiavash,and Luc Van Gool.弱监督级联卷积网络。在CVPR中,第914-922页[5] 董宣义、孟德宇、马凡、杨一。一种双网络渐进式弱监督目标检测方法。在ACMMM,第279-287页[6] 董宣义、梁铮、范马、杨毅、孟德宇。具有模型通信的少示例对象检测。IEEE Transactions on Pattern Analysisand Machine Intelligence,(1):1[7] Thibaut Durand,Taylor Mordan,Nicolas Thome,andMatthieu Cord.Wildcat:用于图像分类、逐点定位和分割的深度卷积网络的弱监督学习在CVPR中,第642-651页[8] Mingfei Gao,Ang Li,Ruichi Yu,Vlad I Morariu,andLarry S Davis. C-WSL:Count-guided weakly supervisedlocalization。在ECCV,第152-168页[9] Ramazan Gokberk Cinbis,Jakob Verbeek,and CordeliaSchmid. 用 于 弱 监 督 对 象 定 位 的 多 重 MIL 训 练 。 在CVPR,第2409-2416页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[11] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。[12] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页[13] Laurent Itti,Christof Koch,and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE Transactions onPattern Analysis and Machine Intelligence,20(11):1254[14] 杰泽群,魏云超,金小杰,冯佳世,刘伟。用于弱监督对象定位的深度自学学习。在CVPR中,第1377-1385页[15] Vadim Kantorov 、 Maxime Oquab 、 Minsu Cho 和 IvanLaptev。ContextLocNet:用于弱监督定位的上下文感知深度网络模型在ECCV,第350[16] Anna Khoreva,Rodrigo Benenson,Mohamed Omran,Matthias Hein,and Bernt Schiele.弱监督对象边界。在CVPR,第183-192页[17] Dahun Kim,Donghyeon Cho,Donggeun Yoo,and InSo Kweon.弱监督对象定位的两阶段学习。在ICCV,第3534-3543页[18] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束:弱监督图像分割的三个原则。在ECCV,第695-711页[19] Dong Li,Jia-Bin Huang,Yali Li,Shengjin Wang,andMing-Hsuan Yang.具有渐进域适应的弱监督对象定位。在CVPR,第3512[20] Kunpeng Li,Ziyan Wu,Kuan-Chuan Peng,Jan Ernst,and Yun Fu.告诉我去哪里看:引导注意推理网络。在CVPR中,第9215-9223页[21] 梁晓丹、刘思、魏云超、刘洛琪、林良、严水城。对计算婴儿学习:一种弱监督的目标检测方法。在ICCV,第999-1007页[22] Min Lin,Qiang Chen,and Shuicheng Yan.网络中的网络。见ICLR,2014年。[23] Gu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功