擦除集成学习：一种强大的弱监督目标定位方法

160 浏览量更新于2023-10-25 收藏 13.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

pool4conv51conv52conv53GradCAMCAM(Right)(Left) 𝑭𝒖𝑭𝒆(Right)(Left) 𝑭𝒖𝑭𝒆(Right)(Left) 𝑭𝒖𝑭𝒆EraseEraseErase87660擦除集成学习：一种简单而有效的弱监督目标定位方法0Jinjie Mai Meng Yang* Wenfeng Luo0中山大学数据与计算科学学院，*通讯作者0中山大学机器智能与高级计算重点实验室，教育部0waynemaibutterfly@gmail.com yangm6@mail.sysu.edu.cn luowf5@mail2.sysu.edu.cn0摘要0弱监督目标定位（WSOL）旨在仅使用图像级标签来定位目标。然而，基于分类网络的现有技术存在一个长期存在的问题，即它们往往会突出显示最具区分性的部分，而不是整个目标的范围。然而，试图探索目标的整体范围可能会降低图像分类的性能。为了解决这个问题，我们提出了一种简单而强大的方法，引入了一种新颖的对抗擦除技术，即擦除集成学习（EIL）。通过在一个普通的CNN中将判别性区域挖掘和对抗擦除集成在单个前向-后向传播中，所提出的EIL同时探索高响应的类别特定区域和较不具有区分性的区域，从而能够在分类中保持高性能并共同发现目标的完整范围。此外，我们以顺序方式在网络的不同层级应用多个EIL（MEIL）模块，这是第一次通过对抗擦除学习整合多个层级和多个尺度的语义特征。特别是，所提出的EIL和先进的MEIL在CUB-200-2011和ILSVRC2016基准测试中均取得了新的最佳性能，既在定位方面取得了显著改进，又在图像分类方面取得了高性能。01. 引言0弱监督学习（WSL）旨在通过仅使用弱监督[42]（如不完整、粗糙或不准确的标签）构建预测模型。在计算机视觉领域，由于WSL不需要耗费大量人力和精力来获取像素级注释，弱监督目标检测（WSOD）[41, 6, 5, 4, 34, 20, 12, 26, 23,25, 32, 38, 1, 29, 15, 37]和分割[14, 10, 16, 25, 24, 18,7]越来越受到关注。0训练迭代0图1：VGG16-EIL在pool4处进行擦除。训练过程中不同层的可视化。使用通道平均映射可视化pool4到conv53。每个框的左列是训练过程中未擦除分支Fu的不同层的可视化，右列是擦除分支Fe的可视化。0注意。与WSOD类似，弱监督目标定位（WSOL）也旨在使用粗糙标签定位目标，但仅限于一个类别。最近，已经开发了各种方法[41, 43, 28, 13, 40, 39,2]来处理这个具有挑战性的任务。Zhou等人[41]提出用全局平均池化[19]（GAP）替换卷积神经网络（CNN）中的顶层，使其能够挖掘目标的空间位置。尽管修改后的CNN能够生成类别激活图，但是它们往往突出显示最具区分性的部分，而不是整个目标的范围。87670阶段1 阶段20掩码0CNNs0CNNs0擦除0(a) 逐步擦除[35]0掩码0CNNs0除0CNNs0CNNs0�0(b) 多分支擦除[39]0随机擦除 �0掩码0CNNs0CNNs0(c) 随机擦除[2]0掩码0�0擦除0...共享...0（d）我们的0图2：几种流行的对抗擦除方法的综合比较。0激活图（CAM）用于定位对象时，它总是倾向于挖掘最有区分性的类别特定区域，而不是对象的完整范围，导致对象定位的性能有限。为了解决这个关键问题，对抗性擦除[35,13, 33, 39, 8, 17, 2,11]已经成为一种非常流行的方法，用于捕捉整个对象。其关键思想是，在没有最有区分性的类别特定区域的指导下，网络将被迫通过探索更多的无关紧要的区域来对对象进行分类。在此基础上，这些技术中的大多数可以粗略地分为几种经典类型，如图2所示。如图2a所示，训练卷积网络的一个自然而直接的想法[13, 33, 35, 17,9]可能首先标记最有区分性的区域，然后执行擦除操作并重新训练整个网络。特别地，[35]进一步引入了一种迭代擦除方法。然而，由于逐步训练的计算开销较大，基于多分支的擦除方法[8,39]引入了新的分支到网络中，以在额外的参数成本下执行擦除，如图2b所示。最近，[2]提出了基于注意力的dropout层（ADL），如图2c所示，在前向传播中随机擦除最有区分性的区域，节省了相当多的计算和参数开销。然而，ADL仍然受到由于信息区域的随机丢失而导致的分类降级的限制。为了解决上述问题，我们提出了一种全新的对抗擦除方法，名为Erasing IntegratedLearning（EIL）。所提出的EIL在图2d中粗略描述，是一种简单但更有效的擦除解决方案。对于EIL模块，我们将区分性区域挖掘和对抗擦除集成到单个前向-后向传播中，而不是需要大量计算的逐步擦除。0计算开销。与典型的多分支擦除方法不同，对抗擦除直接集成到原始卷积神经网络中，无需通过擦除后共享权重来引入额外的参数。通过这种方式，所提出的网络可以通过未擦除的数据流和擦除的数据流同时探索对象的整体范围。此外，我们观察到现有擦除方法的一个共同限制，即它们只在特定位置进行对抗擦除，如输入图像[35, 17]或特征图[8, 39,2]。这种处理方式会导致对抗学习只关注在特定特征层面上挖掘视觉模式。因此，我们进一步提出了一种先进的多重EIL（MEIL）策略。通过将多个EIL模块按顺序插入到CNN的不同层中，MEIL对来自网络的多个层次的语义特征进行对抗集成，并挖掘感兴趣对象的多尺度信息区域。所提出的EIL和先进的MEIL在CUB-200-2011 [31]和ILSVRC[22]基准测试中都取得了新的最先进的性能，显著提高了定位准确性，同时保持了卓越的分类准确性。02. 相关工作0用于弱监督学习的擦除方法。逐步擦除方法[13, 33, 35,17]大致如图2a所示，通常在额外的训练步骤中执行擦除。例如，Li等人[17]提出了引导注意力推理网络（GAIN），通过引入两个流来实现。在第一个流中，GAIN旨在找出有区分性的区域并生成可训练的注意力图作为擦除掩码。相反，第二个训练流则是强制网络不识别擦除区域，因此...87680梯度将监督训练后的注意力覆盖整个对象。[33]还采用了两阶段训练策略。他们首先预训练一个分类网络，然后擦除最具有区分性的区域以重新训练网络，迫使网络集中注意力于下一个最重要的部分。[35]进一步引入了迭代擦除方法，该方法重复擦除给定图像中最具有区分性的区域，并最终将这些步骤中的注意力图结合起来，得到对象的更完整的注意力图。为了减少计算开销，多分支擦除方法[8,39]（如图2b所示）用额外的参数替换了额外的训练步骤，用于对抗性擦除。[39]利用了一个双分支网络，对抗性互补学习（ACoL）。ACoL在顶部应用了两个并行的分类器来训练网络，其中一个分类器直接从共享的主干网络中获取未擦除的特征图，并生成擦除掩码，而另一个分类器则通过这个掩码从擦除后的特征图中获取特征。此外，Hou等人提出了一个三分支SeeNet[8]，引入了两种自擦除策略，用于对象和背景线索，可以防止注意力转移到背景区域，从而更准确地挖掘对象。为了进一步减少计算和参数开销，提出了基于注意力的丢弃层（ADL）[2]，它是一个轻量级模块，如图2c所示。当将ADL插入网络时，它会随机选择擦除最具有区分性的区域或突出显示特征图中的信息区域。但是，随机擦除会丢失重要信息，导致分类性能下降。其他用于弱监督对象定位（WSOL）的方法。Zhou等人[41]采用CAM以端到端的方式通过全局平均池化[19]模块识别感兴趣对象的位置。Hide-and-Seek（HaS）[28]随机隐藏给定图像的补丁，以迫使网络寻找对象的更多相关部分，这也可以被视为一种数据增强的方式。软提案网络[43]联合优化网络参数和对象提案。Wei等人[35]利用分割置信度图发现紧凑的对象边界框。[35, 39, 17,2]都采用了擦除机制来捕捉对象的完整范围，这在前面的部分已经讨论过。自产生的引导[40]（SPG）方法利用高置信区域的监督，逐渐将注意力扩展到整个对象。[21]提出了一种先进的定位图生成策略，通过不同卷积层的梯度以多尺度的方式生成定位图。最近，Xue等人[36]设计了一个发散激活（DANet）网络。在对象的类别层次结构方面提供更强的监督的帮助下，DANet利用跨类别的语义差异和空间差异来学习互补和有区分性的视觉模式。0学习互补和有区分性的视觉模式。03. 擦除集成学习0擦除集成学习旨在为弱监督任务提供更加优雅和简洁的擦除解决方案，将对抗性擦除策略直接集成到CNN中，而无需额外的步骤或分类器。为此，我们提出了EIL，将未擦除的数据流和来自共同主干的擦除数据流集成到具有共享权重的双分支网络中。此外，我们提出了Multi-EIL，将不同尺度的语义特征引入网络，通过多个对抗性擦除学习过程进一步提高定位性能。03.1. 与擦除集成0在本节中，我们详细介绍了我们提出的EIL，如图3所示。一般来说，EIL以顺序方式添加到CNN的卷积块之间。在训练过程中，将流入特征图作为输入，我们简单地按照[2]的方法生成擦除掩码，并根据该掩码从特征图中删除最具有区分性的区域。然后，我们将擦除和未擦除的特征图同时输入到下一个卷积块中，这将创建两个数据流。由于这种处理方式也可以看作是具有共享权重的双分支网络，它将为擦除特征图和未擦除特征图分别产生两个分类损失。在测试过程中，EIL被禁用，因此训练好的模型与原始的分类网络相同。通过未擦除损失，网络可以通过最具有区分性的类别特定区域学习对对象进行分类。同时，擦除损失驱使网络集中注意力于较少具有区分性的部分，以探索互补的对象区域，如图1所示。算法1和图3中给出了详细的描述。形式上，我们将训练图像集表示为I = {{Ii,yi}}Ni=1，其中yi = {1, 2, ...,C}是图像Ii的标签，C是图像的总类别数，N是图像的数量。用θ、小写f和大写F分别表示网络参数、函数和特征图。应用EIL之前的网络f1(I,θ1)可以生成原始的未擦除特征图，表示为Fu ← f1(Ii, θ1)，其中Fu ∈RK×H×W，K表示通道数，W和H分别表示宽度和高度。我们利用Fu作为自注意力生成擦除掩码。具体来说，我们压缩Fu0通过通道平均池化将其转换为平均图Mavg ∈ R 1 × H × W。然后我们在Mavg上应用硬阈值γ，得到擦除掩膜Me ∈ R1 × H ×W，其中像素强度大于γ的空间位置被设为零。我们通过对未擦除特征图Fu和掩膜Me进行空间乘法运算得到擦除特征图Fe ∈ R K × H × W。然后，未擦除特征图Fu和擦除特征图Fe都被再次输入到网络的后半部分f2(F,θ2)中。由于这两个数据流经过相同的函数f2和参数θ2进行处理，因此这种结构可以被视为共享权重的双分支网络。具体来说，f2(F,θ2)产生类激活图(CAM)[41]，在CAM上应用全局平均池化[19]，然后使用全连接层和softmax操作得到每个分支的预测分数p，其中p为擦除的分支，pu为未擦除的分支。最后，两个分支的分类损失将被相加以计算总损失L。注意，我们还引入了一个损失加权超参数σ来控制未擦除损失Lu和擦除损失Le之间的相对重要性。erased loss⊖GAPErasing Integrated Learninglocalization map𝑀&𝒇𝟐(𝜽𝟐, 𝑭)𝐿3𝐹3tion by doing spatial-wise multiplication between unerasedfeature map F u and mask Me, to produce the erased featuremap F e ∈ RK×H×W .Afterwards, both the unerased feature map F u and theerased counterpart F e are fed into the latter part of thenetwork f 2(F, θ2) together.As these two data streamsare processed by the same function f 2 and parameters θ2,such structure can be regarded as a dual-branch network ofshared weights. More speciﬁcally, f 2(F, θ2) produces classactivation maps (CAM) [41], applies global average pooling[19] on CAM and utilizes a fully connected layer followedby softmax operation to get the prediction score p for eachbranch, with pu and pe for the erased and the unerased, re-spectively. In the end, the classiﬁcation losses from the twobranches will be added up to calculate the total loss L. Notethat we also introduce a loss weighting hyperparameter σ tocontrol the relative importance between the unerased lossLu and the erased loss Le.Kiu87690M"#$0共享0未擦除损失0CNNs分类器 � 擦除阈值0GAP0f((θ(, I)0F &0图3：所提出的EIL模块的概述。当EIL插入到特征图中时，首先通过通道平均池化产生平均图Mavg。通过对Mavg进行阈值处理得到擦除掩膜Me，然后将Me擦除的特征图Fe和未擦除的Fu再次输入到网络中，进行共享的双分支处理。03.2. 共同挖掘整个对象0首先，考虑到未擦除损失Lu和相应的分支，它实际上与典型的CNN完全相同，没有任何区别。因此，这个分支肯定会学习如同用于分类的网络所应该做的：突出显示那些类别特定的判别区域，以便更好地进行对象分类。通过这种方式，网络参数θ1可以学习分类对象的能力，就像普通的分类模型一样。然而，仅仅依靠Lu的纯粹指导，CAM通常只覆盖感兴趣对象的小而稀疏的区域，因为Lu被过度约束了。0算法1：EIL的训练算法0输入：输入图像I = {{Ii,yi}}Ni=1，类别数C，擦除阈值γ，损失加权超参数σ02 计算特征图Fu ← f1(Ii, θ1);03 计算平均图Mavg =0K;04 计算擦除掩膜0Mei,j =00，如果Mavgi,j ≥γ1，否则;05 得到擦除特征图Fe = Fu � Me;06 计算Fe的预测值：pe ← f2(Fe, θ2);07 计算未擦除特征图Fu的预测值：pu ← f2(Fu, θ2);08 计算擦除损失：Le = -10C0cyi,c log(pec);09 计算未擦除损失：Lu = -10C0cyi,c log(puc);011 反向传播并更新参数θ1，θ2；012 结束0最初阶段，网络只关注像图1中的CAM图中所示的最具有区分性的区域，如鸟的头部。0因此，我们通过对网络进行对抗擦除，通过擦除损失Le可以在密集像素预测任务中发挥作用。通过Fe擦除中的突出的跨类别激活，网络的后半部分⊖⊖………87700f2（Fe，θ2）从较少具有区分性区域的激活单元产生损失。因此，当来自擦除损失Le的梯度Ge通过θ1和θ2向后流动时，与对象中较少具有区分性区域的分布空间对应的神经元将得到强调的更新。一旦优化了擦除损失Le，网络θ1，θ20可以学习挖掘较少具有区分性和类别无关的视觉模式。正如我们所阐述的，这两个数据流恰好在共享网络θ2中流动0基于相同的骨干网络θ1。因此，Lu和Le更新相同的参数θ1，θ2，但专注于不同的特定单元。因此，虽然最具有区分性部分的单元也被Lu进行了微调，EIL可以通过同时组合互补和具有区分性的对象模式来整体地定位完整的对象范围。GradCAM[23]（图1）为我们的解释提供了可视化证据。可以观察到，来自Fe的即将到来的梯度Ge逐渐引导未擦除的分支Fu覆盖包括较少具有区分性区域在内的对象的完整范围，如鸟的躯干。0共享共享0图4：提出的MEIL I的结构。03.3. 多尺度特征的多个EIL0尽管现有的擦除方法都选择在单个位置进行擦除，但我们提出了先进的多个EIL（MEIL）模块，以在多个位置进行擦除，通过这种方式可以对对抗学习多尺度的视觉模式。MEIL的一个典型结构MEILI如图4所示。在将单个EIL插入到原始CNN之后，另一个EIL被附加到未擦除的流中。因此，网络将从共享的分支产生三个损失，这可以引导网络从多层次特征中探索感兴趣的对象，而不仅仅是用于分类的最好的区分性特征。0擦除的pool3 擦除的pool40未擦除的pool3 未擦除的pool40输入图像0定位图0图5：VGG-MEIL的可视化，其中插入了两个EIL模块，分别位于pool3和pool4。擦除前后来自不同级别的特征图的平均映射对比。03.4. 讨论0被擦除数据流与未擦除数据流之间的关系。由于这两个数据流在共享的θ2上向前流动并在同一整个网络θ1，θ2上向后流动，人们可能担心这两个流的梯度Ge和Gu会产生冲突并相互抵消。但是我们的实验结果并不支持这样的假设。正如我们所讨论的，我们认为Ge和Gu实际上关注网络中的不同单元，前者关注最具有区分性的部分，后者关注较少具有区分性的部分。图1和6中显示的EIL的可视化也支持我们的解释。我们可以验证，在原始CAM模型中发现的高响应区域，即用于分类的经典CNN模型，也会在我们的EIL模型中不断出现。这意味着EIL也学习了探索最具有区分性的区域（例如鸟的头部）的参数，并保留了良好分类对象的能力。除此之外，我们还注意到，与CAM相比，较少具有区分性的区域（例如鸟的身体）也得到了与CAM中最显著部分相同的突出处理，这再次证明了我们的假设。换句话说，在CAM中通常被忽视的这些感兴趣区域在EIL中被放大。与现有的WSOL擦除技术的关系。在这里，我们简要比较了与我们的EIL在WSOL任务中类似的其他典型对抗擦除方法。对于图2c中显示的ADL，它通过单次前向传播随机擦除最具有区分性的区域，信息丢失的随机丢弃87710区域可能会降低其在分类中的性能。另一方面，我们的EIL也继承了ADL的优点。这些优点包括在任意卷积块中插入的灵活性，以及不需要额外参数的轻量级。图2b中的ACol处理两个具有独立分支的源。我们的EIL效果更好的原因可能包括三个部分：1）ACoL应用了与我们和ADL不同的擦除掩码生成技术。他们在顶层提取它，并重新采样到中间层进行擦除，如果网络在那个时刻还没有正确学习到真实类别，那么重新采样操作可能会模糊密集像素信息。2）ACoL只在网络的底层共享参数，从中提取的低级特征（如边缘或纹理）是通用且与类别无关的。因此，两个独立分支的损失可能无法有效地帮助骨干网络学习到类别特定的定位。3）ACoL融合了两个独立分支的CAM图以产生最终的定位图，这可能是不一致的，因为它们可能会相互压倒。04. 实验04.1. 实验设置0数据集。我们在两个流行的基准数据集CUB-200-2011[31]和ILSVRC 2016 [3,22]上评估了提出的EIL，这两个数据集都只有图像级别的标签用于训练。CUB-200-2011有5994张用于训练和5794张用于测试的图像，来自200种鸟类。对于ILSVRC2016，训练集中有大约130万张图像，验证集中有5万张图像，来自1000个不同的类别。指标。根据[22,2]的设置，我们采用Top-1分类准确率（Top-1Clas）、Top-1定位准确率（Top-1Loc）和已知真实类别的定位准确率（GTLoc）作为评估指标。Top-1Clas是正确分类预测的比例。Top-1Loc是正确预测分类且与真实边界框的交并比（IoU）大于50%的图像的比例。GTLoc是仅考虑定位准确性而不考虑分类结果与Top-1Loc相比的准确性。实现细节。我们在两个流行的CNN模型VGGnet [27]和Google InceptionV3[30]上构建了提出的EIL模块。按照之前工作[41,40]的训练设置，我们移除了VGG16的顶部池化层和两个全连接层，以及InceptionV3的第一个inception块之后的层。然后我们在顶部添加了两个（VGG16添加一个）卷积层，卷积核大小为3×3，步长为1，填充为1，具有1024个滤波器，一个全连接层和最后一个GAP层。这两个网络都加载了ILSVRC的预训练权重。我们在VGG16的pool4层之后插入了提出的EIL模块和0对于InceptionV3，我们在第一个inception块之后插入了EIL。我们采用SGD作为优化器，动量为0.9，权重衰减为0.0005。我们将初始学习率设置为0.001，并在衰减点处按10的倍数进行衰减。训练时，将输入图像调整为256×256，然后随机裁剪为224×224，并进行水平翻转。我们调整擦除阈值γ和损失加权参数σ来微调网络。对于两个骨干网络，我们设置γ=0.7和σ=2用于单个EIL模块，但是针对特定数据集和骨干网络优化这些超参数可以进一步提高性能。在测试过程中，EIL被禁用。为了公平比较，我们直接采用CAM[41]提出的定位图提取方法。04.2. 消融研究0我们在CUB-200-2011数据集上使用修改后的VGG16作为骨干网络进行消融研究。位置。首先，我们检查将EIL插入网络的位置对结果的影响。我们固定γ=0.7和σ=1，然后改变EIL的位置选择，如表1所示。我们可以发现，当EIL应用在类似pool4的网络中间时，可以获得最佳的定位性能。与将其添加到类似pool3的低级别或类似conv5-3的顶级别相比，存在差距，这也在现有工作[28,2]中观察到。我们认为这是因为网络的低级激活更多地涉及整个图像中的常见基本特征（如边缘、纹理），而不是对象的区域。与此同时，由于高级层（如conv5-3）的分辨率较低，较大的感受野可能导致上采样后底层的梯度不准确，为密集像素对象挖掘提供模糊的指导。因此，定位的改进也是有限的。相反，高级层靠近FC层，与其他位置相比，分类性能得到了改善，可以看作是通过抑制高响应激活来实现的一种正则化。超参数。如算法1所示，我们引入了擦除操作的必要阈值σ和平衡擦除损失Le和未擦除损失Lu的权重参数γ。根据上述讨论，我们在pool4之后插入了EIL模块，并分别改变了这两个参数，如表1所示。对于γ，过高或过低都无法产生有希望的定位结果。因为低阈值可能会擦除整个对象的激活，将网络的注意力转向背景，而高阈值可能无法完全擦除最高响应区域。有趣的是，我们发现通过设置较高的σ使擦除损失Le占据更大的权重甚至可以获得更好的定位结果。我们的解释有两个方面。首先，最具区分性的区域是小的………87720CAM0图像0（a）CUB-200-20110（b）ILSVRC 20160图6：与基线CAM方法的可视化比较。红色为真实边界框，绿色为预测结果。EIL更加关注对象，从而提供更准确的预测。0由于L u 的激活只涉及少数神经元，因此当L u 稀疏时，L u被激活的神经元所压倒。相反，较不具有区分性的区域通常比前者更大。因此，将L e放大数倍可以使这些“较不具有区分性”的神经元在反向传播中得到更平等的对待。我们在图6中的可视化结果也支持，通过应用EIL，网络对最具区分性和较不具区分性的区域都给予了可比较的关注。0位置 GT Loc (%) Top-1 Clas (%) Top-1 Loc (%)0N/A 55.32 71.24 44.150conv 5-3 60.75 73.37 46.77 pool4 72.37 72.99 55.44pool3 67.48 70.04 51.06 pool2 63.27 68.43 47.51pool1 62.74 71.19 46.890表1：位置选择的结果。0γ 0.5 0.7 0.900.5 52.57 / 67.59 53.23 / 70.61 50.72 / 71.61 σ 152.41 / 66.97 55.44 / 72.99 51.41 / 72.20 2 50.34 /66.00 56.21 / 72.26 52.13 / 73.11 4 52.14 / 68.0555.64 / 72.52 51.34 / 74.610表2：超参数的影响，Top-1 Loc (%) / Top-1 Clas (%)0MEIL的结构。我们还评估了性能。0当多个EIL模块以不同的方式插入时，我们进行了评估。在网络中已经存在EIL的情况下，可以选择将另一个EIL插入未擦除的分支（图4）或擦除的分支（图7）。经过尝试各种训练设置后，我们观察到图7中的MEILII的效果通常比MEIL差2% � 5%。因为MEILII有时可能会擦除目标对象在特征图上的太多区域，将注意力转移到背景上，导致性能变差。此外，当在几个卷积层之后再次进行擦除时，下一个最重要的部分可能尚未被挖掘出来。另一方面，对于图4中的MEILI，使用擦除流从多个层级训练网络可以使网络学习到多尺度特征，正如我们在第4.2节中讨论的那样。此外，这种方法类似于增加单个EIL中的σ，增强了擦除损失L e 的重要性。0�0�0共享0共享0图7：MEIL II，MEIL的一种变体，如图4所示。0接下来，我们进一步将MEILI应用于VGG16中不同层级的组合。结果如表3所示。InceptionV3-CAM [41]43.6773.80InceptionV3-SPG [40]46.64-InceptionV3-ADL [2]53.0474.55InceptionV3-DANet [36]49.4571.20VGG-CAM [41]44.1571.24VGG-ACoL [39]45.9271.90VGG-ADL [2]52.3665.27VGG-DANet [36]52.5275.40VGG-CAM [41]42.8066.60VGG-ACoL [39]45.8367.50VGG-ADL [2]44.9269.48InceptionV3-CAM [41]46.2968.1InceptionV3-HaS-32 [28]45.47-InceptionV3-SPG [39]48.60-InceptionV3-ADL [2]48.7172.83InceptionV3-DANet [2]47.5372.5087730表明多个EIL模块在表2中单个EIL的最佳性能之上。因此，EIL和MEIL的使用可以在训练资源和测试准确性之间进行权衡。由于多个EIL的组合很多，我们主张通过设置最佳插入位置、调整超参数甚至引入两个以上的EIL模块来进一步提高MEIL的性能。0位置 GT-Loc Top-1 Clas Top-1 Loc0N/A 55.32 71.24 44.150pool3+pool4 73.84 74.77 57.46 pool4+conv53 62.2174.87 47.62 pool3+pool4+conv53 65.52 74.80 50.540表3：使用MEIL I的位置选择的影响。04.3. 与最先进的方法进行比较0我们在表4和表5中将我们的结果与其他最先进的技术在CUB-200-2011和ILSVRC2016上进行了比较。从结果中我们可以观察到，我们的EIL在定位准确性上超过了所有现有方法。0方法 Top1-Loc(%) Top-1-Clas(%)0VGG-EIL (我们的) 56.21 72.26 VGG-MEIL (我们的)57.46 74.770表4：CUB-200-2011上的定量结果0在CUB-200-2011测试集上，我们将MEIL插入到VGG16的pool3+pool4中。结果上，VGG-MEIL在基线CAM方法上表现出了13.31%的定位提升，这是一个非常令人印象深刻的改进。与当前最先进的DANet[36]相比，DANet引入了关于类别层次的额外监督，VGG-MEIL的分类结果仅低0.63%。但是对于定位，VGG-MEIL相对DANet有显著的性能提升，提高了4.94%。此外，即使是单个EIL的VGG16在分类和定位方面也可以达到56.21% /72.26%的准确率。总之，所提出的EIL可以提高目标的质量0方法 Top1-Loc(%) Top-1-Clas(%)0VGG-EIL (我们的) 46.27 70.48 VGG-MEIL (我们的)46.81 70.270InceptionV3-EIL (我们的) 48.79 73.88InceptionV3-MEIL (我们的) 49.48 73.310表5：ILSVRC上的定量结果0通过大幅提高定位的准确性，同时保持高分类性能。在更大规模的ILSVRC2016实验中，EIL和MEIL在所有背骨上的所有指标上都实现了新的最先进性能。具体而言，VGG-MEIL在定位准确性方面达到了46.81%，相比于ACoL[39]提高了0.89%。此外，在InceptionV3背骨上，EIL和MEIL不仅获得了最佳的定位性能，还将分类准确性相对于基线CAM方法提高了5.78%/5.21%。05. 结论0我们提出了一种简单而有效的对抗消除方法，ErasingIntegrated Learning(EIL)，它将消除的特征图流集成到分类网络中。在训练和测试中都不引入任何额外的参数，这是网络第一次通过单次前向-后向传播学习在有擦除和无擦除的情况下同时探索对象的全部范围。此外，据我们所知，这也是第一次通过集成擦除学习来探索多尺度和多级别的对象特征。最后，所提出的EIL及其变体Multi-EIL在弱监督目标定位方面取得了新的最先进性能。06. 致谢0本工作得到了中国国家自然科学基金（编号61772568）、广东省自然科学基金（编号2019A1515012029）和广州市科技计划（编号201804010288）的部分支持。[1] Aditya Arun, CV Jawahar, and M Pawan Kumar. Dissimi-larity coefﬁcient based weakly supervised object detection.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 9432–9441, 2019.[2] Junsuk Choe and Hyunjung Shim. Attention-based dropoutlayer for weakly supervised object localization. In Proceed-ings of the IEEE Conference on Computer Vision and PatternRecognition, pages 2219–2228, 2019.[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In 2009 IEEE conference on computer vision andpattern recognition, pages 248–255. Ieee, 2009.[4] Ali Diba, Vivek Sharma, Ali Pazandeh, Hamed Pirsiavash,and Luc Van Gool.Weakly supervised cascaded convo-lutional networks. In Proceedings of the IEEE conferenceon computer vision and pattern recognition, pages 914–922,2017.[5] Xuanyi Dong, Deyu Meng, Fan Ma, and Yi Yang. A dual-network progressive approach to weakly supervised objectdetection.In Proceedings of the 25th ACM internationalconference on Multimedia, pages 279–287. ACM, 2017.[6] Thibaut Durand, Taylor Mordan, Nicolas Thome, andMatthieu Cord.Wildcat: Weakly supervised learning ofdeep convnets for image classiﬁcation, pointwise localiza-tion and segmentation. In Proceedings of the IEEE confer-ence on computer vision and pattern recognition, pages 642–651, 2017.[7] Yan Gao, Boxiao Liu, Nan Guo, Xiaochun Ye, Fang Wan,Haihang You, and Dongrui Fan. C-midn: Coupled multi-ple instance detection network with segmentation guidancefor weakly supervised object detection. In The IEEE Inter-national Conference on Computer Vision (ICCV), October2019.[8] Qibin Hou, PengTao Jiang, Yunchao Wei, and Ming-MingCheng. Self-erasing network for integral object attention. InAdvances in Neural Information Processing Systems, pages549–559, 2018.[9] Houjing Huang, Dangwei Li, Zhang Zhang, Xiaotang Chen,and Kaiqi Huang. Adversarially occluded samples for per-son re-identiﬁcation. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pages 5098–5107, 2018.[10] Zilong Huang, Xinggang Wang, Jiasi Wang, Wenyu Liu, andJingdong Wang. Weakly-supervised semantic segmentationnetwork with deep seeded region growing. In Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition, pages 7014–7023, 2018.[11] Zhaoyang Huang, Yan Xu,

下载后可阅读完整内容，剩余1页未读，立即下载