弱监督目标定位的两阶段学习框架及其在CUB-200-2011和ImageNet-1K数据集上的效果

38 浏览量更新于2023-10-13 收藏 2.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

132弱监督目标定位Jinheng Xie，Cheng Luo，Xiangping Zhu，Ziqi Jin，Weizeng Lu，Linlin Shen*深圳大学计算机科学与软件工程学院计算机视觉研究所深圳社会广东省智能信息处理xiejinheng2020@email.szu.edu.cn，gmail.com，llshen@szu.edu.cn摘要我们提出了一个两阶段的学习框架弱监督对象定位（WSOL）。虽然大多数先前的努力依赖于基于高级特征的CAM（类激活图），本文提出使用基于低级特征的激活图来定位对象。在第一阶段中，激活图生成器基于分类器中的低级特征图产生激活图，使得以在线方式包括丰富的上下文对象信息在第二阶段，我们采用评估器来评估由激活图生成器预测的激活图。在此基础上，我们进一步亲-（一）（b）第（1）款CAM（离线）我们的（在线）提出加权熵损失、注意擦除和面积损失，以驱动激活图生成器实质上减少对象和背景之间的激活的不确定性，并探索较少区别的区域。第二阶段模型基于第一阶段中保留的低层目标信息，逐步生成图像中目标的分离良好、完整和紧凑的激活图，可以很容易地进行阈值化以实现精确定位。在CUB-200- 2011和ImageNet-1 K数据集上进行的大量实验表明，我们的框架大大超过了以前的方法，这为WSOL提供了一个新的最先进代码将很快可用1. 介绍基于深度神经网络的监督对象定位和检测方法[22，14，21，13]已经取得了很大的进步。然而，这些方法通常依赖于具有密集注释的大量训练数据，特别是位置级标签。为了减轻高注释成本，仅需要图像级注释的弱监督对象定位得到了大量关注。*通讯作者图1：CAM和所提出的方法之间的比较(a) CAM流水线概述。(b)概述拟议的两阶段学习框架。红色边框说明了本地化结果。分类网络倾向于从小而稀疏的区域识别模式，而不是探索对象的整个范围由于这种限制，类激活图[44]（CAM），高级特征图的加权平均值，通常仅指示对象的区分区域。图1（a）给出了CAM的示意图。如图所示，仅定位头部区域，该头部区域是区分鸟的最有区别性的部分。见图2以获取更多基于CAM的本地化示例然而，区分区域不足以准确定位目标。为了解决这个问题，已经探索了各种解决方案[28，4，31，2，41，27，3，40，38，16]。例如，[11，40，3]试图删除最具区分性的由于高级特征被用作区域指导，因此这些方法具有有限的潜力来导出完整和紧凑的激活图。此外，由于背景像素分布的多样性，采用后续阈值法分离背景和前景像素时，对阈值的设置非常敏感。CNN间隙W1，kW2，...W1，k*+W2，k*+高级特征×在线×完整×阈值稳健性第一…第二阶段细化低级功能在线完成√阈值稳健...CNN133图2：CAM、ADL和我们的激活图的可视化。图像来自CUB-200-2011测试集。激活映射跨越不同的对象和背景。基于CAM的解决方案的缺陷可以概括为：（1）CAM的生成是离线的，因此不能容易地在线细化。(2)抽象语义的高级特征是难以产生完整和紧凑的激活映射。(3)由于跨不同激活图的前地和背景像素之间的模糊性，定位结果对后处理中使用的阈值敏感。在本文中，我们开发了一个两阶段的学习框架，弱监督对象定位，如图所示。第1段（b）分段。与高层特征相比，我们认为，低层特征，其中包含的细节或轮廓信息的对象，是更合适的和有效的区域指导目标定位。基于这一观察，我们在第一阶段提出了基于低级特征的激活图生成器，以探索低级特征中的那些潜在信息。它主要包括图像分类器和带有分类头的激活图生成器（简称生成器生成器直接并入图像分类器的浅层中。两个分类损失的共同监督导致基于低级特征的在线激活图生成。然而，在大多数情况下，这些激活图也受到两个限制。1）激活图中的像素值集中位于0.5左右（图1）。第四条（b）款）。当应用阈值法定位目标时，定位结果对阈值敏感。2)虽然更多包含轮廓和上下文信息的区域被包括在基于低级特征的激活图中，但像鸟头这样的区分区域仍然主导着高度激活的区域（图1）。第3（b）段）。为了解决这些问题，第二阶段，称为熵引导的细化，提出。该网络架构由一个生成器（从第一阶段初始化）和一个评估器（预先训练的图像分类器）。评估器旨在通过评估损失来评估和确保由发生器产生的激活标测图的质量。在此基础上，我们进一步设计了一个加权熵损失，以减轻第一个限制，通过减少激活地图中的每个单个像素的不确定性。此外，两个组件，包括专注擦除和区域第二个限制是针对第二个限制。这两个组件可以探索更多的替代内容进行分类，并惩罚背景像素。第二阶段的设计鼓励生成器进一步探索在低级特征中保存的对象的上下文语义。图2显示了我们的方法和其他两个现有的流行的目标定位方法，即，[44]和ADL [3]。从图3（b）到（c）以及图3中从左到右。4、实验结果表明，经过熵引导的细化后，该方法可以得到分离性好、完整、紧凑的目标活动图，实现目标的精确定位。总的来说，本文的主要贡献可以概括为：• 我们建议采用低级别的功能作为区域指导，以在线方式生成激活图，这为后续的细化提供了丰富的对象上下文信息• 我们设计了熵引导的细化，以逆向驱动网络进一步探索低级特征，以获得分离良好、完整和紧凑的激活图，用于准确的对象定位。由于对象和背景的激活现在很好地分离，所以定位对阈值不敏感。• 在CUB-200-2011 [30]和ImageNet-1 K [24]数据集上进行的大量实验表明，所提出的方法大大超过了以前的方法，创造了新的最先进的性能。在其他数据集上的实验验证了我们的方法在各种场景和物种中的鲁棒性和泛化能力2. 相关工作弱监督对象定位（WSOL）旨在以较少的注释成本定位对象。在各种形式的弱监督中，图像级标签最受研究者青睐。仅使用图像级标签，已经探索了各种解决方案[28，4，31，2，44，41，27，3，40，38，16]来训练深度神经网络以进行对象定位。基于CAM的方法[44，27，40，37，3]通常使用区分区域作为定位目标对象的指导。这些类别激活图，高级特征图的加权平均值，近似有区别的区域的空间分布不幸的是，类激活映射中的主动响应仅覆盖最具辨别力的区域，而不是整个对象。图像块的随机擦除[27]有助于定位对象的较少区分区域。此外，[11，12，3，17]开发了擦除技术以丢弃最具鉴别力的区域。我们ADL凸轮输入13412FFFF11F∈F1112(a)（b）（c）图3：（a）输入图像。(b)来自的粗略激活图第一阶段（c）来自第二阶段的改进的激活图除了上述解决方案之外，自制引导（SPG）[41]以逐阶段的方式逐步生成对象掩模它采用高置信度的目标区域作为前景的种子和底层的监督。通过整合前景区域，它强制分类网络从多个层学习像素相关性然而，不确定的地区很少被探索。几何约束。 [16]设计了一种称为GC-Net的新型网络架构，其中包含检测器，生成器和分类器。检测器预测一组位置系数，其由生成器变换为2D掩模。然后，使用掩模将输入图像分割成前景区域和背景区域。在训练过程中，采用类别交叉熵最小化目标分类的不确定性，采用负熵损失最大化背景分类的不确定性以这种方式，掩模逐渐接近目标对象。然而，由于从数值到二维矩阵的抽象转换，GC-Net的训练可能是不稳定的。此外，该方法在多实例定位中的应用潜力较小。注意力机制。具有注意机制的深度网络专注于信息语义。自从提出注意力[29，33，19，35，9，39]以来，各种任务（例如：分类和检测）已经涉及用于更好的特征学习的注意力机制。[3]利用注意力机制来隐藏最不明显的犯罪部分，并随机突出的信息区域。然而，一个最具歧视性的硬下降-强度强度图4：激活标测图的直方图。左图：直方图根据图计算。3（b）款。右图：从图中计算的直方图。3（c）款。具有分类头的激活图生成器被集成到图像分类器的浅层（例如，[7，26]）。在训练期间，由两个分类损失监督，生成器采用低级特征来在线产生具有丰富上下文信息的对象的激活图。第二阶段：在第一阶段之后，我们使用评估器（预先训练的图像分类网络，例如，[26，7]），与发生器（从第一阶段初始化）耦合，以评估生成的激活图（图11）。第5（b）段）。在训练过程中，提出了三个损失函数和一个注意擦除来监督模型。特别地，生成器基于在低级特征中保留的上下文对象信息逐渐产生良好分离的、完整的和紧凑的激活图。在推理过程中，如图所示在图5（c）中，仅需要分类器和生成器的浅层来预测用于对象定位的激活图。在下文中，我们提供关于所提议的框架的更多细节3.1. 基于低级特征的激活图第一阶段所设计的激活图生成器g被合并到图像分类器c的浅层中，其将分类器分成两个子网络c和c（如图1所示）。5（a））。具体地，给定输入im-年龄I，可以如下导出低级特征：fc=Fc（I;Wc），（1）1 1本机部分丢失像素相关性和扩展线索。在相反，在我们的设置中，我们向要丢弃的区域添加约束，并以自适应概率丢弃像素。剩余注意力网络（RAN）[32]堆叠多个注意力模块以捕获混合注意力。注意分支网络（ABN）[6]引入了具有注意机制的分支结构。这种建立在顶层上的分支结构同样，我们的方法设计了一个子网络来同时产生激活图，但在浅层。3. 方法所提出的两阶段学习框架的细节在图中呈现。五、第一阶段：如图所示。5（a）、其中f cRh×w×c是低层特征。 WC代表表示c的学习参数。h、w、c分别表示fc的高度、宽度和通道数。为了生成激活图pa，fc被馈送到生成器，生成器由编码器-解码器层d、2D卷积层（Conv）和批归一化层（BN）组成：fa=Fd （ fc;Wd ），pa=BN （ Conv （ fa;Wp）），（2）其中Wd和Wp分别表示Fd和Conv-BN层的学习参数，fa∈Rh×w×k是具有k个通道的Fd的输出特征，其中k表示类别的数量。pa∈Rh×w×1是生成的激活图。在子网络Fc之后，Fc旨在产生频率135FF22FF22LLF我Σkye2FF22CF·图5：拟议的两阶段学习框架概述。 (a)第一阶段由两个分类损失监督，发电机g c aF，将低级特征转变成粗略激活图p。（b）第二阶段。该网络由生成器g（从第一阶段初始化）和评估器e组成。评估器旨在通过评估损失评估发生器预测的激活标测图。此外，加权熵损失，注意擦除，和面积损失提出了逆向驱动发电机细化粗激活地图。(c)定位对象的推理。类概率分布y=：此外，辅助分类头跟随翼y=Fc（pa·f;Wc），（3）其中Wc表示c的学习参数，pafc是pa和fc的逐点乘积。PA充当掩模以掩盖掉FC中的背景杂波。为了获得更准确的激活图，在Fd之后添加辅助分类头，包括一个全局平均池化（GAP）层和一个卷积（Conv）层：其中，Wp表示Conv的学习参数。具有对应的图像级独热编码标签y，分类损失c（y，y（）和c（y，y（a），分别对应于y（和y（a），被公式化为：G可以进一步鼓励G学习低级特征中的对象的更多潜在信息，使得激活图PA包括更多细节和上下文信息。注意力分支网络（ABN）[6]与我们的模型具有类似的架构。然而，存在若干差异：（1）我们采用低级特征作为区域指导来生成粗略激活图p a。与ABN中使用的高层特征相比，低层特征保留了目标的更多细节和轮廓信息，更适合于目标的局部化。(2)低级特征通常包含高频噪声，树枝和砾石基于该观察，添加编码器-解码器层d以缓解该问题。(3)我们的网络架构是Lc（y，y）=−Σyi日志KeyˆiΣkeyjΣ，（5）以保留来自低级特征的更多信息。I jΣ。ey3.2. 熵引导精化一Lc（y，y）=−yi日志我a.（六）JJ普卢德我 p一Fa分类损失y评估损失payae布吕注意擦除普卢德FCy分类损失FC我塞普茨1塞普茨2塞普茨1(a)第一级Fa布吕格(b)二阶段加权熵损失面积损失pa普卢德激活标测图生成器分类器Conv卷积阈值化编码-解码层特征图塞普茨Fa布吕格(c)推理评估器σSigmoid函数逐点乘积1ConvBNσK.1362FF第二阶段。如图5（b），该网络─体系结构由分类器的浅层、g和c在组网时可以互补工作训练如前所述，在将fc馈送到应用分类子网络c，p，a来屏蔽背景杂波因此，在监督下标签y，生成器g学习探索上下文。低层特征中的实际语义，即：激发物体在pa中的生成器和评估器。浅层和生成器从第一阶段开始初始化监督而在评价者的评价中，评价者的评价，ator，旨在评估生成的激活的质量地图在此基础上，我们进一步提出了加权的熵损失，注意擦除，和面积损失，以解决上述限制。σConvBNσConv间隙ConvBN137i、jLLLΣ−i、ji、ji、ji、ji、ji、ji、jWW（一）(b)（c）第（1）款（d）其他事项（一）（b）第（1）款(c)图7：各种擦除策略。（a）随机擦除。（b）时代─使所述区域具有高于阈值的激活（c）删除图6：在没有（a）和有（b）熵损失的情况下学习的激活图示例。(c)示出了具有不同参数设置的加权函数，即，μ，σ。网络的前向推理可以被公式化为：fc=Fc（I;Wc），（7）一个有限矩形内的区域。(d)所提议的有意擦除。虽然这促使我们扩展Eq。131 1在我们的《易经》中，有一个“易经”，叫做“易经”。pa=Fg（fc;Wp），（8）y=Fe（I·pa;We*），（9）如图所示图6（c）中所示的方法用于将自适应权重分配给具有较大不确定性的像素具体地，所提出的加权熵损失为：其中，Wc和Wp从第一阶段开始初始化，预L（pa）=1Σ Σγ·H（X），（14）1训练参数We*评估者Fe都是固定的whw i=1j =1i、ji、j第二阶段的总训练损失可以被公式化为：其中γi，j定义为：L= Le（y，y）+αLw（pa）+βLa（pa），（10）γi，j=e−（pa−µ）22σ2，（15）我们采用Eq。5作为评估损失E。w是加权熵损失，a是面积损失。α和β是超参数。此外，为了得到更完整的客体激活图，设计了注意擦除并应用于模型训练中。3.2.1加权熵损失熵，随机变量X的不确定性的度量，定义为：H（X）=−P（x）logP（x），（11）x∈X其中P（x）是事件x的发生概率。最小化熵H（X）可以减小X的不确定性。基于这一观察，我们提出了熵损失，以减少激活地图pa的不确定性。激活图pa中的第（i，j）个像素表示为随机变量Xi，j，其取值为1（即前景）和0（即，背景）。因此，P（Xi，j=1）=p a，P（Xi，j=0）= 1 p a。具体地，单个像素的熵可以被公式化为：H（Xi，j）=−palog（pa）−（1−pa）log（1−pa），（12）其中p a指示p a的第（i，j）个元素。则p a的熵损失被定义为X i，j的熵的平均值：0.50.50.50.50.10.10.10.10.50.50.50.50.10.90.90.10.50.50.50.50.10.90.90.10.50.50.50.50.90.10.10.1138ΣΣhhw其中，σ和µ分别表示高斯分布的方差和均值在我们的设置中，σ = 0。1，μ= 0。五、与评估损失和加权熵损失时，发生器倾向于激发前景像素并抑制背景像素，这会生成精确且分离良好的激活图（图1）。3（c））。图虽然图6示出了在没有（a）和具有（b）熵损失的情况下学习的激活图的示例，但是可以观察到不确定像素的数量（0.5）已经通过所提出的熵损失而显著减少。3.2.2注意擦除利用图像级标签，分类网络主要突出最具区分性的对象区域。然而，精确定位需要对象的完整区域。已经提出了许多擦除策略，以鼓励网络在激活图的生成期间探索对象的较少区分的区域。图7比较了多个可用的擦除策略。如图所示，随机区域擦除可以涉及背景像素（图1B）。7（a）），擦除激活高于阈值的区域有时会导致整个对象的移除（图7）。7（b））。为了进一步提高我们低级的完整性h w 基于特征的激活图，我们设计了一个所谓的atten-L（pa）=1H（Xi=1j =1i、j）的情况。（十三）在本文中，主动擦除，随机擦除区域在像素级。首先，我们选择了峰值响应坐标139一HWi、j图8：CUB-200-2011上定位结果和细化激活图的可视化。地面实况和预测边界框分别以蓝色和绿色突出显示。以产生具有随机高度和宽度的矩形如图在图7（c）中，矩形旨在限制擦除区域，使得仅具有高于阈值的值并且落入矩形中的像素被认为是用于擦除的候选。然后以0.5的概率丢弃候选像素（图1A）。7（d））。与图中的其他策略相比。7、我们的方法可以鼓励网络探索整个对象，同时保留部分区分区域。3.2.3面积损失到目前为止，在激活图pa上没有区域约束，这可能导致产生用于不准确对象定位的过大边界框。为了解决这个问题，我们提出面积损失：图9：CUB-200定位结果的可视化2011.地面实况和预测边界框分别以蓝色和绿色突出显示ClsErr LocErr方法比较Top1Top5Top1Top5CorLoc[44]第四十四话26.28.558.9449.3455.1[36]第三十六话----56.5[41]第四十一话--53.3642.28-[16]第十六话23.26.643.4631.5872.6GC-Net--GoogLeNet [16]23.26.641.4229.0075.3DA-Net-Inception-V3 [37]28.89.450.5539.5467.0CAM-VGG16 [44]23.47.555.8547.8456.0ACoL-VGG16 [40]28.1-54.0843.4954.1TSC-VGG16 [8]----65.5ADL-VGG16 [3]34.7-47.64--DA-Net-VGG16 [37]24.67.747.4838.0467.7RCAM-VGG16 [1]29.9-42.63-78.6I2 C-VGG16 [42]--44.0131.66-GC-Net-Elli-VGG16 [16]23.27.741.1530.1074.9GC-Net--VGG16 [16]23.27.736.7624.4681.1Ours（ORNet）-VGG1623.07.032.2619.2386.2表1：在CUB-200-2011测试集上，所提出的方法与最新技术这里h wL（pa）=1Σ Σpai=1j=1.（十六）ClsErr LocErr这鼓励生成器减少不相关背景杂波的激励，并确保激活图的紧凑性以用于准确的对象定位。在熵引导的细化阶段，网络架构和组件都被设计为对抗性图3（a）和（b）给出了从阶段一和阶段二生成的激活图的示例。可以发现，在细化之后可以生成更准确、分离良好、完整和紧凑的激活图。4. 实验我们在CUB-200- 2011 [30]和ImageNet-1 K [24]数据集上评估了所提出的方法。广泛的实验表明，我们的方法始终实现显着的改进，这些基准。此外，还进行了定量分析，以验证各组分的有效性。我们还将我们的本地化模型应用于人员重新识别数据集，如市场，表2：在ImageNet-1 K验证集上，所提出的方法与最先进的方法这里1501 [43]、Duke-MTMC [23]和MSMT 17 [34]以及像Standford Dog [10]和FGVC-Aircraft [18]这样的细粒度分类数据集，并显示补充材料中的视觉结果。结果清楚地证明，我们的模型可以实现强大的定位结果在大量不同的对象。方法比较Top1Top5Top1Top5CorLoc[25]第二十五话--61.3150.55-GMP-GoogLeNet [4]35.613.957.7845.26-CAM-InceptionV3 [44]--53.7141.8162.68[27]第二十七话--54.53-[41]第四十一话--51.4040.0064.69[40]第四十话29.011.853.2842.58-DA-Net-InceptionV3 [37]27.58.652.4741.72-GC-Net--InceptionV3 [16]22.66.450.9441.91-[25]第二十五话--61.1251.46-CAM-VGG16 [44]33.412.257.2045.14-ACol-VGG16 [40]32.512.054.1740.5762.96ADL-VGG16 [40]30.5-55.08--RCAM-VGG16 [1]34.8-43.91-61.48I2 C-VGG16 [42]30.610.752.5941.4963.90PSOL-VGG 16-Sep [38]--49.1139.1064.03Ours（ORNet）-VGG1628.49.647.9536.0668.27140××≥≥图10：ImageNet-1 K数据集上的定位结果和细化激活图的可视化。地面实况和预测边界框分别以蓝色和绿色突出显示。4.1. 实验装置数据集。CUB-200-2011 [30]是一个包含200种鸟类的细粒度分类数据集它由11788张图像组成ImageNet-1K [24]包含来自1000个对象类别的图像，这些图像被分成130万张用于训练的图像和50000张用于测试的图像。我们只使用测试图像的边界框注释进行评估。实作详细数据。所有训练图像首先被调整大小为256 256，然后通过随机裁剪被增强为224 224。我们采用Adam作为默认优化器，权重衰减0.0。我们采用余弦退火策略[15]来调度学习速率。此外，对于CUB-200-2011数据集，小批量大小为16。第一阶段的初始学习速率为0.001，第二阶段为0.0001。训练时期的数量是100，包括用于阶段一的70个时期和用于阶段二的30个时期。对于ImageNet-1 K数据集，我们将mini-batch大小设置为256.第一阶段的初始学习率为0.001，第二阶段的初始学习率为0.0001;阶段一有5个时期，阶段二有3个时期。我们的模型在PyTorch [20]中实现，并在具有16GB内存的NVIDIA Tesla P100 GPU上进行训练。评估指标。在[5，24]之后，我们采用定位误差（LocErr）、正确定位（CorLoc）、Top1准确度和Top5准确度作为评估所提出方法的性能的度量Lo-cErr是基于Topl准确度和位置准确度来计算的，仅当两个定位（即，IoU 0.5）和分类是正确的。对于CorLocmetric，只要定位正确，预测就是正确的。正确的（即，IoU彡0.5）。4.2. 与最新技术水平的目视比较。如图2，CAM [44]主要集中在对象的最有区别的部分（例如，鸟头）。ADL [3]减轻了对代表性特征的依赖。然而，它并没有完全解决LocErr组件Top1 Top5 CorLoc第一阶段64.52美元Le44.36 33.02 71.35Le+αLw36.05 23.40 81.68Le+βLa44.01 32.40 72.11Le+AE45.75 35.02 69.14Le+αLw+βLa37.31 24.92 80.10Le+αLw+AE33.21 20.21 85.09Le+βLa+AE39.99 27.91 76.68Le+αLw+βLa+AE32.26 19.23 86.19表3：使用不同分量（包括Le、Lw、La和AE）对CUB-200-2011数据集的对象定位性能的比较。LocErr组件Top1 Top5 CorLocLe+βLa+AE+αLh42.53 31.34 72.89Le+βLa+AE+αLw32.26 19.23 86.19表4：熵损失Lh和加权熵损失Lw在CUB-200-2011数据集上的定位性能。CAM的固有缺陷。相比之下，在我们的两阶段设置，激活映射是精确的，良好分离，紧凑。图8和图10分别是我们的方法在CUB-200-2011和ImageNet-1 K上的可视化结果此外，Fig.9表明，我们的算法也是强大的，即使在嘈杂的环境中定位对象。补充资料中提供了其他数据集的更多可视化结果。定量比较。表1显示了与CUB-200- 2011 [30]数据集上最先进方法的比较结果。如表所示，我们的方法在所有评估指标方面具有最佳的本地化性能。具体而言，我们的方法实现了显着的改进5。1%的CorLoc和4.Top1 Loc Err超过最先进 GCNet 的5%[16]。与CAM-VGG相比，本文方法的性能有30. 2%，23。在CorLoc和Top1 LocErr上分别为59%表2提供了ImageNet-1 K [24]数据集的结果。我们的方法达到68。27%的CorLoc，优于所有被认为是最先进的方法（例如PSOL [38]，I 2 C [42]）大幅度（4.16%）。当考虑VGG 16时，我们的模型也实现了比其他方法如CAM和ADL更好的分类精度。由于GC-Net和我们的模型都直接采用ImageNet训练的公开可用的主干，即Inception-V3或VGG-16作为分类器，ClsErr与激活图的生成器无关因此，我们的VGG-16的分类精度低于GC-Net中使用的Inception V3。然而，我们的模型仍然实现了低得多的Top1 LocErr（ 47. 95%）和Top5LocErr（36. 06%）比DA-Net- Inception V3（52. 47%和41。72%）和GC-Net-Inception141= 0.01= 0.015= 0.02= 0.025= 0.03CorLocTop1 LocErrTop5 LocErr度量度量LFFLLAEL LAELL LAEL L LAELAELL LAEL L L L LAELLLL708086608560508440408320301.00 1.25 1.501.75(a) 超参数α和β的分析。0.2 0.4 0.6 0.8阈值(b) 对CUB-200-2011的分析。0.2 0.4 0.6 0.8阈值(c) ImageNet-1 K上的阈值分析图11：参数α和β的灵敏度分析以及阈值处理程序。V3（50. 94%和41。91%）。Top1和Top5 LocErr同时考虑了定位和分类的准确性。只有当定位和分类都正确时，预测虽然正确分类的图像数量较少，但LocErr的结果表明，我们的模型实现了比DA-Net和GC-Net更高的定位精度。4.3. 消融研究我们现在使用CUB-200- 2011 [30]数据集进行消融研究，以评估不同损失函数和注意力消除的有效性。我们首先调查的有效性，不同的组合所提出的组件。表3示出了每个损失函数和衰减擦除（即，评估损失E、加权熵损失W、区域损失A和注意擦除）。如表所示，在第一阶段训练的生成器仅达到64。52%CorLoc评分。然而，在SEC-第二阶段，CorLoc的实质性改进，即六、百分之八十三通过集成由以下参数监督的评估器e来e.这验证了e.此外，w单独也能显著提高模型的性能，即10个。CorLoc改善33%，8. 31%和9。Top1 LocErr和Top5 LocErr降低62%。这表明，良好分离的置信图基本上减少了前景和背景区域之间的模糊性，这有利于准确定位的阈值处理过程。正如所料，集成或不能提高性能，因为这两个部件是彼此互补的。 e + a+可以显著提高CorLoc（从71. 35%至76。68%），降低LocErr评分。此外，委员会认为，e+W+本发明公开了一种复合材料，e+w+或a+a+也由于加权熵损失w或a和的组合的有效性而提高了性能。三种损失函数的组合e、w、a和注意擦除，进一步将CorLoc从71增加。35%至86。19%，并且将Top 1 Lo-cErr和Top 5 LocErr从44. 36%至32。26%，从33。02%至19。分别为23%表4列出了激活图细化的性能使用加权熵损失w（等式14）和平均熵损失h（等式14）。第13段）。如表中所示，w将Cor_Loc从72增加。 89% 至 86 。 19% ，并且将 Top 1 LocErr 和 Top 5LocErr从42降低。53%至32。26%，从31。34%至19。分别为23%4.4. 敏感性分析在等式2中存在两个超参数α和β。10个。在CUB-200-2011测试集上对这两个参数进行灵敏度分析，结果见图10。第11条（a）款。如图所示，通过α和β的宽范围设置获得稳定的CorLoc性能。这表明我们的方法对超参数设置的敏感性较低，性能稳定性良好。在实验中，α和β的缺陷值分别为1.5和0.02.图图11（b）和（c）显示了CUB-200-2011测试集和ImageNet-1 K验证集上的阈值敏感性分析可以看出，当阈值从0.2变化到0.8时，我们的方法的性能是稳定的，这证明了加权熵损失w可以大大减少不确定像素的数量（0.5），并提高我们的方法对阈值设置的鲁棒性。5. 结论与讨论本文提出了一个两阶段的学习框架，以探索低层次的功能为基础的激活地图弱监督对象定位。第一阶段使用低级特征来产生具有丰富上下文信息的目标对象的激活图。第二阶段细化激活地图的基础上提出的加权熵损失，导致一个准确的像素级的对象定位。在CUB-200-2011和ImageNet-1 K数据集上的实验验证了该框架的有效性我们的工作建议gests一个有前途的替代弱监督语义和实例分割。致谢本研究得到了国家自然科学基金项目91959108的资助。CorLocTop1 LocErrTop5 LocErrCorLoc142引用[1] Wonho Bae，Junhyug Noh，and Gunhee Kim.重新思考弱监督对象局部化的类激活映射在欧洲计算机视觉会议（ECCV），第618-634页，2020年。6[2] Loris Bazzani、Alessandra Bergamo、Dragomir Anguelov和Lorenzo Torresani。使用深度网络自学目标定位。在IEEE Winter Conference on Applications of ComputerVision（WACV）中，第1-9页，2016年。一、二[3] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层在IEEE计算机视觉和模式识别会议（CVPR）中，第2219-2228页一二三六七[4] Ramazan Gokberk Cinbis，Jakob Verbeek，and CordeliaSchmid. 弱监督目标定位的多重mil训练在IEEE计算机视觉和模式识别会议（CVPR）中，第2409-2416页，2014年。一、二[5] Thomas Deselaers Bogdan Alexe和Vittorio Ferrari弱监督定位和通用知识学习。International Journal of ComputerVision（IJCV），100（3）：275-293，2012. 7[6] HiroshiFukui，TsubasaHirakawa，TakayoshiYamashita，and Hironobu Fujiyoshi.注意分支网络：视觉解释的注意机制学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第10705-10714页，2019年。三、四[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。3[8] 何翔腾和彭宇新。细粒度图像分类中带空间约束的部分选择模型的弱监督学习。在 AAAI 人工智能会议（AAAI），第31卷，2017年。6[9] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第7132-7141页，2018年。3[10] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。一种新的用于细粒度图像分类的数据集。IEEE计算机视觉与模式识别研讨会（CVPRW），2011年。6[11] Dahun Kim，Donghyeon Cho，Donggeun Yoo，and InSo Kweon.弱监督对象定位的两阶段学习。在IEEE国际计算机视觉会议（ICCV）中，第3534-3543页，2017年。一、二[12] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and Yun Fu.引导注意推理网络。IEEE Transactions onPattern Analysis and Machine Intelligence（TPAMI），42（12），2019。2[13] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第936-944页，2017年。1[14] 刘伟，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy ， Scott E. Reed ， Cheng-Yang Fu ， andAlexander C.伯格。Ssd：单发多盒探测器。在欧洲计算机视觉会议（ECCV）中，第211[15] 伊利亚·罗希洛夫和弗兰克·哈特。SGDR：带有热重启的随机梯度下降在2017年国际学习表征会议（ICLR）7[16] Weizeng Lu ， Xi Jia ， Weicheng Xie ， Linlin Shen ，Yicong Zhou，and Jinming Duan.几何约束的弱监督对象定位。在欧洲计算机视觉会议（ECCV），第481一二三六七[17] 麦金杰，杨梦，罗文峰。擦除集成学习：一种简单而有效的弱监督对象定位方法。在2020年IEEE/CVF计算机视觉和模式识别会议上，CVPR 2020，美国华盛顿州西雅图，2020年6月13日至19日，第8763- 8772页，2020年。2[18] Subhransu Maji 、 Esa Rahtu 、 Juho Kannala 、 MatthewBlaschko和Andrea Vedaldi。飞机的细粒度视觉分类。arXiv预印本arXiv：1306.5151，2013。6[19] Jongchan Park，Sanghyun Woo，Joon-Young Lee，andIn So Kweon.BAM：瓶颈注意模块。在英国机器视觉会议（BMVC），第147页，2018年。3[20] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。arXiv预印本arXiv：1912.01703，2019。7[21] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别会议（CVPR）中，第779-788页，2016年。1[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），39（6）：11371[23] 放大图片作者：Ergys Ristani，Francesco Solera，RogerS.邹河，巴西-地库奇亚拉和卡洛·托马西。多目标、多相机跟踪的性能测量和数据集。2016年欧洲计算机视觉研讨会（EC

下载后可阅读完整内容，剩余1页未读，立即下载