弱监督目标定位中的分类和定位差距及其对CAM性能的影响

57 浏览量更新于2023-10-25 收藏 15.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

-111010Feature vectorClass-specific weight142580弱监督目标定位的分类和定位之间的桥梁0Eunji Kim 1 Siwon Kim 1 Jungbeom Lee 1 Hyunwoo Kim 2 Sungroh Yoon 1 , 3 *01 首尔国立大学电气与计算机工程系，2 LG AI研究，3首尔国立大学AI跨学科计划，AIIS，ASRI，INMC和ISRC0{kce407, tuslkkk, jbeom.lee93}@snu.ac.kr, hwkim@lgresearch.ai, sryoon@snu.ac.kr0摘要0弱监督目标定位旨在在给定图像中仅使用弱监督（例如图像级标签）找到目标对象区域。大多数现有方法使用类激活图（CAM）生成定位图；然而，CAM仅识别目标对象最具有区分度的部分，而不是整个对象区域。在这项工作中，我们发现了分类和定位之间的差距，即输入特征和类别特定权重之间的方向不一致。我们证明了方向不一致抑制了CAM在较少具有区分度但属于目标对象的区域的激活。为了弥合这一差距，我们提出了一种方法来使特征方向与类别特定权重对齐。该方法在CUB-200-2011和ImageNet-1K基准测试中实现了最先进的定位性能。01. 引言0目标定位旨在在给定图像中找到目标对象的区域[5, 13, 18, 19,23]。然而，完全监督的方法需要准确的边界框注释，这需要巨大的成本。弱监督目标定位（WSOL）是一个很好的替代方法，因为它只需要图像级标签来训练定位模型[3, 4, 17, 21,27]。WSOL最常用的方法是类激活图（CAM）[33]。基于CAM的方法使用全局平均池化（GAP）层[12]，然后是全连接（FC）层，并在GAP层之前的特征图上生成CAM。CAM中的高度激活区域被预测为目标位置。然而，广泛观察到CAM仅识别对象的最具有区分度的部分，而不是整个对象区域，导致定位性能较低。我们提出了一个问题：“为什么从香草方法[33]生成的CAM无法突出显示整个对象区域？”为了回答这个问题，我们提供了将CAM分解为两个术语的新视角：（1）特征图中的激活和（2）每个空间位置处的特征向量与FC层中的类别特定权重之间的余弦相似度。图1（a）显示，香草模型的CAM只高度激活了鸟的身体，而翅膀的激活较低。然而，从特征图中的激活来看，翅膀和身体都高度激活。翅膀区域的低相似度抵消了CAM中的激活。0*通讯作者：Sungroh Yoon（sryoon@snu.ac.kr）。0特征图中的激活相似性CAM0香草EIL0我们的输入图像0特征图中的激活0训练进展0相似性0图1.（a）使用香草方法[33]和EIL[15]训练的分类器的CAM和分解术语示例。（b）随着我们的方法的训练进展，CAM和分解术语的可视化变化。0准确的分类器无法突出显示整个对象区域吗？为了回答这个问题，我们提供了将CAM分解为两个术语的新视角：（1）特征图中的激活和（2）每个空间位置处的特征向量与FC层中的类别特定权重之间的余弦相似度。图1（a）显示，香草模型的CAM只高度激活了鸟的身体，而翅膀的激活较低。然而，从特征图中的激活来看，翅膀和身体都高度激活。翅膀区域的低相似度抵消了CAM中的激活。-1101 01142590特征图中的激活使得CAM中的区域在CAM中变得不可见。在这里，我们发现低余弦相似度，即特征方向与类别特定权重的不一致，阻止了属于目标对象的较少具有区分度的部分在CAM中高度激活。这是因为仅针对分类的训练仅考虑了所有位置上的平均特征，而不是每个空间位置上的特征。这导致了分类和定位之间的差距。虽然已经提出了各种方法来将激活区域扩展到CAM中的整个对象区域[4, 15, 27, 28, 30,31]，但它们都没有发现或减轻不一致性。图1（a）显示，EIL[15]是这些方法之一，它扩展了特征图中的激活区域。然而，它未能增加对象区域中的相似性；因此，扩展效果在CAM中不如在特征图的激活中大。为了弥合分类和定位之间的差距，我们提出了特征方向对齐方法，该方法增强了整个对象区域中特征方向与类别特定权重的对齐，同时抑制了背景区域中的对齐。我们还引入了具有注意力丢弃一致性，以确保目标对象区域在特征图中具有均匀高的激活。图1（b）显示，随着训练的进行，我们的方法逐渐将特征方向与类别特定权重对齐。对齐结果导致了较少具有区分度的区域（例如翅膀）在CAM中的高激活，实现了整个对象的准确定位。我们在最广泛使用的WSOL基准数据集CUB-200-2011[25]和ImageNet-1K[19]上评估了我们的方法。我们的方法在两个数据集上都实现了最先进的定位性能。本文的贡献可以总结如下：0•我们通过将输入特征的方向与类别特定向量的方向对齐来解释CAM，并发现了分类和定位之间的差距。0•我们提出了一种方法，通过将特征方向与类别特定权重对齐来弥合分类和定位之间的差距。0•我们证明了我们提出的方法在CUB-200-2011和ImageNet-1K数据集上优于其他最先进的WSOL方法。02. 相关工作0WSOL方法通过使用图像级标签训练模型来定位对象。Zhou等人[33]通过GAP层[12]引入了CAM来识别目标对象的位置。然而，它无法识别整个对象区域。已经提出了各种方法来激活CAM中的整个对象区域。HaS[21]使用训练分类器0输入图像0图2.CAM和分解项F和S的示例来自一个原始模型。CAM和F经过归一化处理，以便可视化。它显示了特征方向与类别特定权重的不对齐。0使用随机补丁擦除的图像。ACoL[30]使用两个并行分类器来识别互补区域。ADL[2,4]在单次前向传递中随机丢弃注意力特征。Ki等人[8]引入了前景特征和背景特征的对比学习。EIL[15]采用额外的前向传递来使用高度激活的区域进行分类。SPG[31]利用深层特征指导浅层特征，I2C[32]使用两个不同图像之间的像素级相关性。CutMix[28]结合了来自不同图像的两个补丁，并根据每个补丁的面积分配新的类别标签。DANet[27]利用分类标签的层次结构来利用不同的激活。已经尝试以不同的方式获取定位图，指出了基于CAM的方法的局限性。Pan等人[17]提出了一种利用高阶点对点相关性生成定位图的方法。Kim等人[10]提出了一种学习预测识别线索位置的CALM。已经提出了几种规范化方法，以从连续的定位图中获取预测对象位置的边界框。Bae等人[1]提出了几种解决GAP中偏差的方法，包括一种新的规范化方法PaS，它限制了激活图的最大值。IVR[9]是一种限制激活图最小值的规范化方法。一些工作除了分类外还采用了辅助模块进行定位。GC-Net[14]采用了一个单独的检测器进行定位，该检测器通过几何约束进行训练。FAM[16]通过内存机制生成一个类别无关的前景图。ORNet[26]采用了一个额外的激活图生成器，并以在线方式优化激活图。PSOL[29]、SLT-Net[6]和SPOL[24]使用两个独立的网络进行分类和定位。DropCNNCNNCNNBronzedCowbirddropdropdropsimnormCE...CAM(x) = w⊺c F(x).(1)CAMu(x) =wc · Fu(x)=∥wc∥∥Fu(x)∥wc · Fu(x)∥wc∥∥Fu(x)∥S(wc, Fu(x)),(2)logitc(x) =wc · f(x)=∥wc∥ ∥f(x)∥ S (wc, f(x)) .(4)142600全局平均池化 Softmax0权重共享0规范化0相似度0特征方向对齐（第4.1节）与注意力丢弃的一致性（第4.2节）0图3. 提出方法的概述。它由两个策略组成：特征方向对齐和与注意力丢弃的一致性。0我们的方法旨在解决分类和定位之间的差距，而不采用任何辅助模块。采用额外模块甚至单独的模型的方法使用更多的参数和计算资源。因此，我们主要与使用单一分支的WSOL方法进行比较，以进行公平比较。03. 通过CAM分解找到差距0给定输入图像 x和由卷积层、GAP和FC层组成的典型图像分类器，计算目标类别 c 的CAM的方法如下：0F ( x ) ∈ R H × W × D 是GAP之前的特征图，w c ∈ RD 是连接到类别 c 的FC层的权重，其中 H ， W 和 D分别是高度、宽度和维度。方程式 1意味着每个空间位置的CAM值是两个向量 w c 和 F u ( x )的点积，其中 u ∈ { 1 , ..., HW }是空间位置的索引。它可以分解如下：0其中 S ( a , b ) 是两个向量 a 和 b之间的余弦相似度。在生成CAM时，目标类别 c是固定的，对于每个 u ，∥ w c ∥是相同的。现在，每个位置的CAM值可以解释为相应位置的特征向量的范数和类别特定权重向量之间的相似度的乘积。设 F ∈ R H × W 和 S ∈ R H × W分别为范数图和相似度图，其中 F u = ∥ F u ∥ 且 S u = S( w c , F u ( x )) 。因此，CAM可以重写为0因此 CAM ( x ) = ∥ w c ∥ ∙ F ⊙ S . (3)0为了准确地定位目标对象，对于属于该对象的 u ，F u 和 Su 都应该很大。同样，分类分数可以通过GAP的输出 f ( x )= GAP ( F ( x )) ∈ R D 来解释。0由于对于 x ，∥ f ( x ) ∥ 是固定的，∥ w c ∥ 和 S ( w c , f (x )) 决定了每个类别 c 的logit分数。∥ w c ∥在类别之间的尺度变化不是很大。因此，为了正确分类 x，必须使 S ( w c , f ( x )) 对于真实类别 c很大。这里存在分类和定位之间的差距。分类器被训练为增加 S ( w c , f ( x )) ，而不是增加 u 属于对象区域的 S ( w c ,F u ( x ))。余弦相似度被解释为两个向量方向的对齐程度，这意味着对象区域的输入特征向量和类别特定权重向量在仅进行分类训练时不能保证对齐。这导致模型无法在CAM中定位整个对象。图 2 显示了来自基准模型的一些范数图 F ，相似度图S 和CAM的示例。范数图 F中也有一些不太具有区分性但属于对象的区域，包括鸟的翅膀和身体。然而，这些区域在最终的CAM中没有被激活，因为 S 中的值很小。尽管 F包含了用于定位的相当多的信息，但由于特征方向与类别特定权重的不对齐，其效果减弱了。在下一节中，我们提出了一种通过对齐特征方向来填补分类和定位之间差距的方法：调整输入特征和类别特定权重之间的余弦相似度。(5)umumgavgLdrop = ∥F(x) − Fdrop(x)∥1.(9)1426104. 通过对齐填补差距0我们在第 4.1 节中描述了如何对齐特征方向。第 4.2节介绍了一种增强特征方向对齐效果的额外策略，即与注意力dropout的一致性。第 4.3 节描述了整体训练方案。图3 显示了我们提出的方法的概述。04.1. 特征方向的对齐0为了增强CAM中整个对象区域的激活，我们希望 F u 和 w c之间的余弦相似度对于属于目标对象的 u很高，对于背景区域很低。因为 F中的高激活意味着在相应位置存在分类的线索，我们根据归一化的 F 将特征图的区域划分为粗糙的前景区域 R norm fg和背景区域 R norm bg。0R norm fg = {u | ˆ F u >0R norm bg = {u | ˆ F u <0其中ˆ F = F - min 0max i F i - min i Fi。0τ fg和τ bg是确定前景和背景区域的常数阈值。请注意，τfg和τ bg不相同；因此，存在一个未知区域既不包含在Rnorm fg中也不包含在R norm bg中。为了增加R normfg中的S u 并抑制R norm bg中的Su，我们定义相似度损失如下：0L sim = -10|R normfg|0u ∈ R norm fg Su + 10|R normbg|0u ∈ R norm bgS u. (6)0仍然存在一种可能性，即对象区域的某些部分在ˆF中具有较低的激活。在这种情况下，Lsim可能不足以进行对齐。因此，我们引入了一个额外的损失项，以增加属于目标对象的每个候选区域中的ˆF。因为正的Su表示u对增加分类逻辑回归起到积极贡献，具有正相似度的区域可以被视为对象区域的候选区域。因此，我们强制激活该区域。我们根据S u 基于 S u 估计对象区域R simfg和背景区域R sim bg，如下所示：R sim fg = {u | S u >0}，0R sim bg = {u | S u < 0}. (7)0对于每个估计的区域，我们以与公式6类似的方式定义了范数损失，如下所示：0L norm = -10|R simfg|0�0ˆ F u + 10|R simbg|0�0ˆ F u. (8)0阈值0avg avg max0丢弃0图4. 具有注意力丢弃一致性的丢弃机制0对于细粒度分类，例如鸟类物种分类，要识别的对象在各个类别中是相同的。在这种情况下，我们将与任何类别具有非正相似度的区域定义为R sim bg，其他区域定义为R simfg。一般来说，R sim bg和R simfg是根据与目标类别的相似度来定义的。L sim和Lnorm这两个损失项是互补的。通过最小化L sim，ˆF中高度激活的区域的S值增加。通过最小化Lnorm，高相似度区域中ˆ F的值增加。在联合最小化L sim和Lnorm之后，ˆ F中的激活区域和S中的激活区域变得相似。04.2. 具有注意力丢弃一致性0当对R norm fg和R normbg的估计准确时，我们可以预期通过L sim成功对齐：ˆF在整个目标区域上一直很大，在背景区域上很小。因为最具区分性区域的F值明显大于其他区域的F值，所以对象区域中属于较不具区分性部分的归一化映射ˆF的值变小。我们引入了一种一致性的注意力丢弃方法，将激活分配给目标对象区域。我们采用两个特征图F和Fdrop之间的L1损失：F是中间特征图F'的前馈结果，Fdrop是通过有意地从F'中丢弃大激活获得的F'drop的前馈结果。图4显示了获得具有注意力丢弃一致性的F'drop的整个过程。在F'中，通道平均激活大于γ的空间位置的激活以概率p被丢弃。随机丢弃防止高度激活区域中的所有信息被消除。注意力丢弃一致性的损失如下：0已经有几次尝试使用类似的擦除机制 [ 4 , 15 , 30]。他们训练一个分类器在擦除高度激活的特征之前和之后保留预测的标签Ltotal = LCE + λdropLdrop + λsimLsim + λnormLnorm, (10)Lwarm = LCE + λdropLdrop.(11)1https://github.com/clovaai/wsolevaluation142620激活的特征。相比之下，我们的方法明确地规范化模型，使其在高度激活的特征被丢弃后仍产生相似的特征图。这减少了对被丢弃特征的依赖性，使激活更加均匀分布，相比其他方法更好。04.3. 训练方案0使用交叉熵损失进行分类，L CE ，总损失函数定义如下：0其中，λ drop ，λ sim 和 λ norm是用于平衡损失的超参数。特征方向对齐在一定程度上训练分类器后更好地应用于获得适合分类的特征图。因此，在前几个时期（即热身阶段），我们只使用 L CE 和 L drop训练模型：05. 实验05.1. 实验设置0数据集。我们在两个流行的基准数据集上评估我们的方法：CUB-200-2011 [ 25 ] 和 ImageNet-1K [ 19]。在CUB-200-2011数据集中，有5994张用于训练和5794张用于测试的鸟类图像。在ImageNet-1K中，训练集中有大约130万张图像，验证集中有5万张图像，来自1000个不同的类别。评估指标。根据Russakovsky等人的工作[ 19]，我们使用Top-1定位准确性（Top-1Loc），Top-5定位准确性（Top-5Loc）和具有地面真实类别的定位准确性（GTLoc）作为我们的评估指标。Top-kLoc是预测的边界框与地面真实边界框的交并比（IoU）大于50％且预测的前k个类别包含地面真实类别的图像的比例。GTLoc是具有地面真实类别的定位准确性，不考虑分类结果。我们还使用MaxBoxAccV2 [ 3]来评估我们的方法。MaxBoxAccV2（δ）测量具有多个IoU阈值δ ∈ { 0.3，0.5，0.7}的地面真实类别的定位准确性。实施细节。我们使用VGG16 [ 20 ]和ResNet50 [ 7]作为主干网络评估我们的方法。对于VGG16，我们采用了GAP层，遵循之前工作[ 33]的训练设置。对于ResNet50，我们将第三层的步幅设置为1。在VGG16中，在最后的池化层之前应用了注意力丢弃，在ResNet50的第四层的第一个块之后应用了注意力丢弃。我们使用ImageNet-1K的预训练权重初始化网络。我们使用最小-最大归一化从生成的CAM中绘制边界框。0方法 Top-1 Top-5 GT Loc0附加分支SLT-Net [ 6 ] CVPR ’21 67.8 - 87.6ORNet [ 26 ] ICCV ’21 67.74 80.77 86.19FAM [ 16 ] ICCV ’21 69.26 - 89.260单分支CAM [ 33 ] CVPR ’16 44.15 52.1656.00 ADL [ 4 ] CVPR ’19 52.36 - 75.41DANet [ 27 ] ICCV ’19 52.52 61.96 67.70 EIL[ 15 ] CVPR ’20 56.21 - - MEIL [ 15 ] CVPR’20 57.46 - - DGL [ 22 ] ACMMM ’20 56.0768.50 74.63 Ki et al . [ 8 ] ACCV ’20 57.50 - -Bae et al . [ 1 ] ECCV ’20 58.96 - 76.30 Panet al . [ 17 ] CVPR ’21 60.27 72.45 77.29我们的方法 70.83 88.07 93.170表1. 基于VGG16的CUB-200-2011测试集的定位性能比较。05.2. 与最先进方法的比较0我们将我们的方法与最近的WSOL方法进行比较。对于其他WSOL方法，我们报告原始论文或由[ 1 , 3 , 9 , 22]复现的定位性能1。我们的方法在单分支上始终以较大的优势超过现有的WSOL方法，跨数据集和主干网络。表1显示了在CUB-200-2011 [ 25]测试集上使用VGG16作为主干网络的定位性能，我们的方法在Top-1 Loc上比Bae等人的工作[ 1]提高了11.87％，在GTLoc上提高了16.87％，这是基于CAM的方法中最先进的方法。此外，我们的方法在采用附加分支进行定位的方法上也表现优异。与FAM [ 16 ]相比，我们的方法在Top-1Loc上提高了1.57％，在GTLoc上提高了3.91％。表2显示了使用ResNet50作为主干网络的结果。它显示我们的方法始终以较大的优势（>13％）超过现有方法，使用不同的主干网络。表3显示了基于VGG16和ResNet50的ImageNet-1K [ 19]验证集的定位性能。我们的方法在ImageNet-1K数据集中实现了最先进的性能，不论主干网络如何，只有ResNet50的Top-1 Loc在I2C之后是第二好的，差距很小。0此外，我们在表4中将我们的MaxBoxAccV2[3]得分与CUB-200-2011和ImageNet-1K上的其他最新方法进行了比较。结果显示，我们的方法在各种骨干网络和数据集上的所有IoU阈值下都大幅优于最新方法。特别是，在IoU阈值为0.7时，我们的方法提高了得分。CUB-200-2011ImageNet-1K142630普通0我们的0图5. 使用VGG16作为骨干网络，对CUB-200-2011和ImageNet-1K数据集上的普通方法和我们的方法进行定位结果比较。蓝色框表示真实边界框，绿色框表示预测边界框。0方法 Top-1 Top-5 GT Loc0CAM [33] CVPR '16 46.91 53.57 - ADL [4]CVPR '19 57.40 - 71.99 CutMix [28] ICCV '1954.81 - - DGL [22] ACMMM '20 60.82 70.5074.65 Ki et al. [8] ACCV '20 56.10 - - Bae et al.[1] ECCV '20 59.53 - 77.58 我们的 73.16 86.6891.600表2. 基于ResNet50的CUB-200-2011测试集定位性能比较。0与Ki et al.[8]的工作相比，我们的方法在CUB-200-2011数据集上使用VGG16和ResNet50分别将严格准确率提高了21.0%p和17.4%p。图5显示了普通方法[33]和我们的方法在CUB-200-2011和ImageNet-1K数据集上的一些定位结果示例。结果显示，使用我们的方法训练的模型比普通模型更准确地捕捉到目标对象区域。在CUB-200-2011数据集上，普通模型无法识别鸟类的尾巴、腿部和翅膀，而使用我们的方法训练的分类器成功地识别了它们。05.3. 讨论0特征方向对齐。通过特征方向对齐，我们强制S和ˆF在对象区域中具有较高的值，在背景区域中具有较低的值。如图6所示，使用我们的方法训练的分类器产生了在对象区域中具有较高值、在背景区域中具有较低值的S，与普通模型不同。它还生成了在较少可辨别区域中具有更高激活的ˆF。0方法 Top-1 Top-5 GT Loc0骨干网络：VGG16 CAM [33] CVPR '16 42.8054.86 - ACoL [30] CVPR '18 45.83 59.43 62.96ADL [4] CVPR '19 44.92 - - CutMix [28] ICCV'19 43.45 - - I2C [32] ECCV '20 47.41 58.5163.90 EIL [15] CVPR '20 46.27 - - MEIL [15]CVPR '20 46.81 - - Ki et al. [8] ACCV '20 47.20- - DGL [22] ACMMM '20 47.66 58.89 64.78Bae et al. [1] ECCV '20 44.62 - 60.73 Pan et al.[17] CVPR '21 49.56 61.32 65.05 我们的 49.9463.25 68.920骨干网络：ResNet50 ADL [4] CVPR '19 48.23 -61.04 CutMix [28] ICCV '19 47.25 - - Ki et al.[8] ACCV '20 48.40 - - Bae et al. [1] ECCV '2049.42 - 62.20 I2C [32] ECCV '20 54.83 64.6068.50 DGL [22] ACMMM '20 53.41 62.69 69.34我们的 53.76 65.75 69.890表3.ImageNet-1K验证集上的定位性能比较。最佳性能为粗体，次佳性能为下划线。0与普通模型相比，CAM成功地识别了整个对象区域。如4.1节所述，特征方向对齐使得ˆF和S相似，从而使得CAM也与它们相似。我们使用F和S生成定位图，并对每种情况进行定位性能评估。我们使用最小-最大值CUB-200-2011ImageNet-1KVGG16ResNet50VGG16ResNet50CUB-200-2011ImageNet-1KCAM70.8388.0793.17F69.9086.6891.96S70.3887.6493.13(b)(a)142640方法0δ 平均 δ 平均 δ 平均 δ 平均 0.3 0.5 0.7 0.3 0.5 0.7 0.3 0.5 0.7 0.3 0.5 0.70CAM [33] 96.8 73.1 21.2 63.7 95.7 73.3 19.9 63.0 81.0 62.0 37.1 60.0 83.7 65.7 41.6 63.7 HaS [21] 92.1 69.9 29.163.7 93.1 72.2 28.6 64.6 80.7 62.1 38.9 60.6 83.7 65.2 41.3 63.4 SPG [31] 90.5 61.0 17.4 56.3 92.2 68.2 20.8 60.481.4 62.0 36.3 59.9 83.9 65.4 40.6 63.3 ADL [4] 97.7 78.1 23.0 66.3 91.8 64.8 18.4 58.3 80.8 60.9 37.8 59.9 83.665.6 41.8 63.7 CutMix [28] 91.1 67.3 28.6 62.3 94.3 71.5 22.5 62.8 80.3 61.0 37.1 59.5 83.7 65.2 41.0 63.3 Ki et al.[8] 96.2 77.2 26.8 66.7 96.2 72.8 20.6 63.2 81.5 63.2 39.4 61.3 84.3 67.6 43.6 65.2 HaS + PaS [1] - - - 61.2 - - - 61.9- - - 62.1 - - - 64.6 CALM [10] - - - 64.8 - - - 71.0 - - - 62.8 - - - 63.4 ADL + IVR [9] - - - 71.5 - - - 67.1 - - - 63.7 - -- 65.1 我们的 99.3 93.2 47.8 80.1 99.4 90.4 38.0 75.9 84.8 69.2 45.9 66.6 86.7 71.1 48.3 68.70表4. 使用不同骨干网络在CUB-200-2011和ImageNet-1K数据集上的MaxBoxAccV2分数比较。0输入图像0原始方法我们的方法我们的方法原始方法0图6.在CUB-200-2011和ImageNet-1K数据集上，使用VGG16作为骨干网络，比较CAM、F和S的结果，原始方法和我们的方法。0从F绘制边界框时，对S进行最大归一化。由于S中的负值表示背景区域，我们对S应用最大归一化。表5显示，使用F和S的定位结果与CAM具有类似的定位性能。这证明了CAM、F和S与我们的方法的一致性。图7(a)显示了原始方法和我们的方法在地面真实边界框内的S u分布。请注意，边界框不仅包括目标对象，还包括背景区域。随着我们方法的训练进展，相似性逐渐分为负值和大的正值。这表明我们的方法有效地增加了前景区域的相似性，并减少了背景区域的相似性。相比之下，对于原始方法，相似性聚集在小的正值上。0定位图 Top-1 Top-5 GT Loc0表5.使用不同定位图在CUB-200-2011测试集上的定位性能，基于VGG16。0图7. (a) 在S u 上使用原始方法和我们的方法进行密度直方图比较。(b) 在ˆ F u上使用原始方法、EIL和带有注意力dropout的一致性进行密度直方图比较。分析是在使用VGG16作为骨干网络的CUB-200-2011测试集上进行的。0正值，不能区分两者。带有注意力dropout的一致性。图7(b)比较了我们的一致性与注意力dropout对ˆ F u分布的影响，与原始方法和EIL[15]（最先进的擦除WSOL方法）进行比较。这里，不应用Lsim和L norm的特征方向对齐。使用原始训练，大多数ˆ F u非常低。使用EIL，与原始方法相比，ˆ F u总体上增加，意味着较少有区分性的部分开始高度激活。使用带有注意力dropout的一致性，ˆ F u的分布进一步向右移动。这间接表明我们提出的方法，带有注意力dropout的一致性，将激活更多地分布在目标对象区域而不是其他方法。这导致一致性LdropLsimLnormTop-1Top-5GT Loc46.9557.2360.7454.3570.3775.0656.6671.3876.1062.2777.4881.9363.0079.9385.3570.8388.0793.17142650方法 Top-1 Top-5 GT Loc0Align. 62.27 77.48 81.93 EIL [15] + Align. 66.1082.21 86.78 Attentive Dropout + Align. 70.83 88.0793.170表6.基于VGG16的CUB-200-2011数据集上的定位性能比较。Align.表示特征方向对齐。0表7. CUB-200-2011测试集上基于VGG16的消融研究。0带有注意力dropout的一致性在特征方向对齐时比EIL表现更好，如表6所示。附录中提供了更详细的分析。05.4. 消融研究0我们在CUB-200-2011数据集上使用VGG16作为骨干网络进行了一系列的消融研究。每个组件的效果。表7显示了使用和不使用每个损失项训练的分类器的定位性能。与不使用提出的损失项的性能相比，L drop 将Top-1Loc提高了7.4%p，GT Loc提高了14.32%p。仅使用L sim的特征方向对齐将Top-1 Loc提高了9.71%p，GTLoc提高了15.36%p，这是各个组件中的最大改进。采用Lnorm 比5%p以上提高了所有指标。同时使用L sim 和Lnorm 的特征方向对齐实现了62.27%的Top-1Loc和81.93%的GTLoc，高于Pan等人报告的性能[17]。使用所有组件的结果在所有指标上都表现最佳。对超参数的敏感性。我们分析了损失中的平衡因子和每个损失的超参数的影响。对于损失中的平衡因子，我们发现λ sim 为0.5，λ norm 为0.15，λ drop为3时，定位性能最佳。如图8 (a)所示，定位性能最受λ sim的影响。λ norm 对性能影响不大。当约束与λ drop变得过强时，性能倾向于下降，如λ drop为4。对于特征方向对齐的超参数，我们将L sim 的τ fg 和τbg分别设置为0.6和0.1。它们确定了粗略的前景和背景区域。图8 (b)显示了改变这些阈值的影响很小。0(a)0(b)0图8. (a) 损失平衡因子和(b) 不同超参数的效果。0对性能的影响。超参数 γ 和 p决定了中间特征图中激活的下降。 γ 和 p 用于 L drop的值分别设置为0.8和0.5。当 γ在0.7到0.9之间适度较大时，性能没有显著变化，但当 γ太低，即0.6时，性能下降。从各种 p的结果中，我们观察到随机丢弃对GTLoc的影响很小，无论丢弃概率如何，但概率为1.0的确定性丢弃会显著降低定位性能。这表明，为了获得良好的定位性能，应该保留较少但足够的判别信息。06. 结论0在本文中，我们从新的角度对CAM进行了分解，找到了分类和定位之间的差距。我们认为每个位置的特征向量与类特定权重之间的不对齐导致CAM只在一个小的判别区域中被激活。为了弥合这一差距，我们提出了一种将特征方向与类特定权重对齐的方法。我们还介绍了一种增强特征方向对齐效果的策略。大量实验证明了所提方法的有效性，其性能远远超过现有的WSOL方法。局限性。我们的方法有几个需要决定的超参数。为了减轻搜索负担，我们讨论了超参数选择的合理性。0致谢:本工作得到韩国政府（MSIT）信息通信技术规划与评估研究所（IITP）资助 [NO.2021-0-01343,首尔国立大学人工智能研究生院项目]，LGAI研究，现代汽车和起亚通过HMC/KIA-SNUAI联合基金，以及首尔国立大学未来ICT先驱者教育和研究项目BK21 FOUR计划在2022年。142660参考文献0[1] Wonho Bae, Junhyug Noh, and Gunhee Kim.重新思考弱监督目标定位的类激活映射.在欧洲计算机视觉会议上，页码618-634. Springer，2020年。0[2] Junsuk Choe, Seungho Lee, and Hyunjung Shim.基于注意力的丢弃层用于弱监督单目标定位和语义分割.IEEE模式分析与机器智能交易，2020年。0[3] Junsuk Choe, Seong Joon Oh, Sanghyuk Chun, ZeynepAkata, and Hyunjung Shim. 弱监督目标定位的评估:协议，度量和数据集. arXiv预印本arXiv:2007.04178，2020年。0[4] Junsuk Choe and Hyunjung Shim.基于注意力的丢弃层用于弱监督目标定位.在计算机视觉和模式识别IEEE/CVF会议论文集中，页码2219-2228，2019年。0[5] Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, QingmingHuang, and Qi Tian. CenterNet: 用于目标检测的关键点三元组.在计算机视觉和模式识别IEEE/CVF国际会议论文集中，页码6569-6578，2019年。0[6] Guangyu Guo, Junwei Han, Fang Wan, and DingwenZhang. 加强对弱监督目标定位的学习容忍度.在计算机视觉和模式识别IEEE/CVF会议论文集中，页码7403-7412，2021年。0[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在计算机视觉和模式识别IEEE会议论文集中，页码770-778，2016年。0[8] Minsong Ki, Youngjung Uh, Wonyoung Lee, and HyeranByun. 用于弱监督目标定位的样本内对比学习和一致注意力.在亚洲计算机视觉会议论文集中，2020年。0[9] Jeesoo Kim, Junsuk Choe, Sangdoo Yun, and NojunKwak. 规范化在弱监督目标定位中的重要性.在计算机视觉和模式识别IEEE/CVF国际会议论文集中, 2021年.0[10] Jae Myung Kim, Junsuk Choe, Zeynep Akata, and SeongJoon Oh. 保持冷静并改进视觉特征归因.在计算机视觉和模式识别IEEE/CVF国际会议论文集中, 2021年.0[11] Jungbeom Lee, Eunji Kim, and Sungroh Yoon.用于弱监督和半监督语义分割的抗对抗操纵归因.在计算机视觉和模式识别IEEE/CVF会议论文集中, 页码4071-4080,2021年.0[12] Min Lin, Qiang Chen, and Shuicheng Yan. 网络中的网络.arXiv预印本arXiv:1312.4400, 2013年.0[13] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie.特征金字塔网络用于目标检测.在计算机视觉和模式识别IEEE/CVF会议论文集中, 页码2117-2125,2017年.0[14] Weizeng Lu, Xi Jia, Weicheng Xie, Linlin Shen, YicongZhou, and Jinming Duan. 几何约束的弱监督目标定位.在计算机视觉- ECCV 2020: 第16卷

下载后可阅读完整内容，剩余1页未读，立即下载