没有合适的资源?快使用搜索试试~ 我知道了~
BagCAMs:基于区域分类激活图的弱监督目标定位机制的性能提高
+v:mala2255获取更多论文基于Bagging区域分类激活图的弱监督目标定位Lei Zhu,Qian Chen,Lujia Jin,Yunfei You,and Yanye LuXiang1北京大学医学技术研究所2北京大学生物医学工程系3北京大学深圳研究生院生物医学工程研究所zhulei@stu.pku.edu.cn,yanye.lu @ pku.edu.cn抽象的。 分类激活图(CAM)是弱监督目标定位(WSOL)的一种重要机制,它利用分类结构生成逐像素定位图。然而,CAM直接使用在图像级特征上训练的分类器来定位对象,使得它更喜欢辨别全局判别因素而不是区域对象线索。因此,当将像素级特征馈送到该分类器中时,仅激活有区别的位置为了解决这个问题,本文阐述了一个即插即用的机制,称为BagCAMs,以更好地项目一个训练有素的分类器的本地化任务,没有精炼或重新训练的基线结构。我们的BagCAMs采用了建议的区域定位器生成(RLG)策略来定义一组区域定位器,然后从一个训练有素的分类器中导出它们这些区域定位器可以被视为基础学习器,其仅区分用于定位任 务 的 区 域 对 象 因 素 , 并 且 它 们 的 结 果 可 以 由 我 们 的BagCAMs有效地加权以形成最终的定位图。实验表明,采用我们提出的BagCAMs可以在很大程度上提高基线WSOL方法的性能,并在三个WSOL基准测试中获得了最先进的性能。代码发布于https://github.com/zh460045050/BagCAMs。关键词:弱监督学习,对象定位1介绍弱监督学习在模型学习期间使用粗注释作为监督,近年来引起了广泛关注,特别是对于定位相关的视觉任务,例如图像分割[4,9,13]和对象检测[10,27]。通常,弱监督对象定位(WSOL)通过仅学习具有图像级注释的定位模型来释放边界框或甚至密集注释的像素级定位掩模的要求,即,图像的类别,有效地节省了标注过程的人力资源。大多数WSOL方法采用分类激活图(CAM)的机制[38],利用全局平均池(GAP)将像素级特征空间平均到图像级,以学习和识别图像。+v:mala2255获取更多论文我们的方法提取器分类器区域定位器集间隙RLG袋C3蛋糕C3蛋糕......C 3蛋糕……蛋糕1我的天中(掌声输入图像凸轮结果提取器分类器定位器间隙副本传奇:列车试验的工作流程:仅测试过程的工作流程c3蛋糕C3蛋糕输入图像:高相关性:弱相关:无相关性结果C5C4C2C1C5C4C2C1C5C4C2C1C5C4C2C1C5C4C2C1C5C4C2C12Lei等人Fig. 1. 我们的BagCAM和CAM之间的比较。我们的BagCAMs(上半部分)使用RLG策略从分类器中提取区域定位器,而CAM(下半部分)仅复制全局学习的分类器来定位对象。具有图像级监督的图像分类器。除了生成分类结果外,该图像分类器还用作对象定位器,其作用于像素级特征以在测试过程中产生定位图虽然CAM提供了一个学习本地化模型的有效工具,在监督能力较弱的情况下,直接采用分类器作为定位器,而不考虑两者之间的差异。详细地,分类器仅基于图像级特征来学习,图像级特征在空间上聚集并且包含要辨别的足够的对象特征。捕捉一些判别因素足以让分类器辨别出对象的类别。然而,对象定位器专注于基于像素级特征来辨别所有区域位置的类别,其中辨别因素可能没有被很好地聚合,即,不足以激活全局学习的分类器。因此,CAM的分类器将只捕捉最有区别的部分,而不是整个对象的位置时,直接采用它来定位对象的像素级特征。为了解决这个问题,已经提出了一系列方法来迫使分类器更全面地识别对象特征,例如,开发增强策略以丰富全局特征[17,32,25],对齐图像级和像素级之间的特征分布[35,39],采用多分类器来协同定位对象[34,30,31,16],或者改进分类器以捕获类别不可知的对象特征[37,11]。虽然这些策略显示出一定的效果,但采用它们需要重新培训或修改基线结构,增加了培训过程的复杂性。此外,他们仍然遵循CAM直接采用全局学习的分类器作为定位器,表明分类器和定位器之间的差距仍然没有解决。与上述方法不同,我们的工作提出了一种即插即用的方法,称为BagCAMs,它可以更好地投影图像级训练的分类器,以符合本地化任务的要求它可以很容易地取代CAM的分类器投影,并参与到现有的WSOL方法,而无需重新训练网络结构。如图所示1、不直接采用+v:mala2255获取更多论文Bagging区域分类激活图3在全局学习的分类器中,我们的方法集中于从该良好训练的分类器导出一组区域定位器。这些区域定位器可以识别每个空间位置的对象相关因素,作为集成学习的基础学习器。利用这些区域定位器,综合它们的定位效果可以得到最终的定位结果.实验表明所提出的BagCAMs显著提高了基线方法的性能,并在三个WSOL基准上实现了最先进的性能2相关工作现有的WSOL可以分为多阶段方法[20,33,18,11,19,6]和一阶段方法[35,37,31,25,36,39]。前者需要在分类结构上训练附加结构以生成类不可知的局部化结果。我们的方法属于后者,它通过将图像分类器投影回基于CAM的像素级特征来产生局部化分数,因此我们只回顾代表性的一阶段方法。为了迫使分类器识别对象的一些不可区分的特征,Singh等人。[17]提出了隐藏和寻找(HAS)增强,在训练过程中随机隐藏图像的补丁。然而,隐藏补丁也会导致信息丢失。Yun等人[32]阐述了一种CutMix策略来解决这个问题,该策略用另一个图像的补丁替换隐藏区域。Babar[1]采用siamese神经网络来对齐包含输入的互补补丁的两个图像的位置图。一些单阶段方法也专注于融合多个分类器的定位图以全面捕获对象部分,而不是开发增强策略。通常,Zhang et al. [34]建议学习两个分类器,以互补的方式识别物体的特征。 Kou等人[16]增加了一个额外的分类器,以自适应地产生辅助像素级掩码,然后由度量学习损失用于监督。考虑到层次线索,薛等。[30]通过基于分层特征学习多个分类器来阐述DANet,Tan等人。[25]提出了一种像素级的类选择(PCS)策略,以推广CAM的层次特征。 Seunghun等人[31]使用非本地块[29,40]融合不同类别的本地化地图,以帮助捕获与多个类别相关的位置。与它们相比,我们的BagCAMs通过使用像CAM这样的高效后处理来降级经过良好训练的分类器,而不是重新训练提取器或额外的分类器,从而为每个空间位置生成多个定位器,从而增加了训练过程的复杂性。除了WSOL社区之外,一些方法还改进了CAM,用于卷积神经网络的可视化解释,即解释为什么CNN会做出具体的决定。为了在没有GAP操作器的情况下将CAM引入CNN,Selvaraju等人。[23]提出了GradCAM,该GradCAM将梯度总结为神经元聚合特征图的重要性。Aditya等人[5]进一步改进了GradCAM,在总结梯度时详细阐述了空间加权策略。最近,Wang等人。[28]和Desai[22]探索通过向前传递来获得神经元重要性,以避免梯度计算。+v:mala2255获取更多论文∈∈∈∈Σ·Σ···∈∈·L···K×N4 Lei et al.计算与这些旨在更好地激活判别位置的方法不同,我们的方法专注于遵守CAM机制与WSOL的目的,激活尽可能多的对象位置。3方法本节首先正式概述了我们提出的方法,该方法使用一系列区域定位器来定位然后,区域定位器生成(RLG)的策略进行说明,帮助生成这些区域定位器的定位任务。最后,BagCAMs被提出来从一个训练有素的图像分类器中获得这些定位器,并产生最终的定位图。3.1问题定义给出由yX表示的输入图像IR3×NI,WSOL的目的是评估局部化的规模IRK×NI通过仅使用图像级分类掩码yIR K×1学习的优化模型,其中K和N I分别是感兴趣的类别和像素的数量。学习本地化模型,y表示骨干网络,即首先采用ResNet [12]或InceptionV3 [24]作为特征提取器e(),以提取像素级特征Z=e(X)IR C×N,其中C是具有空间分辨率N的特征的通道。这些像素级特征被馈送到GAP层以生成图像级特征zIR C×1。最后,实现为权重为WIRK×C的全连接层的分类器c()作用于图像级特征以生成分类结果s:sk=c(z)k=(Wz)k=Wk,czc,(1)C其中k和c分别是类和信道的索引该分类得分s由交叉熵ce(y,s)监督,以在训练过程中学习提取器e()和分类器c在测试过程中,除了生成分类得分s之外,基于CAM的方法还利用分类器c(·)作为作用于像素级特征Z的局部化器f(·)来获得局部化图P∈IR:Pk,i= f(Z)k,i= c(Z:,i)k=Wk,cZc,i.(二更)C正如在SEC中所讨论的那样1,分类器c()仅基于图像级特征z来学习,其聚合Z的所有位置上的对象特征。这使得分类器c()只识别最具区分力的特征,而不是与对象相关的所有特征。当直接将分类器c()投影为作用于像素级特征的定位器f()时,一些可识别的部分,即,动物的身体将不会在输出定位图P上被激活。因此,我们的方法采用所提出的RLG策略,+v:mala2255获取更多论文F {}Σ···F∈·∈Z:,iBagging区域分类激活图5生成基本定位器集合= f1,f2,...,f n来综合识别物体的特征。然后,所提出的BagCAM可以基于图像分类器c(·)实现基本局部化器集合F,并且生成一系列局部化图P ={P1,P2,,Pn}。最后,将这些地图与系数{λ1,λ2,,λn},以形成确定Y的最终定位图Pn:P_n=λ n f_n(Z).(三)n3.2区域定位器生成策略建议的RLG策略利用本地化分数和像素级的特征地图,以产生一组区域定位器,它更侧重于区域的功能,而不是只识别的全球功能作为分类任务的分类器。为了更好地说明所提出的RLG策略,我们首先设计了区域定位器的图像分类器的属性的启发。具体地,通过从Eq. 1,全局分类器c()的权重W可以重新公式化[25]:W= c(z)=(s)。(四)拉日什把它记在等式中。1,可以获得分类器c(·)的等价性[25]:c(z)= W z =(s)<$z。(五)拉斯当量5表示图像分类器c()可以由图像分类分数s和图像特征z [25]。将此属性类比到定位任务,可以使用以下定义来模拟区域定位器。定义1. 假设f()是基于像素级特征Z IR C×N在特定空间位置上生成分类得分p的定位器,即,p=f(Z),定位器f()可以通过包含该区域分类得分p与像素级特征Z的每个区域位置之间的偏导数的函数集来模拟:F={f,...,F、...、F}={(p),.,(p),...,((6)1nNZ:,1Z:,nZ:,N其中,refn(·)=(r ep)r e f n(·)是区域定位器,该区域定位器匹配区域分数p和特定区域位置Zi的像素级特征,即,基于定义1,给定定位图PIRK×N的每个行向量Pi,i可以被视为基于像素级特征Z定义N个区域定位器的区域分类得分P。因此,如图所示2、我们的+v:mala2255获取更多论文∗nFn∈Fnm,nΣm,nnnΣZ:,nnZc,n1nN拉斯6 Lei et al.图二. 我们的方法的工作流程,其中RLG策略(橙色)生成一组分类器,BagCAM(绿色)对其效果进行加权以生成定位图。RLG策略(用橙色表示)可以基于P和Z的每个向量对之间的相关性来模拟N N个区域定位器:fm(x)=(P:,m)(x)−→fm(x)=Pk,mxC、(7)其中f m(·)k表示k类的区域局部化子,x∈IRc×1是表示特征向量的变量。 通过这种扩展,可以基于P和Z定义包含N <$N区域定位符的定位符集合F,即,F={f1,.,fm,., f N}。与使用的全局分类器(global classifier,简称SVM)相比,CAM,我们的区域定位器集合包含足够的定位器,这些定位器捕获每个位置上的分数和特征之间的区域相关性,这有助于全面识别对象的特征。3.3Bagging区域分类激活图所提出的RLG策略提供了一种有效的机制来基于定位图P生成局部化器集合RLG。当将P实现为粗略局部化映射P时,在RK×N中,这些区域定位器f m可以被看作是基本学习器,可以被集成为用于 定位 对象的强学习器。为为此,我们的BagCAM被提出,如图2所示(由绿色表示),其基于粗略定位图P**生成基本定位器,然后将其定位结果加权为最终定位分数:PK,i =Λifm(Z(i)k=ΛiZuyuPZuyuk,mZZc,nc我,(8)n n n n c其中Pk是我们提出的BagCAM的定位图,其元素Pkk是,i表示位置i处的类别k的分数。A是一个矩阵,它的元素im,n 是指在位置i处的区域定位航道fm的系数。具体来说,PCS采用策略[25]初始化粗尺度化图Pk,m,以追求计算的便利性和在中间特征图上的性能:Pk,m =skZc<$Zc,mc,m.(九)ΛKC+v:mala2255获取更多论文Z.∗∀∈nZKZc1,mC2Zc2,nk我KZc1,mZc2,iBagging区域分类激活图7表1.将拟议的BagCAM降级为其他方法的总结初始分数Pk,m系数矩阵ΛiLocalizationScorePk,i凸轮SKΛi=1INkZc,iczcΣGradCAMSKΛi=1IN1skZc,iNn,c<$Zc,nΣGradCAM++SKΛi=diag(α).αm<$skZ c,in,c<$Zc,nPCsSKΛi=1, i=nm,n0, i=0n.skZc,ic我们单位面积kZc,mcZc,mΛi=1, i=nm,n0, i=0nΣ∂ (Σ∂skZc,m)c1Zc1,m1Zm,c2<$Zc2,ic2,i利用该初始化粗定位映射Pk,m并定义s<$=l〇g(s),由我们的RLG产生的基本定位器的公式推导为以下,其证明在附录B中给出:fm(x) =s(1+s<$k ZC1)(s<$k x)。C2对于权重矩阵Λi,为了一致性,也采用PCS[25]的分组策略,假设(λp)λ是特定于位置i的定位器::,iim,n=1,i=n0,i=n.(十一)该设置将N N个区域定位器分配到N个组中,每个组专门应用于位置i。注意,Λi也可以用其他机制来实现,例如空间平均[23]或空间注意力[5],但我们发现分组策略由于噪声较小而表现最好。最后,用EQ。10、Eq.11到Eq。8,获得BagCAM的可执行公式P=s(1+s<$k ZMC1)(s<$kZC2)的。(十二)如Eq. 12,我们的BagCAM的计算仅依赖于梯度nts,其可以通过基于分类得分s的对数传播梯度nts来计算。因此,我们的BagCAM可以投影到CNN的中间层,并保留与基于梯度的CAM机制类似的计算复杂度[23,5,25]。此外,表1还显示PCS [25]和其他CAM机制[38,23,5]也可以由我们的BagCAM推广,假设每个位置i的初始定位结果都等于sk,即、Pk,m=sk. 然而,该假设对于定位任务通常是无效的,因为图像的背景位置不应具有与对象位置相同的分数。与它们相比,我们的BagCAMs产生了一个特定的初始分数P_k,mRK×N,以获得更多有效的基本定位器,从而生成高质量的定位图,ΛKc1,m(十)c1,mc2,i+v:mala2255获取更多论文∈···ZZ8 Lei et al.而不是仅基于全局得分sRK×1来定义定位器。这使得我们的BagCAM在参与WSOL时比这些机制表现得更好所提出的BagCAMs可以很容易地取代WSOL方法的CAM步骤来生成定位图。算法1和图2示出了基于包含特征提取器e()和分类器c()的经训练的WSOL模型来定位输入图像X具体地,输入图像X首先被馈送到特征提取器e()以生成像素级特征Z=e(X)。然后,Z被聚合成图像级特征z,其被馈送到分类器中以产生确定对象类别k=argmax(s)的分类得分s。接下来,ba ck ward传播被用于s<$k以计算对于定义基本定位器至关重要的k s <$k。最后,定位图Y是通过对基本定位器的定位得分进行加权而获得的,如等式(1)所示。12个。算法1给定WSOL模型的BagCAMs工作流输入:输入图像X,分类器c(·),提取器e(·)。1:利用提取器e(X)计算输入图像X的像素级特征Z。2:利用GAP或其他聚合机制获得图像级特征z。3:利用分类器c(z)生成图像分类得分s4:计算分类结果k=arg max(s)。5:通过传播s<$=log(s)k来获得梯度nt_s<$k。6:通过等式(1)生成BagCAM的量化映射PkcM: 12并将其上采样为Y。输出:本地化分数Y,分类分数s。4实验本部分首先介绍了实验的设置。然后,我们的BagCAMs的结果进行了比较与SOTA方法在三个数据集。最后,我们调查我们的BagCAMs的不同设置,以进一步反映其有效性。4.1设置所提出的BagCAMs可以通过在测试过程中简单地替换CAM来参与到训练有素的WSOL模型中。因此,我们复制了五种WSOL方法作为基线方法,以使用其最佳设置对其进行训练,包括CAM [38],HAS [17],CutMix[32],ADL [6]和DAOL [39]。详细地说,去除Res4的下采样层的ResNet-50被用作特征提取器。当使用InceptionV3作为提取器时,我们遵循现有的作品[20,35,34,25],在原始结构的末尾添加两个额外的层。该分类器采用全连接层结构,其输出由基于图像级标注的交叉熵进行监督在培训过程中除了方法特定的策略[17,32,6],+v:mala2255获取更多论文××装袋区域分类激活图9随机调整大小为256256和随机水平翻转裁剪大小224 224被采纳为增加。SGD,重量衰减10 −4,动量0。9被设置为优化器。请注意,所有数据集的学习率和方法特定的超参数都被用作发布的最佳设置[7,39]。在测试过程中,我们的BagCAMs取代了这些方法的CAM步骤,根据ResNet的Res3输出的特征(InceptionV3的Mix6e所有实验均使用Pytorch工具箱[21]在Intel Core i9 CPU和NVIDIA RTX 3090GPU上实现三个标准基准被用来评估我们的方法:– CUB-200数据集[26]包含11,788张图像,这些图像对200种鸟类进行了细粒度注释我们遵循官方的训练/测试划分,使用5,944张图像作为训练集,仅使用图像级注释来监督WSOL方法。其他5,794张图像,给定额外的边界框和像素级遮罩,作为测试集来评估性能。– ILSVRC数据集[8]包含130万张图像,其中包括1000类对象。其中,50,000幅图像,其边界框注释被用作测试集,以报告定位性能。– OpenImages数据集[3,7]包含100个类的3,7,319个图像,其中29,819个图像作为训练集。在Jun- suk [7]发布的拆分之后,通过像素级定位掩码注释的其余7,500张图像被分为验证集(2,500张图像)和测试集(5,000张图像)。请注意,我们的BagCAM不包含任何超参数,因此仅使用这些数据集的测试图像进行比较。采用Top-1定位精度(T-Loc)[17]、地面真实已知定位精度(G-Loc)[17]和最近提出的MaxBoxAccV 2[7](B-Loc)来评估基于边界框注释的性能对于像素级定位掩模,计算联合峰交点(pIOU)[37]和像素平均精度(PxAP)[7]作为度量。4.2与最先进技术的表2说明了SOTA方法和我们的BagCAMs在三个标准WSOL基准上的结果结果表明,采用我们提出的BagCAMs在很大程度上提高了基线方法的性能,特别是在CUB-200数据集上。这是因为CUB-200数据集是仅包含鸟类的细粒度数据集,使得分类器更有可能捕获鸟类的区分部分而不是常见部分。正如在SEC中所讨论的那样。3、这种情况基本上导致了直接 使用分类器定位对 象作为CAM时性能不理 想。采用BagCAMs将分类器映射为一组区域定位器,可以更好地考虑鸟类类的区域因素,G-Loc方法比基线方法提高了近21.38%。此外,当通过像素级掩模进行更精细的评估时,我们的方法的改进仍然是显著的,实现了64.40%的pIoU,+v:mala2255获取更多论文10 Lei et al.表2. 与使用ResNet50的SOTA方法进行比较(边界表示最佳)。T-LocCub-200G-Loc B-Loc pIoUPxAP T-LocILSVRCG-Loc B-LocOpenImagespIoU PxAPDGL[25]60.8276.65---53.4166.52---中国汽车工业协会[1]64.7077.35---52.3667.89---[30]第三十话61.10---------[第14话] 56.1072.7963.20--48.4067.6265.15--PAS[2]59.5377.5866.38--49.4262.2064.72-60.90IVR[15]--71.23----65.57-58.90PSOL[33]70.68----53.9865.54---SEM[37]-----53.8467.00---FAM[19]73.74 85.73---54.46 64.56---[38]第三十八话55.3166.0659.2146.7065.9449.9367.3062.6943.1357.88+我们的70.8987.4476.2264.4084.3852.1470.7869.1347.9262.52HAS[17]54.4872.5566.2551.0071.8750.8066.9164.6742.2855.83+我们的65.9389.6584.4570.2488.9453.3270.6769.1747.7162.45[32]第三十二话56.2764.1359.0844.2165.2350.1765.8463.7342.8557.97+我们的72.9687.4479.6764.9385.3653.0269.9268.5346.6760.16ADL[6]52.1366.7559.3145.4059.4950.4066.8864.5042.2956.21+我们的64.4186.0674.4860.4681.0753.0570.5168.9747.0461.76[39]第三十九话62.4081.8369.8756.1874.7043.2670.2768.2349.6865.42+我们的69.67 94.01 84.88 74.51 90.38 44.24 72.08 69.97 52.17 67.68表3. 与使用InceptionV3的SOTA方法进行比较(边界表示最佳)。方法T-LocCub-200G-Loc B-Loc pIoUPxAPILSVRCT-Loc G-Loc B-LocOpenImagespIoU PxAPDGL[25]50.5067.64---52.2368.08---SPG[35]56.64----49.6064.69---I2C[36]55.9972.60---53.1168.50---[第14话] 56.1067.93---49.3065.21---PAS[2]69.9673.65---50.5664.44--63.30IVR[15]--61.74----66.04-64.08UPSP[20]53.3872.14---52.7368.33---PSOL[33]65.51----54.8265.21---GCNet[18]-----49.06----FAM[19]70.67 87.25---55.24 68.62---[38]第三十八话48.9663.4457.1449.2870.9550.7566.1663.6147.5163.31+我们的54.7574.7565.6560.3481.4952.2268.8466.4649.9865.91HAS[17]52.6870.8962.3952.7874.0751.0066.9964.2642.8759.50+我们的57.9379.4469.6561.7583.0352.2269.2066.8948.4464.37[32]第三十二话51.8666.6259.4451.4074.1950.7266.9664.4446.3062.12+我们的58.4879.5868.09 62.44 83.15 52.6070.57 68.04 49.2865.23ADL[6]49.1062.6257.0149.7270.0650.2066.3063.6647.0363.42+我们的54.7574.3464.8760.0981.4151.6368.8166.4249.2265.31[39]第三十九话56.2980.0368.0151.8071.0352.7069.1164.7548.0164.46+我们的60.07 89.78 76.94 58.0572.9753.87 71.02 66.93 50.79 66.89+v:mala2255获取更多论文Bagging区域分类激活图11香草具有CutMix ADLDA-WSOL凸轮具有CutMix ADL DA-WSOL图三. 将CAM替换为BagCAM的可视化,用于不同的WSOL方法。84.38%PxAP,分别比CAM高17.70%和18.44%。对于更大规模的数据集ILSVRC,在测试过程中直接将CAM替换到我们的BagCAM中,在G-Loc度量中也实现了3.48%的性能提高,即,在没有任何微调过程或结构修改的情况下,校正了近1,740幅图像的定位。此外,即使使用最近提出的DAOL [39]在OpenImages数据集上实现SOTA性能,采用我们的方法仍然可以明显提高其性能约2。49%,2。pIOU和PxAP中分别为26%。除上述5种方法外,其他9种方法也被用于表2中的比较,其得分引自相应的论文。我们的BagCAMs在所有三个数据集上的几乎所有指标上都优于SOTA方法,即使在香草WSOL结构中,即、只有我们的BagCAM的T-Loc度量低于生成类不可知定位结果并采用加法阶段进行分类的方法(用下划线样式表示)[19,37,33]。 这是因为我们的Bag-CAMs只在测试过程中被采用来增强定位结果,并且我们的分类精度直接由基线WSOL方法决定。此外,表3还显示了使用InceptionV3作为WSOL方法的特征提取器的比较,以表明我们对ResNet以外的主干的泛化结果与使用ResNet一致,提高了所有基线方法的性能,例如,CUB-200数据集上的香草结构(CAM)和DAOL的G-Loc分别提高了11.31%和9.38%。此外,我们的BagCAMs在这三个数据集的几乎所有指标上仍然优于通过WSOL方法使用我们的BagCAM生成的定位图也在图中可视化。3. 对于香草结构的定位图,仅激活最具区别性的位置,例如,、玩具的底座、柱子的两端、灯罩、鸟头。虽然现有的WSOL方法捕捉到了更多的目标位置,但它们只是扩大或细化了靠近区分部分的区域的激活,而不是捕捉更多的目标位置我们我们凸轮凸轮+v:mala2255获取更多论文12 Lei et al.物体的一部分这也直观地验证了CAM的机制限制了这些WSOL方法的性能,使得定位器只关注全局线索。得益于我们的基本定位器套件的使用,当采用我们的BagCAM来替代CAM时,更多的物体部分被有效地激活,例如玩具的头部、灯的底座和柱子/鸟的身体。此外,我们的BagCAMs可以在中间层上生成定位图,其中包含更多的精细线索,例如物体边缘附近的像素,这也有助于我们的高性能。表4. CUB-200数据集ResNet层上不同CAM的最佳得分T-Loc G-Loc B-Loc pIoU PxAP凸轮55.31 66.06 59.21 46.70 65.94PCs60.27 73.93 65.24 52.05Grad56.68 69.93 61.70 49.51毕业生++69.14 53.61 76.33我们70.89 87.44 76.2264.4084.38具有54.48 72.55 66.25 51.00 71.87PCs53.65 73.24 67.954.87 76.72Grad56.82 77.79 69.37 55.64 76.77毕业生++55.31 76.82 70.29我们65.93 89.65 84.4570.2488.94CutMix56.27 64.13 59.08 44.21PCs57.65 68.13 61.51 48.19Grad60.96 72.68 64.50 52.10毕业生++63.17 77.10 53.77 74.78我们79.6764.9385.36ADL52.13 66.75 59.31 45.40PCs52.13 66.75 59.31 45.40Grad52.13 66.75 59.31 45.40毕业生++53.65 70.89 61.19我们64.41 86.06 74.4860.4681.07DAOL62.40 81.83 69.87 56.18PCs63.30 84.57 71.49 58.94Grad63.30 84.57 71.49 58.94毕业生++66.13 89.60 75.71我们69.67 94.01 84.8874.5190.384.3讨论表5. ResNet层上的PxAP方法Res1Res2Res3Res4PCS 42.01 51.36 72.96 65.94年级15.05 19.61 68.69 65.94毕业生++ 13.16 32.01 76.3371.49我们的71.35 78.71 84.3872.98表6. Inception层上的PxAPPCs41.42 61.37 75.36 76.32Grad28.91 46.62 65.41 76.19毕业生++26.77 43.26 65.41 68.00我们78.14 81.46 82.80表7. CAM的效率(fps)方法Res1Res2Res3Res4PCS90.8890.4091.8691.04年级89.7291.04 90.94 90.75毕业生++ 90.61 89.25 90.6289.67我们 88.44 86.40 87.02表8. 不同权重策略T-Loc G-Loc B-LocPxAP CAM 55.31 66.06 59.2165.94我们的166.75 82.34 74.8077.29我们的270.20 86.20 74.1681.79我们的370.89 87.44 76.2284.38为了深入研究我们的BagCAM的有效性,我们还进行了实验,将其与在CNN的无间隙结构或中间层上推广或增强CAM的方法进行比较,例如。,GradCAM(Grad)[23],GradCAM++(Grad++)[5],PCS [25].我们对这些方法采用了相同的训练检查点,并在测试过程中利用它们来投影分类器。方法混合6b混合6c混合6d混合6e+v:mala2255获取更多论文××Bagging区域分类激活图13我们的PCL GradCAM Grad++我们的PCL GradCAM Grad++图四、由CAM根据不同ResNet层的特征生成的定位图。除了原始CAM之外,还可以在特征提取器的中间层因此,我们在每个层上生成本地化地图,并选择最佳性能进行报告。相应的结果如表4所示,其中基线方法,即、CAM、HAS、ADL、CutMix和DAOL表示直接采用分类器作为CAM进行本地化它表明,对于所有基线WSOL方法,我们的BagCAMs与其他CAM相比实现了最高的改进我的风格。这是因为其他CAM方法都是使用全局所有职位的分类结果,如第3.3,导致它们的改善程度较低。为了解决这些问题,我们的BagCAMs采用P**,m来为每个位置m分配特定的初始定位分数,这有助于生成有效的定位器并有助于我们的出色改进,例如。PxAP比使用原始CAM的DAOL高15.68%。此外,我们的BagCAM在基于中间层的特征定位对象时也可以达到令人满意的性能,这可能会激发生成具有更高分辨率的定位地图,以考 虑 更 多 的 细 节 。 表 5 说 明 了 基 于 Res1 ( 256×56×56 ) 、 Res2(512×28×28)、Res3(1024×28×28)和Res4(2048 28 28)的特征生成定位图的PxAP度量。请注意,由于W中的通道数量与中间特征之间的差异,原始CAM只能采用GAP之前的最后一层,因此我们没有将原始CAM包括在表5中。可以看出,GradCAM和GradCAM++在投影到先前的中间层时具有很大的性能下降,即,,Res1和Res2。虽然PCS,提出用于产生本地化结果的中间层,稍微减缓这种下降,其PxAP的Res1仍然是30。97%低于Res4。与它们相比,我们的BagCAMs通过将N×N个基本定位器的性能打包来生成定位图,其中N是空间分辨率第4号决议Res 2Res 3Res 1+v:mala2255获取更多论文nN∗14 Lei et al.的特征图。因此,对于具有更高分辨率的先前层,可以为装袋定义更基本的定位器,即,,3,136对于Res1。这使得我们的BagCAMs在Res1 的 特 征 上 投 影 时 , 与 其 他 最 好 的 BagCAMs 相 比 , PxAP 高 出29.34%。图4还定性地可视化了在中间特征上生成的定位图。可以看出,GradCAM和GradCAM++的定位图在Res1和Res2上包含更多的噪声,并 且 PCS 仅 激 活 少 数 有 区 别 的 位 置 。 与 它 们 相 比 , 尽 管 我 们 的BagCAMs受到下采样引起的网格效应的影响,但即使对于Res1,我们的定位图也可以覆盖更多的对象部分。最后,不同CAM的效率也显示在表中。7,其中报告了用于推断CUB-200测试的平均每秒帧数(fps)可以看出,虽然考虑了多个区域定位器而不仅仅是全局定位器,但我们的Bag-CAMs的复杂度仅略高于其他方法。这表明我们的方法可以很好地平衡定位性能和效率。除了与其他CAM机制进行比较外,还对不同加权策略的选择进行了讨论。也在CUB-200数据集上探索了权重矩阵Λ具体来说,我们设计了三种类型的Bag-CAM:(1)我们的1只平均由定位器f m生成的分数,即。,Λi=1I. (2)我们的2,用GradCAM++ [5]的空间加权机制聚合分数,即,Λi=diag(α). (3)我们的3,我们在我们的论文中使用的机制定义在方程。9,它只为每个位置选择特定的定位器,如PCS[25]。相应结果见表8。可以看出,使用这三种加权机制都可以提高基线方法的性能,这得益于采用区域定位器集合而不是全局定义的分类器。具体来说,当简单地平均的本地化分数的区域定位器(我们的1),性能提高约11。PxAP指标的35%。采用空间加权策略,考虑每个空间位置的影响,将带来额外的4。5%的改善。当将N N个定位器分组为专门用于每个空间位置的N个集群以减少PCS [25]的噪声时,性能达到最高,即约84.38%PxAP。因此,我们建议采用这种分组策略来衡量区域定位器的影响。4.4结论本文提出了一种名为BagCAMs的新机制,用于WSOL在投影图像级训练分类器作为定位器定位对象时取代CAM[38]我们的BagCAM可以参与现有的WSOL方法,以提高其性能,而无需重新训练基线结构。实验表明,我们的方法达到SOTA性能的三个WSOL基准。致谢本工作得到了北京自然科学基金Z210008的部分支持+v:mala2255获取更多论文Bagging区域分类激活图15引用1. Babar,S.,Das,S.:在哪里看?:挖掘互补图像区域用于弱监督目标定位。2021年IEEE计算机视觉应用冬季会议(WACV)2. Bae,W.,诺,J.,Kim,G.:重新思考弱监督对象定位的类激活映射。欧洲计算机视觉会议(ECCV)pp. 618-634.施普林格(2020)3.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功