C2AM:弱监督对象定位和语义分割中的类不可知激活图对比学习

152 浏览量更新于2023-10-25 收藏 1.94MB PDF 举报

语义分割

对比学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

989C2AM：用于弱监督对象定位和语义分割的类不可知激活图的对比学习深圳大学计算机科学与软件工程学院软件工程系温州肯恩大学计算机科学系，中国深圳市社会机器人人工智能研究所，深圳大学广东省智能信息处理重点实验室网址：xiejinheng2020@email.szu.edu.cn，hxianxu@gmail.com，网址：www.example.com，llshen@szu.edu.cn摘要虽然由图像分类网络生成的类激活图（CAM）已被广泛用于弱监督对象定位（ WSOL ）和语义分割（WSSS），但此类分类器通常侧重于区分目标区域。在本文中，我们提出了对比学习类不可知激活地图（C2AM）生成只使用未标记的图像数据，没有图像级监督的参与。核心思想来自于观察，i）前-地物通常与其背景不同; ii）具有相似外观的前景对象或具有相似颜色/纹理的背景在特征空间中具有相似表示。我们基于上述关系形成正对和负对，并使用一种新的对比损失迫使网络使用类不可知的激活图来区分前景和背景。由于网络被引导以区分跨图像前景-背景，因此通过我们的方法学习的类不可知激活图生成更完整的对象区域。我们成功地从C2AM中提取了与类别无关的对象边界框，用于对象定位和背景提示对分类网络生成的CAM进行细化，以进行语义分割。在CUB-200- 2011、ImageNet-1 K和PASCAL VOC 2012数据集上进行的大量实验表明，WSOL和WSSS都可以从所提出的方法中受益。凌晨2点。代码将在https://github.com/CVI- SZU/CCAM上提供。1. 介绍通常需要大量的图像数据和手动注释来训练深度神经网络，以实现许多可视化。*通讯作者图1.前景物体（蓝色）和背景物体（绿色）的特征流形由于前景对象的语义信息不同于背景对象的语义信息，因此前景对象（蓝色）的表示的分布远离背景（绿色）。具有相似外观的前景对象或具有相似颜色/纹理的背景在特征空间中也具有相似的表示。基于这些观察，可以形成用于对比学习的正对和负对。t-SNE [34]用于降低特征的维数。任务，例如，对象检测和语义分割。然而，这是耗时和劳动密集型获得边界框或像素级的注释。近年来，监管力度较弱，例如：图像级标记已经在弱监督对象定位（WSOL）和语义分割（WSSS）中引入，其目的是仅利用图像级监督来实现定位或分割而没有边界框或像素级注释。大多数以前的WSOL和WSSS方法依赖于类激活图（CAM）来估计目标对象的位置。在图像级监督下，分类器试图找到目标对象的区分区域。因此，尽管图像级标签使CAM能够指示目标对象的正确位置，但它们也限制了CAM的焦点990类感知的阶级不可知论者具有相似外观的前景或具有相似颜色/纹理的背景在特征空间中具有相似的表示为了缓解这个问题，我们设计了一个基于特征相似度的排名加权，以自动减少这些不同的积极对的影响。作为图2.（a）类激活图（CAM）和（b）类不可知激活图之间的差异。CAM由K（类数）个激活图组成，C2AM只预测一个类无关的激活图，直接表示前景和背景区域.最好用彩色观看。在稀疏和有区别的对象区域上。因此，通过直接将CAM应用于WSOL和WSSS，很难精确估计完整已经引入了不同的方法来减轻CAM的上述问题。然而，他们中的大多数都是用图像级监督来训练的，这可能会影响CAM的完整性。相比之下，本文提出了一种新的跨图像的前景-背景对比学习的基础上产生类无关的激活地图，而不需要图像级的监督。与K类激活图（CAM）相比，包括一个靶激活图），C2AM仅预测一个类不可知的激活图来指示前景和背景区域。CAM和C2AM之间的区别如图2所示.与CAM相比，从跨图像前景-背景对比中学习的类不可知激活图，在不涉及任何图像级监督的情况下，可靠的前景区域。如图1所示，前景对象的语义信息与其背景不同，这可以表示为特征空间中前景和背景表示之间的大距离。这可以进一步扩展到交叉图像的情况，其中来自一个图像的前景对象的语义信息也应该与其他图像中的背景的语义信息大不相同相比之下，具有相似外观或具有相似颜色/纹理的背景之间的距离应较小。基于上述观察，我们提出了跨图像前景-背景对比损失，以迫使网络使用类别不可知的激活映射来解开图像中的具体地，如图3和图4所示，网络首先使用激活头生成类别不可知的激活图，使得图像表示可以分别被分解为前景表示和背景表示。然后，前景和背景表示形成否定对，并且前景-前景或背景-背景表示形成肯定对。因为只有激活头是随机初始化的，初始的类无关激活图在开始时也是随机的。当应用对比度损失来拉近和推开正对和负对的表示时，类别不可知的激活图逐渐分离图像中的前景对象和背景的区域。在WSOL和WSSS任务上进行的大量实验表明，所提出的C2AM可以替代或改进CAM以获得更好的性能。特别是在WSOL中，我们遵循[47]将WSOL划分为两个任务：类别无关的对象定位和对象分类，以及因此，类不可知激活图可以用于提取类不可知对象边界框以进行定位。还可以从类别不可知激活图中提取背景线索以细化初始CAM，使得可以有效地减少背景的错误激活以生成更可靠的对象区域。因此，改进的CAM可以大大提高WSSS中的后续分割性能。总的来说，本文的主要贡献可以概括为：我们提出了跨图像的前景-背景对比学习，以生成类不可知的激活地图与未标记的图像数据，它类不可知激活图可用于提取类不可知边界框以进行准确的对象定位，并用作背景线索以提高初始CAM的质量。大量的实验表明，WSOL和WSSS任务可以受益于我们的方法。我们提供了一种替代解决方案来取代或改进CAM，以改进弱监督学习。此外，它可能进一步用于许多视觉任务中，以检测前景区域而无需手动注释。2. 相关作品类激活映射（CAM）[50]产生一个空间类激活映射，指示负责预测对象类别的对象区域。然而，分类器倾向于基于对象的最有区别的区域执行识别[12，30]，这影响基于CAM的定位或分割的精度。(a)凸轮…一二三四(b)C2 AM1···991i=1i=1··i=1−·×1：n1：n我我我·联系我们{} ∈×·--弗拉特译（HW×C）我是&弗拉特。我XiZi前景（·）1×硬件h（·）H（1-P）&Flatt。我编码器WPiC1×硬件我弗拉特译（HW×C）解开背景图3. 所提出的方法的总体网络结构。编码器网络h（·）将图像Xi映射到特征图Zi。在解缠r时，动作头（·）产生类不可知动作映射Pi。假设Pi作用于背景区域，背景激活图可以推导为（1-Pi）。基于前景激活图和背景激活图，Zi可以被分解为前景特征表示和背景特征表示，即， vf和vb。在评估中，只有训练好的h（·）和k（·）用于生成类别不可知激活图P1。弗拉特矩阵平坦化;译矩阵转置;：矩阵乘法。弱监督对象定位（WSOL）。大多数现有的WSOL作品考虑训练数据集中的图像级标签[28，35]。为了解决上述问题，已经提出了各种方法[6，24，31，42Baek等人[2]引入类不可知的激活映射，它可以有效地从自监督模型生成热图Xie等人[42]提出了一种基于低级特征的两阶段学习框架来细化粗略的激活图。Zhanget al. [47]将WSOL分为两个任务：1）类不可知的对象局部化和2）对象分类。这允许网络单独完成定位或分类。他们使用DDT [37]来提取类不可知的对象边界框作为伪标签来训练定位模型，并使用最先进的网络进行分类。弱监督语义分割（WSSS）。大多数WSSS作品遵循三个阶段的学习过程：初始CAM生成、伪掩模生成和分割模型训练。Hou等人[13]提出两种自擦除策略，将注意力仅集中在可靠区域并生成完整的初始CAM。Chang等[3]建议通过调查对象子类别来挖掘更多的对象部分。Jungbeom等人[19]提出了一种反对抗的方式来发现激活图中目标对象的更多区域。Ahn和Kwak [1]提出了像素级语义亲和力，这有助于生成细粒度的伪掩模。作品[15，20，23，32，38]另外使用来自完全监督的显着性检测器的背景线索来获得更好的伪掩模。在我们的工作中，这个班-由C2AM生成的不可知激活图用于提取背景线索以细化初始CAM，增加了下一阶段的初始CAM的潜力。对比学习。对比学习的思想是将正对中的样本拉近，将负对中的样本推开[4，7，10，是用来自同一个类的样本创建的，而具有不同类别标签的样本形成负对[7，10，17，29]。无监督对比学习可以分为两类，即instance-wise contrastive learning[4, 11, 39, 46] and clustering based contrastive学习[21，41，45]。在实例对比学习中，从同一实例扩增的两个样本形成正对，而从不同实例扩增的样本[4，11]成为负对。对于基于聚类的对比学习，应用聚类算法为训练样本生成伪标签，然后应用监督对比学习[9]。3. 方法3.1. 架构C2AM的整体网络架构如图3所示.给定一批n个图像X1：n=Xin，编码器h（）将X映射到高级特征映射Z1：n=Zin，其中ZiRC×H×W。C和H Wde-分别记录信道号和空间维度。流行的网络，例如，ResNet [12]或VGG [30]用作编码器h（）。有监督或无监督的预训练，例如， moco [11] 和 detco [40]，在ImageNet-1 K [28]上可以用作h（）的初始化。基于所提取的特征图Z，解缠器采用激活头fl（）来产生类别不可知的激活映射P1：n=Pin，其中PiR1×H×W。具体-通常，卷积（）是与批归一化层的3 × 3卷积假设Pi激活前景区域，则第i个样本的背景激活图可以被表示为（1Pi）。前景和背景激活图最终可以将特征图Z1：n分解为前景和背景特征表示，11、29]。基于对象类标签，也就是说，vf和vb分别表示对于第i个样本，vf和992我i、ji、j一、二i、j{si、j1：n1：ni、j我我我我我我我 J. 负对比损失设计为：i、ji、ji、ji、jNEGn2i、j指数函数rank（sf∈∈∈ ∈TffIjz1z2阳性造影z3阴性对比…zNz1z2z3…zN112233…NN1122…33NNz图像表示前景背景拉推图4.跨意象前景背景对比学习之例证。每个图像表示，即，Zi被分解为前景和背景表示，即，vf和vb。两个前景或背景表示耦合成一个我我正对，而负对由一个前景和一个背景表示形成。应用对比学习来拉近来自正对的表示并推开来自负对的表示最好用彩色观看vb可以被导出为：正对。然而，只有前-vf=Pi<$ZT， vb=（1 − Pi）<$ZT。（一）与SIM卡相似的外观和背景的理由-颜色/纹理在特征空间中具有较小的距离这里，Pi和Zi是平坦的，即， PiR1×HW和ZiRC×HW。 vfR1×C和vbR1 ×C。并且分别指示矩阵乘法和转置。3.2. 前景-背景对比度针对训练过程中没有标签信息的特点，提出了一种基于交叉图像前景背景对比度的C2AM方法，将被拉到一起。具有大距离的正对将影响学习过程，因为在这两个前景对象或背景中存在较少的相似语义。为了解决这个问题，我们设计了一个基于特征相似性的秩加权来自动减少这些不同的正对的影响。我们首先计算每个候选正对之间的余弦相似度：通过仅利用sf=sim（vf，vf），sb=sim（vb，vb），（4）前后景语义信息i、ji ji，j i j表示。如前所述，给定图像，其前景和背景表示包含不同的其中sf和sb是计算从前景-前景对，即，（vf，vf），以及输入语义信息，因此应该有一个大的dis-i j在特征空间中。这一观察也适用于背景-背景对，即，（vb，vb）分别。交叉图像的情况。它们的前景Fi、j潜在地指示前景对象并且背景表示也应该很大。在此基础上，我们提出了应用对比学习来区分前景-背景代表，fromXi与from Xj共享类似的语义。给定来自前景-前景表示的相似性集合sf={s，···，s，· ·· }（i / = j）和来自前景-前景表示的相似性集合s f ={s，···，s，· ·· }（i / =j），报告给定n个样本X1：n，来自背景-背景表示的解缠分离度sb=将它们分为n个前景和n个背景，B一、二，···，sb，···}（ii=j），然后我们计算权重站，即， vf和vb. 前景-背景基于每个阳性对的排名，如下所示：表示对，即，（vf，vb），被视为负对wf=exp（−α·rank（sf）），wb=exp（−α·rank（sb））的情况下，n n （5）L=−1 log（1−sneg），（2）i=1j=1where α is a hyper-parameter controlling the smoothness ofi、j）是秩）和职级（sbS993我i、jFJ阴性fb分别在sf和sb的集合中。军衔si，j =sim（vi，vj），（3）i、ji、j其中s为负是vf之间的余弦相似度vb。权重wi，j的范围从0到1。分配了较大的权重到共享相似语义的肯定对（例如，类似AP-LNEG考虑图像（i=j）和跨图像（i/=j）内的对比比较3.3. 基于秩加权的前景和前景或背景和背景-颜色或纹理），并且小的一个被分配给具有较小相似性的正对。它可以在一定程度上减少这些不相似对的影响，以更好地进行对比学习。最终正对比损失公式为：两个不同图像的地面表示形式LPOS=LPOSbPOS 、（6）+L994凸轮FΣΣ−FBΣΣ−BL−n nLPOS=11n（n−1）i=1j=1[i/=j]fi，j·log（s，i，j）），（7）n nLPOS=11n（n−1）i=1j=1[i/=j]bi，j·log（s，i，j）），（8）其中11如果[i/=j] ∈ {0，1}是一个指示函数，它等于.i/=j。总对比损失L被公式化为LPOS和LNEG的总和：L=LPOS+ L阴性。（九）当应用对比度损失来拉近和推开正对和负对中的表征时，类不可知激活图逐渐分离图像中的前景对象和背景的区域。如何确定前景区域。由于对前景-前景和背景-背景正对应用相同的对比度损失，因此它不能保证前景或背景区域在Pi中被激活。为了解决这个问题，我们设置了一个阈值来二进制化类不可知的激活地图，并检测最大的轮廓，以确定对象区域。3.4. 弱监督目标定位我们遵循PSOL [47]的路线，将我们的C2AM适应WSOL.具体地说，WSOL分为两个任务：类无关的对象定位和对象分类.PSOL使用DDT [37]在训练集上生成与类别无关的对象边界框。给定一组相同类别的图像，DDT获得那些类别一致的重新分类。gions来提取类不可知的对象边界框。相比之下，所提出的C2AM直接从整个数据集学习类不可知的激活图，而无需任何人工注释。我们设置了一个阈值来二进制化类-不可知的激活图，然后提取类不可知的对象边界框作为伪标签（我们将在下一节中介绍DDT和C2 AM之间的公平使用这些伪标签训练定位模型以进行对象边界框预测。流行的网络，例如，EfficientNet [33]用于对象分类。3.5. 弱监督语义分割我们首先使用CAM为基础的方法来产生初始CAM的每一个图像，然后应用C2AM来完善它。具体来说，我们使用背景激活图（1P）作为伪标签来进一步训练模型以预测背景区域，即，背景提示，在图像中。如图5所示，我们将预测的背景线索与初始CAM连接起来，并沿着通道维度执行argmax过程以细化初始CAM。这有助于减少背景的错误激活，并在初始CAM中激活更多的前景区域。伪训练和精化过程的更多细节如下：01 23 4K图5.使用背景线索细化初始CAM。包括在补充材料中。我们只是用一个简单的方法来证明我们的C2AM的有效性，细化初始CAM和留下更多的工作在未来。4. 实验4.1. 实验装置数据集。CUB-200-2011 [35]是一个细粒度分类数据集，包含200种鸟类，5，994张用于训练的图像和5，794张用于测试的图像。ImageNet-1 K是一个大规模的视觉识别数据集，包含1，000个类，其中包含1，281，197个训练图像和50，000个验证图像。PASCALVOC2012 [8]是一个流行的语义分割数据集，具有20个对象类别。它包括1，464张用于训练的图像、1，449张用于验证的图像和1，456张用于测试的图像。评估指标。在WSOL中，我们遵循[50]使用Top-1定位精度（Top-1 Loc）、Top-5定位精度（Top-5 Loc）和GT已知定位精度（GT已知Loc）进行评估。对于GT已知的Loc，当预测的边界框与属于同一类的地面实况边界框之一重叠超过50%时，局部化是正确的对于Top-1 Loc，当Top-1分类结果和GT已知Loc都正确时，预测是正确的。对于前5个位置，当前5个分类结果之一和GT已知位置都正确时，预测是正确的还采用了[5]中提出的MaxBoxAccV2，其平均了不同边界框比率的性能30%，50%，70%。在WSSS中，采用交大于并（IoU）和平均交大于并（mIoU）作为评价指标.The implementation details are provided in the supple-mentary materials.5. 结果和分析我们首先提出了一个视觉比较 CAM 和建议的C2AM，以验证更完整和正确的前景区域可以预测类不可知的激活地图生成的C2AM。然后，我们将C2AM应用于WSOL，并表明CAM可以被类不可知的激活图取代，以获得更多的活性。策划对象本地化。此外，我们还将C2AM应用于Argmax（w（w995输入凸轮C2AM输入凸轮C2 AM GTImageNet-1K PASCAL VOC 2012图6.CAM和C2AM生成的类不可知激活图之间的视觉比较最好用彩色观看表1.在CUB-200-2011测试集和ImageNet-1 K验证集上比较所提出的方法和最先进的方法之间的性能。Loc Back.表示定位骨架。Cls Back.表示用于分类的主干。*和 *指示h（·）由监督和无监督（moco）预训练初始化。 *：重新推行计划的结果。CUB-200-2011 ImageNet-1K方法Loc Back。Cls Back.Top-1位置Top-5位置GT已知位置Top-1位置Top-5位置GT已知位置[ 50 ]第五十话VGG-GAP36.13--42.8054.8659.00[ 6 ]第六届全国人大代表VGG-GAP52.36-73.9644.92--I2CECCVInceptionV365.9968.3472.6053.1164.1368.50[ 24 ]第二十四GoogLeNet58.5871.1075.3049.0658.09-[ 26 ]第二十六话VGG1660.2772.577.2949.5661.3265.05FAMVGG1669.26-89.2651.96-71.73ORNetICCVVGG1667.7480.7786.252.0563.9468.27[ 50 ]第五十话DenseNet16129.8139.85-39.6150.4052.54PSOLCVPRResNet50 ResNet5070.6886.6490.0053.9863.0865.44PSOLCVPRDenseNet161efficientnet-B780.89美元89.97美元91.78磅58.0065.0266.28C2 AM（Ours）†DenseNet161efficientnet-B783.2892.7494.4659.2866.7268.20C2 AM（Ours）††DenseNet161efficientnet-B781.7691.1192.8859.5667.0568.53WSSS和表明类无关激活图可以作为背景线索，以减少CAM中背景的假激活详细信息见以下章节。表2.DDT的GT已知Loc和我们在CUB- 200-2011和ImageNet-1K上的C2 AMInit.表示参数初始化。suppress.：从监督的预训练初始化参数。moco [11]和detco [40]：无监督的预训练。答：结果是通过我们的重新实现获得的。方法BAC.Init.Cub-200-2011ImageNet-1K滴滴涕VGG16超预处理84.5561.41C2 AMVGG16超预处理75.3463.41滴滴涕ResNet50超预处理72.3959.92C2 AMResNet50超预处理89.9965.89滴滴涕ResNet50Moco34.9540.52C2 AMResNet50Moco89.9066.51滴滴涕ResNet50代特科35.8641.23C2 AMResNet50代特科88.2165.48表3. MaxBoxAccV2的评价结果ImageNet CUB方法VGG成立ResNet50VGG成立ResNet50最佳WSOL 60.6 63.9 63.7 66.3 58.8 66.4C2 AM（我们的）66.3 65.8 81.4 82.4 83.85.1. 与CAM的图6显示了CAM和C2 AM在ImageNet-1 K和PASCALVOC 2012数据集上的视觉比较。第二列和第五列呈现CAM的可视化。可以看出，通过图像级监控，CAM可以正确指示位置但是通常只聚焦在目标对象的最有区别的区域上，例如，鸟的头。此外，CAM还激活类相关区域，例如，铁路，而忽略了火车的整个身体。这些问题降低了WSOL和WSSS中CAM的性能。与此相反，类不可知的激活映射生成，996··表4.语义分割性能（IoU（%））之间的初始CAM和CAM之间的11个类别的比较，通过使用建议的C2AM细化。初始CAM使用PSA、SC-CAM、SEAM、PuzzleCAM和AdvCAM生成分别表示采用无监督预训练（moco）初始化C2AM的骨干网络h（·）。方法bkg阿雷奥自行车鸟船瓶总线车猫椅牛表5.不同方法之间的语义分割性能（mIoU（%））dCRF：密集CRF [18]。FSSD：来自全监督显着性检测器的背景线索[22]。††：采用moco初始化C2AM的骨干网工作h（·）方法CAM+ dCRF+ FSSD +C2AM††PSACVPRSC-CAMCVPRPSA [1]78.041.0二十七点五42.0三十四点四四十四分五六十三点三五十三点三四十三点二三十点九四十九点三分+ C 2AM88.0七十五点四四十五点一七十九点五五十二点六六十四八78.0七十三点五八十一点四27.0七十八点二SEAMCVPRSC-CAM [3]78.6四十二点一二十九点二四十四分五三十七点零56.1六十九点九五十八点二五十九点八二十七点八五十二点五+ C 2AM88.0七十四点八四十六点六八十点五五十二点八六十八点五79.0七十四点六八十四点七26.178.3SEAM [36]82.8五十一点零三十五点四五十七点四三十一点六50.0五十七点九分63.262.4二十七点三63.0+ C 2AM87.1七十一点九四十四点二77.9四十五点六分六十一点九七十五点五70.4八十二点五二十二点五78.0PuzzleCAM [16]78.543.232.336.723.151.767.661.4七十六点七16.760.4+ C 2AM87.6七十一点五四十八点四78.0四十四点六六十六点七七十七点三74.3八十五点七二十一点三八十二[19]第十九话50.6三十三点五五十七点五三十七点零五十三点三六十七点八五十四点八六十四点七35.068.4+ C 2AM87.5七十二点九四十六点四七十八点九50.7六十点五77.8七十一点二八十四点五二十六点八七十九点五由C2AM认证有效地缓解了上述问题。如图6左侧所示，C2AM可以完全将前景对象从背景区域中分离出来，鸟的整个身体都被激活。此外，如图6右侧所示，C2AM成功地将铁路与列车区分开，从而可以激活列车的整个5.2. WSOL的结果类不可知的对象边界框。表2比较了C2 AM和DDT生成的类不可知边界框的质量[37]。当监督预训练-在ImageNet-1 K上的ing作为h（）的初始化，由C2AM生成的类不可知的边界框具有比DDT更高的GT已知Loc（除了VGG16）。这表明，我们的方法有一个很好的能力，以产生更高质量的类不可知的边界框比DDT。当考虑无监督预训练时，例如，moco [11]和detco [40]，DDT在两个基准上的GT已知的Loc具有大的下降。相反，我们的C2AM保持了很高的性能，甚至优于使用监督预训练的DDT.关于CUB-200-2011的结果表1比较了C2 AM和最先进方法在CUB-200- 2011上的性能。我们的方法实现了83.28%的Top-1 Loc、92.74%的Top-5 Loc和94.46%的GT已知Loc当来-与SPA和ORNet相比，我们的C2AM在Top-1 Loc，Top-5Loc和GT- known Loc方面大大超过了它们.与PSOL相比，有监督预训练的C2AM分别提高了2.39%、2.77%和2.68%.在Top-1 Loc、Top-5 Loc和GT已知Loc方面，当h（）由moco初始化时，C2AM也获得了比PSOL更好的性能.我们还在表3中提供了MaxBoxAccV2指标的结果，其中最佳WSOL的结果直接取自[5]。我们可以观察到，我们的C2AM在不同的网络和数据集上都取得了显著的提高ImageNet-1 K上的结果。表1还比较了我们的方法与其他最近推出的弱监督66.0（+15.1）997PuzzleCAMICIPAdvCAMCVPRImageNet-1 K验证集上的对象定位方法我们的方法实现了 59.56% 的 Top-1 Loc ， 67.05% 的 Top-5 Loc 和68.53%的GT已知Loc，达到了最先进的性能。当使用相同的本地化（DenseNet161 [14]）和分类时，bone（EfficientNet-B7 [33]），C2 AM在验证集上的性能显著超过PSOL 1.56%，2.03% 和 2.25% 的 Top-1 Loc ， Top-5 Loc 和 GT 已知Loc。5.3. WSSS结果PASCAL VOC2012上的结果。由于本节旨在证明C2AM在优化初始CAM方面的有效性，并且优化后的CAM可进一步用于WSSS的其他阶段，因此，PASCAL VOC2012的训练集表4显示了使用C2 AM对现有CAM方法的每一类改进可以看出，许多基于CAM的方法对大多数类别的分割性能，包括PSA[1]，SC-CAM [3]，SEAM [36]，Puz-zleCAM [16]和AdvCAM [19]通过使用C2AM得到了很大的改进。例如，对于自行车、鸟和牛，这五种方法的IoU平均分别提高了14.6%、31.3%和20.1%。为了将我们的C2AM与其他CAM细化方法进行比较，表5列出了由PSA等文献工作生成的初始CAMSC-CAM 和 PuzzleCAM 等，以及通过密集 CRF（+dCRF）[18]和完全监督显着性检测器（+FSSD）[22]产生的背景线索以及我们的C2AM（+C2AM）进行改进后的改进。密集CRF的结果在他们的论文中报道，在3.5节中介绍的过程用于+FSSD和+C2AM。可以清楚地看到，使用我们的C2AM后，初始CAM的质量特别是，PSA [1]和SC-CAM [3]分别提高了17.5%和特别地，由从C2AM生成的背景线索引起的mIoU的增加甚至高于由完全监督的显著性检测器生成的mIoU的增加。我们还在图7中提供了CAM细化的可视化。在第一列中可以观察到，许多对象区域，例如，白牛的身体和脚998××··初始CAM背景提示细化CAMGT图7.使用从C2AM中提取的背景线索进行CAM细化的插图.第一列：初始 CAM 。第二列：从 C2AM 提取的背景线索（255：背景，0：前景）。第三列：CAM使用背景提示进行优化。最后一列：真实面具最好用彩色观看。表6.激活头33卷积参数初始化的灵敏度分析。k normal和kuniform是Py-Torch [27]中kaiming normal和kaiming uniform初始化的简称。结果在ImageNet-1 K验证集上报告。度量k正规k一致正规一致GT-已知Loc66.51 66.4466.82在最初的CAM中没有被激活。此外，背景，例如，草和地面通常被错误地激活。为了解决这些问题，我们使用类别不可知的激活图来提取背景线索（如第二列所示），以有效地减少背景的错误激活并预测更可靠的对象区域。第三列中显示的结果与地面实况（最后一列）高度重叠。5.4. 敏感性分析我们在ImageNet-1 K上进行实验，以检查C2 AM的超参数敏感性。采用GT已知Loc作为性能评价。激活头的尺寸。采用具有批归一化层的3 - 3卷积作为激活头函数（）。骨干网络h（）可以用监督或无监督的预训练（例如，moco，detco）。启动头呢？激活头的初始化是否影响C2AM的性能？我们用四个不同的参数初始化激活头进行实验开明正常，开明统一，正常，统一初始化。批量归一化层中的权重和偏置是初始的-图8.方程中超参数α的灵敏度分析五、用1和0表示。表6比较了这四种初始化选择的性能。可以看出，这些初始化方法的性能都比较稳定，说明C2AM的激活头对参数初始化不超参数α图8显示了在方程中α设置不同的情况下，GT已知的C2AM的Loc。五、结果在ImageNet-1 K验证集上报告。当α等于0时，每个wi，j等于1，并且每个正对包括那些具有不同外观的前景和具有显著不同颜色/纹理的背景也被拉到一起。这违反了只有具有相似外观、颜色或纹理的代表才能被拉近的假设。因此，当α设置为0时，GT已知Loc最低。当α大于0时，根据特征相似度为不同的正对分配不同的权重。如图所示，当α大于0时，Gt-Known Loc得到了很大的改善，这表明所提出的秩加权能够很当α从0.1变化到0.9时，参与对比学习的正对数目逐渐减少。稳定的性能表明，我们的方法对正对的数量不α的设置）。6. 结论和讨论我们提出了跨图像的前景-背景对比，用于使用未标记的图像数据生成与类别无关的激活图类别不可知激活图确定更可靠的前景区域，其可用于替换或改进CAM以获得更好的WSOL和WSSS性能。大量的实验表明，WSOL和WSSS可以受益于我们的方法。由于提出的C2AM在未标记的训练数据中表现良好，我们相信它可以进一步用于有效地识别在许多视觉任务中，例如，显著性检测和皮肤病变分割等。致谢本研究得到了国家自然科学基金项目91959108的资助999引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR中，第4981-4990页，2018年。三、七[2] Kyungjune Baek ， Minhyun Lee ， and Hyunjung Shim.Psynet ： Self-supervised approach to object localizationusing point symmetric transformation.在AAAI，第10451-10459页，2020中。3[3] 张玉婷，王乔松，洪伟智，罗宾逊·皮拉穆图，蔡义轩，杨明轩。通过子类别探索的弱监督语义分割。在CVPR中，第8988-8997页，2020年。三、七[4] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。在ICML，第1597-1607页，2020年。3[5] Junsuk Choe、Seong Joon Oh、Seungho Lee、SanghyukChun、Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法。在CVPR中，第3133-3142页，2020年。五、七[6] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在CVPR中，第2219-2228页，2019年。三、六[7] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。见CVPR，第539-546页，2005年。3[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊5[9] 葛一笑，朱峰，陈大鹏，赵瑞，李洪生.领域自适应目标识别的混合存储器自定步调对比学习。在NeurIPS，2020年。3[10] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在CVPR，第1735-1742页，2006中。3[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在CVPR中，第9726-9735页，2020年。三六七[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。二、三[13] Hou Qibin，Jiang Peng-Tao，Wei Yunchao，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。在NeurIPS，第547-557页，2018年。3[14] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR中，第2261-2269页，2017年。7[15] Peng-Tao Jiang ， Qibin Hou ， Yang Cao ， Ming-MingCheng，Yunchao Wei，and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在ICCV，第2070- 2079页，2019年。3[16] 赵尚贤和柳仁在Puzzle-cam：通过匹配部分和全部特征来改进本地化。2021年IEEE国际图像处理会议（ICIP），第639-643页，2021年。7[17] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。在NeurIPS，2020年。3[18] Phi l ippKr？henb？hl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理在NeurIPS，第109-117页，2011中。7[19] Jungbeom Lee，Eunji Kim，Sungroh Yoon。用于弱监督和半监督语义分割的反不利操纵属性。在CVPR中，第4071- 4080页，2021年。三、七[20] Seungho Lee ， Minhyun Lee ， Jongwuk Lee ， andHyunjung Shim.铁路不是火车：显着性作为弱监督语义分割的伪像素监督。在CVPR中，第5495-5505页，2021年。3[21] Junnan Li，Pan Zhou，Caiming Xiong，and Steven Hoi.无监督表示的亲典型对比学习。ICLR，2021年。3[22] Jiangjiang Liu，Qibin Hou，Ming-Ming Cheng，JiashiFeng，and Jianmin Jiang.一个简单的基于池的实时显著对象检测设计。在CVPR中，第3917-3926页，2019年。7[23] Yun Liu

下载后可阅读完整内容，剩余1页未读，立即下载