像素到原型对比的弱监督语义分割方法

148 浏览量更新于2023-10-25 收藏 14.35MB PDF 举报

弱监督语义分割

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

�� + ��+6.0 mIoU+3.2 mIoU�� + ��+2.8 mIoU43200像素到原型对比的弱监督语义分割0杜烨，付泽华，刘庆杰*，王云鸿虚拟现实技术与系统国家重点实验室，北京航空航天大学，中国北航杭州创新研究院0{ duyee, zehua fu, qingjie.liu, yhwang } @buaa.edu.cn0摘要0尽管基于图像级弱监督的语义分割（WSSS）已经以类激活图（CAMs）为基础取得了巨大进展，但分类和分割之间的监督差距仍然阻碍了模型生成更完整和精确的伪掩码进行分割。在本研究中，我们提出了一种基于像素到原型对比的弱监督方法，可以提供像素级的监督信号来缩小这个差距。我们的方法受到两个直观的先验知识的指导，在不同视角和单个视角内执行，旨在施加跨视图特征语义一致性正则化，并促进特征空间的类内（类间）紧凑性（分散性）。我们的方法可以无缝地融入现有的WSSS模型，不需要对基础网络进行任何更改，并且不会增加任何额外的推理负担。大量实验证明，我们的方法始终以较大的优势改进了两个强基线，证明了其有效性。具体而言，在SEAM的基础上，我们将PASCAL VOC2012上的初始种子mIoU从55.4%提高到61.5%。此外，借助我们的方法，我们将EPS的分割mIoU从70.8%提高到73.6%，达到了新的最先进水平。01. 引言0受益于大规模像素级注释，语义分割[38]在近年来取得了显著进展。然而，获取如此精确的像素级注释是费时费力的。为了减轻这个负担，许多工作采用弱监督语义分割（WSSS），旨在从弱标签（如图像标签[2, 21, 22, 27, 32, 53,62]，边界框[39]，点[4]和涂鸦[47]）中学习分割模型。其中，只需要图像标签的图像级WSSS已经得到了广泛研究。0* 通讯作者。0CONTA0AdvCAM0EDAM0+1.0 mIoU0DeepLab分割mIoU（%）0初始种子mIoU（%）0改进超过基准模型0图1.初始种子质量与分割性能。我们的方法在推理过程中不对基础网络进行任何更改，能够持续改进现有的最先进方法，即SEAM[53]和EPS [32]，并取得一致的性能提升。0计算机视觉社区。图像级弱监督语义分割是一项具有挑战性的任务，因为图像标签仅指示对象类别的存在，并不提供对于语义分割至关重要的准确对象位置的信息。为了解决这个问题，广泛采用了类激活图（CAMs）[67]，它们可以识别图像中对分类起到最大贡献的部分，从而粗略估计目标对象的区域。这些区域，也被称为种子，用于为训练分割模型生成伪造的真值。然而，CAMs只覆盖了对象的部分，导致监督不准确和不完整。这个问题源于分类任务和分割任务之间的监督差距。具体来说，由图像标签监督的分类网络倾向于关注对象最具区分性的区域，以实现更好的图像标签分类性能，而分割任务需要像素级的监督，将类别分配给整个图像中的每个像素。缩小监督差距的方法是通过引入额外的监督信息，例如像素级的标注或者边界框，来指导分割模型的训练。然而，这些方法需要更多的人工标注，增加了标注的成本。因此，我们提出了一种基于像素到原型对比的弱监督语义分割方法，它可以提供像素级的监督信号，缩小分类和分割之间的监督差距。我们的方法通过两个直观的先验知识，在不同视角和单个视角内执行，旨在施加跨视图特征语义一致性正则化，并促进特征空间的类内（类间）紧凑性（分散性）。我们的方法可以无缝地融入现有的弱监督语义分割模型，不需要对基础网络进行任何更改，并且不会增加任何额外的推理负担。大量实验证明，我们的方法始终以较大的优势改进了两个强基线，证明了其有效性。具体而言，在SEAM的基础上，我们将PASCAL VOC2012上的初始种子mIoU从55.4%提高到61.5%。此外，借助我们的方法，我们将EPS的分割mIoU从70.8%提高到73.6%，达到了新的最先进水平。43210WSSS的视觉差距对于我们探索像素级监督信号以补充图像标签至关重要。受到引人注目的对比自监督算法[20]的启发，我们开发了一种新颖的弱监督像素到原型对比学习方法，用于WSSS，可以提供像素级监督，以提高CAMs的质量和分割的性能。我们的方法基于两个隐含但有价值的先验：（i）特征应在图像的不同视图之间保持语义一致性；（ii）具有相同标签的像素在特征空间中应具有相似的表示，反之亦然。根据这些先验作为指导，像素到原型对比在不同视图之间和每个图像的单个视图内执行，分别导致了跨视图对比和视图内对比。我们的方法通过原型为基础的度量学习方法塑造像素嵌入空间来实例化，核心思想是将像素拉到它们的正原型附近，并将它们推离它们的负原型，以学习具有区分性的密集视觉表示。在我们的方法中，原型被定义为每个类别的代表性嵌入。它是通过CAMs中具有顶部激活的像素级特征嵌入来估计的。在学习过程中，每个原型的极性由当前小批量中与其相关联的每个像素的伪标签确定。然而，当从CAMs生成伪掩模时，会出现一个棘手的问题：过度激活和欠激活的区域可能会破坏对比学习，特别是视图内对比。为了缓解这个问题，我们采用了两种策略：半硬原型挖掘和硬像素采样，以减少不准确的对比，并更好地利用困难样本。最近，Wang等人[53]提出了SEAM，通过CAM等变性约束来缓解监督差距问题，该约束强制CAMs具有与输入图像相同的空间变换。我们的方法有两个主要区别。首先，我们的方法对像素级特征施加正则化，强制像素嵌入与正原型相似且与负原型不相似，而SEAM计算同一图像的不同视图的CAMs之间的一致性损失。此外，我们的工作同时考虑了跨视图和视图内的正则化，而SEAM只在视图之间集成了等变正则化。我们的方法可以无缝地集成到现有的WSSS模型中，而不需要对基础网络进行任何更改。它只需要在训练过程中额外的公共投影器，并且不会增加额外的推理负担。实验证明，我们的方法大幅提高了最先进的模型。如图1所示，我们的方法在两个强基线模型上始终取得了改进。0关于初始种子质量和分割性能。我们还通过广泛的消融研究验证了我们的方法，发现每个组件都对性能改进有很大贡献。总结起来，我们的主要贡献如下：0•我们提出了用于WSSS的弱监督像素到原型对比。它使像素在WSSS设置下能够从每个类别的可靠原型获得监督，从而大大缩小了分类和分割之间的差距。0•我们建议在图像的一个视图内和不同视图之间执行像素到原型的对比学习，这显著提高了CAMs和随后的分割掩模的质量。0•我们的方法展示了令人印象深刻的结果，大幅超越基线模型，并在标准基准测试中取得了最佳性能。02. 相关工作0基于图像级别的弱监督语义分割。在生成伪掩码然后训练语义分割网络的流程下，基于图像级别标签的弱监督语义分割取得了显著进展。最近的一些方法依赖于CAMs[67]来确定目标位置，通过发现对分类有信息量的图像像素。然而，CAMs只能突出显示对象最具有区分性的区域，因此提供的伪掩码是不完整的。为解决这个问题，已经付出了大量的努力。他们通过采用区域擦除[18,54]、区域监督[25]和区域增长[19,43]等策略，旨在使网络更多地关注非区分性的对象区域，以完成CAMs。还有一些方法通过迭代解决方案来改进CAM。例如，PSA [2]和IRN[1]通过随机游走将局部响应传播到属于同一语义实体的附近区域。上述问题的根本原因是分类和分割之间的监督差距。许多研究人员注意到这一点，并探索使用额外的监督，如多级特征图[26]、累积特征图[21]、跨图像语义[15,45]、子类别[5]、显著性图[32,60]和CAM一致性约束[53]，以缩小这一差距。这些方法简单但表现出令人鼓舞的性能。对比学习。对比学习（CL）[20]在无标签学习中展现了巨大的潜力。CL的核心思想是使用InfoNCE损失[40]来衡量模型对一组不相关的负样本的特征表示进行分类的能力。例如，[58]使用记忆库在实例级别学习特征表示，他们试图在单位球上最大程度地散布实例嵌入。𝑓��𝐴(·)𝑎𝑟𝑔𝑚𝑎𝑥𝑎𝑟𝑔𝑚𝑎𝑥on top of existing WSSS methods and directly produce bet-ter quality seeds for segmentation. Recently, some stud-ies apply contrastive learning to domain adaptation [35] andfew-shot [36] semantic segmentation, also showing impres-sive results.Consistency Regularization. Consistency regularization isa hot topic in the field of semi-supervised semantic seg-mentation. The idea is to enforce semantic or distributionconsistency between various perturbations, such as imageaugmentation [23] and network perturbation [10, 64]. Forexample, Ke et al. [23] enforce cross probability consis-tency; Chen et al. [10] impose consistency regularizationon two networks perturbed with different parameters for thesame input image. The common goal of such methods isto construct appropriate supervisions by imposing consis-tency regularization, which greatly improves segmentationperformance of semi-supervised segmentation. However,this idea is rarely studied in the case of weakly supervisedsegmentation. Our proposed cross-view pixel-to-prototypecontrast can be regarded as imposing feature semantic con-sistency regularization across different views of each image.43220内视图对比0跨视图对比0内视图对比0CNN0f proj (A(∙))0f proj (A(∙))0CNN0f proj0f est0f proj (A(∙))0原型0L20L20L20L20原型生成最小采样0原型生成最小采样0源视图S0目标视图T0A(∙)共享权重0源特征图0源CAM0目标CAM0目标特征图0弱监督像素到原型对比0伪掩码0伪掩码0伪掩码0伪掩码0原型0图2.我们提出的像素到原型对比的整体流程。A(∙)是用于增强训练样本的空间变换。fCAM，fproj由1×1卷积层和ReLU实现。fest表示原型估计过程，p{S,T}表示生成的原型。L2表示每个像素的L2归一化。argmax函数在通道维度上逐像素进行，返回最大值的索引。0MoCo[17]将编码特征与动态字典进行匹配，字典通过动量更新策略不断演化。SimCLR[9]提出了一个简单的框架，从大型小批量中生成负样本。此外，Khosla等人[24]将自监督对比方法扩展到完全监督的设置。他们提出了一种监督对比损失，以有效地利用标签信息，实现特征空间内类内紧凑性和类间分散性。Wang等人[52]提出了像素级的密集对比学习，在下游密集预测任务上的性能优于MoCo。此外，Li等人[33]提出了利用聚类促进对比学习的方法。他们提出了ProtoNCE损失，吸收了对比学习和基于聚类的无监督表示方法[48]的优点，在几个基准测试上取得了实质性的改进。分割中的对比学习。最近，许多研究利用对比学习来促进图像分割。这些工作利用像素级或块级对比学习来改进语义分割，在完全监督[50]、半监督[3]、弱监督[22]和无监督[49]的设置下。Caron等人[22]通过像素到分割对比来改进WSSS，他们假设分割已经提前知道。在他们的工作中，他们使用SEAM生成CAMs。相反，我们构建03. 方法论043230改变推理过程。训练这样一个模型的整体损失函数是交叉视图对比损失L cross 和内视图对比损失L intra 的线性组合：0L contrast = α L cross + β L intra (1)0其中α、β是两个正常数。在本节中，我们首先回顾如何生成CAM，然后介绍我们提出的像素到原型对比以及如何估计原型，最后详细说明如何在不同视图之间和每个图像的单个视图内应用对比学习。我们的方法框架如图2所示。按照常规做法，我们首先使用我们提出的方法生成像素级伪掩码，然后使用它们来训练一个DeepLab[6, 8]分割网络。03.1. 初步0我们从对CAM如何通过可视化技术生成的简要回顾开始。给定一个CNN（例如ResNet38[57]），我们用f∈RD×HW表示最后一个卷积特征图，其中HW是空间尺寸，D是通道维度。应用全局平均池化（GAP）操作来聚合特征图。接下来，应用具有参数w∈RC×D的全连接层来检索类别得分。这里，C是类别数。形式上，类别c的得分如下所示：0s c = 10HW0j=1 wc,j �0i f j,i (2)0然后，类别c的CAM mc 如下所示：0m c = ReLU0� 0j=1 wc,j f j,:0�0� (3)0值得注意的是，计算CAM的一个理论上等价且更方便的方法是直接选择最后一个卷积层的特征图[66]。给定特征图f，我们可以在f之上添加一个由C个大小为1×1、步长为1的卷积层，得到f'∈RC×HW。然后，通过对f'应用GAP来计算类别c的得分。接着，将f'经过ReLU函数直接用作CAM。在本文中，我们采用这种方式计算CAM。03.2. 像素到原型对比0给定图像的CAM，我们使用像素级的argmax函数生成伪掩码y，即y =argmax(m)，它确定每个像素的类别。对于每个类别，存在一个代表性的嵌入。0图像0伪掩码0投影特征空间中的像素到原型对比0图3.在投影特征空间中像素到原型对比的示意图。相同颜色的像素嵌入（圆圈）和原型（方块）属于同一类别。0即原型，表示为P={pc}Cc=1。我们的目标是在投影特征空间中通过对比学习学习每个像素的判别性特征嵌入。这个想法如图3所示。我们首先通过一个投影器获得每个像素的像素级投影特征vi∈R128，该投影器由一个1×1的卷积层和ReLU激活函数实现。然后，给定vi和P，像素到原型对比F(∙)具有以下公式：0F(vi;y i;P)=−log exp(vi∙p0pc∈P exp(vi∙pc/τ) (4)0其中yi∈[1,2,...,C]是像素i的伪标签，确定了正样本原型pyi。τ是温度参数，按照常见做法设置为0.1。03.3.原型估计0我们进一步描述了如何生成原型。一种可能的解决方案是通过聚类来挖掘像素级语义结构，就像无监督语义分割中所做的那样[11]。然而，在弱监督设置下，这种方法无法充分利用图像标签信息，并且通常需要过度聚类以获得更好的性能[5,48]。得到的聚类通常无法很好地匹配真实的类别。在这项工作中，我们将像素级的CAM值视为置信度，并提出从具有最高置信度的像素级特征嵌入中估计原型。具体来说，对于所有分配给类别c的像素，我们经验性地选择具有前K个置信度的像素来估计原型。原型pc被计算为投影像素级嵌入的加权平均值：0pc =0i∈0i'∈Ωcmc,i' (5)0其中Ωc是类别c的前K个像素的集合，每个像素i具有CAM值mc,i。随后进行L2归一化。||Lintra = 1|I|The intra-view contrast is conducted on both views, andwe do not list the symmetrical form in Eq. (9) for simplicity.However, we experimentally find that trivially introducingLintra could cause performance degeneration. The reason isthat there are no precise pixel-wise annotations in the caseof weakly supervised setting, the pseudo label yi assignedto pixel i could be inaccurate, resulting in inaccurate con-trasts. Motivated by the hard example mining strategies incontrastive learning [42, 50], we alleviate this issue by in-troducing semi-hard prototype mining. Moreover, we alsoadopt a hard pixel sampling strategy to focus more on pixelsamples hard for segmentation.Semi-hard Prototype Mining. For a pixel i, the as-signed label yi determines the positive prototype pyi andnegative prototypes PN = P\pyi. Inspired by [50], ratherthan directly using PN, we adopt semi-hard prototype min-ing: for each pixel, we first collect the top 60% hardest neg-ative prototypes, from which we choose 50% as the negativesamples to compute the intra-view contrastive loss.Here, a remaining question is how to define ‘harder’ pro-totypes. Following [50], for pixel i, we view the prototypesexcept pyi with dot products to pixel feature embedding vicloser to 1 to be harder, i.e., prototypes that are similar tothe pixel.Hard Pixel Sampling.We also introduce hard pixelsampling to make better use of hard pixels. Specially, in-stead of using all pixels belonging to a prototype pc to cal-culate the intra-view contrastive loss, we adopt a per-classpixel sampling strategy: for each class, half of the pixels arerandomly sampled and half are the hard ones.Unlike [50], in this part, we define ‘harder’ pixels with-out ground truth during training. For a prototype pc, weview the belonging pixels with dot products to pc closer to−1 to be harder, i.e., pixels that are dissimilar to the pro-totype. The definition of ‘harder’ pixels is exactly the op-posite of ‘harder’ prototypes, as the pixel far away fromthe corresponding prototype requires more attention to bepulled closer to the prototype in order to improve intra-classcompactness.We experimentally prove that equipped with the twostrategies, we mitigate the effect of incorrect contrasts and43240对每个原型进行归一化。这里，K是一个超参数，较小的K意味着计算原型时更高的置信度。此外，为了捕捉整个数据集的全局上下文，我们在训练批次中计算原型，即选择具有整个训练批次中最高CAM值的像素。03.4.跨视图对比0给定像素到原型对比损失的公式（4），我们详细描述了如何在跨视图语义一致性的指导下应用交叉视图对比。具体来说，给定一张图像作为源视图S，我们通过空间变换A(∙)生成目标视图T，如图2所示。然后，使用预训练的CNN骨干对这两个视图进行编码，进一步处理以获取两个CAMs。我们对源视图的特征图和CAM应用相同的变换A(∙)，目的与[53]相同。交叉原型对比。考虑到两个视图之间应该存在语义一致性，一个视图的原型可以作为另一个视图的监督信号，反之亦然。准确地说，给定一个像素i及其伪标签yi∈[1,2,...,C]和投影特征嵌入vi，从另一个视图中借用的原型P'={p'c}Cc=1被用来对当前视图进行正则化。根据公式（4）中像素到原型对比的定义，交叉原型对比损失通过以下方式计算：0Lcp = 10i ∈ I F ( vi ; yi ; P' ) (6)0其中I表示整个图像，|∙|表示基数。交叉CAM对比。此外，一个视图的CAM也可以用于对另一个视图进行一致性正则化。CAM确定了视图的伪掩码。因此，对于一个具有自己视图中的原型P的像素i，我们利用另一个视图的伪标签y'i来确定正原型和负原型。类似地，交叉CAM对比损失可以写成：0Lcc = 10i ∈ I F ( vi ; y'i ; P ) (7)0值得注意的是，交叉视图对比是对称的，因为源视图和目标视图都可以作为计算Lcp和Lcc的当前视图。最终，两个视图的Lcp和Lcc相加作为总的交叉视图对比损失Lcross。为了简化起见，我们只给出一个视图的公式如下：0Lcross = Lcp + Lcc (8)03.5. 视图内对比0视图内对比。根据类内紧密性和类间离散性的第二个假设，我们进一步提出了在每个图像的单个视图内进行的视图内对比。与交叉视图对比相反，对于具有伪标签yi的像素i，视图内对比使用当前视图中的原型P来进行像素到原型的对比学习：0i ∈ I F ( vi ; yi ; P ) (9)43250更好地利用困难样本，进一步提高性能。04. 实验04.1. 数据集和基准0数据集。我们在PASCAL VOC 2012分割数据集[ 12]上评估我们提出的方法，这是WSSS的标准基准。该数据集包含21个类别，包括一个背景，训练集、验证集和测试集分别包含1,464、1,449和1,456个图像。按照语义分割的常见做法，我们使用包含10,582个图像的增强训练集[ 16]进行训练。我们报告交并比（mIoU）作为评估指标，VOC测试集上的mIoU是从官方评估服务器获取的。基准模型。我们选择两个强大的模型，SEAM [ 53 ]和EPS [ 32]作为我们的基准。SEAM提出了一种CAM等变正则化方法来缩小监督差距。EPS利用显著性图作为额外的监督。它们在WSSS方面取得了最先进的性能。我们在这些模型的基础上进行评估，以评估我们提出的方法的有效性。04.2. 实现细节0在SEAM和EPS之后，采用ResNet38作为骨干网络，输出步幅为8。图像通过最长边随机缩放到[448,768]的范围，然后裁剪为448×448作为网络的输入尺寸，按照[ 53]的方法进行。我们使用重新缩放变换将源图像调整为128×128的大小，保持输出步幅的倍数。这与SEAM略有不同，但重新缩放程度几乎相同。CNN骨干网络和投影器共享权重。用于对比损失的投影特征的维度为128。在对SEAM和EPS施加我们提出的对比正则化Lcontrast时，我们设置α =0.1和β =0.1，以保持与分类损失的平衡。我们遵循SEAM和EPS中的训练和推理过程，包括训练时期、学习率、学习率衰减策略、权重衰减率和优化器。生成伪掩码后，我们训练三个语义分割网络，以与基准模型进行公平比较。具体而言，使用ResNet38训练DeepLab-LargeFOV与SEAM进行比较；使用ResNet101训练DeepLab-LargeFOV和DeepLab-ASPP与EPS进行比较。在推理过程中，我们采用多尺度和翻转操作，与之前的工作相同。标准的稠密CRF用作后处理程序，以优化最终的分割掩码。0表1. 在PASCAL VOC 2012训练集上，PSA [ 2]对初始种子（Seed），带CRF的种子（+CRF）和伪掩码（Mask）进行的评估（mIoU（%））。0方法会议种子 +CRF 伪掩码0PSA [ 2 ] CVPR’18 48.0 - 61.0 Chang et al. [ 5 ]CVPR’20 50.9 55.3 63.4 CONTA [ 62 ] NIPS’20 56.265.4 66.1 EDAM [ 56 ] CVPR’21 52.8 58.2 68.1 AdvCAM [31 ] CVPR’21 55.6 62.1 68.0 ECS-Net [ 46 ] ICCV’2156.6 58.6 - OC-CSE [ 28 ] ICCV’21 56.0 62.8 66.9 CPN [63 ] ICCV’21 57.4 - - CDA [ 44 ] ICCV’21 58.4 - 66.40相对于基准的改进：SEAM [ 53 ] CVPR’20 55.4 56.8 63.60我们与SEAM相结合 - 61.5 +6.1 64.0 +7.2 69.2 +5.60EPS [ 32 ] CVPR’21 69.5 71.4 71.60我们与EPS相结合 - 70.5 +1.0 73.3 +1.9 73.3 +1.70表2. 在PASCAL VOC 2012训练集上，IRN [ 1]对初始种子（Seed），带CRF的种子（+CRF）和伪掩码（Mask）进行的评估（mIoU（%））。0方法会议种子 +CRF 伪掩码0IRN [ 1 ] CVPR’19 48.8 54.3 66.3 MBMNet [ 37 ]MM’20 50.2 - 66.8 CONTA [ 62 ] NIPS’20 48.8 -67.9 AdvCAM [ 31 ] CVPR’21 55.6 62.1 69.90我们与SEAM相结合 - 61.5 64.0 70.104.3. 种子和伪掩码评估0为验证我们方法的有效性，我们报告了VOC上初始种子和伪掩码的定量质量。按照SEAM的方法，种子是通过将一系列阈值应用于CAM中的前景和背景来获得的。结果如表1所示。可以看出，我们在初始种子和种子+CRF上分别提高了6.0%和7.2%的mIoU，表现出优秀的性能。图4表明，我们方法生成的CAM不仅完全覆盖目标对象，而且显示出准确的边界。与基准相比，我们生成的CAM更准确地匹配地面真值分割掩码。此外，与最近的CONTA [ 62 ]、CPN [ 63 ]和CDA[ 44]等方法相比，我们的方法在性能上有很大的优势。将我们的方法应用于EPS时也观察到了显著的改进。具体而言，我们与EPS相结合在种子+CRF上实现了73.3%的mIoU，达到了最先进的性能。WSSS中的典型流程是通过区域生长和随机游走策略对初始种子进行改进。大多数方法使用PSA [ 2]或IRN [ 1]对初始种子进行改进。因此，我们还比较了改进的伪掩码的质量。43260（a）（b）（c）（d）0图4.CAM的可视化。（a）图像。（b）GT掩码。（c）由SEAM生成的CAM。（d）由我们的方法生成的CAM。我们的方法在准确性和完整性方面生成的CAM优于SEAM。0我们的方法和其他最新技术得到的伪掩码的性能。表1的第5列显示了由PSA改进的伪掩码的mIoU性能。可以观察到我们的方法大大超过了现有方法。请注意，我们方法的种子质量很高，我们不再使用PSA进行进一步的改进。相反，种子+CRF直接作为伪掩码提供。表2比较了我们的方法（使用SEAM）和使用IRN改进的其他对应方法之间的性能。我们的方法在初始种子上的mIoU性能明显优于最佳对应方法AdvCAM [ 31]，超过了其5.9%的mIoU。如表所示，AdvCAM的伪掩码性能主要来自使用IRN的改进过程，而我们的方法更多地依赖于我们方法生成的高质量初始种子。尽管如此，在IRN改进设置下，我们的方法实现了最先进的性能。04.4. 分割性能0通常，生成的伪掩码用于以全监督方式训练语义分割网络。为了进行公平比较，我们在表3和表4中分别报告了我们方法的DeepLab-LargeFOV和DeepLab-ASPP分割性能，并与现有方法进行了比较。SEAM使用ResNet38作为骨干网络训练DeepLab-LargeFOV网络，在PASCALVOC验证集和测试集上分别达到64.5%和64.7%的mIoU。在相同设置下，除了配备我们的方法之外，我们在验证集和测试集上将分割mIoU提高了3.2%和1.7%，显示出了显著的改进。此外，我们的方法与SEAM一起甚至超过了许多具有更强大骨干网络的模型。使用DeepLab-LargeFOV和ResNet101，配备我们的方法的EPS在PASCAL上达到了72.3%和73.5%的mIoU。0表3. 使用DeepLab-LargeFOV在PascalVOC验证集和测试集上的分割性能（mIoU（%）。最佳结果用粗体标记，相对于基准模型的改进用红色标记。S表示使用显著性图的方法。0方法骨干网络 S 验证测试0SEC [ 27 ] ECCV'16 VGG16 � 50.7 51.1 MDC [ 55 ]CVPR'18 VGG16 � 60.4 60.8 MCOF [ 51 ] CVPR'18ResNet101 � 60.3 61.2 SeeNet [ 18 ] NIPS'18 ResNet101 �63.1 62.8 Lee et al. [ 30 ] ICCV'19 ResNet101 � 66.5 67.4OAA+ [ 21 ] ICCV'19 ResNet101 � 65.2 66.4 CIAN [ 15 ]AAAI'20 ResNet101 � 64.3 65.3 MCIS [ 45 ] ECCV'20ResNet101 � 66.2 66.9 ICD [ 13 ] CVPR'20 ResNet101 67.868.0 ECS-Net [ 46 ] ICCV'21 ResNet38 66.6 67.6 Xu et al. [ 59 ] ICCV'21 ResNet38 � 69.0 68.60SEAM [ 53 ] CVPR'20 ResNet38 64.5 65.70我们的方法与SEAM ResNet38 67.7 +3.2 67.4 +1.70EPS [ 32 ] CVPR'21 ResNet101 � 71.0 71.80我们的方法与EPS ResNet101 � 72.3 +1.3 73.5 +1.70表4. 使用DeepLab-ASPP在PascalVOC验证集和测试集上的分割性能（mIoU（%）。最佳结果用粗体标记，相对于基准模型的改进用红色标记。S表示使用显著性图的方法。0方法骨干网络 S 验证测试0PSA [ 2 ] CVPR'18 ResNet38 61.7 63.2 IRN [ 1 ] CVPR'19ResNet50 63.5 64.8 FlickrNet [ 29 ] CVPR'19 ResNet101 �64.9 65.3 Zhang et al. [ 65 ] ECCV'20 ResNet50 � 66.6 66.7Fan et al. [ 14 ] ECCV'20 ResNet101 � 67.2 66.7 Chen et al.[ 7 ] ECCV'20 ResNet101 65.7 66.6 Chang et al. [ 5 ]CVPR'20 ResNet101 66.1 65.9 CONTA [ 62 ] NIPS'20ResNet101 66.1 66.7 SPML [ 22 ] ICLR'21 ResNet101 69.571.6 AdvCAM [ 31 ] CVPR'21 ResNet101 68.1 68.0 EDAM [56 ] CVPR'21 ResNet101 � 70.9 70.6 Yao et al. [ 61 ]CVPR'21 ResNet101 � 68.3 68.5 DRS [ 25 ] AAAI'21ResNet101 71.2 71.4 Li et al. [ 34 ] AAAI'21 ResNet101 �68.2 68.5 WSGCN [ 41 ] ICME'21 ResNet101 68.7 69.3 CDA [44 ] ICCV'21 ResNet38 66.1 66.8 CPN [ 63 ] ICCV'21ResNet38 67.8 68.50EPS [32] CVPR'21 ResNet101 � 70.9 70.80我们的带有EPS的ResNet101 � 72.6 +1.7 73.6 +2.80VOC验证集和测试集。此外，我们使用我们生成的伪掩码训练了一个DeepLab-ASPP网络。如表4所示，我们的方法优于所有现有方法，在PASCAL VOC2012基准测试中实现了新的最先进性能。我们在图5中展示了一些分割结果，从中可以看出我们的方法对于简单和具有挑战性的场景的图像都能很好地工作。K048163264mIoU55.4160.0260.8761.0861.5460.5547.43✓61.54✓✓61.63✓✓58.57✓✓59.3143270图5. PASCAL VOC2012验证集上的定性分割结果。（a）图像。（b）GT掩码。（c）由DeepLab-ASPP预测的分割掩码（我们的带有EPS）。0表5. 我们提出的方法的消融性能（mIoU％）。0方法训练训练+CRF 验证验证+CRF0CAM 47.43 52.40 - - SEAM（基线）55.41 56.83 52.5453.700消融实验：+交叉原型 59.08 61.98 55.75 58.33 +交叉CAM60.35 63

下载后可阅读完整内容，剩余1页未读，立即下载