图像级弱监督语义分割中的自我监督等方差注意机制和像素相关模块

161 浏览量更新于2023-10-23 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12275弱监督语义分割王玉德1，2，张杰1，2，阚美娜1，2，石光山1，2，3，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，1000493中国科学院脑科学与智能技术示范中心，上海，200031yude.wang @ vipl.ict.ac.cn，{zhangjie，kanmeina，sgshan，xlchen}@ict. ac. cn摘要图像级弱监督语义分割是一个具有挑战性的问题，近年来得到了深入的研究。大多数高级解决方案利用类激活图（CAM）。然而，由于完全监督和弱监督之间的差距，CAM很难作为对象掩模。在本文中，我们提出了一个自我监督的等价注意机制（SEAM），发现额外的监督和缩小差距。我们的方法是基于这样的观察，即等方差是全监督语义分割中的隐式约束，其像素级标签在数据增强期间与输入图像采取相同的空间变换然而，这种约束在通过图像级监督训练的CAM上丢失。因此，我们提出了一致性正则化预测CAM从各种变换的图像，为网络学习提供自我监督。此外，我们还提出了一个像素相关模块（PCM），它充分利用了图像的上下文外观信息，并利用其相似邻域对当前像素进行精确预测，从而进一步提高了CAM的一致性。在PASCAL VOC 2012数据集上进行的大量实验代码在线发布1.1. 介绍语义分割是计算机视觉中的一项基本任务，其目的是预测图像的逐像素分类结果。由于近年来深度学习研究的蓬勃发展，语义分割模型的性能取得了很大的进步[6，23，38]，促进了许多实际应用，例如，自动驾驶仪和1https://github.com/YudeWang/SEAM(a)（b）第（1）款图1.不同比例尺的输入图像生成的CAM的比较。(a)传统的CAM。(b)我们的SEAM预测的CAM，在重新缩放时更加一致。医学图像分析然而，与分类和检测等其他任务相比，语义分割需要收集像素级的类别标签，这是耗时和昂贵的。近年来，人们对弱监督语义分割（WSSS）进行了大量的研究，图像级分类标签、涂鸦和边界框，试图实现完全监督方法的等效分割性能。本文主要研究基于图像级分类标签的语义分割。据我们所知，大多数先进的WSSS方法都是基于类激活图（CAM）[39]，这是一种通过图像分类标签定位对象的有效方法然而，CAM通常只覆盖对象的最有区别的部分，并且在背景区域中不正确地激活，这可以分别概括为激活不足和过度激活。此外，当图像通过仿射变换增强时，生成的CAM是不一致的。如图1，在相同的输入图像上应用不同的重新缩放变换会导致图像上的显著不一致。12276生成的CAM。产生这些现象的根本原因在于完全监督语义切分和弱监督语义切分之间的监督鸿沟。在本文中，我们提出了一个自我监督的等价注意机制（SEAM），以缩小上述的监督差距。SEAM对来自各种变换图像的CAM应用一致性正则化，为网络学习提供自我监督。为了进一步提高网络预测的一致性，SEAM引入了像素相关模块（PCM），该模块捕获每个像素的上下文外观信息，并通过学习的亲和注意图来修正原始 CAM 。 SEAM 由具有等变交叉正则化（ECR）损失的连体网络实现，该网络在不同分支上正则化原始CAM和修改后的CAM。图1示出了我们的CAM在各种变换的输入图像上是一致的，其中过度激活和欠激活区域比基线更少大量的实验给出了定量和定性的结果，证明了我们的方法的优越性。总而言之，我们的主要贡献：我们提出了一种自监督的等变注意机制（ SEAM ），将等变规则化与像素相关模块（PCM）相结合，以缩小完全和弱监督语义分割之间的监督差距。具有等变交叉正则化（ECR）损失的连体网络架构的设计有效地耦合PCM和自监督，产生具有更少的过度激活和欠激活区域的CAM。PASCAL VOC 2012上的实验表明，我们的算法实现了国家的最先进的性能，只有图像级的注释。2. 相关工作深度学习的发展导致了一系列近年来在完全监督语义分割方面取得了突破[6，11，23，37，38]。在本节中，我们介绍了一些工作，包括弱监督语义分割和自监督学习。2.1. 弱监督语义分割与全监督学习相比，WSSS使用弱标签来指导网络训练，例如，边界框[7，18]，涂鸦[22，30]和图像级分类标签[19，25，27]。一组先进的研究利用图像级分类标签来训练模型。他们中的大多数细化分类网络生成的类激活图（CAM）[39]，以近似分割掩码。SEC [19]提出了三个原则，即：例如，种子，扩展和约束，以完善CAM，随后是许多其他作品。对抗擦除[15，32]是一种流行的CAM扩展方法，它擦除CAM中最具区分性的部分，引导网络从其他区域学习分类特征并扩展激活。AffinityNet [2]训练另一个网络来学习像素之间的相似性，该网络生成一个过渡矩阵，并与CAM相乘多次以调整其激活覆盖范围。IRNet [1]从边界激活映射生成一个转移矩阵，并将该方法扩展到弱监督实例分割。这里也有一些研究试图在WSSS框架中聚合自我注意力模块[29，31]，例如，CIAN [10]提出了跨图像注意模块，在显著图的指导下，从包含相同类对象的两个不同图像中学习激活2.2. 自监督学习自监督学习方法不是使用大量带注释的标签来训练网络，而是旨在设计借口任务来生成标签，而无需额外的人工注释。这里有许多经典的自我监督借口任务，例如，相对位置预测[9]、空间变换预测[12]、图像修复[26]和图像着色[20]。在某种程度上，生成对抗网络[13]也可以被视为一种自监督学习方法，其真实性标签由借口任务生成的标签为网络提供自我监督，以学习更鲁棒的表示。通过自我监督学习的特征可以在某些任务上取代ImageNet [8]预先训练的特征，例如检测[9]和部分分割[17]。考虑到完全监督语义分割和弱监督语义分割之间存在较大的监督差距，直觉上我们应该寻求额外的监督来缩小差距。由于图像级分类标签太弱，网络无法学习应该很好地适应对象边界的分割掩模，因此我们设计了一个任务，使用理想分割函数的等方差来为仅使用图像级注释的网络学习提供额外的自我监督。3. 方法本节详细介绍了我们的SEAM方法。首先，我们说明了我们工作的动机。然后介绍了等变正则化的一种共享权值的siamese网络实现方法.提出的像素相关模块（PCM）集成到网络中，以进一步提高预测的一致性最后讨论了SEAM的损耗图2显示了我们的SEAM网络结构。···12277····��图2.我们提出的SEAM方法的连体网络架构。SEAM是等变正则化（ER）的集成（第。3.2）和像素相关模块（PCM）（第3.2节）。3.3）。通过特殊设计的损失（3.4节），修正后的CAM不仅保持了仿射变换的一致性，而且很好地拟合了物体的轮廓。3.1. 动机我们表示理想的像素级语义分割函数，注意力机制可以定义为：1 Σy =f（x，x）g（x）+x，（1）函数为Fws（·），参数为ws。对于每个图像样本I，分割过程可以用公式表示为Fws（I）=C（xi）i j j i不s，其中s表示像素级分割掩码。因为-在分类任务中，模拟也是一致的。关于AD-f（xi，xj）=eθ（xi）φ（xj）。（二）通过使用图像级标签l和池化函数Pool（·），分类任务可以表示为具有参数wc的Pool（Fwc（I））=l。大多数WSSS方法是基于这样的假设，即用于分类和分割的最佳参数满足wc=ws。因此，这些方法首先训练一个分类网络，然后去除池化函数来处理分割任务。然而，很容易发现分类和分割函数的性质是不同的。假设每个样本都有一个仿射变换A（），则分割函数更倾向于等变。例如，Fw（A（I））=A（Fw（I））。虽然分类任务为-这里，x和y表示输入和输出特征，空间位置i等于e xi和j。输出信号通过C（xi）=f（xi，xj）. 函数g（xj）gi表示每个位置处的输入信号xj利用给定的相似性权重聚合到位置i通过f（xi，xj），其计算嵌入空间中的点积像素为了提高网络的一致性预测能力，我们提出了SEAM，将自注意力与等变正则化相结合。3.2. 等变正则化在完全监督s的语义分割，像素级标签应该是ap-cuses更多的不变性，我。例如，池（Fwc（A（I）=1。Al-虽然分类函数的不变性主要是由于池化操作的存在，使得Fwc（）不存在等变约束，这使得在网络学习过程中几乎不可能达到相同的分割函数目标。应该整合额外的正则化器来缩小完全监督学习和弱监督学习之间的监督差距。自注意是一种被广泛接受的机制，可以显着提高网络的逼近能力。它通过捕获上下文特征依赖性来修正特征图，这也符合大多数WSSS方法使用像素相似性来细化原始激活图的思想。在[31]的定义之后，一般的自我-应用与输入图像相同的仿射变换。它为网络引入了一个隐式的等变约束. 然而，考虑到WSSS只能访问图像级分类标签，这里缺少隐式约束。因此，我们提出等变正则化如下：RER= ||F（A（I））− A（F（I））||1 .一、（三）这里F（）表示网络，A（）表示任何空间仿射变换，例如，缩放、旋转、翻转。为了在原始网络上集成正则化，我们将网络扩展为共享权重的连体结构。一个分支将变换应用于网络输出，另我12278HW×C2HWHWC2 ×HWHW×C修正CAM原始CAM1×1转换特征1×1转换×−clsC−1I jot·分支在网络前馈之前通过相同的变换扭曲图像对两个分支的输出激活图进行正则化，保证了CAM的一致性.3.3. 像素相关模块虽然等变正则化为网络学习提供了额外的监督，但仅使用经典卷积层很难实现理想的等变。自我-H×W×C1H×W×C像素相关模块（PCM）H×W×C注意力是捕获上下文信息并细化逐像素预测结果的有效模块。为了集成由等式给出的经典自我注意模块。(1)和等式（2）对于CAM细化，公式可以写为：图3. PCM的结构，其中H，W，C/C1/C2分别表示特征图的高度，宽度和通道数。3.4. SEAM的损耗设计yi =1C（xi）ΣTeθ（xi）日φ（xj）g（yj）+yi，（4）图像级分类标签l是这里可以使用的唯一人工注释监督我们采用其中，y表示原始CAM，y表示修正CAM。在该结构中，原始CAM通过函数g嵌入到剩余空间中。每个像素与其他像素聚合，相似性由等式：（二）、三个嵌入函数θ、φ、g可以由单独的11个卷积层来实现。在网络末端的全局平均池化层，得到图像分类的预测向量z，并采用多标签软间隔损失进行网络训练。对于C1前景对象类别，分类损失被定义为：为了通过上下文信息进一步细化原始CAM，我们在网络的末端提出了一个像素相关模块（PCM）来整合每个像素的低级特征。n （z，l）=−1C−1c=1[llog（1）c1 +e−zce−zc（七）PCM的结构是指PCM的核心部分注意机制进行了一些修改，并通过等变正则化的监督进行训练。我们使用余弦距离来评估像素间特征相似性：θ（x）Tθ（x）f（xi，xj）=.（五）||θ（xi）||·||θ（xj）||在这里，我们在归一化的特征空间中取内积来计算当前像素i与其他像素之间的亲和度。+（1 − l c）log（1 +e−zc）]。形式上，我们将连体网络的原始 CAM 表示为 y_（？）o和y_（？）t，其中y_（？）o来自原始图像输入的分支，y_（？）t来自变换后的图像。全局平均池化层将它们分别聚合到预测向量zo和zt中。分类损失在两个分支上计算为：f可以被集成到等式中。（1）有一些修改，如：Lcls1=（ 2 CLS（zo，l）+xCLS（zt，l））。（八）1yi=C（x）Tθ（xj）ReLU（）yj.（六）||θ（x）|| · ||θ（x）||分类损失为对象定位提供学习监督因此，有必要将其等同于...ijij相似性被ReLU激活以抑制负值。最终的CAM是原始CAM与归一化相似性的加权和。图3给出了PCM结构的图示。与经典的自我注意相比，PCM去除了剩余连接，保持了原始CAM的激活强度。此外，由于另一个网络分支为PCM提供像素级监督，其不如地面实况准确，因此我们通过删除嵌入函数φ和g来减少参数，以避免在不准确的监督下过拟合。我们使用带有L1归一化的ReLU激活函数来屏蔽不相关的像素，并生成一个在相关区域中更平滑的亲和注意力图对原CAM进行蚁群正则化，以保持输出的一致性。原始CAM上的等变正则化（ER）损失可以容易地定义为：LER=||A（y）−y||1 .一、（九）这里A（）是已经在连体网络的变换分支中应用于输入图像此外，为了进一步提高网络的等方差学习能力，原始CAM和来自浅层的特征被馈送到PCM进行细化。直观的想法是在修正的CAMyo和yt之间引入等变正则化。然而，在我们早期的实验中，PCM的输出图12279很快陷入局部最小值，12280×××最大ITR−−奥托托图像被预测为同一类。因此，我们提出了一个等变交叉正则化（ECR）损失：LECR=||A（y）−y||1个以上||A（y）−y||1 .一、（十）PCM输出由连体网络的另一分支上的原始CAM正则化。该策略可以避免PCM精化过程中CAM退化。虽然通过前景对象分类损失来学习CAM，但是存在许多背景像素，这些背景像素在PCM处理期间不应被忽略。原始前景CAM在这些背景位置上具有零矢量，这不能产生梯度以将特征表示推得更靠近那些背景像素之间。因此，我们将背景分数定义为：通过单独的11个卷积层分别将数字转换为64和128。在PCM中，这些特征与图像连接并被馈送到等式（1）中的函数θ(5)，其由另一个11卷积层实现。图像在[448，768]的范围内按最长边随机缩放，然后按448，448裁剪作为网络输入。该模型在4个TITAN-Xp GPU上训练，批量大小为8，持续8个epoch。初始学习率被设置为0.01，遵循poly策略lr itr=lr init（1itr）γ，其中γ=0。九是腐败。在线硬样本挖掘（OHEM）的ECR损失剩余最大的20%像素损失。在网络训练过程中，为了避免PCM流与网络主干的相互干扰，在PCM流与网络主干的交点处截断梯度反向传播。yi，bkg=1max1≤c≤C −1 yi，c，（11）恩塞此设置将PCM简化为纯上下文其中yi，c是类别的原始CAM的激活分数-优化模块，仍然可以用后面的网络的核心与此同时以及学习位置i处有血c。我们将激活向量归一化，通过将前景非最大激活抑制为零并与附加的背景得分连接来对每个像素进行调整在推理过程中，我们只保留前景激活结果，并将背景得分设置为y=i，bkg=α，其中α是硬阈值参数。总之，SEAM的最终损失定义为：L=Lcls+LER+ LECR。（十二）分类损失用于粗略定位对象，ER损失用于缩小像素级和图像级监督之间的差距。ECR损失用于将PCM与网络的主干集成，以便在各种仿射变换上进行一致的预测。网络架构如图1所示。2.我们给出了网络训练设置的细节，并在实验部分仔细研究了每个模块的有效性。4. 实验4.1. 实现细节我们评估了我们的方法在PASCAL VOC 2012数据集与21类注释，即。例如，20个前景对象和背景。官方的数据集分离有1464张用于训练的图像，1449张用于验证，1456张用于测试。遵循语义分割的常见实验协议，我们从SBD [14]中获取额外的注释，以构建具有10582个图像的增强训练集注意在网络训练期间仅图像级分类标签可用。平均交集超过并集（mIoU）被用作评估分割结果的度量。在我们的实验中，采用ResNet38 [35]作为输出步幅=8的骨干网络。我们提取了阶段3和阶段4的特征图，原始CAM将不受PCM优化过程的影响在推理过程中，由于我们的SEAM是一个共享权重的连体网络，因此只需要恢复一个分支。在推理过程中，我们采用多尺度和翻转测试来生成伪分割标签。4.2. 消融研究为了验证SEAM的有效性，我们在PASCAL VOC2012训练集上从修订的CAM生成像素级伪标签。在我们的实验中，我们遍历所有背景阈值选项并给出伪标签的最佳mIoU，而不是与相同的背景阈值进行比较。因为最高的伪标签精度代表CAM和地面实况分割掩模之间的最佳匹配结果。具体地说，前景激活覆盖范围将随着平均激活强度的增加而扩大，而其与地面真值的匹配程度不变。并且当CAM仅增加平均激活强度而不是变得与地面实况更匹配时，最高的伪标签准确率将不会提高。与基线比较：选项卡. 1给出了在我们的方法中的每个模块的消融研究。它表明，使用具有等变正则化的siamese网络与基线相比具有2.47%的改进。我们的PCM实现了5.18%的显著性能提升。在等变交叉正则化损失上应用OHM后，生成的伪标签在PASCAL VOC训练集上进一步达到55.41%的mIoU。我们还测试了密集CRF的基线CAM，以改进预测。结果表明，密集CRF将mIoU提高到52.40%，低于SEAM结果55.41%。而我们的SEAM在聚合密集CRF作为后处理后，性能进一步提高，最高可达56.83%。图4显示CAM12281·基线儿PCM欧姆CRFMiou√√√√√√√√√√√√√√√√√百分之四十七点四三52.40%百分之四十九点九55.08%55.41%56.83%表1.SEAM各部分的消融研究ER：当量变量正则化PCM：像素相关模块。OHM：在线硬示例挖掘。CRF：条件随机场。mIoU模型CAM 47.43%GradCAM 46.53%GradCAM++47.37%CAM + SEAM 55.41%表2.使用语义分割度量（mIoU）评估各种弱监督定位方法。由SEAM生成的阈值具有更少的过度激活和更完整的激活覆盖，其形状比基线更接近地面真实分割掩模。为了进一步验证我们提出的SEAM的有效性，我们可视化的亲和注意力地图生成的PCM。如图5、所选择的前景和背景像素在空间上非常接近，而它们的亲和力注意图却有很大差异。证明了PCM可以通过自监督学习改进的本地化机制：直觉上，改进的弱监督定位机制将提高伪分割标签的mIoU。为了验证这个想法，我们在聚合我们提出的SEAM之前简单地评估GradCAM [28]和GradCAM++[3]。然而，Tab.图2示出了GradCAM和GradCAM++都不能缩小完全监督和弱监督的语义分割任务之间的监督差距，因为最佳mIoU结果没有改进。我们认为改进的定位机制只设计用于表示对象相关部分，而不受低级信息的任何约束，这不适合分割任务。由这些改进的定位方法生成的CAM与地面真实掩模的匹配性并没有变得更实验结果进一步说明，我们提出的SEAM方法可以显著提高CAM的质量，使其更好地拟合物体掩模的形状。仿射变换：理想情况下，方程中的A（） (3)可以是任何仿射变换。在siamese网络中进行了几次变换，以评估它们对等变正则化的影响。如Tab.所示。3、有四个候选仿射变换：(a)（b）（c）（d）图 4. CAM 的可视化。 (a) 原始图像。 (b)Ground truthsegmentations. (c)基线CAM。(d)SEAM公司生产的CAM。SEAM不仅抑制过度激活，而且将CAM扩展到完整的对象激活覆盖范围。带有注意力图的图5.亲和注意图在前景和背景上的可视化红色和绿色十字表示选定的像素，蓝色表示类似的特征。具有0.3下采样率、[-20，20]度的随机旋转、15像素的平移和水平翻转。首先，我们提出的SEAM在网络训练过程中简单地采用了重新缩放。选项卡. 3号染色体的mIoU有显著提高，从47.43%提高到55.41%。选项卡.3还表明，简单地合并不同的变换是不太有效的。当重新缩放变换分别与翻转、旋转和平移集成时，只有翻转产生微小的改进。在我们看来，这是因为翻转、旋转和平移之间的激活图太相似，无法产生足够的监督。在没有额外指令的情况下，我们只保留重新缩放作为0的键转换。3在我们的其他实验中的下采样率。扩充和推断：与原有的单分支网络相比，这种连体结构在实际应用中扩大了图像尺寸的增大范围。为了研究改进是否源于重新缩放范围，具有注意力图的12282√ √重缩放翻转旋转平移mIoU百分之四十七点四三2.252.0055.41%1.75价格 55.50%53.13%55.23%表3.等变正则化的各种变换实验。简单地聚合不同的仿射变换不能带来显著的改进。模型随机重标度Miou基线[448、768]百分之四十七点四三基线[224、768]46.72%接缝[448、768]53.47%表4.增重标度范围实验。这里，SEAM的重缩放率被设置为0.5。测试量表基线（mIoU）我们的（mIoU）[0。五、40.17%百分之四十九点三五[1. 0个字符]46.10%51.57%[1. 五、47.51%52.25%[二. 0个字符]46.12%49.79%[0。五一0，1。五二0个字符]百分之四十七点四三55.41%表5.各种单尺度和多尺度试验。我们使用较大的尺度范围和Tab来评估基线模型4给出了实验结果。结果表明，单纯增加重标度范围并不能提高生成伪标签的准确性，证明了性能的提高来自于PCM和等变正则化的结合，而不是数据增强。在推理过程中，通常采用多尺度测试，通过聚合不同尺度图像的预测结果来提高最终的性能。它也可以被看作是一种方法，以提高equivariance的预测。为了验证我们提出的SEAM的有效性，我们评估了由单尺度和多尺度测试生成的CAM。选项卡. 5表明，我们提出的模型优于基线，具有更高的峰值每-在单尺度和多尺度测试中均进行了验证。改善来源：CAM质量的改善主要源于更完整的激活覆盖或更少的过度激活区域。为了进一步分析SEAM的改进来源，我们定义了两个指标来表示欠激活和过度激活的程度1.501.251.000.750.500.250.00电话：+86-021 - 8888888传真：+86-021 - 8888888图像比例图6.过激活和欠激活曲线。较低的mFN曲线表示较少的激活不足区域，并且较低的mFP表示较少的过度激活区域。其中TPc表示c类真阳性预测的像素数，FPc和FNc分别表示假阳性和假阴性。这两个度量不包括背景类别，因为背景的预测与前景相反。具体地，如果当CAM不具有完全激活覆盖时存在更多假阴性区域，则mFN将具有更大的值。相对地，较大的mFP意味着存在更多的假阳性区域，意味着CAM被过度激活。基于这两个指标，我们收集了基线和SEAM的评估结果，然后绘制了图中的曲线。6，这说明基线和我们的方法之间存在很大的差距。SEAM实现了较低的mFN和mFP，这意味着通过我们的方法生成的CAM具有更完整的激活覆盖和更少的过度激活像素。因此，SEAM的预测图更好地拟合地面实况分割的形状。在不同尺度下，SEAM的曲线比基线模型的曲线更加一致，证明了等方差正则化在网络学习中的有效性，有助于CAM的改进。4.3. 与最新技术水平的比较为了进一步提高伪像素级符号的准确性最终合成的伪标签在 PASCAL VOC 2012 列车集上达到 63.61%mIoU。然后，我们在这些伪标签上训练经典的分割模型DeepLab [5]，ResNet38骨干在完全监督下实现最终的分割结果。选项卡. 6显示了val上每个类的mIoUmFN=1C−1FNc，（13）set和Tab。7给出了以前的更多实验结果C−1c=1TPc方法。与基线方法相比，我们的SEAM显著提高了val和test的性能mFP=1C−1FPC.（十四）C−1c=1TPc设置相同的训练设置。此外，我们的方法在PASCALVOC 2012测试集上仅使用图像级标签呈现了最先进的性能。注意到mFNSEAMmFN基线mFPSEAMmFP基线12283（一）（b）第（1）款（c）第（1）款图7.PASCAL VOC 2012val集的定性分割结果（a）原始图像。（b）基本真相。（c）由DeepLab模型预测的分割结果，该模型在我们的伪标签上重新训练。模型bkg航空自行车鸟船瓶总线汽车猫椅子牛表狗马MBK人植物羊沙发列车电视Miou[25]第二十五话 68.5 25.5 18.0 25.4 20.2 36.3 46.8 47.1 48.0 15.8 37.9 21.0 44.5 34.5 46.2 40.730.4 36.3 22.2 38.8 36.9 35.3[27]第二十七话 79.6 50.2 21.6 40.9 34.9 40.5 45.9 51.5 60.6 12.6 51.2 11.6 56.8 52.9 44.8 42.731.2 55.4 21.5 38.8 36.9 42.0美国证券交易委员会[19]82.4 62.9 26.4 61.638.1 66.6 62.7 75.2 22.1 53.5 28.3 65.8 57.8 62.3 52.532.5 62.6 32.1 45.4 45.3 50.7高级擦除[32]83.4 71.1 30.5 72.955.9 63.1 60.2 74.0 18.0 66.5 32.4 71.7 56.3 64.8 52.437.4 69.1 31.4 58.9 43.9 55.0AffinityNet [2]88.2 68.2 30.681.161.0 77.8 66.1 75.1 29.0 66.0 40.2 80.4 62.0 70.4 73.742.5 70.7 42.6 68.151.661.7我们的SEAM 88.8 68.5 33.3 85.740.4 67.3 78.9 76.3 81.9 29.1 75.5 48.1 79.9 73.8 71.4 75.248.9 79.8 40.9 58.253.064.5表6.PASCAL VOC 2012val集上的类别性能比较，仅使用图像级监督。5. 结论表7.在PASCAL VOC 2012数据集上，我们的方法与其他最先进的WSSS方法的性能比较我们的性能提升既不源于更大的网络结构，也不源于改进的显著性检测器。性能的提高主要来自额外的自我监督和PCM的图7显示了一些定性结果，这些结果验证了我们的方法在大型和小型物体上都能很好地工作在本文中，我们提出了一个自我监督的同变注意力机制（SEAM），以缩小监督之间的差距完全和弱监督语义分割通过引入额外的自我监督。SEAM通过利用等变正则化将自监督嵌入到弱监督学习框架中，这迫使从各种变换图像预测的CAM是一致的。为了进一步提高网络生成一致性CAM的能力，设计了一个像素相关模块（PCM），通过学习像素间的相似性对原始CAM进行精化。我们的SEAM是由一个有效的正则化损失的连体网络结构生成的CAM不仅在不同的变换输入上保持一致，而且更好地拟合地面真实掩模的形状。由我们合成的像素级伪标签重新训练的分割网络在PASCAL VOC 2012数据集上达到了最先进的性能，这证明了我们的SEAM的有效性。鸣谢：这项工作部分是超级国家重点研发计划项目（ No.10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000& 2017YFA0700800）、中国科学院前沿科学重点研究项目（No. QYZDJ-SSWJSC009）和国家自然科学基金（Nos. 61806188、61772496）。方法骨干显著性Val测试[25]第二十五话VGG1635.335.6EM-Adapt [24]VGG1638.239.6[27]第二十七话OverFeat42.043.2美国证券交易委员会[19]VGG16√50.751.1STC [33]VGG16√49.851.2高级擦除[32]VGG16√55.055.7MDC [34]VGG16√60.460.8MCOF [36]ResNet101√60.361.2DCSP [4]ResNet101√60.861.9SeeNet [15]ResNet101√63.162.8[第16话]ResNet10161.463.2AffinityNet [2]ResNet38√61.763.7CAN [10]ResNet10164.164.7IRNet [1]ResNet50√63.564.8FickleNet [21]ResNet10164.965.3我们的基线ResNet3859.761.9我们的SEAMResNet3864.565.712284引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习。IEEE计算机视觉与模式识别会议（CVPR），2019年。[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。IEEE计算机视觉和模式识别会议（CVPR），2018年。[3] AdityaChattopadhay ， AnirbanSarkar ， PrantikHowlader ， and Vineeth N Balasubramanian. Grad-cam++：深度卷积网络的一般化基于梯度的视觉解释。2018年。[4] Arslan Chaudhry，Puneet K Dokania，and Philip HS Torr.发现用于弱监督语义分割的类特定像素。英国机器视觉大会（BMVC），2017年。[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割国际学习代表会议（ICLR），2015年。[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEETransactionsonPatternAnalysisandMachineIntelligence（TPAMI），40（4）：834[7] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在proc IEEE国际计算机视觉会议（ICCV），2015年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 proc IEEE 计算机视觉和模式识别会议（CVPR），2009年。[9] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的非监督视觉表示学习在proc IEEE国际计算机视觉会议（ICCV），2015。[10] 范俊松，张兆祥，谭铁牛。Cian：用于弱监督语义分割的跨图像亲和网络arXiv预印本arXiv：1811.10842，2018。[11] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青用于场景分割的双注意网络IEEE计算机视觉和模式识别会议（CVPR），2019年。[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在proc 神经信息处理系统（NIPS），2014年。[14] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。语义轮廓来自逆检测器在 procIEEE International Conference onComputer Vision（ICCV），2011年。[15] Hou Qibin，PengTao Jiang，Yunchao Wei，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。在proc 神经信息处理系统（NIPS），2018。[16] 黄子龙、王兴刚、王佳思、刘文宇和王京东。具有深度种子区域生长的弱监督语义分割网络。IEEE计算机视觉和模式识别会议，2018年。[17] Wei-Chih Hung ， Varun Jampani ， Sifei Liu ， PavloMolchanov，Ming-Hsuan Yang，and Jan Kautz. Scops：自我监督的共同部分分割。IEEE计算机视觉与模式识别会议（CVPR），2019年。[18] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在 Proc. IEEE Conference on ComputerVision and Pattern Recognition（CVPR），2017年。[19] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。在proc 欧洲计算机视觉会议（ECCV），2016年。[20] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。欧洲计算机视觉会议（ECCV），2016年。[21] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.IEEE计算机视觉与模式识别会议（CVPR），2019年。[22] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络IEEE计算机视觉和模式识别会议（CVPR），2016年。[23] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在Proc.IEEE计算机视觉和模式识别会议，2015年。[24] George Papandreou ， Liang-Chieh Chen ， Kevin PMurphy，and Alan L Yuille.用于语义图像分割的深度卷积网络的弱监督和半监督学习。 IEEEInternationalConference on Computer Vision（ICCV），2015年。[25] Deepak Pathak Philipp Krahenbuhl和Trevor Darrell用于弱监督分割的约束卷积神经网络在proc IEEE国际计算机视觉会议（ICCV），2015。[26] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器：通过图像修复进行特征学习。IEEE计算机视觉和模式识别会议（CVPR），2016年。[27] Pedro O

下载后可阅读完整内容，剩余1页未读，立即下载