弱监督语义分割中的互补面片

185 浏览量更新于2023-10-08 收藏 2.44MB PDF 举报

弱监督语义分割

图像级标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7242弱监督语义分割中的互补面片张飞，顾朝晨*，张晨月上海交通大学，中国{ferenas，jacygu，lucklypeach} @sjtu.edu.cn戴玉超中国西北工业大学daiyuchao@nwpu.edu.cn摘要弱监督中文（简体）基于图像级标签的图像处理技术已经有了很大的进步利用类激活映射（CAM）的输出生成用于语义分割的伪标签。然而，CAM仅从少量区域中发现种子，这可能不足以用作伪种子。、）64）6 6GiX）（GYKRiTK）A3= ≥用于语义分割的掩码。在本文中，我们formulate- late的对象区域在CAM中的信息增加的扩展。从信息论的角度，提出了一种新的互补补丁（CP）表示，并证明了一对具有互补隐藏（补丁）部分的输入图像（CP对）的CAM之和的信息大于或等于基线CAM的信息。因此，可以通过缩小由CP对生成的CAM的总和与原始CAM之间的差距来获得具有与对象种子相关的更多信息的CAM。我们提出了一个CP网络（CPN）实现的三重网络和三个正则化函数。为了进一步提高CAM的质量，我们提出了一个像素区域相关模块（PRCM），通过使用特征图和CAM之间的对象区域关系来增强上下文信息在PAS-CAL VOC 2012数据集上的实验结果表明，该方法在WSSS中达到了新的水平，验证了CP表示和CPN的有效性。1. 介绍由于深度学习方法的蓬勃发展，近年来在语义分割方面取得了非凡的进展[28，43，7，8]。然而，用于语义分割的成功的神经网络的先决条件是像素级分割地面实况，这需要大量的人工注释投资。大量的努力已经投入到开发弱监督语义分割（WSSS）以缓解压力，其*通讯作者图1.说明我们提出的方法。原始CAM只是在大多数有区别的区域中找到对象种子。为了扩大种子区域，我们的互补补丁网络（CPN）使用一对具有CP区域的图像（CP对）来生成两个CAM，其总和应该包含比原始CAM更多的前景信息。旨在通过使用较弱的监督来训练语义分割网络，例如图像级分类标签[22，5，2，3]，边界框[21，10]，涂鸦[27]和点[4]。图像级标签作为最方便获取的标注格式，在WSSS中得到了广泛的研究。在这项工作中，我们特别关注WSSS使用图像级标签。大多数通过图像级标签生成初始种子的WSSS方法严重依赖于一种有效的方法-类激活图（CAM）[45]。然而，这种架构似乎对最具辨别力的区域几乎不敏感，导致许多不完整的前景区域。为了解决这个问题，一种有希望的方法是擦除或忽略一些高响应区域，以帮助CAM区域擦除或挖掘方法。然而，由于隐藏过程的随机性，这些方法或多或少地在每个训练时期中丢失图像的部分区域在每个训练时期中有意地覆盖从CAM识别的高响应区域似乎是有效的，而这样的迭代操作引入了很多计算复杂度，并且也难以适当地确定每个图像的迭代次数。在本文中，我们表明，CAM可以探索更多的高响应区，充分利用信息的图像，特别是包括两个uncov-7243隐藏和隐藏的部分。基于这种动机，我们将在CAM中扩展对象种子的任务视为信息的增加，并开发了一个简单而有效的概念-互补补丁（CP）表示：图像的CAM的自信息小于或等于通过CP对（即具有CP区域的两个图像）获得的CAM的自信息之和。因此，可以通过将由CP对生成的CAM相加来获得改进的CAM（如图2所示）。①的人。此外，我们还证明了在两种极端情况下，等式成立。一种是如果补丁大小太大，CP对中的一个等于原始图像，另一种是如果补丁大小太小，CP对中的两个图像对于网络几乎相同在这些极端条件下，与原始图像相比，CP对不能寻找新的种子因此，信息（对象种子）的增加程度取决于CP对的补丁大小。在 CP 表示的基础上，我们提出了一个 CP 网络（CPN），以缩小上述改进的CAM和原始图像之间的差距。CPN由具有三重CP（TCP）损失和CP交叉正则化（CPCR）损失的三重网络形成，用于最小化上述差异。对于CP对的生成，我们提出使用网格（网格补丁）或超像素（超像素补丁）作为补丁模板。此外，CPN引入了像素区域相关模块（PRCM），其旨在捕获像素和区域之间的关系，并将其与像素相关模块（PCM）[35]结合，以进一步提高预测CAM的一致性。在PASCAL VOC 2012 [13]上进行的大量实验证明了我们的CPN的有效性。因此，我们的模型在val集和测试集上产生了67.8%和68.5%的新的最先进的性能。此外，我们注意到我们的CPN的性能受到补丁大小的影响，这与我们在极端情况下对CP表示的分析一致。我们的主要贡献可归纳为三个方面：我们提出了一个简单而有效的互补补丁（CP）表示扩大CAM中的种子区域，它缩小了原来的CAM和CAM之间的差距，通过总结CP对的CAM。在CP表示的基础上，我们提出了一个具有三重CP（TCP）丢失和CP交叉正则化（CPCR）的三重网络（CPN）。此外，提出了一个像素区域相关模块（PRCM）来进一步完善CAM.PASCAL VOC 2012上的实验结果表明，我们提出的框架达到了最先进的性能在WSSS。2. 相关工作弱监督语义分割作为WSSS中最经济的形式，图像级监督越来越受到学术界和工业界的关注。最近的高级方法集中于修改由类别激活图（CAM）产生的种子区域[45]。第一类[12，22，30]致力于基于池化的方法，以克服由全局最大池化（ GMP ）和全局平均池化（GAP）导致的缺点，其用于将得分图聚合成分类得分。SPN [30]提出将输入图像的超像素分割视为池化模块。第二类别[20，2，35，3，31，1，38]研究像素间或语义关系以扩展种子区域或移除错误的种子[42]。AffinityNet [2]提出学习像素之间的相似性，并应用随机游走（RW）来进一步细化种子区域。第三类集中在有效利用额外的容易获得的资源，包括网络图像[18]，视频[18，25]和显着图[37]。第四类是区域擦除或挖掘方法，通过擦除或挖掘一些高响应区域，在CAM中标记出更多的目标区域。对抗擦除[36]旨在通过迭代擦除由原始CAM从图像中检测到的区分区域来探索更多的对象种子。然而，很难决定每个图像的确切迭代次数基于注意力的丢弃层[9]是一种通过对从特征图获得的注意力图进行阈值化来突出显示潜在点的工具。为了扩大种子区域，FickleNet [24]通过随机选择特征图中的隐藏单元来计算最终得分图。作为数据增强，HAS [23]通过随机隐藏每个图像中的网格块来扩大种子区域。然而，上述这些隐藏方法不能在每个训练时期期间使用图像中的全部信息。为了尽可能地挖掘图像中的全部信息，我们提出了互补补丁（CP）表示，并设计了CPN来支持CAM挖掘出更多的前景种子。自注意模型为了提高分割掩模的质量，基于自注意的模型[32]，通过使用上下文特征来细化特征图，被广泛用于各种分割网络。 Wang等人 [33]提出了非局部块通过考虑特征图中每个空间点之间的相关性来产生注意力图。为了进一步丰富上下文信息，DANet [17]结合了两个自我注意模块，即通道注意和空间注意。Yuan等[40]提出的对象上下文表示，以确定一个像素，通过使用其相应的对象类，加强对象上下文信息。···7244∈L LL××D一CΣ一Ai=1C我）FKGZ[XK公司简介8）共享权重框架CPNYuYu2UYYIRYYo˜CPNY~oYo2UYYZIVCPNY~GYG2UYYIVIX5[ZV[Z）USVRKSKTZGX_）USVRKSKTZGX_6GZIN 2UYY68）3）A3[英语泛读材料6）3图2.我们方法的整体框架。CPN的整个结构是具有三个分支的三重网络，共同馈送原始图像（黑色流）和CP对（红色和蓝色流）。PCM和所提出的PRCM共同地将原始CAM的质量最后，所有输出都受到三个损失的约束，这三个损失是cls，tcp和cpcr。点（红色、蓝色或黑色）意味着连接到它的两个输出在接下来的损失中被利用。在推理期间，RCAM用于预测用于分割的掩模3. 提出方法3.1. 互补面片表示让我们将尺寸为3 H W的图像I的CAM表示为YRC×H×W，其中C是指对象（包括背景）的数量。Y的生成通常开始于训练多标签分类网络，包括包括特征提取器层、全局平均池化（GAP）层和分类层。因此，与第c个对象相关的Y（表示为Yc）可以通过下式获得：Yc=（θc）Tf，（1）其中f∈RCf×H×W，Cf通道是特征图3.图像中的两种斑块区域。c是指覆盖与对象c相关的种子的区域，并且c不包含它的种子。基线CAM（左）只能识别部分Ac区域，而CP对的新CAM（右）可以找到新Ac。了我们将p（x），x∈{Ω∪Γ}表示为概率函数映射，θc∈RCf×1是相应的C找到x中的第c个种子。较高的Pc（x）表示较多的种子响应分类中第c层.用一些隐藏单位表示I为Ih∈R3×H×W在I的补丁X中。因此，我们有ΣNa pc（x=Ac）=D ∈ {}其对应物具有互补的隐藏区域Ih∈R3×H×W.直观地，我们有Ih+Ih=I。为了方便起见，我们把（Ih，Ih）称为I的互补片对（CP对）.根据先前的区域和擦除方法的实验[23，36]，Ih和Ih都可以单独帮助CAM挖掘出更多的潜在区域。然而，如果在每个训练时期中简单地使用Ih或Ih，则I中的一些部分显然被忽略，因为每个图像在一个时期期间只能被使用一次为了充分利用I中的信息，这里我们提出使用CP对来寻找更多的种子1且Pc（x =j）= 0，j1，2，.，N d. 下根据上面的定义，Yc的自身信息表示为H（Y ），并表示为：H（Yc）=− log（pc（x）），（2）x∈Ωy其中Ωy是指C在Y中C。注意第c个类的基础真值包含所有补丁c，所以说它具有最大信息量。我们的目标是通过增加H（Y c）来增加H（Yc）。|Ωy|.同时，设H（Yc）和H（Yc）为信息inC. 对于图中的分区图像，3、假设HH被分割Y1，其可以被联合分成N个块，并且存在两种块区域，如下计算的-th类，n ={Ac}Na且Γ ={Dc}Nd 得双曲余切值.ci i=1j j=1cΣNa+Nd=N。c表示包含以下内容的面片区域对象c的种子，而Dc不覆盖与H（Yq）=−x∈Ωqlog（pc（x）），q∈ {h，h}，（3）一个cDc新Ac7245||||||一HCCcJ=+XJ−J=，（9）××××HJ›→HHHHHHCCj=1J（Xin）iji=1j=1A一∩H≈A∩其中Ωh（Ω）Ω是一组c在Yc中（Yc）。在I中随机覆盖对象c的部分导致NewA。不幸的是，直接将damy与damh或damh进行比较是不可判定的，因为一些歧视-Yc或Yc中可能隐藏着Yy中的有效部分。由于在[23]之后，S是从一组K个固定数中均匀选择的，以适应不同对象的大小为了保证训练集和测试集之间的数据分布相同，隐藏像素的值被设置为等于整个训练集中图像的平均RGB值。HH互补属性（ΩhΩh=），但是，Yc和Yc中的c之和包含来自基线CAM的原始高响应区域，而新cCP对所寻求的区域。因此，我们有：hc和Ω′Ωy=。注意，如果以下极端条件之一成立，则Ω ′ =：1) I= Ih或I= Ih。当斑块大小等于图像大小时，CP对中的一个等于原始图像;2) YcY.分类网很难如果贴片尺寸过小，则区分CP对，结果为Ωh= Ωh= Ωy。基于（4），我们有：H（Y ）+H（Y）=−Σlog（p（x））−Σlog（p（x））x∈Ωhx∈Ωh另一方面，超像素区域包含关于图像的丰富信息。因此，我们还提出了一种超像素补丁策略，该策略使用SLIC [16]生成的超像素这里，超像素的数量取决于预定义的片段数量，表示为SN。注意，我们在实验中分别测试了这两种补丁策略。3.3. CPN模块我们提出了CP表示，以帮助CAM找到更多的前景种子。然而，（6）中的正则化不能仅仅通过使用典型网络的输出来充分地改善CAM。为了进一步完善原始的CAM，[35]提出了一个名为像素相关模块（PCM）的修改后的自注意模块，通过利用特征图中在这里我们简单介绍一下自我注意模块[33]，它可以正常表示为：=− Σlog（p c（x））− Σlog（p c（x））≥ H（Y c）。你出去µ（Xin）（Xin）ΣHWΣHWi=1中，（7）根据（5），可以得出结论，除了两种极端情况之外，CP对的CAM之和能够找到J（Xin）=eg（Xin）Tδ（Xin），（8）比Yc更多的前景种子。为了实现改进的CAM，我们提出了具有一对选择参数λ∈[0，1]，λ= 1-λ的CP正则化，如下所示：其中Xin和Yout分别是输入和输出特征。用于测量相邻像素之间的关系，µ表示X 中的每个像素。特别地，μ、δ和g由is实现Cc c||1.一、||1.（六）由1×1卷积层实现。表示Ih作为Nh. 然后基于（7）和（8），PCM细化CAMYRC×HW（展平为矩阵格式）为：λ可以通过λ= 1Nh/N获得，这意味着权重由1h中未覆盖像素的数量决定。对于原分类网上的公司（6），我们转向一个共享权重三元组网络，如图所示。2、姓名--Y脉码调制Y（X）HW即CP网络（CPN）。一个分支处理输入I和输出Yc，而另外两个分支分别生成erate（Yc，Yc）由CP对生成注意，我们停止了2）A（g（X）Tg（X）||1||1），（10）HHCc c（Yh，Yh）的梯度更新以推Y来近似其中X∈RC1×HW是一些特征更好的那个以这种方式，这三个输出被假定由（6）正则化。3.2.补充补丁策略Grid Patch [23，44]是一种常见的方法，可以应用于为I生成一束Ih。具体地说，一个固定大小为S的网格面片S3可以将I划分为HW/（SS）补丁。然后每个补丁隐藏的概率p h= 0。5被送入分类网。∈2（五）x∈Ωyx∈′IJ7246∈∈RC1RHW是指余弦距离，用于度量像素间特征相似性。然后，我们可以得到一个细化的CAM，表示为YpcmRC×H×W（从YpcmRC×HW重塑）。对象上下文表示（OCR）[40]是一种基于探索对象-像素关系来增强上下文信息的有效方法。因此，我们提出了一个像素区域相关模块（PRCM），以帮助进一步提高CAM。首先，对象区域7247˜˜L∈˜˜˜˜˜-十一∈ −˜˜−∈CPN，用于挖掘出更多种子，其表示为：Ltcp=||（λYh+λYh）−Y o||1个以上||1、||1,（十四）图4. PCM（红色流）和建议的PRCM（蓝色流）的结构。最终细化的CAM Y是Ypcm和Y prcm之和。这里，基于（6）中的正则化提出了表示为tcp的注意，CPN中有六个输出CAM，因为每个分支拥有其中的两个。因此，TCP丢失在这六个CAM之间建立连接。与[35]类似，为了解决Y将所有像素预测为相同类别（主要是背景）的问题，我们引入 CP 交叉正则化（CPCR）损失为：关系矩阵ZRC×C1 表示为Z=SoftMax（Y）XT. 这里我们直接将Y作为软对象Lcpcr=||（Y o− λY h）− λY h||1个以上||1、||1,（十五）区域，其被认为是对应于C个对象的粗分割图[40]。然后我们可以得到一个像素-区域关系PR∈RC×H×W（由PR∈RC×HW）为：PR=φ（Z）g（X），（11）这里，我们通过CP对联合正则化细化的CAM以对Yo产生间接影响。对于λYh的正则化的例子，用Yh正则化Yh可能是直观的.然而，这种直接正则化导致我们早期实验中因此，我们使用Yo和λYh之间的间隙来根据（6）正则化Yh在训练期间，背景激活图为-负责人：Yprcm=Y◦SoftMax（PR），（12）其中φ：RC1 ›→RC2也是一个嵌入函数sim-Yc=0 （x，y）=（1 maxY≤c≤C−c（x，y））α、（十六）在G. 因为PR代表区域在X和Y中的像素[40]中，我们通过（12）来增强Y以获得表示为Yprcm∈RC×H×W。这里Yc（x，y）是范畴c在Y∈ {Yo，Yh，Yh}）中位置（x，y）处的激活值，α是一个超为了结合PCM和PRCM收集的上下文信息，最终平滑的CAM表示为：用于调整背景得分的置信度的参数其根据经验被设置为1。Y首先被归一化为设为Y~∈RC×H×W，是Y中国人民解放军和Y脉码调制Yc（x，y）=Yc（x，y）/maxx，yYc（x，y），c [1，C1]，以及所有与基本事实无关的分数都被阈值化为0。图4示出了PCM和PRCM的结构。因此，在本发明中，最后，我们将Yc=0连接到Yc中。在推理过程中，一对输出CAM（Y~，Y）可以容易地产生~c=0CPN中的每个分支为了方便起见，我们用I将分支中的CAM表示为（Y~o，Y ~o），并且将分支中的CAM表示为（Yo用于分割，并且Yo（x，y）被设置为固定值β。总的来说，CPN是由最终的损失函数优化的其中CP对分别表示为（Yh，Yh）和（Y~h，Yh）。（17），根据经验，我们设置w1=w2 =w3 = 1时。图3.4. CPN损失按照惯例，CAM上应用了一个额外的GAP层，将其聚合为图像级预测分数R（C−1）×1。注意s只包含C1前景对象，因为图像级监督缺少背景标签。因此，我们可以获得从Yo、Yh和Yh生成的得分图，其分别表示为so、sh和sh。然后，我们使用多标签软保证金损失lcls进行监督：1L cls = 3（l cls（s o）+l cls（s h）+lcls（s h））。（十三）同时，CP表示被采用到MHWC2PCMMC2 HWHW-CCHWY脉码CHWYC1H WXCHW）UTZK^ZC C1HWC1Y~CHW对象-区域关系źCC2C1 HWMC2HW中国人民解放军Y72482 展示了CPN的总体框架。Lall= w1 Lcls+ w2 Ltcp + w3 Lcpcr。（十七）4. 实验4.1. 实现细节数据集和评价指标：在PASCAL VOC 2012分割基准上评估所提出的方法[13]。在数据集中有20个前景对象类别和1个背景注释按照惯例，训练图像的数量为10，582。验证数据集包含1，449张图像，测试数据集包含1，456个样本。在整个训练过程中，只提供图像级标注.衡量…的表现7249××LLLLL在所有实验中，使用平均交集大于并集（mIoU）作为评估度量。网络设置：我们采用ResNet38 [39]作为大多数WSSS框架中的流行模型之一，作为CPN的主干。在Ima-geNet[11]上训练的参数用于CPN的初始化。在前面工作的基础上，我们去掉了最后的GAP层和全连接层，并将最后三个卷积层替换为具有自适应膨胀率的无环卷积，使得网络的输出步长为8。根据[35]，对于PCM和PRCM中的聚合特征X，我们首先从阶段3和4提取特征图，然后通过使用11个卷积层将它们的通道联合减少到64和128。最后，我们将这些特征和输入图像连接起来形成X。培训设置：训练集上的典型数据增强：随机缩放、颜色抖动、随机裁剪图像448 × 448和水平翻转。Pytorch实现的整个模型在具有24 GB内存的1个RTX 3090 GPU上训练。我们采用4张图像的小批量来训练CPN 8个时期。初始学习率为0.01，并通过具有0.9的decay功率的poly策略降低。我们使用权重衰减0.0005和动量0.9来利用SGD Optimizer对于每个小批次，我们以降序对cpcr中的损失进行排序，并选择前20%的损失作为用于训练的硬示例（在线硬示例挖掘（OHEM））以进一步提高性能。类似于[35]的设置，我们阻止了从PCM和PRCM到网络的梯度反向传播流，以避免CAM和细化CAM的相互干扰。4.2. 消融研究在本节中，我们旨在证明CP的有效性N.所有实验结果均由VOC 2012列车集生成。为了公平比较，背景得分β是导致伪标签的最佳mIoU的值。请注意，Tab.1-4是SN=200的超像素对CAM的改进：为了提高最终掩模的性能，聚合具有不同尺度的预测图是一种常见的方式。选项卡.图1示出了在单尺度和多尺度情况下使用基线CAM、SEAM[35]和我们的CPN的分段的mIoU。结果表明，我们的CPN表现出优越的挖掘能力比基线在所有不同的缩放情况下。在多尺度测试中，CPN将mIoU比基线提高了近10%。对于SEAM，它是由具有等变正则化的连体网络实现的，我们采用了在[35]中实现最佳性能的超参数通过添加PRCM，新的SEAM* 在所有规模测试中均优于原始SEAM *与SEAM相比，我们的框架在多尺度测试中获得了更高的性能（57.43%）。图5示出了由基线、SEAM和CPN制成的可视化CAM的若干样品。与基线和SEAM相比，我们的CPN可以帮助CAM在低响应区域中寻找更多的种子，以生成前景的完整CAM。然而，对于小对象（图中的最后一列）。5），可以看出，CPN的前景种子被过度分割，因为确实难以挖掘出没有边界的小对象的准确种子。正规化和PRCM的有效性：选项卡. 2 illustrates在我们的方法中的每一个单一的模块的效果。注意，对于基线方法，cls中仅包括l个cls（s〇），因为它缺少CP对。与基线相比，tcp和PCM使mIoU提高了51.08%.在cpcr的作用下，模型得到了4.63%的改进。通过进一步将OHEM应用于cpcr，结果在V0C12训练集上实现了56.58%的mIoU。最后，该模型实现了0.85%的改进后，采用PRCM。方法图像比例0.51.01.52.0所有基线41.1548.2949.5147.4447.84SEAM [35]49.3551.5752.2549.7955.41SEAM*49.6452.1553.1450.5555.71CPN54.5155.4454.0157.4348.91表1.对几种方法进行单尺度和多尺度测试的实验。* 表示该方法使用了我们的PRCM模块。结果表明，CPN提高了CAM的整体性能在各种尺度上，并取得了更好的CAM比SEAM和基线。此外，我们的PRCM是有效的，以改善在不同尺度上的结果。模型mIoU（%）基线（Lcls）47.84基线+Ltcp+ PCM 51.08基线+Ltcp+Lcpcr+PCM 55.71基线+Ltcp+L*cpcr+PCM 56.58基线+Ltcp+L* cpcr+ PCM+PRCM 57.43表2.对我们方法的每个部分进行消融研究L*cpcr使用Online Hard Example Mining（OHEM）的Lcpcr对前景定位的改进：CPN旨在通过捕获与前景对象相关的更多种子来改进CAM。为了验证这个想法，我们从基线、SEAM和Tab中的CPN收集了背景和20个前景对象的mIoU1.如Tab.所示。3，与基线相比，SEAM在背景中实现了令人信服的mIoU提升5.14%，在前景中实现了 7.68% 。此外， CPN 将前景的 mIoU 提高到56.13%，其优于基线 9.75%和SEAM 2.07%。实验结果验证了CPN比基线和SEAM能发现更多的前景对象区域。补丁大小：回想一下，两种补丁策略，即网格补丁和超像素补丁，都可以应用于7250||--联系我们（一）（b）第（1）款（c）第（1）款（d）其他事项图5.通过不同的方法对原始图像（a）和相应的视觉结果进行采样，这些方法是基线（b）、SEAM（c）和CPN（d）。我们的方法可以发现更多的种子，基线和SEAM都无法挖掘出来。方法基线接缝CPNbg.77.1982.3383.44F.46.3854.0656.13表3.前景对象（f. ）和背景（BG。）以不同的方法。我们的CPN（Sec.3.2）。请注意，这两种修补程序策略都是mIoU（%）平均mIoU58.0057.5057.0056.5056.0055.5051050100200500100050008000SN与斑块大小密切相关，斑块总数随斑块大小的减小而增加。对于超像素补丁，我们通过简单地改变SN来探索效果，范围从5到8000。图6报告了具有不同SN的CPN的结果的mIoU。结果表明，随着SN的增加，mIoU先呈现出一个大致的增加趋势，当SN=200时，mIoU达到峰值（57.43%）随着SN的增大，CAM质量下降，SN= 8000时CAM质量最低，为55.79%。注意，较低的SN导致较大的面片尺寸，因此超像素面片中过高和过低的面片尺寸都抑制了CAM上的改进。对于网格面片，面片大小S是从一些固定数的集合K中均匀选择的。因此，我们通过改变K的元素来实现实验。我们保持K= 2，并逐渐增加较小的元素。请注意，图像的输入大小为448。图7总结结果。我们注意到，随着S的增加，mIoU遵循与超像素块中的mIoU类似的趋势结果在K=56，112时达到最佳性能（57.07%），在K=4，7和K=224，448时达到最低，分别达到55.67%和55.80%mIoU。回想一下，两个极端条件保持CP表示的相等性（Sec.第3.1节）。大斑块和小斑块的结果与条件（1）和（2）完全对应因此，适当的隐藏块大小是显着提高性能图6.研究了不同信噪比下超像素面片策略的性能。mIoU（%）平均mIoU57.5057.0056.5056.0055.50[2019 - 04 - 14] [2019 - 04 - 14]{28，56} {112，224}{224，448}K图7.研究了网格补丁策略在不同补丁集K.的CAM。网格贴片与超像素贴片：为了对比两种策略之间的性能，我们分别计算了图1中结果的平均mIoU。图7和图6。观察到，具有超像素补丁策略的CPN在全局上比网格补丁策略获得更好的结果（+0.43%）。前者得益于超像素的预分类，因此是合理的此外，我们测试了平均时间消耗。超像素补丁（1.45秒/张）明显比网格补丁（0.006秒/张）消耗更多的时间，因此后者可以更好地满足一些实时操作。隐藏概率：回想一下，CP对之一中的隐藏区域是随机选择的，其中Ph= 0。5（第5节）57.2757.2257.4357.2456.9057.0156.8556.3156.5255.7956.9657.0756.6756.4256.6756.1355.8055.677251（一）（b）第（1）款（c）第（1）款图8. PASCAL VOC 2012valset的定性结果。a）输入图像。b）地面实况标签。c）我们的分割结果（w/ CRF）。3.2）。因此，CP对中的隐藏补丁的数量是相等的。在这里，我们的目的是探讨的pH值和我们的CPN之间的关系。由于互补属性，我们将pH从0.1更改为0.5。选项卡 . 图 4 示出了 Ph= 0 的 CPN 。 5 实现了最好的表现（57.43%），并达到底部（55.52%）其中p h= 0。1.一、实验结果也验证了极端条件1），因为随着ph减小，Ih或Ih接近Iph0.10.20.30.40.5mIoU（%）55.5256.8756.2957.0557.43表4.我们的CPN的性能与不同的隐藏概率。4.3. 与最新技术为了进一步改进我们的CAM，我们使用一种常见的方法，即随机游走（RW）[2]，将CPN生成的伪标签的mIoU提高到67.79%。按照惯例，我们然后通过使用具有ResNet38主干的DeepLab [26]来评估最终掩模的质量。请注意，CRF后细化用于输出图。选项卡. 5给出了关于先前方法的比较概述。对于使用ResNet38主干的所有方法，我们的方法在PASCAL VOC 2012val和测试集上都表现出最先进的性能，分别为67.8%和68.5%。我们还注意到，我们的结果在不应用CRF的情况下比MCIS [31]获得了更好的性能。此外，我们的方法在测试集上实现了比ICD [14]更好的性能，ICD[14]使用了额外的监督标签。图8示出了最终分割结果的一些样本，验证了我们的CPN的有效性。5. 结论在本文中，我们提出了一个简单而有效的管道弱监督语义分割，只提供图像级标签。首先，从信息理论的角度来看，我们表明，CAMs表 5. 与 SOTA 在 VOC 2012val 和测试方面的比较（ mIoU（%））。标记为 * 的方法使用ResNetlOl骨干，标记为t的其他方法使用ResNet38。监督（Sup.）包含图像级标签（I）和显著性图（S）。由一对具有互补块区域的图像（CP对）生成的前景种子能够挖掘出更多的前景种子-S.然后，基于这一观察，我们提出了一个CP网络（CPN）与一堆正则化，以实现改进的CAM。为了进一步完善结果，我们设计了一个像素区域相关模块（ PRCM ），为 CAM 带来更多的上下文信息在PASCAL VOC 2012数据集上进行的大量实验表明，我们提出的CPN实现了新的最先进的性能。鸣谢：本研究得到了国家自然科学基金（61871325，62001394）、国家重点研究发展计划（ 2018 AAA0102803， 2018 YF-B1703201 ， 2019 YFB 1704003 ，2019 YFB 1706602 ）、上海交通大学（ 2018 AAA0102803， 2018 YF-B1703201 ， 2019 YFB 1704003 ，2019 YFB 1706602 ）、上海交通大学（ 2018 AAA0102803， 2018 YF-B1703201 ， 2019 YFB 1704003 ，2019 YFB 1706602）的部分资助。海科技创新行动计划（19511105900）、中国教育部智能制造研究基金（MCM20180703）。方法Pub.辅助核算Val测试*MCOF [34]*SeeNet [19]*DSRG [20]†AffinityNet [2]†单级[3]* CAN [15]*FickleNet [24]†SSDD [29]†SEAM [35]*SubCat [5]*RRM [41]*BES [6][42]第四十二话*MCIS [31]*ICD [14]CVPR18NIPS18CVPR18CVPR18CVPR20AAAI20CVPR19ICCV19CVPR20CVPR20AAAI20ECCV20NIPS20ECCV20CVPR20I+SI+SI+S我我I+SI我我我我我I+S60.363.161.461.762.764.364.964.964.566.166.365.766.166.267.861.262.863.263.764.365.365.365.565.765.966.566.766.766.968.0†我方（不含CRF）†我们的（含CRF）--我我66.867.867.668.57252引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE/CVF计算机视觉和模式识别会议论文集中，第2209- 2218页[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第4981-4990页[3] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯单级seman- 从图像标签进行tic分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第4253-4262页[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在欧洲计算机视觉会议（ECCV）中，第549-565页[5] 张玉婷，王乔松，洪伟智，罗宾逊·皮拉穆图，蔡义轩，杨明轩。通过子类别探索的弱监督语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集中，第8991- 9000页[6] 陈丽怡，吴薇薇，付晨晨，韩晓，张运涛.具有边界探索的弱监督语义分割。在欧洲计算机视觉会议，第347-362页[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），40（4）：834[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[9] 崔俊锡李承浩和沈贤贞用于弱监督单对象局部化和语义分割的基于注意力的丢弃层。IEEE Transactions onPattern Analysis and Machine Intelligence（TPAMI），第1-1页[10] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在2015年IEEE国际计算机视觉会议（ICCV）的会议记录中，第1635[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。 2009 年 IEEE 计算机视觉和模式识别会议（CVPR），第248-255页[12] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord.野猫：弱监督学习用于图像分类、逐点定位和分割的深度卷积。在IEEE计算机视觉和模式识别会议论文集（CVPR）中，第642-651页[13] 放大图片作者： Mark Everingham， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pascal视觉对象类（voc）的挑战。International Journalof Computer Vision（IJCV），88（2）：303[14] 范俊松，张兆祥，宋春风，谭铁牛。弱监督语义分割的类内鉴别器学习整数对象。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第4283-4292页，2020年[15] 范俊松、张兆祥、谭铁牛、宋春风、肖军。Cian：跨图像亲和网络的弱- 有监督的语义分割。在AAAI人工智能会议（AAAI）的会议记录中，第34卷，第10762-10769页[16] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。 International Journal of ComputerVision（IJCV），59（2）：167[17] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）集，第3146-3154页[18] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第7322-7330页[19] Hou Qibin，PengTao Jiang，Yunchao Wei，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统（NIPS）进展，第31卷，第549-559页，2018年[20] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第7014-7023页[21] Anna Khoreva 、 Rodrigo

下载后可阅读完整内容，剩余1页未读，立即下载