潜力释放：面向弱监督语义分割的类特定对抗擦除框架

6 浏览量更新于2023-10-14 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6994释放普通分类器的潜力：面向弱监督语义分割的类特定对抗性擦除框架Hyeokjun Kweon*，Sung-Hoon Yoon*，Hyeonseong Kim，Daehee Park，and Kuk-JinYoon Visual Intelligence Lab.，韩国KAIST{0327june，yoon307，brain617，bag2824，kjyoon} @ kaist.ac.kr摘要使用图像级分类标签的弱监督语义分割（WSSS）虽然指出CAM仅突出感兴趣的类别的最有区别的区域，但是已经提出了对抗性擦除（AE）方法来进一步探索不太有区别的区域。在本文中，我们回顾了潜在的预训练的分类器，它是训练的原始图像。我们通过实验验证，如果在一定程度上擦除最具区分性的区域，则普通分类器1在此基础上，我们提出了一个类特定的AE为基础的框架，充分利用一个普通的分类器的潜力我们的框架(1)采用普通分类器来通知要擦除的区域，以及（2）通过在图像上的现有类别中随机地采样单个要擦除的特定类别（目标类别）来生成用于擦除的类别特定掩码，以获得更精确的CAM。具体而言，与普通分类器的指导下，建议的CAM生成网络（CGNet）被强制生成的CAM的目标类，同时约束CAM不侵入其他类的对象区域。随着从我们的CAM中提炼的伪标签，我们在PASCAL VOC 2012和MS-COCO数据集上实现了最先进的 WSSS 性能，只有图像级的监督。该代码可在https://github.com/KAIST-vilab/OC-CSE上获得。1. 介绍深度学习因其有效性而备受关注，并不断发展以实现比传统技术更高的性能水平。在语义分割[6，7，30，41，42]中，它也实现了显着的性能改进。与其他任务不同，如*前两位作者贡献相当。按字母顺序。1在本文中，我们将把在原始图像上预训练的分类器称为图1：基线（普通分类器[2]）和我们在PASCAL VOC2012上的CAM之间的定性比较。从1到6：原始图像、地面实况分割、基线CAM、我们在时期1、5、9的CAM。作为对象检测和分类，语义分割需要密集的像素级注释标签，获取这些标签是耗时且昂贵的。因此，已经针对仅使用图像级分类标签[1- 3，10，22，33，34，37 ]、涂鸦[ 24，31 ]和边界框[ 8，16，26 ]的弱监督语义分割（WSSS）进行了其中，最广泛使用的方法是仅利用可以在海量数据上容易获得的图像级分类标签。为了利用图像级标签来定位对象区域，大多数现有方法[129，33，34，37]利用类别激活图（CAM）[40]，表示图像区域对于类别预测的重要性据我们所知，大多数现有的WSSS研究都指出，CAMs高6995仅照亮最有区别的区域而不是整个对象区域（例如，1.3图2.3 ①的人。为了消除这种激活不足的问题，对抗性擦除（AE）方法[13，22，34，39]已被广泛使用。它们从图像中掩盖CAM的最突出部分，然后在被掩盖的图像上训练新的分类器以寻找不太突出的区域。本文通过一个简单的实验，从图1中的声发射方法得到启发。2（将在第二节中解释。3），我们回顾了普通分类器的潜力。我们发现，普通的分类器已经有足够的能力，以确定较少的歧视性地区，而无需额外的训练。因此，在我们看来，像现有的AE方法那样为掩蔽图像我们通过实验验证，使用普通分类器聚合这些区域可以有利于生成WSSS的伪标签。为了充分利用普通分类器的潜力，我们提出了一个基于类特定AE的框架，该框架将区域从最具歧视性的区域聚集到最不具歧视性的区域。我们的框架由两个网络组成：CAMs生成网络（CGNet）和用于制导的普通分类器。首先，我们在图像上现有的类中随机抽取一个要删除的类（目标类）。然后，在CGNet生成的CAM中拾取目标类的CAM，用于以反向传播的方式掩蔽输入图像。最后，普通分类器根据掩蔽图像对每个类别进行预测得分。我们训练CGNet以降低被删除的目标类的分数，而其他现有类的分数保持较高。所提出的类特定的时代的方法的主要优点是，它使CGNet生成更精确的CAM。当以类不可知的方式从图像中同时擦除所有现有类时[22]，无法解决不同类之间对象边界处CGNet的混淆我们的类特定的擦除方法，可以减少这种混乱，通过pennalizing入侵的CAM在对象的边界。图1是基线[2]（普通分类器）和所提出的框架中的CGNet的结果表明，随着训练的进行，我们的CAM的本地化能力变得更好，这支持了所提出的框架在定性的方式。我们还在第二节进行了广泛的消融研究。图5.3中示出的方法，并且通过实验验证所提出的框架在平均交集大于并集（mIoU）中实现了附加的性能增益。我们工作的贡献有四个方面：• 我们的实验验证，一个普通的分类器有足够的能力分割整个对象区域。• 为了利用普通分类器的潜力，我们提出了一个基于对抗擦除的框架。• 我们设计了一个类特定的擦除方法，充分利用多类图像，产生更准确的边界CAM。• 我们在PASCAL VOC 2012val/测试集和MS-COCOval集上实现了新的最先进的性能，仅使用图像级分类标签。2. 相关作品仅利用图像级分类标签进行语义分割，在各种WSSS方法中需要更少的标签成本，因此我们采用这种方法。早期的作品在WSSS 大多数WSSS 方法已经 emoyedCAM本地化的对象，只使用图像级的分类标签。然而，CAM一直受到批评，因为它们倾向于关注最具区分性的区域，而不是整个对象区域，该区域可以是重要的一组研究试图用种子生长方法[14，18]或基于像素级亲和力的方法[2，12，28]扩展和细化稀疏CAM，以制作用于语义分割的密集像素级然而，上述因此，已经进行了许多研究以提高CAM的质量。已经提出了多个扩张卷积块[35]和自等变正则化[33]，以使CAM的分类器在尺度变化下具有鲁棒性。此外，还进行了大量研究，以通过随机特征选择[21]、不同训练阶段的累积[15]以及基于子类别分类[3]或类式共同关注约束[23，29]的交叉图像方法来提高定位能力。对抗性擦除（AE）方法[13，22，34，39]是WSSS中最常用的方法之一。通过明确地从图像中擦除特定区域，该方法迫使网络探索完整的Wei等[34]首先提出了一种递归的查找和擦除方案，同时训练多个分类网络。重复该方案，直到新采用的分类网络无法找到有意义的对象区域。Zhang等人[39]将递归方案改进为由具有特征级掩蔽的两个分支组成的然而，在这些工作中，即使初始分类器成功地完美地擦除对象，互补网络也不会注意到该事实并遭受过度擦除问题。SeeNet[13]试图通过在掩模生成过程中用包括潜在区域的三进制阈值处理替换[39]中的然而，在这方面，6996×个CkCk该策略需要显著性检测模块的额外帮助。最近，Liet al.[22]提出了一种软掩码生成网络，可以通过标准分类损失和注意力挖掘损失来联合训练注意力挖掘损失提供了具有权重共享网络的自我指导，以通过最小化被掩蔽对象的总体类预测分数来从图像中擦除所有对象。该网络获得了更好的定位能力，同时发现和掩盖了从图像中的对象，以同时的方式。然而，由于自引导来自掩码生成网络本身，因此难以自校正已经判断的过度激活区域。3. 普通分类器如前所述，通常认为来自普通分类器的CAM通常仅突出对象的最有区别的部分，而不是整个对象区域。然而，在本文中，我们发现，普通的分类器已经有足够的能力，激活整个区域的对象。为了揭示普通分类器的潜力，我们用递归擦除和推断过程进行了一个简单的实验，如图所示二、使用普通的预训练分类器，我们从输入图像中获得初始CAM。然后，通过对CAM的突出显示区域进行阈值化来掩蔽图像有趣的是，我们可以看到，即使没有额外的训练步骤，当我们从掩蔽图像重新推断次级CAM时，普通分类器激活最初在初始CAM上被抑制的对象相关区域。请注意，分类器在整个过程中保持固定，这与传统的AE方案不同，传统的AE方案在每个阶段[34]或分支[13，39]中用掩蔽图像训练互补分类器。利用这种简单的擦除和推断方案，聚合CAM在PASCALVOC 2012列车集上实现51.3%的mIoU，这显著高于基线CAM的性能（47.8%）。这是真的，较低的歧视性地区是不太活跃的初始CAM。然而，实验结果表明，这些地区是不显眼的，由于高度歧视的地区，而不是简单地忽略了由分类器。在我们看来，CAMs的主要限制不在于它们的稀疏性和不完整性，而在于激活之间的不平衡。因此，为了生成更精确的WSSS伪标签，如果它被很好地利用，则可以用普通分类器聚合较不活跃的区域。然而，该方案简单地处理图像，并且以顺序的方式从普通分类器聚集激活的区域。因此，在这个过程中，没有机会识别和学习的先天模式图2：递归擦除和推断方案的图。利用固定的普通分类器，从输入图像推断初始CAM。然后，通过对CAM上的高亮区域进行阈值化来掩蔽图像，并且以递归方式重新推断CAM 注意，在该方案中，分类器在整个过程中保持固定。用于没有真实语义分割标签的每个图像的掩蔽阈值。因此，解锁的潜力，同时处理这些问题的普通分类器，我们提出了一个基于学习的AE框架，harnesses上述计划中的自适应/递归的方式。4. 该方法4.1. CAM生成我们遵循[40]的方法，通过一个普通的分类网络进行小的修改来计算CAM与[40]中的分类网络的最后一层不同，其被设计为全局平均池化（GAP），然后是全连接层，我们使用11卷积层，其具有类别数量（nc）输出通道，然后是GAP，如[39]中所示由此，类c_k 的CAM 被表示为A_c_k（x，y ）=f_cam（x，y），其中f_cam（x，y）表示具有类c_k的最后一个卷积层的特征图上的位置（x，y）处的特征向量。网络p对图像I的类别预测结果可以定义如下：其中σ表示S形激活函数。为了利用CAMAck作为用于擦除的反向传播掩模，我们进一步在其上取整流线性单元（ReLU）并将其除以其最大值，使得特征图在0和1之间归一化。应用双线性上采样以匹配图像的分辨率。上述过程如下所示：这样的区域有助于产生更完整的CAM。而且，优化难度极大Ack=ReLU（Ack）max（ReLU（Ack））.（二）6997我我我⊙图3：具有所提出的CSE方法的基于AE的框架的概述。对于给定图像Ii，类激活映射Ais从CGNet生成在输入图像的类别标签中，随机选择一个目标类别ck然后，生成对应的掩模Mck并用于对图像进行掩模。然后将剩余区域图像Ii输入到普通分类器中，由类特定擦除损失反向传播的梯度引导CGNet生成更好的分类器。摄像机和面具4.2. 拟议框架我们将多标签问题的训练数据表示为D={（I，t）}，其中标签t={c，c，· · ·，c{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 作为bc e（p这里，表示二进制交叉熵损失，并且λ是在两项之间平衡的加权参数注意ti代表剩余我我我i1 2ni类别标签定义为ti = t i− {c k}。示于图3，我们的框架由两个网络组成：CGNet和普通分类器。CGNet获得图像Ii作为输入，然后生成类激活图Ai和类预测Pi。为了掩蔽图像，在Ai中选择M_c_k，其中c_k是从地面真值类ti随机采样的单个掩蔽类标签。在下面的解释中，我们将类c k作为“目标类”，其他类作为“剩余类”。然后，掩模图像I（i）计算如下：Ii=（1−M ck）⊙Ii，（3）其中表示逐元素乘法。之后，固定的普通分类器得到被掩蔽的图像Ii并进行类别预测pi。我们的框架工作强制CGNet使掩蔽图像不一致。不再保留目标类，但仍包含其余类。CGNet使用两个分类损失函数的组合进行训练，如下所示：Lours=Lcls+λLcse=bce （ pi ， ti ） +λbce （ pi ， ti ），（4）其中Lcls和Lcse对应于bce（pi，ti）并且如第3、一旦从图像中掩蔽了最具区分性的区域，普通分类器就聚焦于次级区分性区域，并将它们用作分类的线索。因此，如果CGNet未能擦除目标类的对象的一些部分，则常规分类器可以检测到这种欠擦除并且通知CGNet擦除它们。此外，在第二节中进行了广泛的5.3，我们验证了从固定的普通分类器接收指导比从[22]中的权重共享网络（自指导）更可靠。4.3. 类特定擦除方法（CSE）所提出的CSE方法在生成精确CAM方面优于类不可知擦除（CAE）方法[22]。在CAE方法中，通过在CAM上应用逐像素最大函数来生成掩模。由于CAE方法的目标是删除所有现有类，因此损失函数如下：Lagno=Lcls+λLcae=bce（pi，ti）+λbce（pi，）（5）6998LLLLLLL我LL--L图4：显示我们的CSE方法如何工作的插图。针对每个图像列出来自普通分类器的置信度得分。这个图是一个屏蔽sofa类的例子，符号跟随框架的描述。还示出了类别特定擦除损耗（cse其中cls和cae分别对应于bce（pi，ti）和bce（pi，）这里，cls是标准分类损失，并且cae是在普通分类器处的掩蔽图像的类别预测与之间的损失，其表示标签是空集。在这种情况下，方程中的CAE的损失函数5只检查被掩蔽的图像中是否存在任何对象。因此，即使所生成的掩码在不同类别的对象之间的边界处不精确，也不能惩罚这种不希望的入侵，因为损失函数上没有差异另一方面，对于类特定擦除方法，在等式 Cse4使CGNet能够从普通分类器学习本地化。由于剩余的类应该从普通分类器上的掩蔽图像预测，因此掩蔽Mck不受约束。相反，当沙发类的激活图如图1B所示被过度激活时4-（c）并且侵入另一类（狗）的区域，则由普通分类器预测的狗的置信度得分将降低。在这在这种情况下，由于剩余的图像水平标签（ti）仍然需要如果Dog类要被留下，则CSE将成功地注意到该入侵并惩罚CGNet以减少沙发类的激活图。通过上述过程，我们可以预期CGNet最终被优化为最佳解决方案（图2）。4-（d）），同时在CSE的惩罚的帮助下在过度激活和激活不足之间平衡。如常规对抗性擦除方法所面临的，图像本身的分类损失不能在空间上将激活图约束为沿着对象边界。然而，如果我们在我们的框架上采用类特定的时代方法，那么CGNet可以在普通分类器的可靠指导下学习多类图像上对象之间的边界信息这是通过仅使用来自图像级标签的单纯分类损失来空间约束激活图即使普通分类器可能无法注意到被目标类的过度激活的CAM侵入的剩余类的区域何时是较少区分的，CSE方法也使得CGNet能够从如图4中的情况学习“对象边界”的概念此外，第5.3节中的定性和定量结果支持所提出的CSE方法根据设计意图正确工作。4.4. CAM优化为了改进从CGNet生成的CAM以获得更准确的伪像素级标签，我们遵循 [2] 的工作。在 [2] 中训练AffinityNet所需的前景和背景标签是通过将crf[19]应用于我们改进的CAM来获得的。为了将CRF应用于我们的CAM，我们将背景激活图计算为：侵入其他阶级的领地损失因此，cse诱导CGNet生成沿着对象边界拟合的掩模。图4，我们可视化如何提出CSE方法Abg（x，y）=阿尔法1maxA（x，y）c∈t.（六）工作更详细。假设给定一个包含两个类dog和sofa的图像，其中目标类ck是sofa，其余类ti是dog。如果生成的激活目标类（沙发）的地图是欠激活的，如图所示。4-（b），普通分类器将预测0.43的关于沙发类的置信度得分，因为普通分类器具有足够的能力来找到剩余区域的沙发。由于do g是剩余类（ti），因此CSE损失（cse），CGNet被训练为通过扩展沙发激活图来降低沙发类的置信度分数在训练AffinityNet之后，我们使用这些伪标签来训练Deeplab [4]以实现WSSS的目标。5. 实验5.1. 数据集和评估指标我们在PASCAL VOC 2012数据集[9]和MS-COCO数据集[25]上评估了所提出的方法PASCAL VOC 2012数据集包含20个前景和一个背景类别。作为常规方法，使用具有图像级类别标签的增强训练集（10，528.Σ6999O CW S最大迭代器--表1：拟定框架的消融研究。. . ：与CGNet[22]中的权重共享。. . ：普通分类器。CAE：类不可知擦除方法。CSE：类特定擦除方法。crf：条件随机字段。对于GAIN [22]的实现，我们使用与我们相同的主干。性能评估的PASCAL VOC列车集。擦除方法指导mIoU（%）mIoU（%）w/CRFCAECSEO.C.W.S.基线47.853.7GIN [22]✓✓48.353.7我们的（不含CSE）✓✓53.359.7Ours（w/oO.C. ）✓✓47.152.5我们✓✓56.062.8图5：PASCAL VOC 2012上几种方法之间CAM的定性比较。（a）至（e）：图像、地面实况分割、基线CAM、聚合CAM、GAIN [22]、Ours（w/o CSE）和Ours。聚集的CAM如图1所示的方法产生。二、训练我们使用验证（1，464）和测试集（1，456）来评估我们的结果并与其他方法进行比较。另一个数据集MS-COCO [25]包含81个类，其中包括具有80 k训练和40 k值图像的背景类，这在WSSS的角度更一般和困难。作为一个评估指标，我们采用的平均Intersectionover Union（mIoU），这是一个共同的标准，语义分割任务。5.2. 实现细节该网络是用 PyTorch 实现的。在我们的实验中，ResNet38 [36]被用作CGNet和ordi的骨干网络图6：PAS-CAL VOC 2012上CAM之间的定性比较。从左至右：图像，地面实况分割，基线的CAM [2]，我们的CAM。nary分类器由于我们的框架是由普通分类器引导的，因此对它的依赖性将在补充材料中通过附加实验进行讨论两个网络都使用ImageNet [27]权重初始化。在训练我们的完整框架之前，普通分类器通过PASCALVOC 2012训练数据集的标准分类损失进行预训练。同样，对于使用MS-COCO的实验，我们以相同的方式预训练分类器。对于数据增强，随机调整大小，水平翻转，颜色抖动[20]和随机裁剪应用于输入图像。该模型在批大小为8的4个TITAN-RTX GPU上我们使用一个多项式学习率，它将（1iter）幂乘以初始学习率，如[6]所示。我们将初始学习率设置为0.01并且功率被设置为0.9。AffinityNet 和 Deeplab 为了改进伪标签，我们使用ResNet38骨干设计AffinityNet和Deeplab，如[2]中所示。我们使用3/24作为方程中的α。6以得到置信前景/背景区域来训练AffinityNet。用于训练Deeplab的学习速率被设置为0.001。5.3. 消融研究我们的方法在PASCAL VOC 2012数据集上的消融研究如表1所示。在调整时代的方法（类不可知或类特定的）和类型的指导（普通分类器或权重共享），每种方法的性能进行评估。对于权重共享制导的实现，我们遵循GAIN [22]的工作，其从权重共享网络接收制导并使用CAE方法。与基线相比采用普通分类器作为引导，分类性能提高到53.3%.这意味着普通量词的惩罚与权值分担法相比更有利。我们还进行了一个实验来验证我们的CSE方法的有效性。虽然CSE方法可以独立地应用于普通分类器，但将其与权重共享指导相结合会降低性能。普通的班级--7000IS表2：在PASCAL VOC 2012验证和测试集上与其他最先进的WSSS方法的并且分别表示用于监督的图像级标签和外部显著性模块粗体数字表示最佳结果，而下划线数字是次佳结果。方法骨干辅助核算Pub.Val测试高级擦除[34]VGG16我CVPR1755.055.361.764.163.564.964.566.166.365.755.756.863.764.364.865.565.765.966.566.6GIN [22]VGG16我CVPR18AffinityNet [2]ResNet38我CVPR18ICD [10]ResNet101我CVPR20IRNet [1]ResNet50我CVPR19SSDD [28]ResNet38我ICCV19SEAM [33]ResNet38我CVPR20分类[3]ResNet101我CVPR20RRM [37]ResNet101我AAAI20北京谱仪[5]ResNet101我ECCV20我们ResNet38我-68.468.2MCOF [32]ResNet101I+SCVPR1860.363.161.464.964.365.267.266.267.868.261.262.863.265.365.466.466.766.968.068.5SeeNet [13]ResNet101I+SNIPS18DSRG [14]ResNet101I+SCVPR18FickleNet [21]ResNet101I+SCVPR19CIEN [12]ResNet101I+SAAAI20OAA+[15]ResNet101I+SICCV19EME [11]ResNet101I+SECCV20MCIS [29]ResNet38I+SECCV20ICD [10]ResNet101I+SCVPR20[23]第二十三话ResNet101I+SAAAI21另一方面，性能进一步增加到56.0%，这与基线相比是显著的增益（8.2%，以mIoU计）。在我们看来，这是很难自我纠正的错过激活区域的自我指导，从权重共享网络本身，而我们的计划可以处理这样的错误与普通的分类器。我们还观察到，用CGNet同时更新普通分类器会导致稍差的从优化的角度来看，保持引导网络固定似乎是有益的，因为它可以向CGNet提供更稳定的当图像只有一个对象类时，所提出的CSE方法与CAE 方法是相同的。但如表 1 所示， CSE 方法在PASCAL VOC 2012数据集上实现了超过CAE方法的显著性能增益，即使只有40%的训练集是多类的。这意味着CSE方法可以有效地利用多类图像的丰富信息，这是明显优于CAE方法。此外，从分割任务的角度来看，处理具有多类图像的数据集（例如MS COCO）更加通用和实用。如表3所示，所提出的框架在MSCOCO数据集上也达到了最先进的水平当将crf应用于我们的框架时，CAM的mIoU考虑到基线和CRF基线之间的性能差距为5.9%，我们的框架甚至可以从CRF中获益更多表3：所提出的框架与MS-COCO上的其他现有技术方法的定量比较[25]。[1，33]（*）的结果由[38]重新实现。方法出版物骨干val（mIoU）美国证券交易委员会[18]ECCV16VGG1622.4DSRG [14]CVPR18VGG1626.0[23]第二十三话AAAI21VGG1628.4SEAM* [33]CVPR20ResNet3831.9IRNet* [1]CVPR19ResNet5032.6SEAM+CONTA [38]NeurIPS20ResNet3832.8IRNet+CONTA [38]NeurIPS20ResNet5033.4我们-ResNet3836.4我们解释这种性能增益来自CGNet生成沿着对象边界匹配的更精确CAM的能力。由于CAM越少侵入对象边界，因此crf在细化CAM时越少混淆。图5示出了五种不同方法之间的定性比较。将（d）聚合CAM和（e）GAIN与（c）基线CAM进行比较，高分辨区域变得更宽。由于所提出的不具有CSE方法的框架在来自普通分类器的可靠指导下具有小得多的过度擦除风险，因此与（c）-（e）的CAM使用类特定擦除方法，如（g）我们的方法所示，CGNet生成精确得定性结果见Fig.6也支持我们框架的有效性。5.4. 与现有技术的为了提高像素级伪标签的质量，我们遵循[2]的工作，如[3，33]中所述。在用来自所提出的框架的CAM训练AffinityNet并应用crf之后，合成的伪标签在PASCAL VOC 2012训练集上实现66.9%的mIoU采用伪像素级标签来训练具有ResNet 38骨干网络的Deeplab-LargeFOV [4如表2所示，我们在PASCAL VOC 2012验证集和测试集上分别实现了68.4%和68.2%的mIoU，达到了最新的技术水平。表4给出了与val集上的先前方法的类式IoU如图7，与[ 2 ]相比，该框架能更准确地分割目标。为了更清楚地显示所提出的框架的优越性，我们还在 MS-COCO [25] 数据集上进行了实验由于在 MS-COCO中存在比PASCAL VOC 2012更多的多类图像，因此所提出的CSE方法的益处将更加明显。我们只是在CGNet生成的CAM上应用crf来获取伪标签，在训练集上实现了37.2%的mIoU请注意，我们跳过了训练Affinity网络的阶段，因为它消耗了太多的资源，而Affinity阶段的性能可能会更高。所示7001图7：使用伪像素级标签训练的分割网络的定性结果。请注意，这些伪标签仅使用图像级标签生成。从上到下：图像，地面实况，基线的分割结果[2]，我们的分割结果。表4：仅具有图像级监督的PASCAL VOC 2012val集上的按类别IoU比较方法bkg航空自行车鸟船瓶总线汽车猫椅子牛表狗马MBK人植物羊沙发火车电视 MiouTPL [17]82.8 62.2 23.1 65.843.1 71.1 66.2 76.1 21.3 59.6 35.1 70.2 58.8 62.366.135.8 69.9 33.4四十五点九四十五点六53.1高级擦除[34]83.4 71.1 30.5 72.9 41.655.9 63.1 60.2 74.0 18.0 66.5 32.4 71.7 56.3 64.852.437.4 69.1 31.4 58.9 43.955.0AffinityNet [2] 88.2 68.2 30.6 81.1 49.661.0 77.8 66.1 75.1 29.0 66.0 40.2 80.4 62.0 70.473.742.5 70.7 42.668.151.661.7SEAM [33]88.8 68.5 33.3 85.7 40.467.3 78.9 76.3 81.9 29.1 75.5 48.1 79.9 73.8 71.475.248.9 79.8 40.9 58.2 53.064.5SSDD [28]89.0 62.5 28.9 83.759.5 77.6 73.7 87.0 34.0 83.7 47.6 84.1 77.0 73.969.629.8 84.0 43.268.064.9北京谱仪[5]88.9 74.1 29.8 81.3 53.369.9 89.4 79.884.227.9 76.9 46.6 78.8 75.9 72.270.450.8 79.4 39.9 65.3 44.865.7我们90.2 82.9 35.1 86.870.6 82.5 78.187.430.1 79.4 45.9 83.1 83.4 75.773.448.1 89.3 42.7 60.4 52.368.4表3中，我们通过实验验证了所提出的框架的有效性。我们的框架在MS-COCOval集上实现了36.4%，这是一种新的最先进的方法，超过了以前的最佳方法3.0%。6. 结论和未来工作在本文中，我们提出了一个类特定的对抗擦除的基础上，同时充分利用普通分类器的潜力框架。由于普通分类器已经具有足够的能力来识别较少区分的区域，因此我们设计了CGNet来从普通分类器中提取全部潜力。此外，所提出的类特定擦除（CSE）方法引导CGNet通过学习多类图像上的对象之间的边界信息来生成更精确的CAM。大量的定性和定量的实验结果支持所提出的框架的有效性随着伪像素级标签从我们的CAM提炼，我们实现了国家的最先进的WSSS性能PASCAL VOC 2012val/测试集和MS COCOval集仅具有图像级监督。所提出的框架成功地解锁了普通分类器的有价值的潜力，然而，由于使用预先训练的分类器用于指导的性质，所提出的框架具有限制。我们观察到，普通分类器的误分类结果有时会导致失败的情况下，因此限制了我们的框架的性能的上限。在这个意义上说，未来的研究可以调查的训练方案，以处理这种错误的分类，或取代普通的分类器与另一个分类器专门在WSSS，以进一步提高所提出的框架的性能。致谢本工作得到&了韩国政府（MSIT）资助的信息和通信技术规划评估研究所（IITP）赠款的支持（编号：2009 - 010）。2020-0-00440，随着现实世界中情况的变化而不断改进自身的人工智能技术的发展）7002引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集，第2209-2218页，2019年。1、7[2] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，第4981-4990页一、二、五、六、七、八[3] 张玉婷，王乔松，洪伟智，罗宾逊·皮拉穆图，蔡义轩，杨明轩。通过子类别探索的弱监督语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8991-9000页一、二、七[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割。Yoshua Bengio和Yann LeCun，编辑，第三届国际学习表征会议，ICLR，2015年。五、七[5] 陈丽怡，吴薇薇，付晨晨，韩晓，张运涛.具有边界探索的弱监督语义分割。欧洲计算机视觉会议，第347-362页Springer，2020年。一、七、八[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。1、6[7] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。一个[8] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEinternational conference on computer vision ，第 1635-1643页，2015年。一个[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。五个[10] 范俊松，张兆祥，宋春风，谭铁牛。弱监督语义分割的类内鉴别器学习整数对象。在IEEE/CVF计算机视觉和模式识别会议论文集，第4283-4292页，2020年。1、7[11] 范俊松，张兆祥，谭铁牛。采用多估计进行弱监督语义分割。Springer，2020年。1、7[12] 范俊松、张兆祥、谭铁牛、宋春风、肖军Cian：弱交叉图像亲和网监督语义分割在AAAI人工智能会议集，第34卷，第10762-10769页一、二、七[13] Hou Qibin，PengTao Jiang，Yunchao Wei，and Ming-Ming Cheng.自我擦除网络的整体对象的注意力。神经信息处理系统进展，第549-559页，2018年。二、三、七[14] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉和模式识别会议论文集，第7014-7023页，2018年。二、七[15] Peng-Tao Jiang ， Qibin Hou ， Yang Cao ， Ming-MingCheng，Yunchao Wei，and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在IEEE计算机视觉国际会议论文集，第2070-2079页，2019年。二、七[16] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议论文集，第876-885页，2017年。一个[17] Dahun Kim，Donghyeon Cho，Donggeun Yoo，and InSo Kweon.弱监督对象定位的两阶段学习。在IEEE计算机视觉国际会议论文集，第3534-3543页，2017年。八个[18] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。欧洲计算机视觉会议，第695-711页。施普林格，2016年。二、七[19] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通 crfs 的有效推理在 Advances in neuralinformation processing systems，第109五个[20] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的图像网分类。Communicationsof the ACM，60（6）：84-90，2017。六个[21] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在IEEE计算机视觉和模式识别会议论文集，第5267-5276页，2019年。二、七[22] Kunpeng Li，Ziyan Wu，Kuan-Chuan Peng，Jan Ernst，and Yun Fu.告诉我去哪里看：引导注意推理网络。在IEEE计算机视觉和模式识别会议论文集，第9215-9223页，2018年。一二三四六七[23] Xueyi Li ， Tianfei Zhou ， Jianwu Li ， Yi Zhou ， andZhaoxiang Zhang.弱监督语义分割的分组语义挖掘。arXiv预印本arXiv：2012.05007，2020。一、二、七[24] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 3159一个[25] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays ，

下载后可阅读完整内容，剩余1页未读，立即下载