从分类到语义分割的对抗擦除方法

134 浏览量更新于2023-10-17 收藏 850KB PDF 举报

弱监督语义分割

分类网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1568使用对抗擦除的对象区域挖掘：一种简单的从分类到语义分割的方法魏云超1冯佳石1梁晓丹2程明明3赵耀4闫水成1， 51新加坡国立大学2CMU3乃开大学4北京交通大学5360 AI Institute{eleweiyv，elefjia} @ nus.edu.sgxiaodan1@cs.cmu.educmm@nankai.edu.cnyanshuicheng@360.cnyzhao@bjtu.edu.cn摘要我们研究了一种原则方法，逐步挖掘区分对象区域，使用分类网络，…狗狗狗狗解决弱监督语义分割问题。分类网络只对感兴趣对象的小而稀疏的区分区域做出响应，这偏离了需要定位密集、内部和整体的分类网络分类网络分类网络该采出对象区域用于像素推理的区域。为了缩小这一差距，我们提出了一种新的对抗性擦除方法，用于逐步定位和扩展对象区域。从单个小对象区域开始，我们提出的方法通过以对抗方式擦除当前挖掘的区域来驱动分类网络顺序地发现新的和补充的对象区域这些局部区域最终构成了一个密集和完整的对象区域，用于学习语义分割。为了通过对抗性擦除进一步提高所发现区域的质量，开发了一种在线禁止分割学习方法，通过提供由更可靠的分类分数调制的辅助分割监督来与对抗性擦除协作。尽管其明显的简单性，所提出的方法实现了55.0%和55.7%的平均交集超过联合（mIoU）的分数在PASCAL VOC 2012 val和测试集，这是新的国家的最先进的。1. 介绍深度神经网络（DNN）在语义分割任务上取得了显著的成功[2，13，15，33]，可以说受益于像素级注释掩码的可用资源。然而，收集大量精确的像素级注释用于在新图像集上训练语义分割网络是劳动密集型的，并且不可避免地需要大量的财务投资。为了缓解对昂贵的像素级图像注释的需求，弱监督方法[10，12，14，1622在各种层次的弱监管信息中，可以收集到的最简单、最有效的弱监管信息，基于对抗擦除的目标区域挖掘（一）图像AE-步骤1 AE-步骤2 AE-步骤3对象区域（b）第（1）款图1. (a)拟议AE方法的图示。使用AE，分类网络首先挖掘图像类别标签“狗”的最具区别性的区域然后，AE从图像中擦除挖掘区域（头部），并重新训练分类网络以发现新的对象区域（身体）以执行分类而不会降低性能。我们多次重复这种对抗性的划时代过程，并将擦除的区域合并到一个完整的前景分割掩模中。(b)最后给出了AE算法在不同阶段挖掘出的具有区别性的目标区域的实例和得到的前景分割模板训练语义分割模型是图像级注释[30，32]。然而，仅给定这种图像级注释来训练性能良好的语义分割模型是相当具有挑战性的-一个障碍是如何准确地将图像级标签分配给训练图像的对应像素，使得基于DNN的方法可以学习端到端地分割图像。为了建立所需的标签-像素对应关系，开发了一些方法，这些方法可以分为基于建议和基于分类的方法。基于提议的方法[20，28]通常会详尽地检查每个提议以生成像素级掩模，这非常耗时。与此相反，1569基于分类的方法[10，16-19，24]提供了更有效的替代方案。这些方法采用分类模型来选择对分类目标最具区分力的区域，并将这些区域用作语义分割学习的像素级监督。然而，对象分类模型通常识别并依赖于来自感兴趣对象的小而稀疏的区分区域（如图1（a）所示的分类网络它偏离了分割任务的要求，需要定位密集的，内部的和完整的区域进行像素推理。这种偏差是调整分类模型以解决分割问题的主要障碍，并损害分割结果。为了解决这个问题，我们提出了一种新的对抗性擦除（AE）方法，该方法能够驱动分类网络逐步学习完整的对象区域。AE方法可以被视为建立一系列竞争对手，试图挑战分类网络，以发现特定类别的一些证据，直到没有支持的证据。具体地说，我们首先利用图像级的弱监督信息训练一个图像分类网络，对象类别注释。分类网络被应用于定位图像中最具鉴别力的区域，然后，我们从图像中删除发现的区域，以分解分类网络的性能。为了弥补每一个像素的下降，分类网络需要定位另一个区分区域，以正确地对图像进行分类通过这种重复的对抗性擦除操作，分类网络能够挖掘属于感兴趣对象的其他区分区域。该过程由图1（a）中的示例说明，其中头部是用于对“狗”图像进行分类的最具区分性的部分在擦除头部并重新训练分类网络之后，另一个有区别的部分身体会弹出。重复这种对抗性擦除可以定位用于图像类别诊断的越来越有区别的区域，直到没有更多的信息区域留下。最后，合并擦除区域以形成可用于训练分割模型的像素级语义分割掩模。更多的可视化示例如图1（b）所示。然而，AE方法可能会错过一些对象相关的区域，并引入一些噪声，由于较少注意的边界。为了利用这些被忽略的对象相关区域以及减轻噪声，我们进一步提出了一种补充的在线禁止分割学习（PSL）方法，与AE一起工作，以发现更完整的对象区域并学习更好的语义分割模型。特别是，PSL使用预测的图像级分类置信度来调制相应的类别特定响应图，并将其形成为辅助分割掩模，其可以在线方式更新。禁止那些分类置信度较低的类别特定分割图对所形成的监督掩码做出贡献，从而可以有效地降低总而言之，我们的主要贡献有三方面：• 我们提出了一种新的AE方法，以有效地适应图像分类网络不断挖掘和扩大目标对象区域，它最终产生可用于训练分割模型的连续对象分割掩码。• 我们提出了一种在线PSL方法，利用图像级分类置信度来减少监督掩码内的噪声，并实现更好的训练。细分网络，与AE合作。• 我们的工作在PASCAL VOC分割基准上分别达到了55.0%和55.7%的mIoU，这是最新的技术水平。2. 相关工作为了减少像素级注释的负担，已经提出了各种弱监督方法来学习执行具有较粗注释的语义分割。例如，Papandreouet al.[16]和Daiet al.[3]提出使用带注释的边界框来估计分割。最近，Linet al.[12]采用涂鸦作为语义分割的监督。在[22]中，所需的监督信息被进一步放宽到实例点。所有这些注释可以被认为比像素级注释简单得多。一些作品[16-19，27，31]提出仅使用图像级标签来训练分割模型，这是训练语义分割模型的最简单监督。在这些作品中，Pinheiroet al. [19]和Pathaket al. [18]提出利用多实例学习（MIL）来训练分割模型。Pathak等人[17]引入了一个约束CNN模型来解决这个问题。帕潘德里欧等[16]采用基于期望最大化算法的替代训练过程来动态预测语义前景和背景像素。然而，这些方法的性能并不令人满意。最近，提出了一些新的方法[10，20，23，24，28，29]，以进一步提高这一具有挑战性的任务的性能。特别地，Weiet al. [29]提出了一种从简单到复杂的学习方法，在该方法中，初始分割模型使用简单图像进行训练，使用显著图进行监督。然后，逐渐增加的复杂性的样本，包括- ed，以进一步提高分割模型的能力。在[10]中，给出了三种损失函数，即损失函数和损失函数。种子，扩展和约束到边界，提出并集成到一个统一的框架来训练分割1570i=1i=1conv1 conv2conv3conv4 conv5conv6 conv7FCt=1平均池化分类损失分类模型分类网络复发性It+1ItFtHt基于对抗擦除的I：H：t=1t= 2t= 3t= 1t=2该采出对象区域狗输入图像图2.提出的对抗性擦除方法概述。在步骤t，我们首先用当前处理的图像I t训练分类网络;然后使用分类激活方法（例如，CAM[34]）用于生成类别特异性响应热图（Ht）。对热图H t应用硬阈值处理揭示了区分区域Ft。所提出的方法然后从I t中擦除Ft并产生It+1。然后将该图像输入到分类网络中，以学习定位新的区分区域。学习的热图和相应的经过擦除的训练图像显示在底部。从多个步骤中挖掘出的区域共同构成预测对象区域作为输出，其用于稍后训练分割网络。网络[10]和我们的工作都建议根据分类网络来定位对象线索。然而，Kolesnikov等人[10]只能获得小而稀疏的对象相关种子进行监督。相比之下，所提出的AE方法能够挖掘密集的对象相关区域，这可以为学习执行语义分割提供更丰富的监督信息。此外，Qiet al. [20]提出了一种增强反馈方法，其中采用GrabCut [21]和对象建议来生成用于监督的像素级注释据我们所知，Qiet al.[20]在PASCAL VOC基准测试中，使用选择性搜索[26]（52.7%）和MCG [1]（55.5%）细分建议实现了最先进的mIoU分数。然而，请注意，MCG已经从具有像素级注释的PASCAL训练图像中训练出来，因此[20]的相应结果是通过使用更强的监督来获得的。3. 分类到语义分割提出的分类语义分割方法包括两个新的组成部分，即。使用AE和在线PSL进行语义分割的对象区域挖掘3.1. 基于AE的为了解决分类网络gions和adversarially擦除发现的区域。特别是，分类网络基于DeepLab-CRF-LargeFOV [2]模型进行初始化。全局平均池化应用于conv7，生成的表示通过全连接层进行预测分类。在第一个操作中，我们通过最小化平方标签预测损失来训练分类网络，在执行擦除的第二个操作中，我们首先使用分类激活图（CAM）方法[34]为每个图像级标签生成热图。然后，通过对热图应用硬阈值来获得有区别的对象区域。我们从训练图像中删除挖掘区域，用所有训练图像的平均像素值替换然后，具有擦除区域的处理后图像被送入下一个分类学习迭代。由于区分区域已被移除且不再对分类预测有贡献，分类网络自然地被驱动以发现新的对象区分区域以维持其分类准确度水平。我们重复分类学习和AE过程多次，直到网络不能很好地收敛于生成的训练图像，即。没有更多的区分区域用于执行合理的良好分类。我们现在更正式地解释AE过程什么仅响应于小的和稀疏的区分区域-使训练集I={（Ii，Oi）}N包括N个图像s，我们提出了AE方法的本地化和扩展-且F={Fi}N表示挖掘的对象区域，逐步地对对象区域进行填充。如图2所示，AE迭代地执行两个操作：学习分类网络，用于定位对象判别关系，AE.我们迭代地产生对象区域Fi，t，训练图像Ii，t与分类模型Mt在学习步骤。将C表示为对象类别的集合15711...狗 ...C分类损失分割分数图1C禁止噪声的分割损失……忽略的像素1C背景狗……加权映射DNNArgmax狗平均池化i=1i，ti，ti=1i，ti，ti=1算法1基于AE的目标区域挖掘输入：训练数据I ={（I i，Oi）}N，阈值δ。初始化：Fi=N（i= 1，···，N），t=1。1：while（训练分类成功）做2：用 I 训练分类网络M t。3：因为我在我做4：设F i，t= 0。（一）5：forcinOidoC6：通过CAM（I i，t，M t，c）计算Hi，t[34]。7：提取区域R，其对应像素Hc值大于δ。8：更新雷区情况Fcci，t你好9：结束10：更新雷区Fi= Fi <$Fi，t。11：从训练图像中Ii，t +1 = Ii，t\Fi，t.12：结束图13： t=t+1。14：end while输出：F={Fi}N和CAM（·）作为热图生成的操作因此，在本发明中，（b）第（1）款图3. (a)分割掩码生成的过程。(b)提出的在线PSL方法的语义分割。分类分数用于加权“分割分数图”以在线方式产生“加权图”。具有低分类置信度的那些类被禁止用于产生分割掩码。然后，使用挖掘的掩码和在线产生的掩码来优化网络。第c个热图Hc其中c∈ Oi且Oi <$C（a））。此外，一些标记像素的语义标记可以是Ii，t的图像级标签集，可以根据ing到CAM（Ii，t，Mt，c）。为了加强分类网络以从Ii，t扩展对象区域，我们擦除像素由于声发射对捕获边界续费为了利用那些未被AE标记的像素进行训练并获得对错误标记像素的鲁棒性，我们提出了一种其在Hc大于δ。然后，得到F在线禁止分割学习（PSL）方法通过算法1中总结的过程。除了挖掘前景对象区域之外，寻找背景定位线索对于训练分割网络也至关重要。受[10，29]的启发，我们使用显着性检测技术[9]来生成训练图像的显着性图基于生成的显著图，其像素具有低显著值的区域被选择为背景。设Bi表示Ii的选定背景区域.我们可以得到片段-为了进一步学习对由AE提供的面具在线PSL利用图像分类结果来识别可靠的分类分割图，并将其形成噪声较小的辅助监督图，为AE输出提供辅助信息。PSL更新所产生的辅助分割图，同时以在线方式训练分割网络，并产生越来越可靠的辅助监督。如图3（b）所示，函数掩码S={Si}N其中Si= Fi <$Bi. 我们忽略PSL构建了一个包括两个分支的框架，用于产生S的三种像素：1）那些被擦除的前-不同类别的地面区域相互冲突;2)位于由AE识别的对象区域内的那些低显著性像素;3）未被分配语义标签的那些像素图3（a）中展示了分割掩模生成过程的一个示例。“black” and3.2. 在线PSL语义分割所提出的AE方法为每个训练图像提供初始分割掩模，该初始分割掩模可用于训练分割网络。然而，一些与物体相关或与背景相关的像素可能会丢失（如图3所示的AE输出上的一个用于分类，另一个用于语义分割。特别是，PSL使用平方损失作为分类分支的优化目标，PSL使用其产生的分类置信度在分类结果的帮助下，在线PSL能够将多类别分割图集成到辅助分割掩码中，并在AE输出之外提供监督。使用PSL，禁止那些对应于低分类置信度类别的分割图对辅助分割图做出贡献因此，可以有效地减轻来自那些不相关类别的噪声形式上，将分割任务的语义标签集表示为Cseg，并将给定的FFB B背景背景狗狗=F1572图像I为O段，其中包括背景类别在每个训练时期，我们将来自分类分支的图像级预测表示为v。假设S是由AE产生的分割掩码在线PSL利用C seg上的图像预测来训练由θ参数化的分割网络f（I; θ），其预测图像平面f u，c（I，θ）的每个位置u处的每个标签c∈ C seg的逐像素概率。为了产生用于训练分割网络的附加分割掩码S_n，PSL使用v来加权前景类别分割分数图如图3（b）所示。通过这种禁止性操作，可以通过乘以小的分类类别分数来抑制来自阴性分数图的大响应值。同时，研究了优势类别（即，占据图像的大面积的对应对象）也可以被增强。去-将加权运算符记为S，然后由下式产生SS_i= max{[1，v]<$f（I;θ）}.这里附加的元素1用于对背景猫进行加权。假设Sc和Sc表示用类别c标注的像素。交叉熵损失用于禁止噪声的语义分割被公式化为ΣminJ（f（I;θ），S） +J（f（I;θ），S）θ根据21个类别的像素IoU平均值来评估性能在valset上对所提方法进行了我们比较我们的方法与其他国家的最先进的价值和测试集。测试集上的结果是通过将预测结果提交给官方PASCAL VOC评估服务器获得的训练 / 测试设置我们采用 [2] 中的 DeepLab-CRF-LargeFOV作为AE和PSL中分类网络和分割网络的基本网络，其参数由在ImageNet [4]上预训练的VGG-16 [25]初始化。我们使用30个图像的小批量大小，其中321×321像素的补丁是随机的- 从图像中裁剪出来用于训练网络。我们跟着-在此阶段，降低[2]中的培训程序。初始学习率为0.001（最后一层为0.01），在6个epoch之后下降了10倍。训练在15个时期后终止。这两个网络都是在NVIDIA上训练的-一个具有12 GB内存的GeForce TITAN X GPU。我们在实验中使用DeepLab代码[2]，该代码基于公开可用的Caffe框架[8]实现。对于AE的每一步，属于热图中最大值的前20%的那些像素（由[10，34]建议的分数）被擦除，然后被认为是前方物体区域。我们使用显着图[9]到哪里I∈I1Σ Σ产生背景定位线索。对于那些图像属于室内场景（例如，沙发或桌子），我们采用J（f（I;θ），S）=−和Σc∈Oseg |Sc|c∈Osegu ∈Sclogfu，c（I;θ），标准化显著值 0.06 作为阈值以获得背景定位线索（即，显著值小于0.06的像素被认为是背景）J（f（I;θ），S）=−1Σ|Sˆ|ΣlogFu，c（I;θ）。以防某些对象被错误地分配到背景。对于其他类别的图像，设置阈值c∈OsegCc∈Osegu∈S<$0.12。对于语义分割的测试阶段，通过在线训练，逐步改进，可以产生越来越准确的S值，用于监督以后的训练过程。在测试过程中，我们对分类置信度较低的类别采取更严格的禁止政策。特别地，我们将那些小于p的分类置信度设置为零，并保持其他不变，并将其应用于对预测的分割分数图进行加权，并产生最终的分割结果。4. 实验4.1. 数据集和实验设置数据集和评估我们在PASCAL VOC 2012分割基准数据集[5]上评估了我们提出的方法，该数据集有20个对象类别和一个背景类别。该数据集分为三个子集：训练（train，1,464张图像），验证（val，1,449张图像）和测试（test，1,456张图像）。按照常见的做法[2，6，19]，我们通过图像增强将训练图像的数量增加到10，582。在我们的实验中，只有图像级标签用于训练。的禁止阈值p根据经验设置为0.1，CRF [11]用于后处理。4.2. 与最新技术水平的比较我们与最先进的弱监督语义分割解决方案进行了广泛的比较，这些解决方案具有不同级别的注释，包括涂鸦，边界框，斑点和图像级标签。这些方法以及我们的PASCAL VOC值的结果总结在表1中。在基线中，MIL-*[19]，STC [29]和TransferNet [7]使用更多的图像（700 K，50 K和70 K）进行训练。所有其他方法都基于10K训练图像，并建立在VGG16模型之上。从结果中，我们可以观察到，我们提出的方法优于所有其他作品使用图像级标签和点注释弱监督。特别是，AF-MCG [20]在仅使用图像级标签的基线然而，MCG生成器在PASCAL VOC上以完全监督的方式进行训练，因此相应的结果，即。AF- MCG [20]，隐含地使用了更强的监督。C1573表1.VOC2012val集上弱监督语义分割方法的比较方法训练集mIoU标签：Scribbles[12]第十二届中国国际汽车工业展览会监督：BoxWSSL（ICCV 2015）[16] 10K 60.6BoxSup（ICCV 2015）10K 62.0监督：现场1分（ECCV 2016）[22]10K46.1[12]第十二届全国人大代表选举10K51.6监督：图像级标签（* 表示方法隐式使用像素级监督）SN B*（PR 2016）[28]10K41.9MIL-seg*（CVPR 2015）[19]700K42.0TransferNet*（CVPR 2016）[7]70K52.1AF-MCG*（ECCV 2016）[20] 10K 54.3表2.在VOC2012测试集上比较弱监督语义分割方法。方法训练集mIoU监督：BoxWSSL（ICCV 2015）[16] 10K 62.2BoxSup（ICCV 2015）[3] 10K 64.2监督：图像级标签（* 表示方法隐式使用像素级监督）MIL-seg*（CVPR 2015）[19]700K40.6SN B*（PR 2016）[28]10K43.2TransferNet*（CVPR 2016）[7]70K51.2AF-MCG*（ECCV 2016）[20]10K55.5监督：图像级标签MIL-FCN（ICLR 2015）[18]10K24.9CCNN（ICCV 2015）[17]10K35.6[19]第十九话700K35.8MIL-bb（CVPR 2015）[19]700K37.0监督：图像级标签55.第 55章大结局7因此，使用选择性搜索段，AF-SS [20]的性能下降了1.7%。此外，AF-* [20]还采用GrabCut [21]来细化用于监督的分割掩码，这通常是耗时的训练。相比之下，所提出的AE方法是非常简单和方便的实现对象区域挖掘。此外，在线PSL对于训练语义分割网络也是有效和高效的。相比这些方法使用图像级标签进行监督，结果表明，所提出的AE-PSL比最佳性能提高了2.4%以上。此外，我们的方法也比那些隐式使用像素级超级视觉的方法高出0.7%以上。这些之间的额外比较PASCAL VOC测试方法见表2。可以看出，我们的方法在具有竞争力的基准上实现了这项具有挑战性的任务的新的最先进水平。图4显示了一些成功的分割，表明我们的方法即使对于一些复杂的图像也可以产生准确的结果。图4的最下面一行给出了一个典型的故障情况。这种情况可以很好地用更好的擦除策略来处理，例如使用低级视觉特征（例如，颜色和纹理）来细化和扩展擦除区域。图像预测地面实况图4.VOC 2012年评估的定性细分结果集最后一行显示了一个失败案例。4.3. 消融分析4.3.1基于AE的利用AE方法，可区分的目标区域被逐步地反向擦除因此，预计在不同AE步骤的训练收敛时，分类网络的损失值将进展-EM-Adapt（ICCV 2015）[16]10K39.6监督：图像级标签DCSM（ECCV 2016）[24]10K45.1MIL-FCN（ICLR 2015）[18]10K25.7BFBP（ECCV 2016）[23]10K48.0CCNN（ICCV 2015）[17]10K35.3STC（PAMI 2016）[29]50K51.2[19]第十九话700K36.6SEC（ECCV 2016）[10]10K51.7MIL-bb（CVPR 2015）[19]700K37.8AF-SS（ECCV 2016）[20]10K52.7EM-Adapt（ICCV 2015）[16]10K38.2DCSM（ECCV 2016）[24]10K44.1BFBP（ECCV 2016）[23]10K46.6STC（PAMI 2016）[29]50K49.8SEC（ECCV 2016）[10]10K50.7AF-SS（ECCV 2016）[20]10K52.6监督：图像级标签AE-PSL（我们的）10K55.01574SLosPochE表3.使用VOC 2012val集上不同AE步骤的对象区域比较分割mIoU评分AE步骤BKG 飞机自行车鸟船瓶巴士车猫牛椅桌狗一种马机车人植羊沙发训练器电视MiouAE-步骤182.6 63.0 27.5 45.9 38.3 43.6 61.3 29.2 60.0 13.6 52.0 32.6 52.4 49.847.943.732.661.4 29.4 35.1 41.944.9AE-步骤282.2 69.3 29.7 60.9 40.8 52.4 59.3 44.2 65.3 13.0 58.9 32.2 60.0 56.649.143.034.269.7 32.1 42.8 43.249.5AE-步骤378.5 71.8 29.2 64.1 39.9 57.8 58.5 54.5 63.0 10.3 60.5 36.0 61.6 56.162.642.936.564.5 31.5 49.5 38.750.9AE-步骤474.4 65.5 28.2 59.7 38.5 57.8 57.5 59.0 57.29.654.9 39.2 56.5 52.665.043.234.955.9 30.4 47.9 36.848.80.40.350.30.250.20.150.10.050图像AE-步骤1AE-Step2（一）（b）第（1）款AE-Step3AE-步骤4删除的区域为了定量地理解每个AE步骤的贡献，表3示出了使用从不同k（k）合并的前景区域的mIoU分数的比较=1，2，3，4）基于DeepLab-CRF-LargeFOV训练分割网络的AE步骤。我们可以观察到，随着更多的前景对象区域被添加，性能确实增加，因为分割网络得到更密集的监督。然而，在执行四个AE步骤之后，性能由于如上所述的过度老化而下降2.1%。一些可视化示例如图6所示，包括训练图像（顶行）、不同AE步骤产生的热图和最终擦除的区域（底行）。我们可以观察到，AE方法有效地驱动分类网络来局部化不同的区分对象区域。例如，覆盖最后一列中所示的“cow”的最右侧实例的身体的区域首先被局部化。通过擦除此实例，然后发现左侧的另外两个实例。我们还对VOC图5.（a）分类网络的损失曲线，针对不同AE步骤的训练时期数。(b)四个AE步骤的过度擦除样本的失败案例。由于缺乏更多的区分区域来训练分类网络，因此分类率急剧增加图5（a）显示了不同AE步骤的分类训练损失曲线的比较。可以观察到，训练与原始图像收敛时的损失值约为0.05.通过执行多个步骤的AE，会聚损耗值略微增加（AE-步骤2：AE-步骤3：≤ 0.08，AE-步骤1：≤0.1）。这表明，AE删除了具有下降趋势的区域，辨别能力通过继续对更多步骤执行AE以移除更多区域，分类网络仅收敛到提供高达0.15的训练损失的网络。这表明没有更多的有用区域可以用于获得良好的分类网络，因为过度删除过度擦除可能将许多真负区域引入到所挖掘的前景对象区域中，并且妨碍学习分割。图5（b）中示出了由过度擦除引起的在大多数对象区域从训练图像中移除的情况这些区域是真负区域，不利于分割网络的训练。为了防止负面区域的污染，我们只将前三步挖掘的那些有区别的区域整合到最终的分割掩码中。AE-步骤4AE-步骤3AE-步骤2AE-步骤1015时代分类培训损失15752012年测试集，使用前三个AE步骤合并的对象区域mIoU得分为52.8%，优于仅使用图像级标签进行监督的所有那些方法（如表2所示）。4.3.2在线PSL语义分割我们现在继续评估在线PSL，并研究它如何通过发现辅助信息使AE方法受益。我们在表4中报告了在线PSL的性能，其中我们可以观察到，与“w/o PSL”相比，P-SL将性能提高了3.2%此外，我们在PSL上执行一个迭代训练步骤以改善分割结果。特别地，我们首先使用来自AE和P-SL的训练的分割模型来分割训练图像。然后，预测的分割掩码被用作监督，用于训练分割网络进行另一轮。如表4所示该改进得益于对训练图像的预测分割掩模执行CRF的操作。在CRF结果的基础上进行一轮训练后，分割网络得到了很好的训练。我们没有观察到通过执行addi-1576表4.VOC 2012val集上不同训练策略的分割mIoU分数比较方法BKG 飞机自行车鸟船瓶巴士车猫牛椅桌狗一种马机车人植羊沙发训练器电视Miou不含PSL78.5 71.8 29.2 64.1 39.9 57.8 58.5 54.5 63.0 10.3 60.5 36.0 61.6 56.162.642.936.564.5 31.5 49.5 38.750.9带PSL83.3 70.0 31.6 69.7 40.8 54.2 63.2 58.4 69.9 18.1 65.5 33.5 69.8 60.760.550.538.169.4 31.4 57.3 39.754.1带PSL++83.4 71.1 30.5 72.9 41.6 55.9 63.1 60.2 74.0 18.0 66.5 32.4 71.7 56.364.852.437.469.1 31.4 58.9 43.955.0带PSL+GT 83.6 71.0 30.6 73.0 42.7 56.1 63.6 61.7 75.2 22.2 67.6 33.4 74.6 57.865.653.637.771.6 33.2 59.0 45.156.1图像AE-步骤1AE-Step2AE-Step3删除的区域图6.通过所提出的对抗擦除方法产生的挖掘对象区域的示例。第二至第四行显示了生成的热图，其中突出显示了区分区域具有擦除区域的图像以灰色显示在最后一行常规训练，因为没有新的监督信息被馈入。此外，我们还检查了我们的测试策略的有效性，其中禁止阈值经验地设置为0.1。我们利用地面实况图像级标签作为分类置信度来对预测的分割分数图进行加权（注意，这与训练阶段中施加的禁止信息不同结果为56.1%（“w/ PSL + GT”），仅比“w/ PSL ++"高1.1%。请注意，PSL采用分类网络的在线输出来重新加权分割分数图。这种分类信息的另一种选择是地面实况注释。我们还考虑了在训练阶段使用地面实况图像级标签进行禁止的情况，并评估了性能。然而，与我们提出的PSL设计相比，使用地面实况信息会导致性能下降0.6%。这是因为PSL有效地利用了关于对象尺度的信息，这有利于生成更准确的分割掩模（即，与小对象的类别相比，大对象的类别优选具有高分类分数）。简单地使用0-1地面实况注释会忽略比例，并且性能更差。我们还研究了PSL在不使用图像级分类置信度的情况下的性能，发现性能下降了1%。这清楚地验证了所提出的在线P-SL方法使用图像级分类信息的有效性5. 结论我们提出了一种对抗性擦除方法，以有效地适应分类网络，以逐步发现和扩展对象区分区域。发现的区域被用作像素级监督，用于训练分割网络。该方法为弱监督分割问题提供了一种简单有效的解决方案。此外，我们提出了一种在线禁止分割学习方法，这表明是有效的挖掘辅助信息的AE。事实上，PSL方法可以帮助任何其他弱监督方法。这项工作为实现弱监督语义分割铺平了对抗性擦除的新方向在未来，我们计划开发更有效的策略来改善对抗性擦除，例如使用自适应步骤擦除每个训练图像，或者将对抗性擦除和PSL集成到一个更统一的框架中。确认该工作得到了中国国家重点研发项目（编号2016YFB 0800404）、新加坡国立大学启动基金R-263-000-C 08 -133、新加坡教育部AcRF Tier One基金R-263-000-C21-112和中国国家自然科学基金（编号2016 YFB0800404）的部分支持61532005）。1577引用[1] P. Arbelaez，J.Pont-Tuset，J.Barron，F.Marques和J.马力。多尺度组合分组在IEEE CVPR，第328-335页[2] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。预印本arX-iv：1412.7062，2014年。[3] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。IEEE ICCV，2015年。[4] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在IEEECVPR，第248-255页[5] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。IJCV，111（1）：98[6] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. Maji和J. 马利克从反向检测器的语义轮廓。在IEEE ICCV，第991-998页[7] S.洪，J。哦，B。Han和H.李你用深度卷积神经网络学习语义分割的可传递知识。IEEE CVPR，2016。[8] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM Multimedia，第675-678页[9] H. Jiang，J. Wang，Z. Yuan，Y. Wu，N. Zheng，和S.李显著对象检测：判别式区域特征集成方法。在IEEECVPR，第2083-2090页，2013年。[10] A. Kolesnikov和C. H.蓝伯特播种、扩展和约束：弱监督图像分割的三个原则。在ECCV，第695-711页[11] V. Koltun.具有高斯边势的全连通crfs中的有效推理。NIPS，2011年。[12] D. Lin，J. Dai，J. Jia，K. He和J.太阳 Scribble- sup：用于语义分割的 Scribble-supervised 卷积网络。 IEEECVPR，2016。[13] S. Liu，X.梁湖，加-地Liu，X.Shen，J.杨角，澳-地许湖，加-地林X. Cao和S.燕.匹配-cnn遇到knn：准参数人工分析。在IEEE CVPR，第1419- 1427页[14] S. Liu，S. Yan，T. Zhang C.，中国古猿科Xu，J. Liu，and H. 陆面向集体图像解析的弱监督图传播 IEEETMM，14（2）：361[15] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE CVPR，2015年。[16] G.帕潘德里欧湖C. Chen，K. Murphy和A. L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。arXiv预印本arXiv：1502.02734，2015。[17] D. Pathak，P. Kr aühenbuühl和T. 达雷尔。用于弱监督分割的约束卷积神经网络 arXiv 预印本 arXiv ：1506.03648，2015年。[18] D. Pathak，E. Shelhamer，J. Long和T.达雷尔。完全卷积的多类多实例学习。arXiv预印本arXiv：1412.7144，2014年。[19] P. O. Pinheiro和R.科洛伯特使用卷积网络从图像级到像素级标记。在IEEE CVPR，2015年。[20] X.齐，Z. Liu，J. Shi，H.赵和J。贾图像级监督下语义分割中的增强反馈。在ECCV，第90-105页[21] C. Rother，V. Kolmogorov，and A.布莱克Grabcut：使用迭代图切割的交互式前景提取。ACM Transactions onGraphics，23（3）：309[22] O. Russakovsky，A. Bearman、V. Ferrari和L.飞飞What’sthe point：基于点监督的语义分割。在ECCV，第549-565页[23] F. Saleh，M.S. A. Akbarian，M.萨尔茨曼湖彼得森S. Gould和J.M. 阿尔瓦雷斯内置前景/背景先验，用于弱监督语义分割。EC- CV，第413-432页，2016年[24] W. Shimoda和K.柳井用于弱监督语义分割的不同类特异性显着图。EC- CV，第218-234页，2016年[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年国际学习表征会议[26] J. R. Uijlings，K. E. van de Sande，T. Gevers和A. W.史默德斯对象识别的选择性搜索。IJCV，104（2）：154[27] A.韦日涅韦茨河谷Ferrari和J. M.布曼基于多图像模型的弱监督语义分割。在IEEE ICCV，第643-650页[28] Y. Wei，X. Liang，Y. Chen，Z.杰，Y.肖氏Y. zhao和S.燕. 学习使用图像级注释进行分割。模式识别，2016年。[29] Y. Wei，X. Liang，Y. Chen，X.沈，M.- M.郑，J. 冯先生，Y. Zhao和S.燕. Stc：一个从简单到复杂的框架，用于弱监督语义分割。IEEE TPAMI，2016年。[30] Y. Wei，W. Xia，M. Lin，J. Huang，B. Ni，J. Dong，Y. Zhao和S.燕. HCP：一个用于多标签图像分类的可扩展cnn框架。IEEE TPAMI，38（9）：1901[31] J. Xu，A. G. Schwing和R.乌塔松在各种形式的弱监督下学习细分。在IEEE CVPR，2015年。[32] H. Zhang，X.尚，W. Yang，H. Xu，H. Luan和T

下载后可阅读完整内容，剩余1页未读，立即下载