弱监督语义分割中基于框驱动的类区域屏蔽和填充率引导的丢失

18 浏览量更新于2023-10-19 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3136弱监督语义分割中基于框驱动的类区域屏蔽和填充率引导的丢失宋春风1，2黄燕1，2欧阳万里3王亮1，2，4，51智能感知与计算研究中心（CRIPAC），模式识别国家重点实验室（NLPR），中国科学院自动化研究所2中国科学院大学（UCAS）3澳大利亚悉尼大学SenseTime计算机视觉研究组4脑科学与智能技术卓越中心（CEBSIT）5中国科学院-人工智能研究所（CAS-AIR）{chunfeng.song，yhuang，wangliang}@ nlpr.ia.ac.cnwanli. sydney.edu.au摘要通过采用深度全卷积网络（FCN），语义分割取得了巨大的进步。然而，基于FCN的模型的性能严重依赖于大量的像素级注释，这是昂贵和耗时的。为了解决这个问题，学习从边界框进行弱监督分割是一个很好的选择如何充分利用边界框的类级在本文中，我们首先介绍了一个盒子驱动的类的屏蔽模型（cas-wisemasking model，简称cas-wise masking model），以消除每个类的不相关区域此外，基于包围盒监督生成的像素级分割建议，计算每个类的平均填充率作为重要的先验线索，提出填充率引导的自适应损失（FR-Loss）算法，帮助模型忽略建议中错误标记的与以前的方法直接训练模型与固定的个别段建议，我们的方法可以调整模型学习与全局统计信息。因此，它可以帮助减少错误标记提案的负面影响。我们评估所提出的方法上具有挑战性的PASCAL VOC 2012基准，并与其他方法进行比较。大量的实验结果表明，该方法是有效的，达到了目前的水平。1. 介绍语义图像分割是指对图像中的每个像素进行最近，语义分割已经图1.弱监督分割与盒级符号。(a)盒子驱动的类掩码（class-wise masking，简称CMAM）模型可以在区域级别上为每个类学习特定的掩码，并帮助柔和地去除每个类的不相关区域（b）根据像素级分段建议和边界框，我们可以计算每个类别的平均像素填充率，例如，羊填充了框的大约60%像素。(c)通过对得分图的值进行排名，我们可以选择最有信心的位置进行备份。传播，忽略弱的。如图所示，填充率引导的最高分数选择优于全局选择。取得了一系列进展[27，38，43，8，25，30，48，17]，其中[27]首次将全卷积网络（FCN）结构引入到分割领域。在这项工作之后，通过重新设计或调整FCN结构，有一些改进[44，18，5，31，47，7]。然而，这些作品是专为充分超-分数地图全球最高分数FR引导的最高分数图像（c）第（1）款自行车前20%个人前80%前60%自行车：约20%公交车的FR：~80%绵羊：~60%飞机：~40%（b）第（1）款Box驱动的类掩码图像人人（一）马人马马3137viewed模式，必须使用大量完全标记的数据进行训练。与其他经典的视觉任务，如分类和对象检测，标记语义分割是相当昂贵的。例如，标记像素级分割注释的成本大约是标记边界框的15倍，是标记图像类的60倍[26]。考虑到包围盒也包含丰富的语义和客观信息，一个简单的想法是学习分割弱包围盒监督。最近，已经提出了几种弱监督分割方法[9，29，21，2，33这些方法主要集中在生成高质量的像素级propos- als。例如，在[29]中，应用无监督密集CRF [22]来消除边界框内的背景。SDI [21]试图通过结合MCG[32]和GarbCut [34]方法来产生细分方案。BoxSup[9] 以迭代的方式更新MCG生成的候选掩码然后将这些增强的分割算法作为像素级监督，训练深度FCN模型进行弱监督分割。因此，如何引导FCN模型将注意力集中在正确的目标区域上，而忽略分割建议中的错误标记区域是一个核心问题大多数以前的方法都是用固定的建议或简单的迭代训练来训练模型。在这种情况下，地面实况标注和生成的建议之间的差距限制了它们的性能。我们从两个方面来解决这个问题。首先，考虑到边界框包含了很强的语义和客观信息，它们应该帮助我们去除不相关的区域，并专注于前景区域。一个简单的想法是学习一个全局蒙版来帮助去除图像中的背景。然而，全局掩模不能同时为每个类学习多个精确的形状为此，我们探索采用框驱动的类掩码（class-wise masking，简称BBM）模型，通过框监督来过滤每个类的特征图，如图1（a）所示。学习的类掩码可以为每个对象提供明显的形状和位置提示，这对于后续的分割学习很有用。其次，填充率是获得伪标签的有用指导。众所周知，训练好的模型中的得分图具有不同的响应值，指示预测的置信度。一个自然的想法是选择具有最活跃分数的位置进行向后学习，而忽略不太自信的位置，如图1（c）所示。然而，在弱监督任务中，阈值的确定是困难的，特别是不同的类可能需要不同的阈值。如图1（b）所示，不同的类通常具有不同的形状，例如，总线在其框内具有80%的前景像素，而bicycle仅填充框的20%像素。这种现象在-提示我们计算每个类的平均填充率。以无监督方法生成的像素级分割建议我们发现，在边界框内的前景像素的百分比应该是类似的同一类。而两类图像的像素填充率通常是不同的。由于单个样本的分段建议通常不准确，因此同类样本的平均填充率可以提供更稳定的指导。重新考虑上面对平均像素填充率的讨论，用填充率来指导最高分数选择将是一个很好的选择。基于这种动机，我们提出了一种填充率引导的自适应损失（FR损失）来调整伪标签。考虑到来自同一类的两个对象可能由于形状和姿态的变化而具有不同的填充率的情况，我们尝试通过将每个类聚类成若干子类来细化填充率。在此基础上，提出了基于框驱动的类区域掩蔽模型和填充率引导的丢失模型。首先，我们实现了一个类似于盒子的监督，通过分段引导学习。所提出的消隐算法可以帮助去除每个类中不相关的区域.它还提供了一个明显的提示前地面区域，这可能会大大有助于分割学习。其次，我们用给定的包围盒和生成的像素级伪建议计算每个类的平均因此，我们提出了一个填充率损失，以帮助选择最有信心的位置在得分地图的反向传播和忽略错误标记的像素在建议。通过将冗余和FR损耗结合起来，我们可以在弱框监督的情况下实现最佳性能。我们在具有挑战性的PASCAL VOC 2012数据集[12]上评估了所提出的方法，并与以前的方法进行了比较。大量的实验结果表明，我们的方法是有效的，达到了最先进的结果。所提出的方法的性能甚至可以与完全监督模型相媲美。我们将我们的贡献总结如下：• 我们引入了框驱动的类掩码（ class-wisemasking，简称CIMA）模型来帮助移除每个类的不相关区域。它还提供了一个明显的提示，前地面区域，这可以直接有助于分割学习。• 填充率引导自适应损失（FR-损失）提出，以帮助选择最有信心的位置在得分地图的反向传播和忽略错误标记的像素的建议。• 在PASCAL VOC 2012基准上的大量实验表明，该方法是有效的，达到了最先进的结果。3138图2.建议方法的管道。对于给定的图像及其相应的边界框（a），我们首先生成矩形注释（类似于框），并应用无监督CRF [22]生成分段建议（b）。然后，我们计算每个类别（c）与CRF建议及其相应框的平均填写率。利用图像和分段建议，我们训练基于FCN的模型（d），例如，DeepLab-LargeFOV网络[5]。我们添加了一个框驱动的类掩码（class-wise masking，简称CMAM）模型（e），通过使用类似框的标签进行分割学习来生成类感知掩码。学习的掩码可以分别对每个类的特征实现空间掩码。每向前一步，我们在预测层中对每个类的得分进行排序，并采用填充率引导损失（FR-损失）(f)选择最可靠的位置进行反向传播，忽略较弱的位置。FR损失可以减少由建议中的错误标记的像素所引起的负面影响。2. 相关工作在这一节中，我们简要介绍了与我们的工作有关的全监督和弱监督语义分割方法2.1. 全监督语义分割全监督语义分割已经取得了一系列进展[27，38，43，8，25，30，48，17]，其中[27]首次将全卷积神经网络（FCN）结构引入到分割领域。在这项工作之后，通过重新设计或调整网络结构提出了大量改进[44，18，5，31，47，7，14，11，37，3，10，45]Chen等人[5]介绍了用于密集预测的atrous卷积，并扩大了接收视野。Zhen等人。[5]建议采用具有高斯成对电位的密集CRF [22]作为递归神经网络（RNN），以改进传统CNN的粗略输出。最近，一种基于编码器-解码器的atrous可分离卷积模型[7]已经实现了完全监督语义图像分离的最新性能。2.2. 弱监督语义分割最近，大量的弱监督方法- s探索学习语义分割与监督的图像标签[41，19，42，1，13]，点[2]，涂鸦[39，24，28]和边界框[9，29，21，23]。基于约束盒的方法是与本文最相关的工作。BoxSup [9]引入了递归训练过程，并监督分段建议。WSSL [29]提出了一种期望最大化算法，其中分段建议由密集CRF [22]生成。而SDI [21]试图通过结合MCG [32]和GarbCut [34]方法来产生细分建议。Li等人。[23]探索使用边界框监督和图像标记来分割实例。与这些方法不同的是，我们提出了一个盒子驱动的类掩蔽（class-wise masking，CMAM）模型来帮助在预测最终分割之前去除背景与以前的作品中采用的全局空间注意力模型不同[4，6，46，15]，所提出的机器学习器可以为每个类学习特定的注意力地图。据我们所知，我们是第一个引入平均填充率（FR）作为一个稳定的指导，通过选择最有信心的位置，在得分地图上进行反向传播。所提出的FR-损耗可以自适应地选择重新（f）充填率引导损失框-i（e）框驱动的类掩码（d）基于FCN的SegNet我段建议我'分数图我FR-损失我FRi空间掩蔽Fbox-111'11FR1空间掩蔽FFR-猫：62.3%FR-狗：50.6%猫沙发猫狗狗沙发（c）每类的填补率(b)生成箱式和通用报告格式提案（a）图像和盒子监督. ... ..3139可靠的像素，并忽略伪建议中错误标记的像素。3. 我们的方法3.1. 概述在这一节中，我们提出了仅使用边界框监督的弱监督语义分割框架。该框架可以通过框驱动的类掩码（class-wise masking，简称CMAM）模型和填充率引导损失（fillingrateguidedloss，简称FR-损失）从弱框级注释中学习语义掩码。在下面的段落中，我们首先描述了通用管道，然后介绍了每个组件的细节。所提出的方法主要有两个步骤，如图2所示。首先，我们用边界框标注生成像素级的pro-bounding，并计算每个类的平均填充率。然后，我们用提出的盒子驱动的类掩蔽（class-wise masking，简称SCN）模型和填充率引导的损失（filling rate guided loss，简称FR-loss）来训练基于全卷积网络（FCN）的模型。建议书生成和填写率计算。弱监督语义分割的第一步是从给定的绑定框中生成适当的监督标签，如图2（b）所示最简单但广泛使用的考虑到矩形段在边界框内包含大量错误标记的有几种流行的方法可以使用边界框标签生成高质量的分段建议，其中包括密集CRF[29]，MCG[32]和GrabCut [34]是最常用的方法。为了与基线模型[29]进行公平比较，我们选择相同的无监督密集CRF作为生成提案的默认选项。有了CRF建议和相应的方框，我们可以计算出每个类别的平均填写率，如图2（c）所示。模型训练，带误差和FR损失。如图2（d）所示，本文的主干模型为DeepLab- LargeFOV模型[5]。与原始的FCN [27]训练过程类似，我们还使用在ImageNet [35]上预训练的VGG-16模型[36]初始化该模型。该骨架模型与比较方法中使用的骨架模型相当[9，29，21]。FCN模型将图像作为输入，将细分建议作为监督。为此，FCN模型可以以端到端的方式进行训练。请注意，在我们的情况下，由于弱监督任务中监督信息的有效性得不到保证，因此我们增加了一个盒子驱动的类掩码模型，通过对类盒子标签的分段学习来生成类感知掩码。学习的掩码可以对每个类的特征实现空间掩蔽分开对于每一个前向步骤，我们在预测层中对每个类的得分进行排名，并采用填充率引导损失（FR-损失）来选择最自信的位置进行反向传播，忽略弱位置。FR-损失可以减少由建议中的错误标记的像素引起的负面影响有关细节将在下面两个小节中介绍。3.2. 盒驱动类掩码为了去除特征图中不相关的区域，我们需要为每个类学习特定的掩码图。因此，我们设计了一个盒子驱动的类掩码（class-wise masking，简称CMAM）模型来指导分割模型的学习。我们在FC-7层上应用掩膜（注意：通过卷积实现）的VGG-16模型[36]，以掩盖不相关的区域。如图2（e）所示，基于FCN的SegNet的输出特征被均匀地切成N个分支，对应于N个类。对于每个分支，我们添加一个二进制注意力模型来生成用于屏蔽的权重图。为了给出一个清晰的提示，我们通过在注意力图αc的像素上添加均方误差（MSE）损失及其相应的类-c的掩码Mc来美国陆军Lbcm（c）=<$Mc（h，w）−αc（h，w）<$2（1）h=1w=1其中αc的大小为（H，W）。以类似的方式，可以单独训练N然后，N个注意力图可以跨其对应的特征分支执行空间方向的掩模。我们将αc和Fc分别表示为类-c因此，类c的加权特征可以表示为Φc=Fc<$αc（2）其中，n表示空间方向的掩蔽操作。然后，我们结合N个分支的输出特征来产生用于最终分割的分数图。与之前的作品[4，6]中采用的全局空间注意力模型它在三个方面对细分模型做出贡献：1）它可以去除特征图中的不相关区域，例如背景。2）它可以学习N个特定的掩码映射来适应每个类，这些掩码映射在形状和大小上可能彼此差异很大3)由于掩模是在包围盒的监督下学习的，因此可以为分割学习提供清晰的目标提示。3.3. 填充率引导的自适应损失上述盒子驱动的类掩蔽模型可以指导FCN软学习前景特征，我们进一步分析了该模型的有效性。3140图3.飞机类的三个子类的例子。很明显，中间子类的填充率比右子类和左子类大。各子类的平均填充率能更好地代表同一类中不同类型的样本。努力改进这一小节中的分割学习。请注意，像素级建议的错误标记区域对模型训练有负面影响，消除负面区域将有所帮助。一种可能的解决方案是忽略分数图中具有小置信值的像素，其可能是错误标记的像素。在弱监督模式中，不存在像完全监督模式那样的保证像素级注释，因此难以确定要忽略多少百分比的像素。表1.评估VOC 2012验证集上的SNR和FR损失的有效性。所有型号都基于相同Deeplab VGG 16-LargeFOV主干。根据平均IoU（%）评价性能CM：无框监督的类掩码，BGM：框驱动全局掩蔽，全局丢失：所有包装盒均采用相同的0.6全球灌装率子类。如图3所示，我们展示了飞机的三个聚类子类的示例。视觉上，三个子类是合理的，可以更好地代表三组盒子。因此，我们采用每个子类的平均填充率来细化FR损失。在这种情况下，一个样本的FR损耗可以表示为诺瑞德为了解决这个问题，我们引入了填充率引导的自适应损失（FR损失）。我们直观地发现，边界框内前景像素LfrΣN Σ3=c=1scFRi=1（c，sc）） L（c，sc）（i）（5）对于同一个类应该是相似的而两类图像的像素填充率通常是不同的。因此，我们首先计算每个类的平均像素填充率与像素级建议及其相应的框。对于给定的类c，我们将第i个建议和框中的前景像素的数量分别表示为P建议（i）和P框（i）。则c类的平均填充率可以定义为：ΣN其中L（c，sc）（i）表示类c和子类sc的第i个像素的损失。注意，当该像素不属于该子类时，L（c，sc）（i）回顾过去，上一小节中介绍的类掩蔽模型和FR损失可以一起工作，以“软”方式指导分割学习一个样本的总损失可以表示为ΣN1FRc=CCi=1P提案（一）P箱（i）（三）Lall=Lfr+λ·c=1 Lbcm（c）（6）其中Nc表示类别-c中的边界框的数量。因此，每个类的平均填充率可以用来确定最有信心的像素中有多少百分比可以留给训练或被忽略。通过这种方式，分割损失可以通过每个类的填充率来调整。一个样本的FR损耗可以表示为其中λ是在我们的示例中被设置为0.01的高度实验，N是类的数量我们将在实验中评估所4. 实验在实验中，我们首先评估了LfrΣN=c=1i=1（FRc）立法会（i）（4）我们的方法在Pascal VOC 2012语义分割数据集[12]上，然后在弱监督下将所提出的方法与三种最先进的方法进行比较，其中Lc（i）表示类c的第i个像素的丢失，超参数top由每个类的平均填充率确定这种损失引导得分图自适应地学习最自信的区域。使用子类聚类优化填充率。考虑到来自同一类的两个对象可能由于形状和姿势的变化而具有不同的填充率的情况，我们尝试通过k-meas聚类方法[40]来细化填充率，以将每个类分为几个半监督条件下分别。4.1. 实验装置数据集。我们在广泛使用的Pascal VOC2012分割基准上评估了所提出的框架[12]。它包含21个具有像素级注释的类。训练集中有1，464张图像，验证集和剩余的1，456个图像用于测试。在比较的方法中遵循相同的设置子类1子类2第3方法单位Miou基线[29]-60.6CM63.4BGM64.9BCM65.6我们全球损失64.1FR损耗65.8FR损失（优化）66.3FR + FR-损失（优化）66.8N3141图4.可视化学习的掩蔽映射。它表明大部分背景都被移除了。[9，29，21]，我们用SBD [16]的数据来增加训练集。因此，训练集中有10，582张图像，验证集中有1，449张图像我们用增强的训练集训练我们的模型，并在验证集上测试它，以与其他方法进行比较。实施详情。我们采用公开发布并广泛使用的DeepLab-LargeFOV [5]模型作为骨干网络。它基于VGG-16 [36]网络，该网络已在ImageNet [35]上进行了预训练。我们在几种不同的监督设置下训练所提出的模型我们首先使用矩形框监督来训练 Deeplab-largeFOV模型。此外，我们将分段监督改为CRF-Box分段进行微调，并将其视为基线模型。基于上述模型，我们用提出的 Box-driven Class-wise Masking（Box-driven Class-wise Masking，简称BLS）模型和填充率引导损失（Filling Rate guided Loss，简称FR-loss）来训练模型。我们用大约20 k次迭代来训练基线模型，并在有/没有SNR和FR损失的情况下进一步微调它们，再进行5 k次迭代。此外，我们还通过添加1，449个具有地面真实标签的样本来评估半监督条件下的性能。上述模型的初始学习率为0.001，每3 k次迭代后下降10倍，对于有/无迭代的模型，最小批量大小为16/20。我们将SGD作为默认优化器。对于所有的训练阶段，只有翻转和裁剪采用的数据增强。使用经过良好训练的FCN模型，我们可以预测给定图像的语义掩码。注意，图中的掩蔽层的前向通过是平行的，前向通过时间非常接近基线模型，即，42.7 ms vs. 39.3 ms/图像。我们还实现了dense-CRF [22]用于掩模的后处理。我们采用了相同的参数与密集 CRF 的 com-campaign工作[29]。所有实验都在具有Caffe [20]框架的N-vidiaTitanX GPU平台评估和比较方法. 我们采用“comp6”协议来评估性能。准确度以平均pix表示-el Intersection-over-Union（平均IoU）。我们比较了三种最先进的方法（即，[29]第二十九话表2.VOC 2012验证集的弱监督和半监督结果只有1/10的标记片段，我们的方法可以实现与完全监督模型相当的性能。方框：直接使用矩形方案，M+G：使用MCG和GrabCut的组合标记。模式#GT包装盒数量方法Miou弱-10,582SDI [21]69.4我们70.2半1,4649,118我们71.6充分10,582-DeepLab-ResNet-101 [5]74.5表3. VOC 2012验证集上ResNet-101主干的结果。我们的方法优于比较的SDI [21]方法，实现了与完全监督方法相当的性能。和SDI [21]）在具有边界框注释的弱监督和半监督条件4.2. 有效性和FR损失我们首先评估了所提出的框架的SNR和FR损失，结果如表1所示。基于Deeplab-LargeFOV模型和CRF盒提议，使用SNR模型或FR损耗进行微调可以分别实现65.6%或65.8%的平均IoU准确度。两者均优于基准模型，且有明显的差距-S.当SNR和FR损耗一起工作时，我们实现了66.8%的准确度。结果表明，所提出的滤波器和FR损耗是有效的，联合使用这两个模块可以进一步提高性能。我们还评估了几个变种的建议的频率和FR损失。实验结果表明，盒驱动的类掩蔽模型的性能优于全局掩蔽模型（BGM）。我们在图4中显示了学习后的掩码。由于不受杂乱背景的影响，分割学习可以更加稳定。结果表明，类间注意模型可以引导FCN模型学习更多有效特征，填充率引导的自适应丢失可以减少错误标记建议带来的负面影响.猫的人飞机模式#GT包装盒数量方法Miou弱-10,582[9]第九话52.3[29]第二十九话52.5[21]第二十一话61.2我们的盒子54.9[9]第九届全国人大代表62.0[29]第二十九话60.6[21]第二十一话65.7我们的CRF66.8半1,4649,118[29]第二十九话62.1[9]第九届全国人大代表63.5WSSLCRF65.1[21]第二十一话65.8我们的CRF67.5充分10,582-DeepLab-LargeFOV [5]69.83142航空自行车鸟船瓶子公共汽车猫椅子牛桌子狗马摩托车人植物羊火车电视图像地面实况矩形框CRF提案我们的（框）我们的（CRF）我们的（半）图5.最后给出了分割结果的实例。原始图像在第一列。第二列是地面实况分割。第3栏和第4栏是矩形框和通用报告格式提案。下面两列分别显示了使用矩形框和CRF建议训练的最后一列显示了半监督模型的结果。表4.我们的方法在VOC 2012验证集上的每类结果性能以平均IoU（%）进行评估807060504030VOC2012 COCO图6.VOC2012和COCO上各课程的填写率填充率与生成的像素级建议一起计算很明显，填充率可以作为调整伪标签的重要线索。4.3. 与现有技术方法的我们比较了三种最先进的方法，即，[29]第21话：“我的天！”弱监督条件下的结果。我们首先比较弱监督条件下的结果，如表2所示。在这种情况下，唯一的监督标签是边界框。我们从两个方面对BoxSup [9]、WSSL [29]和SDI [21]进行了比较。首先，我们比较了用原始矩形框段训练的模型。所提出的方法优于 Box-Sup 和WSSL，而SDI采用迭代训练以不时地更新片段。其次，我们将训练的模型与预处理的片段进行比较。我们的方法优于所有的com-encoding结果，并实现了惊人的性能，平均IoU准确率为66.8%，非常接近全监督模型。请注意，我们的方法采用相同的CRF-Box段和与WSS-L相同的基础模型[29]，而我们的方法的性能超过WSSL大约6%。此外，我们比较了使用ResNet-101主干训练的模型，如表3所示。我们实现了70.2%的平均IoU准确率。实验结果表明，该方法能够有效地从包围盒标注中学习鲁棒半监督条件的结果。在半监督任务中，我们进一步与其他方法进行了比较。在这个任务中，添加了1，464个地面实况标签用于训练。虽然标记样本的数量很少，只有训练集的1/10，但它们有助于大大提高性能。如表2所示，所提出的方法实现了67.5%的平均IoU准确度，优于所有比较方法。有了额外的1/10标记的分段，我们的模型比其弱模型提高了0.7%，方法BKGAero 自行车鸟船瓶总线车猫椅子牛表狗马Moto人植物羊沙发火车电视是说弱（框）78.3 37.4 20.6 46.6 44.964.580.7 68.1 59.8 32.5 65.7 58.4 61.6 51.253.260.547.560.049.3 64.2 49.454.9弱（CRF） 89.8 68.3 27.1 73.7 56.472.684.2 75.6 79.9 35.2 78.3 53.2 77.6 66.468.173.156.880.145.1 74.7 54.666.8半90.4 72.3 27.5 76.1 57.872.485.6 76.6 81.3 35.9 80.2 53.0 78.4 68.269.773.958.182.145.3 76.5 57.067.53143图像我们的（方框）我们的（通用报告格式）我们的（半）地面实况杂乱的背景以有效地有助于分割学习。简而言之，通过有效的掩蔽，该算法有助于框驱动的弱监督分割填充率引导自适应损失。FR损失可以引导分割模型以软的方式学习对象掩模，从而减少来自错误标记的建议的负面影响在本文中，我们首先直接将每个类的平均填充率设置为用于确定最置信位置的默认值。FR可以看作是一种先验知识，它可以对弱图7.建议方法的失败示例虽然我们的模型在弱监督和半监督条件下都取得了令人满意的性能，但也有一些令人沮丧的结果.例如，在第一个图像中，一只穿着衣服的狗使模型感到困惑。版本.实验结果表明，我们的半监督模型可以达到与完全监督模型相当的性能，表明所提出的滤波器和FR损失在半监督模式下仍然有效。4.4. 讨论上述结果表明，该方法可以学习更好的分割比比较的方法。为了提供全面的分析，我们报告了所提出的模型的每类结果，如表4所示。我们还计算了VOC2012和COCO的每类FR [26]，如图6所示。结果表明，VOC2012和COCO的填充率基本一致，火车和电视可见，在21个类中，飞机和羊是容易分割的，而人和椅子是困难的。该结果与图5和图7所示的定性结果一致。生成的CRF建议可以帮助模型学习像素级表示，获得满意的结果。此外，在提出的模糊控制器和FR-损失的帮助下，该模型可以达到与完全监督模型相当的性能。也有一些困难的例子，带来了很大的挑战，弱监督的方法。如图7所示，使用有限和弱标记数据训练的模型很难在混乱和复杂的场景中区分类别这一问题值得在今后的工作中深入研究在这里，我们将分别讨论所提出的方法盒驱动类掩码。在类级监督下，广泛采用基于软注意力模型的方法来指导CNN模型学习更好的表示。通常，学习的注意力图通常包含对象形状信息。然而，全局注意力图不能同时为每个类学习多个准确的形状模板在我们的方法中，类掩码模型可以解决这个问题。如图4所示，学习的掩模可以去除不相关的区域，学习过程注意，一个类的填充率是独立于其他类的.当几个类具有相似的FR值时，FR损失仍然有效，并且不会影响性能。考虑到同一类中的某些样本可能与其他样本有很大的不同，可以进一步改进选择最高得分的策略。因此，我们通过将每个类聚类为几个子类来改进填充率探索一种更好的方法来分类子类将是有趣的。我们把这个问题作为我们未来的工作。5. 结论在本文中，我们引入了一个Box-driven Class-wiseMasking（类掩码）模型来学习每个类的注意力地图。它可以为分割任务学习生成类感知的注意地图，并提供一个明显的提示，这个盒子或区域是否包含特定的类。此外，基于从边界框生成的区域级分割建议，我们提出了填充率引导的自适应损失（FR-损失），以帮助模型忽略建议中错误标记的像素。FR-损失可以通过全局统计信息调整模型学习。建议的建议和FR损失可以一起工作，以帮助减少错误标记的建议的负面影响。我们评估了所提出的方法在挑战PASCAL VOC2012基准，并与其他方法进行比较大量的实验结果表明，该方法是有效的，达到了最先进的结果。在未来，我们将探索对象检测和分割任务的联合学习，以找到它们之间更积极的相互作用确认本工作得到国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306，61633021 ，61721004，61420106015，61806194 ）、首都科技大学（ 2016 ）、北京大学（2016）、北京大学（2017）联合资助科技领军人才培养项目（Z181100006318030）、北京市科技攻关项目（Z181100008918010）。这项工作也得到了NVIDIA和NVIDIA DGX-1 AI超级计算机的资助。3144引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR，2018年。3[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，2016年。二、三[3] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxi-ao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。arXiv预印本arX- iv：1901.07518，2019。3[4] 陈龙，张汉旺，肖军，聂立强，邵健，蔡达生。Sca-cnn：图像标题卷积网络中的空间和通道注意力。arXiv预印本arXiv：1611.05594，2016年。三、四[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议。一二三四六[6] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在CVPR，2016年。三、四[7] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flori-an Schroff，and Hartwig Adam.用于语义图像分割的具有多孔可分离卷积的编码器-解码器。arXiv预印本arXiv：1802.02611，2018。第1、3条[8] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。在ECCV，2016年。第1、3条[9] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。二三四六七[10] 徐丹，欧阳万里，王晓刚，Nicu Sebe。Pad-net：多任务引导的预测和提取网络，用于同时进行深度估计和场景解析。在CVPR，2018年。3[11] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR，2018年。 3[12] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.IJCV，2015年。二、五[13] 范俊松，张兆祥，谭铁牛。Cian：用于弱监督语义分割的跨图像亲和网络arXiv预印本arXiv：1811.10842，2018。3[14] Zhang Hang ， Kristin Dana ， Jianping Shi ， ZhongyueZhang ， Xiaogang Wang ， Ambrish Tyagi ， and AmitAgrawal.用于语义分割的上下文编码。在CVPR，2018年。 3[15] Kota Hara ， Ming-Yu Liu ， Oncel Tuzel ， and Amir-massoud Farahmand.视觉目标检测的注意网络。arXiv预印本arXiv：1702.01478，2017。3[16] Bhara thHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓见ICCV，2011年。6[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 第1、3条[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。第1、3条[19] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在CVPR，2018年。3[20] 杨青贾，埃文谢尔哈默，杰夫多纳休，谢尔盖卡拉耶夫，乔纳森龙，罗斯Girshick，塞尔吉奥瓜达拉马，和特雷弗达雷尔。Caffe：用于快速特征嵌入的卷积架构。InACM ICM，2014. 6[21] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在CVPR，2017年。二三四六七[22] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理NeurIPS，2011。二、三、六[23] Qizhu Li，Anurag Arnab，and Philip HS Torr.弱监督和半监督全景分割。在ECCV，2018。3[24] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络在CVPR，2016年。3[25] Guosheng Lin，Chunhua Shen，Anton van den Hengel，and Ian Reid.用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。第1、3条[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。二、八[27] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。CVPR，2015。一、三、四[28] 唐猛，费德里科·佩拉兹，阿卜杜拉齐兹·杰卢阿，伊斯梅尔·本·艾耶德，克里斯托弗·施罗德，尤里·博伊科夫.弱监督cnn分割的正则化损失。在ECCV，2018。3[29] George Papandreou，Liang-Chieh Chen，Kevin Murphy和Alan L Yuille。基于弱监督和半监督学习的dcnn语义图像分割。在ICCV，2015年。二三四五六七[30] 佩德罗·皮涅罗和罗南·科洛伯特。用于场景标记的递归InICML，2014. 第1、3条[31] Pedro O Pinheiro，Ronan Collobert，and Piotr Dollar.学习

下载后可阅读完整内容，剩余1页未读，立即下载