没有合适的资源?快使用搜索试试~ 我知道了~
1利用显著性从图像级标签进行对象分割吴成俊罗德里戈·贝嫩森安娜·霍雷娃joon@mpi-inf.mpg.debenenson@mpi-inf.mpg.dekhoreva@mpi-inf.mpg.deZeynep Akata†,马里奥·弗里茨伯恩特·席勒Z. uva.nlmfritz@mpi-inf.mpg.deschiele@mpi-inf.mpg.de†马克斯·普朗克信息学研究所阿姆斯特丹机器学习实验室萨尔信息学校区阿姆斯特丹大学德国萨尔布吕肯荷兰阿姆斯特丹摘要近年来,在语义标记任务方面有了显著的改进。然而,现有技术的方法依赖于大规模像素级注释。本文研究了从图像层次和语义层次训练逐像素语义标注网络的问题,(a)图像标签(b)显著性(三)我们的成果当前对象类的符号。最近,已经表明可以从图像级标签获得指示区分对象区域的高质量种子。在没有附加信息的情况下,由于同现,获得对象的全部范围是固有的不适定问题。我们建议使用显着性模型作为广告信息,从而利用先验知识的对象范围和图像统计。我们将展示如何结合这两个信息源,以恢复80%的完全监督的表演在用于逐像素语义标记的弱监督训练中的现有技术。1. 介绍语义图像标记提供了关于场景的丰富信息,但以需要逐像素标记的训练数据为代价。基于convnet的模型的准确性与可用训练数据的数量密切相关。 数据的收集和注释已成为进展的瓶颈。这个问题引起了人们对探索部分监督数据或不同监督手段的兴趣,这代表了在学习任务的监督信号方面注释工作和产量之间的不同权衡。对于像语义分割这样的任务,需要研究最小监督以达到与完全监督情况相当的质量训练图像测试图像图1:我们用(a)图像级标签和(b)显著性掩码训练语义标签网络,以在测试时生成(c)对象类的像素级标签。一个合理的起点认为,所有的训练图像具有图像级标签,以指示感兴趣的类的存在或不存在。弱监督学习问题可以被看作是从约束中学习的一个具体例子[38,47]。可用的标签提供了对所需输出的约束,而不是显式地监督输出。如果图像标签不存在,则图像中的任何像素都不应采用该标签;如果图像标签至少存在于一个像素中,则图像必须采用该标签。然而,感兴趣的对象很少是单个像素.因此,为了实施更大的输出区域,通常采用(显式或隐式)尺寸、形状或外观优先级利用先验知识的另一个原因是,任务从根本上是模糊的。如果没有额外的信息,强烈共现的类别(如火车和铁轨,双桨和船桨,雪地自行车和雪)不能分开。由于需要额外的信息来解决任务,以前的工作已经探索了不同的途径,包括类特定的大小先验[31],抓取广告图像[33,46],或请求人类法官的纠正[17,37]。4410单人自行车4411尽管做出了这些努力,但当前任务的最佳结果的质量似乎在完全监督情况下的75%左右。因此,我们认为,必须探索其他信息来源,以补充图像级标签监督任务的内在模糊性 在这项工作中,我们提出利用类不可知的显着性作为一个新的成分来训练类特定的像素标签;并展示了Pascal VOC 2012语义标签与图像标签监督的最新成果。我们将图像标签的对象分割问题分解为两个独立的问题:找到对象位置(对象上的任何点),以及找到对象的范围。找到对象范围可以等同于找到图像中的背景区域。对于对象定位,我们利用图像分类器对图像的区分区域敏感的事实。因此,使用图像标签的训练使得能够找到感兴趣的对象类上的高置信度点(我们称这些为“对象种子”),以及背景的高置信度区域。然而,分类器将努力描绘对象实例的细节,因为这些细节可能不是特别有区别的。为了找到对象的范围,我们利用了这样一个事实,即大部分的照片旨在捕捉一个主题。使用类不可知的对象显著性,我们可以找到对应于一些检测到的对象种子的段。尽管盐度是有噪声的,但它提供了描绘超出种子可以指示的对象范围的信息我们的实验表明,这是一个有效的来源,额外的信息。我们的显着性模型本身仅从边界框注释进行训练。在我们的流水线中没有使用精确的像素级注释。在本文中,我们提供了影响种子生成的因素的分析,探索显着性的任务的效用,并报告最知名的结果时,仅使用图像标签和图像标签与额外的数据。总的来说,我们的贡献是:• 提出了一种有效的结合种子和显著性的方法,用于弱监督语义的任务细分我们的方法实现了最好的性能,在已知的作品,利用图像级监督或没有额外的外部数据。• 并排比较最近的种子方法,并分析显着性对最终质量的重要性§3介绍了我们的整体架构,§4研究了合适的对象种子,§5描述了我们如何使用显着性来指导convnet训练。最后§6讨论了实验装置,并给出了我们的关键结果。2. 相关工作近几年来,人们对弱监督训练重新产生了兴趣。对于语义标签,探索了不同形式的监督:图像标签[32,31,30,33,46,18]、点[3]、涂鸦[47,24]和边界框[9,30,16]。在这项工作中,我们专注于图像标签作为监督的主要形式。对象种子。多个工作已经考虑使用训练的分类器(来自图像级标签)来找到属于给定类别的图像的区域,而不必强制覆盖整个对象范围(高精度,低召回)。从简单的策略开始,例如所有这些策略都提供了一定程度的实证成功,但缺乏明确的理论依据,往往有相当嘈杂的输出。另一种方法考虑修改分类器训练过程,以便使其生成对象掩码作为前向传递的副产品。这可以通过在分类器的最后阶段添加全局最大池[33]或均值池层[54]来实现。在这项工作中,我们提供了现有种子的经验比较,并探索均值池方法的变体[54](§4)。来自图像级监督的像素标记。最初的工作通过将多实例学习[32]和期望最大化技术[30]适应语义标签的情况来解决这个问题。如果没有额外的pri- ors只有穷人的结果。使用超像素来信息化对象形状有助于[33,47],并且使用对象大小的先验也是如此[31]。[18]在训练过程中仔细使用CRF在图像上传播种子,[36] 为此开发了细分提案大多数方法比较提出了一个新的过程来训练语义标记convnet。一个例外是[40],它在多个convnet层的测试时间引导反向传播[43]进行融合,以生成类式热图。他们通过一个经过分类训练的convnet来完成这一任务基于分类器,它们的输出掩码仅部分捕获对象范围,如相对较低的性能所反映的(表3)。认识到该问题的不适定性,[17]和[37] 建议收集用户反馈作为附加信息以指导分割卷积网络的训练。与我们的方法最接近的工作是[46],它也使用显着性作为线索来改进弱监督语义分割。然而,两者之间存在一些差异。首先,他们用课程学习来揭示细分市场-4412首先用简单的图像进行转换,然后用更复杂的图像进行转换。我们不需要这样的课程,但达到更好的效果。其次,他们使用手动制作的类不可知显着性方法,而我们使用基于深度学习的方法(提供更好的线索)。 第三,火车--ing过程使用从网络上抓取的感兴趣的类的40000个附加图像;我们不使用这样的类-具体的外部数据。第四,我们报告了更好的结果,更好地显示了显着性作为额外信息的潜力,以指导弱监督语义对象标记。开创性的工作[45]提出使用来自边界框的“对象”映射来指导语义分割。通过使用边界框,这些地图最终是漫反射的;相比之下,我们的显着性地图具有清晰的对象边界,为语义标签提供更精确的指导。图像级监控的检测框。从图像标签中检测对象框具有与像素标记类似的挑战。需要找到对象的位置和范围。这项任务的最先进技术[4,44,15]学习使用两个流架构重新评分检测建议,这两个流架构曾经训练过将“对象性”分数与类分数分开。这些架构与我们的方法相呼应,其中种子提供有关每个像素的类得分的信息(尽管前景类的召回率较低),显着性输出提供每个像素(类不可知)的显著性。图像显着性有多种含义,它可以指一个人可能首先看的地方的空间概率图[48],一个人可能首先看的对象的概率图[23],或者分割一个人最有可能首先看的对象的二进制掩码[5,39]。本文采用最后一个定义。请注意,这个概念是类不可知的,并且更多地涉及图像的组成,而不是特定的对象类别。像大多数计算机视觉领域一样,手工制作的方法[14,28,8]现在已经被基于convnet的方法[53,22,21]所超越,用于对象显着性。在本文中,我们使用显着性作为成分:改进的显著性模型将导致我们的方法的改进的结果。我们在第6.1节中描述了我们的显着性模型设计,它以弱监督的方式从边界框中训练自己语义标签。即使提供像素级注释(完全监督的情况),语义标记的任务也远未解决。已经提出了多种convnet架构,包括递归网络[34],编码器-解码器[29,1],上采样层[27],使用跳过层[2]或扩张卷积[7,49],仅举几例。它们中的大多数建立在分类架构上,如VGG [42]或ResNet [13]。为了与以前的工作进行比较,我们的实验基于流行的DeepLab [7]架构。导向贴标机显著性播种机个人桌椅密集分类器损失图像n.Convnet分段器图2:高级引导分割架构。3. 引导式细分架构虽然以前的工作已经探索了复杂的训练损失或涉及的管道,但我们专注于显着性作为有效的先验知识,并保持我们的架构简单。我们通过具有两个模块的系统来处理图像级监督语义分割问题(见图2),我们将此架构命名为给定一个图像和图像级标签,“引导标签”模块结合来自种子(§4)和显著性(§ 5)子模块的提示,产生一个粗略的然后使用产生的引导掩码作为监督来训练分割器convnet。在这种架构中,分割convnet在完全监督的过程中进行训练,使用每像素softmax交叉熵损失。在第4和第5节中,我们解释了如何构建引导标签,首先生成种子(感兴趣对象的区分区域),然后扩展它们以更好地覆盖整个对象范围。4. 寻找商品种子最近出现了一系列用于从分类器中定位对象的技术。一些方法依赖于来自训练分类器的图像梯度[41,43,51] , 而 其 他 方 法 则 提 出 训 练 基 于 全 局 平 均 池 化(GAP)的分类器[54]。虽然基于分类器的定位方法具有训练对象(图像分类)与最终目标(对象位置)不匹配的理论限制,但是它们在实践中被证明是有效的。在本节中,我们将逐一回顾播种机技术,并比较它们的经验表现。我们报告了不同GAP架构的实证结果[54,18,7]。4.1. 间隙GAP或全局平均池化层可以插入到全卷积架构的最后一层或倒数第二层中,从而产生密集预测,将其转换为分类器。然后,使用分类损失来训练所得到的架构,并且在测试时,全局平均池化层之前的激活图已被证明包含定位信息[54]。在我们的分析中,我们考虑了四种不同的具有GAP层的全卷积架构:GAP-LowRes,441321 .一、00的情况。80的情况。60的情况。40的情况。20的情况。01 .一、00的情况。80的情况。60的情况。40的情况。20的情况。00的情况。2040608个1. 0召回(a) 前景类别0的情况。2040608个1. 0召回(b) 背景类别始终输出平均掩模形状;它作为定位性能的下限。评价我们在Pascal VOC 2012 [11]分割基准的val集上评估每种方法。我们在图3中绘制了前景和背景的精确度-召回率曲线。在前景的情况下,我们计算的平均精度和召回率超过20帕斯卡类别。我们将平均精度(mP)定义为以下指标的汇总指标:本地化绩效。 它在20%的召回率下对前景精度进行平均,在80% 的召回率下对背景精度进行平均;mP=PrecFg@20%+PrecBg@80%。直观地说,对于前景区域,我们只需要一个小的区别性重新,gion,因为显著性将填充程度;因此,我们关心的是在20%的召回率下的精确度。另一方面,背景具有更多样的外观,通常占据更大的区域;因此,我们关心的是在80%的召回率下的精确度。由于我们关心两者,因此我们取平均值(对于mAP公制)。在我们的初步实验中,该度量与最终性能具有良好的相关性。我们用标准的平均精度(mAP)度量来衡量分类性能.实作详细数据。我们在Pascal VOC 2012的train-aug集上训练所有四个GAP网络变体用于多标签图像分类。完整的convnet培训细节在补充材料中。在测试时,我们在GAP层之前获取每个类的输出热图,并对其进行规范-图3:不同种子的查准率-查全率曲线前-地面曲线示出了20个前景类中的平均精确度和召回率GAP-HighRes 、GAP-DeepLab和GAP-ROI。结构差异总结见表1,完整详情见补充材料。GAP-LowRes [54]本质上是VGG-16 [42]的完全卷积版本。GAP-HighRes 受[18]的启发,具有比GAP-LowRes高2倍的输出分辨率。GAP-DeepLab 是最先进的语义分割器Dee- pLab,在密集分数输出上具有GAP层。GAP-HighRes和GAP-DeepLab之间的主要区别是存在扩张卷积。GAP-ROI是GAP-HighRes的变体,我们使用感兴趣区域池来取代VGG-16最后几层的滑动窗口卷积。GAP-ROI 与GAP-HighRes相同,除了轻微的结构变化。4.2. 实证研究在本节中,我们将根据经验对种子方法进行并排比较,重点关注它们在最终语义分割任务中的实用性。结合上一节中讨论的GAP方法,我们考虑反向传播家族:[ 41]《礼记·礼记》我们包括中心平均形状基线,以最高的班级分数来衡量。对于基于反向传播的方法,我们从在Pascal VOC2012的trainaug集上训练的VGG-16 [42]分类器获得图像(伪)梯度(总共10 582张图像)。我们在RGB通道上取最大绝对梯度值以生成粗糙的对象掩模(遵循[41]);首先使用香草高斯内核,然后使用密集CRF [19]对其进行连续平滑在GAP和backprop变体中,我们将所有前景类得分低于τ的像素标记为背景;根据Argmax前景类标记其它像素。结果精确度-召回率曲线见图3。在相同的召回率下,GAP变体的总体精确度高于backprop变体。我们注意到,Guided back-prop在非常低的召回率(105%)下提供了最高的精确度,但召回率太低而无法使用。在GAP方法中,GAP-HighRes和GAP-ROI给出了更高的预测精度。大范围的回忆。GAP-DeepLab 的质量明显低于任何其他GAP变体。网络对于GAP来说很重要。表1显示了GAP变体的详细结构比较和分类/定位性能。我们观察到,具有较高分辨率输出的网络具有更好的定位性能(对于GAP-HighRes为80.7mP,对于GAP-LowRes为76.5mP)。扩张卷积显著损害GAP性能(GAP-HighRes为87.0精度GAP-HighResGAP-LowResGAP-ROIGAP-DeepLab激励反向传播梯度反向传播引导反向传播中心平均形状基线精度4414间隙-LowRes[五十四]-HighRes[18个国家]-ROI-DeepLab[七]《中国日报》高分辨率✪CCCDil.conv.✪✪✪CROI池✪✪C✪地图88.087.087.292.7MP76.580.780.857.7表1:GAP变体与分类(mAP)和定位(mP;详情见正文)表演。我们比较输出分辨率(高分辨率),使用扩张的回旋(dil.Conv.),以及感兴趣区域池(ROI池)。mP用于GAP-DeepLab)。架构选择对本地化性能有很大影响。这与分类性能(mAP)形成对比,其在设计选择中是稳定的。有趣的是,GAP-DeepLab实际上同时是最好的分类器和最差的播种器;分类器的更好的设计选择不会导致更好的播种器。在下一节中,我们使用GAP-HighRes作为种子模块。在[18]中,前景和背景种子通过不同的机制处理;在我们的实验中,我们将所有的非前景区域作为背景。5. 查找对象范围在生成了一组指示可区分对象区域的种子之后,引导标注器需要找到对象实例的范围(§3)。在没有任何先验知识的情况下,仅从图像和图像级标签学习对象的范围图像级标签仅传达关于存在于具有正标签的图像中并且不存在于具有负标签的图像中的常见模式的因此,系统容易受到强类间同现(例如,列车与轨道),以及系统性的部分闭塞(例如,英尺)。CRF和CRF丢失。使标签匹配对象边界的传统方法是在图像网格上解决CRF推理问题[20,19];其中成对项与对象边界相关。CRF可以在三个阶段应用:(1)在种子上(crf-seed),(2)在分段器convnet训练期间作为损失函数(crf-loss)[18],以及(3)作为测试时的后处理(crf-postproc)。我们已经试验了这些的多种组合(见补充材料)。尽管观察到一些收益,但这些收益是不一致的。例如,GAP-HighRes和GAP-ROI提供了几乎相同的分类和播种性能(见表1),但使用相同的CRF设置,一个提供了+13 mIoU %的点,而另一个仅提供了+7 pp。在COM中,我们的显着性方法将提供+17mIoU,这两个网络分别为+18mIoU(见下文)。5.1. 显著性我们建议使用对象显著性来提取关于对象范围的信息。我们假设大部分数据集都是有意的照片,这是从网络上抓取的大多数数据集的情况,例如Pascal [11]和Coco [25]。 如果图像包含单个标签“狗”,则图像很可能是关于狗的,并且图像的显著对象是狗。我们使用了一个基于convnet的显着性估计器(详见第6.1节),它增加了平移不变性的好处。如果两个局部突出的狗出现在图像中,两者都将被标记为前景。当使用显着性来指导语义标记时,至少需要处理两个困难首先,显着性本身并不分割对象实例。在图4a的示例中,人-自行车被很好地分割,但是人和自行车没有分开。然而,理想的指南贴标机(图2)应该为这两个对象提供不同的标签在图4的示例中清楚可见的第二个困难是,显著对象可能不属于感兴趣的类别(图4b中的衬衫而不是人),或者该方法根本无法识别任何显著区域(图4c)。我们在Pascal VOC 2012验证集上与地面真实前景相比时测量显着性质量。虽然我们的convnet显着性模型优于手工制作的方法[14,52],但最终只有约20%的im-年龄有合理的好(IoU>0。6)前景显著性质量. 然而,正如我们将在第6节中看到的,这一点信息是这对于弱监督学习任务已经很有帮助了。至关重要的是,我们的显着性系统是在包含不同对象(数百个类别)的图像上训练的,对象类别被视为“未知”。为了确保干净的实验,我们通过删除对象显着性训练集中的Pascal类别的任何实例来阻碍系统(图5)。我们的显着性模型捕捉了一个关于前景物体和背景区域的一般概念(详见第6.1节)。在每个Pascal训练图像上,我们从我们的sali- ency模型中获得类别不可知的前景/背景二进制掩码,并从种子模型中获得高精度/低召回率的类别特定图像标签(§4)。我们希望以这样一种方式将它们组合在一起,即种子信号在整个前景显著性掩模中得到良好的传播。我们考虑两个基线策略,以产生指南标签使用显着性但是没有种子(G0和G1),然后讨论我们如何将显著性与种子(G2)相结合。G0随机分配班级. 给定一个显著性掩码,我们将所有前景像素分配给从地面真实图像标签中随机选取的一个类如果一个单一的当前,则所有前景像素都是“狗”。如果存在两个标签(4415我我J我(a)高质量(b)中等质量(c)低质量图4:Pascal VOC 2012数据的显着性图结果示例。战略布局关于种子、清晰度前景和生成的标签的其他定性示例,请参见图7。有了我们的指导策略G0、G1和G2,我们将在第6节中对它们进行实证评估。图5:其训练数据的显着性结果示例。我们使用MSRA框注释来训练弱监督显着性模型。注意,所采用的MSRA子集不包含Pascal类别。G1每连通分量分类。给定一个安全掩码,我们将其拆分为组件,并为每个组件分配一个单独的标签。 每个组件的标签使用使用图像标签训练的全图像分类器给出(分类器细节见§6.1)。给定一个连通分量掩模Rfg(像素值为1:前景,0:背景),我们在馈送原始图像(I)时计算分类器得分,在馈送具有背景归零(IRfg)。将标记区域Rfg6. 实验§6和6.1提供了评估和我们实施的细节。第6.2节比较了我们不同的指导策略,第6.3节比较了以前关于图像级标签的弱监督语义标签的工作。评价我们在Pascal VOC 2012分割基准[11]上评估了我们的图像级监督语义分割系统。我们报告所有的中间结果的valset(1449图像),并只报告最终的系统结果的测试集(1456图像)。评价指标为标准平均交-交-交(mIoU)。6.1. 实现细节为了训练种子和分割器网络,我们使用ImageNet [10]预训练模型对Pascal VOC 2012trainaug集(10 582张图像)进行初始化和微调,这是原始训练集(1 464张图像)的扩展[11,12]。这与以前的完全[7]和弱监督学习[18]。我我与地面实况类最大的积极得分调零前后的差异G2种子发芽。这里,我们不是使用分类器为每个连通分量Rfg分配标签,而是使用种子标签。我们也把种子作为一组连接的组件(种子R)。根据种子和前景区域的相交方式,我们决定引导标签输出中每个像素的标签我们的融合策略使用五个简单的想法。1)我们将种子视为每个对象实例的可靠的小尺寸点预测器,但这可能会泄漏到对象外部2)我们认为显着性可能会在不属于感兴趣类别的对象上触发3)前景连接的组件Rfg应该采用与其接触的种子的标签。4)如果两个(或更多个)种子接触相同的前景组件,则我们想要在其内部传播所有种子标签5) 如果有疑问,请标记为忽略。角箱的详细信息见补充材料。图6提供了不同指南播种机表2和表3中的结果是使用GAP-HighRes(参见§4)获得的,在Pascal trainaug集上训练用于图像分类。测试时间前景阈值τ被设置为0。2,根据以前的文献[54,18]。G1分类器。引导标记器策略G1使用在Pascaltrainaug集上训练的图像分类器。我们使用VGG- 16架构[42]和softmax交叉熵多标签丢失。显著性。在[53,22,21]之后,我们重新设计了一个语义标签网络,用于类别不可知显着性的任务我们在MSRA [26]的一个子集上训练DeepLab-v2 ResNet [7],这是一个具有类不可知边界框注释的显着数据集。我们只将训练限制在非Pascal类别的样本上。因此,当输入Pascal图像时,显着性模型不利用类特定的特征在25kMSRA图像中,滤波后剩余11041MRSA提供每个图像的主要显著元素的边界框(来自多个为了训练显着性模型以输出逐像素掩码,我们遵循[16]。显着物体模型结果和盒子4416(a) 图像(b)地面真实(c)种子(d)显著性(e)G0(f)G1(g)G2图6:指南标签策略示例结果。图像、其标签(“自行车、椅子”)、种子和显着图是它们的输入。白色覆盖表示我们通过在平均框注释上应用grabcut从MSRA框生成片段,并将其用作DeepLab模型的监督。该模型被训练为前景和背景区域的二进制语义标签经过训练的模型会生成如图5所示的掩码。虽然已经用具有单个显著对象的图像进行了训练,但由于其卷积性质,网络可以预测Pascal图像中的多个显著区域(如图7所示)。在测试时,显着性模型生成前景概率的热图。我们以最大前景概率的50%为阈值来生成掩模。分 割 器 为 了 与 以 前 的 工 作 进 行 比 较 , 我 们 使 用DeepLabv 1-LargeFOV [7] 架 构 作 为 我 们 的 分 段 器convnet。该网络在Pascaltrainaug集上训练,其中包含10 582个图像,使用guide labeller的输出(§2),该输出仅使用图像本身和20个Pascal类别的存在-不存在标签作为监督。该网络被训练了8k次迭代。按照标准的DeepLab程序,在测试时,我们将输出上采样到原始图像分辨率,并应用密集CRF推断[19]。除非另有说明,否则我们使用用于DeepLabv1- LargeFOV的CRF参数[7]。补充资料中提供了其他培训细节和超参数。6.2. 成分研究表2比较了不同的指导策略G0、G1、G2和G2的oracle版本。第一行显示了直接使用种子作为指导标签训练我们的分割器的结果这导致质量差(38. 7mIoU)。 The列显示前景和背景的查全率和查准率引导标签本身的基础(用于分割器的训练数据)。我们可以看到,种子本身具有较低的还原性-前景(37%)。相比之下,仅使用sali- ency,由于更高的前景召回率(52%),G0达到了更好的结果在显著性(G0→ G1)之上添加分类器仅提供了可忽略的改进(45. 8→46。2)的情况。这可以归因于这样一个事实,即许多Pascal图像包含-仅保留单个前景类,并且分类器可能难以识别被掩蔽的对象。在-方法种子萨利-encyFG监督P/RBg P/RVal. 设置Miou仅种子C✪6937819538.7的g0✪C6552655245.8G1✪C7551755146.2G2CC7359879551.2显着预言CC89911009956.9表2:不同导向贴标机变体的比较。Pascal VOC 2012验证集结果,无CRF后处理。Fg/Bg P/R:是指南标签的前景/背景精确度和召回率。第6.2节中的讨论。有趣的是,当使用类似的分类器来生成种子而不是对图像进行评分(G1→ G2)时,我们获得了5个pp(百分之46。2→51。2)的情况。这表明如何使用分类器的细节可以产生很大的差异。表2还报告了G2之上的显着性预言案例。如果我们使用地面实况注释来生成理想的显着性掩模,我们会看到比G2(51. 2→56。第9段)。因此,显著性的质量是一个重要因素,还有进一步提高的空间。6.3. 结果表3将我们的结果与以前的相关工作进行了比较。我们通过仅使用ImageNet预训练和图像级标签(I,P,E;参见图例表3),以及使用附加数据或用户-输入。这里我们的G0和G2结果包括CRF后处理(crf-postproc)。我们还试验了CRF-损失,但没有找到提供改进结果的参数集。我们看到,使用显着性和随机地面真实标签的指导策略G0达到了竞争性,与仅使用I+P的方法相比这表明,显著性本身已经是一个强有力的线索。我们的指导策略G2(使用种子和显着性)在此任务1上获得了最佳报告结果。 我们甚至比其他1 [36]还报告了54。3个验证集结果,但是我们不认为这些结果具有可比性,因为它们使用MCG评分[35],这些评分是在真实Pascal片段上训练的。4417Val. 集合测试集方法数据mIoU mIoU FS%[32]第32话:我的世界CCNN[31] I+P 35.3 35.6 50.6WSSL[30] I+P 38.2 39.6 56.3军事情报和部门[33] I+E760k42.0 40.6 57.8DCSM[40] I+P[37]第37话:我的世界美国证券交易委员会[18] I+P 50.7 51.7 73.5AF-ss[36] I+P 51.6--仅种子I+P 39.8--CCNN[31]STC[46] I+P+S49.851.2 72.8CheckMask[37] I+P+µ51.5--MicroAnno[17] I+P+µ51.9 53.2 75.7G0I+P+S 48.8--G2I+P+S55.7 56.7 80.6DeepLabv1 I+P完整版67.6 70.3 100表3:Pascal VOC 2012 val.和测试集。FS%:完全监督百分比。主要成分:I:ImageNet分类预训练,P:Pas-cal图像级标签,P full:完全监督情况(像素级标签),E n:n个带有图像级标签的额外图像,S:盐度,Z:每类大小优先级,μ:人在回路微注释。方 法 使用 显 着 性 ( STC) 或 使用 额 外 的 人类 注 释( MicroAnno , CheckMask ) 。 与 完 全 监 督 的DeepLabv1模型相比,我们的结果达到了完全监督质量的80%7. 结论我们已经解决了从图像标签训练语义分割convnet的问题。图像标签本身可以提供高质量的种子,或有区别的对象区域,但学习完整的对象范围是一个困难的问题。我们已经表明,显着性是一个可行的选择,为饲料的对象范围的信息。所提出的引导分割架构(§3),其中我们的弱监督结果达到了完全监督情况的80%我们希望对播种机有更深入的了解方法和对显著性模型的改进可以导致进一步的改进。确认这项研究得到了德国研究基金会(DFG CRC 1223)的支持。图7:我们系统不同阶段的定性示例补充材料中的更多示例。引用[1] V. 巴 德 里 纳 拉 亚 南 , A. Kendall 和 R. 西 波 拉Segnet:用于图像分割的深度卷积编码器-解码器架构。arXiv,abs/1511.00561,2015年。[2]A. 班萨尔 X. 陈先生, B. 罗素 A. Gupta和D. Ramanan Pixelnet:迈向通用像素级仅图像标签更多信息G2(种子+显著性)显著性分段器输出输入图像地面实况种子+CRF4418架构arXiv预印本arXiv:1609.06694,2016。[3] A. Bearman,O. Russakovsky ,V. Ferrari和L.飞飞。这有什么意义:带有点监督的语义分割。arXiv预印本arXiv:1506.02106,2015。[4] H. Bilen和A.维达尔迪弱监督深度检测网络。在CVPR,2016年。[5] A. Borji,M. M. Cheng,H. Jiang和J.李显著对象检测:基准。TIP,2015年。[6] C. Cao,X.Liu,Y.Yang,Y.Yu,J.Wang,Z.小王,Y.黄湖,澳-地Wang,C.黄,W. Xu,L. Ramanan和T.煌仔细看,三思而后行:用反馈卷积神经网络捕获自上而下的视觉注意力。在ICCV,2015年。[7] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A.L. 尤尔。Deeplab:使用深度卷积网络,atrous 卷 积 和 全 连 接 crfs 的 语 义 图 像 arXiv :1606.00915,2016。[8] M.- M. Cheng,N. J. Mitra,X. Huang,P. H. S.Torr和S.- M.胡基于全局对比度的显著区域检测。PAMI,2015年。[9] J. Dai,K. He和J. Sun. Boxsup:利用绑定盒来监督卷积网络进行语义分割。在ICCV,2015年。[10] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L. 飞飞ImageNet:一个大规模的分层图像数据库。2009年CVPR09中[11] M.埃弗灵厄姆湖,澳-地 凡古尔角,澳-地 K. I.威廉,J. Winn和A.齐瑟曼。帕斯卡视觉对 象类挑 战 2012 ( VOC2012 ) 结 果 。http://www.pascal-[18] A. Kolesnikov和C. H.蓝伯特设置种子、展开和约束:弱监督图像分割的三个原则。欧洲计算机视觉会议(ECCV)。施普林格,2016年。[19] P. Krähenbühl和V.科尔顿。具有高斯边缘势的全连接crfs中的有效推理。在NIPS。2011年。[20] J. D. Lafferty,A. McCallum和F. C. N.佩雷拉.条件随机字段:用于分割和标记序列数据的概率模型。ICML,2001年。[21] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在CVPR,2016年。[22] X. 利 湖 , 澳 - 地 赵 湖 , 加 - 地 魏 , M 。 H. Yang ,F.Wu,Y.庄H. Ling和J.王.深度显著性:用于显著对象检测的多任务深度神经网络模型。TIP,2016.[23] Y. Li,X.侯角,澳-地Koch,J. M. Rehg,和A. L.尤尔。显着对象分割的秘密。CVPR,2014。[24] D. Lin,J. Dai,J. Jia,K. He和J. Sun. Scribble-sup:用于语义分割的Scribble-supervised卷积网络。在CVPR,2016年。[25] T.林,M。迈尔,S。贝隆吉,J. Hays,P. Perona,D. Ramanan , P. Dollár , and C. L. 齐 特 尼 克Microsoft coco:上下文中的公共对象。2014年,在ECCV[26] T. Liu,Z.袁杰孙杰Wang,N. Zheng,X. Tang和H.- Y.沈学习检测显著物体。IEEE Transactions onPattern analysis and machine intelligence , 33(2):353[27] J.朗,E. Shelhamer和T.达雷尔。完全卷积-network.org/challenges/VOC/voc2012/workshop/index.html.[12] B.哈里哈兰山口阿贝拉埃斯湖Bourdev,S.玛吉,还有用于语义分割的语义网络。CVPR,2015。J·马利克从反向检测器的语义轮廓。见ICCV,2011年。[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[14] H. Jiang,J. Wang,Z. Yuan,Y. Wu,N. zheng和S.李显著对象检测:一种区分性区域特征集成方法。CVPR,2013。[15] V. Kantorov , M. Oquab , M. 周 和 我 拉 普 捷 夫Contextlocnet:用于弱监督定位的上下文感知深度网络模型。在ECCV,2016年。[16] A.霍雷瓦河Benenson,J. Hosang,M. Hein和B.席勒弱监督语义标注与实例分割。arXiv预印本arXiv:1603.07485,2016年。[17] A. Kolesnikov和C.蓝伯特通过微标注改进弱监督目标定位在BMVC,2016年。4419[28] R. Margolin、A. Tal和L.泽尔尼克庄园是什么让一个补丁与众不同?CVPR,2013。[29] H. Noh,S.Hong和B.韩用于语义分割的学习反卷积在ICCV,2015年。[30] G.帕潘德里欧湖Chen,K. Murphy和A. L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。在ICCV,2015年。[31] D. Pathak,P. Kraehenbuehl,and T.达雷尔。用 于 弱 监 督 分 割 的 约 束 卷 积 神 经 网 络 在ICCV,2015年。[32] D. Pathak,E.Shelhamer,J.Long和T.达雷尔。完全卷积的多类多实例学习。ICLR研讨会,2015年。[33] P. Pinheiro和R.科洛伯特使用卷积网络从图像级到像素级标记。CVPR,2015。4420[34] P. O. Pinheiro和R.科洛伯特用于场景标记的递归卷积神经网络。InICML,2014.[35] J. Pont-Tuset,P. Arbeláez,J. Barron,F. Marques和J. 马利克用于图像分割和对象建议生成的多尺度组合分组arXiv预印本arXiv:1503.00848,2015年。[36] X.齐,Z. Liu,J. Shi,H.赵和J。贾图像级监督下语义分割中的增强反馈。在ECCV,2016年。[37] F. 萨利赫M. S. A. 阿克巴里安,M. 萨尔茨曼L.彼得森,S。Gould和J. M.阿尔瓦雷斯内置前景/背景先验,用于弱监督语义分割。在ECCV,2016年。[38] I. Shcherbatyi和B.安德烈斯从约束中学习的凸化。在GCPR,2016年。[39] J. Shi,Q.延湖,澳-地Xu和J. Jia.基于扩展cssd的分层图像显著性检测。PAMI,2016.[40] W. Shimoda和K.柳井用于弱监督语义分割的不同类特定的sali- ency映射。在EC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功