弱监督全景分割的有效联合物与物挖掘框架WSPS及其实验结果

13 浏览量更新于2024-01-22 收藏 825KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16694面向弱监督全景分割的佘玉航1，曹柳娟1*，车志伟1，连飞鸿1，张宝昌2，迟苏3，吴永建4，黄飞跃4，冀荣荣1，5，61媒体分析和计算实验室，人工智能系，厦门大学信息学院，361005，2北京航空航天大学人工智能研究所，3金山云计算有限公司，中国北京4中国上海腾讯优图实验室，5中国厦门大学人工智能研究所，6中国深圳鹏程实验室shenyunhang01@gmail.com，caoliujuan@xmu.edu.cn，zhiweichen.gmail.comlianfh@stu.xmu.edu.cn，bczhang@buaa.edu.cnlittlekenwu@tencent.com，suchi@kingsoft.comgaryhuang@tencent.com，www.example.com，rrji@xmu.edu.cn摘要全景分割的目的是将图像分割为对象实例和语义内容，分别为事物和事物类别。到目前为止，学习弱监督全景分割（WSPS），只有图像级标签仍然没有探索。在本文中，我们提出了一个有效的联合物与物挖掘（JTSM）框架WSPS。为此，我们设计了一种新的掩模的兴趣池（MoIPool）提取固定大小的像素精确的特征图的任意形状的分割。MoIPool使全景挖掘分支能够利用多实例学习（MIL）以统一的方式识别事物和材料分割。我们通过自训练进一步改进具有并行实例和语义分割分支的分割掩码，其将来自全景挖掘的挖掘掩码与自下而上的对象证据协作作为伪地面真实标签，以提高空间一致性和轮廓定位。实验结果表明，JTSM对PASCAL VOC和MS COCO都是有效的.作为一个副产品，我们取得了竞争力的结果弱监督对象检测和实例分割。这项工作是解决只有图像级标签的挑战性全景分割任务的第一步1. 介绍全景分割的重点是同时分割图像中的所有对象实例和语义内容。它是计算机中最重要的任务之一*通讯作者。图1：JTSM框架的总体流程图具有很高的学术价值和工业应用前景。最近的快速进展panoptic segmenta- tion已被驱动结合的实力，实例分割和语义分割任务，通过多分支计划。然而，这些深度模型严重依赖于大量的训练数据，具有昂贵的实例级和像素级注释。收集这样的训练数据已经成为将全景分割应用于现实世界应用的方式上的特定瓶颈，自动驾驶、机器人和图像编辑，其中为大量图像的每个像素标记特别耗时。例如，在Cityscapes [1]中完全注释单个图像需要超过1个。平均5小时降低强监督要求的一种方法是弱监督全景分割（WSPS），它试图使用弱注释进行模型训练。据我们所知，之前唯一试图解决WSPS问题的工作是[2]，它需要在训练期间为事物类别和图像级标签提供边界框。然而，对于需要非常大规模的图像集和类别的应用程序，边界框级别的注释仍然需要大量的人力。是16695因此希望从具有较弱监督的大规模数据集中学习全景分割。我们专注于WSPS的最极端的情况下，只有图像级别的标签是可用的，没有实例级别的一个符号，在训练过程中涉及。到目前为止，没有现有的工作进一步研究的问题，学习全景分割只有图像级标签。一种直观且强基线的方法是独立地执行弱监督实例分割（WSIS）和弱监督语义分割（WSSS），并使用启发式后处理方法[3]合并它们的结果。然而，这两种技术的直接结合忽略了潜在的关系，并未能借用丰富的上下文线索之间的事情和东西。由于上下文信息对于识别和定位对象至关重要，并且前景对象提供补充线索以辅助背景理解[4，5]。在本文中，我们提出了一个联合的东西挖掘（JTSM）框架来学习全景分割只有图像级标签，如图所示1.一、我们的动机是考虑前景的东西和背景的东西作为统一的对象实例的分割掩模的形式具体地说，每一个连接的组成部分的东西的内容被视为一个单独的实例，它共享相同的精神，作为事物对象。与通过多分支方案在体系结构级别框架两个相关任务的基线不同，JMTS的主要优点是对相应的任务进行对象和背景之间在实例级别的关系。为此，我们设计了一种新颖的兴趣面具池--ing（MoIPool）来提取固定大小的像素精度特征图，用于任意形状的分割，这为事物和东西提供了统一的表示能力。因此，给定一组细分提议，全景挖掘分支利用多实例学习（MIL）以统一的方式挖掘所有目标类别我们进一步介绍了两种方案来细化分割掩码。首先，我们将全景挖掘的结果与自底向上的目标证据相结合，以提高空间一致性和轮廓局部化。其次，我们引入了自训练，以完善分段掩码与并行实例和语义分段分支。利用来自其前一分支的伪地面真实掩模，可以增强图像分割的区分能力。实验结果证明了我们提出的JTSM组合对PASCAL VOC [6]和MS COCO [7]上的强基线的有效性。作为一个副产品，我们还实现了弱监督对象检测和实例分割任务的竞争结果。这项工作的贡献有三个方面：• 我们提出了JTSM联合分割的东西和东西弱监督全景分割在一个统一的框架。据我们所知，这项工作首次尝试解决挑战全景分割任务，只有图像级标签。• 我们设计了一种新的兴趣池掩码（MoIPool）来计算任意形状分割的固定大小的像素精确特征图，这使得JTSM能够利用多实例学习（MIL）来挖掘具有统一表示能力的东西• 进一步引入自训练来细化图像分割，其中两个并行的实例分割和语义分割分支由挖掘结果和自底向上的对象证据来监督，以提高空间一致性和轮廓定位。2. 相关工作弱监督全景分割（WSPS）。尽管在先前文献中没有任何现有工作的情况下，仅使用图像级标签学习全景分割是具有挑战性的，但是已经进行了使用边界框级注释的一次尝试[2]。我们的工作与[2]有很大的不同。首先，文献[2]中的方法要求有界盒监督和某些范畴的全标号例子。我们只使用图像级标签来学习第一次全景分割。其次，他们[2]严重依赖外部模型来独立地预先计算事物和东西类别的伪地面真实掩码，这未能对语义分割和实例分割之间的内在交互进行建模。然而，我们的方法同时分割所有的目标类别，以统一的方式，以实现一个整体的理解的图像。弱监督对象检测（WSOD）。WSOD的目标是以以下形式预测对象实例边界框与弱监督。最近广泛使用的WSOD通过多实例学习（MIL）在本地化对象实例和训练外观表示之间交替。例如， WSDDN [8]通过深度卷积神经网络（CNN）中的并行检测和分类分支选择了框建议。该方法通过利用上下文信息[9]，梯度图[10，11]，注意力机制[12]，语义分割[13，14，15]以抑制低质量箱提案。 [16，17，18，19]中的一些工作处理了得分最高的建议作为监督来训练多个实例细化分类器。还提出了其他不同的策略[20，21，22，23，24，25，26]来生成伪地面实况框并为框提案分配标签。上述框架通过最小熵先验[27，28]，连续MIL [29]，利用不确定性[30，31，32]，知识蒸馏[33]，空间似然投票[34]，对象一致性[35，36]和生成对抗学习[37]进一步改进。方法[38，39，40]来自不同监督的训练对象检测系统。16696图2：该图说明了JTSM的整体架构。给定图像，全景挖掘分支联合分割分别通过实例分割和语义分割细化。弱监督实例分割（WSIS）。信息社会世界峰会的方法可分为两类。第一组利用边界框注释作为弱监督来训练WSIS模型。该组中的大多数方法使用框驱动分割[41，42]或多实例学习[43]来生成实例级伪地面实况标签，然后通过递归训练[41，2]进行细化。第二组进一步挑战信息社会世界峰会的问题，只有图像级监督。早期的工作[44，45]利用类响应图通过反向传播捕获视觉线索，用于从对象分段建议生成实例掩码。WISE[46]和IRNet [47]从类激活图[48]中生成粗略掩码，这些掩码被视为伪地面真值标签来训练完全监督模型。S4Net [49]和LIID [50]进一步利用图分区算法来学习伪地面真值标签。Label-PEnet [51]将图像级标签转换为具有多个级联模块和课程学习策略的像素级预测Kim等人[52]提出了多任务社区学习来构建正反馈回路，并使用类激活图生成伪地面事实掩码[48]。弱监督语义分割（WSSS）。近年来，人们提出了许多WSSS方法来降低标签成本。许多早期的工作[53，54，55，44]利用CNN内置的像素级线索和约束条件来学习分割掩码。 Pathak等人 [53]提出了一种约束CNN，它对像素标签的结构化输出空间。Saleh等人。 [55]直接从隐藏层激活中提取内置掩码一些作品从CNN的中间特征图中推导出类别显著性图，以估计分割掩码[54，44]。最近，WSSS方法[56，57，58，59]通常将初始对象定位线索视为伪监督并训练完全监督分割模型。流行的方法[60，61，49，62，63]利用对象显着性图和特征激活图来提供补充信息。许多正则化[56，64，65，66，63]被提出来改善分割结果。还有一些作品[67，68，69，70，71]专注于改进交互框架中的特征学习。提出了基于迭代挖掘共同特征[72，73]、区域细化[59，74]、随机游走标签传播[75]、扩张卷积[57]和像素级语义亲和度[58]的[73，76]中的工作还探索了对象边界以细化定位图。3. 该方法3.1. 总体框架我们提出的联合物物挖掘（JTSM）框架的概述如图2所示。我们构建了一个并行的多分支架构，用于全景挖掘，实例分割和语义分割，重新构建16697PCpt PJpptPR- 是的每个分支都采用全图像特征图多标签分类得分为yc科隆山口p=1S英里。然后作为输入。首先，全景最小-ing分支利用多实例学习（MIL）[77]我们得到了一个多标签交叉熵目标函数用多个全景细化头联合分割物体和填充物。特别地，我们设计了一种新颖的MoIPool来产生固定大小的像素精确卷积LMIL= −乌伦cc=1、、、t clog y c+（1 − t c）log（1 −y c）。（二）生成的细分方案的要素图通过无监督的建议生成方法[78，79]，第二，来自全景挖掘的挖掘掩模与自底向上的对象证据相结合，以改善空间相干性和轮廓定位。第三，并行实例和语义分割分支通过将预测作为监督来进一步细化事物和材料掩码。在训练过程中，我们有以下目标函数L=LPM+LIS+LSS，（1）其中LPM是全景挖掘分支的损失函数，LIS和LSS分别是实例和语义分割分支的损失函数。为了进一步减少错误识别，我们通过多个全景细化头来细化MIL分数，每个全景细化头包含单个完全连接的层。F或rth细化头，它重用建议特征作为输入，并产生新的分类得分 Sr∈np× （ nc+1 ），其中nc+1indi-选择n个c对象类别和1个背景类别。在训练中，对于rth头和cth猫，tc= 1时，选择来自先前预测Sr-1的最高分数边界框作为伪地面实况标签，并为其余段propos分配正/负标签人症我们还设置S0=SMIL。因此，对应的全景细化损失为：科隆山口. exp（Srr）3.2. 联合物料开采泛光矿业分公司旨在联合细分rPRp=1ytrlogp布吕普jlog（Sr）、（3）可数的事物实例和不可数的事物内容。回想一下，背景材料可以分成一组连接的组件。因此，我们将背景的每个关联成分看作一个独立的实例，它与可数对象具有相同的精神。虽然区分背景的不连续组件是不必要的，所有的东西和东西都被视为统一的对象实例。为此，我们遵循--其中，tr表示针对rth头部中的pthsg-ment建议获得的分类目标，并且Srr 是相应的p预测得分因此，Lpr是由图像级分类分数ytr加权的softmax交叉熵损失。p根据上述定义，全景挖掘分支定义为伦河降低深度卷积网络中的MIL管道，转换双流WSDDN [8]和OICR [18]算法，以统一的方式识别所有类别的实例LPM=LMIL+r=1r，（4）形式上，给定图像I和对应的图像-I 水平标签t=[t1，t2，. . . 在训练期间，JTSM旨在估计该图像中的每个对象实例的分割掩模。设t是一个固定长度的二进制向量，其中 tc=1 表示图像 I 包含 cthta rgetcatory，否则 tc=0。nc是事物和材料类别的总数。骨干网络首先输出输入I的全图像特征图Φf。然后，我们使用MoIPool层（稍后讨论）来计算分段建议的固定大小的池化特征图Φp，然后是两个具有ReLu激活和dropout层的全连接层，以提取最终建议特征。之后，MIL负责人将提案功能分为两部分流产生两个得分矩阵SC，SD∈Rnp×nc分别通过另外两个完全连接的层，其中np是提案的数量最后，我们使用逐元素乘积来计算最终提议得分矩阵为SMIL=σ（SC）σ（（SD）T）T，其中σ（·）是softmax函数。要仅使用图像级su来训练MIL头透视，总和池应用于获取图像级=LL=−16698其中NR是全景细化头的数量。你-在测试中，使用所有磁头的平均输出。3.3. 兴趣掩码池（MoIPool）我们设计了一种新的兴趣池掩码来计算固定大小的特征图，用于分割建议。与需要直角建议的RoIPool[80]和RoIAlign [81]不同，边界框，MoIPool能够提取任意形状分割的像素精确特征图。为此，我们引入了两个有效的变体：形状插值和形状不变的MoIPool。第一个变体是形状插值MoIPool，它只在段亲内应用池化操作。我们的直觉是，如果非刚性分割被转换成刚性区域，我们可以重用传统的方法，例如，RoIPool和RoIAlign。因此，我们首先插值分割到矩形区域的薄板样条（TPS）算法，这已被广泛用作图像对齐和形状匹配的非刚性变换模型TPS产生光滑的表面，16699pPCP无穷可微尽管它的简单性，实验结果表明，形状插值MoIPool实现竞争力的性能相比，形状不变的。我们进一步设计了一个形状不变的MoIPool，以保持准确的轮廓信息的分段建议。假设骨干网络提取全像特征图Φf∈φhf×wf，其总步长为s。我们为了简化，省略特征图的通道。每个分段建议由二进制掩码M定义，其具有与输入图像I相同的空间大小。我们可以容易地获得分段建议的对应边界框B，其由指定其左上角（yb，xb）及其宽度和高度（wb， h b）的四元组（x b ，y b， w b，hb）定义。我们还表示池建议功能为此，我们引入了两个并行的实例和语义分割分支，它们由从全景挖掘生成的伪地面实况掩码（pseudo-ground-truth masks）监督。详细地说，实例分割分支由4个卷积层组成，卷积层具有3×3内核和256个通道，用于提取特征图，然后是具有2×2内核的解卷积层和最终预测层，1×1个内核。实例分割需要建议fea-将RoIAlign [81]中的Φ¯p作为输入，并为所有n个类别生成细化的掩码MIS。因此，给定一组框建议，实例分割目标函数为科隆山口 nt映射为Φp∈φhp×wp，其中hp×wp是预先定义的空间，LIS=[tIS=c]ytISLBCE（MIS，MIS），（9）池化特征的初始大小。提出的MoIPool通过显示hb/s×wb/s裁剪的提案特征图来ppp=1c =1个人电脑转化为一个由近似大小子风场组成的hp×wp网格hb/s/hp×wb/s/wp。每个子风中的最大值被分配到相应的输出网格单元中，Φp= max（ΦijΦf），其中，M1S和M2S是用于p_t_h提议和c_t_h猫的预测掩码和目标掩码，并且t_S是用于p_t_h提议的伪猫的标记。LBCE是二元交叉熵损失。由于掩码头是类特定的，我们伊赫乌夫河b b p b bp-仅计算图像中存在的类别的损失，i∈y/s+h/s·u/h，y/s+h/s·（u+ 1）/h，j∈xb/s+wb/s·v/wp ，xb/s+然后由图像级预测分数ytIS加权。p（五）其中，如果建议特征图中的对应元素可用于最大池化，则该指示符矩阵等于1给定提案特征图中的第i行和第 j列元素，我们在分段提案的二进制掩码M∈m×wm中裁剪相应的子窗口，并获得最大值，maxMiji∈ [<$u·s <$，<$（u +1）·s <$]，j ∈ [<$v·s<$，<$（v +1）·s <$].（六）然而，如果对应的子窗口不属于分段属性，则上述定义将激活填充为零为了在不同的代理之间调整功能激活，我们进一步引入了补偿项hpw p语义分割分支由两个卷积层和一个最终预测层组成，卷积层采用3×3核函数，256通道，用于提取特征图，最终预测层采用1×1核函数。与实例分割不同，语义分割分支将全图像特征图Φf作为输入，并输出每个素材类别的细化掩码Mss因此，语义分割目标函数被定义为：LSS= LCE（MSS，MSS），（10）其中，M*SS表示目标分割掩码，并且LBCE是二进制交叉熵损失函数。为了生成用于分割细化的逐像素监督M_S和M_SS=IJ Φp。（七）具有自底向上对象证据的全景挖掘分支，改进空间相干性和轮廓定位。我们因此，最终的合并提案功能将按比例放大，Φp=Φp。（八）实际上，所提出的MoIPool可以被视为RoIPool的一般化。当分段建议是矩形窗口时， MoIPool 退化为RoIPool。3.4. 细分细化由于全景挖掘分支的分割结果的质量在很大程度上依赖于分割建议，我们进一步利用自训练的优势来细化掩码。到16700采用无监督的基于分组的分割Grab- Cut [86]算法来重新估计相应边界框内的对象掩码。对于图像中存在的每个事物和物品类别，我们在重新估计期间将最高分数段提议内的区域这样的后处理挖掘的面具有助于减少模糊的轮廓使用低级别的功能，如像素颜色。我们并不局限于从输入图像生成对象证据的算法。重新估计的掩模被视为伪地面真实掩模以学习上述分割细化。16701表1：PASCAL VOC 2012全景分割的不同提议合并方法的消融研究方法PQ平方RQPQThSQThRQThPQStSQ街 RQStRoIPool36.574.448.034.673.346.075.684.690.3罗伊阿尔金36.274.247.734.473.243.874.384.389.1MoIPool形状插值37.274.248.835.373.246.976.084.490.9形状不变的39.074.451.537.173.949.577.785.191.2表2：PASCAL VOC 2012全景分割的分割细化消融研究L是LSS重新估计PQ平方RQPQThSQThRQThPQStSQ街 RQStC30.734.973.473.641.446.229.033.972.973.139.544.966.969.481.881.781.885.1C33.973.245.528.872.739.276.683.591.6CC36.573.948.634.673.446.576.784.091.1CCC39.074.451.537.173.949.577.785.191.2表3：Equ. 4关于PASCAL VOC 2012全景分割。nrPQ平方RQPQThSQThRQThPQStSQ街RQSt030.371.941.528.371.339.371.482.087.1135.072.247.833.669.844.973.282.789.2236.572.850.336.172.247.575.383.889.4338.173.950.836.573.048.876.184.690.2439.074.451.537.173.949.577.785.191.2538.674.351.536.773.649.877.885.691.04. 定量评价4.1. 实验装置数据集我们评估我们的方法在两个流行的基准，即，PASCAL VOC 2012 [6]和MS COCO [7]。PASCAL VOC 2012由20个目标类别和一个背景类别组成与全监督全景分割[87，82]一样，我们通过合并Pascal VOC 2012训练集和SBD数据集的附加注释[88]生成训练这将产生10，582个训练图像。为了进行确认，我们在Pas- cal VOC 2012确认集上进行了评价，因为评价服务器不可用于全景分割。MS COCO全景分割具有更多的图像和类别。它包含118k训练图像，5k验证图像。有133个语义类，包括53个物类和80个物类。我们还评估了PASCAL VOC 2007 [6]上的对象检测性能，这是WSOD广泛使用的基准数据集PASCALVOC 2007包含5，011个训练图像和4，092个测试图像，超过20个类别。请注意，在我们所有的结果中，只有图像级别的标签用于模型训练。评价方案。我们的主要评估指标是全景质量（PQ），它是分割质量（SQ）和识别质量（RQ）的乘积[3]。SQ捕获匹配段的平均分割质量，而RQ测量算法正确检测对象的能力。对于实例分割的评价指标，我们还报告了标准MS COCO度量[7]，这是IoU阈值上的平均精度（AP）对于PascalVOC上的对象检测，我们遵循标准PASCAL VOC协议来报告检测到的盒子与地面实况盒子的50%交集（IoU）处的mAP我们还报告CorLoc来指示方法正确本地化目标类别的对象的图像的百分比对于MS COCO上的对象检测，我们报告了标准COCO指标，包括不同IoU阈值下的AP。实现细节我们使用PyTorch框架实现我们的方法。所有主干都使用ImageNet ILSVRC [89]上预先训练的权重进行我们在4个GPU上使用同步SGD训练。mini-batch每个GPU包含1个图像。我们使用0的学习率。01，动量为0。9，辍学率为0。五、我们使用一个逐步学习率衰减模式，衰减权重为0。1，步长为70，000次迭代。训练迭代的总数是100，000。我们采用MSCOCO的4×培训计划。在多尺度设置中，我们使用的尺度范围从480到1216，步幅为32。提高为了提高鲁棒性，我们随机调整图像的曝光和饱和度，最多调整1倍。5在HSV空间我们使用MCG [79]为所有实验生成细分建议我们将图像中的最大建议数设置为4，000。考试成绩是量表的平均值#21454;，并将其进行？检测结果由NMS进行后处理，阈值为0。五、除非另有说明，否则我们在所有实验中使用以下参数设置。我们将对象细化分支的数量nr设置为4。对于建议的MoIPool，我们使用形状不变的版本作为默认值。4.2. 弱监督全景分割我们首先进行了几项消融研究，以评估不同设计选择和参数设置的有效性。如上所述，所有消融研究均在PAS- CAL VOC 2012全景分割在这里，我们使用ResNet 18-WS [90]作为主干来保存16702表4：与PASCAL VOC 2012全景分割的最新方法的比较。术语M、B和I分别表示像素级、边界框级和图像级标签方法监督骨干PQ SQRQPQThSQThRQThPQStSQ街RQStDeeperLab[第八十二章]MXception-7167.4--------全景FPN[八十三]MResNet5065.7八十四点三77.664.583.976.590.892.598.1Li等[二]《中国日报》B+IResNet10159.0--------组合[47，58]我ResNet5037.1六十九点八49.535.570.547.274.282.686.3JTSM我ResNet18-WS39.0七十四点四51.537.173.949.577.785.191.2表5：与MS COCO全景分割的最新方法的比较方法监督骨干PQ SQRQPQThSQ ThRQThPQStSQ StRQSt[83]第八十三话MResNet5039.0--45.9--28.7--JTSM我ResNet18-WS5.3 30.87.88.4 46.611.40.7 6.40.5表6：与PASCAL VOC 2012实例分割的最新方法的比较。方法监督骨干m AP 0. 50 米AP 0. 75Mask R-CNN [81]MResNet10167.9 44.9PRM[第四十四届]我ResNet5026.8 9.0IAM[45个]我ResNet5028.8 11.9IRNet[47个]我ResNet5046.7-标签-PEnet[五十一]我VGG1630.2 12.9明智[46个]我ResNet5041.7 23.7Kim等人[五十二]我ResNet5035.7 5.8Arun等人[第四十二届]我ResNet5050.9 28.5LIID[50个]我ResNet5048.4 24.9JTSM我ResNet18-WS44.2 12.0时间如果没有提到。当调整每组超参数时，其他参数将保持默认.全景细化头的数量。全景细化头在测试期间输出用于分割的最终挖掘分数，这严重影响实例和语义分割的性能。方程中的超参数nr。4控制全景细化分支的数量在T a b中显示n r的不同设置和相应结果。3.第三章。当我们有一个venr=0，方程中损失函数LIR的第二项。4被省略了。我们可以看到这种设置的结果比使用全景细化分支更差，证明全景细化对于分割预测非常有帮助。当nr≥4时，收益是一个巨大的。我们使用4作为nr的默认值。形状不变vs. 形状插值MoIPool。我们首先使用传统的RoIPool [80]和RoIAlgin [81]方法来分析性能如何随不同的建议池方法而变化。如Tab.所示。1、传统方法无法很好地处理物料。由于素材内容往往具有较大的轮廓和尺度变化，其中还可能包含其他素材和事物对象。因此，它需要池化方法来计算任意形状区域的像素精确特征图与RoIPool和RoIAl-gin相比，所提出的MoIPool实现了较大的性能增益，因为MoIPool仅利用段内的特征16703提案我们还发现，形状不变的MoIPool具有优越的性能相比，形状插值版本。由于形状不变，MoIPool保持分段建议的准确轮廓信息。实例和语义细分细化。我们继续评估分割细化的效果如Tab.所示2、分段细化提高整体性能，增益较大的质量原始挖掘的掩码严重依赖于分段建议，而分段细化利用自训练来改进预测的掩码。我们观察到，在自下而上证据的指导下，它表明，自底向上的证据是正相关的对象分割。通过上述消融研究，我们在PASCAL VOC 2012和具有各种ResNet主干的MS COCO上进行了全景分割据我们所知，这是第一个报告图像级监督全景分割结果的工作受完全监督的全景分割的启发，我们为WSPS构建了一个强大的基线，它通过一系列后处理步骤[3]合并了独立的WSIS和WSSS任务的输出。具体来说，我们使用WSIS算法，IRNet [47]和WSSS算法， AffinityNet [58]的组合结果请注意， IRNet 和AffinityNet在其目标任务中都是竞争性方法。对于只有一个素材类别的PASCAL VOC，我们计算所有的事物分割，其余区域作为素材分割。选项卡. 4和5显示JTSM显著优于使用相同设置的强基线模型，即，使用图像级标签仅用于模型训练。例如，PQSt，表明了联合类别挖掘的有效性，而IM-推销物品， PQT h表示MoIPool的有效性。4.3. 弱监督实例分割我们还报告了AP方面的实例分割性能，并与其他WSIS方法进行了比较。16704表7：与MS COCO实例分割的最新方法的比较方法监督骨干mAPm AP 0. 50m AP 0. 75mAPSAPMmAPLMask R-CNN [81]MResNet10135.758.037.815.538.152.4WS-JDS[第十五条]我VGG166.111.75.51.57.112.2JTSM我ResNet18-WS6.112.15.00.13.012.6表8：与PASCAL VOC 2007、2012和MS COCO对象检测的最新方法的比较方法监督巴克博恩Pascal VOC 2007mAP（%）CorLoc（%）Pascal VOC 2012mAP（%）CorLoc（%）MS CocoAvg.精度，IoU：0.5：0.95 0.50.75[84]第八十四话BVGG1669.967.021.2 41.5WSDDN[八]《中国日报》我VGG1634.853.5–9.519.28.2OPG[10个国家]我VGG1628.843.5––––CSC C5[第十一届]我VGG1643.062.237.1 61.412.923.813.2WS-JDS[第十五条]我VGG1645.664.539.1 63.5–––OICR[18个国家]我VGG1641.260.637.9 62.1–––MELM[28]第二十八届我VGG1647.361.442.4–––Kosugi等人[21日]我VGG1647.666.743.4 66.7–––C-MIL[29日]我VGG1650.565.046.7 67.4–––Pred Net[30个]我VGG1652.970.948.4 69.5–––WSOD2[第八十五章]我VGG1653.669.547.2 71.910.822.7–Yanga等人[19个]我VGG1648.666.8––––C-MIDN[14个]我VGG1652.668.750.2 71.29.621.4–Ren等[24日]我VGG1654.968.852.170.912.425.810.5UWSOD[26日]我ResNet18-WS45.063.846.2 65.73.110.11.4JTSM我ResNet18-WS53.471.451.572.59.421.37.9PASCAL VOC 2012.具体地说，JTSM只挖掘事物类别，而忽略了分段分支。如Tab.所示。6和7，我们的JTSM在很大程度上优于同样使用图像级监控的先进技术。一些先前的方法实现了高性能，这要归功于专门设计的像素间关系模块[47]、图分区算法[50]、显著检测器[49]、全监督模型再训练[46，47]。与以前的方法不同[50，47，42]，JTSM是端到端可训练的。当ResNet 18-WS被用作骨干网时，JTSM实现了与以前的最先进的方法相当的性能。4.4. 弱监督目标检测我们在所有三个数据集上评估了所提出的JTSM的检测性能，其中我们只使用了事物类别的图像级标签我们还删除了分割细化分支，因为全景挖掘分支已经输出了检测结果。与最新技术水平方法的比较列于表1。8 .第八条。借助ResNet 18-WS骨干网，JTSM达到了最先进的mAP 53。4%，51。VOC 2007和VOC2012的5% JTSM生产9. 4%，21。3%m AP 0. 5在MS-16705COCO上。虽然JTSM不是专门为对象检测设计的，但它显示了令人惊讶的结果，并在许多指标上实现了我们将性能增益归因于MoIPool，其能够提取任意形状区域的像素精确特征图。5. 结论在本文中，我们提出了一个联合的东西明（JTSM）的框架来学习全景分割，只有图像级标签的第一次。为了实现这一目标，提出了一种新的兴趣池掩码（MoIPool）来提取任意形状区域的像素精确特征图，该特征图输出具有相同表示能力的所有语义类别的固定大小的特征图。我们进一步将挖掘的掩模与自下而上的对象证据相结合，以提高空间一致性和轮廓局部化。最后，通过自训练学习额外的实例和语义分割，以改进全景分割。PASCAL VOC和MS COCO上的实验结果证明了JTSM与强基线相比的有效性作为一个副产品，JTSM实现了弱监督对象检测和实例分割的竞争力的结果。6. 确认本工作得到了国家杰出青年科学基金（ No.62025603 ）、国家自然科学基金（ No.U1705262 、 No.62072386 、 No.62072387 、No.62072389、No.62002305、No.61772443、No.61802324、No.61702136）、国家自然科学基金（ No.U1705262 、 No.62072387 、 No.62072389 、No.62002305、No.61772443、No.61802324、No.61702136）、国家自然科学基金（No.U1705262、No.62072387、No.62072389、No.61772443、No.东基础与应用基础研究基金（编号：2019B1515120049）和北京新星项目（Z201100006820023）。16706引用[1] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rupfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. CityscapesDataset for Semantic Urban Scene Understanding. 在IEEE/CVF计算机视觉和模式识别会议（CVPR），2016年。1[2] Qizhu Li，Anurag Arnab，and Philip H. S.乇弱监督和半监督全景分割。欧洲计算机视觉会议（ECCV），2018年。一、二、三、七[3] 亚历山大·基里洛夫、何凯明、罗斯·格希克、卡斯滕·罗特和彼得·多尔·拉尔。视前节段在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。二、六、七[4] Yanwei Li，Xinze Chen，Zheng Zhu，Lingxi Xie，GuanHuang，Dalong Du，and Xingang Wang.用于全景分割的注意力引导统一网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。2[5] Yangxin Wu ， Gengwei Zhang ， Yiming Gao ， XiajunDeng，Ke Gong，Xiaodan Liang，and Liang Lin.用于全景图像分割的双向图推理网络。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。2[6] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. Pascal Visual Object Classes（VOC）挑战国际计算机视觉杂志（IJCV），2010年。第二、六条[7] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，卢博米尔·布尔德夫，罗斯·格希克，詹姆斯·海斯，皮埃特罗·佩罗纳，德瓦·拉马南，C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。MicrosoftCOCO：上下文中的公共对象。在欧洲计算机视觉会议（ECCV），2014年。第二、六条[8] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE/CVF计算机视觉和模式识别会议，2016年。二，四，八[9] Vadim Kantorov，Maxime Oquab，Minsu Cho，and IvanLaptev. ContextLocNet：用于弱监督定位的上下文感知深度网络模型。 2016 年欧洲计算机视觉会议（ECCV）。2[10] Yunhang Shen，Rongrong Ji，Changhu Wang，Xi Li，and Xuelong Li.通过对象特定像素梯度的弱监督对象检测。 IEEE Transactions on Neu- ral Networks andLearning Systems（TNNLS），2018年。二、八[11] Yunhang Shen ， Rongrong Ji ， Kuiyuan Yang ， ChengDeng，and Changhu Wang.弱监督检测中的类别感知空间约束。 IEEE Transactions on Image Proce

下载后可阅读完整内容，剩余1页未读，立即下载