弱监督联合检测与分割的多任务学习方法

14 浏览量更新于2023-10-17 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

697弱监督联合检测与分割沈云航1，冀荣荣1，2，王艳3，吴永建4，曹柳娟11厦门大学信息科学与工程学院福建省智慧城市感知与计算重点实验室，福建361005，2鹏程实验室，福建3微软，雷德蒙德，美国4腾讯科技（上海）有限公司BestImage有限公司，中国shenyunhang01@gmail.com，{rrji，caoliujuan}@ xmu.edu.cn，wanyan@microsoft.com，littlekenwu@tencent.com摘要弱监督学习由于在需要图像内注释的任务（例如对象检测和语义分割）中显著节省注释成本而引起了越来越多的研究关注。为此，前弱监督对象检测和语义分割方法遵循迭代标签挖掘和模型训练管道。然而，这样的自我执行管道使得这两个任务容易被困在局部最小值中。本文首次将弱监督目标检测和分割任务与多任务学习方案相结合，该方案使用各自的失败模式来补充彼此这样的跨任务执行帮助两个任务跳出各自的局部最小值。特别是，我们提出了一个高效和有效的框架，称为弱监督联合检测和分割（WS-JDS）。WS-JDS有两个分支用于上述两个任务，它们共享同一个在学习阶段，它使用相同的循环训练范式，但具有特定的损失函数，使得两个分支彼此受益。在广泛使用的Pas- cal VOC和COCO基准上进行了大量的实验，结果表明，我们的模型具有与最先进的算法竞争的性能。1. 介绍近年来，深度卷积神经网络（DCNN）在各种计算机视觉任务中表现出出色的能力，例如图像分类[2，63，37，33]，对象检测[26，54，53，45]和语义分割[46，13，12，81]。成功的核心在于长达十年的努力，以构建大规模的注释数据集，如 ImageNet[17]，PASCAL VOC [20]，*通讯作者。图1.循环指导学习框架的核心思想。单独训练的对象检测器和语义分割器经常在具有挑战性的情况下失败，如左下图所示。然而，我们发现对象检测和语义分割的失败模式是互补的，因此建议训练一个多任务模型，让它们以循环的方式相互受益。这个数字最好用彩色看。COCO [43].然而，随着分类等任务的巨大潜力和灵活性，对大规模注释的严重依赖有两个缺点。第一，即使采用众包，人类标签也可能很昂贵对于需要像素级标记的任务（如实例分割）尤其如此。尽管社区意识到类似ImageNet的数据集对这些任务将有很大的好处，但它仍然没有，甚至在不久的将来可能会其次，与完全注释数据集相比，弱注释数据集（即，仅对图像级标签进行注释）可以更广泛地获得并且具有更大的规模。最近的实验表明，在这些带有噪声和不完整注释的数据集上训练的模型可能比在完全注释但较小的数据集上训练的模型表现得更因此，弱监督学习-698ing已经引起了越来越多的关注[21，67，70，77，58]，特别是对于注释方面的昂贵任务，如语义分割和对象检测，其目的是利用文献中广泛可用的数据集（如PASCAL VOC和COCO），仅具有图像级标签。传统的弱监督语义分割（WSSS）和弱监督对象检测（WSOD）被认为是两个独立的任务。这两个任务都采用了两步迭代学习的框架，一步是挖掘标签，另一步是使用挖掘的标签训练模型。该框架的一个明显问题是，该模型很容易陷入局部最小值[15，75，40，69]。因此，WSSS和WSOD的研究重点是引入先验和/或正则化[8，65，38，60，41，72，67，66，76，39]。本文从另一个角度来克服这一挑战。事实上，通过可视化训练模型的最终和中间结果，我们在探索流行方法的失败模式的过程中有了一些有趣的观察和灵感。如图2、WSSS神经网络往往不能获得与对象边界一致的标签图。请注意第二列中的红色区域与实际感兴趣对象的差异。这就是为什么流行的WSSS方法有一个图形模型，如条件随机场（CRF）跟随网络使用额外的信号来细化结果的原因[49，50，76，52，42，34，66，1，78，1]。虽然CRF虽然在像素图上展示了改进，但最终结果的质量在很大程度上依赖于来自网络的中间像素图。因此，上述研究主要还是针对语义标注网络的。另一方面，为了有效地利用图像级注释，WSOD方法通常采用两阶段框架，传统的区域建议随后是分类网络。与WSSS不同的是，区域存在建议避免了大部分时间包围盒穿过对象边界的情况。然而，WSOD也有自己的问题。如图左下角子图所示。1，WSOD的一个典型故障模式是将同一类中的多个对象误识别为单个对象。在其他一些情况下，WSOD检测器会输出一个只覆盖部分对象的过紧边界框。非常有趣的是，WSSS和WSOD的故障模式实际上是互补的。我们认为，在解决图像级标签的弱监督学习问题时，特别是WSSS和WSOD，多任务学习框架是必要的。一方面，来自语义分割的不完美像素图可以帮助对象检测器从过合并或过紧边界框的局部最小值中跳跃。另一方面，来自对象检测器的绑定框没有问题图2.弱监督语义分割器和对象检测器不同失效模式的比较四列分别显示了原始图像、来自CAM [85]的语义图、来自我们的检测分支的对象定位图和细化的对象检测图。值得注意的是，定位图提供了比分类图更高质量的背景线索。右三列用喷射色标绘制，其中红色对应于高值，蓝色对应于低值。这个数字最好用彩色看。跨越对象边界，因此可以为语义分割网络提供合理的良好种子。实际上，近两年来在WSOD领域也出现了类似的例如，Wei et al. [77]和Diba等人。[19]都引入了三阶段CNN，其中分割阶段利用了分类阶段的对象定位线索。但是这些方法没有明确地对对象检测任务和语义分割任务的互利进行建模，因此与所提出的方法有本质的不同。在本文中，我们提出了一个弱监督联合检测和分割（WS-JDS）框架。核心是骨干深度网络，支持分别用于对象检测和语义分割的两个分支关于模型训练，我们提出了一种循环指导学习（CGL）方法，如图所示。1.与传统的WSSS和WSOD方法类似，CGL迭代地进行标签挖掘和模型训练。但是当训练对象检测分支时，我们使用从过滤区域建议和分割像素图中导出同时，利用目标检测分支的定位线索来指导语义分割分支的训练为了证明建议的网络以及培训计划的有效性，我们提出了详细的699图3. CGL for WS-JDS框架概述。利用典型的CNN层来提取输入图像的中间特征作为主干。在检测分支中，每个对象提案的特征由空间金字塔池（SPP）层生成，然后是两个完全连接的层。双流检测器[10]用于在图像级监督下发现对象实例通过基于梯度的显著性方法，通过反向传播（BP）提取的目标定位地图。在分割分支中，整个特征图首先被馈送到一个完全卷积的子网络中，以通过Atrous空间金字塔池化（ASPP）来预测分割掩码，然后被监督（Sup.）由目标定位图产生的粗分割掩模。同时，基于分割模板，我们适当地评估包含对象实例的建议置信度。对目标检测和语义分割这两项任务进行评估。在PASCAL VOC 2007、2010和2012 [20]上进行了物体检测的评价，并与几种最先进的方法[23、70、68、77、72、82、24、58]进行了比较。我们还在COCO数据集[43]上评估了我们的方法，用于对象检测和实例分割任务。在这两项任务中，我们用最先进的方法展示了竞争力。2. 相关工作弱监督对象检测。 WSOD 是指学习仅具有指示类别存在的图像级注释的对象检测器根据优化目标的不同，WSOD方法可以分为两类：、对象发现和实例细化。目标发现方法直接在传统目标建议的基础上，对图像级分类损失进行了优化，即. 用多实例分类（MIC）范式来表示WSOD问题。MIC的学习步骤在选择阳性样本和训练外观模型之间交替。在文献[15，73，9，75，60，23，57]中提出了许多不同的策略来训练MIC模型最近的方法将卷积神经网络（CNN）和MIC结合到一个统一的框架中[10，19]。引入上下文信息以实现有希望的改进[38]。最近，Tang等人 [70]提出通过在端到端框架中生成和细化目标提案来取代传统的目标提案提取阶段有一些方法通过利用深度特征图[7，5，87]和类激活图[85，28，83]来关注无命题范式。然而，这种模式严重依赖于特征图的质量，并且难以区分具有挑战性的场景中的不同实例。一些工作还使用了额外的注释和数据来提高性能，例如。，对象大小估计[60]，实例计数注释[22]、视频运动提示[64]和人工验证[48]。某些附加数据可能来自不同的域。因此，还利用了用于渐进式跨领域适应的知识转移，例如：数据域自适应[59]和任务域自适应[35]。实例精化方法也遵循边界框挖掘和模型训练框架。但是，它们不是优化MIC损失，而是优化实例级本地化的目标函数因此，从另一个角度来看，它们通过引入完全监督的检测器，在对象发现之后具有额外的实例细化阶段。例如，[40，36，22，69]中的工作挖掘了高置信度的建议，并将其视为正样本来训练完全监督的模型。为了开采高质量的装订盒，人们付出了许多努力[84，24]为了进一步提高鲁棒性，有一些工作结合了弱监督MIC模型和全监督检测器。例如，Tanget al. [69]引入多个监督分支来细化弱监督模型的结果。[41，72]中的工作提出了最小熵优先来减轻结果的模糊性，并使用伪地面实况对象来优化定位的目标函数 Zhang等人[82]提出了估计样本训练难度，以按照从容易到困难的顺序学习完全监督检测器。弱监督语义分割。WSSS方法也可以分为两组。第一组[50，61，55，86]利用CNN内置的像素级线索和约束先验来学习分割掩码，而第二组[39，78，1，34]的常见做法是将初始对象定位线索（通常由分类网络产生）视为伪监督并训练完全监督的分割网络。在第一组中，Pathak等人。 [50]提出了一种约束CNN，它对像素标签的结构化输出空间应用线性约束Saleh等人[55]直接从隐藏层激活中提取内置掩码，700X.ΣHWHWHWHW并通过弱监督损失来合并所得到的掩模。还有一些工作是从CNN的中间特征图中导出类别显著性图，以估计分割掩码[61，86]。在第二组中，流行的方法[51，11，21]利用年龄对象显着性图或特征激活图来提供补充信息。提出了许多先验或正则化[39，66，67]来改善分割结果。利用了不同种类的监督：web数据[32，56]、边界框[79]、涂鸦[42]、点[6]等。也有一些工作[76，52]，在迭代框架中改进特征学习。再-的类别。H和W分别是图像的高度和宽度。如图中的灰色区域所示。3、首先提取R对象建议{p1. . . pR}，然后将空间金字塔池（SPP）层[31]的特征分叉为两个流，即该算法通过两个全连通层分别产生两个评分矩阵Xc，Xd∈RR×C。这两个得分矩阵分别在类别和建议上通过softmax函数σ（·）进行归一化。然后是元素刺激，两个流的输出的结果再次是得分矩阵：Xs=σ（Xc）<$σ（Xd）。为了获得图像级分类，目前，各种基于迭代挖掘的方法，阳离子分数，应用总和池：yk联系我们r=1rkmon特征[74]，种子区域生长[34]，随机行走然后我们得到交叉熵损失函数Ldet：标签传播[71]，膨胀卷积[78]和像素-层次语义亲和度[1]。多任务学习。学习检测和分割-Ldet= ΣCk=1、tklog yk+（1− tk）log（1−yk）、、（1）联合应用最早是由Hariharan等人 [29]在完全监督学习虽然[29]中的框架是多阶段的，但它仍然显示出对单个任务的性能改善。He等人 [30]还证明了盒子检测可以从多任务学习中受益最近的工作提供了更复杂的机制，在方向预测[12]和信息流提升[44]的帮助下将这两项任务结合起来。在弱监督学习中，一些相关工作使用分割掩码来提高检测任务的性能[19，77]。然而，与这些工作不同的是，我们的方法还利用CGL的检测结果来改进分割分支。在弱监督环境中，我们是第一个加入对象检测和语义分割任务的。3. 该方法概述：所提出的方法的整体架构如图所示。3.共享相同的骨干，即VGG16 [63]，所提出的模型有两个分支，即：目标检测和语义分割。特别地，建立在空间金字塔池化层之上的对象检测分支产生框预测和对象定位图。遵循之前的弱监督语义分割方法[78，39，55]，我们利用推断的定位图从训练图像中产生分割掩码的伪地面实况，然后将其用作监督以训练分割分支。然后采用来自分割分支的预测置信度掩码来评估包含对象实例的可能性的对象概率其中，tk是类别k的对象是否呈现在图像I中的基础真值标签。之前的指导：然而，这样的对象发现优化缺乏先验指导。注Xs是根据每个单独提案的本地信息计算的[58]。的实例之间的相关性通常被忽略，并且优化可能在MIC学习期间收敛到不期望的局部最近的工作[38，77]提出使用上下文信息作为监督指导，其强制预测的对象区域与其周围的上下文兼容。我们建议利用来自分割分支的学习掩码的知识，通过对象先验来改进检测[77，58]。语义分割分支：为了获得分段掩码，我们首先收集骨干网络的最后一个池化层之前的中间特征。然后我们将其馈送到卷积块，扩张率定位不同感受野感知的对象相关区域，类似于DeepLab-ASPP [14]，如图中的蓝色区域所示。3.利用产生的目标定位线索，我们训练分割分支与像素级损失Lseg，这是广泛采用的全监督计划。不同于以往的文学-完全/弱监督语义分割的特征[39，55，14，78]，当将全卷积网络（FCN）应用于语义分割时，通常使用每像素softmax和多项式交叉熵损失，我们使用每像素Sigmoid和二进制交叉熵损失那么Lseg类似于Ldet，但具有额外的空间维度：这又有利于对象检测分支。目标检测分支：我们将WSDDN [10]用于对象检测分支，并进一步提高了每个L段=C，H，W，k，h，wklogSk+（1−Mk、）log（1−Sk），使用CGL方案进行验证。特别地，设I∈H×W×3为输入图像，t∈{0，1}C为相应的图像级标签，C为总数（二）其中M和S表示由检测分支产生的粗分割掩模和具有C=M701图4.拟议的CGL的中间步骤的可视化。这些行分别示出了输入图像、来自对象检测分支的对象定位图、从定位图导出的粗略分割图、以及没有CRF后处理的分割分支的输出。第三行中的红色、蓝色和绿色像素分别指示前景、背景和不确定性渠道，尊重我的价值。还有H，W，表示图像高度图3中的蓝色虚线对于检测到-而预测掩模的宽度通常为H，W的1/16。此外，我们还使用[39]中的约束到边界损失来鼓励分割掩码与对象边界匹配。我们对Lseg的定义允许分割网络在没有竞争的情况下为每个类别生成掩码在类别之间。我们依靠专用的检测分支来预测用于选择输出掩码的类别标签。如[30]所示，通过使用这种解耦的掩码和类别预测，一旦实例被分类为整体（通过检测分支），就足以预测二进制掩码而无需关注类别，这使得模型更容易训练。循环指导学习：理论上，WSOD和WSSS的损失函数导致互补的失效模式。一方面，大多数作品制定了一个MIC范式的WSOD问题它对阴性袋的假阳性的明确惩罚使WSOD的假阳性率较低然而，为了防止自我强化到局部最小值，流行损失仅惩罚具有小于阈值的IoU（其损害敏感性）的置信假阴性（其给出有限的伪地面实况）。因此，WSOD通常遭受模糊的特征地图周围的非歧视性的部分对象。另一方面，对于WSSS，在像素级上定义损失缺乏对误报的明确惩罚通常会导致噪声背景。但细粒度的目标定位算法对模糊区域有更好的定位精度，可以指导目标定位。我们提出了一个CGL计划，以利用个人任务所学到的互补知识，如图所示分割指导，我们利用推断的定位图来产生等式中的粗略分割掩模M2，然后将其用作监督以训练分段分支。不同于[19，77]引入额外的显著性检测和分类分支来生成定位图[85，50]，我们通过基于梯度的显著性检测从检测分支产生内置的背景和前景线索[62，39]，其具有无参数的优点。特别地，分类分数的梯度通过反向传播从检测分支流到骨干的第一层，这在图2的第二行中示出。4.在对象局部化图上，我们为像素分配大于预定义的归一化阈值的值（即，、0. 1）以相应的类别标签作为前景区域。我们还选择具有低归一化值的像素（即，、0. 005）作为背景样品。剩余的像素被标记为不确定的，并在训练期间被忽略。图3的第三行示出了来自样本图像的结果前地、背景和不确定像素。4.第一章图的最后一行。图4示出分割分支的输出能够泛化对象定位种子以预测不确定像素，这进而为检测器训练提供指导。例如，当检测分支未能发现图像中存在的类别马的多个实例时，在第五列中发生误报检测。因此，对象定位图是半成品（第二行）。在这种情况下，图像级注释无法纠正这个问题，这最终导致分割的伪地面实况，702W=RRKRK表1.PASCAL VOC 2007上的物体检测，以测试集上的AP（%）方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.WSDDN [10]39.450.131.516.312.664.542.842.610.135.724.938.234.455.69.414.730.240.754.746.934.8WSDDN45.948.132.413.323.061.751.140.716.837.923.828.443.153.06.521.141.244.060.645.936.9WSOD||个wss50.156.332.422.719.051.841.162.62.745.345.624.443.756.012.420.538.134.853.233.437.3WSOD→ WSSS52.463.528.816.127.358.055.841.622.547.314.025.98.555.218.922.146.945.054.849.937.7WSOD← WSSS39.861.434.618.127.366.152.950.815.643.042.446.119.457.930.524.244.048.264.852.942.0WSODTodayWSSS52.064.545.526.727.960.547.859.713.050.446.456.349.660.725.428.250.051.466.529.745.6标记为第二个实例的背景的像素（第三行）。然而，分割分支能够正确地预测粗略掩码以推翻错误（最后一行）。因此，分割图提供监督员指导以改进检测器。对象检测分支有益于分割分支的另一个示例在图1的最后一列中示出。4.当分割分支不能正确预测图像中存在的狗的粗掩模时，检测分支提供保守的狗种子和清晰的背景监督。对于分割到检测的指导，我们在[58]之后细化建议分类之前将特别地，掩码为每个提议提供上下文信息。给定第r个提议和第k个类别，置信权重从掩码S估计：由2501张训练图像、2510张验证图像和4092张测试图像组成，超过20个类别。PASCAL VOC 2010包含4998张训练图像、5105张验证图像和9637张测试图像，超过20个类别。PASCAL VOC 2012包含5，717个训练图像、5，823个验证图像和10，991个测试图像，超过20个类别。遵循弱监督对象检测的标准设置，我们使用仅具有图像级标签的训练集和验证集按照惯例，在训练集和验证集上评估局部化任务（定义为在类别已知时预测框）的性能，并在测试集上评估检测任务（定义为同时预测类别和框）请注意，我们的评估设置比一些流行的方法更具挑战性，例如[15，8，9]，它删除了硬1ΣRKT（Sk）−1Σ T（Sk），（3）图像只包含截断和困难的对象。我们还评估了我们在MS COCO数据集上的方法[43]，|pr|IJi，j∈pr|pc|IJi，j∈pc这是最具挑战性的数据集之一，例如分割和对象检测。它由80个物体组成其中T（Sk）=1[Sk≥10−1·maxSk]，pr和pc是类别与像素明智的实例遮罩注释。我们伊季伊季河第r个建议和相应的上下文区域。的上下文区域PR被定义为通过将框缩放因子1而得到的PR的周围区域。8[25]。因此，在利用总和池化计算图像级分数之前，我们利用W通过元素方式（Hadamard）乘积来细化预测的提议分数Xs我们得到精确的交叉熵损失函数为：实验涉及115k训练集、5k验证集。在训练中仅使用图像级注释。评价方案。使用两种方案进行评价：CorLoc和平均精密度（mAP）。CorLoc是一种常用的测量方法，它通过包含至少一个对象实例的图像的百分比来量化定位性能，其中至少50%与地面实况重叠。CorLoc表示图像的比率ΣCLr=、tklog yr+（1− tk）log（1−yr）、、（四）其中一种方法正确地定位目标，detKk=1k根据PASCAL准则得到类别。地图遵循标准PASCAL VOC协议报告mAP其中YRΣRr=1 WrkXs。然而，掩模S是不稳定的在50%的检测到的盒子与地面实况的交集（IoU）处我们对CorLoc和mAP进行了评估，在早期的训练迭代中。因此，我们也使用object本地化地图，以细化提案分类。在测试阶段，我们对这些建议运行框预测分支，然后进行非最大值抑制。同时，掩码预测分支输出整个图像的分割掩码。然后我们提取检测盒的掩码。4. 实验评价4.1. 数据集和评价方案数据集。我们评估了PAS- CAL VOC 2007，2010，2012 [20]和COCO [43]的拟议方法，是广泛使用的基准数据集。 Pascal VOC 2007分别进行训练/验证和测试。对于MS COCO数据，我们还报告了标准COCO指标，包括AP（IoU阈值的平均值）、AP50、AP75、APS、APM和APL（不同尺度的AP）。我们使用上标r和b分别用于对象检测AP和实例分割AP4.2. 实现细节该方法使用Caffe2实现。使用Python和C++接口对于骨干网络，我们使用VGG16 [63]，它使用ImageNet [17]上预训练我们使用WSDDN [10]作为WSOD分支的基线模型。=703表2.PASCAL VOC 2007上的物体检测，以测试集上的AP（%）方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.WSDDN VGG16[10个国家]39.450.131.516.312.664.542.842.610.135.724.938.234.455.69.414.730.240.754.746.934.8WCCN[19个]49.560.638.629.216.270.856.942.510.944.129.942.247.964.113.823.545.954.160.854.542.8Jie等[36个]52.247.135.026.715.461.366.054.33.053.624.743.648.465.86.618.851.943.653.662.441.7OICR-VGG16[第六十九话]58.062.431.119.413.065.162.228.424.844.730.625.337.865.515.724.141.746.964.362.641.2SPAM-CAM[28日]--------------------27.5TST[59个]--------------------33.8TS2 C[77个国家]59.357.543.727.313.563.961.759.924.146.936.745.639.962.610.323.641.752.458.756.644.3Ge等人[23日]49.153.643.521.318.566.964.055.611.953.726.645.648.764.620.423.350.044.755.960.643.9Tang等人[70个国家]57.970.537.85.721.066.169.259.43.457.157.335.264.268.632.828.650.849.541.130.045.3WS-JDS52.064.545.526.727.960.547.859.713.050.446.456.349.660.725.428.250.051.466.529.745.6OICR FRCNN [69]65.567.247.221.622.168.068.535.95.763.149.530.364.766.113.025.650.057.160.259.047.0MELM [72]55.666.934.229.116.468.868.143.025.065.645.353.249.668.62.025.452.556.862.157.147.3ZLDN [82]55.468.550.116.820.862.766.856.52.157.847.540.169.768.221.627.253.456.152.558.247.6Ge等人[24日]64.368.056.236.423.168.567.264.97.154.147.057.069.365.420.823.250.759.665.257.051.2W2F [84]63.550.531.914.472.067.873.723.353.449.465.957.267.227.623.851.858.764.062.352.4[77]第77话--------------------48.0Tanget al. FRCNN [70]63.069.740.811.627.770.574.158.510.066.760.634.775.770.325.726.555.456.455.554.950.4WS-JDS FRCNN64.870.751.525.129.074.169.769.612.769.543.954.939.371.332.629.857.061.066.657.452.5表3.PASCAL VOC 2007上的对象定位，以训练集上的CorLoc（%）表示方法Aero比西鸟Boabot总线车猫Cha牛dtab狗开胃姆比克pers波兰国家电视台她沙发trai电视Av.WSDDN VGG16[10个国家]65.158.858.533.139.868.360.259.634.864.530.543.056.882.425.541.661.555.965.963.753.5WCCN VGG 16[19个]83.972.864.544.140.165.782.558.933.772.525.653.767.477.426.849.168.127.964.555.756.7Jie等[36个]72.755.353.027.835.268.681.960.711.671.629.754.364.388.222.253.772.252.668.975.556.1OICR-VGG16[第六十九话]81.780.448.749.532.881.785.440.140.679.535.733.760.588.821.857.976.359.975.381.460.6SP-VGGNet[八十七]85.364.267.042.016.471.064.788.720.763.858.084.184.780.060.029.456.368.177.430.560.6TST[59个]––––––––––––––––––––59.5TS2 C[77个国家]84.274.161.352.132.176.782.966.642.370.639.557.061.288.49.354.672.260.065.070.361.0Ge等人[23日]75.967.662.237.336.671.580.263.819.770.632.456.167.881.735.950.973.450.466.066.858.3Tang等人[70个国家]77.581.255.319.744.380.286.669.510.187.768.452.184.491.657.463.477.358.157.053.863.8WS-JDS82.974.073.447.160.980.477.578.818.670.056.767.064.584.047.050.171.957.683.343.564.5OICR FRCNN [69]85.882.762.845.243.584.887.046.815.782.251.045.683.791.222.259.775.365.176.878.164.3ZLDN [82]74.077.865.237.046.775.883.758.817.573.149.051.376.787.430.647.875.062.564.868.861.2W2F [84]––––––––––––––––––––70.3Tanget al. FRCNN [70]83.882.760.735.153.882.788.667.422.086.368.850.990.893.644.061.282.565.971.176.768.4WS-JDS FRCNN79.884.068.340.261.580.585.875.829.777.749.567.458.687.466.246.678.573.784.572.868.6表4.PASCAL VOC 2010和2012上的目标检测和定位（mAP（%）和CorLoc（%））。训练我们使用128的小批量，学习率为0。001，动量为0。9，辍学率为0。五、我们使用步长学习率衰减模式，衰减权重γ =方法2010mAP（%）CorLoc（%）2012mAP（%）CorLoc（%）多重MIL[16个]27.455.2––OICR-VGG16[第六十九话]––37.962.1Jie等[36个]––38.358.8WS-JDS39.9 63.139.1 63.5OICR FRCNN [69]––42.5 65.6MELM [72]––42.4ZLDN [82]––42.9 61.5W2F [84]––47.869.4[77]第77话––44.4Tanget al. FRCNN [70]––45.7 69.3WS-JDS FRCNN45.7 68.146.169.57040的情况。步长为20epochs。在多尺度设置中，我们使用五个尺度{480，576，688，864，1200}。为了提高鲁棒性，我们随机调整图像的曝光和饱和度，最多调整1倍。5在HSV空间和一个随机作物0. 9的原始图像大小被应用。我们使用MCG [4]来生成对象建议，所有的实验，包括我们的基线方法的实施。我们将图像中区域建议的最大数量设置为2，048。所有模型都训练了30个epoch。我们将Xavier [27]和高斯初始化应用于新的卷积层和全连接层。试验. 学习的检测器在两个范例中进行评估，如下[40，19，69，24，77，58，70]：第一个范例直接将学习的检测器应用于测试图像，并输出每个区域的分数作为检测结果。第二种范式使用WSOD标记训练/验证图像中的边界框在这种情况下，对于每个类别，我们将具有最大检测分数的提案视为伪地面实况边界框。考试成绩是所有量表和翻转的平均值。检测结果通过使用阈值0的非最大抑制进行后处理。5个借据。对预测的掩模进行上采样以匹配输入图像的大小，然后应用全连接CRF来细化结果。4.3. 与基线的为了证明同时学习WSSS和WSOD模型的必要性和好处，我们将我们的完整框架与在Tab中删除了不同设计的基线模型进行了比较。 1. 第一种变体（WSOD||WSSS）利用共享的骨干网独立地训练两个任务。第二个（WSOD→WSSS）和第三个（WSOD（注：WSSS）的变化只采用一个方向的指导，即、检测到分割或分割到检测引导。第四个（WSOD）705表5.COCO最小集上的实例分割和目标检测方法APRAPR50APR75APRSAPRMAPRLAPBAPB50APB75APBSAPBMAPBLBB3.49.52.91.03.79.2WSDDNELL4.510.34.31.34.39.19.519.28.22.110.417.2MCG5.210.75.11.86.312.0BB4.210.34.12.15.310.1ContextLocNetELL4.710.64.41.35.410.09.919.48.72.110.817.9MCG5.510.95.32.06.711.9WS-JDS6.111.75.51.57.112.210.520.39.22.210.918.3WSSS）一个是我们的完整CGL方案。性能在WSOD中，WSOD的||WSSS和WSOD→WSSS与WSDDN相比，这主要是因为WSOD模型是独立训练的。在这两条基线上，没有WSSS的指导。性能的提升主要得益于共享多任务学习的骨干网络。在WSOD←WSSS中，通过利用分割像素图来细化挖掘的图像，WSOD的性能得到了显著监管最后，提出了CGL方案（WSODWSSS）通过组合来自两个方向的引导进一步改进了性能。与WS- DDN [10]相比，Tab. 1表明我们的模型达到45。6%mAP用于弱监督对象检测。虽然我们在VGG16骨干网上复制的 WSDDN （ WSDDN ）优于原来的WSDDN，但我们的方法仍然落后于WSDDN。以较大的余量执行此基线。实验结果表明，检测和分割的互补知识，有利于个人训练。4.4. 与最新技术水平的比较PASCAL VOC. 我们将比较的WSOD方法分为两类：基于对象发现和实例细化的方法，如第2节所述。2和第一和第二部分中的表。2 3.为了公平比较，我们不包括使用额外数据的方法[60，64，22]。对于对象发现，我们将我们的方法与现有技术进行比较，包括ZLDN [82]，MELM [72]，TS2 C [77]，OICR [69]等。该模型达到45。6%的mAP，达到最先进的性能。值得注意的是，从我们的框架的改进是正交的那些工作，所以所提出的CGL框架也可以受益于所有的技术，在上述文献中提出的。例如，我们还训练了一个Fast-RCNN [26]，其中包含从我们的弱监督检测器中提取的伪地面实况定位。我们取得了52分的成绩。5%的mAP，这是苏-在[40，80，69，72，82，58，77，70，84]中的先前工作中，增益约为0。一千五百万。5%在Tab。2.我们进一步进行PASCAL VOC 2010和2012的实验选项卡. 4表明我们的方法在所有指标上始终达到与最先进方法的竞争可可与所提出的技术，我们执行的立场分割COCO，这是更chal，比PASCAL VOC。据我们所知-边缘，这是第一个工作报告的结果，图像级监督的实例分割COCO。我们根据从弱监督定位方法获得的对象边界框构建了几个基线[86]。我们使用三种掩码提取策略：第一种策略使用整个边界框作为实例遮罩（BB）。第二种策略在边界框（ELL）上拟合最大椭圆。第三个策略检索MCG中的最大重叠分割掩码与边界框（MCG）。如Tab中所示5、在实例分割任务中，与其他方法相比，本文方法在APr 的我们还报告了COCO上的对象检测任务的性能。所提出的方法优于基线方法1。0%和0。6%在APb中。5. 结论在本文中，我们提出了一个多任务学习框架工作的弱监督对象检测和语义分割的问题。我们发现，这两个任务的不同故障模式实际上可以相互受益为了利用这两个任务所学到的互补知识，我们进一步建议循环引导学习方案。在该方案中，检测分支为分段分支提供了一个相当好的种子，而学习的掩码帮助检测器从局部最小值跳跃。在Pascal VOC和COCO的广泛使用的基准上，所提出的方法在弱监督对象检测和实例分割任务中都实现了与最先进的方法竞争或优越的性能。6. 确认本工作得到国家重点研发项目（No.2017YFC0113000，No.2016YFB1001503）的支持，国家自然科学基金项目（编号： U1

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

弱监督联合检测与分割的多任务学习方法

弱监督语义分割可行性分析

弱监督语义分割、无监督语义分割和全监督语义分割的关系和区别

多阶段弱监督语义分割和端到端语义分割区别

transformer弱监督分割

弱监督语义分割 CRF

深度学习无监督图像分割综述

transformer弱监督语义分割

无监督学习 图像分割

弱监督语义分割 CAM如何得到

什么是基于监督学习的脑肿瘤分割方法

遥感语义分割常用的弱监督数据集有哪些

半监督医学图像·分割

多任务学习框架文字识别

我需要进行三维点云分割任务，但点云数量较少，除了上述的无监督学习聚类，有没有带监督的方法，或者我自己选择数据特征？

传统图像分割方法与深度学习图像分割方法的区别

弱监督语义分割测试集怎么做

用pytorch写一个基于半监督学习的语义分割模型

基于监督学习的脑肿瘤分割方法

基于微信小程序的新生报到系统设计与实现.docx

最新资源

无监督学习图像分割