简单弱监督的语义分割方法

150 浏览量更新于2023-10-16 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1简单就行：弱监督实例和语义分割Anna Khoreva1 Rodrigo Benenson1 Jan Hosang1 Matthias Hein2 Bernt Schiele11德国萨尔布吕肯马克斯·普朗克信息学研究所2德国萨尔布吕肯萨尔兰大学摘要语义标记和实例分割是两个需要特别昂贵的注释的任务。从边界框检测注释形式的弱监督开始，我们提出了一种不需要修改分割训练过程的新方法。我们表明，当仔细设计输入标签时，训练样本，带框注释测试图像，完全监督结果测试图像，弱监督结果根据给定的边界框，即使是单轮训练也足以改善先前报告的弱监督结果。总的来说，我们的弱监督方法达到了完全监督模型质量的95%，无论是语义标记还是实例分割。1. 介绍卷积网络已成为计算机视觉中模式识别问题的事实上的技术。他们的主要优势之一是能够从大量的训练数据中获益，以达到最高质量。然而，它们的一个主要缺点是，它们需要大量的训练样本来获得高质量的结果。这通常是通过使用预先训练的模型来缓解的。els（例如，ImageNet分类的训练样本为106个[37]），但仍然需要数千个样本从预训练域转移到应用域。诸如语义标记（将每个图像像素与给定类别相关联）或实例分割（将属于同一对象实例的所有像素分组）之类的应用注释起来是昂贵的，并且因此在创建足够大的训练集时涉及显著的成本。与对象边界框注释相比，逐像素掩码注释要昂贵得多，需要[25]第二十五话框注释比像素注释更便宜、更容易定义。原则上，大量的框注释（以及表示背景类的图像）应该传达足够的信息，以理解框内容的哪个部分是前景，哪个部分是背景。在本文中，我们解释了在训练一个convnet时使用语义标签（或实例分割）的完全监督我们的实验集中在20个Pascal类上[9]，图1：我们提出了一种训练语义标签的技术从边界框，并达到95%的质量时，从像素的注释训练获得。表明在相同的训练集上仅使用边界框注释，我们可以达到完全监督所能达到的准确率的95%我们展示了（边界框）弱监督语义标签的最佳结果，并据我们所知，首次报告结果用于弱监督实例分割。我们将监管不力的问题视为输入标签噪声的问题。我们探索递归训练作为一种去噪策略，其中前一轮训练的convnet预测被用作下一轮的监督。我们还表明，如果使用得当，综上所述，我们的主要贡献包括：— 我们探讨了弱监督语义标记的convnets的递归训练，讨论了如何达到高质量的结果，以及方法（第3.1节）。— 我们表明，当适当地使用GrabCut类算法来生成训练标签从给定的边界框，而不是修改分割convnet训练过程或使用递归训练（第3.2节）。— 我们报告了最著名的结果时，训练使用- ING边界框，都使用Pascal VOC 12和VOC 12 +COCO训练数据，达到与完全监督机制相当的质量（第4.2节）。876877— 我们是第一个证明弱监督实例分割任务可以实现类似结果的人（第6节）。2. 相关工作语义标签。语义标记可以通过决策森林[38]或手工制作的超像素特征 [11] 上的分类器来解决。然而，convnets已被证明是partic- ularly有效的语义标签。最近提出了一系列变体[32，26，5，24，48，18，46]。在这项工作中，我们使用DeepLab [5]作为我们的参考实现。该网络在Pascal VOC12语义分割基准上实现了最先进的性能，源代码可以在线获得。几乎所有这些方法都包括一个后处理步骤，以在预测的片段中强制执行空间连续性，这对结果提供了不可忽略的改进（2×5点）。最流行的技术是DenseCRF[20]，但也考虑了其他变体[19，2]。弱监督语义标签。为了保持较低的注释成本，最近的工作探索了不同形式的语义标记监督：图像标签[29，28，27，30，42]，点[3]，涂鸦[44，23]，和边界框[8，27]。[8，27，15]还考虑一小部分图像被完全监督的情况。[44]提出了一个框架来处理所有这些类型的注释。在这项工作中，我们专注于框级注释的语义标记的对象。因此，最密切相关的工作是[8，27] 。 BoxSup [8] 提出了一种递归训练程序，其中convnet在分段对象建议的监督下进行训练，而更新的网络反过来又改进了用于训练的分段。WSSL [27]提出了一种带有偏差的期望最大化算法，使网络能够估计前景区域。在结果部分我们对这些工作进行了比较。由于所有实现都使用略有不同的网络和训练过程，因此在比较过程中应小心。[8]和[27]都提出了在弱监督下训练convnet的新方法相比之下，在这项工作中，我们证明了在不修改训练过程的情况下（与完全监督的情况相比），通过从边界框注释中仔细生成用于训练的输入标签，可以获得更好的结果（第3节）。实例分段。与按对象类对像素进行分组的实例不可知语义标记相反，实例分割按对象实例对像素进行分组并忽略类。生成段（如[34，21]）的对象建议[35，16类似地，给定边界框（例如，由检测器选择），GrabCut[36]可以使用变体来获得实例分割（例如，[22、7、41、40、47]）。为了实现检测和分割系统的端到端训练，最近有人提出为实例分割任务训练convnets [14，33]。在这项工作中，我们探讨了弱监督训练的一个实例分割convnet。我们使用DeepMask [33]作为此任务的参考实现此外，我们将最初为语义分割设计的DeepLab-v2网络[6]重新用于实例分割任务。3. 从盒子到语义标签这项工作的目标是提供高质量的语义标签从对象边界框注释。我们设计我们的方法，旨在充分利用现有的信息。有两个信息来源：注释框和对象的先验知识。我们将这些整合到以下线索中：C1背景。由于期望边界框是穷举的，因此未被框覆盖的任何像素都被标记为背景。C2对象范围。框注释限定了每个实例的范围。假设物体形状的先验（例如，椭圆形物体比细条或完整的矩形物体更有可能），该框还提供了关于预期物体区域的信息。我们在训练过程中使用这些尺寸信息。C3客观性。除了范围和面积之外，还有其他对象先验。通常使用的两个先验是空间连续性和与背景具有对比边界。一般来说，我们可以通过使用分段建议技术[35]来利用关于对象形状的先验知识，该技术旨在枚举和排名图像区域中可能的对象形状。3.1. 框基线我们首先描述一个朴素的基线，作为我们探索的起点。给定一个带注释的边界框及其类标签，我们用给定的类来标记框内的所有像素。如果两个盒子重叠，我们假设较小的一个在前面。任何未被框覆盖的像素都被标记为背景。图2左侧和图3c示出了这样的示例注释。我们使用这些标签来训练分割网络与标准的训练过程。我们采用了[5]中的DeepLabv1方法（详见第4.1节）。递归训练。我们观察到，当在训练集上应用生成的模型时，网络输出捕获对象形状的效果明显优于仅捕获方框（见图2）。这激励我们遵循递归训练过程，在第二轮训练中，这些新标签作为基础事实被输入。我们将这种递归训练方法命名为Naive。878例如后输出后后地面输入矩形1轮5轮10轮真相图2：仅使用矩形段和递归训练的示例结果（使用convnet预测作为下一轮的监督），请参见第3.1节。通过使用来自注释框和对象先验的额外信息对con-vnet输出进行去噪来增强递归训练在每一轮之间，我们通过三个后处理阶段来改进标签：1. 框注释外的任何像素都将重置为背景标签（提示C1）。2. 如果片段的面积与其对应的边界框（例如，IoU<50%），则框区域重置为其初始标签（在第一轮中馈送）。这强制执行最小区域（提示C2）。3. 由于这是语义标记方法中的常见做法，我们过滤网络的输出以更好地尊重对象边界。(We使用DenseCRF [20]和DeepLabv1参数[5]）。在我们的弱监督的情况下，边界感知过滤是特别有用的，以改善对象描绘（提示C3）。递归和这三个后处理阶段对于达到良好的性能至关重要。我们将这种递归训练方法命名为Box，并在图2中显示了一个示例结果。忽略区域。我们还考虑第二个变量Boxi，它不是使用填充的矩形作为初始标签，而是填充20%的内部区域，并将边界框的剩余内部区域保留为忽略区域。参见图3d。在线索C2和C3（形状和空间连续性优先级）之后，20%的内部框区域应该具有与相应对象重叠的更高机会，从而减少所生成的输入标签中的噪声。直觉是，convnet训练可能会受益于权衡较低的召回率（更多的忽略像素）以获得更高的精度（更多的像素被正确标记）。从这个初始输入开始，我们使用与Box相同的递归训练过程。尽管该方法简单，但如我们将在实验部分4中看到的，Box/Boxi已经与现有技术水平竞争然而，使用矩形形状作为训练标签显然是次优的。因此，在下一节中，我们提出了一种方法，可以在避免递归训练的同时获得更好的结果。3.2. 框驱动段框基线故意简单。复杂性的下一个步骤包括利用框注释来生成对象段的初始猜测。我们认为这是虽然输出的对象分段是有噪声的，但是它们比简单的矩形更精确，并且因此提供改进的结果。一轮训练就足以达到良好的质量。3.2.1GrabCut基线GrabCut [36]是从其边界框估计对象段的既定技术我们建议使用GrabCut 的修改版本，我们称之为GrabCut+，其中HED边界[43]用作成对项，而不是典型的RGB色差。(The HED边界检测器在BSDS 500的通用边界上训练[1]）。我们考虑了其他GrabCut变体，例如[7，40];然而，提出的GrabCut+提供了更高质量的片段（参见补充材料）。与Boxi类似，我们也考虑GrabCut+i变量，它以更高的精度来权衡召回率。对于每个带注释的框，我们生成多个（约150个）扰动GrabCut+输出。如果70%的线段将该像素标记为前景，则该像素将被设置为框对象类。如果小于20%的片段将像素标记为前景，则将像素设置为背景，否则将其标记为忽略。扰动输出通过抖动盒坐标（±5%）以及GrabCut考虑的外部背景区域的大小（从10%到60%）生成GrabCut+i的示例结果可以在图3g中看到。3.2.2添加对象在我们的最终方法中，我们试图通过使用分段建议来更好地结合物体形状先验[35]。分段建议技术被设计为生成一个可能的对象分割汤，结合尽可能多的879我们使用来自MCG的最新提案[34]。作为最后阶段，MCG算法包括基于Pascal VOC 2012数据集训练的决策森林我们不使用最后一个排名阶段，而是使用所有（未排名）生成的片段。给定一个框注释，我们选择最高重叠的建议作为相应的片段。基于第二节1.1 在 3.2 中，我们使用 MCG 细分建议来补充GrabCut+。在注释框中，我们将MCG和GrabCut+一致的像素标记为前景像素;其余的像素标记为忽略。我们将这种方法简称为MCGGrabCut+或MG+由于MCG和GrabCut+提供了互补的信息，我们可以将MCG+视为GrabCut+i的改进版本，在生成的标签上提供了精确度和召回率之间的不同权衡（参见图3i）。BoxSup方法[8]还在训练期间使用MCG对象建议;然而，存在着重要的区别。他们修改了训练过程，以便通过随机选择高重叠的propos- als来消除中间输出相比之下，我们的方法保持训练过程不变，只生成输入标签。我们的方法还使用了忽略区域，而BoxSup没有探索这个维度。最后，BoxSup比我们的方法使用更多的epoch进行训练。第四节给出了语义标注任务的结果，比较了不同的方法和不同的监督规则。在第5节中，我们证明了所提出的方法也适用于实例分割任务。4. 语义标注结果我们的方法同样适用于（和有效）弱监督的实例分割以及se-mantic标签。然而，只有后者有直接可比的相关工作。因此，我们集中我们的实验性的语义标记任务的com-course努力。第6节给出了分割结果。第4.1节讨论了语义标签的实验设置、部分4.2给出了我们的主要结果，将第3节中的方法与当前最先进的方法进行了对比。第4.3节通过更详细的分析进一步扩展了这些结果，并给出了使用更多监督（半监督情况）时的结果。4.1. 实验装置数据集。我们在Pascal VOC12分割基准上评估了所提出的方法[9]。数据集由20个前景对象类和一个背景类组成。VOC12数据集的分割部分包含1 464个训练图像、1 449个验证图像和1 456个测试图像。以下在以前的工作[5，8]中，我们使用[12]提供的注释扩展了训练集，得到了10582个训练图像的增强集在我们的一些实验中，我们使用额外的训练IM-COCO数据集的年龄[25]。我们只考虑包含20个Pascal类中的任何一个的图像，并且（遵循[48]）只考虑边界框面积大于200像素的对象。过滤后，剩下99310张图像（来自训练集和验证集），这些图像被添加到我们的训练集。当使用COCO数据时，我们首先在COCO上进行预训练，然后在Pascal VOC 12训练集上进行微调。所有COCO和Pascal训练图像都带有语义标记注释（对于完全监督的情况）和边界框注释（对于弱监督的情况）。评价我们使用“comp6”评估协议。性能是以跨21个类（mIoU）平均的像素交叉-联合（pixel intersect-over-union）来衡量的。我们的大多数最终结果在测试集上报告（通过评估服务器），并与其他最先进的方法进行比较。实作详细数据。对于我们所有的实验，我们使用DeepLab-LargeFOV网络，使用与[5]相同的训练和测试参数。该模型从在ImageNet上预训练的VGG16网络初始化[39]。我们使用30张图像的小批量进行SGD，初始学习率为0的情况。001，其在2k/20k迭代之后除以10（对于Pascal/COCO）。在测试时，我们应用DenseCRF [20]。我们网络和后处理与[8，27]中使用的网络和后处理相当。请注意，已经考虑了多种策略来提高测试时间结果，例如多分辨率或模型集成[5，18]。在这里，我们保持方法简单和固定。在我们所有的实验中，我们使用固定的训练和测试时间程序。在整个实验中，我们只改变网络可以看到的输入训练数据。对于我们最好的变体MG+，VOC12的数据生成步骤需要约6小时，在GPU机我们的总培训时间约为16小时，包括Dee- pLab培训（约10小时）。相比之下，BoxSup [8]训练需要约27小时。4.2. 主要结果盒子结果。图4显示了第3.1节中框基线的递归训练结果。我们看到，朴素方案，一个递归训练矩形无视后处理阶段，导致质量差。然而，通过使用建议的三个后处理阶段，Box基线获得了显着的增益，非常接近任务的最佳报告结果[8]。补充材料详细介绍了每个后处理阶段的贡献添加忽略re-矩形内的gions（Box→Boxi）提供了一个清晰的880（a）输入图像（b）地面实况（c）Box（d）Boxi（e）GrabCut（f）GrabCut+（g）GrabCut+i（h）MCG（i）MG+图3：从边界框注释开始获得的不同分割的示例。灰色/粉红色/洋红色表示不同的对象类，白色为背景，忽略区域为米色。MG+表示MCGGrabCut+。70605040 0 5 10表1：我们基线的弱监督语义标签结果。仅使用PascalVOC12边界框进行训练DeepLabOur表示，15个全面监督的结果。训练轮次图4：不同方法的分割质量与训练回合，另见表1和表2。 Pas- cal VOC 12验证集结果。“Previous best (rect-angles/segments)” corresponds to增益和导致本身的最先进的结果。图4还显示了对完全监督的情况使用较长训练的结果。当使用地面真实语义分割注释时，一轮训练足以实现良好的性能;较长时间的训练带来边际改善。如第3.1节所述，达到良好Box/Boxi的质量需要多轮训练，从第5轮开始性能变得稳定-沃德。相反，GrabCut+/MG+不受益于额外的训练回合。框驱动细分结果。表1评价了Pascal VOC 12验证集的结果。它指示Box/Boxi 10轮后的结果，和一轮后的MCG/GrabCu t+/GrabCut+i/MβG+结果。语义标签（下限），我们在结果中看到，系统地使用忽略区域有助于（对前记忆的权衡）结论），并且MβG+比MCG提供更好的结果，BMiou充分y suPE雷维塞DM B.GB.G..++GraBCUt+框我Preeviousbest（（sseggmmenn （ttss））框预维乌S est （rec唐 les）方法Val. Miou-Fast-RCNNGT盒子44.362.2框61.2方框一62.7弱MCG62.6监督GrabCut++i63.464.3MG+65.7完全监督的DeepLab我们 [5]69.1881仅使用GrabCut+。表2指示了在1轮训练之后的框驱动分段结果，并且示出了与仅使用Pascal或Pascal从框训练的其他现有技术方法VOC 12或VOC 12 +COCO数据。BoxSupR和WSSLR都用矩形段（与 Boxi 相当）馈送网络，而WSSLS 和BoxSupMCGe利用任意形状的段（与MG+相当）。虽然我们的网络和后处理与[8，27]，在确切的培训程序和参数方面存在差异（补充材料中的详细信息）。总体而言，我们的研究结果表明，在不修改训练过程的情况下，MG+能够改善过度报告的结果，并达到95%的完全监督训练质量。通过使用COCO数据进行训练[25]，通过对Pascal VOC 12进行微调，我们看到，有了足够的广告边界框，我们就可以匹配Pascal VOC 12（68.九对六十九。①的人。这表明，通过用边界框注释替换分割掩码，可以显著减少标记工作。4.3. 附加结果半监督案件。表2比较了[8，27]所考虑的半监督模式的结果，其中一些图像具有完全监督，而一些图像仅具有边界框监督。使用10%的Pascal VOC12语义标签标注进行训练并不会带来太多的好处。表2：语义标记结果予以审定和对业绩的贡献（65. 七对六十五。8），这暗示了所生成的MG+输入数据的高质量。通过使用Pascal上的地面实况注释加上COCO上的绑定框注释，我们观察到2。5点收益（69. 1→71。6，见表2）。这表明，通过使用额外的使用边界框注释训练数据。边界监督。我们从MCG、GrabCut+和MG+获得的结果都间接包括了通过HED边界从BSDS 500数据集[1]获得的检测器[43]。这些结果与BoxSup-MCG [8]完全相当，我们看到了明显的改善。尽管如此，人们还是想知道使用BSDS500的密集边界注释对结果有多大我们使用[17]中的弱监督边界检测技术直接从Pascal VOC 12框注释。与使用BSDS 500相比，使用弱监督HED边界训练MG+会导致1分损失（64. 八对六十五。Pascal VOC 12验证集上的7我们看到，虽然额外的监督确实带来了一些帮助，它的影响很小，即使我们只使用Pascal VOC12 + ImageNet预训练，我们的结果仍然排名第一。不同的convnet结果。为了与[8，27]进行比较，我们在实验中使用了带有VGG-16网络的DeepLabv 1。为了证明我们的方法也可以推广到测试集; 在不同的训练制度与VOC 12(V)COCO数据（C）下划线表示完全监督基线，粗体表示我们最好的弱监督和半监督结果。FS%：相对于最佳全监督模型的性能（DeepLab我们的）。第4.2和4.3节中的讨论。在不同的convnet中，我们还使用ResNet101网络训练了DeepLabv2 [6]。表3给出了结果。与 VGG-16 的情况类似，当使用 VOC 12/VOC 12+COCO进行训练时，我们的弱监督方法MG+达到了完全监督情况的93%/95%，并且使用COCO数据的弱监督结果达到了与仅使用VOC 12的完全监督类似的质量。5. 从盒子到实例分割作为对前几节实验的补充，我们还探索了第二个任务：弱监督实体分割。据我们所知，这些是关于这项任务的首次报道实验。随着对象检测向前发展，需要提供比对象周围的简单边界框更丰富的输出。最近[14，33，31]探索了训练convnets来输出前景与背景分割，超级-#GT #弱愿景图像图像方法Val. 设置Miou测试Miou设置FS%VOC 12（V）Bearman等人[3]第一章45.1--[8]第八话52.3--[27]第二十七话52.554.276.9弱-V 10 k[27]第二十七话60.662.288.2[8]第八话62.064.691.6方框一62.763.590.0MG+65.767.595.7[27]第二十七话62.1--半 V 1.4k V 9K[8]第八话63.566.293.9[27]第二十七话65.166.694.5MG+65.866.994.9免费WiFi [8]63.8--全V 10 k-WSSL [27]67.670.399.7DeepLab我们的[5]69.170.5100VOC 12 + COCO（V+C）弱-V+C110 k方框一MG+65.368.966.769.991.195.5半 V 10kC 123kC 100 k[8]第八话MG+68.271.671.072.897.099.5全V+C 133 k-免费WiFi [8]68.1--882监督地面实况Box BoxiMG+SemiMG+完全监督图5：VOC 12的定性结果。从视觉上看，我们的弱监督方法MG+的结果与完全监督的结果几乎没有表3：DeepLabv 2-ResNet 101网络语义词实例段。6. 实例分割结果实验装置。我们基于“超列系统2”架构[ 14 ]选择了一个故意简单的实例分割流水线我们使用Fast-RCNN [10]检测（后NMS）及其类得分，并为每个检测估计相关的前景片段。我们估计-使用VOC12或VOC12+COCO训练数据对VOC12验证集进行的振铃结果。FS%：相对于全面监督的绩效。讨论见第4.3节。一个给定边界框内的实例。这种网络使用区分实例的逐像素注释进行训练。这些注释比语义标记更详细和昂贵，因此对弱监督训练感如3.2节所述，用于训练的片段是从单个对象边界框开始生成的。每个段代表一个不同的对象实例，因此可以直接用于训练一个实例分段convnet。对于每个带注释的边界框，我们使用GrabCut+方法（第3.2节）生成前景与背景分割，并训练convnet从图像和边界框信息回归到使用一些基线方法（例如，GrabCut）或使用为任务训练的convnets [33，6]。对于我们的实验，我们使用DeepMask[33]架构的重新实现，此外，我们重新使用DeepLabv 2 VGG-16网络 [6] 用于实例分割任务，我们将其命名为DeepLabBOX。受[45，4]的启发，我们修改DeepLab以接受四个输入通道：输入图像RGB通道，加上一个二进制地图与对象实例的边界框分割。我们训练网络DeepLabBOX输出与输入边界框额外的输入通道引导网络，以便仅分割感兴趣的实例，而不是场景中的所有对象输入框矩形也可以被看作是期望输出的初始猜测我们使用地面真值边界框进行训练，并在测试时使用Fast-RCNN检测框。我们训练DeepMask和DeepLabBOX，图像监督方法mIoU FS%VOC12弱充分MG+DeepLabv2-ResNet101 [6]69.4 93.274.5100VOC 12 +COCO弱充分MG+DeepLabv2-ResNet101 [6]74.2 95.577.7100883表4：VOC12验证集的实例分割结果。下划线表示全监督基线，粗体表示我们最好的弱监督结果。弱监督DeepMask和DeepLabBOX达到与完全监督相当的结果。详情见第6GrabCut+在Pascal VOC12或VOC12+COCO数据上的结果（1轮训练，没有第3.1节中的递归），并在VOC12验证集上进行测试，与第4节中使用的图像集相同。来自[12]的增强注释为VOC12提供了每个实例的片段。我们不对这两个网络使用CRF后处理。根据实例分割文献[13，14]，我们在表4中报告了IoU阈值0时的mAP r。5和0。75.R图6：示例结果来自我们的弱监督DeepMask（VOC12+COCO）型号。VOC 12 +COCO。来自弱监督DeepMask（VOC12+COCO）的实例分割结果的示例如图6所示。补充材料中提供了其他示例结果7. 结论本文中提出的一系列实验提供了关于如何仅从边界框注释训练像素标记连接的新见解。我们发现，当仔细使用可用的线索时，仅使用矩形作为输入的递归训练可以令人惊讶地有效（方框i）。更多，当使用box-drivenmAP类似于传统的VOC 12评估，但在片段之间使用IoU，而不是在盒子之间。由于我们有一组固定的窗口，我们还可以报告平均最佳重叠（ABO）[35]指标，以提供对结果的不同看法。基线。我们考虑五个无培训基线：简单地用前景标签填充检测矩形（框），在框内拟合椭圆，使用MCGpro-tools 与最佳边界框 IoU ，并使用 GrabCut 和GrabCut+（参见第3.2节），从检测框初始化。分析. 结果表4遵循与表4相同的趋势。第4节中的语义标记结果。GrabCut+在所考虑的基线中提供了最好的结果，并显示出与DeepMask相当的性能，而我们提出的DeepLabBOX优于这两种技术。我们看到，我们的弱监督方法达到了95%，R的质量完全监督的情况下（无论是在mAP 0。5和ABO指标）使用两个不同的convnets，DeepMask和DeepLabBOX，在使用VOC 12或分割技术和做好平衡之间准确率和召回率，我们可以在单轮训练中达到最先进的性能，而无需修改分割网络训练程序（MG+）。我们的研究结果在语义标记任务上优于以往的研究结果，并且达到了在地面训练的相同网络的95%的质量真值分割注释（在相同的数据上）。通过使用额外的训练数据和COCO的边界框注释，我们能够匹配完整的监督结果。我们还报道了弱超-ved实例分割，我们也达到了全监督训练质量的95%我们目前的方法利用现有的框驱动分割技术，对待每个注释框indi- vidually。在未来的工作中，我们希望探索共同分割的想法（将注释集视为一个整体），并考虑更弱的监督形式。生成的数据和预训练的模型：网址：//www.mpi-inf.mpg.de/box-to-segments网站。监督方法地图R0的情况。5贴图r0的情况。75Abo矩形椭圆- MCGGrabCut+21.629.528.338.541.11.83.95.913.917.838.541.744.745.846.4VOC12弱DeepMaskDeepLab盒子39.444.88.116.345.849.1充分DeepMaskDeepLab盒子41.747.59.720.247.151.1VOC 12 +COCO弱DeepMaskDeepLab盒子42.911.548.851.4884引用[1] P. 阿尔贝拉埃斯湾迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。PAMI，2011年。三、六[2] J. Barron和B.浦耳快速双边求解器。arXiv预印本arXiv：1511.03296，2015年。2[3] A. Bearman，O. Russakovsky ，V. Ferrari和L.飞飞。这有什么意义：带有点监督的语义分割。arXiv预印本arXiv：1506.02106，2015。二、六[4] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克迭代误差反馈人体位姿估计。在CVPR，2016年。7[5] L. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A.尤尔。基于深度卷积网和全连接crfs的语义图像分割。2015年，国际会议。二三四五六[6] L- C. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A.L. 尤尔。Deeplab：使用深度卷积网络，atrous 卷积和全连接 crfs 的语义图像 arXiv ：1606.00915，2016。二六七[7] M. Cheng，V. Prisacariu，S. Zheng，P. Torr，和C.罗瑟Densecut：用于实时抓取的密集连接的crf。计算机图形学论坛，2015年。二、三[8] J. Dai，K. He和J. Sun. Boxsup：利用绑定盒来监督卷积网络进行语义分割。在ICCV，2015年。二、四、六[9] M. Everingham，S.M. A. 埃斯拉米湖凡古尔角，澳-地K. I.威廉斯，J. Winn和A.齐瑟曼。PascalVisualObjectClassesChallenge：ARetrospective.IJCV，2015年。1、4[10] R.娘娘腔。快速R-CNN。在ICCV，2015年。五、七[11] S.古尔德河Fulton和D.科勒将场景分解为几何和语义一致的区域。ICCV，2009年。2[12] B.哈里哈兰山口阿贝拉埃斯湖Bourdev，S.玛吉，还有J·马利克从反向检测器的语义轮廓。见ICCV，2011年。四、八[13] B.哈里哈兰山口阿尔贝拉埃斯河Girshick和J.马利克同时检测和分割。2014年，在ECCV。8[14] B.哈里哈兰山口阿尔贝拉埃斯河Girshick和J.马力。用于对象分割和细粒度定位的超列。CVPR，2015。二、六、七、八[15] S. Hong，H. Noh和B.韩用于半监督语义分割的解耦深度神经网络。2015年，在NIPS中。2[16] 霍桑河Benenson，P. Dollár，and B.席勒什么是有效的检测建议？PAMI，2015年。2[17]A.霍雷瓦河Benenson，M. Omran，M.海因，还有B.席勒弱监督对象边界。在CVPR，2016年。6[18] I. Kokkinos使用深度学习突破边界检测的界限。ICLR，2016年。二、四[19] Kolmogorov和R.扎比什么样的能量函数可以通过图割最小化？. PAMI，2004年。2[20] P. Krähenbühl和V.科尔顿。具有高斯边缘势的全连接crfs中的有效推理。在NIPS。2011. 二、三、四[21] P. Krähenbühl 和 V. 科尔顿。学习提出目标。CVPR，2015。2[22] 诉Lempitsky，P.科利角Rother和T.点整打基于边界框先验的图像分割。ICCV，2009年。2[23] D. Lin，J. Dai，J. Jia，K. He和J. Sun. Scribble-sup：用于语义分割的Scribble-supervised卷积网络。在CVPR，2016年。2[24] G.林角，澳-地Shen，中国古猿A. van dan Hengel和我。里德用于语义分割的深度结构化模型的高效分段训练在CVPR，2016年。2[25] T.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D. Ramanan，P. Dollár，and C. L.齐特尼克微软coco：上下文中的公用对象。2014年，在ECCV。一、四、六[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分割的全卷积网络。CVPR，2015。2[27] G.帕潘德里欧湖Chen，K. Murphy和A. L.尤尔。基于弱监督和半监督学习的dcnn语义图像分割。在ICCV，2015年。二、四、六[28] D. Pathak，P. Kraehenbuehl，and T.达雷尔。用于弱监督分割的约束卷积神经网络在ICCV，2015年。2[29] D. Pathak，E.Shelhamer，J.Long和T.达雷尔。完全卷积的多类多实例学习。ICLR研讨会，2015年。2[30] P. Pinheiro和R.科洛伯特使用卷积网络从图像级到像素级标记。CVPR，2015。2[31] P. Pinheiro ，T. Y.林河，巴西-地 Collobert和P.Dollár.学习细化对象分段。在ECCV，2016年。6[32] P. O. Pinheiro和R.科洛伯特用于场景标记的递归卷积神经网络。InICML，2014. 2885[33] P. O.皮涅罗河Collobert和P. Dollár.学习分割候选对象。2015年，在NIPS中。二六七[34] J. Pont-Tuset，P. Arbeláez，J. Barron，F. Marques和J. 马利克用于图像分割和对象建议生成的多尺度组合分组arXiv预印本arXiv：1503.00848，2015年。二、四[35] J. Pont-Tuset和L.诉好极了提升对象的提案：从Pascal到Coco。在ICCV，2015年。二、三、八[36] C. Rother ， V. Kolmogorov ， and A. 布莱克Grabcut：使用迭代图切割的交互式前景提取。ACM Trans. Graphics，2004年。二、三[37]O. 鲁萨科夫斯基J. 邓小平说，H. 苏克劳斯，S. 萨特伊什妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M.伯恩斯坦，A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年。1[38] J. Shotton，J.温恩角Rother和A. 天啊Tex- tonboost用于图像理解：通过联合建模纹理、布局和上下文进行多类对象识别和分割。IJCV，2009年。2[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。2015年，国际会议。4[40] M.唐岛Ben Ayed，D. Marin和Y.博伊科夫grabcut和k-means内核的秘密在ICCV，2015年。二、三[41] T. Taniai，Y. Matsushita和T.内村二元能量的超微分切割。CVPR，2015。2[42] Y. Wei，X. Liang，Y. Chen，X.沈，M.-M.程先生，Y. Zhao和S.燕. STC：一个简单到复杂的框架，用于弱监督语义分割。 arXiv 预印本 arXiv ：1509.03150，2015年。2[43] S. Xie和Z.涂。整体嵌套边缘检测。在ICCV，2015年。三、六[44] J. Xu，A. Schwing和R.乌塔松学会在各种形式的弱监督下进行分割。CVPR，2015。2[45] N.徐湾，澳-地Price，S. Cohen，J. Yang，and T. S. 煌深度交互式对象选择。在CVPR，2016年。7[46] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR，2016年。2[47] H. Yu，Y.Zhou，H.Qian，M.西安Y.Lin，L.郭、K. Zheng，K. Abdelfatah和S.王. Loosecut：使用松散边界框进行交互式图像分割。arXiv预印本arXiv：1507.03060，2015年。2[48] S. Zheng ， S.Jayasumana 湾 Romera-Paredes ， V.范·伊特，Z. Su，D.杜角，澳-地Huang，和P.乇作为递归神经网络的条件随机场。在ICCV，2015年。二、四

下载后可阅读完整内容，剩余1页未读，立即下载