基于目标边界的实例分割方法

63 浏览量更新于2023-10-15 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15696边界感知实例分割Zeeshan Hayder1，2，何旭明2，11澳大利亚国立大学2Data 61/CSIROMathieu Salzmann33CVLab，EPFL，Switzerland摘要我们解决的问题，实例级的语义分割，其目的是在联合检测，分割和分类图像中的每一个单独的对象。在这种情况下，现有的方法通常提出候选对象，通常作为边界框，并直接预测每个这样的建议内的二进制掩码。因此，它们不能从对象候选生成过程中的错误中恢复，例如太小或移位的框。本文提出了一种新的基于目标模板距离变换的目标分割表示方法。然后，我们设计了一个对象掩码网络（OMN）与一个新的残差反卷积架构，推断这样的表示，并将其解码成最终的二进制对象掩码。这使我们能够预测超出边界框范围的掩模，从而对不准确的对象候选者具有鲁棒性。我们将OMN集成到多任务网络级联框架中，并以端到端的方式学习结果边界感知实例分割（ BAIS ）我们在 PAS-CAL VOC 2012 和Cityscapes数据集上的实验证明了我们的方法的好处，它在对象建议生成和实例分割方面都优于最先进的方法。1. 介绍实例级语义分割旨在联合检测、分割和分类图像中的每个个体对象，最近已成为场景理解中的核心挑战[5，23，9]。与其类别级对应物不同，实例分割提供关于单个对象的位置、形状和数量的详细信息。因此，它在不同领域有许多应用，例如自动驾驶[35]，个人机器人[12]和工厂分析[30]。现有的多类实例分割方法通常依赖于以下形式的通用对象建议：CSIRO由澳大利亚政府资助，由宽带、通信和数字经济部以及ARC通过ICT卓越中心计划提供资金。图1. 传统的实例分割与我们基于边界的表示。左：原始图像和地面实况分割。中间：给定边界框，传统方法直接预测二进制掩码，其范围因此受限于框的范围，并且因此遭受框不准确性。右：我们用一个多值映射来表示对象分段，该映射对到对象边界的截断最小距离进行编码。这可以转换为超出边界框的掩码，这使得我们的方法对框错误具有鲁棒性。边界框这些建议可以学习[14，21，8]或通过滑动窗口[25，6]进行采样，并且极大地促进了识别不同实例的任务，它们可能来自相同类别或不同类别。然后通过预测每个框建议内的二进制掩码来实现对象分割，然后可以将其分类到语义类别中。然而，这种分割方法使得这些方法对边界框的质量敏感;它们不能从对象轮廓生成过程中的错误中恢复，例如太小或移位的框。在本文中，我们介绍了一种新的表示对象段，是强大的错误包围盒的建议。为此，我们建议使用密集多值映射编码对对象的形状进行建模，对于框中的每个像素，其到对象边界的（截断）最小距离，或者像素在对象外部的事实。然后可以通过逆距离变换将该多值映射转换为二进制掩码来实现对象分割[3，18]。与上面讨论的现有方法相反，并且如图1B所示。1、所得掩模不限于位于边界框内;即使盒子只覆盖了物体的一部分，在我们的表示中，到边界的距离也可能对应于超出盒子空间范围的物体片段。15697为了利用我们的新对象表示，我们设计了一个对象掩码网络（OMN），对于每个盒子pro-bands，首先预测相应的像素多值映射，然后将其解码为最终的二进制掩码，可能超出盒子本身。特别是，我们离散截断的距离和编码使用二进制向量。这将多值映射的预测转化为逐像素标记任务，深度网络对此非常有效，并有助于将映射解码为掩码。然后，我们的网络的第一个模块产生多个概率图，每个概率图都指示该向量中一个特定位的激活。然后，我们将这些概率图传递到一个新的残差反卷积网络模块中，该模块生成最终的二元掩码。由于反卷积层，我们的输出不限于位于盒子内，并且我们的OMN是完全可微的。为了解决实例级语义分割，我们通过替换原始的二进制掩码预测模块，将OMN集成到[8]的多任务网络级联由于我们的OMN是完全可区分的，因此我们可以以端到端的方式学习所产生的实例级语义总之，这产生了一个边界感知实例分割（BAIS）网络，该网络对噪声对象建议具有鲁棒性。我们在 PASCAL VOC 2012 [9] 和具有挑战性的Cityscapes [5]数据集上证明了我们方法的有效性。我们的BAIS框架在这两个数据集上的表现优于所有最先进的方法，在高IOU的情况下有相当大的差距。此外，对我们的OMN在PASCAL VOC 2012数据集上生成对象提案的任务的评估表明，它实现了与最先进的方法（如DeepMask [25]和SharpMask [26]）相当甚至更好的性能。2. 相关工作多年来，在类别级语义分割的任务上取得了很大进展，特别是自从深度卷积神经网络（CNN）出现以来[10，24，4]。然而，分类标签无法提供单个对象的详细注释，许多应用程序可以从中受益。相比之下，实例级语义分割产生关于每个对象的身份、位置、形状和类标签的信息。为了简化这一具有挑战性的任务，大多数现有方法首先依赖于检测单个对象，然后对其产生详细的分割。这种方法的早期实例[32，16]通常使用预先训练的特定类别的对象检测器。然而，最近，许多方法已经提出利用通用对象propos- als [1，28]，并将分类问题推迟到以后的阶段。在这种情况下，[14]使用Fast-RCNN框[11]，并构建多级流水线以提取特征、分类和分割对象。该框架通过开发Hypercolumn特征[15]和使用全卷积网络（FCN）来编码特定于类别的形状先验[21]而得到改进在[8]中，[28]的区域建议网络被集成到多任务网络级联（MNC）中，例如语义分割。最终，所有这些方法都受到这样的事实的影响，即它们预测边界框内的二进制掩码，这通常是不准确的。相比之下，在这里，我们引入了一个边界感知的OMN，让我们预测的实例分割，超出了盒子我们表明，将此OMN的MNC框架工作优于国家的最先进的实例级语义分割技术。尽管如此，其他方法已经提出绕过用于实例级分割的对象提议步骤。例如，[22]的无提议网络（PFN）预测实例的数量，以及每个像素的语义标签及其封闭边界框的位置。然而，这种方法的结果强烈依赖于预测实例数相比之下，[36]提出根据深度排序来识别单个实例。这在[35]中通过一个深密连接的马尔可夫随机场进一步扩展然而，目前还不清楚这种方法如何处理多个实例处于大致相同深度的情况。为了克服这一点，[33]的最近工作使用FCN来联合预测深度，语义和基于实例的方向编码。然后，该信息用于通过模板匹配过程生成实例。不幸的是，该过程涉及一系列独立的模块，这些模块不能被联合优化，从而产生潜在的次优解决方案。最后，在[29]中，提出了一种递归神经网络来逐个实例地分割图像。然而，这种方法基本上假设在图像中观察到的所有实例都属于同一个类。除了实例级语义分割，已经提出了许多方法来生成类不可知的区域建议[1，34，20]。最近的这种方法依赖于深度架构[25，26]。特别地，[6]的方法（其中FCN计算被组装到对象分段提议中的实例敏感得分图的小集合）被示出为当被并入MNC框架中时有效地改进实例级语义分段。我们的实验表明，我们的OMN产生的片段的质量相当，甚至高于这些国家的最先进的方法。此外，通过将其集成到一个完整的实例级语义分割网络中，我们在这项任务上的表现也优于最先进的技术。15698∫图2. 左：截断距离变换。右：我们基于解卷积的形状解码网络。每个去卷积具有特定的内核大小（ks）、填充（p）和步幅（s）。这里，K表示二进制映射的数量。3. 边界感知段预测我们的目标是设计一个实例级的语义分割方法，是鲁棒的初始边界框建议的错位。为此，我们首先介绍了一种新的对象掩模表示能够捕捉的整体形状或准确的边界的对象。这种表示，基于距离变换，使我们能够推断出一个对象段的完整形状，即使只有部分信息可用。然后，我们构建一个深度网络，给定一个输入图像，使用这个表示来生成可以超出初始边界框边界的通用对象片段。下面，我们首先描述我们的对象掩码表示和对象掩码网络（OMN）。在第4节中，我们展示了如何将我们的网络集成到多级网络级联中[8]，以端到端的方式学习实例级语义分割网络。3.1. 边界感知掩码表示给定一个从图像和边界框中获得的描绘可能部分观察到的对象的窗口，我们的目标是生成整个对象的掩模。为此，我们不直接推断一个二进制掩码，它只表示对象的可见部分其中d（p，q）是像素p和q之间的空间欧几里德距离，返回最接近但大于x的整数，R是截断阈值，即，我们想要代表的最大然后我们直接使用D作为我们的稠密对象表示。图2（左）示出了针对一个对象的这种密集映射。作为对象表示，上面描述的逐像素映射相对于指定在每个像素处感兴趣对象的存在或不存在的二进制掩模具有若干优点首先，像素处的值为我们提供了关于对象边界位置的信息，即使该像素属于对象的内部。因此，我们的表示对于不准确的边界框引起的部分遮挡是鲁棒的。其次，由于我们为每个像素都提供了一个距离值，因此这种表示是冗余的，因此对像素映射中的某种程度的噪声具有鲁棒性。重要的是，预测这种表示可以被公式化为逐像素标记任务，深度网络已经证明非常有效。为了进一步促进这个标记任务，我们将像素映射中的值转换为K个均匀的bin。换句话说，我们使用K维二进制向量b（p）将像素p的截断距离编码为建议通过依赖距离变换的概念来构建一个像素级的多值映射，对完整对象的边界进行编码[3]。换句话说，地图中每个像素的值表示到D（p）=ΣKn=1rn·bn（p），ΣKn=1bn（p）= 1，（2）如果像素在对象内部，则为最近的对象边界，或者像素属于背景的事实。随着窗口大小和对象形状的变化，距离变换可以产生大范围的不同值，这将导致不太恒定的形状表示，并使第3.2节中的OMN的训练复杂化。因此，我们将窗口规范化为常见大小并截断距离变换以获得有限范围的值。具体地，令Q表示对象边界上和对象外部的像素集合。对于归一化窗口中的每个像素p，我们计算截断距离D（p）到Q为其中rn是对应于第n通过这种独热编码，我们现在已经将多值逐像素映射转换为一组K个二进制逐像素映射。这使我们能够将预测密集图的问题转化为一组像素级的二进制分类任务，这些任务通常由深度网络执行，并且经常成功。给定对象段的密集像素映射（或真正的K二进制映射），我们可以通过应用逆距离变换近似地恢复完整的对象掩模。具体来说，我们通过将每个像素与半径为D（p）的二进制磁盘相关联来构建对象掩码。然后我们D（p）=最小值.Σmind（p，q）Rq∈Q、（1）通过取所有磁盘的并集来计算对象掩码M。令T（p，r）表示像素p处半径为r的圆盘。的15699对象掩码可以表示为我们的OMN是完全可微的，解码模块的输出可以直接和地面进行比较[M=T（p，D（p））=p[K][T（p，pΣKn=1[Krn·bn（p））使用交叉熵损失的高分辨率的真相。这允许我们以端到端的方式训练OMN，包括初始RPN，或者如第4节所述，将其与分类模块集成以执行实例-=n=1pT（p，rn·bn（p））=n=1T（·，rn）Bn，（3）层次语义分割其中，Bn表示卷积运算符，并且Bn是第n注意，我们在推导中使用了独热编码的属性。有趣的是，最终的操作由一系列卷积组成，在使用深度网络时，这将再次变得方便。图中最右边的一列1说明了我们表示的行为在顶部图像中，每个像素处的值表示到边界框内实例边界的截断距离。虽然它没有覆盖整个对象，但将此密集贴图转换为二进制遮罩会生成底部所示的完整实例遮罩。3.2. 对象掩码网络我们现在转向利用我们的边界感知表示来为输入图像中的每个对象实例产生掩模的问题为此，我们设计了一个深度神经网络，该网络为一组边界框提案中的每个框预测K个边界感知的密集二元映射，并通过等式2将它们解码为完整的对象掩码3 .第三章。在实践中，我们使用区域建议网络（RPN）[28]来生成初始边界框建议。对于其中的每一个，我们对其特征执行感兴趣区域（RoI）扭曲，并将结果传递给我们的网络。该网络由下述两个模块组成。给定一个边界框的RoI扭曲特征作为输入，我们网络中的第一个模块预测编码我们的（近似）截断距离变换的K个二元掩码。具体来说，对于第n个二进制掩码，我们使用具有S形激活函数的全连接层来预测近似Bn的逐像素概率图。给定K个概率图，我们设计了一个新的残差反卷积网络模块，将它们解码为二进制对象掩码。我们的网络结构基于观察到方程中的形态算子。3可以实现为一系列具有固定权重但不同内核和填充大小的去卷积，如图3所示。2（右）。然后，我们用一系列加权求和层来近似联合算子，然后是一个S形激活函数。在训练期间学习求和层为了适应不同大小的反卷积滤波器，我们在每个加权求和之前对与网络中的较小值rn相对应的反卷积的输出进行第为此，我们使用固定的步幅值K4. 学习实例分割我们现在介绍我们的方法来处理实例级语义分割与我们的OMN。为此，我们通过将我们的对象掩码网络集成到多级网络级联（MNC）中来构建边界感知实例分割（BAIS）网络[8]。由于我们的OMN模块是可微的，我们可以以端到端的方式训练整个实例分割网络下面，我们首先描述整个网络架构，然后讨论我们的端到端训练过程和测试时的推理4.1. BAIS网络我们的边界感知实例分割网络遵循类似于MNC的结构。具体来说，我们的分割网络由三个子网络组成，分别对应于边界框建议生成、对象掩码预测和对象分类的任务。第一个模块由深度CNN（实际上是VGG16[31]架构）组成，用于从输入图像中提取特征表示，然后是RPN [28]，它生成一组边界框建议。在ROI翘曲后，我们通过OMN传递每个建议以产生一个段掩码。最后，与原始MNC网络一样，通过使用特征掩码层中的预测掩码计算掩码特征，并与边界框特征连接。然后将得到的表示馈送到第三个子网络中，该子网络由用于分类和边界盒回归的单个全连接层我们的BAIS网络的整体架构如图所示。3 .第三章。多级边界感知分割网络。遵循[8]的策略，我们将上述BAIS网络（可视为3级级联）扩展为5级级联。这里的想法是根据OMN的输出来细化边界框提案的初始集合，从而细化如示于图3（右），前三个阶段由上述模型组成，即VGG16卷积层，RPN，OMN，分类模块和边界框预测。然后，我们利用第三阶段的边界框回归部分生成的预测偏移来细化初始框。这些新的盒子作为输入，通过RoI扭曲，到第四阶段，这对应于第二个OMN。它的输出然后在最后一级中结合使用15700图3. 左：我们的边界感知实例分割网络的详细架构。输入图像首先经过一系列卷积层，然后是RPN以生成边界框建议。在ROI扭曲之后，每个建议都通过我们的OMN来获得可以超出盒子空间范围的二进制掩码。然后提取掩模特征，并与边界框特征一起用于分类目的。在训练过程中，我们的模型利用了多任务损失编码边界框，分割和分类错误。右：5阶段BAIS网络。前三个阶段对应于左边的模型。然后，五阶段模型将额外的OMN和分类模块连接到这三个阶段。第二OMN将来自前一阶段的分类分数和细化框作为输入，并输出具有经由第二分类模块获得的新分数的新分割OMN和分类模块在两个阶段中的权重是共享的。与细化的框进行分类。在该5级级联中，两个OMN和两个分类模块的权重被共享。4.2. 网络学习与推理我们的BAIS网络是完全可区分的，因此我们以端到端的方式对其进行培训。为此，我们使用多任务损失函数来考虑边界框，对象掩码和分类错误。具体来说，我们使用软最大损失的RPN和分类，和二进制交叉熵损失的OMN。在我们的五阶段级联中，在第三和第五阶段之后计算边界框和掩码损失，并且我们使用平滑的L1损失进行边界框回归。我们使用随机梯度下降（SGD）来最小化所有参数在[8，6，11]之后，我们依赖于8张图像的最小批次。与[8，28，11]中一样，我们调整图像的大小，使短边具有600个像素。我们第一个模块中的VGG16网络是在ImageNet上预训练的。其他权重从标准值为0.01的零均值高斯分布随机初始化。然后，我们以0.001的学习率训练我们的模型进行20k次迭代，并以0.0001的降低学习率进行 5k我们的网络中的第一个模块首先生成12k个边界框，这些边界框通过非最大抑制（NMS）进行修剪。与[8]一样，我们使用NMS阈值0.7，并最终保留前300个边界框提案。在我们的OMN中，我们使用K= 5概率图来编码（近似）截断距离变换。在经由等式（Eq.3、我们利用一个阈值，0.4 以获得二进制掩码。然后使用该掩码来池化特征，最后通过分类模块获得语义标签在测试时，我们的BAIS网络获取输入图像，并首先计算卷积特征映射。然后RPN模块生成300个边界框建议，我们的OMN模块预测相应的对象掩码。这些面具是根据班级分数分类的并且以0.5的IoU阈值最后，我们将[8]的掩码内投票方案独立地应用于每个类别，以进一步细化实例分割。5. 实验在本节中，我们将展示我们的方法在实例级语义分割和分割建议生成上的有效性。我们首先讨论前者，这是这项工作的主要重点，然后转向后者。在这两种情况下，我们将我们的方法与每个任务中的最先进方法进行比较。数据集和设置。为了评估我们的方法，我们使用了两个具有挑战性的标准数据集，其中包含来自各种对象类的多个实例，即，Pascal VOC 2012和城市景观。Pascal VOC 2012数据集[9]包括20个对象类，具有5623个训练图像和5732个验证图像的实例级地面实况注释我们使用[13]的实例分割进行训练和验证。我们使用所有的训练图像来学习我们的模型，但是，遵循[14，15，7，8，6]中使用的协议，仅使用验证数据集进行评估。根据标准实践，我们报告了使用IoU阈值0.5和0.7（例如语义分割）的平均平均精度（mAP），以及用于生成分割建议的不同数量和大小的框Cityscapes数据集[5]由9个对象类别组成，用于实例级语义标记。这个数据集非常具有挑战性，因为每个图像可以包含比Pascal VOC中更多的每个类的实例，其中大多数都非常小。它包括来自18个城市的2975幅训练图像，来自3个城市的500幅验证图像和来自6个城市的1525幅测试图像。我们只使用训练数据集进行训练，并使用测试数据集来评估我们的方法在在线测试服务器上的性能。根据Cityscapes数据集指南，我们通过在一个范围内求平均值来计算每个类的15701重叠阈值。我们使用0.5的IoU阈值以及mAP 100 m和mAP 50 m报告平均精度（mAP），其中评估分别限于100米和50米范围内的对象。5.1. 实例级语义分割我们首先提出我们的结果的任务实例级语义分割，这是本文件的主要重点。我们报告了上面讨论的两个数据集的结果。在这两种情况下，我们将提案数量限制在300个。对于我们的5阶段模型，这意味着第一个RPN后为300，边界框细化后为300。5.1.1VOC 2012首先，让我们将边界感知实例分割（BAIS）网络的结果与Pascal VOC 2012上的最新方法进行比较。这些基线包括[14]的SDS框架、[15]的Hypercolumn表示、[6]的InstanceFCN方法和[8]的MNC框架。除此之外，我们还报告了[8]中方法的Python重新实现所获得的结果，我们称之为MCN-new。比较结果见表1。请注意，我们的方法优于所有基线，在高IOU阈值的情况下有相当大的优势。还请注意，我们的方法在运行时间方面具有竞争力。重要的是，与BAIS-inside BBox的比较，它将我们的掩码限制在边界框的空间范围内，这清楚地证明了允许掩码超出框的范围的重要性继[8]中对MNC的评估之后，我们还研究了模型中阶段数的影响。因此，我们学习了使用三级或五级级联的模型的不同版本。在测试时，由于各阶段之间的参数共享，两个版本均按照5阶段程序进行测试。这些不同的培训策略的结果，对于MNC和我们的方法，如表2所示。请注意，虽然我们用五阶段训练的模型达到了最好的结果，但我们的三阶段模型仍然优于两个MNC基线。表1. Pascal VOC 2012上的实例级语义分割。比较我们的方法与最先进的基线。[14，15]的结果是从[8]复制的。VOC 2012（val）培训测试mAP（0.5）mAP（0.7）美国[8]3阶段5阶段62.6-MNC-new5阶段5阶段65.01 46.23BAIS -完整（我们的）3阶段5阶段65.5147.13BAIS -完整（我们的）5阶段5阶段65.6948.30表2. 训练过程中阶段数的影响。无论是使用3个阶段还是5个阶段进行训练，我们的方法都优于两个MNC基线。补充材料中提供了与MNC [8]的详细比较，包括所有类别5.1.2Cityscapes的结果我们现在转向Cityscapes数据集。在表3中，我们首先报告了从在线评估服务器上获得的测试数据的结果请注意，我们的方法在所有指标上都明显优于所有基线。在表4中，我们分别提供了我们的方法和最佳性能基线（DWT）在AP（100 m）和AP（50 m）方面的详细请注意，我们在大多数类上都优于此方法。此外，我们还比较了我们的方法与MNC-新的验证数据。在这种情况下，两个模型都只使用训练数据进行训练。对于MCN，我们使用了与我们的模型相同的图像大小，RPN批量大小，学习率和两个模型都使用5个阶段进行训练。表5显示，我们的模型再次超越了这个基线，从而证明了允许掩码超越盒子建议的好处。城市景观（测试）APAP（50%）AP（100米）AP（50米）通过深度轮廓进行车辆的实例级分割[17]2.33.73.94.9R-CNN + MCG凸包[5]4.612.97.710.3用于实例分割的像素级编码[33]8.921.115.316.7[27]第二十七话9.518.916.820.9InstanceCut [19]13.027.922.126.1DWT [2]15.630.026.231.8BAIS -完整（我们的）17.436.729.334.0表3. Cityscapes实例级语义分割。我们将我们的方法与Cityscapes测试集上最先进的基线进行了比较。这些结果是从在线评估服务器获得的。VOC 2012（val）mAP（0.5）mAP（0.7）time/img（s）SDS [14]49.725.348[22]第二十二话58.742.5∼1超柱[15]60.040.4>80InstanceFCN [6]61.543.01.50美国[8]63.541.50.36MNC-new65.0146.230.42BAIS - insideBBox（我们的）64.9744.580.7515702城市景观（测试）人骑手车卡车总线火车摩托车自行车AP（50米）DWT27.020.457.039.651.337.912.88.131.8BAIS -完整（我们的）31.523.463.132.250.540.416.514.634.0城市景观（测试）人骑手车卡车总线火车摩托车自行车AP（100米）DWT27.019.852.829.036.425.111.77.826.2BAIS -完整（我们的）30.322.758.224.938.629.915.314.329.3表4. 与DTW的详细比较：顶部：AP（50米），底部：AP（100米）。请注意，我们的方法在Cityscapes测试数据集的所有类上都优于此基线，除了卡车。城市景观（val）IOU人骑手车卡车总线火车摩托车自行车地图MNC-new0.523.2525.1943.2631.6550.9942.5114.0017.5331.05BAIS -完整（我们的）0.523.3025.6743.1933.0154.3644.8715.9518.8432.40MNC-new0.79.091.8634.8124.4639.0833.331.984.5518.64BAIS -完整（我们的）0.79.092.5335.0525.7539.3533.042.735.3019.10表5. Cityscapes确认数据与MNC-new的比较。请注意，我们的方法优于此基线，因此显示了允许掩码超出框建议的重要性。在图4中，我们提供了我们对城市景观的方法的一些定性结果。请注意，我们获得详细和准确的分割，即使在同一图像中存在许多实例。图5显示了一些故障情况。这些故障通常对应于一个实例被分解为多个实例。5.2. 细分市场建议生成作为第二组实验，我们评估了我们的对象掩码网络（OMN）在生成高质量的段建议的有效性。为此，我们使用了5732 Pascal VOC 2012验证图像与来自[13]的地面实况，并根据[14，23]的标准将我们的方法与特别地，我们使用公开可用的预先计算的分段提议报告了MCG [1]、Deep-Mask [25]和Sharp- Mask [26]的结果。我们还通过复制[8]中的MNC结果来报告MNC的结果，因为这些值略好于从公开可用的部分获得的值。对于我们的方法，由于掩码延伸到边界框之外，因此来自RPN的与框对应的分数因此，我们学习了一个评分函数来重新排列我们的建议。为了公平起见，我们还了解了MNC提案的类似评分函数。我们将此基线称为MNC+评分。我们的比较结果见表6。我们的方法在考虑10个或100 个建议时产生了最先进的结果。对于 1000 ，SharpMask产生的AR比我们略好。然而，请注意，在实践中，并不总是能够在稍后的处理阶段处理1000个建议，许多实例级分段方法只考虑100或300个，这是我们的方法表现最好的区域。在图6中，我们报告了所有方法的重新调用与IOU阈值有趣的是，即使对于表6. 在PASCAL VOC 2012验证集上评估我们的OMN。我们根据[14，23]的标准将我们的方法与最先进的分割建议基线进行比较。请注意，我们的方法优于最先进的方法，用于前10和100个分割建议，这对应于涉及后续处理时最常见的场景，例如，实例级分段。1000个细分提案，我们的结果在高IOU阈值下优于大多数基线我们建议读者参考补充材料，以比较不同物体尺寸的方法。6. 结论在本文中，我们引入了一个基于距离变换的掩码表示，它允许我们预测超出初始边界框限制的实例分割。然后，我们已经展示了如何推断和解码这种表示与完全可微的对象掩码网络（OMN）依赖于残差解卷积架构。然后，我们采用这个OMN开发了一个边界感知实例分割（BAIS）网络。我们在Pascal VOC 2012和Cityscapes上的实验表明，我们的BAIS网络优于最先进的实例级语义分割方法。未来，我们打算用更深层次的架构（如残差网络）取代我们所依赖的VGG16网络，以进一步提高我们框架的准确性。Pascal VOC 2012AR@10AR@100AR@1000选择性搜索[34]7.023.543.3MCG [1]18.936.849.5[25]第二十五话30.345.052.6[26]第二十六话33.348.8五十六5美国[8]33.448.553.8InstanceFCN [6]38.949.752.6MNC+评分45.749.152.5OMN（我们的）四十七851岁854.78图4. 城市景观的定性结果。从左到右，我们显示了输入图像，我们的实例级分割和分割投影到具有类别标签的图像请注意，尽管存在许多实例，但我们的分割是准确的图5. 故障案例。我们的方法的典型失败对应于一个实例被分解为多个实例的情况。10项提案1100个提案11000个提案10.90.80.90.80.90.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.100.5 0.6 0.7 0.8 0.91IoU重叠阈值00.5 0.6 0.7 0.8 0.91IoU重叠阈值00.5 0.6 0.7 0.8 0.9 1IoU重叠阈值图6. 召回与Pascal VOC 2012上的IoU阈值。分别使用最高得分的10、100和1000个分割建议生成曲线。在每个图中，实线对应于我们的OMN结果。请注意，当使用前10名和前100名提案时，我们的表现优于基线。对于1000，我们的方法在高IoU阈值下仍然可以产生最先进的结果。5703深掩模夏普-面具MNCMNC-评分Ours深掩模夏普-面具MNCMNC-评分Ours深掩模夏普-面具MNCMNC-评分Ours召回召回召回9引用[1] P. Arbelaez，J. Pont-Tuset，J. T. Barron，F. Marques和J·马利克多尺度组合分组CVPR，2014。二、七[2] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在CVPR，2017年。6[3] G. 博格福斯数字图像中的距离变换计算机视觉，图形和图像处理，1986年。第1、3条[4] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。2[5] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。一、二、五、六[6] J. Dai，K.他，Y. Li，S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV，2016年。一、二、五、六、七[7] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。5[8] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR，2016年。一、二、三、四、五、六、七[9] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊一、二、五[10] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。IEEE TPAMI，2013年。2[11] R.娘娘腔。快速R-CNN。在ICCV，2015年。二、五[12] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从rgb-d图像中学习丰富的特征用于目标检测和分割。2014年，在ECCV。1[13] B. 哈里哈兰山口阿贝拉埃斯湖Bourdev，S.Maji和J.马利克从反向检测器的语义轮廓见ICCV，2011年。五、七[14] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。2014年，在ECCV。一、二、五、六、七[15] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR，2015。二、五、六[16] X.他和S。古尔德。一种基于样本的crf多实例对象分割方法。CVPR，2014。2[17] R. M. 扬·范登·布兰德马蒂亚斯·奥克斯。使用深轮廓的车辆实例级在智能汽车计算机视觉技术研讨会上，ACCV，2016年。6[18] R. Kimmel，N. Kiryati和A. M.布鲁克斯坦子像素距离图和加权距离变换。数学成像与视觉杂志，1996年。1[19] A. Kirillov、E.列温科夫湾安德烈斯湾萨夫钦斯基，以及C. 罗瑟 InstanceCut ：从边到实例的多重切割。在CVPR，2017年。6[20] P. K raühenbuühl和V. 科尔顿测地线对象建议。在ECCV，2014年。2[21] K. 李湾，澳-地Hariharan和J.马利克迭代实例分割。在CVPR，2016年。一、二[22] X. Liang，Y. Wei，X.沈军，杨立. Lin和S.燕.用于实例级对象分割的无建议网络。CoRR，abs/1509.02636，2015。二、六[23] T. 林，M。迈尔，S。贝隆吉湖D. 布尔代夫河B. 女孩J. Hays，P. Perona，D. 拉马南山口 Doll a'r和C. L. 小痘痘。 Microsoft COCO ：在上下文中常见的对象。CoRR，abs/1405.0312，2014。1、7[24] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。2[25] P. O.皮涅罗河Collobert和P.多尔学习分割候选对象。2015年，在NIPS中。一、二、七[26] P. O. 皮涅罗，T.Y. 林河，巴西-地Collobert和P.多尔学习细化对象分段。在ECCV，2016年。二、七[27] M. Ren和R. S.泽梅尔端到端实例分割和计数，并具有反复关注。在CVPR，2017年。6[28] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS中。二、四、五[29] B. Romera-Paredes 和 P. H. S. 乇循环实例分割。在ECCV，2016年。2[30] H. Scharr，M. Minervini，A. Fischbach和S. A. Tsaftaris莲座丛植物的注释图像数据集。2014年，在ECCV。1[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。4[32] J. Tighe，M. Niethammer和S. Lazebnik 场景解析与对象实例和遮挡排序。CVPR，2014。2[33] J. Uhrig，M. Cordts，U. Franke和T.布洛克斯用于实例级语义标记的像素级编码和深度分层。在GCPR，2016年。二、六[34] J. Uijlings，K.van de Sande，T.Gevers和A.史默德斯对象识别的选择性搜索。IJCV，2013年。二、七[35] Z. Zhang，S.Fidler和R.乌塔松实例级分割与深度密集连接的MRF。在CVPR，2016年。一、二[36] Z. Zhang，中国古柏A.Schwing，S.Fidler和R.乌塔松基于cnn的单目目标实例分割与深度排序。在ICCV，2015年。25704

下载后可阅读完整内容，剩余1页未读，立即下载