InstanceCut：实例感知的语义分割与实例边界推理的简单方法

196 浏览量更新于2023-10-16 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1InstanceCut：使用MultiCut从边到边Alexander Kirillov1Evgeny Levinkov2Bjoern Andres2Bogdan Savchynskyy1CarstenRother11TUDresden，Dresden，German y 2MPIforInformatics，Saarbr uück en，German y1姓名@ tu-dresden.de2surname@mpi-inf.mpg.de摘要这项工作解决了实例感知语义分割的任务。我们的主要动机是设计一个简单的方法与一个新的建模范式，因此有一个不同的权衡之间的优势和劣势相比，已知的方法。我们的方法，我们的术语InstanceCut，代表问题的两个输出模态：（i）实例不可知的语义分割和（ii）所有实例边界。前者是从用于语义分割的标准卷积神经网络计算的，而后者是从新的实例感知边缘检测模型导出的要在全球范围内推理图像的最佳分割成实例，我们结合这两种方式到一个新的MultiCut制定。我们在具有挑战性的CityScapes数据集上评估了我们的方法。尽管我们的方法在概念上很简单，但我们在所有已发布的方法中取得了最好的结果，并且对于罕见的对象类表现得特别好。1. 介绍这项工作解决了分割图像中语义类的每个单独实例的任务。该任务被称为实例感知的语义分割，简称为实例分割，并且是比语义分割更精细的任务，其中每个像素仅用其语义类标记。语义分割和实例分割的示例如图所示。图1a-1b。虽然语义分割在过去的五年中一直是一个非常流行的问题，但最近对实例分割的兴趣显着增加。这并不奇怪，因为语义分割已经达到了很高的准确度，与实例分割的更难任务相比。此外，从应用的角度来看，有许多系统，如自动驾驶或机器人技术，其中对周围环境的更详细的理解对于在世界上正确地采取行动非常重要。近年来，卷积神经网络（CNN）极大地提高了许多计算机视觉任务的性能。这也适用于在任务-(a)（b）第（1）款(c)（d）其他事项图1：来自CityScapes数据集的图像[13]：（a）地面真实语义分割，其中所有汽车都具有相同的标签。（b）地面实况实例分割，其中每个实例，即对象，由一个独特的颜色突出显示。在这项工作中，我们使用的实例分割的“限制”定义，在这个意义上，每个实例必须是一个连接的组件。尽管有这些限制，我们将展示高质量的结果。（c）显示我们的InstanceCut方法的结果可以看出，与（b）相反，前车被分成两个实例。(d)我们的连接组件实例通过两种输出方式定义(i)语义分割，（ii）所有实例边界（以黑体显示）。站姿分割，参见基准[13，37]。然而，对于这项任务，在我们看来，还不清楚是否已经找到了最好的建模范式。因此，这项工作的动机是探索一个新的，非常不同的，建模范式。更准确地说，我们认为实例分割问题有四个核心挑战，任何方法都必须解决。首先，实例的标签，例如与语义分割相反，例如，“车号5”不具有含义。类“车”。其次，图像中的实例的数量可以变化很大，例如，对于CityScapes数据集中的图像，介于0和120之间[13]。第三，与使用边界框的对象检测相比，每个实例（边界框）不能简单地用四个数字（边界框的角）来描述，而是必须用一组像素来描述最后，与语义分割相比，需要对训练数据进行更精细的标记，即每个实例都有50085009分别进行分段。特别是对于稀有类别，例如摩托车，现在可用的训练数据量可能不够。尽管有这些挑战，但是现有技术的技术例如分段是基于CNN的。作为一个例子，[16，53]用复杂的多损失级联CNN架构解决了这些挑战，然而，这是难以训练的。相比之下，我们的建模范式与标准的基于CNN的架构非常不同：假设每个像素都被分配到一个语义类，另外我们插入一些边缘（在像素之间）形成循环-那么我们就解决了实例分割的问题！每个连接的区域，由一个循环的实例感知边缘包围是一个独立的实例，其中的内部像素的类标签定义其类。这些正是我们方法的组成部分：（i）输出实例不可知语义分割的标准CNN，以及（ii）输出实例的所有边界的新CNN。为了确保实例边界包围一个连接的组件，并且组件的内部具有相同的类标签，我们将这两个输出组合成一个新的多割公式。我们称之为InstanceCut。我们的InstanceCut方法有一些优点和缺点，我们将在下面讨论关于这一点，我们要强调，这些利弊与现有的办法有很大的不同。这意味着，在未来，我们设想，我们的方法可能会发挥重要的作用，作为一个子组件的“最终”实例分割系统。让我们先考虑一下局限性，然后再考虑优势。我们的方法的一个小限制是，显然，我们不能找到由图像中不连通区域形成的实例（见图11）。图1b-1c）。然而，尽管有这种限制，我们证明的结果，超过所有公布的方法在准确性方面。在未来，我们预见到各种方法来克服这一限制，例如。通过对形状的全局推理。我们认为我们的方法有以下主要优点首先，上面列出的分割方法的所有四个挑战都以优雅的方式得到了解决：（i）多切口制剂不需要用于实例的唯一标签;（ii）实例的数目自然地从多割的解产生;（iii）我们的公式是在像素（超像素）水平上的;（iv）由于我们没有训练CNN来全局分割实例，因此我们的方法可以很好地处理稀有类的实例，因为它们不需要特殊处理。最后，从实用的角度来看，我们的InstanceCut方法还有另一个主要优势。我们可以使用任何语义分割方法，只要它为每个类别提供像素对数概率。因此，在这一领域的进展可以直接转化为我们的方法的改进。此外，语义分割，这里是全卷积神经网络（FCN）[52]，是我们新的边缘检测方法的一部分。再次，进步在语义分割中，也可以提高该组件的性能。简而言之，我们的贡献是：• 我们提出了一个新的范例感知实例的语义分割，这有不同的利弊比现有的方法。在我们的方法中，我们只训练用于语义分割和实例边缘检测的分类器，而不直接训练用于处理实例的全局属性（例如形状）的任何分类器。• 我们提出了一种新的MultiCut公式，它可以在全局范围内将图像最佳分割为实例.• 我们提出了一种新的基于FCN的架构的实例感知边缘检测。• 我们通过实验验证，我们的方法达到了最好的结果，在所有已发布的方法，并执行特别好的罕见的对象类。2. 相关工作基于提案的方法。这组方法使用检测或建议生成机制作为实例感知分割流水线中的子例程。最近的几种方法将实例感知分割问题分解为检测阶段和前地/背景分割阶段[16，23]。这些方法提出了一种端到端的训练，它包含了模型的所有部分。此外，非最大抑制（NMS）可以用作后处理步骤。一个非常类似的方法生成建议，例如使用MCG [3]，然后在第二阶段，不同的网络对这些建议进行分类[13，22，15，11]。有几种方法根据学习的分数[33，41，42]产生例如分割的建议并将其组合，或者生成部分实例，然后将其组合[14，38]。尽管基于提案的方法在重要挑战Pascal VOC 2012[18]和MSCOCO [37]上显示出最先进的性能，但它们受到所用检测器或提案生成器的质量的限制。我们的方法是，反过来，依赖于所使用的se-mantic分割的质量。然而，对于后者，存在大量的研究，并取得了高质量的结果。无提案方法。最近，在文献中已经这些方法探索了不同的解组合的实例感知语义分割，随后是组装结果的后处理步骤。在[48]中，作者提出了一种基于三种模态的实例感知分割的模板匹配方案：预测语义分割，深度估计和相对于相应实例中心的每像素方向估计。该方法需要深度数据进行训练，并且在高度遮挡的情况下表现不佳5010对象另一项专注于汽车实例分割的工作[55，54]采用了一个条件随机场，该随机场使用FCN的多个重叠输出来解释实例。后者预测固定数量的实例和它们在FCN的感受野内的顺序，即。对于每个像素，FCN预测对应的物体或背景标签的ID。然而，在这些方法中，每个图像的最大实例数必须预先固定。非常大的数量可能对系统性能产生负面影响。因此，这种方法可能不太适合CityScapes数据集，其中图像之间的实例数量变化很大在[50]中，作者基于实例不可知的语义分割来预测每个像素的实例的边界框。后处理步骤过滤出结果-ing实例。递归方法逐个生成实例。在[43]中，提出了一种基于注意力的递归神经网络。在[44]中，提出了基于LSTM的方法[24]。这项工作[34]提出了一个无建议的网络，它产生了一个实例不可知的语义分割，图像的实例数量，以及相应实例的每像素边界框。通过聚类获得所得到的实例分段。该方法是高度敏感的正确预测的实例数。我们还提出了一个无命题的方法。然而，我们的模式非常不同为了推断实例，它通过全局推理结合语义分割和对象边界检测。3. InstanceCut3.1. 拟议框架概览我们首先介绍我们新的InstanceCut框架的一般管道（见图11）。2）然后详细描述每个组件。流水线的前两个块是独立处理的：语义分割和实例感知边缘检测直接对输入图像进行操作。第三步，图像分块，根据上述两个分块的输出进行实例分割推理。更正式地，语义分割块（第3.2节）输出针对每个类别标签 l ∈ L ={0 ， 1}的语义类别ai，l的对数概率。. . ，L}和输入图像的每个像素i。我们称之为i，l，每像素语义类得分。标签1，. . . ，L对应于不同的语义类，并且0代表背景。独立地，实例感知边缘检测（Sec.公式3.3）输出每个pi × eli的对象边界的对数概率bi。在其他单词中，bi指示pi x eli如何可能接触对象边界。我们将bi称为每像素实例感知边缘分数。请注意，这些分数是类不可知的。图2：我们的InstanceCut管道-概述。给定输入图像，两个独立分支产生每像素语义类分数和每像素实例感知边缘分数。边缘分数用于提取超像素。最后的图像分割块将超像素合并为连接的组件，并为每个组件分配一个类标签生成的组件对应于对象实例和背景。最后，图像分割块输出使用语义类得分和实例感知边缘得分获得的结果实例分割。我们参考第3.4节来描述相应的优化问题。为了加快优化速度，我们通过采用超像素图像来减小问题大小。对于超像素提取，我们利用众所周知的watershed技术[49]，该技术直接在边缘分数上运行。该方法有效地确保所提取的超像素边界与实例感知边缘分数的边界对齐。3.2. 语义分割最近提出的语义分割框架主要基于全卷积网络（FCN）架构。自工作[40]以来，许多新的FCN体系结构被提出用于此任务[52，20]。一些5011这些方法中的一种在 FCN 之上利用条件随机场（CRF）模型[10，36]，或者将基于CRF的机制直接并入网络架构[39，56，45]。目前最先进的方法报告了CityScapes数据集的平均相交率（IoU）约为78%[13]，PASCAL VOC 2012挑战约为82%[18]。由于该领域的最新进展，可以说，利用足够大的数据集，利用相关联的密集地面实况注释，FCN能够以高精度预测每个像素的语义类。在我们的实验中，我们使用了两个公开的预训练的FCN：扩张10 [52]和LRR-4x [20]。这些网络已经由各自的作者训练过，我们也可以按照提供的方式使用它们，而无需任何微调。注意，我们还使用具有密集CRF [31]的CNN-CRF框架[56，10]，因为密集CRF由于我们的图像分割框架在超像素级别上工作，所以我们通过对相应的像素的分数求平均来将像素级语义类分数ai，l变换为超像素级语义类分数ai，l（这里u3.3. 实例感知边缘检测在描述我们的方法之前，让我们首先回顾一下现有的工作。边缘检测（也称为边界检测）是计算机视觉中一个研究得很好的问题。经典的结果早在80最近的方法是基于谱聚类[47，1，3，26]。这些方法对整个图像进行全局推理。另一种方法建议将该问题视为每像素分类任务[35，17]。深度学习的最新进展使得这类方法特别有效，因为它们自动获得用于分类的丰富特征表示[19，30，46，6，7，51，8]。最近的每像素分类方法[8]构建了基于在Pascal VOC2012 [18]上训练用于语义分割的FCN的特征。该方法在BSD 500数据集上产生最先进的边缘检测性能[2]。每个像素的特征被设计为对应于该特定像素的中间FCN特征的级联。在这些特征上训练的逻辑回归，然后是非最大抑制，输出每像素边缘概率图。本文建议，一个FCN训练语义分割的中间特征形成一个强大的信号，用于解决边缘检测问题。类似构造的特征也已成功用于其他密集标记问题[23]。对于像BSDS 500 [2]这样的数据集，大多数作品都考虑了一般的边缘检测问题，其中注释的边缘是类和实例不可知的轮廓。在我们的工作中，实例感知边缘检测输出每个像素，无论它是否触及边界。这个问题比标准边缘检测更具挑战性，因为它需要联合推理轮廓和语义，区分真实对象的边界和其他不相关的边缘，例如。在物体内部或背景中。下面（见图）3），我们描述了一种新的网络架构，利用中间FCN功能级联的想法。作为我们网络的基础，我们使用了一个FCN，它是针对我们想要用于对象边界预测的数据集进行语义分割训练的在我们的实验中，我们使用预先训练的Dilation10 [52]模型，然而，我们的方法不限于这种架构，可以利用任何其他类似于FCN的架构。我们通过连接语义分割网络的中间特征图来形成每像素特征表示。这是基于以下直觉：在推理期间，语义分割网络能够识别图像中语义类别之间的转换位置。因此，它的中间特征很可能包含一个有助于找到类之间边界的信号。我们相信，相同的功能可以是有用的，以确定对象之间的边界常用的方法[8，23]建议放大尺寸小于原始图像的特征图，以获得每像素表示。然而，在我们的实验中，这样的方法产生厚的和过度平滑的边缘分数。这种行为可以通过以下事实来解释：信息量最大的特征图的尺度比原始图像小8因此，我们不是由于网络是用整流线性单元（ReLU）激活训练的，因此活跃的神经元倾向于输出大值，因此，我们使用具有适当步幅的最大池进行降尺度，见图。3 .第三章。该过程输出（语义分割FCN的，参见图3）缩小的特征图，其被合并以得到缩小的每像素特征图。我们使用了一个2层感知器，它将此特征图作为输入，并输出边缘的对数概率（平滑实例感知边缘图，见图2）。（3）第三章。感知器方法是对于所有空间位置都是一样的，因此，它可以表示为两层1×1卷积，中间有ReLU激活。在我们的实验中，我们已经注意到，FCN给出平滑的边缘分数。因此，我们应用了一个上下文网络[52]来细化分数，使其更清晰。新的架构是FCN，即，它可以应用于任意大小的图像，它是可微的，并且在端部具有单一损失。因此，直接的端到端培训可以应用于新架构。我们放大结果输出映射以匹配输入图像大小。由于图像分区框架，接下来，5012图3：实例感知边缘检测模块。语义分割FCN是网络的前端部分[52]，用于在同一数据集上进行语义分割它的中间特征图被下采样，根据最小特征图的大小，通过具有适当步幅的最大池化操作。下采样映射的级联被用作每像素2层感知器的特征表示感知器的输出通过Dilation10 [52]架构的上下文网络进行细化在超像素上操作时，我们需要将每像素边缘分数bi变换为相邻超像素的每对{u，v}的边缘分数bu，v我们通过平均所有触摸u和v之间边界的像素的分数来做到这一点。在下文中，我们描述了2层感知器的有效实现，并讨论了边界检测问题的训练数据。有效执行。在我们的实验中，2层感知器的输入包含每个像素约13k个特征。因此，感知器的第一层消耗大量内存。然而，可以通过使用更有效的实现来避免这种情况。实际上，感知器的第一层相当于以下各项的总和：多个1×1卷积的输出，独立地应用于每个特征图。例如，conv 1应用于来自conv 1 x中间层的特征图，conv 2应用于来自conv 2 x的特征图，并且其输出与conv 1的输出相加，等等。这种方法允许减少存储器消耗，因为卷积可以在前端网络的评估期间应用。训练数据。虽然对于地面实况来说图4：我们的实例感知边缘检测器的地面实况示例。红色表示标记为边缘的像素，蓝色表示背景，即没有边缘和白色像素被忽略。不平衡的地面实况（GT）数据严重地损害学习进程。例如，在BSD 500 [2]中，平均不到10%的像素被标记为边缘。我们的地面真实数据甚至更不平衡：因为我们只考虑对象边界，所以小于1%的像素被标记为边缘。我们使用两种技术来克服这种不平衡数据的训练问题：平衡损失函数[51，25]和地面真实数据的修剪。平衡损失函数[51，25]向标准对数似然损失添加了一个系数，该系数降低了具有大量训练数据的类的错误影响。也就是说，对于每个像素i，平衡损失被定义为：loss（pedge，yGT）=<$yGT= 1）log（pedge）（1）数据，对象边界位于像素之间，我们将在下文中使用边界位于+α<$yGT=0）log（1−p边缘），象素也就是说，我们将假设如果存在相邻像素j，则像素i被标记为边界，该相邻像素j被标记为不同的对象（或背景）。考虑到现代图像的大小，这种边界外推不会影响性能。作为边界检测的基础事实，我们使用CityScapes [13]中提供的对象实例的边界。如前所述[51，7]，高度其中pedge=1/（1−e−bi）是pix eli被标记为边缘的概率，yGT是i的地面真值标签（标签1对应于边缘），α = N1/N0是平衡系数。这里，N1和N0是在地面实况中分别标记为1和0的像素的数量另一种方法来减少不平衡GT的影响数据是对GT像素进行子采样，参见例如[8]的一项建议。由于我们对实例感知的边缘检测感兴趣，5013i=1输出与我们的语义分割框架，一个错误的后验推理问题的CRF定义以上远离目标对象（例如，在天空中）的边缘检测不会损害InstanceCut框架的整体性能。因此，我们认为像素读取Maxl∈L|V|Σu∈Vαu，lu+Σuv∈Ecu，v，lu，lv.（二）被标记为背景的实例感知边缘检测，当且仅当它位于目标对象内，或在一个区域接近它，见图。 4 为CityScapes数据集的地面真实数据的一些例子[13]。在我们的实验中，只有6。8%的像素被标记为修剪的地面实况数据中的对象边界。3.4. 图像分割设V是从o u中提取的超像素的集合。特普乌特的实例感知边缘检测块和E.这个问题的一个解决方案是一个普通的（非实例感知的）语义分割，如果我们将图节点与超像素相关联对于下面的MultiCut公式，我们将需要问题（2）的不同表示，以整数二次问题的形式。考虑二元变量xu，l∈ {0，1}，对于每个节点u∈V和标签l∈ L。的equalityxu，l=1意味着标签l被分配给节点联合问题（2）可以改写如下：2是相邻超像素的集合，即，的那些共同边界。MaxXΣΣu∈V l∈Lαu，lxu，l+Σ ΣΣuv∈E l ∈Ll′ ∈Lcu，v，l，l′xu，lxv，l′使用3.2节和3.3节中描述的方法，我们.xu，l∈ {0，1}，u ∈V，l ∈ L获得：• 对数概率αu，l所有语义标签l∈ L（in-S.T.Σl∈L xu，l（三）= 1，u∈V。包括背景）。• 对数概率bu，v对于所有相邻超像素对{u，v} ∈E，具有切割边缘。• 先验对数概率有一个边界之间任意两个（也相等的）语义类βl，l′，对任意两个标号l，l′∈ L.特别地，权重β1，1定义了两个相邻超像素具有相同标签1并且属于不同实例的可能性。我们将β0，0设置为−∞，假设在标记为背景的超像素之间没有边界我们希望为每个超像素分配一个标签，并具有封闭的轮廓边界，这样如果两个相邻的超像素属于不同的类，它们之间总是我们的问题公式化由两部分组成(i)条件随机场模型[27]和（ii）图划分问题，称为MultiCut [12]或相关聚类[4]。在某种意义上，这两个问题在我们的表述中是耦合在一起的。因此，我们首先简要地描述他们每个人单独，然后考虑他们的联合制定。条件随机场（CRF）。现在，让我们假设所有βl，l=−∞，l∈ L，即，在被分配相同标签的超像素之间可以没有在这在这种情况下，我们的问题被简化为下面的著名定理：设G=（V，E）是一个无向图。标签L的有限集合与每个节点相关联。与每个节点v中的每个标签l相关联的向量αv，l表示：标签的得分分配给节点。每对标签l，l′i。n个相邻节点{u，v}被分配得分bu，v+βl，l′，l/=l′增加（3）中的最后一个约束以保证每个节点只被分配一个标签。虽然问题（3）通常是NP难的，但对于计算机视觉中出现的许多实际情况，它可以有效地（并且精确地）解决，请参见[27]以获得概述。MultiCut问题。现在让我们假设一个不同的情况，其中所有节点都已经得到了一个指定的语义标签，我们想要的只是将每个连接的组件（用单个类标记）划分为连接的重与实例对应的gion。例如，我们假设组件的所有超像素都有一个标签L.该任务有一个优雅的公式，称为MultiCut问题[12]：设G=（V，E）是一个无向图，其得分为θu，v：=bu，v+βl，l赋给图的边.也让集合的不相交并。 MultiCut问题（也称为相关性聚类）是找到一个分区（101，. . . ，k），iV，V=steck 图的顶点，使得连接不同顶点的边的总得分组件最大化。分量的数量k不是固定的，而是由算法本身确定的。虽然这个问题一般来说是NP难的，但有有效的近似求解器，参见例如。[5、28、29]。在下文中，我们将需要一个不同的表示，在一个整数线性问题的形式的MultiCut问题。为此，我们引入一个二进制变量ye=yu，v∈ {0，1}对于每个边e={u，v} ∈E.如果u和v属于不同的分量，即，u∈ <$i，v∈<$j，对某个i j.满足yu，v=1的边{u，v}称为割边。向量y∈{0，1}|E|对于坐标ye，e∈E称为aMultiCut。设C是图G的所有圈的集合。它cu，v，l，l′：=0，l=l′。是来自组合优化[12]的已知结果，向量l ∈ L|V|其中坐标lu，u ∈ V是分配给每个节点的标签，称为标签。最大后MultiCut问题可以写成以下形式：5014PASCAL VOC2012 MS COCO城市景观Maxy ∈{0，1}|E|Σθu，vyu，v，s. t.阿罗克 ∈C：Σye≥ye′。0的情况。50的情况。4{u，v}∈Ee∈C（四）0的情况。3在这里，目标直接最大化的边缘和不等式约束的总得分基本上迫使每个cycle- cle没有或至少有两个切割边缘。这些循环-0的情况。20的情况。10的情况。015 10 15 20 25 30 35 40 45 50 55 60 65 70 75约束确保切割边缘组实际上限定了分区显然，切割边缘对应于我们的应用程序中的边界。我们的InstanceCut问题让我们结合两个子问题：我们希望联合推断语义标签和每个语义段的划分，每个部分都是定义对象实例的 tition 组件。为此，考虑下面的InstanceCut问题（5）-（8）：Σ Σ图5：直方图显示了不同数据集的每个图像的实例数分布。出于说明的原因，我们削减了CityScapes和MSCOCO的长尾我们使用CityScapes数据集，因为它每个图像包含更多的实例。对于某些物体，这与真实的边界不一致。由于我们的方法使用边缘检测器，它是重要的-Maxx ∈{0，1}|V||L|y ∈ {0，1}|E| u∈V l∈Lαu，lxu，l（5）希望有精确的对象边界进行训练。（二）CityScapes中每个图像的实例数中位数Σ ΣΣ+Wuv∈E l ∈Ll′ ∈LΣ（bu，v+βl，l′）xu，lxv，l′yu，v是16，而PASCAL VOC有2，MS COCO有4. 对于这项工作，更大的数字更有趣。每个图像的实例数的分布不同-l∈L′xu，l=1，u∈V（6）Σent数据集如图所示。五、（iii）与其他数据集不同，CityScapes的注释很密集，即。标记所有前景对象。e∈C：ye≥ye′（7）e∈ CΣCityScape数据集有5000张由车载摄像头记录的街景图像：2975图片火车-xu，l−x v，l≤yuvxv，l−x u，l≤yuv，{u，v} ∈E，l∈ L.（八）500用于验证，1525用于测试。有8中具有实例级注释的对象类目标（5）和不等式（6）-（7）直接由合并问题（3）和（4）得到。我们还引入了平衡模态的参数w需要额外的约束（8）来保证一旦两个相邻节点u和v被分配不同的标签，对应的边yu，v就被切割并定义实例边界的一部分。如果变量xu，l，xv，l中至多有一个取值，则两个节点u和u被赋予不同的标签1.一、在这种情况下，不等式（8）之一的最大左手边等于1，因此yu，v必须被切割。与（5）-（8）有关的问题在[21]中被考虑，前景/背景分割。虽然问题（5）-（8）是NP-难的，它包含了很多硬约束，但存在一个有效的近似求解器[32]，我们在实验中使用了它。为了解决超过3000个节点（超像素）和9个标签5015（段类）的问题，平均需要不到一秒。4. 实验数据集。对于实例感知语义分割问题，有三个主要的数据集具有完整的注释：PASCAL VOC 2012 [18]，MS COCO [37]和[13]第十三话我们选择最后一个进行实验评估，原因如下：（i）CityScapes具有非常精细的注释，具有注释对象的精确边界，而MS COCO仅具有粗略的注释，数据集：人，骑手，汽车，卡车，公共汽车，火车，摩托车，自行车。所有图像的大小为1024×2048像素。培训详情。对于我们框架中的语义分割块，我们测试了两个不同的网络，CityScapes公开可用的训练模型：Dila-tion 10 [52]和LRR-4x [20]。后者是使用CityScapes中提供的额外粗略注释数据进行训练的重要的是，CityScapes有19个不同的语义分割类（其中只有8个被考虑用于实例分割），两个网络都经过训练以分割所有这些类。我们不重新训练网络，而是直接使用我们需要的8个语义对于背景标签，我们取剩余语义类的对数概率的最大值。作为实例感知边缘检测块的初始语义分割网络，我们使用在CityScapes上预训练的Dilation10 [52我们完全遵循原始论文[52]中描述的训练过程。也就是说，我们首先对前端模块进行预训练，其中2层感知器位于顶部。然后分别对网络的上下文模块进行预训练，最后对整个系统进行端到端的训练所有阶段都使用与[52]中相同的参数进行训练。在我们的实验中，2层感知器有16个隐藏的神经元。在验证集上，训练后的检测器达到97。2%AUC ROC。参数w（见（5））和βl，l′，对于所有l，l′∈ L，在我们的5016(a) 地面实况（b）边缘图（c）InstanceCut预测图6：InstanceCut框架的定性结果左列包含具有突出显示的地面实况实例的输入图像中间一列描绘了每像素的实例感知边缘对数概率，最后一列显示了我们的方法的结果请注意，在最后一个例子中，公共汽车和中间的汽车被灯柱隔开，因此，我们的方法返回两个对象的实例。APAP50%AP100米AP50米MCG+R-CNN [3]4.612.97.710.3Uhrig等人[48个]8.921.115.316.7InstanceCut13.027.922.126.1表1：CityScapes在测试集上的实例感知语义分割结果。InstanceCut制剂（5）经由2倍交叉验证选择我们不考虑所有标签对的不同βl ， l′，而是将它们分为两类：′在验证集上。测试集的定量结果见表1。我们将我们的方法与所有已发表的方法进行比较，这些方法具有此数据集的结果。其中，我们的方法表现出最好的性能，尽管它的简单。5. 结论我们提出了一个替代范例的实例感知语义分割。该范例通过两种模态的组合来表示实例分割问题：实例不可知的语义分割和实例感知的边界。我们提出了一个新的所有βl，l′，其中l或l对应于a（物理上）大物体，即，火车、公共汽车或卡车，设置为β大。所有其他βl，l′均设置为βsmall。因此，我们的参数空间只有3维，由参数w、βsmall和βbig决定。实例级结果-定量和定性。我们使用CityScapes基准建议的4个指标评估了我们的方法：AP，AP50%，AP100 m和AP50 m。我们参考基准测试的网页以获得详细描述。使用Dilation10 [52]作为语义分割块的InstanceCut框架给出AP =14。8和AP 50%= 30。7关于数据集的验证部分当我们用LRR-4x [20]替换这个块的Dilation10时，性能提高到AP =15。8和AP 50%= 32。4、使用这种范式的框架这些模式是由FCN网络制作。标准的FCN模型用于语义分割，而一个新的架构提出了对象边界。这些模态通过一个新颖的MultiCut框架结合在一起，该框架对实例进行全局推理。所提出的框架在具有挑战性的CityScapes数据集[13]的所有已发表方法中取得了最佳结果。致谢我们要感谢Michael Fig- urnov进行了有益的讨论。该项目获得了欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划下的资助（赠款协议编号647769）。5017引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE transactions on pattern analysis andmachine intelligence，33（5）：898-916，2011。4[2] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE Trans.模式分析马赫内特尔，33（5）：898-916，2011年5月。四、五[3] P. Arbel a'ez，J. 庞特-T使用t，J。 T. Barron，F. Marques和J· 马利克多尺度组合分组在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第328-335页，2014年。二、四[4] N.班萨尔A。Blum和S.乔拉相关聚类Machine Learning，56（1）：89-113，2004. 6[5] T. Beie r，T. Kro e ge r，J. H. 卡佩斯大学 Koïthe和F. A.火腿酱。剪切，粘合，剪切：一个快速的，近似的多切分区求解器.2014年IEEE计算机视觉和模式识别会议，第73-80页IEEE，2014。6[6] G. Bertasius，J. Shi和L.托雷萨尼Deepedge：一个多尺度分叉深网络，用于自顶向下的轮廓检测。在IEEE计算机视觉和模式识别会议论文集，第4380-4389页，2015年。4[7] G. Bertasius，J.Shi和L.托雷萨尼高换低和低换高：从深层目标特征中有效地检测边界及其在高级视觉中的应用。在IEEE计算机视觉国际会议论文集，第504-512页四、五[8] G. Bertasius，J. Shi和L.托雷萨尼具有边界神经场的语义分割。arXiv预印本arXiv：1511.02674，2015年。四、五[9] J. 精明边缘检测的计算方法IEEE Transactions on patternanalysis and machine intelligence ，（ 6 ）： 679-698 ，1986。4[10] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915，2016。4[11] Y.-- T. Chen，X. Liu和M.- H.杨具有遮挡处理的多实例对象分割在2015年IEEE计算机视觉和模式识别会议论文集，第3470-3478页中2[12] S. Chopra 和 M.R. 娆分区问题。 MathematicalProgramming，59（1）：87-115，1993. 6[13] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议（CVPR），2016年。一、二、四、五、六、七、八[14] J. Dai，K.他，Y. Li，S. Ren和J. Sun. 实例敏感的全卷积网络。arXiv预印本arXiv：1603.08678，2016年。2[15] J. Dai，K. He和J. Sun.用于联合对象和填充物分割的卷积特征掩蔽在IEEE计算机视觉和模式识别会议集，第3992-4000页，2015年。25018[16] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。arXiv预印本arXiv：1512.04412，2015。2[17] P. Do l l a'randC. L. 齐特尼克使用结构森林的快速边缘检测 IEEE transactions on pattern analysis andmachine intelligence，37（8）：1558-1570，2015。4[18] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。pascal视觉对象类（voc ）的挑战。International Journal of Computer Vision，88（2）：303 二四七[19] Y. Ganin和V. Lempitsky N × 4-字段：用于图像变换的神经网络最近邻场。在亚洲计算机视觉上，第536Springer，2014.4[20] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔表示和细化欧洲计算机视觉会议，第519-534页施普林格，2016年。三、四、七、八[21] F. A. 汉普雷希特非对称切割：联合图像标记和分割。在模式识别中：第 36 届德国会议，GCPR2014，德国慕尼黑，2014年9月2日至5日，会议记录，第8753卷，第199页。Springer，2014. 7[22] B. 哈里哈兰山口阿尔贝拉兹河。Girshick和J. 马利克同时检测和分割。在欧洲计算机视觉上，第297Springer，2014.2[23] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。IEEE计算机视觉和模式识别会议论文集，第447-456页，2015年。二、四[24] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。3[25] J. - J. 黄和T.-L. 刘某用于轮廓检测的像素级深度学习arXiv预印本arXiv：1504.01989，2015。5[26] P. Isola，D. Zoran，D. Krishnan和E. H.阿德尔森基于逐点互信息的清晰边界检测。欧洲计算机视觉会议，第799Springer，2014. 4[27]J. H. 卡佩斯湾Andres，F. A. 汉普雷希特角Schnor？r，S. No wozin、D. 巴特拉、S. 金湾，澳-地X. Kausle r，T. Kroéger，J. Lellmann，N.科莫达基斯湾Savchynskyy和C.罗瑟结构化离散能量最小化问题现代推理技术的比较研究。International Journal of Computer Vision，第1-30页，2015年。6[28] B. W. Kernighan和S.是林书一种有效的启发式图划分方法。贝尔系统技术杂志，49（2）：291-307，1970。6[29] M. Keuper，E. Levinkov，N

下载后可阅读完整内容，剩余1页未读，立即下载