动态实例化网络的实例分割模型

158 浏览量更新于2023-10-15 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于动态实例化网络的Anurag Arnab和Philip H.S.牛津大学{anurag.arnab，philip. nanb}@ eng.ox.ac.uk摘要语义分割和目标检测的研究近年来取得了长足的进展。然而，前一个任务没有相同对象的不同实例的概念，后者在粗略的边界框级别上操作我们提出了一个实例分割系统，产生一个分割图，其中每个像素被分配一个对象类和实例身份标签。大多数方法使对象检测器适应产生片段而不是框。相比之下，我们的方法是基于一个初始的语义分割模块，它提供给一个实例子网络。该子网络使用初始类别级分割，以及来自对象检测器输出的线索，在端到端CRF中预测实例。我们的模型的这一部分是动态实例化的，以产生每个图像的实例数量可变。我们的端到端方法不需要后期处理，而是从整体上考虑图像，而不是处理独立的提案。因此，与某些相关工作不同，像素不能长到多个实例。此外，实现了更精确的分割，如我们在高APr阈值下的实质性改进所示。1. 介绍语义分割和对象检测是研究得很好的场景理解问题，并且最近由于深度学习而取得了很大进展[21，12，6]。然而，语义分割--用其对象类标记图像中的每个像素--没有对象的不同实例的概念（图1）。①的人。对象检测确实定位了不同的对象实例，但在非常粗略的边界框级别上这样做实例分割在像素级定位对象，如图所示1，并且可以被认为处于这两个场景理解任务的交叉点与前者不同的是，它知道同一对象的不同实例，与后者不同的是，它在像素级操作物体的准确识别和定位使许多应用成为可能，例如自动驾驶[8]，图像编辑[46]和机器人[16]。许多最近的实例分割方法都是基于对象检测流水线的，其中对象首先是使用边界框进行本地化。此后，每个边界框被细化为分割[18，19，27，32，26]。另一种相关方法[11，49]是使用基于段的区域建议[9，35，36]而不是基于框的建议。然而，这些方法不考虑整个图像，而是独立的建议。因此，不处理不同对象之间的遮挡。此外，这些方法中的许多方法不能容易地产生图像的分割图，如图1所示。1、因为他们独立处理了许多提案。通常存在比图像中的实际对象多得多的提议，并且这些提议可以重叠并且被分配不同的类别标签。最后，由于这些方法基于初始检测步骤，因此它们不能从错误检测中恢复。我们所提出的方法的灵感来自于这样一个事实，即实例分割可以被视为一种更复杂的形式的语义分割，因为我们不仅需要标记每个像素的对象类，而且还需要标记其实例标识。我们产生一个像素分割的图像，其中每个像素都被分配一个语义类和实例标签。我们的端到端训练网络，它输出每个输入图像的实例数量可变，开始与初始语义分割模块。接下来，网络的动态部分使用来自对象检测器和条件随机场（CRF）模型的信息来区分不同的实例。与基于检测的实例分割方法相比，该方法对于假阳性检测以及不覆盖整个对象的局部化不佳的边界框是鲁棒的。此外，由于它在进行预测时会考虑整个图像，因此它会尝试解决不同对象之间的遮挡问题，并可以生成如图1所示的分割图。1没有任何后期处理。此外，我们注意到，用于评估对象检测系统的平均精度（AP）度量[13]及其用于例如分割的APr变体[18]考虑了单独的、可能重叠的对象预测，而不是整个图像。为了评估像我们这样的方法，它产生完整的分割图并对遮挡进行推理，我们还使用 “MatchingIntersection over Union”度量进行评估我们的系统，这是基于一个初始的语义分割子网络，产生尖锐和准确的信息-441442(a) 对象检测（b）语义分割（c）实例分割图1.对象检测（a）定位不同的人，但在一个粗略的边界框级别。语义分割（b）标记每个像素，但没有实例的概念。实例分割（c）唯一地标记每个人的每个像素。我们提出的方法联合产生语义和实例分割。我们的方法使用对象检测器的输出作为识别实例的线索，但对误报检测、边界框定位不良和遮挡具有鲁棒性。最好用颜色看。姿态分割。这反映在我们在Pascal VOC和语义边界数据集上在高APr阈值下实现的最先进方法的实质性改进上此外，我们的网络改进了语义分割任务，同时被训练的实例分割的相关任务。2. 相关工作实例分割的早期工作是由Winn和Shotton [44]。训练每像素一元分类器来预测对象的部分。然后，这些部分被激励，以保持空间秩序，这是一个实例的特征，使用非对称成对势在一个连续随机场（CRF）。然而，在 Hariharan 等人的 “ 同时检测和分割 ”（SDS）工作之后，实例分割变得更加[18 ]第10段。该系统基于R-CNN管道[15]：通过[1]的方法生成的区域建议在应用边界框回归作为后处理之前，使用卷积神经网络（CNN）然后在此边界框中执行特定类别的分割，以同时检测和分割对象。Nu- merous工程[19，7，26]延长了这条管道。然而，通过细化检测来分割实例的方法[18，19，7，10，26]本质上受到初始提案质量的限制。这个问题由于以下事实而加剧：该流水线由用不同目标函数训练的此外，执行许多后处理步骤，诸如Dai等人[11]通过设计一个端到端的训练网络来解决其中的一些问题，该网络生成框建议，从这些建议中创建前景掩码，然后对这些掩码进行分类。该网络可以被视为端到端Faster-RCNN [37]检测框架的扩展，该框架生成框建议并对其进行分类。此外，Liuetal.[32]制定了战略部署储存网络[18]，而[27]迭代细化对象建议。在一个单独的轨道上，还开发了不需要物体探测器的算法Zhang等人[50，51]通过预测图像中每个像素的深度排序来分割汽车实例。与先前的基于检测的方法不同，该方法利用基于MRF的公式化同时（而不是单独的建议）对图像中的所有实例进行全局推理。然而，该图形模型的推断并未端到端执行，如[53，2，4，29]所示。此外，尽管该方法不使用对象检测，但它使用地面真实深度进行训练，并假设图像中最多有9辆汽车。中的所有实例图像同时（而不是对各个提议进行分类）需要模型能够处理每个图像的可变数量的输出实例。因此，[38]提出了一个递归神经网络（RNN）来完成这项任务。然而，这个模型只适用于一个单一的对象类别。我们提出的方法不仅输出可变数量的实例，但也可以处理多个对象类。Liang等人[28]基于[5]的语义分割网络开发了另一种无提案类别级分割以及CNN特征用于预测实例级边界框。还预测了每个类的实例的数量，以实现最终的谱聚类步骤。然而，梁的网络预测的Arnab等人[3]还从初始语义分割网络[2]开始不过，这种方法没有经过端到端的训练，并且无法真正从边界框定位或遮挡的错误中恢复。我们的方法也有一个初始的语义分割子网络，并使用对象检测器的输出。然而，与[3]相反，它是端到端训练的，以提高语义和实例分割性能（据我们所知，这是实现这一目标的第一项工作）。此外，它还可以处理探测器定位，443端到端网络PixelwiseCNND+1输入图像实例分割实例一元势语义分割K+1语义分割子网络实例分段子网检测器CRF实例语义CRF形状全球框图2. 网络概述：我们的端到端训练网络由语义和实例分割模块组成。中间类别级分割以及对象检测器的输出用于推理实例。这是通过使用来自检测器的边界框、初始语义分割以及对象形状的信息的实例一元项来完成的。最终CRF用于将所有这些信息组合在一起以获得实例分割。语义分割模块的输出是一个固定大小的W×H×（K+ 1）张量，其中K是数据集中不包括背景的对象类的数量。然而，最终的输出是可变的W×H×（D+ 1）维，其中D是检测到的对象的数量（和一个背景标签）。由于我们的端到端CRF中的能量项，与基于检测的方法[18，19，11，32]相比，我们的网络不需要额外的后处理来创建如图1所示的实例分割图。1（c）和关于整个形象的理由，而不是独立的建议。这种全局推理允许我们的方法产生更准确的分割。我们提出的系统还处理每个图像的可变数量的实例，因此不像[50，51]那样假设最大数量的实例。3. 该方法我们的网络（Fig.2）包含初始语义分割模块。我们使用的语义分割结果，以及输出的对象检测器，计算一元潜力的条件随机场（CRF）定义的对象实例。我们在这个随机场中执行平均场虽然我们的网络由两个概念上不同的部分组成-一个语义分割模块和一个实例分割网络-整个管道是完全可区分的，给定对象检测，并经过3.1. 语义分割子网络语义分割为图像中的每个像素分配来自给定集合L的语义类标签。在我们的例子中，这个模块使用基于VGG [40] ImageNet模型的FCN8s架构[33]为了获得更好的分割结果，我们将CRF的平均场推断作为模型，乌勒的最后一层这个CRF包含[23]中描述的密集连接的成对电位，并被公式化为[53]中的递归神经网络。此外，我们还包括[2]中描述的高阶检测潜力。这种检测潜力有两个主要好处：首先，它通过鼓励对象检测和分割之间的一致性来提高语义分割质量。其次，它还重新校准检测分数。该检测电位类似于[25]、[41]、[45]和[48]先前提出的检测电位，但针对可重构平均场推断算法进行了公式化。我们采用这种潜力，因为我们已经在使用对象检测信息来识别下一阶段的对象实例。我们将网络的语义分割模块的输出表示为张量Q，其中Qi（l）表示概率。图中像素i取标号l ∈ L的值（通过对网络的激活应用softmax函数获得3.2. 实例分段子网在实例分割子网络的输入处，我们假设有两个可用的输入：每个像素和标签的语义分割预测Q，以及一组对象检测。对于每个输入图像，我们假设存在D个对象检测，并且第i个检测具有（li，si，Bi）的形式，其中li∈ L是检测到的类别标签，si∈[0，1]是置信度得分，Bi是落在检测器边界内的像素的索引盒子注意，数字D对于每个输入图像而变化。实例分割的问题可以被认为是将每个像素分配给特定的对象检测或背景标签。这是基于每个对象检测指定一个潜在对象实例的假设。我们在图像中的N个像素中的每个像素处定义多项式随机变量V ，并且V=[V1V2. . . V N]T.像素i处的每个变量Vi被作为与其实例相对应的标签。这个标签集，{0，1，2，…D}针对每个图像而变化，因为检测的数量D针对每个图像而变化（0是背景标签）。在图像的实例分割的情况下，444(a) 语义分割（b）实例分割图3.仅使用“Box”一元势的实例分割。当我们有一个良好的初始语义分割（a）时，这种电位是有效的。同一类别的对象之间的遮挡可以通过基于外观差异的成对项来解决。请注意，我们可以忽略置信的假阳性“瓶”检测（b）。这与诸如 [7，18，19，26]不能从检测错误中恢复。预测的质量对于实例标记的排列是不变例如，标记图中的“蓝色人”。1（c）为“1”和“紫色人”为“2”，这与分别将它们标记为“2”和“1”没有区别。这种情况由我们在Sec中的损失函数处理。三点四分。请注意，与[50]和[51]等作品不同，我们不假设可能实例的最大数量，并保持固定的标签集。此外，由于我们将对象检测输出与语义分割预测结合起来考虑，因此我们对高分误报检测具有一定的鲁棒性，这与[7，19，32]等方法不同，这些方法将对象检测细化为分割。我们在我们的实例变量V上建立了一个条件随机场，它由一元能量和成对能量组成。所有变量V的赋值V的能量为(a) 仅框项（b）框项和全局项图4。基于细化边界框检测的方法，如[18，19，7，11]，不能处理局部化较差的检测。注意，覆盖的检测框是我们系统的额外输入。如图3.当初始语义分割较好时，该势表现较好。它对假阳性检测是鲁棒的，不像细化边界框的方法[7，18，19]，因为根据我们的初始语义分割Q来考虑检测。与之相对的是，3.2.4），如果在不同实例中存在外观差异，则可以解决相同类别的对象之间的遮挡。3.2.2全球术语该项不依赖于边界框，而仅依赖于特定像素处的分割预测。它编码了这样的直觉，即如果我们只知道特定对象类有d个可能的实例，并且没有进一步的定位信息，则每个实例都是同等可能的，并且这种可能性与该像素处检测到的对象类的语义分割置信度成比例：E（V=v）=Σ ΣU（v i）+ P（v i，v j）.（一）（V =k）=Q（1）。（四）i i j环球i i k一元能量是三项之和，其考虑了对象检测边界框、初始语义分割和形状信息，U（vi）= −ln[w1<$Box（vi）+w2<$Global（vi）+w3 <$Shape（vi）]，（2）并在第3.2.1至3.2.3节中进一步描述。w1、w2和w3都是通过反向传播学习的加权系数。3.2.1方框术语如果像素落在检测的边界框内，则这种可能性鼓励将像素分配给对应于第k该可能性与像素的语义类别等于检测到的类别的概率Qi（1 k）和检测得分s k成比例.如图4，这种可能性克服了边界框不覆盖对象的整个范围的情况，因为它将概率质量分配给图像中所有像素的特定实例标签。这在训练期间也是有益的，因为它确保了最终输出取决于图像中所有像素处的分割预测，从而导致跨批次更稳定的误差梯度，从而更适合于反向传播。3.2.3形状项我们还结合形状先验知识来帮助我们推理涉及同一类的多个对象的封闭性，这些对象之间可能具有最小的外观变化，如图所五、在这种情况下，对象类别的预期形状的先验可以帮助我们识别边界框内的前景实例。先前在分割中结合形状先验的方法[22，7，43]涉及从训练中生成ψ盒（Vi）=k）=Qi（lk）sk，如果i∈Bk0否则（三）数据集，并在推理时使用倒角距离将这些样本与对象建议进行匹配[39，31]。445ZBKK(a) 无形状项（b）有形状项图5。“形状”一元势（b）帮助我们区分绿色和紫色的绵羊，这是其他两个一元势所不能做到的。输入检测覆盖在图像上。我们提出了一种完全可微的方法：给定一组形状模板T，我们使用双-线性插值到T，使其匹配的尺寸的第k个边界框Bk。然后，我们选择与边界框内检测到的类别的分割预测相匹配的形状先验，QBk（lk），最好的一致性。归一化的互相关。我们的形状先验是然后是分割一元和匹配形状先验之间的Hadamard（元素级）乘积（Hadamard）：Σ(a)原始（b）预测，P（c）图6. 由于标签排列的问题，我们在训练时计算损失之前，将地面实况与我们的预测相结合3.3. 我们的动态实例CRF的推理我们使用平均场推断近似最小化方程中的吉布斯能 1，对应于找到相应概率分布的最大后验（MAP）标记，P（V=v）=1exp（−E（v）），其中Z是归一化因子。平均场推断是可微的，这个迭代算法可以展开tt= argmax？QBk（lk）t（五）并被视为递归神经网络[53]。在此之后t∈T¨Bk（lk）方法，我们可以将CRF的平均场推断作为我们的神经网络的一层这使我们能够训练我们的（VB） =k）= Q（lk）（六）等式5和等式6可以被看作是最大池化的特殊情况，并且等式5和等式6的分子可以被看作是最大池化的特殊情况。5只是一个卷积，它产生一个标量输出，因为两个参数是等尺寸此外，在训练期间，我们可以将形状先验T视为我们的“形状项”层的参数，并反向传播到匹配的样本T，以更新它。在实践中，我们使用[ 43 ]中描述的形状先验初始化这些参数。这包括大约250个形状模板用于五个不同的长宽比中的每一个。这些是通过对来自训练集的对象实例的前景掩模进行聚类而获得的。在这里，我们只匹配了一个形状模板到一个建议的实例。这种方法可以在未来扩展到将多个模板匹配到一个实例，在这种情况下，每个形状样本将对应于对象的一部分，例如在图[14]中。3.2.4成对项成对项由密集连接的高斯势[23]组成，并鼓励外观和空间一致性。控制这些项的重要性的权重也通过反向传播来学习，如[53]所示。我们发现，这些先验是有用的实例分割的情况下，以及，因为附近的像素具有相似的appearance往往属于同一个对象实例。他们通常能够解决基于外观差异的遮挡（3）第三章。整个实例分段网络端到端。因为我们为每个图像处理可变数量的实例，所以我们的CRF需要动态实例化，以便为每个图像提供不同数量的标签，如[3]所示。因此，与[53]不同，我们的权重都不是类特定的。这种权重共享不仅允许我们处理可变长度的输入，而且类特定的权重在实例分割的情况下也没有意义，因为类标签没有特定的语义意义。3.4. 损失函数当训练实例分割时，我们有一个单一的损失函数，我们通过我们的实例和语义分割模块反向传播，以更新所有参数。如前所述，我们需要处理最终标记的不同排列，这些排列可能具有相同的最终结果。[50]和[51]的作品然而，这需要在训练过程中使用地面实况深度图，而我们并不认为我们有。基于提议的方法[11，18，19，32]没有这个问题，因为它们一次考虑单个提议，而不是整个图像。我们的方法类似于[38]，因为我们基于每个实例预测和地面实况的交集（IoU）[13]将原始地面实况与我们的实例分割预测相匹配，如图所示。六、更正式地说，我们将图像G的地面真值标记表示为r个片段的集合{g1，g2，. . .，g r}，其中每个片段（像素集合）是对象实例446并且具有相关联的语义类标签。我们的预测，也就是我们的网络P的输出，是一组s段，{p1，p2，. . . ，ps}，其中每个段对应于一个实例标签，并且还具有一个相关联的类label.注意，r和s可能不同，因为我们可能预测比实际存在的更多或更少的实例。设M表示地面真值的所有排列的集合G. 如可见于图6、不同的排列组合地面实况对应于相同的定性结果。我们将“匹配的”地面实况G定义G =arg max IoU（m，P）。（七）m∈M一旦我们有了图像为分割而工作。在我们的例子中，我们使用共同的交叉熵损失函数。我们发现，这比[24，38]中提出的近似IoU损失表现得更好。至关重要的是，我们不需要评估地面真值的所有排列来计算Eq。7，因为它可以被公式化为一个最大权重的二分匹配问题。我们的二分图中的边连接地面实况和预测片段。如果它们共享相同的语义类标签，则边权重由基础事实和预测片段之间的IoU给出，否则为零。剩余部分与零重叠的“虚拟”节点相匹配此外，我们网络中实例的顺序实际上是由对象检测器确定的，对象检测器因此，我们的预测顺序在训练过程中不会有太大的波动3.5. 网络训练我们首先训练一个具有标准交叉熵损失的语义分割网络。在我们的例子中，这个网络是FCN 8 [33]，具有CRF，其推理作为RNN展开并进行端到端训练，如[53]和[2]所述。对于这个预训练的网络，我们附加了我们的实例分割子网络，并使用实例分割注释进行微调三点四分。为语义分割子网络，我们以10−8的初始学习率，0.9的动量和20. 学习率很低，因为我们没有将像素数的损失。这使得具有更多像素的图像贡献更高的损失。标准化的学习率约为2×10−3。当训练我们的实例分割网络时，我们降低了学习将速率设置为10−12，并使用批大小1。根据经验，减少批量得到更好的结果。我们也裁剪梯度（一种在训练RNN中常见的技术[34]），范数大于109。该阈值通过在训练期间观察“正常”梯度幅度来设置。相对较高的幅度是由于我们的损失没有正常化。在我们的完整网络中，我们有两个CRF推理模块，它们是RNN（语义和实例分割子网络中各一个），梯度裁剪有助于成功训练。3.6. 讨论我们的网络能够在一次向前传递中计算输入图像的语义和实例分割。我们不需要任何后处理，例如[32]的补丁聚合，我们计算初始语义分割的事实意味着我们对对象检测器中的错误具有一定的鲁棒性（图2）。（3）第三章。此外，我们也不一定会受到局部物体检测不良的限制（图11）。4）.我们的CRF模型允许我们一次对整个图像进行推理，而不是像[18，19，11，32，26]中那样考虑独立的对象虽然我们没有与网络联合训练此外，它确保我们的实例标签在训练过程中不会经常“切换”，这使得学习更加稳定。最后，请注意，尽管我们在网络中对CRF进行了平均场推断，但我们并没有优化CRF4. 实验评价第4.1节至第4.6节描述了我们对Pascal VOC验证集[13]和语义边界数据集（SBD）[17]（为Pascal VOC的11355个先前未标记的图像提供每像素注释）的评估。第4.7节详细介绍了Cityscapes的结果[8]。4.1. 实验细节我们首先训练一个用于语义分割的网络，然后对它进行微调以执行实例分割任务，如第2节所述。三点五我们用于语义分割预训练的训练数据由来自Pas calVOC [13]、SBD [17]和Microsoft COCO [30]的图像组成。最后，当对实例分割进行微调时，我们只使用来自VOC数据集或SBD数据集的训练数据。我们训练单独的模型来评估VOC验证集和SBD验证集。在每种情况下，我们从初始语义分割预训练集中删除验证集图像。我们使用公开可用的R-FCN对象检测框架[12]，并确保用于训练检测器的图像不会落入我们的测试集，例如分割。447volvolvolvolvol4.2. 评估指标我们报告区域平均精度（APr）的平均值，如[18]所定义。APr和对象检测中使用的AP度量之间的差异[13]是在预测区域和地面实况区域而不是边界框上计算的此外，标准AP度量使用0.5的IoU阈值来确定预测是否正确。在这里，我们使用各种IoU阈值，因为更大的阈值需要更精确的分割。此外，我们还-表1.不同CRF一元电位的影响以及使用它们进行的端到端培训对VOC 2012验证集的影响。AP体积端口AP r这是9个IoU的AP r的平均值阈值范围从0.1到0.9，增量为0.1。然而，我们还观察到，APr度量需要一种算法来产生段及其对象类的排名列表。它不需要，也不评估，算法产生图像的全局相干分割图的能力，例如图。1杯为了衡量这一点，我们提出了表2.实例分割性能与VOC 2012验证集上的当前方法的比较APrr r图像和地面真相，然后计算相应的方法0.50.60.70.80.9AP体积[13]如图所示。这个配对程序是SDS [18]43.834.521.38.70.9–与第二节中描述的相同。三点四分。这项措施原本Chen等人[七]《中国日报》46.338.227.013.52.6–在[47]中提出，但此后未用于评估[第28话]58.751.342.531.215.752.3实例分割系统。4.3. 实例潜力和端到端培训的效果我们首先对VOC 2012确认集进行消融研究该数据集由1464张训练图像和1449张验证图像组成，具有非常高质量的注释Arnab等人[3] 58.3 52.4 45.4 34.9 20.1 53.1精神创伤和痛苦1级表[32] 60.3 54.6 45.9 34.3 17.3 54.5精神创伤和痛苦三级制[32]62.1 56.647.4 36.1 18.5 56.5我们的61.7 55.548.6 39.5 25.1 57.5也改善了所有APr阈值的结果。仅使用“Box”项的训练详细的物体轮廓，使其成为最Rvol 的1.3%。以“全局”和“形”训练适用于评估像素级分割。在选项卡中。1，我们检查实例子网络中每个一元潜能对整体性能的影响此外，我们还研究了端到端训练整个网络的效果，而不是分段训练。分段训练是指冻结预训练的语义分割子网络请注意，当仅使用“Box”（等式2）进行训练时，3）一元势项和成对项，我们还必须添加包含整个图像的附加“背景”检测。否则，我们无法对背景标签进行分类。我们可以看到每个一元势函数都在整体上提高-术语显示分别为2.1%和2.3%的较大改善，活泼地这可能是因为一旦我们包含“全局”项，我们就考虑对检测到的类的整个图像进行语义分割。训练可以更有效地利用图像，在这种情况下，误差梯度更稳定。4.4. VOC确认集然后，我们将我们最好的实例分割模型与选项卡中VOC验证集上的最新方法进行二、事实上，我们的算法在阈值高于0.7时达到最高的APr，这表明我们的方法产生更多的de-p-r站姿分割结果，无论是在APr和有尾且准确的分割。匹配的借据。“全球”术语（Eq. 4）在0.9的高AP r阈值下显示出超过“Box”项的特别改进这是因为它可以克服边界框定位中的错误（图1）。4）并利用我们的语义分割网络The “Shape” term’s improvement in the在IoU阈值为0.9时，我们比之前的最新技术水平（MPA [32]）提高了6.6%，相对提高了36%。与[32，18，7]不同，我们的网络执行初始语义分割，这可以解释我们更准确的分割。其他基于分割的方法，[3，28]不是完全结束的。主要是由于在低阈值下APr训练结束。我们还实现了最佳的APr57.5%。旧的通过使用形状先验，我们能够恢复实例APr的相对较小的差异[32]第三十二话被挡住了，没被发现尽管在高IoU阈值下有很大改进，但端到端培训表明APAPRR匹配0.50.70.9IOU方框术语（分段）60.047.321.254.942.6Box+全球（分段）59.146.123.454.643.0Box+Global+Shape59.5（分段）46.423.355.244.8方框术语（端到端）60.747.424.656.246.9Box+Global60.9（端到端）48.125.556.747.1框+全局+形状61.7（端到端）48.625.157.548.3448volvol表3. SBD数据集上实例分割性能的比较表5. Cityscapes测试集的结果。从在线服务器获得的竞争方法的评估指标和结果的方法APR0.5 0.7R卷匹配IoU“AP” metric of Cityscapes is similar to our公制表4. 实例分割像素编码[42] 8.9 21.1 15.3 16.7因此，部分培训效果更好。4.6. 语义分割的改进对我们的网络进行微调，例如分割，损失在第二节中描述。3.4改进了VOC和SBD数据集上的语义分割性能，如表1所示。4.第一章对VOC的改善为0.9%，对SBD的改善为1%。实例分割和语义分割的任务是高度相关的数据集实例微调前的平均IoU [%]实例微调后的平均IoU [%]分割可以被认为是一个更具体的情况下，语义切分因此，为一项任务进行改善另一个。4.7. Cityscapes的结果最后，我们评估我们的算法上的城市景观MPA在低IoU阈值下表现更好。基于建议的方法，如[32，18]，更有可能在低IoU阈值下表现得更好，因为它们比图像中的实际实例输出更多的建议（SDS评估每个图像2000个建议）。此外，请注意，虽然MPA需要8.7秒来处理图像[32]，但我们的方法在相同的TitanX（Maxwell）GPU上需要大约1.1秒。更详细的定性和定量结果载于补充材料。4.5. SBD数据集我们还在SBD数据集上评估了我们的模型，该数据集由5623个训练图像和5732个验证图像组成，如表1所示。3 .第三章。在其他工作之后，我们仅在0.5和0.7的IoU阈值下报告APr结果。然而，我们在补充材料中提供了更详细的结果。再次，我们显示出显着的改善，在高APr阈值的其他工作。在这里，我们的APr在0.7处比先前的最新技术水平提高了1.5%[26]。请注意，[26，32，19]执行额外的后处理，其中使用额外的对象检测器对其结果进行重新评分。相比之下，我们的结果是通过我们的网络进行单次前向传递获得的。我们还改进了道路场景理解数据集[8]。我们在测试集上进行评估，测试集由在线服务器上的1525张图像组成，并且不使用500张验证图像中的任何一张进行训练。我们使用基于ResNet-101架构的初始语义分割子网络[52]，以及第2节中描述的所有实例一元势。3.2.如Tab.所示。5，我们的方法在Cityscapes上设置了一个新的最先进的状态，超过了并发工作[20]和以前发表的最好的工作[42]。5. 结论我们已经提出了一种端到端的实例分割方法，该方法可以产生中间语义分割，并表明对实例分割进行微调可以改善我们的网络我们的方法不同于其他从对象检测网络[11，32，19]中获得其架构的方法，因为我们的因此，我们的系统产生更准确和详细的分割，如我们在高APr阈值的实质性改进所示此外，我们的系统自然地产生分割图，与其他已发表的工作相比，不需要任何后处理。基本上在APR（3.4%）相比之下，最后，我们的网络产生了可变数量的输出，其他的作品都报道过。我们还使用了MNC [ 11 ]的公开源代码、模型和默认参数来评估“匹配IoU”。我们的方法将其提高了8.3%。该指标是对分割性能的更严格的度量，并且我们的方法基于初始语义分割并包括CRF，这取决于图像中实例的数量。致谢我们感谢Bernardino Romera-Paredes和Stuart Golodetz进行了富有洞察力的讨论和反馈。这项工作得到了EPSRC，克拉伦登基金，ERC赠款ERC-2012-AdG 321162-HELIOS ， EPSRC 授权 Seebibyte EP/M013774/1 和 EP-SRC/MURI授权EP/N 019474/1。AP方法APAP为0.5AP 100米AP 50米我们20.038.832.637.6SAIS [20]17.436.729.334.0SDS [18]49.725.341.4–[32]第三十二话55.5–48.3–超柱[19]56.537.0––[26]第二十六话60.138.7––CFM [10]60.739.6––[19]第十九话60.040.4––MPA 3-scale rescore [32]61.8–52.0–美国[11]63.541.5–39.0MNC，实例FCN [9]61.543.0––IIS sp. projection，rescore[26]63.643.3––我们的（分段）59.142.152.341.8我们的（端到端）62.044.855.447.3VOC74.275.1SBD71.572.5449引用[1] P. Arbelaez，J.Pont-Tuset，J.Barron，F.Marques和J.马力。多尺度组合分组见CVPR，第328-335页。IEEE，2014。2[2] A. Arnab，S.Jayasumana，S.Zheng，和P.H. S. 乇深度神经网络中的高阶条件随机场。在ECCV，2016年。二、三、六[3] A. Arnab和P.H. S. 乇基于高阶crfs的自底向上实例分割在BMVC，2016年。二、五、七[4] L. Chen，中国山核桃A. Schwing，A. Yuille和R.乌塔松学习深度结构化模型。在ICML，里尔，法国，2015年。2[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。ICLR，2015年。2[6] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915，2016。1[7] Y.-- T. Chen，X. Liu和M.- H.杨具有遮挡处理的多实例对象分割。在CVPR，第3470-3478页，2015年。二四七[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR，2016年。一、六、八[9] J. Dai，K.他，Y. Li，S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV，2016年。1、8[10] J. Dai，K. He和J. Sun.用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。二、八[11] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR，2016年。一二三四五六八[12] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。1、6[13] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。一、五、六、七[14] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。PAMI，32（9）：1627-1645，2010. 5[15] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。2[16] S.古普塔河，巴西-地格希克山口Arbelaez和J.马利克从RGB-D图像中学习丰富的特征用于对象检测和分割。在ECCV。2014. 1[17] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. Maji和J. 马利克从反向检测器的语义轮廓。在ICCV，第991-998页。IEEE，2011年。6[18] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。见ECCV，第297- 312页Springer，2014. 一二三四五六七八[19] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作rCVPR，2015年。一二三四五六八450[20] Z. Hayder，X.他和M。萨尔茨曼形状感知实例分割。在arXiv预印本arXiv：1612.03129，2016。8[21] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。1[22] X.他和S。古尔德。一种基于范例的CRF多实例对象分割方法。CVPR，2014。4[23] P. Kr aühenbuühl和V. 科尔顿具有高斯边缘势的全连接CRF中的有效推理NIPS，2011年。三、五[24] P. Kr aühenbuühl和V. 科尔顿稠密随机场的参数学习和收敛2013年，《国际反洗钱法》。6[25] L. Ladic ky'，P. Stu r gess，K. 阿拉哈里角Russell和P.H. S. 乇什么，在哪里，有多少？结合了对象检测器和CRF。ECCV，第424-437页，2010年。3[26] K. 李湾，澳-地Hariharan和J.马利克迭代实例分段。在CVPR，2016年。一二四六八[27] X. Liang，Y.Wei，X.沈，Z.Jie，J.丰湖，澳-地Lin和S.燕.可逆递归实例级对象分割。在CVPR，2016年。一、二[28] X. Liang，Y. Wei，X.沈军，杨立. Lin和S.燕.用于实例级对象分割的无建议网络。arXiv预印本arXiv：1509.02636，2015年。二六七[29] G.林角，澳-地沈和我里德用于语义分割的深度结构化模型在CVPR，2016年。2[30] T.- Y. 林， M 。迈尔， S 。贝隆吉， J.Hays ，P.Perona，D.Ra-manan，P. Doll a'r 和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象。参见ECCV，第740-755页。Springer，2014. 6[31] M.- Y. Liu，O. Tuzel，A. Veeraraghavan和R.切拉帕快速定向倒角匹配。见CVPR，第1696- 1703页IEEE，2010。4[32] S. Liu，X. Qi，J. Shi，H. zhang和J.贾同时检测和分割的多尺度块聚集在CVPR，2016年。一二三四五六七八[33] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。三、六[34] R. Pascanu，T. Mikolov和Y.本吉奥。关于训练递归神经网络的困难。在ICML，第1310- 1318页6[35] P. O.皮涅罗河Collobert和P

下载后可阅读完整内容，剩余1页未读，立即下载