实时实例分割的深蛇方法

75 浏览量更新于2023-10-24 收藏 13.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1x1 conv185330实时实例分割的深蛇0Sida Peng 1 Wen Jiang 1 Huaijin Pi 1 Xiuli Li 2 Hujun Bao 1 Xiaowei Zhou 1 �01 浙江大学 2 Deepwise AI Lab0摘要0本文介绍了一种名为深蛇的新型基于轮廓的实时实例分割方法。与一些最近的直接从图像中回归对象边界点坐标的方法不同，深蛇使用神经网络来迭代地变形初始轮廓以匹配目标边界，实现了基于学习的蛇算法的经典思想。对于轮廓上的结构化特征学习，我们提出在深蛇中使用循环卷积，与通用图卷积相比，更好地利用了轮廓的循环图结构。基于深蛇，我们开发了一个两阶段的实例分割流程：初始轮廓提议和轮廓变形，可以处理对象定位中的错误。实验证明，该方法在Cityscapes、KINS、SBD和COCO数据集上实现了竞争性的性能，并且在1080TiGPU上对于512×512图像的实时应用具有32.3fps的速度。代码可在https://github.com/zju3dv/snake/上获取。01. 引言0实例分割是许多计算机视觉任务的基石，如视频分析、自主驾驶和机器人抓取，这些任务需要精确性和效率。大多数最先进的实例分割方法[18, 27, 5,19]在由物体检测器[36]给出的边界框内进行像素级分割，但这种方法可能对不准确的边界框敏感。此外，将对象形状表示为密集的二进制像素通常会导致昂贵的后处理。一种替代的形状表示是对象轮廓，它是沿着对象轮廓的一组顶点。与基于像素的表示相比，轮廓不限于边界框，并且具有较少的参数。自从Kass等人的开创性工作[21]以来，这种基于轮廓的表示方法在图像分割中长期被使用，0� 浙江大学的作者隶属于CAD&CG国家重点实验室。通讯作者：周晓伟。0（a）初始轮廓（c）偏移量（b）轮廓上的特征学习0图1.深蛇的基本思想。给定一个初始轮廓，提取每个顶点处的图像特征（a）。由于轮廓是一个循环图，因此在轮廓上应用循环卷积进行特征学习（b）。蓝色、黄色和绿色节点分别表示输入特征、循环卷积的核和输出特征。最后，在每个顶点处回归偏移量以使轮廓变形以匹配目标边界（c）。0被广泛称为蛇或主动轮廓的方法。给定一个初始轮廓，蛇算法通过优化能量函数来迭代地变形轮廓以匹配目标边界，该能量函数是用低级特征（如图像强度或梯度）定义的。虽然文献中已经开发了许多变种方法[6, 7,15]，但由于目标函数是手工设计的且通常是非凸的，这些方法容易陷入局部最优解。一些最近的基于学习的分割方法[20,042,41]也将对象表示为轮廓，并尝试直接从RGB图像中回归轮廓顶点的坐标。虽然这些方法速度快，但大多数方法的性能不如基于像素的方法。相反，Ling等人[25]采用传统蛇算法的变形流程，并训练一个神经网络来演化初始轮廓以匹配目标边界。给定带有图像特征的轮廓，它将输入轮廓视为图，并使用图卷积网络（GCN）来预测轮廓点和目标边界点之间的顶点偏移量。它在与基于像素的方法相比具有竞争性的准确性的同时速度更快。然而，[25]中提出的方法旨在帮助注释，并缺乏用于自动实例分割的完整流程。此外，将轮廓作为具有通用GCN的一般图形并不能充分利用轮廓的特殊拓扑结构。85340在本文中，我们提出了一种基于学习的蛇算法，称为深度蛇，用于实时实例分割。受到之前的方法的启发[21,25]，深度蛇以初始轮廓作为输入，并通过回归顶点偏移来变形它。我们的创新之处在于引入了循环卷积以实现对轮廓的高效特征学习，如图1所示。我们观察到轮廓是一个由一系列连接在闭合循环中的顶点组成的循环图。由于每个顶点的度数都等于2，我们可以对顶点特征应用标准的一维卷积。考虑到轮廓是周期性的，深度蛇引入了循环卷积，这意味着一个非周期性函数（一维核）以标准方式与周期性函数（在轮廓上定义的特征）进行卷积。循环卷积的核不仅编码了每个顶点的特征，还编码了相邻顶点之间的关系。相比之下，通用的图卷积网络（GCN）通过池化来聚合相邻顶点的信息。我们循环卷积中的核函数相当于一个可学习的聚合函数，比使用通用的GCN更具表达力并且能够获得更好的性能，这在第5.2节的实验结果中得到了证明。基于深度蛇，我们开发了一个用于实例分割的流程。给定一个初始轮廓，深度蛇可以迭代地变形它以匹配对象边界并获得对象形状。剩下的问题是如何初始化一个轮廓，这在经典的蛇算法中已经得到了证明的重要性。受到[32, 29,45]的启发，我们提出以对象极端点形成的八边形作为初始轮廓，通常能够紧密地包围对象。具体而言，我们将深度蛇与目标检测器集成在一起。检测到的边界框初始化了由边缘上的四个中心点定义的菱形轮廓。然后，深度蛇以菱形为输入，并输出从菱形顶点指向对象极端点的偏移量，这些偏移量用于按照[45]的方法构造一个八边形。最后，深度蛇变形八边形轮廓以匹配对象边界。我们的方法在Cityscapes[8]、KINS [35]、SBD [16]和COCO[24]数据集上展现了竞争性的性能，同时对于实时实例分割来说也是高效的，在GTX 1080tiGPU上对于512×512像素的图像达到了32.3帧每秒。学习-based蛇算法之所以快速准确，有以下两个原因。首先，我们的方法可以处理对象定位阶段的错误，因此可以使用轻量级的检测器。其次，轮廓表示的参数比基于像素的表示更少，并且不需要昂贵的后处理，例如掩码上采样。总之，本文的工作具有以下贡献：0•我们提出了一种基于学习的蛇算法，用于实时实例分割，并引入了循环卷积来对轮廓进行特征学习。0•我们提出了一个两阶段的流程用于实例分割：初始轮廓提议和轮廓变形。这两个阶段都可以处理初始对象定位的错误。0•我们在Cityscapes、KINS、SBD和COCO数据集上展示了我们方法的最先进性能。对于512×512像素的图像，我们的算法以32.3帧每秒的速度运行，适用于实时应用。02. 相关工作0基于像素的方法。大多数方法[9, 23, 18,27]在区域提议内对像素级别进行实例分割，这在标准CNN中表现得特别好。一个典型的例子是Mask R-CNN[18]。它首先检测对象，然后使用掩码预测器对提议的框内的实例进行分割。为了更好地利用框内的空间信息，PANet[27]融合了来自全连接层和卷积层的掩码预测。这种基于提议的方法实现了最先进的性能。这些方法的一个局限性是它们无法解决定位错误，例如过小或偏移的框。相比之下，我们的方法将检测到的框变形到对象边界，因此对象形状的空间扩展不会受到限制。还有一些不需要区域提议的基于像素的方法[2, 31, 28, 12,43]。在这些方法中，每个像素都产生辅助信息，然后通过聚类算法根据它们的信息将像素分组成对象实例。辅助信息和分组算法可以各不相同。[2]为每个像素预测边界感知能量，并使用分水岭变换算法进行分组。[31]通过学习实例级别的嵌入来区分实例。[28,12]将输入图像视为图形，并回归像素亲和性，然后通过图合并算法进行处理。由于掩码由密集像素组成，后处理的聚类算法往往耗时较长。0基于轮廓的方法。在这些方法中，物体的形状由沿着物体边界的一系列顶点组成。传统的蛇算法[21, 6, 7,15]首次引入了基于轮廓的图像分割表示。它们通过优化手工设计的能量函数来将初始轮廓变形到物体边界。为了提高这些方法的鲁棒性，[30]提出了以数据驱动方式学习能量函数。一些最近的基于学习的方法[20,42]不再迭代优化轮廓，而是尝试从RGB图像中回归轮廓点的坐标，速度更快。然而，它们的准确性与最先进的基于像素的方法不相匹配。(fN)i ≜∞�j=−∞fi−jN,(1)(fN ∗ k)i =r�j=−r(fN)i+jkj,(2)85350在半自动标注领域，[4, 1,25]尝试使用其他网络而不是标准的CNN进行轮廓标注。[4,1]使用递归神经网络顺序预测轮廓点。为了避免顺序推理，[25]遵循蛇算法的流程，使用图卷积网络预测轮廓变形的顶点偏移。这种策略显著提高了标注速度，同时准确性与基于像素的方法相当。然而，[25]缺乏实例分割的流程，并未充分利用轮廓的特殊拓扑结构。深度蛇不将轮廓视为一般图形，而是利用循环图拓扑结构，并引入循环卷积以实现对轮廓的高效特征学习。03. 提出的方法0受到[21,25]的启发，我们通过将初始轮廓变形以匹配物体边界来进行物体分割。具体而言，深度蛇以轮廓作为输入，并预测指向物体边界的每个顶点的偏移量。轮廓顶点上的特征是通过CNN主干在输入图像上提取的。为了充分利用轮廓的拓扑结构，我们提出了循环卷积以实现对轮廓的高效特征学习，从而便于深度蛇学习变形。基于深度蛇，我们还开发了一个实例分割的流程。03.1. 基于学习的蛇算法0给定初始轮廓，传统的蛇算法将顶点的坐标视为一组变量，并优化能量函数以得到这些变量的最优解。通过在轮廓坐标处设计适当的力，算法可以将轮廓推向物体边界。然而，由于能量函数通常是非凸的，并且基于低级图像特征手工设计，优化往往会找到局部最优解。相比之下，深度蛇直接学习以端到端的方式演化轮廓。给定具有N个顶点{x_i | i = 1, ...,N}的轮廓，我们首先为每个顶点构造特征向量。顶点x_i的输入特征f_i是学习特征和顶点坐标的连接：[F(x_i);x_i]，其中F表示特征图。特征图F是通过在输入图像上应用CNN主干获得的。CNN主干与我们实例分割流程中的检测器共享，稍后将进行讨论。图像特征F(x_i)是通过在顶点坐标x_i处进行双线性插值计算得到的。附加的顶点坐标用于编码轮廓顶点之间的空间关系。由于变形不应受到轮廓在图像中的平移的影响，我们将x_i的每个维度减去所有顶点的最小值。0图2.循环卷积。蓝色节点是定义在轮廓上的输入特征，黄色节点代表核函数，绿色节点是输出特征。高亮的绿色节点是核函数与高亮的蓝色节点之间的内积，与标准卷积相同。循环卷积的输出特征与输入特征具有相同的长度。0给定在轮廓上定义的输入特征，deepsnake引入了循环卷积进行特征学习，如图2所示。一般来说，轮廓顶点的特征可以被视为一个1-D离散信号f: Z → RD0并通过标准卷积进行处理。但这会破坏轮廓的拓扑结构。因此，我们将f扩展为周期信号，定义如下：0并提出将周期特征通过循环卷积进行编码，定义如下：0其中 k: [−r, r] → RD是一个可学习的核函数，操作符�是标准卷积。类似于标准卷积，我们可以基于循环卷积构建一个用于特征学习的网络层，这样可以很容易地集成到现代网络架构中。经过特征学习后，deepsnake对每个顶点的输出特征应用了三个1×1卷积层，并预测了轮廓点和目标点之间的顶点偏移量，用于变形轮廓。在所有实验中，循环卷积的核大小固定为9。正如在引言中讨论的那样，所提出的循环卷积比通用图卷积更好地利用了轮廓的循环结构。我们将在第5.2节中展示实验比较。另一种方法是使用标准CNN从输入图像中回归出一个像素级向量场，以引导初始轮廓的演化[37, 33, 40]。我们认为，deepsnake相对于标准CNN的一个重要优势是对象级结构化预测，即顶点的偏移预测取决于同一轮廓的其他顶点。因此，deepsnake将为远离物体的顶点预测一个更合理的偏移量。标准CNN在这种情况下可能会遇到困难，因为回归的向量场可能会将该顶点驱动到更接近的另一个物体。85360连接添加0轮廓偏移0骨干网络融合预测0最大池化01x1Conv01x1Conv01x1Conv-ReLU01x1Conv-ReLU0CirConv-Bn-ReLU0CirConv-Bn-ReLU0CirConv-Bn-ReLU0CirConv-Bn-ReLU0CirConv-Bn-ReLU0(a) Deep snake (b) 实例分割流程0输入图像0检测到的框0变形菱形轮廓0极端点八边形轮廓0物体形状变形0图3. 提出的基于轮廓的实例分割模型。 (a) Deepsnake由三个部分组成：骨干网络、融合块和预测头。它以轮廓作为输入，并输出顶点偏移量以变形轮廓。(b) 基于deepsnake，我们提出了一个两阶段的实例分割流程：初始轮廓提议和轮廓变形。检测器提出的框给出了一个菱形轮廓，然后通过deepsnake将其四个顶点移动到物体的极端点。基于极端点构建了一个八边形。将八边形作为初始轮廓，deepsnake迭代地将其变形以匹配物体边界。0网络架构。图3(a)显示了详细的示意图。深度蛇（deepsnake）借鉴了[34, 39,22]的思想，由三个部分组成：骨干网络、融合块和预测头。骨干网络由8个“CirConv-Bn-ReLU”层组成，并对所有层使用残差跳跃连接，其中“CirConv”表示循环卷积。融合块旨在融合多尺度上所有轮廓点的信息。它将骨干网络中所有层的特征进行连接，并通过一个1×1卷积层后接最大池化进行转发。融合特征然后与每个顶点的特征进行连接。预测头对顶点特征应用了三个1×1卷积层，并输出顶点偏移量。03.2. 深度蛇用于实例分割0图3(b)概述了用于实例分割的提出的流程。我们将深度蛇与物体检测器结合起来。检测器首先产生用于构建菱形轮廓的物体边界框。然后，深度蛇将菱形顶点移动到物体的极点，用于构建八边形轮廓。最后，深度蛇以八边形作为初始轮廓，并进行迭代轮廓变形以获得物体的形状。0初始轮廓提案。大多数主动轮廓模型需要精确的初始轮廓。由于在[45]中提出的八边形紧密包围物体，我们选择它作为初始轮廓，如图3(b)所示。这个八边形由四个极点组成，分别是物体的顶部、最左侧、底部和最右侧的像素，分别表示为{xexi | i = 1, 2, 3,4}。给定一个检测到的物体框，我们提取顶部、左侧、底部、右侧框边缘的四个中心点，表示为{xbbi | i = 1, 2, 3,4}，然后将它们连接起来得到一个菱形轮廓。深度蛇算法将这个轮廓作为输入，并输出从每个顶点xbbi指向极点xexi的四个偏移量，即xexi − xbbi。0在实践中，为了考虑更多的上下文信息，菱形轮廓被均匀上采样到40个点，深度蛇相应地输出40个偏移量。损失函数只监督xbbi处的偏移量。我们通过基于极点生成四条线段并连接它们的端点来构建八边形。具体而言，四个极点定义了一个新的边界框。从每个极点开始，沿着相应的框边缘向两个方向延伸1/4的边长，并在遇到框角时截断。然后，将四条线段的端点连接起来形成八边形。0轮廓变形。我们首先沿着八边形轮廓从顶部极点xex1开始均匀采样N个点。类似地，通过沿着物体边界均匀采样N个顶点并将第一个顶点定义为最接近xex1的顶点，生成了真实轮廓。深度蛇算法将初始轮廓作为输入，并输出从每个顶点指向目标边界点的N个偏移量。在所有实验中，我们将N设置为128，可以均匀覆盖大多数物体形状。然而，一次性回归偏移量是具有挑战性的，特别是对于远离物体的顶点。受到[21, 25,38]的启发，我们以迭代优化的方式解决了这个问题。具体而言，我们的方法首先基于当前轮廓预测N个偏移量，然后通过逐顶点将偏移量添加到其顶点坐标来变形该轮廓。变形后的轮廓可用于下一次迭代。在实验中，推断迭代次数设置为3，除非另有说明。注意，轮廓是物体空间扩展的一种替代表示。通过将初始轮廓变形以匹配物体边界，深度蛇算法可以解决检测器的定位误差。DetectorRoIAlign85370图4.多组件检测。给定一个物体框，我们执行RoIAlign来获取特征图，并使用一个检测器来检测组件框。0多组件检测。由于遮挡的原因，一些物体被分成几个组件，如图4所示。然而，一个轮廓只能勾勒出一个组件。为了解决这个问题，我们提出使用另一个检测器在物体框内找到物体组件。图4展示了基本思想。具体而言，我们的方法使用检测到的框执行RoIAlign[18]来提取特征图，并在特征图上添加一个检测器分支来生成组件框。对于检测到的组件，我们使用深度蛇算法对每个组件进行分割，然后合并分割结果。04. 实现细节0训练策略。对于深度蛇的训练，我们使用[14]中提出的平滑ℓ1损失来学习两个变形过程。极点预测的损失函数定义为0Lex = 10i = 1 ℓ1(˜xexi − xexi), (3)0其中˜xexi是预测的极点。迭代轮廓变形的损失函数定义为0Liter = 10N0i = 1 ℓ1(˜xi − xgti), (4)0其中˜xi是变形后的轮廓点，xgti是真值边界点。对于检测部分，我们采用与原始检测模型相同的损失函数。训练细节根据数据集而变化，在第5.3节中将进行描述。0检测器。我们采用CenterNet[44]作为所有实验的检测器。CenterNet将检测任务重新定义为关键点检测问题，并在速度和准确性之间取得了令人印象深刻的平衡。对于物体框检测器，我们采用与[44]相同的设置，输出类别特定的框。对于组件框检测器，采用无类别的CenterNet。具体来说，给定一个H × W ×C的特征图，无类别的CenterNet输出一个H × W ×1的张量表示组件中心和一个H × W ×2的张量表示框的大小。05. 实验05.1. 数据集和评估指标0Cityscapes[8]包含2,975个训练图像，500个验证图像和1,525个测试图像，具有高质量的注释。此外，它还有20k个带有粗略注释的图像。性能以数据集的八个语义类别的平均精度（AP）指标进行评估。0KINS [35]是通过在Kitti[13]数据集上进行实例级语义注释而创建的。该数据集用于全模态实例分割，旨在恢复即使在遮挡下也能完整呈现的实例形状。KINS包含7,474个训练图像和7,517个测试图像。按照其设置，我们以AP指标评估我们的方法在七个物体类别上的性能。0SBD [16]使用实例级边界重新注释了PASCAL VOC[10]数据集的11,355个图像。我们不在PASCALVOC上进行评估的原因是其注释中包含空洞，不适合基于轮廓的方法。SBD分为5,623个训练图像和5,732个测试图像。我们以2010 VOC AP vol [17]、AP 50和AP70指标报告我们的结果。APvol是从0.1到0.9的九个阈值的AP的平均值。0COCO[24]是最具挑战性的实例分割数据集之一。它包含115k个训练图像，5k个验证图像和20k个测试图像。我们以AP指标报告我们的结果。05.2. 消融研究0我们在SBD数据集上进行消融研究，因为它有20个语义类别，可以充分评估处理各种物体形状的能力。评估了三个提出的组件，包括我们的网络架构、初始轮廓提议和循环卷积。在这些实验中，检测器和深度蛇进行端到端训练，共进行160个时期的多尺度数据增强。学习率从1e-4开始，在80和120个时期减半。表1总结了消融研究的结果。行“基准”列出了Curve-gcn [25]与CenterNet[44]的直接组合结果。具体来说，检测器产生物体框，给物体周围画椭圆。然后通过Graph-ResNet将椭圆变形为物体边界。注意，这种基准方法将轮廓表示为图，并使用图卷积网络进行轮廓变形。为了验证我们网络的优势，第二行的模型保持卷积算子为图卷积，并用我们提出的架构替换Graph-ResNet，结果AP vol提高了1.4个百分点。85380AP vol AP 50 AP 700基线 50.9 58.8 43.5 + 架构 52.3 59.7 46.0 + 初始提案 53.6 61.147.6 + 循环卷积 54.4 62.1 48.3 表1.在SBD验证集上的消融研究。基线是Curve-gcn [25]和CenterNet[44]的直接组合。第二个模型保留了图卷积，并用我们提出的架构替换了网络架构，提高了1.4 APvol。然后我们在轮廓变形之前添加了初始轮廓提案，将APvol提高了1.3。第四行显示，用循环卷积替换图卷积进一步提高了0.8 AP vol。0迭代1 迭代2 迭代3 迭代4 迭代50图卷积 50.2 51.5 53.6 52.2 51.6 循环卷积 50.6 54.2 54.4 54.053.2 表2.在SBD上使用不同卷积操作符和不同迭代次数的模型结果，以APvol指标衡量。循环卷积在所有推理迭代中优于图卷积。此外，循环卷积在两次迭代中优于三次迭代的图卷积0.6AP，表明循环卷积具有更强的变形能力。我们还发现，增加迭代次数并不一定能提高性能，这表明使用更多迭代可能更难训练网络。0两个网络之间的区别在于我们的架构在预测头之前附加了一个全局融合块。在探索轮廓初始化的影响时，我们在轮廓变形之前添加了初始轮廓提案。提案步骤通过预测四个目标极点生成一个八边形初始化，不仅弥补了检测误差，而且更紧密地包围了目标。第二行和第三行之间的比较显示了APvol方面的1.3改进。最后，将图卷积替换为循环卷积，提高了0.8 APvol。为了充分验证循环卷积的重要性，我们进一步比较了使用不同卷积操作符和不同推理迭代的模型，如表2所示。循环卷积在所有推理迭代中优于图卷积。循环卷积在两次迭代中优于三次迭代的图卷积0.6 APvol。图5显示了在SBD上使用图卷积和循环卷积的定性结果，循环卷积给出了更清晰的边界。定量和定性结果都表明，具有循环卷积的模型具有更强的轮廓变形能力。05.3. 与最先进方法的比较0在Cityscapes上的性能。由于Cityscapes中碎片实例非常常见，采用了提出的多组件检测策略。我们的网络在多尺度数据增强下进行训练，并在0第1次迭代0图卷积0循环卷积0第2次迭代0第3次迭代0图5.在SBD上图卷积（上）和循环卷积（下）的比较。两次迭代的循环卷积结果在视觉上优于三次迭代的图卷积结果。0单分辨率为1216×2432。没有使用任何测试技巧。检测器首先单独训练了140个epochs，学习率从1e-4开始，在80、120个epochs时减半。然后检测和snake分支进行了200个epochs的端到端训练，学习率从1e-4开始，在80、120、150个epochs时减半。我们选择在验证集上表现最好的模型。表3将我们的结果与Cityscapes验证集和测试集上的其他最先进方法进行了比较。所有方法都没有使用任何技巧。仅使用精细注释，我们的方法在验证集和测试集上都达到了最先进的性能。在验证集上，我们的方法比PANet高0.9AP，在测试集上高1.3 AP50。当不采用处理碎片实例的策略时，我们的方法在测试集上达到了28.2 AP。图6显示了可视化结果。0KINS上的性能。KINS数据集用于非模态实例分割，其中所有对象都被注释为单组件，因此没有采用多组件检测策略。我们对检测器和snake进行端到端训练150个epochs。学习率从1e-4开始0并在80和120个epochs时分别衰减为原来的0.5和0.1。我们进行多尺度训练，并在单一分辨率768×2496上测试模型。表4显示了与[9, 23, 11, 18,27]在KINS数据集上以AP指标进行比较的结果。我们的方法在所有方法中取得了最佳性能。我们发现snake分支可以提高检测性能。当单独训练CenterNet时，其检测性能为30.5AP。当与snake分支一起训练时，性能提高了2.3AP。对于KINS数据集上的768×2496的图像分辨率，我们的方法在1080 Ti GPU上的运行速度为7.6fps。图6显示了KINS上的一些定性结果。85390图6. Cityscapes测试集和KINS测试集上的定性结果。前两行显示了Cityscapes的结果，最后一行列出了KINS的结果。请注意，KINS上的结果是针对非模态实例分割的。0训练数据fps AP [val] AP AP 50 人骑车车辆卡车公共汽车火车摩托车自行车0SGN [26] fine + coarse 0.6 29.2 25.0 44.9 21.8 20.1 39.4 24.8 33.2 30.8 17.7 12.4 PolygonRNN++ [1] fine - - 25.5 45.5 29.4 21.8 48.3 21.1 32.3 23.713.6 13.6 Mask R-CNN [18] fine 2.2 31.5 26.2 49.9 30.5 23.7 46.9 22.8 32.2 18.6 19.1 16.0 GMIS [28] fine + coarse - - 27.6 49.6 29.3 24.1 42.7 25.437.2 32.9 17.6 11.9 Spatial [31] fine 11 - 27.6 50.9 34.5 26.1 52.4 21.7 31.2 16.4 20.1 18.9 PANet [27] fine < 1 36.5 31.8 57.1 36.8 30.4 54.8 27.036.3 25.5 22.6 20.80Deep snake fine 4.6 37.4 31.7 58.4 37.2 27.0 56.0 29.5 40.5 28.2 19.0 16.4 表3. Cityscapes val集上的结果（“AP[val]”列）和测试集上的结果（其余列）。我们的方法达到了最先进的性能，比PANet[27]在val集上提高了0.9个AP，在测试集上提高了1.3个AP50。就推理速度而言，我们的方法大约比PANet快五倍。其他方法的计时结果来自[31]。0检测非模态分割0MNC [9] 20.9 18.5 16.1 FCIS [23] 25.6 23.5 20.8 ORCNN[11] 30.9 29.0 26.4 Mask R-CNN [18] 31.1 29.2 × MaskR-CNN [18] 31.3 29.3 26.6 PANet [27] 32.3 30.4 27.60Deep snake 32.8 31.3 × 表4.KINS测试集上的结果，以AP指标衡量。在检测任务中，使用非模态边界框作为ground truth。×表示相应方法中没有此输出。0在SBD上的性能。由于SBD上的对象注释大多是单组件的，因此没有采用多组件检测策略。对于碎片化的实例，我们的方法将它们的组件分别检测，而不是检测整个对象。我们使用多尺度数据增强对检测和snake分支进行端到端训练150个epochs。学习率从1e-4开始，在80和120个epochs时减半。网络在单一尺度512×512上进行测试。0AP vol AP 50 AP 700STS [20] 29.0 30.0 6.5 ESE-50 [42] 32.6 39.1 10.5ESE-20 [42] 35.3 40.7 12.10Deep snake 54.4 62.1 48.3 表5. SBDval集上的结果。我们的方法在轮廓为基础的其他方法上取得了很大的优势。改进随着IoU阈值的增加而增加：AP 50提高了21.4，AP70提高了36.2。0在表5中，我们与其他基于轮廓的方法[20,42]在SBD数据集上以VOC AP指标进行比较。[20,42]通过回归形状向量来预测物体轮廓。STS[20]将物体轮廓定义为径向向量，而ESE[42]则用Chebyshev多项式来近似物体轮廓。我们在APvol方面大幅领先这些方法，至少提高了19.1个AP。请注意，我们的方法在AP 50和AP70方面分别提高了21.4和36.2，这表明随着IoU阈值的降低，改进效果越来越明显。这表明我们的方法能够更精确地描绘物体边界。对于512×512的图像YOLACT [3]ESE [42]OURSval (segm AP)29.921.630.5test-dev (segm AP)29.8-30.3We proposed a learning-based snake algorithm for real-time instance segmentation, which introduces the circularconvolution for efﬁcient feature learning on the contour andregresses vertex-wise offsets for the contour deformation.Based on deep snake, we developed a two-stage pipeline forinstance segmentation: initial contour proposal and contourdeformation. We showed that this pipeline gained a supe-rior performance than direct regression of the coordinates ofthe object boundary points. To overcome the limitation ofthe contour representation that it can only outline one con-nected component, we proposed the multi-component de-tection strategy and demonstrated the effectiveness of thisstrategy on Cityscapes. The proposed model achieved com-petitive results on the Cityscapes, Kins, Sbd and COCOdatasets with a real-time performance.85400图7. 在SBD验证集上的定性结果。我们的方法在大多数情况下都能处理目标定位的错误。例如，在第一张图片中，尽管检测到的框没有完全包围住汽车，我们的方法仍然恢复了完整的汽车形状。请放大查看细节。0表6. 在COCO上与其他实时方法的比较。0在SBD数据集上，我们的方法在1080 Ti上以32.3fps的速度运行。图7展示了一些定性结果。0COCO上的性能。与SBD上的实验类似，我们没有采用多组件检测策略。网络使用多尺度数据增强进行训练，并在原始图像分辨率下进行测试，没有使用技巧（如翻转增强）。检测器和snake分支进行了160个epoch的端到端训练，其中检测器使用了[ 44]发布的预训练模型进行初始化。学习率从1e-4开始，在80和120个epoch时减半。我们选择在验证集上表现最好的模型。表6比较了我们的方法与其他实时方法。我们的方法在COCO test-dev数据集上以27.2 fps的速度实现了30.3 segmAP和33.2 bbox AP。05.4. 运行时间0表7比较了我们的方法与其他方法[ 9 , 23 , 18 , 20 , 42]在PASCAL VOC数据集上的运行时间。由于SBD数据集与PASCALVOC共享图像，因此在SBD数据集上的运行时间在技术上与PASCAL VOC上的运行时间相同。我们从[ 42]获取了其他方法的运行时间。对于SBD数据集上的512×512图像，我们的算法在一台搭载Intel i7 3.7GHz和GTX 1080 TiGPU的台式机上以32.3fps的速度运行，对于实时实例分割来说非常高效。具体来说，CenterNet需要18.4毫秒，初始轮廓提案需要3.1毫秒，每次迭代的轮廓变形需要3.3毫秒。由于我们的方法输出目标边界，因此不需要像上采样那样的后处理。如果采用多组件检测策略，检测器还需要额外的3.6毫秒。0方法 MNC FCIS MS STS ESE OURS0时间（毫秒） 360 160 180 27 26 310fps 2.8 6.3 5.6 37.0 38.5 32.3 表7. 在PASCALVOC数据集上的运行时间。“MS”代表Mask R-CNN [ 18]，“OURS”代表我们的方法。最后三种方法是基于轮廓的方法。0我们提出了一种基于学习的实时实例分割的snake算法，该算法引入了循环卷积以实现对轮廓的高效特征学习，并回归顶点偏移以实现轮廓的变形。基于深度snake，我们开发了一个两阶段的实例分割流程：初始轮廓提案和轮廓变形。我们证明了这个流程相比于直接回归目标边界点的坐标具有更好的性能。为了克服轮廓表示只能描绘一个连通组件的限制，我们提出了多组件检测策略，并在Cityscapes上证明了该策略的有效性。我们的模型在Cityscapes、Kins、Sbd和COCO数据集上取得了竞争性的结果，并具有实时性能。06. 结论0致谢：作者们要感谢国家自然科学基金委员会(NSFC)（编号61806176）和中央高校基本科研业务费专项资金（编号2019QNA5022）的支持。[1] David Acuna, Huan Ling, Amlan Kar, and Sanja Fidler. Ef-ﬁcient interactive annotation of segmentation datasets withpolygon-rnn++. In CVPR, 2018. 3, 7[2] Min Bai and Raquel Urtasun. Deep watershed transform forinstance segmentation. In CVPR, 2017. 2485410参考文献0[3] Daniel Bolya，Chong Zhou，Fanyi Xiao和Yong JaeLee。Yolact：实时实例分割。在ICCV，2019年。 80[4] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun和SanjaFidler。使用多边形RNN注释对象实例。在CVPR，2017年。 30[5] Kai Chen，Jiangmiao Pang，Jiaqi Wang，YuXiong，Xiaox- iao Li，Shuyang Sun，Wansen Feng，ZiweiLiu，Jianping Shi，WanliOuyang等。混合任务级联用于实例分割。在CVPR，2019年。 10[6] Laurent DCohen。关于主动轮廓模型和气球。CVGIP：图像理解，53（2）：211-218，1991年。 1，20[7] Timothy F Cootes，Christopher J Taylor，David H Cooper和JimGraham。主动形状模型-它们的训练和应用。CVIU，61（1）：38-59，1995年。 1，20[8] Marius Cordts，Mohamed Omran，SebastianRamos，Timo Rehfeld，Markus Enzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth和BerntSchiele。用于语义城市场景理解的Cityscapes数据集。在CVPR，2016年。 2，50[9] Jifeng Dai，Kaiming He和JianSun。通过多任务网络级联进行实例感知语义分割。在CVPR，2016年。 2，6，7，80[10] Mark Everingham，Luc Van Gool，Christopher KI Williams，JohnWinn和AndrewZisserman。帕斯卡视觉对象类别（VOC）挑战。IJCV，88（2）：303-338，2010年。50[11] Patrick Follmann，Rebecca K¨o Nig，Philipp H¨aRtinger，Michael Klostermann和Tobias B¨oTtger。学习看不见的东西：端到端可训练的完整实例分割。在WACV，2019年。 6，70[12] Naiyu Gao，Yanhu Shan，Yupei Wang，Xin Zhao，Yinan Yu，MingYang和KaiqiHuang。SSAP：带有亲和金字塔的单次拍摄实例分割。在ICCV，2019年。 20[13] Andreas Geiger，Philip Lenz，Christoph Stiller和RaquelUrtasun。视觉与机器人技术：kitti数据集。IJR

下载后可阅读完整内容，剩余1页未读，立即下载