基于轮廓的边界细化方法

156 浏览量更新于2023-10-25 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4392清晰轮廓：一种基于轮廓线的边界细化方法朱晨鸣1<$，张轩烨2<$，李嫣然4，邱良东1，2，韩凯5，韩晓光1，3，1上证，中大深圳2深圳大数据研究院3中大深圳FNii4伯明翰大学5香港大学摘要在实例分割方面取得了很好的效果，但在边界区域的质量仍然不令人满意，这导致边界细化越来越受到人们的关注。在实际应用中，一个理想的后处理细化方案需要是准确的，通用的和高效的。然而，大多数现有的方法提出逐像素细化，这要么引入大量的计算成本，要么专门针对不同的骨干模型设计。基于轮廓的模型是有效的和通用的，可以与任何现有的分割方法，但他们往往会产生过度平滑的轮廓，并往往失败的角落地区。在本文中，我们提出-（一）（C）（B）（D）提出了一种有效的基于轮廓的边界细化算法SharpContour，用于边界区域的分割我们设计了一个新的轮廓进化过程，cess与实例感知点分类器。我们的方法通过以离散方式更新偏移量来迭代地使轮廓变形。与现有的轮廓演化方法不同，SharpContour更独立地估计每个偏移，从而预测更清晰和准确的轮廓。值得注意的是，我们的方法是通用的，无缝地与各种现有的模型与一个小的计算成本。实验表明，SharpContour实现了竞争优势，同时保持高效率。1. 介绍实例分割是计算机视觉中的一个基本课题，在场景理解[45]、智能机器人[36]、临床分析[6]中自动驾驶[10，14]。主流实例分割方法遵循检测然后分割框架的设计，如Mask R-CNN [13]，并实现了有希望的性能。然而，精细细节的高保真分割，特别是在[2]两位作者对本文的贡献相当。‡通讯作者：hanxiaoguang@cuhk.edu.cn图1. 使用SharpContour进行实例分割。上一篇：A是由Mask R-CNN和B预测的粗略掩模是SharpContour的细化结果下图：C是由DANCE生成的粗略轮廓，D是SharpContour的细化结果在拐角区域，SharpContour产生显著的改进。边界地区仍然极具挑战性。为了解决这一问题，边界的细化是近年来提出的一个新课题。一个新的评价-提出了一种称为边界AP的度量[7]和一些方法[8，18，33，42边界AP [7]关注对象边界区域的准确性，因此可以更好地反映边界细化。对于这些方法，精化通常可以被认为是一种后处理操作，它预期满足三个基本要求：准确、高效和通用。值得一提的是，“通用”也是一个重要因素。然而，性能优异的精化方法主要关注精度，而缺乏对实际应用场景中实际重要的另外两个因素的考虑例如，边界面片细化方法[33]提出在实例分割模型之后沿边界额外处理面片，导致大量计算成本。RefineMask [42]设计了一种基于Mask-RCNN [13]的新架构，以通过细粒度特征来改进实例掩码的质量虽然计算成本不是非常昂贵，但这种方法4393太具体而不能应用于其它类型的实例分割模型。像素级细化方法本质上很难同时满足这三个要求，因为密集的像素图通常会带来过高的计算成本。另一组趋势分割方法提出了基于轮廓的分割方法[1，3，23，27，29，38，39]，其直接处理并生成沿边界的稀疏点。它们在效率上是有利的，并且由于从掩模提取轮廓是直接的，因此自然地通用于附加在基于掩模的因此，可以提出一个有趣的问题：“是否有可能使用基于轮廓的方法来解决边界细化问题？”然而，现有的基于轮廓的方法，如DANCE [26]和DeepSnake [10]，往往会产生过度平滑的轮廓，特别是在尖锐的转弯区域（如图所示）。1）因此，他们在边界地区的表现仍然落后。我们发现导致过平滑问题的主要原因是轮廓上的所有顶点都被它们的特征学习策略（例如，圆卷积[10]）及其轮廓演化过程中的光滑正则化。因此，一个顶点上的轻微偏移将在轮廓的所有顶点上引起广泛的连锁反应。为了解决这个问题，我们阐述了一个完全不同的轮廓演化过程，估计变形偏移独立的每个顶点。在此基础上，我们提出了一个准确，高效和通用的细化方法，命名为SharpContour，边界区域使用基于轮廓的表示。具体来说，我们的SharpContour将粗轮廓作为输入，并单独变形轮廓上的每个顶点。为了避免“独立性”造成的伪影，我们约束每个顶点沿其法线方向移动，并在迭代过程中进行变形，使变形稳定。为了平衡每个顶点的移动的效率和准确性具体地说，我们首先沿着移动方向采样分类器在轮廓演化过程中起着关键的作用。因此，我们精心设计了一个实例感知的点分类器（IPC），它可以预测IPC实现高保真有两个重要因素：1）需要是实例感知的，这对于能够相对于不同实例生成像素的不同结果是必不可少的。为此目的，IPC的参数针对每个实例在运行中预测。2)应当捕获边界细节的信息。因此，IPC将从高分辨率特征图导出的细粒度特征作为输入来预测顶点状态。使用IPC，我们可以确定如何在变形过程中移动每个顶点。移动距离由对象大小和IPC概率分数进一步定义。我们迭代地调整预测轮廓的顶点，直到它们匹配对象边界。在此过程中，SharpCon- tour避免了对相邻顶点的高度依赖性，值得注意的是，SharpContour只引入了少数参数，并且在计算中因此，我们的方法被认为是非常有效的。实验结果表明，SharpContour算法能够以较小的计算代价和高质量的目标边界与各种分割模型无缝结合。我们验证了我们的SharpContour ap- proach定量和定性的各种大规模分割基准的有效性。在COCO数据集[22]上，我们使用AP和边界AP度量。结合DANCE[26]，SharpContour带来了1.5 AP和3.2 Boundary AP的显著改进。结合Mask R-CNN [13]和CondInst [34]作为细化方法，我们的方法分别以2.3，2.2 AP和3.4，3.3边界AP的显著增益超过基线。在Cityscapes数据集[9]上，SharpContour实现了3.9与Mask R-CNN结合时的AP提升[13]。与其他边界细化模型相比，Sharp-Contour以较低的计算成本始终产生高质量的边界以最先进的轮廓细化方法RefineMask的输出作为初始轮廓，SharpContour仍然获得0.5 AP和1.1 Bound-ary AP。定性结果进一步证明了我们的方法的有效性。2. 相关工作基于掩模的方法。主流的基于掩模的方法可以大致分为自顶向下和自底向上方法。典型的自上而下方法[2，4，5，8，13，19，24，34，37，43]遵循Mask-RCNN [13]的流水线，该流水线首先检测每个实例并为每个实例预测逐像素的二进制映射模型可以根据其管道分为两阶段[5，8，24]和一阶段[2，4，19，34，37，40然而，它们通常依赖于池化操作来从每个实例的特征图中提取规范大小的特征，这丢失了许多边界细节。CondINST [34]删除了RoI操作并使用动态卷积层来生成分割掩码，但它仍然丢失了边界周围的许多细节。自下而上的方法[11，17，25，28，32，44]首先生成语义分割，然后聚类像素4394法线方向移动方向移动步骤步骤编号估计偏移迭代点相对坐标IPCMLP输入等值线MLP特征图偏移使其超出细化的轮廓动态参数分配给点内图2. SharpContour的轮廓演变。SharpContour从粗分割结果中获得初始轮廓，并对轮廓进行变形以实现边界细化。在变形过程中，1）SharpContour获得法线方向。2)SharpContour预测顶点的内部/外部状态，以决定变形的负/正法线方向。3)SharpContour决定步长。4)SharpContour根据翻转点的位置获取移动步数。5)SharpContour估计偏移并使轮廓变形。不同的实例。在所有像素智能方法中，边界点仅占非常小的比例（小于1% [17]），因此在优化过程中我们的方法避免了这些缺点，并可以与各种模型一起工作，以提高他们的性能边界。边界细化为了解决上述限制，提出了各种边界细化方法[8，18，20，33，41，42]同时，为了更准确地评估边界性能，提出了一种新的评估度量Boundary AP[7]，该度量可以解决当前评估度量（AP）对对象边界区域的去敏感化问题。至于这些方法，BPR [33]采用了后处理方案，详细细化预测的实例边界块以提高掩模质量。另一个性能最好的模型PolyTransform [20]提出了第一种基于轮廓的细化方法，该方法使用基于掩模的模型的结果作为初始轮廓，并通过Transformer网络细化轮廓[35]。这些方法在获得优良性能的同时，也带来了较大的计算量和效率损失. 一些其他方法试图平衡性能增强和额外的计算开销。例如，PointRend[18]仅在边界模糊区域周围执行基于点的分割，以获得高质量的掩码。RefineMask [42]通过在上采样过程中引入细粒度特征来细化整个对象，从而实现高质量的然而，这两种方法缺乏通用性，因为它们只能细化特定的基于掩模的方法的结果。相比之下，我们的细化方法不仅可以实现准确和有效的，这不仅是一种有效的细化，而且也是通用的，以细化基于掩模和基于轮廓的模型的结果。基于轮廓的方法用于分割的基于轮廓的神经模型[15，23，27，30，38，39]由于其在效率上的潜在优势，近年来得到了广泛的大多数人将轮廓线表示为多边形，并提出了各种回归方法来估计多边形上顶点的坐标。[27，39]提出了基于CNN的模型，可以学习变形的高级和[23]提出了一种基于轮廓的模型，该模型利用图卷积网络（GCN）来回归轮廓上顶点的偏移根据传统Snake模型[16]的流水线，Deep-Snake [29]提出了两阶段轮廓演化过程，并设计了循环卷积来利用轮廓上的特征。DANCE [26]遵循Deep-Snake [29]的流水线，并引入边缘注意模块，改进了轮廓演化过程中的匹配方案。DANCE [26]实现了基于轮廓的实例分割方法的最新结果。然而，所有这些基于回归的轮廓演化方法仍然遭受严重的性能下降，在近似的角落或尖点的实例。这是因为他们的回归方法需要平衡回归误差和当前轮廓的平滑度，并且在特征学习期间偏移量我们的方法阐述了一种完全不同的进化方法。在变形阶段，通过离散移动步骤而不是回归来估计多边形上每个顶点的偏移量。结合DANCE [26]，我们的方法被证明比现有的所有轮廓更有效-4395{|}|−|--√|−|的方法，即使对于具有重大挑战性的领域，也能产生准确和高保真的3. 方法我们提出了一个轮廓细化的方法，SharpCon- tour，再加上现有的实例分割模型（无论是基于掩码或基于轮廓），可以产生高质量的边界分割结果。令C（0）：xi i=1，.， N是初始轮廓，其通过现成的实例分割方法获得。等高线由一系列顶点xi定义。SharpContour迭代地移动顶点以接近实例的实际边界为了执行轮廓演化，我们设计了一个迭代过程，使顶点沿其法线变形。轮廓演化方法的关键挑战是准确预测每个顶点的偏移量。与直接一次回归所有顶点的偏移量的现有方法相比，这通常容易出错并导致过度平滑的轮廓，我们提出以离散方式迭代地调整顶点[31]。由于直接回归偏移的固有挑战，我们将这个问题转换为基于分类的公式。具体来说，我们提出了一个实例感知点分类器（IPC）φ（xi），它预测顶点xi的状态，指示其与实际对象边界的相对位置（即，内部或外部），使得我们可以确定顶点应该沿着正法线方向还是负法线方向行进。我们的方法大大降低了对相邻顶点偏移的依赖性，并允许在复杂和具有挑战性的边界区域（例如现有方法难以处理的角落和尖点区域）上进行精细的分割细节SharpContour的概述可参见Fig.二、3.1. 成电解给定一个偏离物体边界的顶点xi，它在一次迭代中的演化过程可以写为：x′i=xi+msidi，（1）其中di是移动方向，si是移动步距，m步骤编号。对于每个顶点，φ（xi）将输出[0，1]中的标量值，指示xi在外部的概率φ（xi）= 1）或内部（即，φ（xi）= 0）对象。φ（xi）= 0.5表示IPC不确定该点是否在内部或在对象之外，这意味着该点可能位于边界上。IPC的更多细节将在第2节中介绍。3.2.接下来，我们描述如何获得移动步si和步数m。它们一起定义移动距离。为了定义移动步骤，我们考虑对象大小（在边界框的面积方面，表示为A）和IPC的顶点状态的不确定性。当然，如果对象较大，则步长也应为图3. SharpContour的变形。值翻转指示实例边界的位置。SharpContour使用翻转点的位置来更新轮廓。更大，反之亦然。如果顶点的不确定性较高，则步长应较小，以达到更好的预测，反之亦然。为了反映这些，具体地，我们将步长定义为si=λ A φ（xi）0。其中λ是我们设置为0的经验变形比。003实验φ（x i）0.5表示xi的状态的不确定性，IPC中，φ（xi）越接近0.5，IPC的xi状态的不确定度越高，因此为了准确度，应该对于移动步数，理想情况下，我们期望顶点逐渐向实际对象边界移动因此，我们沿着di逐步移动顶点，每次移动后，我们检查当前位置上的φ如果我们到达一个位置，φ表示顶点从边界的内部移动到外部，或者相反，那么我们停止。我们称这个位置为翻转点。从原始位置到翻转点的移动次数就是我们的移动步数m。为了避免顶点向不适当的方向移动得太远，我们为移动设置了一个上限对于每次移动，如果在M步之后，仍然没有到达翻转点，则我们设置m=M。迭代进化我们对C（0）的每个顶点执行上述进化过程以获得更新的轮廓C（1）。然后我们运行C（1）的另一个进化循环来更新顶点。我们迭代地运行进化过程并生成一系列轮廓C（0），C（1），.，C（n），. 逐渐接近实际物体边界。请注意，在每次迭代过程中，如果顶点到达翻转点，这表明它已经到达对象边界，它将不再参与后续的变形过程。这进一步提高了SharpContour的效率3.2. 实例感知点分类器在这里，我们介绍了我们的实例感知点分类器（IPC）φ，其目的是预测给定顶点xi的状态，以告知其与实际对象边界的相对位置。简而言之，IPC将从高分辨率特征图导出的xi的细粒度特征以及xi到其对应的边界框的相对位置作为输入，以预测指示xi是位于对象内部还是外部的概率。重要的是，φ4396F×我γ在运行中为每个实例动态预测，使得φ是实例感知的，这在推断顶点相对于实例的位置时起着重要作用。细粒度特征为了能够识别顶点演化的细微细节，我们使用实例分割主干生成的高分辨率特征图中的细粒度特征作为φ的输入。我们在高分辨率特征图上附加卷积层以进一步编码特征，从而有利于φ进行轮廓细化并降低维度。假设xi的编码细粒度特征为fi。我们将fi与x i到实例边界框的相对坐标ci连接起来，形成新的细粒度位置感知特征向量c=[fi; ci]，其用作φ的输入以预测状态概率。以Mask R-CNN为例，我们利用了特征金字塔网络（FPN）中分辨率最高的特征图，它是图像大小的1/4为了减少IPC的参数数量并提高高分辨率特征的利用率，我们在此特征图上添加了一个3 3卷积层，并将其通道从256减少到16。从得到的特征图中，我们提取每个顶点的细粒度特征实例感知的动态参数只有配备了细粒度的功能，分类器仍然挣扎在确定。例如，具有相同特征的点可以在一个实例之外但在另一个实例之内。为了解决这个问题，我们的分类器需要是实例感知的，并且具有很强的把握整体信息的能力来识别每个实例。受[34]的启发，我们建议根据每个实例的特征动态预测每个实例的分类器φ的参数θ该策略能够捕获强实例感知信息，因此能够区分不同实例的顶点状态。例如，我们将受[34]启发的边界控制器头用于Mask R-CNN以获得每个实例的动态参数。边界控制器头是一个非常紧凑和重量轻的网络，具有三个全连接层。出去-3.3. 使用SharpContour进行在本节中，我们将描述如何将我们的Sharp- Contour与不同类型的实例分割模型（包括基于掩码的模型和基于轮廓的模型）相结合。在训练阶段，我们通过在地面实况实例边界附近随机采样像素来训练生成IPC参数的头部。在推理阶段，SharpContour从粗分割结果中获得初始轮廓，并且可以迭代轮廓演化过程以进行细化。一般来说，当使用现有的实例分割方法时，SharpContour需要三个输入：初始轮廓、细粒度特征和动态参数。获得这三个输入的方法因不同的实例分割方法而异。这里我们介绍如何将SharpContour应用于三种典型的实例分割方法。对于基于轮廓的模型，如DANCE [26]，其模型的预测轮廓可直接用作我们的SharpCon- tour的初始轮廓对于基于掩码的模型，如Mask R-CNN [13]和CondInst [34]，我们通过将预测的掩码转换为轮廓表示来提取初始轮廓。为了获得细粒度的特征，我们使用卷积层来编码来自其主干的最高分辨率的特征图，并使用编码的特征图来提取细粒度的特征。为了获得动态参数，我们将边界控制器头与各种实例分割模型相结合。补充资料中给出了详细的网络结构和参数设置。3.4. 损失函数我们使用焦点损失[21]来训练生成IPC参数的边界由于训练时在地面实况边界附近采样的点是随机的，正负样本的比例不是固定的为了补偿这一点，我们利用具有动态系数α的焦点损失，该动态系数α是当前正样本和负样本的比率损失可以写.−α（1−yi）γlo g（yi），yi=1该控制器头的放置尺寸与LIPC=−（1−α）（yi）log（1−yi），yi=0（二）IPC参数编号通过与Mask R-CNN的原始掩码头共享特征，我们可以更好地使用实例感知特征，同时只引入很小的计算成本。因此，我们的IPC可以写为φ（xi）=φθ（[fi，ci]）。如果φ（xi）>0. 5，xi被认为是在对象外部，预测标签y=i为1，否则在对象内部预测标签y=i为0。在我们的实现中，IPC只是实现了一个MLP，具有三个隐藏的使用ReLU激活层sigmoid激活应用于其输出层。因此，IPC引入的额外成本是微不足道的。其中，γ表示预测标签，α由当前批次中阳性和阴性样本的比例动态确定，γ是难度因子，我们在实验中将其设置为2。在将我们的SharpContour与基线实例分割模型相结合之后，我们联合训练我们的SharpContour和耦合的实例分割模型。总损失函数可以表示为L=Ls+µLIPC，（3）其中Ls是实例分割的原始损失模型我们在实验中设置权重μ=10作为4397−图4. COCO数据集上的定性结果。我们使用SharpContour来细化不同模型的分割结果。顶部线是DANCE的结果，而底线是Mask-RCNN的结果对于每个示例，左边是细化之前的结果如图所示，SharpContour可以细化实例边界附近的分割结果。AP设备AP值边界APAP*亚太地区APCNOMAPAPDLFPS推断时间（ms/每张图像）Mask R-CNN34.634.7-36.822.643.752.012.381.3掩码R-CNN*35.535.221.237.622.844.753.817.557.1舞蹈34.634.520.2----16.560.6CondInst35.435.721.6----17.457.5PointRend36.836.3（+1.1）23.5（+2.3）39.722.946.757.413.076.9（+19.8）优化遮罩37.637.3（+2.1）24.7（+3.5）40.924.148.858.013.076.9（+19.8）DANCE + SharpContour36.336.1（+1.5）23.9（+3.7）----13.673.5Mask R-CNN* + SharpContour37.737.5（+2.3）24.6（+3.4）41.224.249.158.515.066.7（+9.6）CondInst + SharpContour37.737.9（+2.2）24.9（+3.3）----15.464.9RefineMask + SharpContour38.037.8（+0.5）25.8（+1.1）41.924.349.459.112.182.6（+5.7）表1. COCO val 2017和test-dev的比较 AP dev表示测试dev的评估结果，其他列表示val2017的评估结果。“Mask所有方法都使用R50-FPN骨架用1x时间表训练。FPS是在单个Tesla V100 GPU上测量的。SharpContour为DANCE、Mask R-CNN和CondInst带来了显著的AP增强。此外，与其他边界细化方法相比，SharpContour具有最高的效率，可以实现具有竞争力的性能。在之前的工作中，我们使用Mask AP作为评估指标。到为了进一步证明SharpContour的有效性，我们在COCO数据集上报告了边界AP（除非明确说明，本文中AP表示掩码AP。）的方式表2. Cityscapes验证集的结果。所有模型的训练设置相同：使用多尺度训练和带有FPN的ResNet-50对64个时期进行精细注释训练。4. 实验4.1. 实施细节训练策略我们用DANCE、Mask R-CNN和CondInst一起训练SharpContour以增强性能。对于每个组合模型，我们使用与耦合模型完全相同的训练设置进行实验，包括训练时期，学习速率计划，数据增强方法等，以确保公平性。我们设定变形率λ=0。003，采样点数M=10，多边形分辨率N=128。进化的迭代次数设置为3.更详细的训练设置将在supp.4.2. 基准和指标我们在三个标准基准上评估了SharpContour的效率和有效性，这三个基准是 Cityscapes [9]和MicrosoftCOCO [22]。后COCO[22]是评估对象检测和分割任务模型的最常见基准之一，我们主要报告COCO的结果。我们的模型是在train2017上训练的。继PointRend和RefineMask之后，我们还报告了使用LVIS注释评估COCO类别的APPSNR，因为LVIS注释具有更高质量的掩码。AP训练的结果是通过在COCO上训练的相同模型获得的。Cityscapes[9]是一个用于像素级和实例级分割评估的大规模数据集，它提供了来自50个城市的大量白天城市街道场景的视频记录。城市景观包含丰富的-包括5000个具有精细像素级注释的图像和20000个具有粗略注释的图像。是最广泛使用和最具挑战性的基准之一。4.3. 与最新技术水平的基于轮廓的模型的有效性我们将Sharp- Contour应用于DANCE [26]，它遵循DeepSnake [29]的思想，并实现了基于轮廓的实例分割方法的当前最先进性能。方法APAPSAPMAPLMask R-CNN33.812.031.551.8PointRend35.8（+2.0）---优化遮罩37.6（+3.8）14.634.058.14398图 5. 复杂轮廓的定性比较结果 SharpContour+MaskRCNN（右）在具有挑战性的区域表现优于Refine- Mask（左）。培训计划APAP*联合训练37.5（+2.3）41.2（+3.6）单独训练36.2（+1.0）39.8（+2.2）表3. COCO val2017上不同培训方案的结果。性能报告在“Mask R-CNN + Sharp- Contour”组合上。Mask R-CNN掩模 R-CNN+掩模 R-CNN+SharpContourAP35.235.537.5AP37.638.041.2表 4. COCO val2017 上的结果。 Mask R-CNN+ 是使用SharpContour训练的Mask R-CNN的结果。实验结果表明，原始模型可以从联合训练中获益，我们提出的模型确实提高了掩模质量。耗氧物质我们在COCO数据集上进行了实验。如Tab中所示。1、SharpContour带来1.5AP和3.7 Boundary AP的提升。我们将 Sharp- Contour 应用于 Mask R-CNN [13] 和CondInst [34]，并在COCO和Cityscapes数据集上完成实验。在COCO数据集上，我们进一步报告了使用更高质量的LVIS [12]注释测量的AP*。1)对于Mask R-CNN [13]，SharpContour在COCO数据集上的性能优于基线模型2.3AP，3.4 Boundary AP和3.6AP*（表1）。1）并在CityScapes数据集上产生3.9AP增强（表1）。2）。2)对于CondInst [34]，Sharp-Contour 在 COCO [22] 数据集上实现了 2.2 AP 和 3.3Bound-ary AP的改进此外，“细化-面具+夏普轮廓”组合在选项卡。1表示：我们直接在从Re- fineMask的输出掩码中简单提取的轮廓上运行 “Mask R-CNN +SharpContour”模型，它仍然获得0.5AP和1.1 BoundaryAP改进。与COCO相比，SharpContour在Cityscapes上获得了更大的改进。可能的原因是Cityscapes的类比COCO少得多，这导致了更好的IPC。这进一步证明了SharpContour的有效性。效率我们在COCO和Cityscapes数据集上比较了与其他边界细化方法的效率，包括PointRend [18]和Refine-Mask [42为了公平起见，1）这些方法是建立在MaskR-CNN 上的。 2) 所有方法均采用以 FPN 为主干的ResNet-503)所有模型都是针对相同的时期进行训练的。如Tab所示。1，2，与PointRend [18]和Re- fineMask [42]相比值得注意的是，PointRend [18]和Re-fineMask [42]在MaskR-CNN之后合并了他们的方法与他们一样，我们的SharpContour只介绍推断-9.6ms，是他们的一半，但带来了更多的增益。定性比较图4显示了SharpContour在COCO数据集上的定性结果。我们使用SharpContour细化两个模型：DANCE（顶线）和Mask R-CNN（底线）。对于这些图中的每个实例，左边的是没有SharpContour的结果，而右边的是有SharpContour的结果。如图所示，SharpContour可以改善实例边界附近的轮廓，因为它可以提取顶点邻域中的额外信息，从而对不同的实例实现高保真和准确的结果。更多的结果可以在补充材料中找到。图5显示了RefineMask和Sharp- Contour+MaskRCNN之间的定性比较结果。SharpContour可以处理具有复杂轮廓的对象，并且在具有挑战性的区域（例如，薄结构区域）。4.4. 消融研究我们在COCO数据集上进行了消融实验来分析所提出的 SharpContour 。我们探讨了不同选择的SharpContour的影响。训练方案为了提前证明SharpContour的有效性，我们还采用了冻结实例分割模型的所有参数的训练方案，只独立地训练SharpContour。具体来说，我们只训练边界控制器头（第二节）。3.2）用于生成IPC和卷积层的参数（第3.2节）。3.2）用于生成细粒度特征。如Tab.所示3、SharpContour采用这样的训练方案仍然可以细化这些模型的实例分割结果特征提取的有效性SharpContour与实例分割模型共享主干进行细化. 我们探讨了这种训练策略对骨干特征提取过程的影响我们检查了使用SharpContour训练的模型的实例分割精度。如Tab中所示4、使用SharpContour进行训练可以提高实例分割模型的性能，这表明SharpContour可以改善特征提取过程。动态步长的影响IPC的输出概率表示内/外状态的不确定性。我们认为，这种不确定性可以用来更好地控制轮廓演化过程中的移动距离。我们在COCO数据集上进行消融实验w/o这样的动态步长如表1所示5，动态步长产生0.5AP和0.9AP* 增强。此外，我们注意到，动态步长也可以稳定的推理过程。更大的模型，更长的训练时间我们使用不同的主干训练 SharpContour 和 Mask-RCNN ，包括使用 FPN 的ResNet-101和使用FPN的ResNeXt-101在标签中。6、SharpContour consideration提高了基线模型的性能。4399自适应步长APAP*W37.541.2W/O37.0（-0.5）40.3（-0.9）表5. COCO val2017上自适应步骤的有效性。当将Mask R-CNN与我们的SharpContour相结合时，自适应步长策略可以带来显著的0.5AP和0.9AP* 改进，这也可以稳定推理过程。骨干APAP*Mask R-CNNR50-FPN37.239.5Mask R-CNN + SharpContourR50-FPN39.3（+2.1）43.1（+3.6）面罩R-CNN。R101-FPN38.641.4Mask R-CNN + SharpContourR101-FPN40.8（+2.2）45.2（+3.8）面罩R-CNN。X101-FPN39.542.1Mask R-CNN + SharpContourX101-FPN41.8（+2.3）46.0（+3.9）表6. 更大的型号和更长的3倍时间表。即使有更强的主干（ResNet-101）和更长的训练计划（3x），也实现了SharpContour带来的持续改进。AP* 是使用更高质量的LVIS注释评估的COCO面罩AP。λAP值MAP值FPSNAP值FPS0.001537.1536.815.412837.515.00.00337.51037.515.025637.814.60.00636.6152037.237.114.714.334851238.038.014.213.7表7. COCO val2017数据集上不同采样策略参数的APval和FPS。所选择的参数实现了准确性和效率的平衡。组合方法n=1n=2n=3n=4舞蹈35.235.736.136.2Mask R-CNN36.637.137.537.7CondInst36.937.437.938.0表8. 演化过程的不同迭代次数的结果。可以看出，迭代进化可以不断提高性能，并保持COCO val2017数据集的稳定性。随着迭代次数的增加，每次迭代的改进性能不断降低，表明轮廓收敛。Reg.1Reg. 2SharpContourAP36.1（+0.9）36.2（+1.0）37.5（+2.3）表9. 基于回归的模型的结果两种基于回归的设计都只能略微提高AP。轮廓演化过程中的不同参数在点采样策略的设计中主要有三个参数，即变形率λ、采样点数M和多边形分辨率N。在最终版本中，我们设置λ=0。003，M=10，N=128。在本消融研究中，我们对这些参数中的每一个进行了对照实验（保留其他两个参数与最终版本相同），三次进化迭代的结果见表1。7 .第一次会议。对于λ，a）较大的变形比导致性能随着更多的迭代而下降，这是由于快速变形; b）较小的变形比需要更多的迭代以用于收敛。从这两个实验中，我们可以看到，我们的最终选择达到了最佳性能。对于M，a）点的数目越大，推理时间越长; b）较少的点数将减少运行时间，但需要更多的迭代以获得更好的性能; c）如果点数变得非常大，性能将随着执行更多的迭代而降低这是因为多边形变形太快，结果中往往会出现错误。对于N，它表明多边形上更密集的采样有助于较小的性能改进，同时大大增加了推理时间。我们在最终模型中使用128分辨率，以便在准确性和效率之间进行更好的权衡。不同数量的堆叠轮廓演化过程为了全面评估Sharp-Contour的有效性，我们探索轮廓演化过程的不同迭代的性能。结果报告于表中。8.如图所示，如果将SharpContour的轮廓演化过程堆叠更多次，则验证了我们的方法的精度的稳定提高。在采用当前的离散化设计之前，我们已经探索了两种基于回归的设计：1）回归偏移向量（Reg.1）; 2）沿着法线方向回归距离（Reg.2），其中还使用所提出的实例感知特征。我们采用Mask-RCNN作为基本框架，在COCO数据集上进行了实验。如Tab所示。9，与SharpContour相比，两种基于回归的设计只能略微提高AP。5. 结论We propose a novel contour-based refinement approachcalled SharpContour to improve the boundary quality of in-stance segmentation.现有的基于掩模的轮廓细化方法存在效率低、通用性差的问题，而且基于轮廓的方法容易在尖角处产生过平滑的轮廓。我们通过设计一种新的轮廓演化方法和一个实例感知的点分类器来解决它们的所有限制。与先前的方法相比，我们的方法以相当有效的方式显示出优越的准确性我们在两个大规模的公共基准（例如分割）上广泛评估了Sharp- Contour的定性和定量性能。当与不同的模型结合时，它在所有基准上都取得了显着的改进。这项工作得到了以下方面的部分支持：国家重点研发计划项目：河套深港科技合作区基础研究项目（编号：HZQB-KCZYZ-2021067&&）; 2018 YFB1800800、深圳市杰出人才培养基金202002、广东省科研项目 2018 YFB 1800800 2017 ZT 07 X152 号2019CX01X104。本课题得到了国家自然科学基金项目62172348 、 61902334 、深圳市面上项目（JCYJ20190814112007258）和深圳市可持续发展项目（KCXFZ20201221173008022）的资助。我们感谢中大深圳的ITSO提供高性能计算服务。4400引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在IEEE计算机视觉和模式识别会议论文集，第859-868页，2018年。2[2] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在IEEE/CVF计算机视觉国际会议论文集，第9157-9166页，2019年。2[3] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.使用多边形rnn注释对象实例。在IEEE计算机视觉和模式识别会议论文集，第5230-5238页，2017年。2[4] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.Blendmask：自上而下与自下而上相结合，用于实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8573-8581页，2020年。2[5] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.用于实例分段的混合任务级联。在IEEE/CVF计算机视觉和模式识别会议论文集，第4974-4983页，2019年。2[6] XuChen ，BryanMWilliams ，SrinivasaRVallabhaneni，Gabriela Czanner，Rachel Williams，andYalin Zheng.学习活动轮廓模型用于医学图像分割。在IEEE计算机视觉和模式识别会议论文集，第11632-11640页，2019年。1[7] 鲍文·C·亨、罗斯·吉希克

下载后可阅读完整内容，剩余1页未读，立即下载