E2EC:基于轮廓的高质量高速实例分割

16 浏览量更新于2023-10-25 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4443E2EC：一种基于端到端轮廓的高质量高速实例分割张涛武汉大学武汉中国zhangtao@whu.edu.cn武汉大学武汉中国weisq@whu.edu.cn武汉大学中国武汉jishunping@whu.edu.cn摘要基于轮廓的实例分割方法近年来发展迅速，但前端轮廓初始化粗糙、手工，限制了模型性能，后端预测标记顶点配对经验固定，增加了学习难度。在本文中，我们介绍了一种新的基于轮廓的方法，命名为E2EC，用于高质量的实例分割。首先，E2EC采用了一种新的可学习的轮廓初始化结构，而不是手工轮廓初始化。它包括一个轮廓初始化模块，用于构造更明确的学习目标，以及一个全局轮廓变形模块，用于更好地利用所有顶点的特征。其次，我们提出了一种新的标签抽样方案，命名为多方向对齐，以减少学习的困难。第三，为了提高边界细节的质量，我们动态匹配最合适的预测-地面真实顶点对，并提出了相应的损失函数称为动态匹配损失。实验结果表明，E2 EC在KITTI INStance（KINS）数据集、Se-mantic Boundary数据集（SBD）、Cityscapes和COCO数据集上均达到了最先进的E2EC在实时应用中也很高效，在NVIDIAA6000 GPU上对512×512图像的推理速度为36 fps代码将在https://github.com/zhang-tao-whu/e2ec发布。1. 介绍实例分割是一项基本的计算机视觉任务，也是许多下游计算机视觉应用（如自动驾驶和机器人抓取）的基石经典的实例分割方法基于两阶段流水线，其中首先生成实例的边界框（bboxes），然后在bboxes内执行逐像素分割。典型的例子是诸如Mask R-CNN [14]和图1. 几种基于轮廓的方法的理想变形路径。白色边界和点是初始轮廓，蓝线是变形路径，黑点是对齐点。PANet [23].这些方法虽然精度较高，但效率较低，限制了它们在实时任务中的应用。随着单阶段检测器的快速发展[29，39]，现在已经提出了许多基于单阶段掩码的实例分割方法，例如YOLACT [2]，BlendMask[3]，TensorMask [4]和CenterMask [17]。然而，这些单阶段方法包含大量存储，需要昂贵的后处理，并且几乎不能实时执行。实例边界预测的质量也不令人满意，因为这些方法通常使用有限的特征信息（例如，Mask R-CNN仅在28×28特征图中分割实例）。基于轮廓的方法最近重新受到关注，并显示出巨大的潜力。这种方法的例子是曲线GCN [21]，深蛇[27]，点集参数[31]，DANCE [25]，PolarMask [33]和LSNet [9]。基于轮廓的方法将实例分割视为回归任务，即，回归由一系列离散顶点表示的轮廓的顶点坐标。由N组成的轮廓（例如，N= 128）顶点足以很好地描述大多数实例[27]。与需要对每个像素进行深入处理的基于掩模的方法相比，基于轮廓的方法更简单，计算量更小。基于轮廓的方法也可以直接获得物体的边界，而不需要任何复杂的后处理。然而，现有的基于轮廓的方法仍然具有4444许多明显的缺点。首先，现有的多阶段方法都采用人工设计的初始轮廓形状.如图1所示，手动设计的初始轮廓和地面实况实例边界之间的差异会导致许多不合理的变形路径（从初始到地面实况顶点的路线）和巨大的训练难度。也不可能对手动设计的初始轮廓进行采样，以同时实现统一的角度和统一的顶点间距。点集分类器和DANCE方法试图通过改变直观的顶点配对方法来解决这个问题[25，31]，但结果并不令人满意。第二，局部或有限的信息被广泛应用于轮廓调整。例如，一阶段Polar- Mask [33]和LSNet [9]方法仅基于实例中心的有限特征直接回归轮廓顶点的坐标，导致预测轮廓细节的丢失。多阶段方法根据轮廓顶点的特征迭代调整初始轮廓，以获得更精细的分割结果。然而，Curve GCN和Deep Snake利用局部信息聚合机制来传播局部相邻轮廓顶点的特征以细化轮廓，这可能无法纠正大的预测误差。此外，必须低效地重复局部聚集以访问全局信息。相反，我们提出了一个全局的轮廓变形方法的基础上的所有轮廓顶点的功能第三，当前基于轮廓的方法中的地面实况和预测顶点的配对是固定的，不考虑预测顶点的连续位置调整（例如，它已经在地面实况边界上或接近另一个地面实况顶点，但远离给定的一个）。因此，预先固定的顶点配对不是最佳的，并且可能导致较慢的收敛速度，甚至错误的预测。在本文中，我们提出了一个多阶段和高效的端到端的基于轮廓的实例分割模型E2EC，它可以完全克服这些缺点。E2EC包含三个新组件：1)可学习的轮廓初始化架构; 2）多方向对准（MDA）;以及3）动态匹配损失（DML）函数。E2EC用一个可学习的轮廓初始化架构代替了手动设计的初始轮廓，它处理了第一个和第二个问题。该体系结构包含两个新的模块：1）轮廓初始化模块; 2）全局轮廓变形模块。轮廓初始化模块基于中心点特征直接回归完整的初始轮廓，这不同于沿着给定的固定射线回归长度[33]。然后，全局轮廓变形模块基于初始轮廓的所有特征来图2. E2EC概述E2EC包括一个可学习的轮廓初始化架构，包括一个轮廓初始化和一个全局变形模块，产生粗略的轮廓，和一个轮廓细化模块，产生最终的轮廓与DML的监督。顶点和中心点，而不是使用局部顶点的特征。如图1所示，可学习的初始轮廓架构不依赖于手动设计的初始轮廓（例如，Curve GCN的椭圆形或Deep Snake的八角形），并直接从对象实例的中点变形到具有更合理路径的轮廓。预测标记顶点配对的困难在于没有简单的可微计算可以测量预测边界和地面真实边界之间的距离。为了解决第三个问题，一方面，我们提出了多方向对齐（MDA），其固定所选择的多个轮廓顶点相对于中心点（图1（E2EC）中的黑点）的方向，然后在固定顶点之间均匀采样MDA对可能的顶点配对和变形路径进行了适当的限制，在保证性能上界的同时，大大降低了学习的难度。可学习的初始轮廓结构和MDA的结合消除了目前基于轮廓的方法中普遍存在的不合理的变形路径。另一方面，我们提出了一种动态匹配预测顶点和最合适的标签顶点的匹配策略，以及相应的动态匹配损失（DML）函数。DML消除了基于轮廓的方法中边界过于光滑和拐点拟合不好的问题，大大提高了预测边界细节的质量。在本研究中进行的实验中，E2EC在KITTI INStance（KINS）数据集[28]、语义边界数据集（SBD）[13]和Cityscapes [6]数据集上展示了最先进的性能。对于512×512图像，E2EC在NVIDIA A6000 GPU上实现了36 fps的推理速度。如果迭代变形模块被禁用，E2EC可以达到50 fps的速度，精度与Deep Snake相当。4445图3. 整体变形（b）与循环卷积[27]（a）。绿色点表示轮廓顶点的特征，黄色点表示圆卷积的局部核函数，蓝色点表示轮廓顶点的偏移，红色是MLP。图4.多方向对齐。 M是在相对于中心点的方向上固定的顶点的数量。随着M的增大，任务的学习难度逐渐减小，但顶点分布的不均匀性也逐渐增大。2. 相关工作基于掩码的实例分割方法。经典的基于掩码的实例分割方法，如Mask R-CNN [14]和PANet [23]，包括bbox提取阶段和掩码分割阶段。这些方法都能取得较好的性能，但速度较慢.近年来，遵循上述过程的一步法如中心掩模 [17] 、 YOLACT [2] 、 SOLO [30] 和BlendMask [3]发展迅速，并且在速度上有了很大的提高然而，密集像素分类需要大量的计算。尽管这些方法都试图以牺牲性能为代价，在下采样的特征图上进行分割，以减少计算量，但仍然不能满足实时性的要求。[12，26]中提出的方法遵循另一个管道，其中它们首先执行语义分割，然后对像素进行聚类以生成实例。然而，这些方法需要复杂的后处理，并且不能应用于非模态实例分割任务。基于轮廓的实例分割方法。与基于掩模的方法相比，基于轮廓的方法在速度上具有绝对优势。PolarMask [33]和LSNet [9]直接根据中心点的特征回归实例顶点的坐标，可以达到几乎与检测器相当的速度;然而相应的分割质量是相当粗糙的。 Curve GCN[21] 、 Deep Snake [27] 、 Point-Set Adjuster [31] 和DANCE [25]使用轮廓的顶点特征进行边界回归，这大大提高了性能。这些图5. 动态匹配损耗。黄色点是预测的轮廓顶点，绿色点是标签顶点，红色点是关键标签顶点，箭头表示变形路径（配对的关系（a）DML的第一部分，其中每个预测点被调整到地面实况边界上的(b)DML的第二部分，其中关键标签点将最近的预测点拉向其位置。方法首先对轮廓进行初始化，然后对初始轮廓进行迭代变形，得到最终的实例轮廓。然而，这些方法的初始轮廓形状都是手动设计的初始轮廓和地面实况轮廓之间的巨大差异导致许多不适当的顶点对，如图1所示。例如，Curve GCN和Deep Snake的变形路径在不同顶点处有许多交叉点，这会混淆训练过程。DANCE提出的分段匹配策略稍微解决了上述问题，但交叉点仍然存在。点集邻域的变形路径看似合理，但其顶点配对策略严重降低了性能上界。E2EC方法消除了基于轮廓的方法的不合理的变形路径，并且不会降低性能的上限。其他实例分割方法。Dense Rep- Points [37]使用离散点集对实例进行建模，但Dense Rep Points的实例表示不能直接转换为遮罩或轮廓表示，并且需要复杂的后处理。Polytrans-form [19]结合了基于掩码的方法和基于轮廓的方法。Poly Transform首先生成实例的蒙版表示，然后通过后处理将蒙版转换为轮廓，最后通过变形模块细化然而，Poly Transform不能端到端训练，并且速度太慢，无法应用于实时场景。3. E2EC方法在本节中，我们描述了所提出的端到端基于轮廓（E2EC）实例分割方法的三个主要部分，即，可学习的轮廓初始化架构、多方向对准（MDA）和动态匹配损失（DML）功能。E2EC的工作流程如图2所示。E2EC首先生成热图4446作为{（xinit{（x）}init×以定位实例中心，然后通过基于中心点特征回归初始偏移来学习初始轮廓。初始轮廓首先通过一个全局变形模块进行变形，然后演化为粗轮廓。变形模块[27]然后将粗略轮廓变形两次以得到最终轮廓。3.1. 可学习的轮廓初始化结构可学习轮廓初始化架构包括轮廓初始化模块和全局变形模块。初始轮廓。与现有的基于轮廓的方法中使用的手动设计的初始化不同，不需要指定初始轮廓的形状，因为这是由网络学习的。[37 ]第37话：图6.不同编号的实际变形路径（M）固定顶点。蓝线是初始轮廓，绿线是最终轮廓，黑线是变形路径。输出层为N×2），以获得轮廓顶点的偏移预测（长度为N×2的向量，表示为每个初始轮廓顶点的偏移量被直接重新计算。相对于中心点，基于中心i粗糙i粗糙）|i=1，2，… N}）。Theoffsets点要素，表示为{（xii初始化）|I=并且将初始轮廓坐标求和以获得调整后的粗略实例轮廓，表示为1，2，...，其中，N是顶点的个数，倾斜轮廓初始轮廓顶点计算如下：i粗糙i粗糙）|i=1，2，… N}个。在我们的实验中，将中心点坐标和偏移量相加，设N= 128，C= 64。表示为{（xii初始化）|i=1，2，… N}个。密集型3.2. 多方向对准（MDA）点回归无序点集，然后将通过复杂的后处理将点设置为轮廓或掩模表示。相比之下，E2EC直接回归轮廓（有序点集），而不需要任何后处理。与其他手动设计的初始轮廓（例如，椭圆或八边形），则可学习的初始轮廓更接近地面实况轮廓。此外，可学习的初始轮廓的变形路径的方向是从中心点到轮廓顶点（如图1所示），确保变形路径之间没有不利的交叉点，从而影响收敛。全局变形。仅用中心点特征直接回归轮廓顶点具有挑战性。同时，仅利用单个轮廓顶点或多个相邻顶点的局部特征也难以有效地对轮廓进行变形Deep Snake中提出的循环卷积使用局部聚合机制来补充全局信息。然而，在局部相邻顶点上进行循环卷积运算需要多次重复才能聚合全局信息，且不能有效纠正轮廓中的较大误差。我们提出了一种简单但更有效的全局聚合机制，称为全局变形，变形的基础上的中心点的功能和所有的轮廓顶点功能的初始轮廓。如图3（b）所示，首先将N个初始轮廓顶点和中心点的特征连接成长度为（N+ 1）的向量。C（其中C是变化-顶点特征的nel编号）。然后将向量输入到MLP模块（隐藏层的通道和由于轮廓初始化和预测标记顶点配对的挑战，实际顶点变形路径与理想变形路径之间可能存在偏差，导致某些顶点向沿轮廓方向调整，收敛速度较慢，甚至出现错误预测.MDA通过固定几个选定顶点相对于中心点的方向来解决这个问题，然后在固定顶点之间均匀地对地面实况进行采样。不同对齐顶点数的采样结果如图4所示。MDA可以有效地降低轮廓调整的学习难度，而不降低性能上界。有趣的是，PolarMask 和LSNet是MDA的两个极端情况。如果我们假设轮廓顶点数为N，对齐顶点数为M，当M=N时，该策略退化为学习难度最低但性能上界最小的PolarMask。当M=0时，该策略退化为LSNet，这是最难学习的情况，具有较高的性能上界。我们实验发现，M= 4获得最佳性能。当M= 4时，学习难度显著降低，但性能上界没有降低。3.3. 动态匹配损耗由于以往研究中使用的顶点对不是最优的，会导致学习困难，我们提出了动态调整顶点对的关系来监督最后一个变形的输出，∆y，∆y，y，y4447NN我我明关键× × × ××粗N我我1N我十月 1L2（pred，gt）=n伊伊我initN我1Σ我xix输出iptYYI1Σ如图2中所示，控制模块[27]。损失包括两个部分：1）预测的顶点指向标签边界上最近的点，如图5（a）所示，以及L=1smoothl1（xcoarse−xgt）（7）i=1然后2）关键标签顶点拉取最近的预测值，Liter1= 1 Σ smoothl1（xsmartiter1，xgt）（8）tex朝向其位置，如图5（b）所示充分下面描述DML的细节Niii=1在最好的情况下，顶点应该以最小的代价调整到目标轮廓对于每个预测顶点，其中，N是轮廓顶点的数量，x是预dicted初始轮廓verte x，xx_coarse是预测的粗动态地找到最近的我等高线顶点，gtiter1是标签轮廓线中的对应关系。首先，为了简化计算，相邻的地面实况顶点被分成10个相等的子段。然后将问题转化为发现最近的插值地面实况轮廓顶点。等式（1）描述了通过最小化预测的第i个点和第x个点的L2距离来为每个预测的轮廓顶点匹配最近的内插地面实况顶点（gt ipt）的过程。（0

下载后可阅读完整内容，剩余1页未读，立即下载