PolarMask：极坐标表示的单镜头实例分割方法

85 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12193PolarMask：使用极坐标表示的单镜头实例分割谢恩泽1，2，孙培泽3，宋晓鸽4，王文海4，刘雪波2，丁亮2，沈春华5，罗平11香港大学2商汤集团有限公司3西安163.comadelaide.edu.aupluo@cs.hku.hkpeizesun@gmail.comxieenze@hku.hk摘要在本文中，我们介绍了一个锚盒自由和单镜头的实例分割方法，这是概念简单，完全卷积，可以很容易地嵌入到大多数现成的检测方法使用。我们的方法，称为PolarMask，制定的实例分割问题，预测轮廓的实例，通过实例中心分类和稠密距离回归在极坐标系。此外，我们建议(a)原始图像（b）逐像素表示的90°提出了两种有效的处理高质量中心样本的方法和稠密距离回归的优化方法，可以显著提高算法的性能，简化训练过程.在没有任何花哨的情况下，PolarMask在具有挑战性的COCO数据集上通过单模型和单尺度训练/测试实现了32.9%的掩模这是第一次，我们表明，复杂的立场分割，在设计和com-city方面，150度180度210度可提供120240度60度30分0001234330度300o270度填充复杂性，可以与边界框物体检测，这更简单和灵活，(c) 笛卡尔表示(d) 极坐标表示立场分割框架可以达到竞争的准确性。我们希望所提出的PolarMask框架可以作为一个基本的和强大的基线单杆实例分割任务。代码可从以下网址获得：github.com/xieenze/PolarMask。1. 介绍实例分割是计算机视觉中的基本任务之一这是具有挑战性的，因为它需要预测图像中每个实例的位置和语义掩码因此，直观的实例分割可以通过边界框检测然后在每个框内进行语义分割来解决，采用两阶段方法，例如*表示同等贡献。图1-使用不同掩码表示的实例分割。(a)是原始图像。 (b)是逐像素掩码表示。（c）第（1）款和（d）分别在笛卡尔坐标和极坐标中通过掩模的轮廓表示掩模作为Mask R-CNN [15]。视觉社区的最新趋势已经花费了更多的精力来设计边界框检测器的更简单的管道[17，23，29，31，33，10，19]和包括实例分割在内的子实例识别任务[2，4，34]，这也是我们在这里工作的主要焦点因此，我们的目标是设计一个概念上简单的掩码预测模块，可以很容易地插入到许多现成的检测器，使实例分割。实例分割通常通过在由边界框包围的空间布局中的二进制分类来解决43210 123412194分类HxWxk4conv公司简介极中心HxWx1掩码回归HxWxn4conv公司简介组件头骨干+FPN图2左侧部分包含主干和特征金字塔，用于提取不同级别的特征。中间部分是用于分类和极坐标掩模回归的两个头。H、W、C分别是特征图的高度、宽度、通道，并且k是类别的数量（例如，在COCO数据集上k=80），n是射线的数量（例如，n=36）.如图1（b）所示。这种像素到像素对应性预测是奢侈的，特别是在单次拍摄方法中。相反，我们指出，掩模可以恢复的轮廓，如果得到的反求和有效的。图1（c）中显示了一种直观的轮廓定位方法，该方法预测了组成轮廓的点的笛卡尔坐标。这里我们称之为笛卡尔表象。第二种方法是极坐标表示，它将角度和距离作为坐标来定位点，如图1（d）所示。在这项工作中，我们设计了一种基于极坐标表示的实例分割方法，因为它的固有优点如下：（1）极坐标的原点可视为物体的中心。(2)从原点开始，轮廓中的点由距离和角度确定。(3)该角度是自然定向的，并且使得将点连接成整个轮廓非常方便。我们声称笛卡尔表示可能表现出前两个性质类似。但是，它缺乏第三属性的优势。我们通过使用最近的对象检测器FCOS [29]来实例化这样的实例分割方法请注意，可以使用其他检测器，如RetinaNet [23]，YOLO [27]，对我们的框架进行最小的修改。具体来说，我们提出了Polar-Mask，将实例分割公式化为实例中心分类和极坐标中的密集距离回归该模型采用输入图像并预测从采样的正位置（实例中心的候选者）到每个角度处的实例轮廓的距离，并且在组装之后，输出最终掩模。PolarMask的整体流水线几乎和FCOS一样简单和干净。它引入的计算开销可以忽略不计.简单性和效率是两个关键因素，单镜头实例分割，PolarMask成功地实现了它们此外，PolarMask可以被视为FCOS的概括。换句话说，FCOS是PolarMask的特殊情况，因为边界框可以被视为只有4个方向的最简单的掩码因此，建议在FCOS上使用PolarMask，例如识别任何可用的掩码注释[5，24，11，20]。为了最大限度地发挥极坐标表示的优势，本文提出了极坐标中心度和极坐标IoU损失，分别用于处理高质量中心样本的采样和稠密距离回归的优化。它们相对提高了约15%的掩模精度，在更严格的定位标准下显示出相当大的增益。在没有花里胡哨的情况下，PolarMask在具有挑战性的COCO数据集上通过单模型和单尺度训练/测试实现了32.9%的掩模mAP[24]。这项工作的主要贡献有三方面：• 我们引入了一个全新的实例分割框架PolarMask来建模实例掩码在极坐标中，它将实例分割转换为两个并行任务：实例中心分类和密集距离回归。PolarMask的主要特点是简单有效。• 我们提出了为我们的框架量身定制的Polar IoULoss和Polar Centerness。我们表明，提出的极地IoU损失可以在很大程度上缓解优化，与平滑 L1 损失等标准损失相比，同时， PolarCenterness改进了FCOS中“中心化”的原始理念12195• 这是第一次，我们表明，复杂的实例分割，在设计和计算复杂性方面，可以是相同的约束，框对象检测。我们进一步证明了这种更简单和灵活的实例分割框架与更复杂的单阶段方法（通常涉及多尺度训练和更长的训练时间）实现了具有竞争力的性能。2. 相关工作两阶段实例分割。两阶段实例分割通常将此任务制定为“检测然后分割”的范例[21，15，25，18]。它们通常检测边界框，然后在每个边界框的区域中执行分割。FCIS [21]的主要思想是完全卷积地预测一组位置敏感的输出通道。这些通道同时处理对象类、框和掩码，使系统更快。Mask R-CNN [15]基于Faster R-CNN构建，只需添加一个额外的掩码分支，并使用RoI-Align来取代RoI-Pooling [12]，以提高准确度。继MaskR-CNN之后，PANet [25]引入了自底向上的路径增强，自适应特征池和全连接融合，以提高实例分割的性能。Mask Scoring R-CNN [18]通过添加mask-IoU分支，从分类得分中重新对掩码的置信度进行总之，上述方法通常由两个步骤组成，首先检测边界框，然后在每个边界框中进行分割。它们可以实现最先进的性能，但通常速度很慢。一个阶段实例分割。深分水岭变换[1]使用完全卷积网络来预测整个图像的能量图，并使用分水岭算法来产生与对象实例相对应的连接分量。InstanceFCN [6]使用实例敏感的得分图来生成建议。该算法首先生成一组实例敏感的得分图，然后使用合成模块在滑动窗口中生成对象实例。最近的YOLACT [2]首先生成一组原型掩码，每个实例的线性组合系数和边界框，然后使用相应的预测系数线性组合原型，然后使用预测边界框进行裁剪。TensorMask [4]研究了密集滑动窗口实例分割的范例，使用结构化的4D张量来表示空间域上的掩码。ExtremeNet [34]使用关键点检测来预测一个实例的8个极值点，并生成一个八边形掩码，实现了相对合理的对象掩码预测。的中坚力量ExtremeNet是HourGlass [26]，它非常重，需要更长的训练时间。在[28]中首次使用极坐标表示来检测显微图像中的细胞，其中问题简单得多，因为只有两类。与我们的工作并行的是ESESeg [30]的工作，它也使用极坐标来建模实例。然而，我们的PolarMask实现了显着更好的性能比ES-ESeg由于非常不同的设计以外的极性表示。请注意，这些方法中的大多数并不直接对实例建模，并且它们有时可能难以优化（例如，更长的训练时间、更多的数据增强和额外的标签）。我们的PolarMask通过两个并行分支的更简单灵活的方式直接对实例分段进行建模：对实例质心的每个像素进行分类，并回归质心与轮廓线之间的射线密集距离。PolarMask的最大优点是与上述方法简单有效地兼容。3. 我们的方法在本节中，我们首先简要介绍了整体架构的PolarMask。然后，我们重新制定的实例分割与建议的极性表示。接下来，我们引入了一个新的概念，极心，以减轻选择高质量的中心样本的过程。最后，我们引入了一个新的Polar IoU Loss来优化稠密回归问题。3.1. 架构PolarMask是一个简单的统一网络，由骨干网络[16]，特征金字塔网络[22]和两个或三个特定任务的头组成，这取决于是否预测边界框。1主干和特征金字塔网络的设置与FCOS相同[29]。虽然这些组件存在许多更强的候选者，但我们将这些设置与FCOS对齐，以显示我们的实例建模方法的简单性和有效性。3.2. 极坐标遮罩分割在本节中，我们将详细描述如何在极坐标中建模实例。极坐标表示。给定实例掩码，我们首先采样实例的候选中心（x c，y c）和位于轮廓（x i，y i）上的点，i = 1，2，.、N.然后，从中心开始，以相同的角度间隔Δθ均匀地发射n条射线（例如，n= 36，Δθ=10Ω），其长度由中心到轮廓确定通过这种方式，我们在polar co中对实例掩码进行建模，纵坐标为一个中心和n条射线。从角度间隔1是否具有框预测分支是可选的。正如我们的经验表明，框预测分支对掩码预测的影响很小12196图3极轴表示提供方向角。轮廓点从0◦（粗线）开始逐个连接，并组装整个轮廓和遮罩。是预定义的，仅需要预测射线的长度。因此，我们将实例分割表示为实例中心分类和极坐标系下的稠密距离回归。弥撒中心实例的中心有多种选择，例如长方体中心或质心。如何选择一个较好的中心取决于它对掩模预测性能的影响.在这里我们验证了箱心和质心的上界，并得出质心更有利的结论。细节见图7。我们解释说，质量中心有一个更大的概率下降到实例内，比盒中心。尽管对于一些极端的情况，例如圆环，质心和长方体中心都不在实例内部。我们把它留待进一步研究.中心样品。如果位置（x，y）落在任何实例的质心周围的区域内，则将其视为中心样本否则，它是阴性样品。我们将正像素采样的区域定义为1.5×步幅[29]从质心到左、上、右和底部。因此，每个实例具有大约9 × 16像素靠近质心作为中心示例。它有两个优点：(1) 将阳性样本数从1个增加到9个/16，可以在很大程度上避免阳性和阴性样本的不平衡。然而，在训练分类分支时，仍然需要病灶丢失[23]。 (2)质心可能不会是实例的最佳中心样本。更多的候选点使得自动找到一个实例的最佳中心成为可能我们将在3.3节详细讨论它。距离回归给定一个中心样本（xc，yc）以及一个实例的轮廓点，n条射线的长度{d1，d2，. - 是的- 是的，d n}可以容易地计算。更多细节在补充材料中。这里我们主要讨论一些边角案例：• 如果一条射线与实例的轮廓线有多个交点，则直接选择长度最大的一条。图4-极中心极坐标中心用于降低回归任务的权重，如光线长度的高度多样性，这些示例总是难以优化和生产低质量的掩模。在推理期间，由网络预测的极中心度乘以分类得分，从而可以降低低质量掩模的权重。• 如果一条射线从遮罩外部的中心开始，在某些特定角度上与实例的轮廓没有交点，则我们将其回归目标作为最小值λ（例如，= 10−6）。我们认为，这些角点的情况是限制极坐标表示的上限达到100% AP的主要障碍。然而，不应将其视为极坐标表示劣于非参数像素表示。证据是双重的。首先，即使是逐像素表示在实践中仍然与100%AP的上限有一定的差距，因为一些操作，例如下采样，是必不可少的。第二，当前性能远离逐像素表示或极坐标表示的上界。因此，研究工作建议更好地花费在改善模型的实际性能，而不是理论上的上限。回归分支的训练是不平凡的。首先，PolarMask中的掩码分支实际上是密集距离回归任务，因为每个训练示例都有n条射线（例如，n= 36）。这可能导致回归损失和分类损失之间的不平衡。其次，例如，它的n条射线是相关的，应该作为一个整体进行训练，而不是被视为一组独立的回归示例。因此，我们提出了极性IoU损失，在第3.4节中详细讨论。面罩组装。在推理过程中，网络输出分类和中心度，将中心度与分类相乘，得到最终的置信度。在将置信度分数阈值设定为0.05之后，我们仅从每个FPN水平最多1k个得分最高的预测中组装掩码。来自所有级别的顶部预测被合并，并且应用具有0.5的阈值的非最大抑制（NMS）以产生最终结果。这里我们1219702N02D介绍了掩模组装工艺和一种简单的NMS工艺。给定一个中心样本（xc，yc）和n条射线真相 D={1，2，��{d1，d2，. - 是的- 是的，d n}，我们可以计算出每个核的位置。横断面�� ={��,��,��响应轮廓点，公式如下：xi= cosθi×di+xc（1）yi= sin θ i× di+ yc。（二）从0°开始，轮廓点一个接一个地连接，如图3所示，最后组装成整个轮廓和掩模。我们应用NMS来去除冗余掩码。为了简化这个过程，我们计算最小的边界框的掩码，然后应用NMS的基础上生成的框的IoU。3.3. 极中心引入中心度[29]来抑制这些低质量的检测对象，而不引入任何超参数，并且它被证明在对象边界框检测中是有效的。然而，直接将其转移到我们的系统可能是次优的，因为它的中心是为边界框设计的，我们关心的是掩码预测。给定集合{d1，d2，. . . , dn}for the length of n rays of12��2��2图5 极坐标中的掩模IoU（联合面积上的交互面积）可以通过根据微分角度对微分IoU面积进行积分来计算。来实现并行计算。在这项工作中，我们推导出一个简单有效的算法来计算掩码IoU的基础上的极向量表示，并取得竞争力的性能。我们从IoU的定义开始引入Polar IoU Loss， IoU是预测掩码和地面实况之间的交互面积与联合面积的比率如图5所示，在极坐标系中，对于一个实例，掩模IoU计算如下：2π1min（d，dIoU =1002（四）一个例子。我们建议极心：2π1max（d，dθ）2dθ.极中心=min（{d1，d2，. - 是的-是的，d n}）（三）max（{d1，d2，. - 是的-是的，d n}）其中，回归目标d和预测d是射线的长度，角度为θ。然后我们将其转换为离散形式2这是一个简单而有效的策略，重新加权点，ΣN1d2θiIoU = limi=12Σmin（六）d_min和d_max越接近，则分配给该点的权重越高N→∞N12i=12maxθi我们添加一个单层分支，与分类分支并行，以预测位置的极坐标中心，如图2所示。通过网络预测的极中心乘以分类分数，从而可以降低低质量掩模的权重。实验表明，极坐标中心度提高了准确性，特别是在更严格的本地化指标下，如AP75。当N接近无穷大时，离散形式等于连续形式。我们假设射线是均匀发射的，所以θ=2π，这进一步简化了表达式。我们经验性地观察到，幂形式对性能的影响很小（±0. 1mAP差异），如果它被丢弃并简化为以下形式：ΣnPolar IoU=1dmin（七）3.4. 极性IoU损耗ni=1 DMax如上所述，极坐标分割的方法将实例分割的任务转换为一组回归问题。在对象检测和分割领域的大多数情况下，平滑-l1损失[13]和IoUPolar IoU Loss是Polar IoU的二进制交叉熵（BCE）损失。由于最佳IoU始终为1，因此损失实际上是PolarIoU的负对数：Σn[32]这两种方法都是有效的。极性IoU损耗= logIoUi=1dmax（八）解决问题。平滑-l1损失忽略了相关性-在相同对象的样本之间，从而导致不太准确的定位。而IoU损失则从整体上考虑了优化，直接优化了2为了便于记法，我们定义：ni=1 Dmin利息，借条。然而，计算预测掩码的IoU及其地面实况是棘手的，并且非常困难Dmin∗=min（d，d），dMax∗=max（d，d）.（五）组中普雷迪��=0212198射线APAP50AP75APSAPMAPL1826.248.725.411.828.238.02427.349.526.912.429.540.13627.749.627.412.630.239.77227.649.727.212.930.039.7损失αAPAP50 AP75 APS APM APL光滑-l10.050.3024.725.147.146.423.724.511.310.626.727.336.837.31.00 20.237.919.68.620.631.1Polar IoU 1.00 27.749.627.412.630.239.7(a) 光线数量：更多的光线会带来更大的增益，而太多的光线会饱和，因为它已经很好地描绘了掩模(b) Polar IoU损失vs. Smooth-L1 Loss：Polar IoU Loss的性能优于Smooth-l1Loss，即使是平衡回归损失和分类损失的最佳变体。箱形支管wW/OAP AP50AP7527.7 49. 6 27. 427.549.8 27.0APSAPMAPL12.630.2三十九点七13.030.0 40.0(c) Polar Centernessvs.中心度：极中心度带来很大的增益，特别是高IoU AP75和大实例APL。(d) Box Branch：Box Branch对掩码预测的性能没有影响。骨干APAP50AP75APSAPMAPL规模APAP50 AP75 APS APM APL FPSResNet-5029.149.529.712.631.842.340022.939.823.24.524.441.7 26.3ResNet-10130.451.131.213.533.543.960027.647.528.39.830.143.1 21.7ResNeXt-10132.654.433.715.036.047.180029.149.529.712.631.842.3 17.2(e) 主干架构：所有模型都基于FPN。更好的骨干带来预期的收益：更深的网络做得更好，ResNeXt在ResNet上有所改进。(f) ResNet-50的精度/速度权衡：不同图像比例的PolarMask性能。FPS在一个V100 GPU上报告。表1-PolarMask的消融实验。除非另有说明，否则所有模型都在trainval35k上进行训练，并使用ResNet 50-FPN主干在minval上进行测试我们提出的极性IoU损失表现出两个有利的特性：（1）它是可微的，使得能够反向传播;并且它非常容易实现并行计算，从而促进快速训练过程。(2)它从整体上预测回归目标。在我们的实验中，与平滑l1(3)作为奖励，Polar IoU Loss能够自动保持密集距离预测的分类损失和回归损失我们将在实验中详细讨论它。4. 实验我们在Chal-Challing COCO基准测试[24]上展示了实例分割的结果根据常见实践[15，4]，我们使用80K训练图像和35K val图像子集（trainval35k）的联合进行训练，并报告剩余 5K val 上的消融。图像（minival）。我们还比较了测试开发的结果.我们采用1×培训策略[14，3]，单一规模的培训和测试，图像短边为800，除非另有说明。培训详情。在消融学习，ResNet-50- FPN[16，22]用作我们的骨干网络，并使用与FCOS [29]相同的超参数。具体来说，我们的网络使用随机梯度下降（SGD）进行训练，迭代次数为90K，初始学习率为0.01和一小批16张图片在迭代60K和80K时，学习率分别降低了10倍。活泼地重量衰减和动量分别设置为0.0001和0.9。我们使用ImageNet [9]上预训练的权重初始化骨干网络输入图像被调整大小以使其短边为800并且其长边小于或等于1333。4.1. 消融研究上限验证。关于PolarMask的第一个问题是它可能无法精确地描绘遮罩。在本节中，我们证明这种关注可能是不必要的。在这里，我们验证了PolarMask的上限作为预测掩码和地面实况的IoU，当所有射线回归到等于地面实况的距离时。不同射线数的验证结果如图7所示。可以看出，当光线数量增加时，IoU接近接近完美（90%以上），这表明极坐标分割能够很好地对掩模进行建模。因此，对PolarMask的上界的关注是不必要的。此外，使用mass-center而不是bounding box-center作为实例的中心更合理，因为bounding box中心更有可能超出实例。光线的数量。它在整个PolarMask系统中起着基础性的作用。从表1a和图7中，更多的射线显示更高的上限和更好的AP。例如，与18条射线相比，36条射线的AP提高了1.5%。此外，太多的光线（72条光线）会使性能饱和，中心度APAP50AP75APS APMAPL原有12.630.2三十九点七极地29.149.5 29.712.631.8四十二点三12199图6-具有Smooth-11损失和Polar IoU损失的PolarMask的可视化。Polar IoU Loss实现了更准确的实例轮廓回归，而Smooth-l1Loss表现出系统性伪影。图7 -上限分析。更多的射线可以使用地面真相建模具有更高IoU的实例遮罩，并且质心比框中心更友好地表示实例。用更多的射线，例如。90条射线比72条射线提高了0.4%;结果在120条射线下饱和它已经很好地描绘了掩模轮廓，并且射线的数量Polar IoU损失vs.平滑-l1损失。我们在我们的架构中测试了Polar IoU Loss和Smooth-l1Loss。我们注意到Smooth-l1Loss的回归损失明显大于分类损失，因为我们的架构是密集距离预测的任务。为了克服这种不平衡性，在Smooth-l1损失中，我们选择了不同的因子α作为回归损失实验结果示于表Ib中。我们的Polar IoULoss实现了27.7%的AP，而没有平衡回归损失和分类损失。相比之下，Smooth-l1Loss的最佳设置达到25.1%AP，差距为2.6% AP，表明Polar IoU Loss比Smooth-l1Loss更有效地训练质心和轮廓之间距离的回归任务。我们推测，间隙可能来自两个折叠。首先，平滑Il损失可能需要更多的超参数搜索以实现更好的性能，这与极性IoU损失相比可能是耗时的。其次，Polar IoULoss将一个实例的所有光线作为一个整体进行预测，这优于Smooth-l1Loss。在图6中，我们分别比较了使用平滑-11损失和极性IoU损失的一些结果。平滑-l1损失表现出系统性的伪影，这表明它缺乏对整个对象水平的PolarMask显示更加平滑和精确的轮廓。Polar Centernessvs.中心性。可视化结果见补充材料。比较实验如表1c所示。极轴中心度整体提升1.4% AP。特别是 AP75 和 APL显著提高，分别为 2.3%AP 和2.6%AP我们解释如下。一方面，低质量口罩对高IoU的负面影响更大。另一方面，大型实例更有可能在最大和最小光线长度之间存在较大差异，这正是PolarCenterness致力于解决的问题博克斯布兰奇以往的实例分割方法大多需要用包围盒来定位对象区域，然后对对象内部的像素进行分割。相比之下，PolarMask能够直接输出掩模，边界框在本节中，我们测试额外的边界框分支是否可以帮助改进掩码AP，如下所示。从表1d中，我们可以看到边界框分支对掩码预测的性能几乎没有影响。因此，为了简单和更快的速度，我们在PolarMask中没有边界框预测头主干架构。表1e显示了PolarMask在不同主链上的结果。可以看出，通过更深和更先进的设计网络提取的更好的特征如预期地提高了性能。速度vs.精度较大的图像尺寸会产生更高的准确性，但推理速度较慢。表1f显示了不同输入图像比例（由较短图像侧定义）的速度和精度权衡。FPS是在一个V100 GPU上报告的。请注意，这里我们报告了整个推理时间，包括所有后处理。这表明PolarMask具有很强的潜力，可以开发为一个实时的实例分割应用程序，只需简单的修改。我们还在补充材料中报告了不同基准的更多结果。4.2. 与最新技术我们在COCO数据集上评估PolarMask，并将测试开发结果与最先进的方法进行比较，包括上限分析%91质心bbox-center8783791824 3672光线数使用Ground-truth的IoUPolar IoUSmooth-L112200图8-方法骨干历元AugAPAP50AP75APSAPMAPL两级中国[7][第21话][15]第十五话ResNet-101-C4ResNet-101-C5-扩张 ResNeXt-101-FPN121212◦◦◦24.629.237.144.349.560.024.8- 三十九点四4.77.116.925.931.339.943.650.053.5一期[34]第三十四话沙漏-104100C18.944.513.710.420.428.3TensorMask [4]ResNet-101-FPN72C37.159.339.417.139.151.6Yolact [2]ResNet-101-FPN48C31.250.632.812.133.347.1PolarMaskResNet-101-FPN12◦30.451.931.013.432.442.8PolarMaskResNet-101-FPN24C32.153.733.114.733.845.3PolarMaskResNeXt-10112◦32.955.433.815.535.146.3PolarMaskResNeXt-101-FPN-DCN24C36.259.437.717.837.751.5表2-标准训练策略[14]是12个时期训练;而‘aug’表示数据增强，包括多尺度和随机裁剪。C是有aug的训练一阶段和两阶段模型，见表2。PolarMask输出如图8所示。对于数据增强，我们在训练期间随机缩放图像的短边，范围从640到800。没有任何花里胡哨的东西，PolarMask能够用更复杂的一阶段方法实现有竞争力的性能。凭借更简单的流水线和半个训练周期， PolarMask 的性能优于YOLACT，0.9 mAP。此外，具有可变形卷积层的最佳PolarMask[8]可以实现36.2 mAP，这与最先进的方法相当。在补充材料中，我们比较了具有相同图像大小和设备的TensorMask和PolarMask之间的FPS。PolarMask可以在ResNet-101主干上以12.3 FPS的速度运行，比Ten-sorMask快4.7倍。即使配备了DCN [8]，PolarMask仍然比TensorMask快三倍。5. 结论PolarMask是一种单镜头锚盒自由实例分割方法。PolarMask不同于以往典型地将掩膜预测问题解决为空间布局中的二值分类问题，提出了用掩膜的轮廓表示掩膜，用极坐标中的一个中心和从中心发射到轮廓的射线对轮廓进行建模。PolarMask的设计几乎和单次物体探测器一样简单和干净，引入的计算开销可以忽略不计我们希望所提出的PolarMask框架可以作为单镜头实例分割任务的基本和强大的基线。鸣谢及利益声明本工作部分获得香港大学基础研究种子基金、创业基金及商汤科技研究机构的支持。Chunhua Shen和他的雇主没有获得任何研究，作者和/或发表本文的财政支持。12201引用[1] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在proc IEEE会议Comp. 目视帕特识别，第5221-5229页[2] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。IEEE国际规程配置文件目视，2019年。[3] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.检测：Open mm- lab检测工具箱和基准，2019。[4] XinleiChen，RossGirshick，KaimingHe，andPiotrDolla'r.Tensormask：密集对象分割的基础。IEEE国际规程配置文件目视，2019年。[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。正在进行IEEE会议对比可见光帕特识别，第3213-3223页，2016。[6] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。欧洲药典配置文件可见第534-549页。施普林格，2016年。[7] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。正在进行IEEE会议对比可见光帕特识别第3150- 3158页[8] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。正在进行IEEE国际配置文件目视，第764- 773页[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在proc IEEE会议Comp. 目视帕特识别，第248-255页。Ieee，2009年。[10] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。正在进行IEEE国际配置文件目视，第6569-6578页[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。国际计算机视觉杂志，2010年。[12] 罗斯·格希克。快速R-CNN。在proc IEEE国际Conf. 对比可见光第1440-1448页[13] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。正在进行IEEE会议Comp. 目视帕特识别第580-587页[14] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。正在进行IEEE国际配置文件目视，第2961-2969页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，2016年6月。[17] Lichao Huang，Yi Yang，Yafeng Deng，and Yinan Yu.密集盒：将地标定位与端到端对象检测相统一。arXiv预印本arXiv：1509.04874，2015。[18] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.掩模评分R-CNN。正在进行IEEE会议对比可见光帕特识别，第6409- 6418页[19] Tao Kong，Fuchun Sun，Huaping Liu，Yunning Jiang，and Jianbo Shi. Foveabox ： Beyond anchor based objectdetector. arXiv预印本arXiv：1904.03797，2019。[20] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali，Stefan Popov，Matteo Malloci，Tom Duerig，et al.开放图像数据集v4：统一的图像分类，对象检测，并在规模视觉关系检测。 arXiv 预印本 arXiv ：1811.00982，2018。[21] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。正在进行IEEE会议对比可见光帕特识别第2359- 2367页[22] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。正在进行IEEE会议对比可见光帕特识别，2017年7月。[23] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，and Piotr Dollar.用于密集对象检测的焦点损失。正在进行IEEE国际配置文件目视，2017年10月。[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在proc EUR. Conf. Comp. 目视，第740Springer，2014.[25] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络正在进行IEEE会议对比可见光帕特识别，第8759-8768页，2018年。[26] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。欧洲药典配置文件可见第483-499页。施普林格，2016年。[27] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在procIEEE会议Comp. 目视帕特识别，第779-788页[28] Uwe Schmidt，Martin Weigert，Coleman Bro

下载后可阅读完整内容，剩余1页未读，立即下载