具有区分性方向图的实时实例分割

100 浏览量更新于2023-10-15 收藏 14.9MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

73140具有区分性方向图的实时实例分割0杜文涛向志宇 * 陈树亚乔成宇陈一曼白廷明0浙江大学信息科学与电子工程学院0摘要0尽管实例分割在最近几年取得了相当大的进展，但设计具有实时性能的高准确度算法仍然是一个挑战。在本文中，我们提出了一个实时实例分割框架，称为OrienMask。在一阶对象检测器YOLOv3的基础上，添加了一个掩膜头来预测一些具有区分性的方向图，这些方向图明确地定义为前景和背景像素的空间偏移向量。由于方向图的区分能力，可以在不需要额外的前景分割的情况下恢复掩膜。与相同锚点大小匹配的所有实例共享一个公共的方向图。这种特殊的共享策略减少了掩膜预测的摊销内存利用，但不会丢失掩膜的细粒度。在NMS之后给出存活的框预测，可以从相应的方向图中同时构建实例掩膜，复杂度较低。由于掩膜表示的简洁设计及其与基于锚点的对象检测器的有效集成，我们的方法在保持竞争力的准确性的同时，符合实时条件。在COCO基准测试上的实验表明，OrienMask在以单个RTX 2080Ti评估的速度为42.7fps时实现了34.8的掩膜AP。代码可在https://github.com/duwt/OrienMask找到。01. 引言0实例分割旨在对每个单独的对象进行像素级预测。它集成了实例级对象检测[28, 26, 19, 16]和像素级语义分割[21, 6,7]，形成了一个更细粒度的视觉感知任务。目前有两种主导类型的解决方案，即基于检测和基于分割的方法。前者通过额外的前景密集预测扩展了对象检测器，而后者通过特定的像素属性或嵌入来自底向上地分离相同类别的实例。0* 通讯作者。邮箱：xiangzy@zju.edu.cn0图1.基于方向的掩膜构建。那些带箭头的线表示密集预测的方向向量。每个掩膜是通过收集指向实例中心区域的所有像素在匹配的方向图（白色或黑色）中构建的。0这两种范式都有明显的缺点。传统的基于检测的方法如Mask R-CNN[9]依赖于特征池化操作将所有感兴趣区域（RoIs）投影到固定大小。由于后续的掩膜头应该应用于每个区域提议的丰富特征图，速度受到很大限制，特别是当对象密集出现时。此外，恒定的掩膜分辨率为小对象带来了不必要的计算，并且对于大目标丢失了宝贵的细节。相反，基于分割的方法[20,15]以像素级的方式保留了细粒度的外观和几何形状。它们可以在基本场景中获得令人满意的结果，但在准确性上常常落后于基于检测的方法。当对象的尺度变化和类别数量增加时，基于分割的方法中采用的像素级聚类的泛化性仍然存在疑问。为了实时推理的需求，YOLACT[2]提出了一种特殊的掩膜构建方案，它线性地将共享的非局部原型与实例特定的系数相结合。它放弃了早期基于检测的方法中常用的RoI池化操作，直接从细粒度的特征图中组装掩膜。在这一范式的基础上，提出了一种改进的方法称为BlendMask[4]。它用一组注意力图替换了1D实例特定系数，这些图提供了额外的空间自适应信息。73150为了丰富掩膜的细节，这些解决方案的成功显示了将信息丰富的全局特征融入基于检测的方法的巨大潜力。然而，这些方法的一个明显缺陷在于在生成组装的掩膜时依赖RoI裁剪操作，这可能会由于不准确的边界框预测而导致一些掩膜不完整性。在这项工作中，我们尝试以另一种方式将细粒度表达与一阶段检测器集成。具体而言，我们专注于紧凑的掩膜表示和与基于锚点的检测器YOLOv3[27]的高效集成，以实现实时性能。首先，我们提出了一种新颖的有区别性的方向图，用于独立编码多个掩膜，其中像素根据其正负标签被分配为向心或离心向量。这种设计完全不依赖于任何其他语义分割或前景预测，并且在解码完整掩膜时非常轻量级。此外，考虑到不同尺度的对象会改变方向向量的幅度分布，我们还考虑了多尺度设计。我们为与特定锚点尺寸匹配的实例分配不同的方向图，以确保掩膜表示的完整性。OrienMask仅仅为目标检测器添加了一个额外的头部，其功能与边界框分配和预定义锚点尺寸紧密结合。在推理过程中，对于每个预测的边界框，可以基于相应方向图中的有区别性向量快速构建其实例掩膜，如图1所示。这个过程简单直接，除了通过方向向量指示的空间目的地确定所有像素的二进制标签之外，没有其他内容。我们的工作的主要贡献可以总结如下：0•我们提出了一种轻量级和有区别性的基于方向的掩膜表示，用于实时实例分割。通过为前景和背景像素定义相反的方向向量，我们能够在一个细粒度的双通道图中有效地编码多个实例掩膜，而无需显式的前景分割。在推理过程中，给定实例的目标区域，它们的掩膜可以从方向图中并行地构建。0•为了处理不同尺寸的对象，我们提出了一种基于锚点检测器的实例分组机制。具有相似尺寸的实例组被分配为共享一个通用的类别无关的方向图。我们还扩展了注释的边界框，为背景提供足够的监督。扩大的有效训练区域不仅平衡了正负样本的数量，还有助于在边界周围区分它们。0•我们将有区别性的方向图集成到快速的基于锚点的检测器YOLOv3中，并实现了最终的OrienMask模型。0最终模型OrienMask可以在COCO基准测试中以42.7fps的速度实现34.8的掩膜AP，这在最先进的实时方法中非常有竞争力。02. 相关工作0通过目标检测器生成的建议，检测然后分割方法首先从特征图中提取可靠的RoIs，然后获得细粒度的实例表示。受到两阶段检测器Faster R-CNN [28]和Mask R-CNN[9]的成功启发，MaskR-CNN在边界框回归的同时添加了一个用于预测掩膜的分支，并使用RoIAlign修复由空间量化引起的对齐错误。之后，PANet[18]被提出来加强自下而上路径中的信息传递，并融合来自所有层级的池化特征。HTC [5]将MaskR-CNN扩展为级联结构，交错地使用掩膜和边界框分支，同时保持语义特征融合。Mask Scoring R-CNN[10]不使用检测器的置信度，而是预测额外的分数来准确表示掩膜质量。然而，由于第二阶段的计算量较大，这些方法很难满足实时推理的要求。检测和分割方法受益于一阶段目标检测的紧凑架构[19, 16, 27, 13, 8,30]，它们与全局特征图一起自定义掩膜，并联合生成隐式实例特定表示。在被认为是这一范式里程碑的YOLACT[2]中，一系列掩膜系数与边界框预测一起产生。然后，它们与一组高分辨率原型相乘以生成实例掩膜。Chen等人[4]重新考虑了特征分辨率和系数维度之间的权衡，并提出了BlendMask，它将每个实例的一些注意力图与一组共享基础进行混合。受条件参数化卷积[38]的启发，CondInst[29]预测实例感知的卷积核权重，并将其应用于高分辨率特征图。由于其灵活的框架和细粒度的表示，这些方法在速度和准确性之间保持了良好的平衡。与它们相比，我们的OrienMask采用了一种显式和有区别性的特征共享方案来表示掩膜，而不是隐式参数化形式，这更加简洁并提供了强大的可解释性。除了边界框和前景概率图之外，一些紧凑的掩膜表示也对实例分割有所贡献。例如，Jetley等人[11]使用自动编码器将掩膜压缩为低维向量，这些向量可以与检测器结合使用。Xu等人[37]将实例描述为一系列内部中心半径，并将其编码为Chebyshev多项式系数。为了获得更好的精度，32x16x8x4xB73160F50F40F30F20P50P40P30P2032x016x08x04x0Backbone FPN0BoxHead10BoxHead20BoxHead30OrienHead0Heads0H/s × W/s × (5 + C)A0H/4 × W/4 × 2A × 30BoxHead0OrienHead0图2.OrienMask架构。左：网络基于YOLOv3构建，额外添加一个头部来预测每个锚点尺寸的不同方向图。H和W分别是输入图像的高度和宽度，s表示输出步幅。有C个类别和A个锚点每个空间位置。我们改进的版本中，馈送给OrienHead的金字塔特征被加强，如虚线所示。右：有三个与不同锚点尺寸匹配的实例。第一行的边界框由BoxHead预测，第二行的方向图由OrienHead预测。同一列中的每对分别确定一个实例蒙版。0Polar-Mask[36]提出了极坐标中心度和极坐标IoU损失。Peng等人[25]以学习为基础实现了蛇算法，并提出了循环卷积来迭代地将采样点回归到轮廓位置。作为有效的表示，像素偏移及其变体在分割前景中分离实例中非常流行。Uhrig等人[31]通过预测的深度类别和离散方向进行模板匹配，将具有相同语义标签的像素分配给不同的实例中心。Box2Pix[32]根据偏移向量将前景像素与预测的框中心进行匹配。类似地，Li等人[14]根据检测中心周围的自适应投票区域合并前景像素。Neven等人[22]提出了一种用于类别特定种子和sigma映射以及密集偏移向量的联合优化方案。根据学习的聚类带宽，逐步恢复蒙版。PersonLab[24]利用短程和中程偏移向量解码人体姿势，然后通过长程偏移将前景像素进行聚类。Novotny等人[23]提出了一种半卷积算子，将坐标添加到部分学习嵌入中。PointGroup[12]将偏移描述符扩展到3D实例分割，其中相同类别的点逐步分组。我们的方法也从空间偏移描述符中汲取灵感。然而，与上述大多数方法不同，它们主要使用空间偏移将分割的前景像素分配给实例，我们的方向图是自我区分的。它能够过滤掉背景区域并同时分离实例。为了实现这个目标，定义了特殊的有效训练区域，并考虑了正负样本的独特方向向量。此外，这些精细的方向图与检测器的锚点紧密结合，保持了不同尺寸的蒙版完整性并简化了回归。0精细的方向图与检测器的锚点紧密结合，保持了不同尺寸的蒙版完整性并简化了回归。03. OrienMask03.1. 总体架构0OrienMask的网络架构主要基于基于锚点的检测器YOLOv3[27]和Darknet-53骨干网络构建而成。如图2所示，我们添加了一个额外的OrienHead来预测方向图，这是整个框架的关键部分。获取的边界框和方向图被组合用于蒙版构建。YOLOv3部署了9个边界框先验，并将它们均匀分配到3个尺度上。给定一个高度为H，宽度为W的输入图像，输出步幅为s的尺度上的BoxHead会产生H/s × W/s ×A个边界框预测，其中A表示每个网格单元的锚点数。OrienHead以特征金字塔网络（FPN）之后的最大特征图P2作为输入，然后预测固定分辨率为H/4 ×W/4的3A个方向图，每个方向图有两个通道，分别与3A个不同的锚点尺寸匹配。考虑到处理高分辨率特征图是耗时的，我们的OrienHead被设计为轻量级。它与输入通道128和256的三个3 × 3和1 ×1卷积层交错连接。在标准的非极大值抑制之后，每个边界框都与一个根据其锚点尺寸确定的方向图配对。如图2的右侧所示，所有方向向量终点位于收缩边界框内的像素形成前景蒙版。73170边界框0有效训练区域0正样本0负样本0基准位置0实例掩膜0图3.方向图。对于每个实例，掩膜覆盖的像素是正样本，其方向被定义为指向基准位置的向量。剩余的像素在有效训练区域内作为负样本，应该指向离心方向的有效训练区域边界。03.2. 基于方向的掩膜表示0方向图 O � ∈ R H × W × 2在水平和垂直方向上存储了多个实例的像素级空间偏移。训练阶段的一些关键概念在图3中进行了说明，并将详细解释。有效训练区域首先，我们扩展由注释边界框围起来的区域以形成有效训练区域。在训练过程中，忽略任何扩展区域之外的像素，这意味着它们不参与损失计算。所有剩余的有效像素根据是否被实例掩膜覆盖分为两部分，即正样本和负样本。由于正样本的数量是恒定的，并且当有效训练区域扩大时，将计算更多的负样本，因此应确定适当的扩展比例以平衡正负样本的数量。同时，这种扩展还为区分靠近实例边界的像素提供了足够的指导。方向向量为了在掩膜构建过程中容易区分正负样本，它们的方向向量被定义为指向相反方向。具体而言，首先为每个实例指定一个基准位置，在我们的实验中，边界框的质心是一个较好的选择。方向图上的正样本被定义为指向基准位置，而负样本应该指向离心方向的有效训练区域边界。将基准位置表示为b ，像素 i 在位置 p i 处的目标方向向量 o � i 可以表示为0o � i 0� b - p i, if positive, ( α i - 1)( p i - b), ifnegative, (1)0α i = 1 / max(p x i - 0v l - b x, p x i0v r - b x, p y i0v t - b y, p y i - b y0v b - b y) .(2)0上标 x 和 y 分别表示水平和垂直方向。 ( v l , v r , v t , vb )中的元素表示有效训练区域的最左、最右、最上和最下坐标。所有正样本具有最高优先级，以覆盖其他方向，以尽可能保持掩膜的完整性。如果一个负样本被多个有效训练区域重叠，我们只需取平均值以避免歧义。由于方向向量在局部定义为指向某些相邻目标的空间偏移，它们在内部位置的两个方向上变化平滑。当不同实例的有效训练区域重叠时，和谐可能会稍微受到干扰，但整体的统一性仍然保持。对于位于掩膜边界上的相邻像素对，正样本被拉向基准位置，而负样本被推向扩展边界的外部。因此，这些位置的梯度方向之一等于基准位置与有效训练区域相应边界之间的距离，这个距离明显大于其他内部位置的一个像素差异。我们在第4.3节的实验证明了学习到的方向图保留了这个属性，这有助于准确地描绘实例掩膜。0实例分组：尽管将所有实例掩码堆叠到一个双通道方向图中对于实时考虑是很有吸引力的，但在处理一些实例重叠的情况下可能会失败，例如一个戴领带的人。为了缓解这个问题，我们引入了一个实例分组机制。注意到YOLOv3根据与边界框先验的交并比将对象分配给不同的锚点大小，我们自然地将这个分配转移到我们的掩码表示上。具体来说，根据它们匹配的锚点大小，将实例分成几个组，每个组的实例掩码分配给一个独立的方向图。除了解决由不同长宽比或尺度的对象引起的重叠问题外，实例分组机制还具有更多的附加优势。由于较大的对象通常需要更大的感受野，这种安排有利于将每个方向图适应适当的尺度。同时，分组实例的方向向量可以在一个小区间内归一化，使得每个组的幅度分布不会有显著变化，这对于网络训练是有益的。此外，我们的设计也符合这样一个观察结果：一张图像可能包含许多小的实例，但只有少数大的实例。因此，它可以尽可能地保留多个对象。03.3. 掩码构建0掩码构建过程涉及两个元素：预测的边界框B和方向图O。请记住，每个边界框预测都有一个锚点大小，每个锚点大小与一个方向图相关联。i1Pi fsmooth l1(+ Ninst(5)73180因此，每个边界框都与一个方向图匹配。假设B和O已经配对，根据公式（1）的定义，我们将B的质心作为基准位置。然后定义一个以基准位置为中心的矩形目标区域，其大小与B的宽度和高度成比例。如果我们将基准位置表示为b，边界框的大小表示为s，则构建的掩码M可以表示为：0M = ( |0∩ ( | O y + P y - b y | < τ ∙ s y ) . (3)0这里，P ∈ R H × W × 2存储每个像素的坐标，τ是一个收缩因子，用于定义目标区域。简而言之，如果一个方向向量指向基准位置周围的某个区域，那么相应的像素属于给定实例的前景。这个简单的过程只需要逐点算术或逻辑运算。对于所有幸存的NMS边界框，掩码构建过程可以轻松并行执行，而不需要前景分割。此外，它不需要任何RoI裁剪操作，直接考虑整个方向图，减少了由于不准确的边界框预测而导致的精度泄漏。03.4. 损失函数0损失函数由两个组成部分组成，分别为目标检测和方向图的监督。可以表示为：0L = L det + λ L orien , (4)0其中，λ是一个超参数，用于平衡这两个项。Ldet完全复制自官方的YOLOv3，没有任何文献中的技巧。关于Lorien，我们在有效的训练区域内，对每个像素计算smooth-l1损失，然后分别对正样本和负样本求平均。此外，我们根据L det 中的实例数N inst将它们乘以实例数。完整的表达式如下所示：0L orien = N inst0a , o � ia )0N neg0�0i 1 N i f smooth l1 ( oi0a，o�ia），0其中1P和1N是正样本和负样本的指示函数。oi表示在像素i处预测的方向向量，而oi�是相应的真值。为了提高数值稳定性并减少不同尺度之间的方差，oi和oi�通过它们的锚点大小a进行归一化，而不是直接以像素为单位测量。每个尺度的Lorien分别计算，最后求和。尽管网络生成的方向图是0在输入图像的四分之一尺寸上，我们计算并聚合损失，然后将它们上采样到完整分辨率。同样，在将方向图输入构建掩膜之前，我们也实施了双线性插值。04. 实验0我们在具有挑战性的MSCOCO数据集[17]上进行实验，并使用标准指标评估预测结果。按照常规做法，所有模型都是在train2017的118k张图像上进行训练，并在val2017的5k张图像或test-dev子集的20k张图像上进行测试。训练细节对于网络结构，我们保留了YOLOv3的官方实现，并扩展了一个完全卷积的OrienHead，如上所述。Darknet-53骨干网络使用预训练的检测器进行初始化，并进行端到端的训练。我们使用带有动量0.9和权重衰减0.0005的随机梯度下降（SGD）优化器。批量大小为16，并且在我们的最终模型中使用了同步批量归一化，但在消融研究中没有使用。初始学习率为0.001，分别在520k和660k迭代时除以10。所有模型都以输入分辨率544×544进行100个epoch的训练。应用多种数据增强技术，如颜色抖动、随机调整大小和水平翻转。推理细节与YOLACT[2]类似，输入图像直接调整大小为544×544，没有进行测试时的数据增强。推理速度默认在RTX 2080Ti上评估，并以每秒帧数（FPS）进行测量。04.1. 消融研究0在我们的消融实验中，目标检测器的实现是固定的。我们调整我们方法的其他超参数以获得最佳配置。为了更紧密地将OrienHead与检测器集成，还将对基础模型进行一些额外的改进。有效训练区域对于方向图，负样本的定义与有效训练区域的边界密切相关。鉴于每个有效训练区域的大小与其边界框成比例，我们将扩展比例r从1.0变化到1.6，步长为0.2。如表1所示的实验结果，当r =1.2时，我们的模型达到最佳性能，而较小或较大的扩展比例会导致AP下降。我们注意到，随着有效训练区域的扩大，负样本的数量和它们的方向向量的大小同时增加。适度的扩展比例在保持正负样本数量平衡的同时，在边界周围保持足够的区分度。它还保持了负样本的适当数值分布。这两个方面都有助于我们模型的更好收敛。方向损失权重在公式（4）的损失函数中，Ldet和Lorien分别用于提供框级和像素级的损失。其中1P和1N是正样本和负样本的指示函数。oi表示在像素i处预测的方向向量，而oi�是相应的真值。为了提高数值稳定性并减少不同尺度之间的方差，oi和oi�通过它们的锚点大小a进行归一化，而不是直接以像素为单位测量。每个尺度的Lorien分别计算，最后求和。尽管网络生成的方向图是1.032.053.433.137.01.232.553.933.637.41.432.353.833.037.41.631.953.632.537.1531.052.731.336.71031.853.532.536.81532.153.433.337.12032.553.933.637.40.430.450.731.30.532.252.933.20.632.553.933.60.731.753.832.40.830.152.829.973190r AP AP 50 AP 75 AP bb0表1.有效训练区域。适当的扩展比例r平衡了正负样本的数量，同时为它们提供足够的监督以区分它们。0λ AP AP 50 AP 75 AP bb0表2.方向损失权重。随着方向损失权重λ的增加，我们模型的掩膜AP性能逐渐提升，而框级AP指标保持相对稳定。0级别监督。为了将这两个术语联系在一起，我们探索了方向损失权重λ从5到20，并在表2中获得了结果。随着λ的增大，掩码AP指标逐渐增加。然而，我们发现当应用权重大于20时，训练过程变得不稳定，性能饱和。因此，在后续实验中采用λ=20。此外，我们观察到方向损失权重的调整并不明显地影响框级性能，甚至有一些正面效果，这表明OrienHead在一定程度上保持了网络的稳定性。0方向目标区域对于任何在NMS中幸存下来的边界框，掩码只需通过收集所有指向其基本位置附近的方向向量的像素来构建，而无需进行其他像RoI裁剪之类的操作。边界框通过缩放因子收缩以形成方向目标区域，以便与不同长宽比或尺度的对象兼容。在这里，我们选择收缩比例τ从0.4到0.8。从表3中我们发现，性能对于收缩比例非常敏感，当τ=0.6时获得最佳性能。对于每组实例的更具体的参数调整是可选的，以实现更高的AP。0其他改进我们进一步探索一些措施，以更好地将OrienHead与检测器集成并提高整体性能。这些措施逐步应用，并在表4中说明结果。对于方向定义，我们最初选择网格中心作为基本位置，这与检测器中的框回归规则保持一致。由于盒子质心更准确地定位实例，我们采用它作为基本位置。这种改进将掩码AP指标从32.5提高到0τ AP AP 50 AP 750表3.方向目标区域。方向目标区域的收缩比例τ对整体性能有很大影响。0方法 AP AP 50 AP 750基准 32.5 53.9 33.6 + box centroid33.3 54.8 34.4 + larger anchors 33.855.2 35.2 + fpn plus 34.1 55.7 35.40表4. 其他改进。'+ boxcentroid'表示将网格中心替换为盒子质心作为方向图的基本位置。'+ largeranchors'继承了YOLOv4的锚点设置，其大小约为原始版本的1.2倍。'+ fpnplus'合并了P3、P4和P5的金字塔特征，生成P2，以获得更好的多尺度表达能力。033.3。然后，我们受到YOLO框架的启发，采用更大的锚点，这些锚点在给定的输入分辨率下更适合。值得注意的是，我们没有采取额外的训练技巧，仍然保持其他设置为纯YOLOv3。由于更大的锚点，性能提高了0.5个AP。在早期的实验中，我们遵循标准的FPN为OrienHead生成P2，但预测的方向图与来自多个尺度的框预测相关。为了密切关联这两个输出，我们合并多尺度金字塔特征来预测方向图，同时在后续层中保持相同的网络结构，如图2中的虚线所示。由此产生的模型再次超过以前的模型，额外的计算成本几乎可以忽略不计。04.2. 与最先进方法的比较0我们首先在经典的COCOtest-dev基准上评估我们的OrienMask，并选择一系列代表性的框架进行比较。从表5中显示的定量结果中，我们发现与具有类似输入分辨率的YOLACT和CenterMask以及一些旨在简化掩码表示的方法（如PolarMask和MEInst）相比，OrienMask在速度和准确性上都更高。我们承认OrienMask在一些具有更高输入图像分辨率或更复杂流程的非实时方法之后。考虑到推理速度是两倍甚至三倍，牺牲一些准确性似乎是合理的。由于实时实例分割是主要的目标Mask R-CNN* [9]ResNet-50800×18.537.559.340.221.139.648.3BlendMask [4]ResNet-50800×17.637.058.939.717.339.452.5CondInst [29]ResNet-50800×17.937.859.140.521.040.348.7SOLO [33]ResNet-50800×11.236.858.639.015.939.552.1PolarMask [36]ResNet-101800×12.3*32.153.733.114.733.845.3MEInst [39]ResNet-101800×12.8*33.956.235.419.836.142.3YOLACT [2]ResNet-10155038.529.848.531.29.931.347.7CenterMask [35]DLA-3451225.2*33.153.834.913.435.748.8OrienMaskDarknet-5354442.734.856.736.416.038.247.8YOLACT [2]Darknet-535504.52M45.928.946.930.39.830.947.3YOLACT++ [3]ResNet-505509.04M40.833.752.735.511.936.654.6BlendMask [4]ResNet-50550×18.44M35.634.554.736.514.437.752.1MEInst [39]ResNet-505121.41M28.132.253.933.013.934.448.7SOLO-Lite [33]ResNet-50512×2.95M29.733.053.934.911.537.051.5SOLOv2-Lite [34]ResNet-50448×7.25M39.633.753.335.611.336.955.4OrienMaskDarknet-535441.27M41.934.556.035.816.838.549.173200方法骨干网络尺寸 FPS AP AP 50 AP 75 AP S AP M AP L0表5. COCOtest-dev上的定量结果。我们将OrienMask与一些典型的框架进行比较。速度是在与标有“*”的除外的相同平台上评估的1k个样本上进行的统计。Mask R-CNN模型来自Detectron2。默认情况下，输入尺寸是正方形，以‘×’结尾的符号表示较短边的长度。0方法骨干网络尺寸空间 FPS AP AP 50 AP 75 AP S AP M AP L0表6. COCO val2017上的实时实例分割。使用作者发布的源代码和训练权重，我们在我们的平台上评估了所有方法。'Space'表示用于构建掩码的特征图的内存占用量（以兆字节为单位）。0为了验证我们工作的有效性，我们进一步将OrienMask与能够在COCOval2017上进行实时推理的最先进方法进行比较。所有模型都采用相对较浅的骨干网络和较小的输入分辨率，这使得比较公平和有说服力。如表6所示，我们的方法在牺牲4.0fps的情况下，超过YOLACT 5.6AP。除此之外，OrienMask在速度比较中作为领先的方法，并在掩码AP指标中胜过大多数对手。它在效率和准确性之间达到了良好的平衡。我们还计算了用于构建掩码的顶部特征图的内存占用量，并将结果记录在‘space’列中。为了简洁起见，所有方法的输入分辨率都假定为固定的544×544。统计数据表明，我们的方法占用最少的内存资源来构建掩码，这证明了它在减少冗余的同时保持良好的掩码质量。04.3. 讨论0在本小节中，我们从定性的角度分析了我们方法的一些潜在特性。涵盖了优势和局限性。方向图我们选择了两个预测的方向图来揭示我们掩码表示的机制。如图4所示，每个方向图的注意力是0通过具有特定锚点大小的对象抓取。两个孩子和一个滑板根据其大小而不是类别分配到两个方向图上。我们显示了两个方向的梯度图和它们的像素级总和，这在实例边界周围显示了明显的差异。还可以观察到梯度图的两个分量集中在实例的不同区域，即左侧和右侧部分在Gx中突出显示，而顶部和底部部分在Gy中强调。将这两个互补的方向图结合在一起，可以描绘出对象的完整轮廓，然后可以安全地收集每个实例的所有内部像素。这些可视化模式以及高质量的预测掩码验证了我们基于方向的掩码表示的有效性。定性结果如图5所示，我们的方法在分离相邻实例和精确勾画它们的掩码方面表现良好。摆脱RoI裁剪，根据方向图中的向量直接收集前景像素，我们的掩码构建过程对于不准确的边界框预测具有很大的容忍度。同时，我们的方法在一些复杂的对象重叠场景中也表现出色，特别是当一个或多个小对象位于一个大对象上时。这在图5的几个图像中有所说明，例如戴领带的人，放在桌子上的食物，人前面的棒球手套。OxGx +73210图4.不同锚点大小在两个方向（x和y）上的方向图（O）及其梯度（G），亮色表示较大的有符号值。由每个方向图构建的掩码（M）用不同的颜色填充并分别显示。0图5. OrienMask在COCO测试集上的定性结果。显示置信度大于0.3的预测结果。我们的模型能够处理大多数复杂场景，并具有令人满意的精度。最后一列还显示了两种典型的失败案例。0多亏了实例分组机制，与不同锚点大小匹配的对象不会相互干扰，它们的掩码完全保留。此外，我们没有为OrienHead引入任何像素级别的类别信息。经证明，无论它们属于哪个类别，类别不可知的方向图都能够恢复具有满意质量的掩码。0失败案例虽然OrienMask对大多数情况都能很好地工作，但我们观察到两种典型的失败情况，如图5的最后一列所示。第一种情况出现在两个具有相同类别和相似大小的实例严重重叠时。由于像素点都指向几乎相同的基准位置，方向图无法区分它们。第二种失败是由于一些背景像素在实例之间的严重对抗引起的，特别是当基准位置靠近它们的掩码边界时。例如，图5右下角的两只长颈鹿都倾向于将中间部分向外推，这不小心使一些背景像素错误地侵入另一个目标区域。总的来说，由于掩码表示的不完整性引起的这些错误是不寻常的，只在有限的情况下发生。05. 结论0在这项工作中，提出了一种实时实例分割框架OrienMask，它将具有区分性的方向图与基于锚点的检测器集成在一起。除了前景像素的向心矢量之外，我们还在方向图中考虑了负样本，以便同时完成背景过滤和实例分离。还提出了一种实例分组机制，每个方向图专门处理具有相同锚点大小的分组对象。根据预测框指示的目标区域，可以从相应的方向图中高效地构建掩码，无需显式的前景预测。在COCO上的实验证明，所提出的OrienMask在实时条件下可以达到竞争性的准确性。0致谢0本工作得到了中国国家自然科学基金会-浙江省工业化与信息化融合联合基金（U1709214）和浙江省重点研究与开发计划（2021C01196）的支持。73220参考文献0[1] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao.Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934，2020年。0[2] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact:实时实例分割。在IEEE国际计算机视觉会议论文集中，页码9157-9166，2019年。0[3] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact++:更好的实时实例分割。IEEE模式分析与机器智能交易，2020年。0[4] Hao Chen, Kunyang Sun, Zhi Tian, Chunhua Shen,Yongming Huang和Youliang Yan. Blendmask:自上而下与自下而上相遇的实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码8573-8581，2020年。0[5] Kai Chen，Jiangmiao Pang，Jiaqi Wang，YuXiong，Xiaox- iao Li，Shuyang Sun，Wansen Feng，ZiweiLiu，Jianping Shi，WanliOuyang等。混合任务级联用于实例分割。在计算机视觉和模式识别IEEE会议论文集上，第4974-4983页，2019年。0[6] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan LYuille。Deeplab：使用深度卷积网络，空洞卷积和完全连接的CRF的语义图像分割。IEEE模式分析与机器智能交易，40（4）：834-848，2017年。0[7] Liang-Chieh Chen，Yukun Zhu，GeorgePapandreou，Florian Schroff和HartwigAdam。带有空洞可分离卷积的编码器-解码器用于语义图像分割。在欧洲计算机视觉会议（ECCV）论文集上，第801-818页，2018年。0[8] Kaiwen Duan，Song Bai，Lingxi Xie，HonggangQi，Qing- ming Huang和QiTian。Centernet：用于对象检测的关键点三元组。在计算机视觉IEEE国际会议论文集上，第6569-6578页，2019年。0[9] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和Ross Girshick。MaskR-CNN。在计算机视觉IEEE国际会议论文集上，第2961-2969页，2017年。0[10] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang和Xinggang Wang。Mask ScoringR-CNN。在计算机视觉和模式识别IEEE会议论文集上，第6409-6418页，2019年。0[11] Saumya Jetley，Michael Sapienza，StuartGolodetz和Philip HSTorr。直接到形状：实时检测编码形状。在计算机视觉和模式识别IEEE会议论文集上，第6550-6559页，2017年。0[12] Li Jiang，Hengshuang Zhao，Shaoshuai Shi，ShuLiu，Chi- Wing Fu和JiayaJia。Pointgroup：用于3D实例分割的双集合点分组。在计算机视觉和模式识别IEEE/CVF会议论文集上，第4867-4876页，2020年。0[13] Hei Law和JiaDeng。Cornernet：将对象检测为成对关键点。在欧洲计算机视觉会议（ECCV）论文集上，第734-750页，2018年。0[14] Yuezun Li，Xiao Bian，Ming-ching Chang，LongyinWen和SiweiLyu。像素偏移回归（POR）用于单次实例分割。在2018年第15届IEEE高级视频和信号基于监视（AVSS）国际会议上，第1-6页。IEEE，2018年。0[15] Xiaodan Liang，Liang Lin，Yunchao Wei，XiaohuiShen，Jianchao Yang和ShuichengYan。无需提案的实例级对象分割网络。IEEE模式分析与机器智能交易，40（12）：2978-2991，2017年。0[16] Tsung-Yi Lin，Priya Goyal，Ross Girshick，KaimingHe和PiotrDoll´ar。用于密集对象检测的焦点损失。在计算机视觉IEEE国际会议论文集上，第2980-2988页，2017年。0[17] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Doll´ar和CLawrence Zitnick。MicrosoftCOCO：上下文中的常见对象。在计算机视觉欧洲会议上，第740-755页。Springer，2014年。0[18] Shu Liu，Lu Qi，Haifang Qin，Jianping Shi和JiayaJia。路径聚合网络用于实例分割。在计算机视觉和模式识别IEEE会议论文集上，第8759-8768页，2018年。0[19] Wei Liu, Drag

下载后可阅读完整内容，剩余1页未读，立即下载