实时实例分割的简单卷积模型及其在MSCOCO上的性能

60 浏览量更新于2023-10-13 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9157YOLACT实时实例分割Daniel Bolya Chong Zhou Fanyi Xiao Yong Jae Lee加州大学戴维斯{dbolya，cczhou，fyxiao，yongjaelee}@ ucdavis.edu摘要我们提出了一个简单的，完全卷积的模型，用于实时实例分割，在MS COCO上以33.5 fps的速度在单个Titan Xp上实现29.8 mAP，这比任何以前的竞争方法都要快此外，我们在仅一个GPU上训练后获得了这个结果。我们通过将实例分段分解为两个并行子任务来实现这一点：（1）生成一组原型掩码和（2）预测每个实例掩码系数。然后，我们产生的实例掩码线性组合的原型与掩码系数。我们发现，因为这个过程此外，我们分析了我们的原型的新兴行为，并表明它们学会了以翻译变体的方式自己本地化实例，尽管是完全卷积的。最后，我们还提出了快速NMS，一个下降的12毫秒更快的标准NMS的替代品，只有边际性能损失。1. 介绍“Boxes图1：COCO上各种实例分割方法的速度-性能权衡。据我们所知，我们的是第一个实时（30 FPS以上）的方法，大约30掩模mAP的COCO测试开发。然而，实例分割是困难的，比对象检测困难得多。像SSD和YOLO这样的一阶段对象检测器能够通过简单地删除第二阶段并弥补其他阶段中的性能损失我相信面具，只是我– Joseph Redmon, YOLOv3创建实时实例分割算法需要什么？在过去的几年里，视觉社区在实例分割方面取得了长足的进步，部分原因是从对象检测的成熟领域中借鉴了强大的相似之处。最先进的实例分割方法，如Mask R-CNN [18]和FCIS [24]，直接建立在对象检测的进步基础上，如Faster R-CNN [37]和R-FCN [8]。然而，这些方法主要集中在速度上的性能，使得场景缺乏与SSD [30]和YOLO [35，36]等实时对象检测器相似的实例分割。在这项工作中，我们的目标是填补这一空白的方式同样的方法不容易扩展到实例分割。最先进的两阶段实例分割方法在很大程度上依赖于特征定位来产生掩模。也就是说，这些方法将特征“重新汇集”在某个边界框区域（例如，经由RoI-池/对齐），然后将这些现在局部化的特征馈送到它们的掩模预测器。这种方法本质上是顺序的，因此难以加速。并行执行这些步骤的单阶段方法（如FCIS）确实存在，但是它们在本地化之后需要大量的后处理，并且因此仍然远离实时。为了解决这些问题，我们提出了YOLACT1，一个实时实例分割框架，放弃了明确的本地化步骤。相反，Yolact在-（1）生成-一个快速的，一个阶段的实例分割模型在同一个SSD和YOLO填补了目标检测的空白。1您只看系数Ts9158在整个图像上使用非局部原型掩码的字典，以及（2）预测每个实例的线性组合系数的集合。然后，从这两个分量产生全图像实例分割是简单的：对于每个实例，使用对应的预测系数线性组合原型，然后用预测的边界框进行裁剪。我们表明，通过以这种方式分割，网络学习如何本地化实例掩码自己，在视觉上，空间上和语义上相似的实例出现在原型不同。此外，由于原型掩模的数量与类别的数量无关（例如，可以有比原型更多的类别），YOLACT学习分布式表示，其中每个实例都用跨类别共享的原型的组合来这种分布式表示导致了原型空间中有趣的涌现行为：一些原型在空间上分割图像，一些定位实例，一些检测实例轮廓，一些编码位置敏感方向图（类似于通过在FCIS [ 24 ]中硬编码位置敏感模块获得的那些），并且大多数执行这些任务的组合（参见图5）。这种方法也有几个实际的优点。首先，它非常快：由于它的并行结构和极其轻量级的装配过程，YOLACT只给一级主干检测器增加了少量的计算开销，因此很容易达到30即使使用ResNet-101 [19]时，也可以达到每秒300帧的速度;事实上，整个掩码分支仅需要大约5 ms即可进行评估。其次，口罩质量高：由于掩模使用了图像空间的全部范围，而没有任何来自重新汇集的质量损失，因此我们用于大对象的掩模的质量明显高于其他方法（见图7）。最后，它我们的主要贡献是第一个实时（>30fps）实例分割算法，在具有挑战性的MS COCO数据集[28]上具有竞争性结果（见图1）。此外，我们还分析了YOLACT的涌现行为原型，并提供实验来研究速度与利用不同的骨干体系结构、原型数量和图像分辨率获得的性能折衷。我们还提供了一种新的快速NMS的方法，是12ms的速度比传统的NMS可以忽略不计的性能损失。YOLACT的代码可在https://github.com/dbolya/yolact上获得。2. 相关工作实例分割鉴于其重要性，已经进行了大量的研究工作来提高实例分割的准确性。Mask-RCNN [18]是一种代表性的两阶段实例分割方法，其首先生成候选感兴趣区域（ROI），然后进行分类和分割。在第二阶段中对这些ROI进行分割。后续工作试图通过例如，丰富FPN特征[29]或解决掩模的置信度得分与其定位准确度之间的不兼容性这些两阶段方法需要重新汇集每个ROI的特征，并利用后续计算对其进行处理，这使得它们即使在减小图像尺寸时也无法获得实时速度（30fps）（参见表2c）。单阶段实例分割方法生成位置敏感图，这些位置敏感图通过位置敏感池化[6，24]组装成最终掩模，或者组合语义分割逻辑和方向预测逻辑[4]。虽然在概念上比两阶段方法更快，但它们仍然需要重新汇集或其他非平凡计算（例如，面具投票）。这严重限制了它们的速度，使它们远离实时。相比之下，我们的组装步骤要轻得多（只有线性组合），可以实现为一个GPU加速的矩阵-矩阵乘法，使我们的方法非常快。最后，一些方法首先执行语义分割，然后进行边界检测[22]，像素聚类[3，25]，或学习嵌入以形成实例掩码[32，17，9，13]。同样，这些方法具有多个阶段和/或涉及昂贵的聚类过程，这限制了它们用于实时应用的可行性。实时实例分割虽然实时对象检测[30，34，35，36]，和语义分割。的方法[2，41，33，11，47]，很少有工作集中在实时实例分割。Straight to Realtime [21]和Box2Pix [42]可以实时执行实例分割（Straight to Realtime在Pascal SBD2012上为30fps [12，16]，Cityscapes [5]上为10.9 fps，Box2Pix在KITTI [15]上为 35 fps），但它们的精度远远低于现代基线。事实上，Mask R-CNN [18]仍然是语义上具有挑战性的数据集（如COCO [28]）上最快的实例分割方法之一（550个2px图像上的13.5 fps;见表2c）。原型学习原型（又称词汇表或代码本）已经在计算机视觉中得到了广泛的探索。经典的表示包括textons [23]和视觉词[40]，通过稀疏性和局部性先验[44，43，46]取得了进展。其他人已经设计了用于物体检测的原型[1，45，38]。虽然相关，这些作品使用原型来表示功能，而我们使用它们来组装例如分割的掩模。此外，我们学习特定于每个图像的原型，而不是整个数据集共享的全局原型。3. YOLACT我们的目标是在现有的一阶段对象检测模型中添加一个掩码分支，与Mask R-CNN相同[18]对于更快的R-CNN [37]，但没有明确的fea。9159特征金字塔屏蔽系数组件检测1+-人检测2+-球拍+++-=功能主干检测1--检测2预测头原型图2：YOLACT架构蓝色/黄色表示原型中的低/高值，灰色节点表示未训练的函数，本例中k= 4我们使用ResNet-101 + FPN将此架构基于RetinaNet [27]真实定位步骤（例如，特征重新汇集）。为此，我们将复杂的实例分割任务分解为两个更简单的并行任务，它们可以组装成最终的掩码。第一个分支使用FCN [31]来生成一组图像大小的“原型掩码”，这些掩码第二个将额外的头添加到对象检测分支，以预测每个锚点的“掩码系数”的向量最后，对于在NMS中存活的每个实例，我们通过线性组合这两个分支的工作来为该实例构造掩码基本原理我们以这种方式执行实例分割，主要是因为掩码在空间上是一致的;也就是说，彼此靠近的像素可能是同一实例的一部分虽然卷积（conv）层自然地利用了这种相干性，但全连接（fc）层却没有。这造成了一个问题，因为一级对象检测器为每个锚点产生类和箱系数作为fc层的输出2像Mask R-CNN这样的两阶段方法通过使用定位步骤（例如，RoI-Align），其保留了特征的空间相干性，同时还允许掩模是卷积层输出。然而，这样做需要模型的很大一部分等待第一阶段RPN提出定位候选，从而导致显著的速度损失。因此，我们将问题分解成两个并行部分，分别使用擅长产生语义向量的fc层和擅长产生空间相干掩码的conv然后，因为原型类型和掩码系数可以被独立地计算2为了说明这是一个问题，我们开发了一个“fc -mask”模型，该模型为每个锚点生成掩码，如我们在表2c中的实验所示，简单地将掩码添加到一级模型作为fc输出仅获得20.7mAP，因此是非常不够的。超过主干检测器的计算开销主要来自组装步骤，组装步骤可以被实现为单个矩阵乘法。以这种方式，我们可以保持特征空间中的空间一致性，同时仍然是一个阶段和快速的。3.1. 原型生成原型生成分支（protonet）预测整个图像的k个原型掩模的集合我们将protonet实现为一个FCN，其最后一层有k个通道（每个原型一个通道），并将其附加到骨干功能层（参见图3的说明）。虽然这个公式是类似于标准的语义分割，它的不同之处在于，我们没有表现出明确的原型损失。相反，对这些原型的所有监督来自组装后的最终掩模损失。我们注意到两个重要的设计选择：从更深的主干特征中获取PROTONET产生更鲁棒的掩模，并且更高分辨率的原型导致更高质量的掩模和更小物体上的更好性能。因此，我们使用FPN [26]，因为它的最大特征层（在我们的情况下为P 3;（见图2）最深。然后，我们将其上采样到输入图像尺寸的四分之一，以提高对小对象的性能。最后，我们发现protonet的输出是无界的很重要明显的背景）。因此，我们可以选择使用ReLU或无非线性来跟踪质子网我们选择ReLU来实现更可解释的原型。3.2. 屏蔽系数典型的基于锚的对象检测器在其预测头中具有两个分支：一个分支预测C类置信度，另一个分支预测4个边界框回归。916069×69 69×69138×138P3×256 ×3 ×256×256138×138×k图3：Protonet架构标签表示550×550图像大小的特征大小和通道。Ar-行表示3×3conv层，除了最后的conv为1×1。大小的增加是上采样，然后是卷积。受[18]中面具分支的启发。sors 对于掩码系数预测，我们简单地添加并行的第三分支，其预测k个掩码系数，一个对应于每个原型。因此，不是产生每个锚点4+ c个系数，而是产生4+ c + k。那么对于非线性，我们发现能够从最终掩模中减去原型因此，我们将tanh应用于k个掩码系数，这在没有非线性的情况下产生更稳定的这种设计选择的相关性在图2中是显而易见的，因为在不允许减法的情况下，两个掩模都是不可构造的。3.3. 掩模组件为了产生实例掩码，我们结合了原型分支和掩码系数分支的工作，使用前者与后者的线性组合作为系数。然后，我们通过S形非线性来跟踪这一点，以产生最终的掩模。这些操作可以使用单个矩阵乘法和sigmoid有效地实现：M=σ（PCT）（1）其中，P是原型掩码的h×w×k矩阵，C是在NMS和分数阈值处理中存活的n个实例的掩码系数的n×k矩阵其它更复杂组合步骤是可能的;然而，我们用基本线性组合来保持我们使用三个损失来训练我们的模型：分类损失Lcls、盒回归损失Lbox和掩码损失Lmask分别具有权重1、1.5和6.125。Lcls和Lbox都以与[30]中相同的方式定义然后，为了计算掩模损失，我们简单地取组装掩模M与真实掩模Mgt之间的逐像素二进制交叉熵：L掩模=BCE（M，Mgt）。裁剪蒙版我们在评估过程中使用预测的边界框在训练过程中，我们改为使用地面实况边界框进行裁剪，并将L掩码除以地面实况边界框区域以保留原型中的小对象。3.4. 紧急行为我们的方法可能看起来令人惊讶，因为围绕实例分割的普遍共识是，因为FCNRetinaNet [27]图4：头部架构我们使用比RetinaNet [27]更浅的预测头部，并添加掩码系数分支。这是针对c个类、针对特征层Pi的a个锚和k个原型。有关密钥，请参见图3是翻译不变的，任务需要在[24]中添加回翻译方差。因此，像FCIS [24]和Mask R-CNN [18]这样的方法试图显式地添加平移方差，无论是通过方向图和位置敏感的重新池化，还是通过将掩码分支置于第二阶段，因此它不必处理本地化实例。在我们的方法中，我们添加的唯一平移方差是用预测的边界框裁剪最终遮罩。然而，我们发现，我们的方法也适用于中型和大型对象没有裁剪，所以这不是一个裁剪的结果。相反，YOLACT通过其原型中的不同激活来学习如何自己本地化实例要了解这是如何实现的，首先请注意，图5中的实心红色图像（图像a）的原型激活实际上在没有填充的FCN中是不可能的。因为卷积输出到单个像素，所以如果其输入在图像中的每个位置都相同，则conv输出中的每个位置的结果都将相同。另一方面，像ResNet这样的现代FCN中的填充的连续边缘使网络能够判断像素距离图像边缘有多远从概念上讲，可以实现这一点的一种方式是使多个层依次从边缘向中心扩展填充的0与内核如[1，0]）。例如，这意味着ResNet本质上是翻译变体，我们的方法大量使用了该属性（图像b和c表现出明显的翻译差异）。我们观察到许多原型在图像的某些“部分”上激活也就是说，它们仅在隐式学习边界一侧的对象上激活。在图5中，原型1-3是这样的示例。通过组合这些分区图，网络可以区分相同语义类的不同（甚至重叠）实例在图像D中，通过从原型2中减去原型3，可以将绿色伞与红色伞分离。此外，作为学习对象，原型是可压缩的。也就是说，如果protonet结合了类W H W H W H 256×4256 caPi框W H256×4公司简介256 4a类W HCAW H256W H256框PiW H4aW H面膜咖我们9161图5：原型行为相同的六个原型（y轴）在不同图像（x轴）上的激活。原型1-3对软隐式边界（用虚线标记）一侧的对象作出响应。原型4在对象的左下角激活（例如，图像d中的伞的左下角）;原型5在背景上和对象之间的边缘上激活;原型5在背景上激活。并且原型6分割网络感知为图像中的地面的部分。这最后3个图案在图像d-f中最清楚。通过将多个原型合并为一个，掩码系数分支可以学习哪些情况需要哪些功能。例如，在图5中，原型2是一个分区原型，但也在左下角的实例上激发得最强烈。原型3是类似的，但对于右侧的实例。这解释了为什么在实践中，即使使用低至k=32个原型，模型也不会降低性能（见表2b）。另一方面，增加k很可能是无效的，因为预测系数是困难的。如果网络在甚至一个系数中产生大的误差，由于线性组合的性质，所产生的掩模可以消失或包括来自其他对象的泄漏因此，网络必须发挥平衡作用以产生正确的系数，并且添加更多的原型使其更难。事实上，我们发现，对于较高的k值，网络只是简单地添加了具有小的边缘水平变化的冗余原型，这会略微增加AP95，但不会增加太多。4. 主干检测器对于我们的主干检测器，我们优先考虑速度以及功能丰富性，因为预测这些原型和系数是一项困难的任务，需要好的特征来做得很好。因此，我们的主干检测器的设计紧密遵循RetinaNet[27]，重点是速度。YOLACT检测器我们使用ResNet-101 [19]与FPN[26]作为我们的默认特征主干，基本图像大小为550×550。我们不保留纵横比，以获得一致的评估时间，每个图像。像RetinaNet一样，我们修改了FPN，不产生P2，而产生P6和P7，作为从P5（而不是C5）开始的连续3×3步幅2卷积层，并在每个层上放置3个纵横比为[1，1/2，2]的P3的锚点具有24像素平方的区域，并且每个后续层具有前一层的两倍尺度（导致尺度[24，48，96，192，384]）。对于连接到每个Pi的预测头，我们有一个由所有三个分支共享的3×3conv，然后每个分支并行获得自己的3×3与RetinaNet相比，我们的预测头设计（见图4）更加轻量级而且更快。我们将平滑L1损失应用于训练盒回归器，并以与SSD相同的方式对盒回归坐标进行编码[30]。为了训练类别预测，我们使用softmax交叉熵，其中包含c个阳性标签和1个背景标签，使用OHEM [39]选择训练样本，其中 neg ： pos 比率为 3 ： 1 。因此，与RetinaNet不同，我们不使用焦点损失，我们发现这在我们的情况下是不可行的。通过这些设计选择，我们发现这个主干比修改为使用ResNet-101 [19]的SSD [30]性能更好，更快，具有相同的图像大小。5. 其他改进我们还讨论了其他改进，要么提高速度，对性能的影响不大，或提高性能，曼斯没有速度惩罚。快速NMS在为每个锚点产生边界框回归系数和类置信度之后，像大多数对象检测器一样，我们执行NMS以抑制重复检测。在许多以前的工作[35，36，30，37，18，27]中，NMS是顺序执行的。也就是说，对于数据集中的c个类中的每一个，按置信度降序对检测到的框进行排序，然后对于每个检测，移除具有比它更低的置信度的所有那些具有大于某个阈值的IoU重叠的框。虽然这种顺序方法在大约5fps的速度下足够快，但它成为获得30fps的大障碍（例如，在5fps下的10ms改善导致0.26fps的提升，而在 30fps 下的10ms 改善导致12.9fps的提升）。为了解决传统 NMS 的顺序性，我们引入了 FastNMS，这是一个NMS版本，其中每个实例都可以决定并行保留或丢弃。要做到这一点，我们简单地允许已经删除的检测来抑制其他检测，这在传统的NMS中是不可能的。这种放松使我们能够实现快速NMS完全在标准的GPU加速矩阵运算。9162图6：COCO测试开发集上的YOLACT此基本型号在33.0 fps时达到29.8 mAP。所有图像的置信度阈值均设置为0.3。为了执行快速NMS，我们首先计算c×n×n成对IoU矩阵X，用于按c个类别中的每个类别的得分进行降序排序的前n个检测。分批分拣在GPU上是现成的，计算IoU可以很容易矢量化。然后，如果存在具有大于某个阈值t的对应IoU的任何较高得分检测，则我们移除检测。我们高效地实施这是通过首先将X的下三角形和对角线设置为0：Xkij=0，k，j，i彡j，这可以在一个批量triu调用中执行，然后取列max：Kkj= max（Xkij）k，j（2）我以计算每个检测的最大IoU值的矩阵K。最后，用t（Kt）对该矩阵进行阈值处理将指示针对每个类别保持哪些检测。由于松弛，Fast NMS具有删除稍微过多的框的效果。然而，与速度的明显增加相比，由此引起的性能冲击可以忽略不计（参见表2a）。在我们的代码库中，Fast NMS比传统NMS的Cython实现快11.8 ms，而性能仅降低0.1 mAP。在Mask R-CNN基准套件[18]中，Fast NMS比传统NMS的CUDA实现快15.0 ms，性能损失仅为0.3 mAP。语义分割损失虽然快速NMS以少量性能换取速度，但仍有方法提高性能而不影响速度。其中一种方法是在训练期间使用在测试时未执行的模块对模型应用额外的损失。这有效地增加了特征丰富性，同时没有速度损失。因此，我们使用仅在训练期间评估的层对我们的特征空间应用语义分割损失注意，因为我们从实例注释构建了该损失的基础事实，所以这并不严格地捕获语义分割（即，我们不强制执行标准的为了在训练期间创建预测，我们只需将具有c个输出通道的1x1conv层直接附加到主干中最大的特征映射（P3）由于每个像素可以分配给多个类，因此我们使用sigmoid和c通道而不是softmax和c+1。这损失的权重为1，结果为+0。4mAP升压。6. 结果我们在MS COCO上报告实例分割结果[28]和Pascal 2012 SBD [16]使用标准度量。对于MSCOCO，我们在train 2017上进行培训，并在val2017和test-dev上进行评估。我们使用ImageNet [10]预训练权重在一个GPU训练所有批量大小为8我们发现这是一个足够的批量大小来使用批量范数，所以我们保持预训练的批量范数未冻结，但不添加任何额外的bn层。我们使用SGD进行80万次迭代训练，初始学习率为10−3，然后除以9163FCISMaskR-CNN我们图7：掩模质量我们的掩模通常比掩模R-CNN [18]和FCIS [24]的掩模质量更高，因为掩模尺寸更大，并且缺乏特征重新合并。10在迭代280k，600k，700k和750k，使用5×10−4的权重衰减，0.9的动量，以及SSD中使用的所有数据增强[30]。对于Pascal，我们训练了120k次迭代，并将学习率分为60k和100k。我们还将锚标度乘以4/3，因为对象往往更大。培训需要4-6天（取决于配置）在一个泰坦Xp为COCO和不到1天的Pascal。我们首先比较YOLACT与表1中MS COCO的测试开发集的最先进方法由于我们的主要目标是速度，我们与其他单一模型的结果进行比较，没有测试时间的增加。我们报告了在单个Titan Xp上计算的所有速度，所以一些列出的速度可能比原始论文中的速度更快。YOLACT-550提供具有竞争力的实例分割性能，同时速度是COCO上以前最快实例分割方法的3.8倍。我们还注意到与其他方法相比，我们的方法的性能存在一个有趣的差异。支持我们在图7中的定性发现，YOLACT-550和Mask R-CNN在50%重叠阈值下的差距为9.5 AP，而这与FCIS的性能不同，例如，与其中间隙一致的掩模R-CNN相比（AP值为7.5和7.5）。7.6分别地）。此外，在最高（95%）IoU阈值下，我们的表现优于Mask R-CNN，分别为1.6和1.5。1.3 AP。我们还报告了替代型号配置的数量表1中的选项。除了我们的基本550×550图像大小模型之外，我们还训练了 400×400 （ YOLACT-400 ）和700×700（YOLACT-700）模型，相应地调整锚标度（sx=s550/550*x）。降低图像大小会导致性能大幅下降，说明实例分割自然需要更大的图像。然后，提高图像大小会显著降低速度，但也会提高性能，正如预期的那样。除了我们的ResNet-101 [19]基础主干之外，我们还测试了ResNet-50和DarkNet-53 [36]，以获得更快的结果。如果更高的速度是可取的，我们建议使用ResNet-50或DarkNet-53，而不是降低IM-53。年龄大小，因为这些配置比YOLACT-400性能好得多，而只是稍微慢一点。最后，我们还在表3中的Pascal 2012 SBD上训练和评估了我们的ResNet-50模型。YOLACT的性能明显优于报告SBD性能的流行方法，同时也明显更快。蒙版质量由于我们生成了大小为138×138的最终蒙版，并且由于我们直接从原始特征创建蒙版（无需重新合并以进行变换和poten），因此由于这些特征（基本上未对齐），我们的大型对象掩模的质量明显高于掩模R-CNN [18]和FCIS [24]。例如，在图7中，Y 0 LACT产生干净地遵循手臂边界的掩模，而FCIS和掩模R-CNN都具有更多的噪声。此外，尽管总体上差5.9 mAP，但在95% IoU阈值下，我们的基础模型达到1.6 AP，而Mask R-CNN获得1.3。这表明重新汇集确实导致掩模质量的可量化的降低。时间稳定性虽然我们只使用静态图像进行训练，并且不应用任何时间平滑，但我们发现我们的模型在视频上产生的掩码比Mask R-CNN在时间上更稳定，MaskR-CNN的掩码即使在对象静止时也会在帧间抖动我们相信我们的遮罩更稳定，部分原因是它们的质量更高（因此帧之间的误差空间更小），但主要是因为我们的模型是单阶段的。在两阶段方法中产生的掩模高度依赖于它们在第一阶段中的区域提议。相比之下，对于我们的方法，即使模型预测跨帧的不同框，原型也不受影响，从而产生时间上更稳定的掩模。7. 讨论尽管我们的掩码具有更高的质量和良好的属性，如时间稳定性，但我们在整体性能上落后于最先进的实例分割方法，尽管速度要快得多。大多数错误是由探测器的错误引起的：分类错误，框9164方法骨干FPS时间APAP50AP75APSAPMAPLPA-Net [29]R-50-FPN4.7212.836.658.039.316.338.153.1视网膜面膜[14]R-101-FPN6.0166.734.755.436.914.336.750.5FCIS [24]R-101-C56.6151.529.551.530.28.031.049.7[18]第十八话R-101-FPN8.6116.335.758.037.815.538.152.4MS R-CNN [20]R-101-FPN8.6116.338.358.841.517.840.454.4YLACT-550R-101-FPN33.529.829.848.531.29.931.347.7YLACT-400R-101-FPN45.322.124.942.025.45.025.345.0YLACT-550R-50-FPN45.022.228.246.629.29.229.344.8YLACT-550D-53-FPN40.724.628.746.830.09.529.645.5YLACT-700R-101-FPN23.442.731.250.632.812.133.347.1表1：MS COCO [28]结果我们比较了COCO测试开发中掩模mAP和速度的最新方法，并包括我们基础模型的几次消融，不同的骨干网络和图像大小。我们用网络深度特征表示骨干架构，其中R和D分别指ResNet [19]和DarkNet [36]我们的基础模型，YOLACT-550与ResNet-101，是3.9倍，比以前最快的方法与竞争掩模mAP。方法NMSAPFPS时间KAPFPS时间方法APFPS时间YOLACT标准品30.024.041.6826.833.030.4FCIS，不带掩码投票27.89.5105.3快速29.933.529.81627.132.830.5掩码R-CNN（550 ×550）32.213.573.9掩码R-CNN标准36.18.6 116.0快速35.89.9 101.0(a) 快速NMS快速NMS的性能仅略差于标准NMS，但比标准NMS快约我们还观察到在Mask R-CNN中实现快速NMS的类似权衡。256 27.7 29.8 33.6(b) 原型的选择K.我们选择32是因为它的性能和速度。fc-掩码20.7 25.7 38.9YOLACT-550（Ours）29.933.0 30.3(c) 加速基线我们通过调整其速度-准确性权衡来与其他基线方法进行比较。fc-mask是我们的模型，但具有从fc层产生的16×16个表2：消融使用我们的服务器在COCOval2017上评价的所有型号。表2b中的模型被训练400k次迭代而不是800k次迭代。为方便起见，以毫秒为单位报告时间。50 70表3 ：Pascal 2012 SBD [16]结果在Titan Xp 上重做的FCIS的时间，以确保公平。由于Pascal比COCO具有更少且更容易的检测，因此YOLACT比以前的方法更好请注意， COCO 和Pascal FPS 不具有可比性，因为Pascal的类较少。未对准等。然而，我们已经确定了两个典型的错误所造成的YOLACT如果场景中的一个点上有太多的对象，网络可能无法在自己的原型中定位每个对象。在这些情况下，网络将输出比针对组中的一些对象的实例分割更接近前景掩模的东西;例如，在图6的第一幅图像中（第1行第1列），红色飞机下面的蓝色卡车没有被正确定位。泄漏我们的网络利用了掩模在组装后被裁剪的事实，并且不试图抑制裁剪区域之外的噪声。当边界框精确时，这很好用，但是当边界框不精确时，噪声会蔓延到实例遮罩中，产生一些如果预测的边界框太大，则遮罩也将包括一些远处实例的遮罩。例如，图6（第2行第4列）展示了这种泄漏，因为掩模分支认为三个滑雪者足够远而不必将他们分开。然而，单独的定位失败和泄漏不足以解释YOLACT的基础模型和Mask R-CNN之间的近6mAP间隙事实上，我们在COCO上的基础模型在其测试开发掩码和框mAP之间只有2.5 mAP的差异（29.8掩码，32.3框），这意味着即使使用完美的掩码，我们的基础模型也只能此外，Mask R-CNN具有相同的mAP差异（35.7掩模，38.2框），这表明两种方法之间的差距在于我们的检测器的相对较差的性能，而不是我们生成掩模的方法。这项工作得到了部分支持作者：ARO YIP W 911 NF17 -1-0410，NSF CAREER IIS-1751206、AWS ML研究奖、Google Cloud Plat研究学分和XSEDE IRI180001。方法骨干FPS时间贴图r贴图r从裁剪区域外部这也可能发生在中国[7]VGG-162.836063.541.5两个人的距离很远，因为网络FCIS [24]R-101-C59.610465.752.1工作已经认识到它YLACT-550R-50-FPN47.621.072.356.2实例-裁剪将照顾它。但如果∗3227.732.430.96427.831.731.512827.631.531.89165引用[1] Shivani Agarwal和Dan Roth。学习用于对象检测的稀疏表示。见ECCV，2002年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。CoRR，2015年。[3] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。[4] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在CVPR，2018年。[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[6] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。在ECCV，2016年。[7] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。[8] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。InNeurIPS，2016.[9] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。arXiv预印本arXiv：1708.02551，2017。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[11] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。InICCV，2017.[12] MarkEveringham 、 LucVanGool 、 ChristopherWilliams、John Winn和Andrew Zisserman。pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[13] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang 、 Hyun Oh Song 、 Sergio Guadarrama 和 KevinMurphy。通过深度度量学习的语义实例分割arXiv预印本arXiv：1703.10277，2017。[14] Cheng-Yang Fu ， Mykhailo Shvets ， and Alexander CBerg. Retinamask：学习预测蒙版，免费提高最先进的单镜头检测。arXiv预印本arXiv：1901.03353，2019。[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。[16] Bhara thHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓见ICCV，2011年。[17] 亚当·哈利，康斯坦丁诺斯·德尔帕尼斯，还有亚森那斯 ·科基. 使用局部注意掩码的分段感知卷积网络InICCV，2017.[18] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[20] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面具得分r-cnn。在CVPR，2019年。[21] Saumya Jetley，Michael Sapienza，Stuart Golodetz，andPhilip Torr.直接到形状：实时检测编码的形状。在CVPR，2017年。[22] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.即时切割：从边到实例。在CVPR，2017年。[23] Thomas Leung和Jitendra Malik。使用三维纹理元表示和识别材料的视觉外观。IJCV，2001年。[24] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在CVPR，2017年。[25] Xiaodan Liang ， Liang Lin ， Yunchao Wei ， XiaohuiShen，Jianchao Yang，and Shuicheng Yan.用于实例级对象分割的无建议网络。TPAMI，2018年。[26] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。[27] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的焦面损失。在CVPR，2017年。[

下载后可阅读完整内容，剩余1页未读，立即下载