SOTR：基于transformer的高质量实例分割方法

120 浏览量更新于2023-10-15 收藏 20.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

71570SOTR：使用transformer进行对象分割0郭若昊*1,3，牛丹彤*2，屈燎1,3，李振波†1,3,401 中国农业大学信息与电气工程学院 2 加州大学伯克利分校EECS系 3农业部农业信息采集技术重点实验室 4 中国农业大学数字渔业国家创新中心0摘要0最近的基于transformer的模型在视觉任务上表现出令人印象深刻的性能，甚至比卷积神经网络（CNN）更好。在这项工作中，我们提出了一种新颖、灵活、有效的基于transformer的高质量实例分割模型。所提出的方法，SegmentingObjects withTRansformers（SOTR），简化了分割流程，基于替代的CNN骨干网络附加了两个并行子任务：（1）通过transformer预测每个实例的类别，（2）通过多级上采样模块动态生成分割掩码。SOTR可以有效地提取较低级别的特征表示，并通过特征金字塔网络（FPN）和双重transformer捕捉长距离的上下文依赖关系。与原始的transformer相比，所提出的双重transformer在时间和资源效率上更高，因为只涉及一行和一列的注意力来编码像素。此外，SOTR很容易与各种CNN骨干网络和transformer模型变体结合，以提高分割准确性和训练收敛性。广泛的实验证明，我们的SOTR在MSCOCO数据集上表现良好，并超过了最先进的实例分割方法。我们希望我们简单但强大的框架可以作为实例级别识别的首选基线。我们的代码可在https://github.com/easton-cau/SOTR找到。01. 引言0实例分割是计算机视觉中的一项基本任务，需要对图像中的每个对象实例进行正确预测，并生成其像素级分割掩码。0* 共同贡献。†通讯作者。电子邮件：lizb@cau.edu.cn0图1：SOTR的选定输出。我们将CNN与transformer相结合，获得了有竞争力的定性结果。请注意，不仅较大的对象被很好地勾勒出来，具有精细形状的目标也可以获得良好的分割。0由于对复杂场景中密集对象的精确分离和像素级别的准确预测需求不断增加，实例分割变得更具挑战性。现代实例分割方法[24，15]通常基于CNN，并遵循检测-分割的范式，其中检测器用于识别和定位所有对象，而掩码分支用于生成分割掩码。这种分割理念的成功归因于以下有利特点，即平移等变性和位置，但面临以下障碍：1）由于有限的感受野，CNN在高级视觉语义信息中相对缺乏特征的一致性，无法关联实例，导致大型对象的次优结果；2）分割质量和推理速度都严重依赖于目标检测器，导致在复杂场景中性能较差。为了克服这些缺点，许多最近的研究倾向于摆脱检测-分割方式，转向自下而上的策略[29，31]，该策略学习像素级嵌入和实例感知特征，然后使用后处理机制来聚合实例。71580处理技术将它们根据嵌入特征逐步分组为实例。因此，这些方法可以很好地保留位置和局部一致性信息。然而，自下而上模型的主要缺点是不稳定的聚类（例如，碎片化和联合掩码）以及在具有不同场景的数据集上的泛化能力差。我们的SOTR（图1和2）通过有效地学习位置敏感特征并根据[37]的基本原理动态生成实例掩码，避免了后处理分组和边界框位置和尺度的限制。此外，受到自然语言处理（NLP）中transformer的强大能力的启发，许多工作尝试完全替代卷积操作或将类似CNN的架构与transformer结合起来进行视觉任务的特征提取[11，8，5]，这可以轻松捕捉全局范围的特征并自然地建模长距离的语义依赖关系。特别是，transformer的关键机制自注意力广泛地从整个输入域聚合特征和位置信息。因此，基于transformer的模型可以更好地区分具有相同语义类别的重叠实例，这使它们在高级视觉任务上比CNN更合适。然而，这些基于transformer的方法仍然存在不足之处。一方面，典型的transformer在提取低级特征方面表现不佳，导致对小物体的错误预测。另一方面，由于广泛的特征图，尤其是在训练阶段，需要大量的内存和时间。为了应对这些弱点，我们提出了一种创新的自下而上模型，称为SOTR，巧妙地结合了CNN和transformer的优势。更具体地说，我们采用了一种新的transformer模型，受到[20]的启发，以获取全局依赖关系并提取高级特征，以用于后续功能头的预测。图2显示了我们SOTR的整体流程。它由三个部分组成，即CNN骨干网络、transformer和多级上采样模块。首先，将图像输入FPN以生成多尺度的特征图。在补丁重组和位置嵌入之后，transformer将剪辑级特征序列或块作为输入，并进一步抓取全局级语义特征，作为骨干网络的强大补充。然后，部分输出特征输入到功能头进行类别和卷积核预测。最后，多级上采样模块借助动态卷积操作将多尺度特征融合为统一的特征，生成实例掩码。SOTR的重点是研究如何更好地利用transformer提取的语义信息。为了减少传统自注意力机制的内存和计算复杂性，我们提出了一个创新的底层模型，将CNN和transformer的优势巧妙地结合起来。与原始的transformer相比，提出的双重transformer在时间和资源效率上更高，因为只涉及一行和一列的注意力来编码像素。此外，SOTR很容易与各种CNN骨干网络和transformer模型变体结合，以提高分割准确性和训练收敛性。广泛的实验证明，我们的SOTR在MSCOCO数据集上表现良好，并超过了最先进的实例分割方法。我们希望我们简单但强大的框架可以作为实例级别识别的首选基线。我们的代码可在https://github.com/easton-cau/SOTR找到。0前向双注意力，采用传统注意力矩阵的稀疏表示。我们进行了大量的消融实验，探索最佳的架构和超参数。总之，我们的SOTR不仅为实例分割提供了一个新的框架，而且在MSCOCO [ 27]数据集上的性能超过了大多数CNN方法。具体而言，我们的工作的整体贡献如下：0•我们引入了一种创新的CNN-transformer混合实例分割框架，称为SOTR。它可以通过在输入域中利用CNN骨干和Transformer编码器来有效地建模局部连接性和长程依赖性，使其具有高度表达能力。此外，SOTR通过直接分割对象实例而不依赖于框检测，大大简化了整个流程。0•我们设计了双注意力，一种新的位置敏感的自注意机制，专为我们的Transformer定制。与原始Transformer相比，这种精心设计的架构在计算和内存方面都具有显著的节省，特别是在用于密集预测的大输入上，如实例分割。0•除了纯Transformer模型外，所提出的SOTR不需要在大型数据集上进行预训练以很好地推广归纳偏差。因此，SOTR更容易应用于数据不足的情况。0• SOTR在MSCOCO基准测试中，使用ResNet-101-FPN骨干网络，性能达到了40.2%的AP，超过了大多数最先进的方法在准确性方面。此外，由于双Transformer提取全局信息，SOTR在中等（59.0%）和大型对象（73.0%）上表现出显著更好的性能。02. 相关工作02.1. 实例分割0自上而下的实例分割。这种方法通过在检测之后进行分割来解决问题，它借鉴了目标检测任务的思想[ 33]。作为锚点-基于和两阶段方法的代表，Mask R-CNN [ 15]在Faster R-CNN [ 33]的基础上为实例分割添加了额外的分支，提出了潜在边界框。作为锚点-基于方法之一，YOLACT [ 3]在一个阶段内分割实例，但是有两个并行子任务：生成原型掩膜和预测每个实例的掩膜系数。最终的实例掩膜是两者的线性组合。另一方面，一些工作致力于在无锚点框架内生成分割掩膜。其中许多方法源自FCOS [ 34]。例如，CenterMask71590图2：模型概述。SOTR基于简单的FPN骨干网络，并进行最小修改。模型将FPN特征P2-P6展平，并在输入Transformer模型之前用位置嵌入进行补充。在Transformer模型之后添加了两个头部，用于预测实例类别和生成动态卷积核。多级上采样模块使用FPN的P2-P4特征和Transformer的P5特征作为输入，通过 � 运算使用动态卷积操作生成最终的掩膜。0[ 24 ]在FCOS中添加了一个新的空间注意力引导的掩膜分支，用于预测每个检测框的分割掩膜。自下而上的实例分割。与自上而下的分割不同，这种方法通过将像素聚类到图像中的每个实例中来生成掩膜。典型的方法包括SSAP、SGN等。SGN [ 28]通过使用三个子网络分解实例的聚类来解决了这个问题。此外，最新的自下而上方法SOLO [ 36 , 37]更直接地分割实例。SOLO不是利用像素对之间的关系，而是通过分类处理聚类问题。它对每个网格进行分类，并为每个网格端到端地预测掩膜，而无需聚类。当场景非常复杂，一幅图像中存在密集的对象时，大量的计算和时间将不可避免地浪费在背景像素上。然而，我们提出的SOTR将图像作为输入，将CNN与Transformer模块相结合，提取特征，并直接预测类别概率和实例掩膜。02.2. 计算机视觉中的变压器0受到变压器在自然语言处理中的巨大成功的启发，研究人员提出将变压器应用于解决计算机视觉问题[14, 21,18]。遵循标准的变压器范例，Dosovitskiy等人[11]提出了一种纯变压器模型，称为Vision Transformer(ViT)，在图像分类任务上取得了最先进的结果。为了使ViT的架构与原始变压器尽可能相似，输入图像被重新调整为扁平化的2D块的序列，并通过可训练的线性投影和位置嵌入将其映射到相应的嵌入向量。纯变压器模型0可以通过添加基于FCN的掩膜头来自然地推广为生成语义分割。在分割变压器(SETR)[43]中，该框架建立在ViT之上，只做了最小的修改，并采用渐进式上采样策略作为解码器生成最终的掩膜。虽然以上结果令人鼓舞，但变压器在提取低级特征和缺乏一些归纳偏差方面遇到了困难，因此纯变压器模型过于依赖于在大型数据集上的预训练。这些问题可以通过与CNN骨干相结合来有效解决。检测变压器(DETR)[5]由标准的CNN骨干和一个编码器-解码器变压器组成，用于目标检测。前者学习输入图像的2D表示并生成较低分辨率的特征图。后者使用位置信息从上述扁平特征中并行预测N个对象(框坐标和类别标签)。然而，DETR存在两个问题。由于在变压器中的关系建模之前的特征映射，DETR不仅计算成本高，而且在小物体上表现不佳。此外，DETR需要更长的训练计划来调整注意力权重并关注有意义的稀疏位置。对于实例分割，DETR可以通过在解码器输出之上附加一个掩膜塔来扩展。与这些方法不同，我们以一种不同的方式重新思考实例分割，并提出了一种将CNN和变压器组装在一起的新型实例分割方法，称为SOTR。差异是显而易见的。首先，SOTR遵循标准的FCN设计，并利用可学习的卷积来通过位置划分每个对象区域，直接以无框的方式分割实例。其次，我们采用双71600图3：三种不同变压器层设计的示意图。 (a)来自[35]的原始变压器编码器。为了更好地建模长距离依赖关系并提高计算效率，我们引入了不同的变压器层设计：(b)纯双变压器层和(c) 混合双变压器层。这两个层都基于我们设计的双注意力，顺序包括(1) 列注意力和(2) 行注意力。0注意力，一种替代的自注意力自回归块，通过将全局空间注意力分解为独立的垂直和水平注意力，显著减少计算和内存消耗。03. 方法0SOTR是一种CNN-变压器混合实例分割模型，可以同时学习2D表示并轻松捕捉长距离信息。它遵循直接分割的范例，首先将输入特征图分割成块，然后预测每个块的类别，同时动态分割每个实例。具体而言，我们的模型主要由三个部分组成：1)骨干网络，用于从输入图像中提取图像特征，特别是低级和局部特征，2)变压器，用于建模全局和语义依赖关系，并附加功能头来预测每个块的类别和卷积核，以及3)多级上采样模块，通过在生成的特征图和相应的卷积核之间执行动态卷积操作来生成最终的分割掩膜。整体框架如图2所示。03.1. Transformer0双注意力。自注意机制是Transformer模型的关键组成部分，它固有地捕捉到全图像上下文，并学习输入序列中每个元素之间的远距离交互。然而，自注意力既具有二次时间和内存复杂度，对于高维度序列（如图像）会导致更高的计算成本。0维度序列，如图像，并且在不同的设置中阻碍模型的可扩展性。为了缓解上述问题，我们提出了双注意力机制，以简化注意力矩阵并使用稀疏表示。我们的策略主要是将感受野限制在设计好的固定步幅的块模式上。它首先在每一列内计算注意力，同时保持不同列的元素独立。这种策略可以在水平尺度上聚合元素之间的上下文信息（见图3（1））。然后，在每一行内执行类似的注意力操作，以充分利用垂直尺度上的特征交互（如图3（2）所示）。这两个尺度上的注意力被顺序连接成最终的注意力，它具有全局感受野，并覆盖了沿着两个维度的信息。给定FPN中第i层的特征图Fi∈RH×W×C，SOTR首先将特征图分割成N*N个补丁Pi∈RN×N×C，然后沿着垂直和水平方向将它们堆叠成固定的块。位置嵌入被添加到块中以保留位置信息，即列和行的位置嵌入空间分别为1*N*C和N*1*C。这两个注意力层都采用多头注意力机制。为了便于多层连接和后处理，双注意力中的所有子层都产生N*N*C的输出。双注意力机制可以有效地将标准O((H*W)2)的内存和计算复杂度降低到O(H*W2+W*H2)1。01这里的内存和计算复杂度以更一般的形式H和W表示，而不是N，因为双注意力可以处理任意分辨率的输入，不限于方形张量。ZH×W ×N 2 = F H×W ×C ∗ KN×N×D(1)Res-50-FPN37.59.555.770.8Res-101-FPN40.210.359.073.071610Transformer层。在本节中，我们介绍了基于编码器的三种不同的Transformer层作为我们的基本构建块（如图3所示）。原始的Transformer层类似于NLP中使用的编码器[35]（图3（a）），它包括两个部分：1）在层归一化之后的多头自注意机制[1]，和2）在层归一化之后的多层感知机。此外，还使用了残差连接[17]将这两个部分连接起来。最后，可以通过这样的Transformer层的K个串行连接获得多维序列特征，用于不同功能头部的后续预测。为了在计算成本和特征提取效果之间取得最佳平衡，我们遵循原始的Transformer层设计，只是将多头注意力替换为纯双注意力（见图3（b））。为了进一步提升双Transformer的性能，我们还设计了混合双Transformer层，如图3（c）所示。它在每个双注意力模块中添加了两个3×3的卷积层，这两个卷积层由一个LeakyReLU层连接。这样做的目的是通过卷积操作对注意机制进行有益的补充，更好地捕捉局部信息并增强特征表示。功能头部。来自Transformer模块的特征图被输入到不同的功能头部，用于进行后续预测。类别头部包括一个线性层，用于输出一个N×N×M的分类结果，其中M是类别的数量。由于每个补丁只分配给一个类别，就像YOLO[32]一样，其中心落在补丁中的一个单独对象，我们利用多级预测并在不同的特征层之间共享头部，以进一步提高模型在不同尺度对象上的性能和效率。核心头部也由一个线性层组成，与类别头部并行，用于输出一个N×N×D的张量，用于后续的掩码生成，其中张量表示具有D个参数的N×N卷积核。在训练过程中，对于分类使用FocalLoss[26]，而对于这些卷积核的所有监督都来自最终的掩码损失。03.2. 掩膜0为了构建实例感知和位置敏感分割的掩膜特征表示，一种直接的方法是对不同尺度的每个特征图进行预测（[36，12]等）。然而，这将增加时间和资源的消耗。受到PanopticFPN[22]的启发，我们设计了多级上采样模块，将来自每个FPN级别和变压器的特征合并为统一的掩膜特征。首先，从变压器模块中获取具有位置信息的相对低分辨率特征图P5，并将其与FPN中的P2-P4进行融合。对于每个尺度的特征图，进行了几个阶段的03 × 3 Conv，Group Norm[39]和ReLU进行操作。然后，分别对P3-P5进行双线性上采样2倍、4倍、8倍，使其分辨率变为（H04 ）。最后，经过处理的P2-P5相加后，执行逐点卷积和上采样，创建最终的H×W特征图。对于实例掩膜预测，SOTR通过在上述统一特征图上执行动态卷积操作来为每个补丁生成掩膜。给定预测的卷积核K ∈RN×N×D，每个卷积核负责相应补丁中实例的掩膜生成。具体操作可以表示如下：0其中�表示卷积操作，Z是具有H×W×N2维度的最终生成的掩膜。应注意，D的值取决于卷积核的形状，即D等于λ2C，其中λ是卷积核大小。最终的实例分割掩膜可以通过矩阵NMS[37]生成，并且每个掩膜都由Dice Loss [30]独立监督。04. 实验0我们在具有挑战性的MSCOCO数据集[27]上进行实验，该数据集包含123K张图像和80个类别的实例标签。所有模型都在train2017子集上进行训练，并在test-dev子集上进行评估。我们还报告了标准的COCO指标，包括平均精度（AP），IoU为0.5（AP50），0.75（AP75）以及不同尺寸物体的AP S，AP M和APL。实现细节。我们使用SGD训练SOTR，设置初始学习率为0.01，进行1k次恒定的预热迭代，并使用权重衰减为10-4和动量为0.9。对于我们的削减实验，我们进行了300K次迭代的训练，学习率在分别在210K和250K时降低了10倍。除非另有说明，所有模型都在4个32G RAM的V100GPU上进行训练（大约需要3-4天），批次大小为8。编程语言使用Python，使用的深度学习框架为PyTorch和Detectron2 [40]。04.1. 削减实验0我们进行了一系列的削减实验，以验证参数选择的有效性。0表1：骨干网络比较结果。更好的骨干网络带来了预期的增益：更深的神经网络表现更好。0骨干网络 AP AP S AP M AP LP4P5APAPSAPMAPL38.89.758.072.0✓40.210.359.073.0✓✓39.910.159.173.771620骨干网络架构。我们比较了不同骨干网络在提取特征方面的性能，如表1所示。我们惊讶地发现，使用Res-50-FPN的SOTR在COCO上已经可以获得37.5%的AP和70.8%的大物体AP。我们注意到，我们的SOTR自动从更深或更先进的CNN骨干网络中受益。在这个削减实验中，结果还表明，使用更好的骨干网络可以进一步提高性能。0表2：在COCOtest-dev上使用不同的变压器的SOTR。请注意，所有模型都是以相同的方式训练的，包括30K次迭代、8个批次大小等。在相同的ResNet-101-FPN骨干网络下，混合变压器优于所有其他对应模型。0变压器 AP AP S AP M AP L0原始 37.1 9.0 56.1 71.0 纯双变压器 39.7 9.959.1 73.6 混合双变压器 40.2 10.3 59.0 73.00用于特征编码的变压器。我们使用三种不同的变压器来衡量模型的性能。这些变体的结果如表2所示。我们提出的纯双变压器和混合双变压器在所有指标上都大幅超过原始变压器，这意味着双变压器架构不仅成功捕捉到了垂直和水平维度上的长程依赖关系，而且更适合与CNN骨干网络结合，学习图像的特征和表示。对于纯双变压器和双变压器，后者效果更好。我们认为原因是3*3卷积可以提取局部信息，改善特征表达，增强双变压器的合理性。0表3：不同深度的比较。使用Res-101-FPN骨干网络的性能。原始和双变压器分别表示原始变压器和混合双变压器。0变压器深度 AP 时间(ms) 内存0原始 6 36.2 147 6907M 12 37.1 199 10696M0双变压器 6 37.6 113 3778M 12 40.2 161 5492M0变压器深度。为了验证变压器深度对SOTR的影响，我们分别对原始变压器和混合双变压器进行了消融实验。如表3所示，两组实验都表明通过增加变压器的深度，可以提高AP，但会牺牲推理时间和内存。此外，与原始变压器相比，双变压器在AP方面提高了3.1%，并将内存占用减少了约50%，显示出了其优越性。0然而，随着变压器的加深，注意力图逐渐变得相似，即注意力崩溃。因此，变压器无法学习到更有效的特征，阻碍了模型获得预期的性能提升。在进一步的消融实验中，如果没有特别说明，我们使用深度为12的混合双变压器作为基线模型。0表4：多级上采样过程中的特征图替换。勾号表示是否用12层混合双变压器生成的特征图替换P4或P5层。0多级上采样模块。在这个消融实验中，我们探讨了变压器生成的特征图对多级上采样模块的影响。如表4所示，当仅用变压器生成的特征图替换FPN的P5层时，模型的AP值最高。当同时替换P4和P5层时，模型的AP值略微下降（-0.3%）。这表明在更多层上使用生成的特征图并没有明显改善整体AP，而变压器生成的P5已经使预测具有良好的位置敏感性。AP M 和 AP L稍微提高0.1%和0.7%的原因是变压器生成的P4比FPN的P4携带更多的全局和较大的目标特征。此外，SOLOv2在P5上使用Coordconv添加位置信息进行分割，而SOTR则用变压器替换它以获得这样的信息，并生成如图4所示的位置敏感特征图。0图4：SOTR行为。我们展示了掩膜特征的可视化。对于每一行，左侧是原始图片，右侧是与之对应的位置敏感掩膜。ModelBackbone#param.FLOPs FPSAPconvergence in training than its static counterpart.Real-time model and comparison. SOTR focuses onboosting accuracy of instance segmentation while can bemodiﬁed to be a real-time (RT) model with some sacriﬁceof the accuracy. The number of transformer layers of ourdesigned SOTR-RT is reduced to two and the input shorterside is 736. Table 6 shows the performance of SOTR-RTmodels compared with others.71630图5：与其他方法的详细比较。我们将我们方法的分割结果与Mask R-CNN [15]、Blendmask [6]和SOLOv2[37]进行了比较。代码和训练模型由原作者提供。所有模型都使用ResNet-101-FPN作为骨干网络，并基于Pytorch和Detectron2。我们的掩膜通常具有更高的质量。0表5：动态卷积核与静态卷积核的比较。可学习的卷积核可以显著改善结果。0双DCK AP AP S AP M AP L0� 38.6 9.5 57.7 72 � 39.7 17.3 42.9 57.4 � � 40.210.3 59.0 73.00动态卷积。对于掩码生成，我们有两种选择：以静态卷积的方式直接输出实例掩码，或者通过动态卷积操作不断分割对象。前者不需要额外的功能头来预测卷积核，而后者包括卷积核来辅助生成最终的掩码。我们在表5中比较了这两种模式。如表所示，没有双变压器的SOTR的AP为39.7%，表明双变压器带来了0.5%的增益。此外，动态卷积策略可以将性能提高近1.5%的AP。我们解释如下。一方面，动态卷积由于非线性显著提升了表示能力。另一方面，动态卷积有助于更好和更快地收敛训练。实时模型和比较。SOTR专注于提高实例分割的准确性，同时可以修改为实时（RT）模型，但会牺牲一些准确性。我们设计的SOTR-RT的变压器层数减少到两层，输入较短边为736。表6显示了SOTR-RT模型与其他模型的性能比较。0表6：实时设置比较。模型的指标是使用它们的官方训练模型获得的。速度是在COCO上的单个V100 GPU上报告的。0YOLACT-550 R-50-FPN 140.23M 61.59G 44.1 28.2PolarMask-600 R-50-FPN 34.46M 81.83G 21.7 27.6SOTR-RT-736 R-50-FPN 38.20M 60.31G 25.2 30.704.2. 主要结果0定量结果：我们在MS COCOtest-dev上将SOTR与最先进的实例分割方法进行了比较，结果如表7所示。使用ResNet-101-FPN，SOTR达到了40.2%的掩码AP，远远优于其他现代实例分割方法。71640表7：COCOtest-dev上的定量结果。我们将SOTR与最先进的实例分割方法进行了比较，表中的所有条目都是单模型的结果。我们用网络深度特征来表示骨干架构，其中Res表示ResNet [16]。MaskR-CNN*是通过尺度增强和更长的训练时间（6倍）改进的版本。0方法骨干 AP AP 50 AP 75 AP S AP M AP L0FCIS [25] Res-101-C5 29.5 51.5 30.2 8.0 31.0 49.7 MaskLab+ [7] Res-101-C4 37.3 59.839.6 16.9 39.9 53.5 Mask R-CNN [15] Res-101-FPN 35.7 58.0 37.8 15.5 38.1 52.4 MaskR-CNN* Res-101-FPN 37.8 59.8 40.7 20.5 40.4 49.3 RetinaMask [13] Res-101-FPN 34.755.4 36.9 14.3 36.7 50.5 MS R-CNN [19] Res-101-FPN 38.3 58.8 41.5 17.8 40.4 54.4TensorMask [9] Res-101-FPN 37.1 59.3 39.4 17.4 39.1 51.6 ShapeMask [23]Res-101-FPN 37.4 58.1 40.0 16.1 40.1 53.8 YOLACT [3] Res-101-FPN 31.2 50.6 32.8 12.133.3 47.1 YOLACT++ [2] Res-101-FPN 34.6 53.8 36.9 11.9 36.8 55.1 PolarMask [41]Res-101-FPN 32.1 53.7 33.1 14.7 33.8 45.3 SOLO [36] Res-101-FPN 37.8 59.5 40.4 16.440.6 54.2 BlendMask [6] Res-101-FPN 38.4 60.7 41.3 18.2 41.5 53.3 CenterMask [38]Hourglass-104 34.5 56.1 36.3 16.3 37.4 48.4 MEInst [42] Res-101-FPN 33.9 56.2 35.419.8 36.1 42.3 SOLOv2 [37] Res-101-FPN 39.7 60.7 42.9 17.3 42.9 57.4 SOTRRes-101-FPN 40.2 61.2 43.4 10.3 59.0 73.00SOLOv2 [37] Res-DCN-101-FPN 41.7 63.2 45.1 18.0 45.0 61.6 SOTRRes-DCN-101-FPN 42.1 63.3 45.5 11.5 60.8 74.40与传统的两阶段实例分割方法Mask R-CNN[15]相比，SOTR在预测准确度上取得了更好的结果（+2.4% AP），并且在中等和大型目标上取得了显著的改进（APM增加了20.9%，APL增加了20.6%）。作为一种无框算法，SOTR与SOLO[36]和PolarMask[41]相比也有显著的改进。此外，据我们所知，SOTR是第一种在中等目标上达到近60%AP，在中等和大型目标上达到超过70%AP的方法。定性结果：我们将SOTR与官方的Mask R-CNN[15]、BlendMask [6]和SOLOv2[37]模型进行了比较，使用的是ResNet-101骨干网络。分割掩码显示在图5中。我们的SOTR在两种情况下表现优于MaskR-CNN和BlendMask：1）其他模型容易遗漏的具有复杂形状的对象（例如火车前面的胡萝卜、躺着的大象、小汽车上的驾驶员），MaskR-CNN和BlendMask无法将它们检测为正例；2）与彼此重叠的对象（例如火车前面的人），这两个模型无法准确分离它们的边界。SOTR能够预测具有更清晰边界的掩码，而SOLOv2倾向于将目标分割为不同的部分（例如将火车分为头部和身体），有时无法将背景从图像中排除。由于引入了0为了与MaskR-CNN、BlendMask和SOLOv2进行公平比较，我们使用的代码基础是Detectron2。最近发布的Detectron2源自maskrcnn_benchmark，具有显著的性能增强。0通过Transformer，SOTR可以更好地获得全局综合信息，避免对象的分割。此外，与SOTR相比，SOLOv2通过将不存在的对象分配为实例而具有较高的误报率。05. 结论0在本文中，我们提出了一种新的基于CNN和Transformer的直接分割实例分割方法，它在没有物体检测器的情况下动态预测每个实例的分割掩模，简化了整个流程。为了处理组织为多维张量的大输入，我们设计了一种基于双注意机制的Transformer模型变体，成功地将内存和计算复杂性降低到O(H×W2+W×H2)。此外，它高效且易于与不同的主流CNN骨干网络集成。我们进行了大量消融研究来验证SOTR的核心因素。在没有花哨的技巧的情况下，具有ResNet-101-FPN骨干网络的SOTR表现良好，在MSCOCO数据集上实现了40.2%的mAP。我们相信我们的SOTR能够作为实例分割任务的基础和强大的基准.06. 致谢0该工作得到了中国国家重点研发计划(2020YFD0900204)和广东省重点领域研发计划(2020B0202010009)的支持.71650参考文献0[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin- ton.层归一化. arXiv预印本arXiv:1607.06450, 2016年.0[2] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Y. Lee.Yolact++: 更好的实时实例分割. IEEE模式分析与机器智能交易,PP, 2020年.0[3] D. Bolya, C. Zhou, F. Xiao, and Y. J. Lee. Yolact:实时实例分割. 在2019年IEEE/CVF国际计算机视觉会议(ICCV),页码9156-9165, 2019年.0[4] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakan-tan, Pranav Shyam, Girish Sastry, Amanda Askell, Sand- hiniAgarwal, Ariel Herbert-Voss, Gretchen Krueger, TomHenighan, Rewon Child, Aditya Ramesh, Daniel Ziegler,Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, EricSigler, Mateusz Litwin, Scott Gray, Benjamin Chess, JackClark, Christopher Berner, Sam McCandlish, Alec Radford,Ilya Sutskever, and Dario Amodei. 语言模型是少样本学习器.在H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan和H.Lin编辑的神经信息处理系统进展, 卷33, 页码1877-1901. CurranAssociates, Inc., 2020年.0[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测. 在Andrea Vedaldi, HorstBischof, Thomas Brox和Jan-MichaelFrahm编辑的计算机视觉-ECCV 2020, 页码213-229, 2020年,Cham, Springer International Publishing.0[6] H. Chen, K. Sun, Z. Tian, C. Shen, Y. Huang, and Y. Yan.Blendmask: 自顶向下与自底向上相结合的实例分割.在2020年IEEE/CVF计算机视觉与模式识别会议(CVPR),页码8570-8578, 2020年.0[7] Liang-Chieh Chen, A. Hermans, G. Papandreou, FlorianSchroff, P. Wang, and H. Adam. Masklab:通过细化物体检测与语义和方向特征进行实例分割.2018年IEEE/CVF计算机视觉与模式识别会议, 页码4013-4022,2018年.0[8] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Hee-woo Jun, David Luan, and Ilya Sutskever. 从像素生成预训练.在国际机器学习会议上, 页码1691-1703. PMLR, 2020年.0[9] Xinlei Chen, Ross B. Girshick, Kaiming He, and PiotrDollár. Tensormask:密集目标分割的基础。2019年IEEE/CVF国际计算机视觉会议(ICCV)，第2061-2069页，2019年。0[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT:深度双向Transformer的预训练用于语言理解。北美计算语言学协会2019年会议论文集，第4171-4186页，明尼阿波利斯，明尼苏达州，2019年。计算语言学协会。0[11] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, et al.一幅图像等于16x16个单词：大规模图像识别的Transformer。arXiv预印本arXiv:2010.11929，2020年。0[12] Ali Farhadi and Joseph Redmon. Yolov3:一项渐进改进。计算机视觉与模式识别，引用为，2018年。0[13] Cheng-Yang Fu, M. Shvets, and A. Berg. Retinamask:学习预测掩码提升最先进的单次检测。ArXiv，abs/1901.03353，2019年。0[14] Kai Han, Yunhe Wa

下载后可阅读完整内容，剩余1页未读，立即下载