普通Transformer骨干网络用于目标检测的研究

98 浏览量更新于2023-12-01 收藏 755KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文探索用于目标检测的Yanghao Li Hanzi Mao Ross Girshick<$Kaiming He<$†同等贡献Facebook AI Research摘要我们探讨了普通的，非分层的视觉Transformer（ViT）作为对象检测的骨干网络。这种设计使得原始的ViT架构能够针对对象检测进行微调，而不需要重新设计用于预训练的分层骨干。通过最小的微调调整，我们的普通骨干检测器可以实现有竞争力的结果。令人惊讶的是，我们观察到：（i）从单尺度特征图（没有常见的FPN设计）构建一个简单的特征金字塔就足够了，（ii）使用窗口注意力（没有移位）辅助非常少的跨窗口传播块就足够了。通过将普通 ViT 骨干预训练为掩蔽自动编码器（MAE），我们的检测器名为ViTDet，可以与以前所有基于分层骨干的领先方法竞争，达到图61.3仅使用ImageNet-1 K预训练的COCO数据集上的AP框我们希望我们的研究能引起人们对普通主干检测器研究的关注。代码为ViTDet是可用的.11介绍现代对象检测器通常由对检测任务不可知的主干特征提取器和包含检测特定先验知识的一组颈部和头部组成。颈部/头部中的常见组件可以包括感兴趣区域（RoI）操作[26、20、25]、区域提议网络（RPN）或锚点[48]、特征金字塔网络（FPN）[37]等。如果任务特定的颈部/头部的设计与骨干的设计分离，则它们可以并行地发展从经验上讲，目标检测研究受益于对通用主干[30，49，50，27]和检测特定模块的基本独立探索。长期以来，由于卷积网络（ConvNet）[32]的实际设计，这些骨干一直是多尺度分层架构，这严重影响了用于在多个尺度上检测对象的颈部/头部设计（例如，FPN）。在过去的一年里，视觉变形金刚（ViT）[14]已经成为视觉识别的强大支柱与典型的ConvNets不同，原始的ViT是一个简单的、非层次化的架构，始终保持一个单一尺度的特征图。它的我们如何在下游任务中使用上游预训练的普通骨干来处理多尺度对象也是普通的维生素1https://github.com/facebookresearch/detectron2/tree/main/projects/ViTDet+v：mala2255获取更多论文2颈部/头部：骨干：分层主干，带FPN普通主干，带简单功能金字塔图1：典型的分层主干检测器（左）与我们的普通主干检测器（右）。传统的分层主干可以自然地适用于多尺度检测，使用FPN。相反，我们探索仅从普通主干的最后一个大步幅（16）特征图构建一个使用高分辨率检测图像效率低？放弃这种追求的一种解决方案是在主干中重新引入分层设计这种解决方案，例如，Swin Transformers [42]和相关作品[55，17，34，29]可以继承基于ConvNet的检测器设计，并已显示出成功的结果。在这项工作中，我们追求一个不同的方向：我们探索对象检测器，只使用普通的，非层次的骨干。2如果这个方向是成功的，它将使原始ViT骨干用于对象检测;这将使预训练设计与微调需求解耦，保持上游与上游的独立性。下游任务，就像基于ConvNet的研究一样。这一方向也部分遵循了ViT哲学的由于非局部自注意计算[54]可以学习自适应-等变fea，tures [14]，它们也可以从某些形式的监督或自监督预训练中学习尺度等变特征。在我们的研究中，我们的目标不是开发新的组件;相反，我们进行了足以克服上述挑战的最小特别是，我们的检测器仅从普通ViT骨干的最后一个特征图构建了一个简单的特征金字塔（图1）。这放弃了FPN设计[37]并放弃了分层骨干网的要求。为了有效地从高分辨率图像中提取特征，我们的检测器使用简单的非重叠窗口注意力（不像[ 42 ]那样少量的跨窗块（例如，4），可以是全局注意力[54]或卷积，用于传播信息。这些调整仅在微调期间进行，不会改变预训练。我们简单的设计可以实现令人惊讶的结果。我们发现，FPN设计是没有必要的情况下，一个普通的ViT骨干和它的好处可以有效地获得一个简单的金字塔从一个大步幅（16），单尺度地图。我们还发现，窗口的注意力是足够的，只要信息传播良好的窗口在一个小的层数。更令人惊讶的是，在某些情况下，我们的普通主干检测器，名为ViTDet，可以与领先的分层主干检测器（例如，Swin [42]，MViT [17，34]）。使用Masked Autoencoder（MAE）[24]预-2在本文中，“骨干”指的是可以从预训练中继承的架构组件，而“普通”指的是非层次、单尺度的属性。1/161/321/161/161/161/81/161/41/321/321/161/161/81/81/41/4+v：mala2255获取更多论文3训练，我们的普通骨干检测器可以优于在ImageNet-1 K/21 K [12]上预先训练的具有监督的分层计数器（图3）。对于较大的模型尺寸，收益更为突出在不同的对象检测器框架下观察到我们的检测器的竞争力，包括Mask R-CNN [25]，Cascade Mask R-CNN [4]及其增强。我们报告61.3 COCO 数据集上的 AP框 [39] ，具有普通的 ViT-Huge 主干，仅使用ImageNet-1 K预训练，没有标签。我们还证明了长尾LVIS检测数据集上的竞争结果[23]。虽然这些强大的结果可能部分是由于MAE预训练的有效性，我们的研究表明，普通骨干检测器可以是有前途的，挑战了对象检测的分层骨干的根深蒂固的地位。除了这些结果之外，我们的方法保持了从任务不可知的主干中解耦检测器特定设计的理念。这种哲学与重新设计Transformer主干以支持多尺度层次结构的趋势形成对比[42，55，17，29]。在我们的情况下，检测特定的先验知识仅在微调期间引入，而不需要在预训练中先验地定制骨干设计这使得我们的检测器与沿着各个方向的ViT开发兼容，这些方向不一定受到分层约束的限制，例如，块设计[52，53]，自我监督学习[2，24]和缩放[57]。我们希望我们的研究将启发未来的研究平原骨干对象检测。32相关工作物体探测器主干。由R-CNN [21]的工作开创，对象检测和许多其他视觉任务采用预训练+微调范式：通用的任务不可知的骨干通过监督或自监督训练进行预训练，其结构随后被修改并适应下游任务。计算机视觉的主要支柱是ConvNets[32]各种形式，例如，[30、49、50、27]。早期的神经网络检测器，[26，20，48，47]，是基于一个单一尺度的特征地图时，最初提出的。虽然它们使用默认分层的ConvNetSSD [40]是最早利用ConvNet骨干的分层性质的作品之一（例如，VGG 网络的最后两个阶段[49]）。FPN [37]通过使用分层骨干的所有阶段进一步推动了这一方向，通过横向和自上而下的连接进行访问。FPN设计广泛应用于目标检测方法中。最近，包括Trident Networks [33]和YOLOF [7]在内的作品重新审视了单尺度特征图，但与我们的工作不同，它们专注于从分层骨干中获取的单尺度特征图。ViT [14]是标准ConvNets用于图像分类的强大替代方案最初的ViT是一个简单的、非层次化的架构。已经提出了各种分级变压器，Swin [42]，MViT [17，34]，PVT [55]，3这项工作是一个初步版本的扩展[35]，该版本未发表，也未提交同行评审。+v：mala2255获取更多论文4”[29]。这些方法继承了ConvNets的一些设计，包括层次结构和预处理等变先验（例如，卷积、池化、滑动窗口）。因此，用这些主干替换ConvNet进行对象检测相对简单。纯主干探测器。ViT的成功激发了人们将普通主干推向对象检测的前沿。最近，UViT [9] 是作为一个单一的规模Transformer的目标检测。UViT研究对象检测指标下普通ViT主干的网络宽度、深度和输入分辨率。提出了一种渐进窗口注意策略来处理高分辨率输入。与在预训练修改架构的UViT不同，我们的研究集中在原始ViT架构上，而没有先验的检测规范通过保持骨干的任务不可知的性质，我们的方法支持广泛的可用的ViT骨干，以及他们在未来的改进我们的方法从检测任务，这是追求平原骨干的一个关键动机的骨干UViT使用单尺度特征图的探测器头，而我们的方法建立一个简单的金字塔上的单尺度在我们的研究背景注意，完整的UViT检测器也具有几种形式的多尺度先验（例如，RPN[48]和RoIAlign [25]），因为它基于级联掩码R-CNN [4]。在我们的研究中，我们专注于利用预先训练的普通骨干，并且我们不限制检测器颈部/头部设计。目标检测方法。目标检测是一个蓬勃发展的研究领域，它包含了不同属性的方法，两阶段[21，26，20，48] vs. 单阶段[47，40，38]，基于锚的[48]vs.无锚点[31，15，51]和基于区域[21，26，20，48]vs.基于查询（DETR）[5]。对不同方法的研究不断推进对目标检测问题的理解。我们的研究表明，“平原与平原”的话题。“层级3方法我们的目标是删除骨干的层次约束，并使探索纯骨干对象检测。为此，我们的目标是最小的修改，以适应一个普通的骨干对象检测任务，只有在微调时间。经过这些调整后，原则上可以应用任何探测器头，我们选择使用Mask R-CNN[25]及其扩展。我们的目标不是开发新的组件;相反，我们专注于在探索中可以得出什么新的见解简单的特征金字塔。FPN [37]是构建用于对象检测的网络内金字塔如果主干是分层的，则FPN的动机是将来自较早阶段的较高分辨率特征和来自较晚阶段的较强特征相这在FPN中通过自上而下和横向连接实现[37]（图1左图）。+v：mala2255获取更多论文1/161/161/161/161/161/161/161/161/321/161/8四分之一1 13216842451/161/161/321/16三十二分之一1/161/161/8 1/81/16四分之一四分之一(a) FPN，4阶段（b）FPN，最后一个地图（c）简单特征金字塔图2：在普通主干上构建功能金字塔。（a）类FPN：为了模仿分层骨干，普通骨干被人为地分成多个阶段。（b）类似于FPN，但仅使用最后一个特征图而没有阶段划分。（c）我们的简单特征金字塔，没有FPN。在所有三种情况下，每当尺度改变时，都会使用步幅卷积/去卷积。如果主干是非分层的，则FPN动机的基础丢失，因为主干中的所有特征图具有相同的分辨率。在我们的场景中，我们只使用主干中的最后一个特征映射，它应该具有最强的特征。在这个地图上，我们并行应用一组卷积或去卷积来生成多尺度特征地图。具体来说，使用默认的比例尺为1的ViT特征图（步幅= 16[14]），我们生成16尺度的特征图{1，1，1，1}{2， 1，，}，其中分数步幅指示去卷积。我们称之为“简单的特征金字塔从单个地图构建多尺度特征地图的策略与SSD的策略相关[40]。然而，我们的场景涉及从深，低分辨率的特征图进行上采样，不像[40]，它利用较浅的特征图。在分层骨干中，上采样通常由横向连接辅助[37];在普通ViT骨干中，我们根据经验发现这是不必要的（第12节）。4）和简单的解卷积就足够了。我们假设这是因为ViT可以依赖于位置嵌入[54]来编码位置，并且还因为高维ViT补丁嵌入不一定丢弃信息。4我们将比较两个FPN的变种，也是建立在一个平原回来-骨（图2）。在第一种变体中，主干被人为地划分为多个阶段，以模仿分层主干的阶段，并应用横向和自上而下的连接（图2（a））[16]。第二种变体与第一种变体类似，但只使用最后一个映射而不是划分的阶段（图2（b））。我们证明这些FPN变体是不必要的（第二节）。4）。5脊柱适应。对象检测器受益于高分辨率的输入图像，但是在整个主干上计算全局自我注意力在存储器中是禁止的并且是缓慢的。在这项研究中，我们专注于预先训练的骨干执行全局自我注意的场景，然后在微调过程中适应更高分辨率的输入。这与最近4.当图像块大小为16× 16，颜色为3时，隐藏维数≥768（ViT-B或更大）可以在必要时保留图像块的所有信息。5从更广泛的角度来看，FPN [ 37 ]的精神是“在网络内部构建功能金字塔”。我们简单的特征金字塔遵循这种精神。在本文的上下文中，术语“FPN”指的是[ 37 ]中的特定架构设计。利用步幅+v：mala2255获取更多论文6直接用主干预训练修改注意力计算的方法（例如，[42，17]）。我们的方案使我们能够使用原始的ViT骨干进行检测，而无需重新设计预训练架构。我们探索使用窗口注意力[54]与一些跨窗口块。在微调过程中，给定一个高分辨率的特征图，我们将其划分为规则的非重叠窗口。6在每个窗口内计算自我注意力这在最初的《Transformer》中被称为“受限的”自我注意力与Swin不同，我们不会为了允许信息传播，我们使用了很少的（默认情况下是4个）可以跨窗口的块。我们将预先训练好的主干均匀地分成4个块子集（例如，对于24块ViT-L，每个子集中6个我们在每个子集的最后一个块中应用传播我们研究这两种策略：(i) 全球传播。我们在每个子集的最后一个块中执行全局自注意由于全局块的数目很小，因此存储器和计算成本是可行的。这类似于[34]中与FPN联合使用的混合窗口注意力。(ii) 卷积传播作为替代方案，我们在每个子集之后添加一个额外的卷积块卷积块是由一个或多个卷积和一个恒等捷径组成的残差块[27]该块中的最后一层被初始化为零，使得块的初始状态是标识[22]。将一个块初始化为标识，允许我们将它插入到预先训练好的主干中的任何位置，而不会破坏主干的初始状态。我们的骨干适应是简单的，并使检测微调与全球自我注意力预训练兼容。如上所述，没有必要重新设计预训练架构。讨论对象检测器包含与任务无关的组件（如主干）和特定于任务的其他组件（如RoI头）。该模型分解使得任务不可知的组件能够使用非检测数据（例如，ImageNet），这可能会提供一个优势，因为检测训练数据相对稀缺。在这种观点下，追求一个涉及较少归纳偏差的主干变得合理，因为主干可以使用大规模数据和/或自我监督进行有效训练。相比之下，检测任务特定组件具有相对较少的可用数据，并且仍然可以受益于附加的感应偏置。虽然追求具有较少电感偏差的检测头是一个活跃的工作领域，但像DETR [5]这样的领先方法对训练具有挑战性，并且仍然受益于检测特定的先验知识[60]。在这些观察的推动下，我们的工作遵循了原始的普通ViT论文关于探测器主干的精神。虽然ViT论文我们假设，一个普通的骨干，以实现6我们将窗口大小设置为默认的预训练特征图大小（14× 14 [14]）。+v：mala2255获取更多论文×167尺度等方差是从数据中学习先验知识，类似于它如何在没有卷积的情况下学习平移等方差和局部性。我们的目标是证明这种方法的可行性。因此我们选择用标准检测专用组件（即，Mask R-CNN及其扩展）。探索更少的感应偏置的检测头是一个开放的和有趣的方向，为未来的工作。我们希望它能受益于我们在这里的工作并在此基础上再接再厉实施. 我们使用vanilla ViT-B，ViT-L，ViT-H [14]作为预训练骨干。我们将补丁大小设置为16，因此特征图比例为1/16，即，步幅= 16。7我们的探测器头遵循Mask R-CNN [25]或Cascade Mask R-CNN [4]，附录中描述了架构细节输入图像为1024 × 1024，在训练过程中增加了大规模抖动[19]。由于这种繁重的正则化，我们在COCO中进行了多达100个 epoch的微调我们使用AdamW优化器[43]并使用基线版本搜索最佳超参数更多细节见附录。4实验4.1消融研究和分析我们在COCO数据集上进行消融实验[39]。我们在train2017split上进行训练，并在val2017split上进行评估我们报告的结果边界框对象检测（AP框）和实例分割（AP掩模）。默认情况下，我们使用简单的特征金字塔和全局传播去在SEC中注册。3.我们使用4个传播块，均匀地放置在主干中。我们使用在IN-1K上预先训练的MAE [24]初始化骨干，没有标签。我们消除这些缺陷，并讨论我们的主要意见如下。一个简单的特征金字塔就足够了。在表1中，我们比较了图2所示的特征金字塔构建策略。我们研究了一个没有特征金字塔的基线：RPN和RoI头都应用在主干的最终单尺度（1）特征图上这种情况类似于FPN提出之前的原始Faster R-CNN [48]所有特征金字塔变体（表1a-c）都明显优于该基线，使AP增加3.4点。我们注意到，使用单尺度特征图并不意味着检测器是单尺度的：RPN头具有多尺度锚，RoI头在多尺度区域上操作。即便如此，特征金字塔也是有益的。这一观察结果与FPN论文[37]中关于分层骨干的观察结果一致。然而，不需要FPN设计，我们简单的特征金字塔足以让普通的ViT骨干享受金字塔的好处。为了消除这种设计，我们模仿FPN架构（即，自上而下和横向7改变步幅会影响尺度分布，并为不同尺度的对象提供不同的精度偏移。这一主题超出了本研究的范围。为了简单起见，我们对所有ViT-B、L、H使用相同的补丁大小16（参见附录）。+v：mala2255获取更多论文48金字塔设计维生素BAP框AP掩码ViT-LAP框AP掩码无特征金字塔47.842.551.245.4(a)FPN，4阶段50.3（+2.5）44.9（+2.4）54.4（+3.2）48.4（+3.0）(b)FPN，最后一张地图50.9（+3.1）45.3（+2.8）54.6（+3.4）48.5（+3.1）(c)简单特征金字塔51.2（+3.4）45.5（+3.0）54.6（+3.4）48.6（+3.2）表1：使用COCO上评价的Mask R-CNN，使用普通ViT骨干的特征金字塔设计上的消融骨架是ViT-B（左）和ViT-L（右）。条目（a-c）对应于图2（a-c），与没有任何金字塔的基线相比。FPN和我们的简单金字塔都明显优于基线，而我们的简单金字塔就足够了。连接），如图2（a，b）。表1（a，b）显示，虽然两种FPN变体在没有金字塔的情况下实现了超过基线的强增益（如在分层骨干上用原始FPN广泛观察到的那样），但它们并不比我们的简单特征金字塔更好。最初的FPN [37]的动机是将较低分辨率、较强的特征图与较高分辨率、较弱的特征图相结合。当骨干是平原，没有高分辨率的地图，这可以解释为什么我们的简单金字塔是足够的，这个基础就失去了。我们的消融揭示了金字塔特征图的集合，而不是自上而下/横向连接，是有效的多尺度检测的关键。为了看到这一点，我们研究了简单金字塔的一个更激进的情况：我们通过反卷积只生成最好的尺度（1）特征图，然后从这个最好的图中，我们通过跨越平均池并行地对其他尺度进行子采样。此设计中没有非共享的按比例参数。这个积极简单的金字塔几乎一样好：它有54.5 AP（ViT-L），比没有金字塔的基线高3.3。这表明了金字塔特征图的重要性对于这些特征金字塔的任何变体，锚点（在RPN中）和区域（在RoI头部中）根据其尺度映射到金字塔中的相应级别，如[37]所示。我们假设，这种显式的尺度等变映射，而不是自上而下/横向连接，是为什么一个功能金字塔可以大大有利于多尺度目标检测的主要原因。在几个传播块的帮助下，窗口注意力就足够了。表2消除了我们的骨干适应方法。简而言之，在具有纯粹的窗口注意力并且没有跨窗口传播块（表2，“无”）的基线之上，各种传播方式可以显示出不错的8在表2a中，我们比较了全局和卷积传播策略vs. 无传播基线。他们比基线增加了1.7和1.9我们还比较了经移位的[8]即使我们的基线在主干中没有传播，也相当不错（52.9 AP）。这可以解释为骨干之外的层（简单特征金字塔，RPN和RoI头）也会引起跨窗口通信。+v：mala2255获取更多论文××× × → × → ×号提案战略AP髁间盒AP屏蔽没有一52.947.24个全球区块54.6（+1.7）48.6（+1.4）4个conv块54.8（+1.9）48.8（+1.6）号提案convAP髁间盒AP屏蔽没有一52.947.2天真54.3（+1.4）48.3（+1.1）基本54.848.89(a) 窗口注意与各种跨窗口传播策略。(b) 卷积传播与不同的残留块类型（4块）。号提案blksAP框AP掩码没有一52.947.2254.4（+1.5）48.5（+1.3）454.6（+1.7）48.6（+1.4）24†55.1（+2.2）48.9（+1.7）(c) 跨窗口全局传播块的位置。(d) 全局传播块数。†：需要内存优化。表2：使用普通ViT骨干和在COCO上评估的Mask R-CNN的骨干适应策略上的消融。所有块执行窗口注意，除非通过传播策略修改总之，与仅使用窗口注意力的基线（52.9AP框）相比，只要信息可以在窗口之间很好地传播，大多数配置都可以有效地工作这里的主干是ViT-L;对ViT-B的观察是相似的（见附录）。54.6（+1.7）1.04×1.05×1.04×54.6（+1.7）1.00×1.39×1.16×55.1（+2.2）1.00×3.34×<$1.86×表3：主干适应策略的实际性能。骨架是ViT-L。训练内存（每个GPU）以批次大小1为基准。测试时间（每个图像）在A100 GPU上进行基准测试。†：这个3.34内存（49 G）被估计为可以使用相同的训练实现，这是不实际的，需要特殊的内存优化所有这些加在一起会使训练速度降低2.2倍，基线。窗口变体比基线有1.1的增益，但比我们的差请注意，这里我们只关注Swin的表2b比较了用于卷积传播的不同类型的残差块我们研究基本的（两个3 3）[27]，瓶颈（1 1 3 3 1 1)[27]，以及一个有一个3 3卷积的朴素块。它们都比基线有所改善，而特定的区组设计仅产生边际差异。有趣的是，即使卷积是一个局部操作，如果它的感受野覆盖号提案位置AP髁间盒AP屏蔽没有一52.947.2前4块52.9（+0.0）47.1（最后4块54.3（+1.4）48.3（+1.1）号提案战略AP髁间盒#params火车站测试时间没有一52.91.00×（331M）1.00×（14.6G）1.00×（88ms）4 conv（瓶颈）4全球全球24+v：mala2255获取更多论文≤10预训练维生素BAP框AP掩码ViT-LAP框AP掩码无（随机初始化）48.1 42.650.0 44.2IN-1 K，监督47.6（49.6（IN-21 K，监督47.8（50.6（+0.6）44.8（+0.6）IN-1K，MAE51.2（+3.1）45.5（+2.9）54.6（+4.6）48.6（+4.4）表4：使用COCO上评估的Mask R-CNN对具有普通ViT骨干的两个相邻窗口，原则上连接两个窗口的所有像素就足够了这种连通性归功于后续块中两个窗口的自注意力。这可以解释为什么它可以执行以及全球传播。在表2c中，我们研究了跨窗口传播应该位于主干中的何处。默认情况下，均匀放置4个全局传播块。我们将它们放在第一个或最后4个块中进行比较。有趣的是，在最后4个块中执行传播几乎与均匀放置一样好这与[14]中的观察结果一致，即ViT在后面的块中具有更长的注意力相比之下，仅在前4个块中执行传播显示没有增益：在这种情况下，在这4个块之后，在骨干中的窗口上没有传播。这再次证明了跨窗口传播是有帮助的。表2d比较了要使用的全局传播块的数量。即使只使用2块也能达到很好的精度，明显优于基线。为了全面，我们还报告了一个变体，其中ViT-L中的所有24个块都使用全局注意力。这比我们的4块默认值有0.5个点的边际增益，而它的训练需要特殊的内存优化（我们使用内存检查点[8]）。这一要求使得扩展到更大的模型（如ViT-H）变得不切实际。我们的窗口注意力加上一些传播块的解决方案提供了一个实用的，高性能的权衡。我们在表3中对这种权衡进行了基准测试。使用4个传播块，一个很好的交易。卷积传播是最实用的，仅增加5%的内存和时间，以多4%的参数为代价使用4个区组的全局传播也是可行的，并且不会增加模型大小。在所有24个区块中的全局自我注意力是不实际的。总而言之，表2显示了各种形式的传播是有帮助的，而我们可以在大多数或所有块中继续使用窗口注意力。重要的是，所有这些架构调整仅在微调时间内执行;它们不需要重新设计预训练架构。Masked Autoencoder提供强大的预训练骨干。表4比较了骨干预训练策略。在IN-1 K上进行有监督的预训练比没有预训练稍差，类似于[19]中的观察结果在IN-21 K上进行有监督的预训练对ViT-L来说稍微好一点相比之下，IN-1 K（无标签）的MAE [24]预训练显示出巨大的收益，ViT-B的AP框增加了3.1，ViT-L增加了4.6我们假设+v：mala2255获取更多论文11骨干预训练掩码R-CNNAP框AP掩码级联掩码R-CNNAP框AP掩码分层骨干检测器：Swin-B21K，支持51.445.454.046.5Swin-L21K，支持52.446.254.847.3MViTv2-B21K，支持53.147.455.648.1MViTv2-L21K，支持53.647.555.748.3MViTv2-H21K，支持54.147.755.848.3我们的普通主干检测器：维生素B1K，MAE51.645.954.046.7ViT-L1K，MAE55.649.257.649.8ViT-H1K，MAE56.750.158.750.9表5：普通与在COCO上使用Mask R-CNN [25]和Cascade Mask R-CNN [4]的分层骨干。图3中绘制了权衡图。所有条目都由我们执行和运行，以调整低级别的细节。具有较少归纳偏差的vanilla ViT [14]可能需要更高的容量来学习翻译和缩放等变特征，而更高容量的模型容易出现更严重的过拟合。MAE预培训可以帮助缓解这个问题。接下来我们将在上下文中讨论更多关于MAE的4.2与分层主干的现代检测系统涉及许多实现细节和微妙之处。为了在尽可能公平的条件下集中比较主干，我们将Swin [42]和MViTv2 [34]主干并入我们的实现中。设置. 我们对所有ViT、Swin和MViTv 2主干使用相同的Mask R-CNN [25]和Cascade Mask R-CNN [4]实现。我们将FPN用于Swin/MViTv 2的分层骨干。我们分别为每个主干搜索最优超参数（见附录）.我们的Swin结果优于原始论文中的相应结果;9我们的MViTv 2结果优于或等同于[34]中报告的结果在原始论文[42，34]之后，Swin和MViTv2都使用相对位置偏差[46]。为了更公平的比较，这里我们也按照[34]在ViT骨干中采用相对位置偏差，但仅在微调期间，不影响预训练。此添加提高AP由101点。请注意，我们在第二节中的消融。4.1没有相对位置偏差。结果和分析。表5显示了比较结果。图3绘制了权衡。这里的比较涉及两个因素：骨干和预训练策略。我们的普通主干检测器与MAE预训练相结合，呈现出更好的缩放行为。当模型较大时，我们的方法优于9例如，Swin-B（IN-1 K，Cascade Mask R-CNN）在官方repo中报告了51.9AP框。在我们的实现中，这个结果是52.7。+v：mala2255获取更多论文12ViT-H5756 5655 5554 5453 5352 5251 5150 5057颗ViT-H56555453525150100 200 400800# params（M）log-scale0.5 1.0 2.04.0FLOP（T）对数刻度数40 80 160 320#测试时间（ms）对数标度图3：准确性与模型尺寸（左）、FLOP（中）和挂钟测试时间（右）。所有条目都由我们执行和运行，以调整低级别的细节。Swin [42]和MViTv 2 [34]在IN-1 K/21 K上进行了预先培训，并有监督。ViT模型使用IN-1 K上的MAE [24]进行预训练。这里的探测器头是Mask R-CNN; Cascade Mask R-CNN和一级探测器RetinaNet也观察到类似的趋势（附录中的图5详细数字见附录（表9）。Swin/MViTv 2的分层对应物，包括使用IN-21 K监督预训练的那些我们用ViT-H的结果比用MViTv 2-H的结果好2.6此外，普通ViT具有更好的挂钟性能（图3右侧，参见ViT-Hvs.MViTv 2-H），因为更简单的块对硬件更友好。我们也很好奇MAE对层级骨干的影响。这在很大程度上超出了本文的范围，因为它涉及到为具有MAE的分层骨干找到良好的训练方法。为了提供一些见解，我们用MViTv2主干实现了MAE的简单扩展（参见附录）。我们观察到，在IN-1 K上进行这种MAE预训练的MViTv 2-L比IN-21 K监督预训练的MViTv 2-L好1.3倍（54.9vs. 53.6 AP框）。作为相比之下，对于我们的普通主干检测器，该差距为4个点（表4）。这表明，普通ViT骨干可能比分层骨干更受益于MAE预训练，这表明MAE的自我监督训练可以补偿量表上缺乏归纳偏差。虽然这是一个有趣的未来主题，通过MAE预训练来改进分层骨干，但我们的普通骨干检测器使我们能够使用来自MAE的现成 ViT骨干来实现强大的结果。我们还注意到，层次骨干一般涉及增强自我注意块设计。例子包括Swin中的转移窗口注意力[42]和MViT v1/v2中的集中注意力[17，34]。这些嵌段设计，如果应用于普通骨架，也可以提高精度和参数效率。虽然这可能会使我们的竞争对手处于优势，但我们的方法在没有这些增强的情况下仍然具有竞争力。4.3与以往系统的接下来，我们提供了系统级的比较，在以前的论文中报道的领先的结果我们称我们的系统为ViTDet，即，ViT探测器，瞄准-ViT-HViT-LMViTv2-HMViTv2-LMViTv2-BMViTv2-BMViTv2-LSwin-L维生素T（IN-1维生素BSwin-BSwin-BMViTv2（IN-21K，sup）MViTv2（IN-1K，sup）Swin（IN-21K，ViT-LMViTv2-HMViTv2-BMViTv2-LMViTv2-LMViTv2-BSWin-LVSWiT-B在B维生素T（IN-1MViTv2K、MAE）（IN-21K，sup）SW在BMViTv2Swin（IN（IN-1K，sup）-21K，sup）Swin（IN-1K，sup）AP髁间盒ViT-LMViTv2-HMViTvMV2-BiTv2-LMViTv2-LMViTv2-Swin-LBSwin-BVViT-BMViT（IN-1K，MAE）iTv 2（IN-21 K，超级）Swin-BMVSWiTv 2（IN-1 K，超级）in（IN-21K，+v：mala2255获取更多论文13方法框架预训练单尺度试验AP框AP掩码多尺度试验AP框AP掩码分层骨干检测器：Swin-L [42]HTC++21K，支持57.149.558.050.4MViTv2-L [34]级联21K，支持56.948.658.750.5MViTv2-H [34]级联21K，支持57.148.858.450.1CBNetV2 [36]HTC21K，支持59.151.059.651.8SwinV2-L [41]HTC++21K，支持58.951.260.252.1普通主干检测器：UViT-S [9]级联1000，Supp51.944.5--UViT-B [9]级联1000，Supp52.544.8--ViTDet、ViT-B级联1K，MAE56.048.057.349.4ViTDet、ViT-L级联1K，MAE59.651.160.452.2ViTDet、ViT-H级联1K，MAE60.452.061.353.1表6：与原始论文报告的COCO主要结果的系统级比较。检测框架是CascadeMask R-CNN [4]（表示为在这里，我们比较了使用ImageNet数据（1K或21 K）;[41，11]中使用额外的数据报告了更好的结果。†：[36]结合了两个Swin-L主链。使用ViT骨干进行检测。由于这些比较是系统级的，因此这些方法使用各种不同的技术。虽然我们努力平衡比较（如下所述），但进行完全受控的比较通常是不可行的;相反，我们的目标是在当前领先方法的背景对比一下COCO。表6报告了COCO的系统级比较。为了更公平的比较，在这里我们根据我们的竞争者做了两个改变：我们采用了本表中所有竞争者[42，34，36，41]使用的soft-nms [3]，并在[36，41]之后增加了输入大小（从1024到1280）我们注意到，我们在之前的消融中没有使用这些改进如前所述（第二节）。4.3），我们在这里使用相对位置偏差到目前为止，主要的系统都是基于层次结构的骨干（表6）。这是第一次，我们表明，一个普通的骨干检测器可以实现高度准确的结果COCO，并可以与领先的系统。我们还与UViT [9]进行了比较，这是一种最近的普通骨架检测方法。正如在SEC中所讨论的那样2、UViT和我们的工作有不同的侧重点。UViT旨在设计一个新的普通主干，有利于检测，而我们的目标是支持通用ViT主干，包括[14]中的原始主干尽管关注点不同，但UViT和我们的工作都表明，普通骨架检测是一个有前途的方向，具有很强的潜力。对比一下LVIS。我们进一步报告了LVIS数据集上的系统级比较[23]。LVIS包含1203个类的2000万个高质量实例分割符号，这些类呈现自然的长尾对象分布。+v：mala2255获取更多论文罕见方法预训练AP屏蔽AP屏蔽罕见AP髁间盒14分层骨干检测器：复制-粘贴[19]，Eff-B7 FPN无（随机初始化）36.029.739.2Detic [58]，Swin-B21 K，sup;夹子41.741.7-2021年比赛冠军[18]基线，†21K，支持43.134.3-2021年比赛冠军[18]完整，†21K，支持49.245.4-普通主干检测器：ViTDet、ViT-L1K，MAE46.034.351.2ViTDet、ViT-H1K，MAE48.136.953.4表7：与原始论文报告的LVIS（v1val）主要结果的所有结果均未增加试验时间Detic [58]使用预训练的CLIP [44]文本嵌入。†：这些条目使用结合两个Swin-L主链的CBNetV 2[36]与COCO不同，类分布严重不平衡，许多类只有很少的类（例如，<10）训练实例。我们遵循与COCO系统级比较相同的模型和训练细节，加上两个常见的LVIS实践：[59]并使用重复因子采样对图像进行采样[23]。我们在v1列车分裂上微调了100个epoch。表7显示了v1val分割的结果。我们的普通骨干侦探 tor实现了具有竞争力的性能，以前的领先结果都使用分层骨干。我们的比2021年比赛冠军的“强基线”高出5.0分43.1APmask），它使用HTC与CBNetV 2 [36]，结合了两个Swin-L骨干。LVIS中的一个特殊问题是长尾分布，这超出了我们的研究范围。致力于此问题的技术，使用CLIP [44]文本嵌入或[18]的其他改进，可以大大增加稀有类（AP掩码）上的AP，从而提高整体AP。这些与我们的方法正交，可以互补。然而，我们在LVIS上的结果再次表明，普通主干检测器可以与层次检测器竞争5结论我们的探索表明，普通主干检测是一个很有前途的研究方向。这种方法在很大程度上保持了通用主干和下游特定任务设计的独立性，这是基于ConvNet的研究的情况，但不是基于Transformer的研究。我们希望将预培训与微调分离是一种普遍有利于社区的方法例如，在自然语言处理（NLP）中，通用预训练（GPT[45]，BERT [13]）极大地推进了该领域，并一直支持各种下游任务。在这项研究中，我们的普通主干检测器受益于来自MAE的现

下载后可阅读完整内容，剩余1页未读，立即下载