普通ViT作为对象检测新支柱：非分层架构的竞争力研究

166 浏览量更新于2024-06-19 收藏 755KB PDF 举报

本文主要探讨了普通Transformer（ViT）在网络架构中作为目标检测任务的骨干网络的应用潜力。传统的目标检测系统通常由分层的卷积神经网络（ConvNet）构成，其中包含通用特征提取器和针对检测任务专门设计的模块，如RoI操作、RPN和FPN。然而，作者提出了一种创新的方法，即不依赖于分层结构，而是将原始ViT的非分层和单一尺度特性用于目标检测。论文的关键发现包括： 1. 单尺度特征金字塔：研究者发现，即使没有常见的FPN，一个基于ViT的简单特征金字塔也足以支持有效的目标检测。这表明，ViT的单一尺度处理能力可以被巧妙地扩展，无需复杂的金字塔结构。 2. 窗口注意力与少跨窗口传播：窗口注意力机制在没有显著的窗口移动操作下，证明对跨越窗口的传播块的需求极小，这简化了模型设计，并提高了效率。 3. 掩码自动编码器预训练：通过将ViT预训练为掩码自动编码器（MAE），所提出的检测器ViTDet能够在仅使用ImageNet-1K预训练的情况下，与基于分层骨干的传统方法展开竞争，甚至在COCO数据集上的AP框性能表现相当。 4. 通用性与独立性：研究强调了将通用主干与检测特定模块分开设计的价值，这样可以允许两者各自独立发展，从而在实践中优化目标检测的性能。 5. 代码开源：论文的代码开源，使得研究人员能够直接获取和进一步开发ViTDet模型，推动了该领域的技术交流和进步。这篇论文挑战了传统的多尺度分层架构在目标检测中的主导地位，展示了普通ViT作为骨干网络在无需重新设计或大幅修改的情况下，也可以在目标检测任务中取得优秀的表现。这为未来的深度学习研究开辟了新的可能性，尤其是在探索非传统架构在计算机视觉任务中的应用。

+v：mala2255获取更多论

文

1/16

1/32

1/16

1/8

四分之一

1 1

1/16

1/32

1/16

三十二分之一

/16

1/16 1/8 1/8

1/16

四分之一

(a) FPN，4阶段（b）FPN，最后一个地图（c）简单特征金字塔

图2：在普通主干上构建功能金字塔。（a）类FPN：为了模仿分层骨干，普通

骨干被人为地分成多个阶段。（

）类似于

FPN

，但仅使用最后一个特征图而

没有阶段划分。（c）我们的简单特征金字塔，没有FPN。在所有三种情况下，

每当尺度改变时，都会使用步幅卷积

去卷积。

如果主干是非分层的，则FPN动机的基础丢失，因为主干中的所有特征图具

有相同的分辨率。在我们的场景中，我们只使用主干中的

最后

一个特征映射，

它应该具有最强的特征。在这个地图上，我们

并行

应用一组卷积或去卷积来生

成多尺度特征地图。具体来说，使用默认的比例尺为

的

ViT特征图（步幅= 16

[14]），我们生成

尺度的特征图

{

，

}

，

，，

}，

其中分数步幅指示去卷积。我们称之为“简单的

特征金字塔

从单个地图构建多尺度特征地图的策略与SSD的策略相关[40]。然而，我们

的场景涉及从深，低分辨率的特征图进行

上采样

，不像[40]，它利用较浅的特

征图。在分层骨干中，上采样通常由横向连接辅助[37];在普通ViT骨干中，我

们根据经验发现这是不必要的（第12节）。4）和简单的解卷积就足够了。我们

假设这是因为

ViT

可以依赖于位置嵌入

[54]

来编码位置，并且还因为高维

ViT

补

丁嵌入不一定丢弃信息。

我们将比较两个

FPN

的变种，也是建立在一个平原回来

骨（图2）。在第一种变体中，主干被人为地划分为多个阶段，以模仿分层主干

的阶段，并应用横向和自上而下的连接（图

（

））

[16]

。第二种变体与第一

种变体类似，但只使用最后一个映射而不是划分的阶段（图

（

））。我们证

明这些

FPN

变体是不必要的（第二节）。

）。

脊柱适应。对象检测器受益于高分辨率的输入图像，但是在整个主干上计算全

局自我注意力在存储器中是禁止的并且是缓慢的。在这项研究中，我们专注于

预先训练的骨干执行全局自我注意的场景，然后在微调过程中适应更高分辨率

的输入。这与最近

当图像块大小为16

16，颜色为3时，隐藏维数

≥

768（ViT-B或更大）可以

在必要时保留图像块的所有信息。

从更广泛的角度来看，

FPN [ 37 ]

的精神是

“

在网络内部构建功能金字塔

”

。我

们简单的特征金字塔遵循这种精神。在本文的上下文中，术语“FPN”指

的是[ 37 ]中的特定架构设计。

利用步幅

剩余20页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

普通ViT作为对象检测新支柱：非分层架构的竞争力研究

以Swin Transformer作为骨干网络的YoloX目标检测项目.zip

transformer用于目标检测

transformer 用于目标检测

swin transformer可以用于局部目标检测吗

transformer用于目标检测实现过程

基于Swin Transformer作为骨干网络的YoloX目标检测模型的python实现源码+模型+运行说明文档.tar

swin transformer用于目标检测的可行性分析

基于transformer的多尺度目标检测

Swin Transformer如何作小目标检测

transformer目标检测的研究意义

最新资源