普通ViT作为对象检测新支柱:非分层架构的竞争力研究

0 下载量 166 浏览量 更新于2024-06-19 收藏 755KB PDF 举报
本文主要探讨了普通Transformer(ViT)在网络架构中作为目标检测任务的骨干网络的应用潜力。传统的目标检测系统通常由分层的卷积神经网络(ConvNet)构成,其中包含通用特征提取器和针对检测任务专门设计的模块,如RoI操作、RPN和FPN。然而,作者提出了一种创新的方法,即不依赖于分层结构,而是将原始ViT的非分层和单一尺度特性用于目标检测。 论文的关键发现包括: 1. 单尺度特征金字塔:研究者发现,即使没有常见的FPN,一个基于ViT的简单特征金字塔也足以支持有效的目标检测。这表明,ViT的单一尺度处理能力可以被巧妙地扩展,无需复杂的金字塔结构。 2. 窗口注意力与少跨窗口传播:窗口注意力机制在没有显著的窗口移动操作下,证明对跨越窗口的传播块的需求极小,这简化了模型设计,并提高了效率。 3. 掩码自动编码器预训练:通过将ViT预训练为掩码自动编码器(MAE),所提出的检测器ViTDet能够在仅使用ImageNet-1K预训练的情况下,与基于分层骨干的传统方法展开竞争,甚至在COCO数据集上的AP框性能表现相当。 4. 通用性与独立性:研究强调了将通用主干与检测特定模块分开设计的价值,这样可以允许两者各自独立发展,从而在实践中优化目标检测的性能。 5. 代码开源:论文的代码开源,使得研究人员能够直接获取和进一步开发ViTDet模型,推动了该领域的技术交流和进步。 这篇论文挑战了传统的多尺度分层架构在目标检测中的主导地位,展示了普通ViT作为骨干网络在无需重新设计或大幅修改的情况下,也可以在目标检测任务中取得优秀的表现。这为未来的深度学习研究开辟了新的可能性,尤其是在探索非传统架构在计算机视觉任务中的应用。