无卷积PVT：通用主干解决密集预测任务

112 浏览量更新于2024-06-20 收藏 744KB PDF 举报

本文主要探讨了无卷积稠密预测的金字塔视觉Transformer网络架构，即PyramidVisionTransformer (PVT)，这是一种创新的计算机视觉模型，针对传统的CNN（如VGG和ResNet）在密集预测任务（如对象检测 DET、实例分割 SEG 和图像分类 CLS）中的局限性进行了改进。相比于专门为图像分类设计的视觉Transformer (ViT)，PVT具有以下显著特点： 1. **多任务适应性**: PVT设计了一个通用的主干结构，能够适应多种视觉任务，不仅局限于图像分类，而是扩展了ViT的应用范围，使得它成为处理密集预测问题的理想选择。 2. **解决分辨率和计算效率问题**: PVT不同于ViT，后者通常输出低分辨率结果并导致较高的计算和存储需求。PVT通过在图像密集区域训练并采用渐进收缩金字塔结构，解决了这个问题，允许模型在保持高分辨率输出的同时降低计算复杂度。 3. **融合CNN和Transformer的优势**: PVT结合了CNN和Transformer的优点，既保留了卷积网络在局部特征捕获方面的优势，又利用了Transformer在全局信息处理上的能力。这使得PVT能够在不使用卷积的情况下，提供更好的性能和灵活性。 4. **与DETR的集成**: 文章提到，PVT可以与DETR（一种基于Transformer的对象检测方法）无缝整合，创建一个无卷积的端到端对象检测系统，进一步展示了其在实际应用中的潜力。 5. **实验验证**: 通过实验，研究者证明了PVT在性能上超越了现有的技术，并且作为CNN主干的替代方案，它在视觉任务中展现出了良好的表现。总结来说，本文的主要贡献在于提出了一种新的视觉Transformer架构，即PVT，它通过改进的网络结构和设计，有效地应对了密集预测任务的需求，同时兼顾了计算效率和性能，为计算机视觉领域的研究提供了新的思考方向。

570

相关工作

2.1.

CNN骨干网

CNN是视觉识别中的深度神经网络的工作马标准的

CNN最早是在1999年推出的。

[33]区分手写数字。该模型包含卷积核，具有捕获有

利视觉上下文的特定感受野。为了提供平移等方差，

在整个图像空间上共享卷积核的权重。最近，随着计

算资源的快速发展（

例如，

，GPU），在大规模图像分

类数据集上成功训练堆叠卷积块[32，53]（

例如，

，

ImageNet [50]）已经成为可能。例如，GoogLeNet [58]

证明了包含多个内核路径的卷积运算符可以实现非常

有竞争力的性能。多径卷积块的有效性在Inception系

列[59，57]，ResNeXt [72]，DPN [9]，MixNet [64]和

SKNet [35]中得到了进一步验证。此外，ResNet [21]将

跳过连接引入到卷积块中，使得创建/训练非常深度的

网络成为可能，DenseNet [24]介绍了一种密集连接的

拓扑结构，它将每个卷积块连接到所有先前的块。最

近的进展可参见最近的调查/综述论文[30，52]。与成

熟的CNN不同，Vision Transformer骨干网仍处于早期

开发阶段。在这项工作中，我们试图通过设计一个新

的多功能Transformer主干来扩展Vision Transformer的

范围。

对于大多数视觉任务。

2.2.

密集预测任务

初步的。密集预测任务旨在对特征图执行像素级分

类或回归。目标检测和语义分割是两个典型的稠密预

测任务。

物体检测。在深度学习时代，CNN [33]已成为对象

检测的主要框架，其中包括单级检测器（

例如，

、

SSD [42] 、 RetinaNet [38] 、 FCOS [61] 、 GFL [36 ，

34]、Po-

larMask [70]和OneNet [54]）和多级检测器（Faster R-

CNN [48]，Mask R-CNN [20]，Cascade R-CNN

[4]和稀疏R-CNN [56]）。这些流行的目标检测器大多

建立在高分辨率或多尺度特征图上，以获得良好的检

测性能。最近，DETR [5]和可变形DETR [82]将CNN

主干和Transformer解码器结合起来，构建了一个端到

端的对象检测器。同样，它们还需要高分辨率或多尺

度特征图以用于准确的对象检测。

语义分割。CNN在语义分割中也起着重要作用。在

早期阶段，FCN

[43]介绍了一种完全卷积的架构，以生成任何给定图

像的空间分割图

尺寸之后， Noh等人引入了反卷积操作

。

[46] 并在

PASCAL VOC 2012数据集上取得了令人印象深刻的性

能[51]。受FCN的启发，U-Net [49]特别针对医学图像

分割领域提出，桥接相同空间大小的相应低级和高级

特征图之间的信息流为了探索更丰富的全局上下文表

示，Zhao

等人。

[79]设计了各种池化尺度的金字塔池

化模块，Kirillov

等人。

[31]基于FPN [ 37 ]开发了一种

称为Seman- tic FPN的轻量级分段头。最后，DeepLab

家族[7，40]应用扩张卷积来扩大感受野，同时保持特

征图分辨率。与对象检测方法类似，语义分割模型也

依赖于高分辨率或多尺度特征图。

2.3.

视觉中的自我注意与Transformer

由于卷积滤波器权重通常在训练后是固定的，因此

它们不能动态地适应不同的输入。已经提出了许多方

法来缓解这个问题，使用动态过滤器[29]或自注意操

作[63]。非局部块[69]试图在空间和时间上对长程依赖

性进行建模，这已被证明有利于准确的视频分类。然

而，尽管它的成功，非本地操作者遭受高的计算和存

储成本。Criss-cross [25]通过交叉路径生成稀疏注意力

图进一步降低了复杂性。Ramachandran

等人。

[47]提

出了独立的自我注意力，以用局部自我注意力单元取

代卷积层。AANet [3]在结合自注意和卷积操作时实现

了有竞争力的结果。LambdaNetworks [2]使用 lambda

层，一种有效的自我注意力来取代 CNN 中的卷积

DETR [5]利用Transformer解码器将对象检测建模为具

有可学习查询的端到端字典查找问题，成功地消除了

对NMS等手工流程的需求。基于DETR，可变形DETR

[82]进一步采用可变形注意力层来关注稀疏的上下文

元素集，从而获得更快的收敛和更好的性能。最近，

Vision Transformer（ViT）[12]采用纯Transformer [63]

模型进行图像分类，将图像视为补丁序列。DeiT [62]

使用新的蒸馏方法进一步扩展了ViT。与以往的模型不

同，这项工作将金字塔结构引入Transformer，为密集

预测任务呈现一个纯Transformer骨干，而不是特定于

任务的头部或图像分类模型。

Pyramid Vision Transformer

（

PVT

）

3.1.

整体架构

我们的目标是将金字塔结构引入到Transformer框架

中，使其能够生成多尺度

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无卷积PVT：通用主干解决密集预测任务

视频人脸识别中高效分解卷积与时间金字塔网络研究.pdf

如何理解金字塔视觉Transformer（PVT）在密集预测任务中的优势？与传统的CNN相比，它如何在无卷积架构下提升性能？

MaxViT：融合卷积的高效可扩展视觉Transformer

深度卷积网络架构研究：创新与分类

一维视觉Transformer与多尺度卷积融合轴承故障诊断

卷积网络后加一层transformer

在不使用卷积层的情况下，金字塔视觉Transformer(PVT)是如何实现高效率与高性能的密集预测任务？请详细说明其相比于传统CNN的关键优势。

transformer架构和卷积神经网络的区别

卷积神经网络transformer

卷积网络加transformer

最新资源