无卷积稠密预测的金字塔视觉Transformer网络架构的研究

107 浏览量更新于2023-10-13 收藏 744KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1转换4转换3转换2任务1. CLS2. DET3. SEG...转换1任务1. CLSL×TF-ETransformer块TF-E 4TF-E 3TF-E 2任务1. CLS2. DET3. SEG...Li×TF-E 1收缩Transformer块Pyramid Vision Transformer：一种用于无卷积稠密预测的通用主干王文海1、谢恩泽2、李翔3、范登平4、宋凯涛3、丁亮5、佟璐1、罗平2、邵凌41南京大学2香港大学3南京理工大学4IIAI5商汤科技https://github.com/whai362/PVT(a) CNN：VGG [53]、ResNet [21]等。(b) [12]第十二话(c) Pyramid Vision Transformer（我们的）图1：不同架构的比较，其中（a）许多CNN主干使用金字塔结构进行密集预测任务，例如对象检测（DET）、实例和语义分割（SEG）。（b）最近提出的视觉Transformer（ViT）[12]是专门为图像分类（CLS）设计的(c)通过结合CNN的金字塔结构，我们提出了金字塔视觉Transformer（PVT），它可以用作许多计算机视觉任务的多功能骨干，扩大了ViT的范围和影响。此外，我们的实验还表明，PVT可以很容易地与DETR [5]结合起来，构建一个没有卷积的端到端对象检测系统。摘要虽然卷积神经网络（CNN）在计算机视觉方面取得了巨大成功，但这项工作研究了一种更简单，无卷积的骨干网络，可用于许多密集预测任务。与最近提出的视觉Transformer（ViT），专门为图像分类，我们介绍了金字塔视觉变压器（PVT），它克服了移植变压器到各种密集的预测任务的困难。与现有技术相比，PVT具有若干优点。(1)与通常产生低分辨率输出并导致高计算和存储成本的ViT不同，PVT不仅可以在图像的密集分区上训练以实现高输出分辨率，这对于密集预测很重要，而且还使用渐进收缩金字塔来减少大特征图的计算。(2)PVT继承了CNN和Transformer的优点，使其成为各种应用的统一骨干通讯作者：范登平（ dengpfan@gmail.com ） ; 童璐（lutong@nju.edu.cn）。我们的视觉任务没有卷积，在那里它可以用作CNN主干的直接替代品。(3)我们通过大量的实验验证了PVT，表明它提高了许多下游任务的性能，包括对象检测，实例和语义分割。例如，在相当数量的参数下，PVT+RetinaNet在COCO数据集上达到40.4 AP，超过 ResNet50+RetinNet （ 36.3 AP ） 4.1 绝对 AP （见图2）。我们希望PVT可以作为像素级预测的替代和有用的支柱，并促进未来的研究。1. 介绍卷积神经网络（CNN）在计算机视觉中取得了显著的成功，使其成为几乎所有任务的通用和主导方法[53，21，72，48，20，38，8，31]。尽管如此，这项工作的目的是探索CNN之外的替代骨干网络，该网络可用于密集预测任务，如对象检测[39，13]，语义[81]和实例分割[39]，以及图像分类[11]。568569×××4442403836343230282030405060708090100110120 130#参数（M）图2：COCOval2017的不同骨干使用RetinaNet的对象检测，其中我们看到，当不同模型之间的参数数量是可比较的时，PVT变体显著优于其相应的对应物，如ResNets （ R ）[21]，ResNeXts（X）[72]和ViT [12]。《Transformer》[63]在自然界中的成功在人工语言处理方面，许多研究者已经探索了它在计算机视觉中的应用。例如，一些作品[5，82，71，55，23，41]将视觉任务建模为具有可学习查询的字典查找问题，并使用Transformer解码器作为CNN主干之上的特定于任务的头。尽管一些现有技术也将注意力模块[69，47，78]并入CNN中，但据我们所知，很少研究探索干净且无卷积的。最近，Dosovitskiy等人。 [12]介绍了用于图像分类的Vision Transformer（ViT）。这是用无卷积模型替换CNN骨干的有趣且有意义的尝试。如图1（b）所示，ViT具有柱状结构，其中粗图像块作为输入。1虽然ViT适用于图像分类，但将其直接适用于像素级密集预测（如对象检测和分割）具有挑战性，因为（1）其输出特征图是单尺度和低分辨率的，以及（2）即使对于常见的输入图像大小（例如，大小），其计算和存储器成本也相对较高。，在COCO基准测试中为800像素的较短边缘[39]）。为了解决上述限制，这项工作提出了一个纯Transformer骨干，称为金字塔视觉跨1由于资源限制，ViT无法使用细粒度图像补丁（例如，每片4 × 4个像素）作为输入，而是仅接收粗糙片（例如，每片4 × 4个像素）。，32- 32个像素）作为输入，这导致其低输出分辨率（例如，32 - 32个像素/块）。32-步幅）。前者（PVT），它可以在许多下游任务中作为CNN骨干的替代方案，包括图像级预测以及像素级密集预测。具体地，如图1（c）所示，我们的PVT通过以下方式克服了传统Transformer的困难：（1）采用细粒度图像块（即，，每个补丁4 4像素）作为输入来学习高分辨率表示，这对于密集预测任务是必不可少的;（2）引入渐进收缩金字塔以随着网络的加深而减少Transformer的序列长度，从而显著降低计算成本，以及（3）采用空间减少注意力（SRA）层以进一步减少资源消耗。在学习高分辨率特征时。总的来说，所提出的PVT具有以下优点。首先，与具有随网络深度增加的局部感受野的传统CNN主干（参见图1（a））相比，我们的PVT总是产生全局感受野，这更适合于检测和分割。其次，与ViT（参见图1（b））相比，由于其先进的金字塔结构，我们的方法可以更容易地插入到许多代表性的密集预测流水线中，例如。，RetinaNet [38]和Mask R-CNN [20]。第三，我们可以通过将我们的PVT与其他特定于任务的Transformer解码器（例如PVT+DETR [5]）组合来构建无卷积流水线，据我们所知，这是第一个完全无卷积的对象检测流水线。我们的主要贡献如下：(1) 我们提出了 PyramidVisionTransformer（PVT），这是第一个专为各种像素级密集预测任务设计的纯Transformer主干。结合我们的PVT和DETR，我们可以构建一个端到端的对象检测系统没有卷积和手工制作的组件，如密集锚和非最大抑制（NMS）。(2) 我们克服了许多困难时，移植Trans-former密集的预测，通过设计一个渐进的收缩金字塔和空间减少注意力（SRA）。这些都能够减少资源消耗的trans-former，使PVT灵活地学习多尺度和高分辨率的功能。(3) 我们在几个不同的任务上评估了所提出的PVT，包括图像分类，对象检测，实例和语义分割，并将其与流行的ResNets [21]和ResNeXts [72]进行比较。如图2所示，与现有技术相比，我们的具有不同参数标度的PVT可以一致地归档改进的性能。例如，在相当数量的参数下，使用RetinaNet [38]进行对象检测，PVT-Small在COCOval 2017上实现了40.4 AP，比ResNet 50高出4.1分（40.4vs.36.3）。此外，PVT-Large实现了42.6 AP，比ResNeXt 101 - 64 x4 d高1.6分，参数减少了30%。PVT-MPVT-LPVT-SX101-64x4dX101-32x4d主干#参数（M）APPVT-TR101R50R18[21] 21.3 31.8PVT-T（我们的）23.0 36.7R50 [21] 37.7 36.3PVT-S（我们的）34.2 40.4[21] 56.7 38.5X101-32x4d [72] 56.4 39.9ViT-S/32ViT-S/32 [12] 60.8 31.7PVT-M（我方）53.9 41.9X101-64x4d [72] 95.5 41.0PVT-L（我们的）71.1 42.6COCO BBox AP（%）5702. 相关工作2.1. CNN骨干网CNN是视觉识别中的深度神经网络的工作马标准的CNN最早是在1999年推出的。[33]区分手写数字。该模型包含卷积核，具有捕获有利视觉上下文的特定感受野。为了提供平移等方差，在整个图像空间上共享卷积核的权重。最近，随着计算资源的快速发展（例如，，GPU），在大规模图像分类数据集上成功训练堆叠卷积块[32，53]（例如，，ImageNet [50]）已经成为可能。例如，GoogLeNet [58]证明了包含多个内核路径的卷积运算符可以实现非常有竞争力的性能。多径卷积块的有效性在Inception系列[59，57]，ResNeXt [72]，DPN [9]，MixNet [64]和SKNet [35]中得到了进一步验证。此外，ResNet [21]将跳过连接引入到卷积块中，使得创建/训练非常深度的网络成为可能，DenseNet [24]介绍了一种密集连接的拓扑结构，它将每个卷积块连接到所有先前的块。最近的进展可参见最近的调查/综述论文[30，52]。与成熟的CNN不同，Vision Transformer骨干网仍处于早期开发阶段。在这项工作中，我们试图通过设计一个新的多功能Transformer主干来扩展Vision Transformer的范围。对于大多数视觉任务。2.2. 密集预测任务初步的。密集预测任务旨在对特征图执行像素级分类或回归。目标检测和语义分割是两个典型的稠密预测任务。物体检测。在深度学习时代，CNN [33]已成为对象检测的主要框架，其中包括单级检测器（例如，、SSD [42] 、 RetinaNet [38] 、 FCOS [61] 、 GFL [36 ，34]、Po-larMask [70]和OneNet [54]）和多级检测器（Faster R-CNN [48]，Mask R-CNN [20]，Cascade R-CNN[4]和稀疏R-CNN [56]）。这些流行的目标检测器大多建立在高分辨率或多尺度特征图上，以获得良好的检测性能。最近，DETR [5]和可变形DETR [82]将CNN主干和Transformer解码器结合起来，构建了一个端到端的对象检测器。同样，它们还需要高分辨率或多尺度特征图以用于准确的对象检测。语义分割。CNN在语义分割中也起着重要作用。在早期阶段，FCN[43]介绍了一种完全卷积的架构，以生成任何给定图像的空间分割图尺寸之后，Noh等人引入了反卷积操作。 [46]并在PASCAL VOC 2012数据集上取得了令人印象深刻的性能[51]。受FCN的启发，U-Net [49]特别针对医学图像分割领域提出，桥接相同空间大小的相应低级和高级特征图之间的信息流为了探索更丰富的全局上下文表示，Zhao等人。[79]设计了各种池化尺度的金字塔池化模块，Kirillov等人。 [31]基于FPN [ 37 ]开发了一种称为Seman- tic FPN的轻量级分段头。最后，DeepLab家族[7，40]应用扩张卷积来扩大感受野，同时保持特征图分辨率。与对象检测方法类似，语义分割模型也依赖于高分辨率或多尺度特征图。2.3. 视觉中的自我注意与Transformer由于卷积滤波器权重通常在训练后是固定的，因此它们不能动态地适应不同的输入。已经提出了许多方法来缓解这个问题，使用动态过滤器[29]或自注意操作[63]。非局部块[69]试图在空间和时间上对长程依赖性进行建模，这已被证明有利于准确的视频分类。然而，尽管它的成功，非本地操作者遭受高的计算和存储成本。Criss-cross [25]通过交叉路径生成稀疏注意力图进一步降低了复杂性。Ramachandran等人。[47]提出了独立的自我注意力，以用局部自我注意力单元取代卷积层。AANet [3]在结合自注意和卷积操作时实现了有竞争力的结果。LambdaNetworks [2]使用lambda层，一种有效的自我注意力来取代CNN中的卷积DETR [5]利用Transformer解码器将对象检测建模为具有可学习查询的端到端字典查找问题，成功地消除了对NMS等手工流程的需求。基于DETR，可变形DETR[82]进一步采用可变形注意力层来关注稀疏的上下文元素集，从而获得更快的收敛和更好的性能。最近，Vision Transformer（ViT）[12]采用纯Transformer [63]模型进行图像分类，将图像视为补丁序列。DeiT [62]使用新的蒸馏方法进一步扩展了ViT。与以往的模型不同，这项工作将金字塔结构引入Transformer，为密集预测任务呈现一个纯Transformer骨干，而不是特定于任务的头部或图像分类模型。3. Pyramid Vision Transformer（PVT）3.1. 整体架构我们的目标是将金字塔结构引入到Transformer框架中，使其能够生成多尺度57142--我42P21234PiPi×××图3：金字塔视觉Transformer（PVT）的整体架构。整个模型分为四个阶段，每个阶段由补丁嵌入层和L1层Transformer编码器组成。遵循金字塔结构，四个阶段的输出分辨率从高（4步）到低（32步）逐渐缩小。用于密集预测任务的特征图（例如，对象检测和语义分割）。PVT的概述如图3所示。类似于CNN主干[21]，我们的方法有四个阶段，生成不同尺度的特征图所有阶段共享类似的架构，其由补丁嵌入层和L1Transformer编码器层组成。在第一阶段中，给定大小为H×W×3的输入图像，多头注意Q K V多头注意��iWi×2012年1月Q KV（i��Wi）×i空间缩小注意力（我们的）我们首先将其划分为硬件补丁，每个补丁大小为2个4×4×3。图4：多头关注（MHA） vs. 空间-然后，我们将展平的补丁馈送到线性投影，并获得大小为HWC的嵌入补丁。之后，嵌入的补丁连同位置嵌入一起通过具有L1层的Transformer编码器，并且输出被整形为大小为H×W×C1的特征图F1。减少注意力（SRA）。与空间减少操作，我们的SRA的计算/存储器的成本是远远低于MHA。然后将每个面片展平并投影到C维以相同的方式，使用来自预处理阶段的特征图作为输入，我们获得以下特征图：F、F和F，其步长相对于输入图像为8、16和32个像素。通过特征金字塔F1，F2，F3，F4，我们的方法可以很容易地应用于大多数下游任务，包括图像分类、对象去保护和语义分割。3.2. Transformer的特征金字塔与CNN骨干网络[53，21]不同，CNN骨干网络使用不同的卷积步长来获得多尺度特征图，我们的PVT使用渐进式收缩策略通过补丁嵌入层来控制特征图的尺度。这里，我们将第i阶段的补丁大小表示为Pi。在阶段i的开始，我们首先将输入的fea-我嵌入在线性投影之后，嵌入的面片的形状可以被看作是Hi−1Wi−1C i，其中高度和宽度比输入小P i倍。通过这种方式，我们可以灵活地调整每个阶段的特征图的比例，从而可以为Transformer构建特征金字塔。3.3. Transformer编码器阶段i中的Transformer编码器具有L1个编码器层，每个编码器层由关注层和前馈层组成[63]。由于PVT需要处理高分辨率（例如，，4-步幅）特征图，我们提出了空间减少注意力（SRA）层来替换编码器中的传统多头注意力（MHA）层[63]。真地图Fi−1∈RHi−1×Wi−1×Ci−1到Hi−1Wi−1面片，和与MHA类似，我们的SRA收到一个查询 Q，密钥K，2与ResNet一样，我们将输出特征图的最高分辨率保持在4步。和值V作为输入，并输出细化特征。不同的是，我们的SRA减小了K的空间尺度��×��×3��：1 414��：2828��： ��×�� ×��3 16 163��：$32 32$阶段1阶段2阶段3阶段4重塑重塑工位埋Wi“1i”1逐元素添加×��我贴片$我��i“1×Wi“1Embedding��i“1×Wi“ 1特征图iiii×��i×（��$��ii-1Transformer编码器（Li×）SRA一阶段空间缩减规范多头注意规范线性前馈编码器面片嵌入编码器多头注意面片嵌入编码器面片嵌入空间缩小规范编码器面片嵌入我572我∈∈Ni·R∈i·我J--JJ2我我我Sj jj2和V之前的注意力操作（见图4），这大大减少了计算/内存开销。阶段i中的SRA的细节可以用公式表示如下：SRA（Q，K，V）=Concat（头0，…标题N）WO，（1）头j=注意（QWQ，SR（K）WK，SR（V）WV），（2）真实映射并减少计算/存储器成本。受益于上述设计，我们的方法相对于ViT具有以下优点：1）更灵活-可以在不同阶段生成不同尺度/通道的特征图; 2）更通用--可以在大多数下游任务模型中轻松即插即用; 3）对计算/存储器更友好-可以处理更高分辨率的特征图或更长的序列。4. 应用于下游任务其中Concat（·）是如[63]中的级联操作WQ∈RCi×d头，WK∈RCi×d头，WV∈RCi×d头，且W ORCi× Ci是线性投影参数。N i是阶段i中的注意层的头编号。因此，每个头部的尺寸（i. e. ，dhea d）等于Ci。SR（）是用于减小输入序列的空间维度的操作（即，，K或V），其被写为：SR（x）= Norm（Reshape（x， Ri）WS）。（3）这里，XR（HiWi）XCi表示输入序列，并且Ri表示图1中的关注层的减少比率。第一阶段Reshape（x，R i）是将输入序列x整形为大小为HiWi×（R2C）的序列的操作。WR（RCi）× Ci是一个线性投影，它将输入序列的维数降到C i。Norm（）是指层归一化[1]。如在原始Transformer [63]中，我们的注意力操作Atension（·）被计算为：qkT4.1. 图像级预测图像分类是图像级预测中最经典的任务.为了提供讨论的实例，我们设计了一系列不同尺度的PVT模型，即PVT-Tiny，-Small，-Medium和-Large，其参数编号分别类似于ResNet 18，50，101和152。PVT系列的详细超参数设置见补充资料（SM）。对于图像分类，我们遵循ViT [12]和DeiT [62]将可学习的分类令牌附加到最后一个阶段的输入，然后采用全连接（FC）层在令牌之上进行分类。4.2. 像素级密集预测除了图像级预测之外，需要对特征图执行像素级分类或回归的密集预测也经常出现在下游任务中。在这里，我们讨论两个典型的任务，即对象检测和语义分割。我们将我们的PVT模型应用于三个代表性的致密Attention（q，k，v）=Softmax（softd头）v.（四）预测方法，即RetinaNet [38]，面罩R-通过这些公式，我们可以发现，我们的注意力操作的计算/内存成本比MHA低R2倍，因此我们的SRA可以用有限的资源处理更大的输入特征图/序列。3.4. 讨论与我们的模型最相关的工作是ViT [12]。在这里，我们讨论它们之间的联系和区别。首先，PVT和ViT都是没有向外卷积的纯Transformer模型它们之间的主要区别是金字塔结构。类似于传统的变换器[63]，ViT的输出序列的长度此外，由于有限的资源，ViT的输入是粗粒度的（例如，块大小是16或32个像素），因此其输出分辨率相对较低（例如，16步或32步）。因此，很难将ViT直接应用于需要高分辨率或多尺度特征图的密集预测任务我们的PVT通过引入渐进式收缩金字塔打破了Transformer的常规。它能产生-像传统的CNN骨干一样吃多尺度特征图。此外，我们还设计了一个简单而有效的注意层SRA，用于处理高分辨率的特征向量。CNN [20]和语义FPN [31]。RetinaNet是一种广泛使用的单阶段检测器，Mask R-CNN是最流行的两阶段实例分割框架，而Se-mantic FPN是一种没有特殊操作（例如，使用特定的算法）的普通语义分割方法。扩张卷积）。使用这些方法作为基线使我们能够充分检查不同骨架的有效性。具体实现如下：（1）与ResNet一样，我们使用ImageNet上预先训练的权重初始化PVT主干;（2）我们使用输出特征金字塔F1，F2，F3，F4作为FPN的输入[37]，然后将细化的特征映射馈送到后续的de-保护/分段头;（3）当训练检测/分割模型时，PVT中没有层被冻结;（4）由于用于检测/分割的输入可以是任意形状，因此在ImageNet上预训练的位置嵌入可能不再有意义。因此，我们根据输入分辨率对预训练的位置嵌入执行双线性插值。5. 实验我们比较 PVT 与两个最具代表性的CNN 骨干，即。，ResNet [21]和ResNeXt [72]，它们被广泛用于许573多下游任务的基准测试。574××××××××方法#参数（M）GFLOPS前1位错误（%）[21]第二十一话ResNet18 [21][62]第十六话11.711.75.71.81.81.330.231.527.8PVT-Tiny（我们的）13.21.924.9ResNet50*[21]25.64.123.9ResNet50 [21]25.64.121.5[72]第二十二话25.04.322.4ResNeXt50-32x4d [72]25.04.320.5T2T-ViTt-14 [74]22.06.119.3TNT-S [18]23.85.218.7DeiT-Small/16 [62]22.14.620.1PVT-小型（我们的）24.53.820.2ResNet101*[21]44.77.922.6[21]第二十一话44.77.920.2[72]第 72话44.28.021.2ResNeXt101-32x4d [72]44.28.019.4T2T-ViTt-19 [74]39.09.818.6[12]第十二话48.89.919.2PVT-培养基（我们的）44.26.718.8[72]第72话83.515.620.4ResNeXt101-64x4d [72]83.515.618.5ViT-Base/16 [1]86.617.618.2T2T-ViTt-24 [74]64.015.017.8TNT-B [18]66.014.117.2[62]第62话86.617.618.2PVT-大号（我们的）61.49.818.3表1：图像分类性能的图像-结果在我们的预期之内，因为金字塔结构有利于密集预测任务，但对图像分类带来的改进很少。注意，ViT和DeiT具有局限性，因为它们是专门为分类任务设计的，因此不适用于密集预测任务，密集预测任务通常需要有效的特征金字塔。5.2.对象检测设置. 目标检测实验在具有挑战性的COCO基准上进行[39]。所有模型均在COCOtrain2017（118k图像）上进行训练，并在val2017（5k图像）上进行评估。我们在两个标准检测器上验证了PVT主干的有效性，即RetinaNet [38]和Mask R-CNN [20]。在训练之前，我们使用ImageNet上预先训练的权重来初始化主干，并使用Xavier [17]来初始化新添加的层。我们的模型是在8上训练的，批量大小为16V100 GPU，并由AdamW [45]优化，初始学习率为1×10−4。按照惯例-Tices [38 ， 20 ， 6] 中，我们采用 1 × 或 3× 训练计划（即，、geNet验证集。“#Param”是指参数的数量。“GFLOPs”is calculated under the input scale of “*” indicates theperformance of the method trained under the strategy of itsoriginal5.1.图像分类设置. 图像分类实验在ImageNet 2012数据集[50]上进行，该数据集包括来自1，000个类别的128万张训练图像和50K张验证图像。为了进行公平比较，所有模型都在训练集上训练，并报告验证集上的前1错误。我们遵循DeiT [62]并应用随机裁剪，随机水平翻转[58]，标签平滑正则化[59]，mixup [76]，CutMix [75]和随机时代[80]作为数据增强。在训练过程中，我们使用AdamW [45]，动量为0.9，小批量为128，权重衰减为5 10−2来优化模型。初始学习率设置为1 10−3，并按照余弦时间表[44]降低。所有模型都在8个V100 GPU上从头开始训练300个时期。为了进行基准测试，我们在验证集上应用中心作物，其中224 - 224补丁被裁剪以评估分类精度。结果在表1中，我们看到我们的PVT模型在类似的参数数和计算预算下优于传统的 CNN 主干例如，当GFLOPs 大致相似时， PVT- Small 的 top-1 误差达到20.2，比ResNet 50高1.3个点[21]（20.2vs.21.5）。同时，在类似或更低的复杂度下，PVT模型的性能可与最近提出的基于Transformer的模型（如ViT [12]和DeiT[62]）相媲美（PVT-大型：18.3 vs. ViT（DeiT）-基础/16：18.3）。在此，我们澄清，这些重新-12或36个历元）来训练所有检测模型。调整训练图像的大小以具有800像素的较短边，而较长边不超过1，333像素。当使用3训练计划时，我们在[640，800]范围内随机调整输入图像的短边大小。在测试阶段，输入图像的短边固定为800像素。结果如表2所示，当使用RetinaNet进行对象检测时，我们发现在相当数量的参数下，基于PVT的模型显着优于其对应模型。例如，使用1个训练方案，PVT-Tiny的AP比ResNet 18的AP好4.9分（36.7vs.31.8）。此外，通过3个训练时间表和多尺度训练，PVT-Large获得了43.4的最佳AP，超过了ResNeXt 101 - 64 x4 d（43.4vs.41.8），而我们的参数数量少了30%。这些结果表明，我们的PVT可以是CNN骨干的一个很好的替代对象检测。在基于Mask R-CNN的实例分割实验中发现了类似的结果，如表3所示。在1训练时间表下，PVT-Tiny实现了 35.1 掩模 AP （ APm ），比 ResNet 18 好 3.9 分（35.1vs.31.2），甚至比ResNet50（35.1vs. 34.4）。PVT-Large获得的最佳APm为40.7，比ResNeXt 101 - 64x4 d高1.0个点（40.7vs.39.7），参数减少20%。5.3. 语义分割设置. 我们选择ADE20K [81]，这是一个具有挑战性的场景解析数据集，用于对语义分割的性能进行基准测试。ADE20K包含150个细粒度语义类别，分别有20，210、2，000和3，352个图像用于训练、验证和测试。我们在语义FPN [31]的基础上评估我们的PVT骨干，这是一个简单的方法。575×××骨干#参数（男）RetinaNet 1xRetinaNet 3x + MSAPAP50 AP75APSAPMAPLAPAP50AP75APSAPMAPLResNet18 [21]21.331.849.633.616.334.343.235.453.937.619.538.246.8PVT-Tiny（我们的）23.036.7（+4.9）56.938.922.638.850.039.4（+4.0）59.842.025.542.052.1ResNet50 [21]37.736.355.338.619.340.048.839.058.441.822.442.851.6PVT-小型（我们的）34.240.4（+4.1）61.343.025.042.955.742.2（+3.2）62.745.026.245.257.2[21]第二十一话ResNeXt101-32x4d [72]56.756.438.539.9（+1.4）57.859.641.242.721.422.342.644.251.152.540.941.4（+0.5）60.161.044.044.323.723.945.045.553.853.7PVT-培养基（我们的）53.941.9（+3.4）63.144.325.044.957.643.2（+2.3）63.846.127.346.358.9ResNeXt101-64x4d [72]95.541.060.944.023.945.254.041.861.544.425.245.454.6PVT-大号（我们的）71.142.6（+1.6）63.745.425.846.058.443.4（+1.6）63.646.126.146.059.5表2：COCO val2017上的对象检测性能。“MS”意味着使用多尺度训练[38，20]。骨干#参数（男）掩码R-CNN 1x掩模R-CNN 3x + MSAPBAPB50APB75APmAPm50APm75APBAPB50APB75APmAPm50APm75ResNet18 [21]31.234.054.036.731.251.032.736.957.140.033.653.935.7PVT-Tiny（我们的）32.936.7（+2.7）59.239.335.1（+3.9）56.737.339.8（+2.9）62.243.037.4（+3.8）59.339.9ResNet50 [21]44.238.058.641.434.455.136.741.061.744.937.158.440.1PVT-小型（我们的）44.140.4（+2.4）62.943.837.8（+3.4）60.140.343.0（+2.0）65.346.939.9（+2.8）62.542.8[21]第二十一话ResNeXt101-32x4d [72]63.262.840.441.9（+1.5）61.162.544.245.936.437.5（+1.1）57.759.438.840.242.844.0（+1.2）63.264.447.148.038.539.2（+0.7）60.161.441.341.9PVT-培养基（我们的）63.942.0（+1.6）64.445.639.0（+2.6）61.642.144.2（+1.4）66.048.240.5（+2.0）63.143.5ResNeXt101-64x4d [72]101.942.863.847.338.460.641.344.464.948.839.761.942.6PVT-大号（我们的）81.042.9（+0.1）65.046.639.5（+1.1）61.942.544.5（+0.1）66.048.340.7（+1.0）63.443.7表3：COCO val2017上的对象检测和实例分割性能。AP_b和AP_m分别表示边界框AP和掩模AP.语义FPN表4：ADE20K验证集上不同主干的语义分段性能。“GFLOPs” 在 512 512 的输入比例下计算。 “*” indi-cates 320K iterations training and multi-scale flip没有扩张卷积的ple分割方法[73]。在训练阶段，使用ImageNet [11]上预先训练的权重初始化主干，并使用Xavier [17]初始化其他新添加的层。我们使用AdamW[45]优化我们的模型，初始学习率为1 e-4。按照常见的做法[31，7]，我们在4个V100 GPU上训练我们的模型进行80k次迭代，批量大小为16学习率按照多项式衰减时间表以0.9的幂衰减。我们随机调整图像大小并将其裁剪为512 512用于训练，并在测试期间重新调整为具有512像素的短边。结果如表4所示，当使用语义FPN [31]进行语义分割时，基于 PVT 的模型始终优于基于 ResNet [21] 或ResNeXt [72]的模型。例如，在几乎相同数量的参数和GFLOPs的情况下，我们的PVT-微小/小型/中型至少比方法DETR（50个历元）APAP50 AP75 APSAPMAPLResNet50 [21]32.353.932.310.733.853.0PVT-小型（我们的）34.7（+2.4）55.735.412.036.456.7表5：纯Transformer对象检测流水线的性能。我们通过结合PVT和DETR [5]构建了一个纯Transformer检测器，其AP比基于ResNet50 [21]的原始DETR高2.4点。ResNet-18/50/101。此外，尽管我们的PVT-Large的参数数和GFLOPs比 ResNeXt 101 - 64 x4 d 低20%，但mIoU仍然高出1.9个点（42.1vs.40.2）。通过更长的训练时间表和多尺度测试，PVT-Large+Semantic FPN的最佳mIoU为44.8，非常接近ADE 20 K基准测试的最新性能请注意，语义FPN只是一个简单的分段头。这些结果表明，我们的PVT主干可以提取比CNN主干更好的语义分割特征，受益于全局注意力机制。5.4. 纯Transformer目标检测为了达到无卷积的极限，我们通过简单地将我们的PVT与基于Transformer的检测头- DETR [5]结合，构建了一个纯 Transformer 管道用于对象检测。我们在COCOtrain2017上训练模型50个epoch，初始学习率为1 10−4。在第33个时期，学习率除以10。我们使用随机翻转和多尺度训练作为数据扩充。所有其他实验设置与第2节中的设置相同。五点二。如表5所示，基于PVT的DETR在COCOval2017上达到34.7 AP，优于骨干#参数（M）GFLOPSmIoU（%）ResNet18 [21]15.532.232.9PVT-Tiny（我们的）17.033.235.7（+2.8）ResNet50 [21]28.545.636.7PVT-小型（我们的）28.244.539.8（+3.1）[21]第二十一话ResNeXt101-32x4d [72]47.565.164.738.839.7（+0.9）47.1PVT-培养基（我们的）48.061.041.6（+2.8）576×××××方法#参数（男）RetinaNet 1xAPAP50 AP75APS APM APLViT-Small/4 [12]ViT-Small/32[12]PVT-Small（我们的）60.960.834.2内存不足31.751.332.314.833.7四十七点九40.461.343.025.042.9五十五点七表6：使用RetinaNet进行对象检测的ViT和我们的PVT之间的性能比较。ViT-Small/4由于小补丁大小（即、44个/贴片）。 ViT-Small/32在COCOval 2017，比我们的PVT-Small低8.7分300250200150100500ViT-Small/16ViT-Small/32PVT-Small（我们的）ResNet500 160320480640800960 1120 1280输入比例尺原始的基于ResNet50 的DETR 提高了 2.4分（ 34.7vs.32.3）。这些结果证明，纯Transformer检测器也可以很好地工作在目标检测任务。在SM中，我们还尝试了纯 Transformer 模型 PVT+Trans2Seg [71] 进

下载后可阅读完整内容，剩余1页未读，立即下载