小波视觉变换器：统一小波和变换器实现视觉学习

54 浏览量更新于2023-11-30 收藏 977KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文Wave-ViT：统一小波和变换器用于视觉表示学习Ting Yao1，Yingwei Pan1，Yehao Li1，Chong-Wah Ngo2，and Tao Mei11JD Explore Academy，中国2新加坡管理大学{tingyao.ustc，panyw.ustc，yehaoli.sysu} @ gmail.com，cwngo@smu.edu.sg，tmei@jd.com抽象的。多尺度视觉Transformer（ViT）已经成为计算机视觉任务的强大骨干，而Transformer中的自我注意计算是相对于视觉任务二次缩放的。输入补丁号。因此，现有的解决方案通常采用下采样操作（例如，平均池化）来显著降低计算成本。在这项工作中，我们认为，这种过度积极的下采样设计是不可逆的，不可避免地导致信息下降，特别是对高频成分的对象（例如，纹理细节）。受小波理论的启发，我们构造了一种新的小波视觉变换器（Wavelet Vision Transformer，简称Wave-ViT），它将小波变换的可逆下采样和自注意学习统一起来。该提议使得能够利用对键/值的无损下采样来进行自我注意学习，从而促进追求更好的效率与准确性的权衡。此外，逆小波变换被用来加强自我注意的输出，通过聚合局部上下文与扩大的感受野。我们通过大量的实验验证了Wave-ViT在多个视觉任务（例如，图像识别、对象检测和实例分割）。它的性能超过了最先进的ViT骨干与compa，可FLOPs。源代码可在https://github.com/YehLi/ImageNetModel上获得。关键词：视觉Transformer;小波变换;自注意学习;图像识别1介绍最近，利用Transformer架构[50]进行视觉表示学习在计算机视觉领域取得了广泛的主导地位。Transformer架构为一系列下游视觉任务[4，9，13，29，35，36，37，42，54，65，68]带来了里程碑式的改进，包括图像识别和密集预测任务（例如，对象检测和语义分割）。它的核心是一个基本的自我注意障碍，它触发了视觉标记之间的长距离交互。Vision Transformer（ViT）[13]是早期的尝试之一，它直接在图像补丁上使用纯Transformer，并设法获得与CNN+v：mala2255获取更多论文多头注意q k vDWTConv 3x3IDWT2T. Yao等人原始图像X(a) 离散小波变换（b）小波块(d)离散小波-卷积-逆小波变换Fig. 1. 一个（a）图像上的离散小波变换（DWT）和逆DWT（IDWT）的说明，（b）我们的Wavelet块，以及（c）单个3 × 3卷积和（d）Wavelet块中的DWT-卷积-IDWT过程之间的比较。同行然而，将主要ViT架构使用其单尺度和低分辨率特征图的输出应用于像素级密集预测任务（例如，实例/语义分段）不是微不足道的。因此，考虑到视觉模式通常在自然风景中以多个尺度出现，已经有研究努力通过从多个尺度（例如，, 例如，Pyramid Vision Transformer（PVT）[55，54]将金字塔结构集成到Transformer框架中，为密集预测任务产生多尺度特征图。多尺度视觉变换器（MViT）[14]通过分层扩展通道容量同时降低空间分辨率来学习变换器架构中的多尺度特征在多尺度特征图上应用自注意力的一个主要挑战是关于输入块的数量（即，空间分辨率）。因此，典型的多尺度ViT方法通常执行下采样操作（例如，，[54]中的平均池化或[14]中的池化内核），以降低计算成本。然而，这些基于池化的操作不可避免地导致信息丢失（例如，对象纹理细节的高频分量），从而对性能产生不利影响，尤其是对于密集预测任务。此外，最近的研究（例如，，[66]）也表明，在CNN中应用池化操作会损害深度网络的移位等方差。在本文中，我们提出了小波块通过小波变换进行可逆下采样，旨在保留原始图像的细节，为自注意学习，同时减少计算成本。小波变换是一种基本的时频分析方法，它将输入信号分解成不同的频率子带，以解决混叠问题。特别地，离散小波变换（DWT）[40]通过将2D数据变换成四个离散小波子带（图1（a））来实现可逆下采样：低频分量（ILL）和高频分量（ILH、IHL、IHH）。低频分量反映了粗粒度层次上的基本对象结构，而高频分量则保留了细粒度层次上的对象纹理细节以这种方式，各种级别的图像细节被保留在不同的子带的较低的分辨率没有信息丢弃-平。此外，可以应用逆DWT（IDWT）来重建图像。(c)Conv 3×3DWTIDWTConvDWTIDWT+v：mala2255获取更多论文××小波视觉Transformer 3原始图像。信息保持转换激发了设计一个高效的Transformer块，具有无损和可逆的下采样，用于多尺度特征图上的自注意学习。从技术上讲，如图1（b）所示，Wavelet块首先采用DWT将每个输入键/值转换为四个分辨率较低的子带。在将四个子带堆叠成下采样特征图之后，执行3 - 3卷积以进一步在频率子带上施加空间局部性。这导致局部上下文化的下采样键/值。对下采样的键/值和输入查询进行多头自注意学习。同时，IDWT可以应用于下采样的键/值，以重建保留图像细节的高分辨率特征图。与单个3 3卷积（图1（c））相比，DWT-卷积- IDWT（图1（d））的过程通过扩大的感受野实现了更强的局部情境化，而计算和内存的增加可以忽略不计。最后，我们将通过自注意学习得到的关注特征图与局部上下文化重构的特征图结合起来作为Wavelet块的输出通过在多级Transformer框架中对多尺度特征进行Wavelet块操作，我们提出了一种新的用于视觉表征学习的Wavelet Vision Transformer（Wave- ViT）通过对不同视觉任务的大量实验，对所提出的Wave-ViT进行了更值得注意的是，在相当数量的参数下，Wave-ViT在ImageNet上的图像识别中达到了85.5%的top-1准确率，绝对提高了PVT（83.8%）1.7%。对于COCO上的对象检测和实例分割，Wave-ViT绝对超过PVT，mAP为 1.3%和0.5%，参数减少25.9%2相关工作2.1视觉表示学习过去十年的早期研究主要集中在探索用于视觉表征学习的卷积神经网络（CNN），导致一系列CNN主干，例如，[21，26，27，44，47]. 它们中的大多数通过更深入地堆叠低到高的卷积，旨在生成为图像识别量身定制的低分辨率和高级表示。然而，像实例/语义分割这样的密集预测任务需要高分辨率甚至像素级表示。为了解决这个问题，几个多尺度CNN骨干已经建立。例如，Res2Net[16]提出了一个包含分层残差连接的多尺度构建块。HRNet[52]并行连接高到低分辨率的卷积流，同时重复交换不同分辨率的信息，从而在整个过程中保持高分辨率特征。最近，由于Transformer[50]中强大的远程交互建模，Transformer已经推进了自然语言理解。灵感来自+v：mala2255获取更多论文4吨。Yao等人因此，许多基于transformer的视觉理解架构已经开始。一些尝试用全局自注意力[2]或局部自注意力[22，43，45，69]来增强卷积运算符，产生CNN和Transformer的混合骨干。同时，Vision Transformer（ViT）[13]首先在图像块序列上采用纯Transformer进行图像识别。DETR[4]还利用纯Transformer来构建用于对象检测的端到端检测器。与ViT单独将输入图像划分为块不同，TNT[19]首先将输入分解为若干块作为一个子变压器被额外集成到变压器中，以在较小的“视觉单词”上执行自我注意。随后，为了促进密集预测任务，多尺度范例被引入到Transformer结构中，从而产生多尺度Vision Transformer骨干[14，35，54，55]。特别是，Swin Transformer[35]通过合并更深层的图像块来构建分层特征图，从而升级了ViT。Pyramid Vision Transformer（PVT）[55]设计了一个金字塔结构的Transformer，它在四阶段架构中产生多尺度特征图。PVTv 2[54]通过使用平均池化来减少键/值的空间维度，而不是 PVT 中的卷积，进一步改进了 PVT 。多尺度视觉变换器（MViT）[14]将变换器框架与多尺度特征层次结构集成在一起，并在查询/键/值上使用池化内核进行空间缩减。我们的 Wave-ViT 也是一种多尺度 ViT 。现有的多尺度 ViT （例如：，[14，54，55]）通常采用不可逆的下采样操作，如平均池化或池化核用于空间缩减。相比之下，Wave-ViT利用小波变换，通过可逆下采样来降低键/值的空间维度，以在多尺度特征上进行自注意学习，从而在计算成本和性能之间实现更好的权衡。2.2计算机视觉中的小波变换小波变换是一种有效的时频分析方法。考虑到小波变换是可逆的，并且能够保留所有信息，小波变换已被用于CNN架构中，以提高各种视觉任务的性能例如，在[1]中，Bae等人验证了在小波子带上学习CNN表示可以有利于图像重建的任务。DWSR[18]将低分辨率小波子带作为输入，以恢复图像超分辨率任务中丢失的细节多级小波变换[34] 用于在不丢失信息的情况下扩大感受野，用于图像恢复。Williams等人。[56]利用小波变换将输入特征分解为第二级分解，并丢弃第一级子带以减少图像识别的特征维度。Haar小波CNN与[15]中的多分辨率分析相结合，用于纹理分类和图像注释。在[41]中，ResNet通过将第一层与小波散射网络相结合进行了改造，该网络在图像识别方面具有可比的性能，参数较少。+v：mala2255获取更多论文高x宽x高/2 x宽/2Softmax高/2 x宽/2 x深线性线性键值DS（2，2）高x宽x深线性线性高x宽x深关键线性线性线性高x宽x深∈小波视觉Transformer 5高x宽x深高x宽x深查询高x宽x高x宽Softmax高x宽x深线性值高x宽x深X(a) 自我注意阻滞查询X(b) 自我关注块（2x下采样）X(c) Wavelength模块（2x下采样）图二、（a）ViT骨干中的基本自我注意块的详细架构，(b) 具有下采样操作的自注意块（即，，DS（2，2）），其减少了高度和宽度的空间比例减半，以及（c）我们的Wavelength块，它利用小波变换来实现无损下采样。虽然小波变换已被开发为CNN中的下采样/上采样操作，但从未被探索用于Transformer架构。在这项工作中，我们的Wave-ViT超越了现有的CNN，这些CNN在不同阶段的特征映射上操作小波变换，并利用小波变换对Transformer块内的键/值进行下采样，使特征学习的影响更加彻底。3我们的方法：小波视觉Transformer本节首先简要回顾ViT中最典型的多头自注意块，特别是关于如何缩小自注意块以降低现有多尺度ViT中的计算成本。在此基础上，设计了一种新颖的原理性Transformer构造块，称为Wavelet块，以统一的方式将自注意学习与小波变换集成在一起。这种设计通过利用小波变换执行可逆下采样来升级典型的自注意块，这在不丢失信息的情况下优雅地降低了键/值的空间维度。此外，该块在下采样的键/值上应用逆小波变换以增强具有扩大的感受野的输出。最后，在多级Transformer架构中将Wavelet块应用于多尺度特征之后，我们详细阐述了一种新的多尺度ViT骨干，即。小波视觉Transformer.3.1预赛ViT骨干中的多头自我注意力。主流Transformer架构，尤其是 VisionTransformer骨干[13]，通常依赖于典型的多头自关注，以可扩展的方式捕获输入之间的长期依赖关系。在这里，我们提出了一个一般公式的多头自我注意，如图2（a）所示。从技术上讲，让XRH×W×D是输入的2D特征图，其中H/W/D分别表示高度/宽度/通道数。这里X可以被整形为一个由n = H × W个图像块组成的块序列，每个块的维数为D。我们线性地高x宽x深线性高x宽x高/2 x宽/2Softmax高/2 x宽/2 x高x宽x深/4线性IDWT键值高/2 x宽/2 x深高x宽x深线性查询高x宽x深/4Conv 3x3线性离散小波变换高x宽x深+v：mala2255获取更多论文H∈ ∈∈·O∈×nd∈×DR∈R2226吨。Yao等人将输入补丁序列X并行地变换成三个组：QRn×D，按键KRn×D，值VRn×D。之后，多...头自注意（MultiHead）模块[50]将每个查询 / 键 / 值沿通道维度分解为 NhQj∈Rn×Dh 、键 Kj∈Rn×Dh 和值Vj∈Rn×Dh 对于第j个头。注意，Nh是头部数量，Dh表示每个头部的尺寸。然后，我们对每个头的查询，键和值执行自注意力学习（Attention），每个头的输出被连接起来，然后进行线性变换以组成最终输出：MultiHead（Q，K，V）= Concat（head0，head1，.，标题N）W O，头j=注意力（Qj，Kj，Vj），10、Q=0，QjKjTDh）Vj，（一）其中Concat（）是级联操作，WO是变换矩阵。根据Eq. (1)对于输入特征图XRH×W×D，多头自注意的计算代价为（H2W2D），其尺度为w.r.t.输入的修补程序编号。这样，这种设计不可避免地导致计算成本的急剧上升，特别是用于高分辨率输入。多尺度ViT骨干中的下采样自我注意。为了减轻高分辨率输入的沉重的自注意力计算开销，现有的多尺度ViT骨干通常采用下采样操作（例如，，[54]中的平均池化或[14]中的池化内核）在键/值上进行空间缩减。以图2（b）中的具有2个下采样的自关注块为例，首先对输入的2D特征图X进行下采样，以因子r（在这种情况下r = 2）。这里，下采样算子被表示为DS（2，2），其将高度和宽度的空间尺度减小一半。下一个是n将下采样的特征图线性变换为密钥Kr2和值VdRr2×D以触发多头自注意学习。因此，多头自我注意的总计算成本被显著地降低了r 2的因子（即，，O（HWD））。3.2波浪块虽然上述多尺度ViT骨干通过下采样减少了自注意力计算，但通常采用的下采样操作（如平均池化）是不可逆的，并且不可避免地导致信息丢失。为了缓解这个问题，我们设计了一个原则性的自注意块，称为小波块，它新颖地利用小波变换来实现自注意学习的可逆下采样这种可逆的下采样被无缝地结合到典型的自注意力块中，从而利用无损下采样来追求高效的多头自注意力学习。图2（c）详细介绍了我们的Wavelet模块的架构。+v：mala2255获取更多论文D×D∈R4˜∈×∈R4 . 接下来，我们采用离散小波变换（DWT），˜×do wn-采样输入X22J矩阵WD小波视觉Transformer 7形式上，给定输入2D特征图X∈RH×W×D，我们首先线性地通过embedding将其变换为具有减少的通道维数的Xn=XWd通过将其分解为四个小波子带注意，这里我们选择了经典的HaarwaetfororDWTasin[33]为了简单起见。具体地说，小波变换采用低通滤波器fL=（1/2，1/2）以及高通滤波器fH=（1/2，-1/2），沿着路径将X_n编码为两个子带XL和XH。接下来，沿着学习的子带XL和XH的列采用相同的低通滤波器fL和高通滤波器fH，HWDHWD得到所有四个小波子带：XLL∈R2×2×4，XLH∈R2×2×4，HDWDHWXHL∈R2×2×4，且XHH∈R2×2×4。XLL表示低频组件，它反映了粗粒度级别的基本对象结构。XLH、XHL和XHH表示在细粒度级别保留对象纹理细节的高频分量。这样，每个小波子带可以被看作是X的下采样版本，并且它们都覆盖了输入的每个细节而没有任何信息丢失。我们沿着通道维度连接四个小波子带，形式X=[XLL，XLH，XHL，XHH]R2×2×D。进一步应用3×3卷积来改善X上的空间局部化，从而产生局部局部化纹理化下采样特征图X。接下来，该下采样的特征图Xc被线性变换为下采样的键Kw∈ m×D和值Vw∈ m×D，其中m=H×W是贴片的数量同样，基于小波变换的多因此，对每个头部的查询和对应的下采样键/值执行头部自注意学习AttentionwQjKwTheadj=Attentionw（Qj，Kw，Vw）=Softmax（Q）Vw，（2）j j jDH其中，K w/Vw表示第j个头的第j个采样的keys/v值。J J蒂韦莱这里，每个头部（头部j）的自注意力提取的聚合输出是可以被解释为输入的长范围上下文化信息。作为一个有益的副产品，我们还应用逆DWT（IDWT）在本地上下文中的下采样特征Xc。根据小波理论，重构的特征图Xr能够保留原始输入X的细节信息。值得注意的是，与单个3 × 3卷积相比，Wavelet块中的DWT-卷积-IDWT的这种过程触发了具有扩大的感受野的更强的局部情境化，而计算成本/存储器的增加可以忽略不计。最后，我们将每个头部的所有远程上下文信息加上重建的本地上下文信息Xr连接起来，然后进行线性变换以组成我们的Wavelet块的输出：WaveletsBlock（X）=MultiHeadw（XWq，XcWk，XcWv，Xr），MultiHeadw（Q，K，V，Xr）= Concat（head0，head1，.，头N其中W=O是变换矩阵。，Xr）W=O，（三）高×宽×深H+v：mala2255获取更多论文×8 T. Yao等人表1. Wave-ViT的三种不同型号的详细架构规格，、Wave-ViT-S（小尺寸）、Wave-ViT-B（基本尺寸）和Wave-ViT-L（大尺寸）。Ei、Headi和Ci分别表示前馈层的膨胀比、头数和每级i中的通道尺寸。输出大小Wave-ViT-SWave-ViT-BWave-ViT-L阶段1H W4× 4E1=8头部1= 2× 3C1=64E1=8头部1= 2× 3C1=64E1=8头部1= 3× 3C1=96阶段2H W8× 8E2= 8压头2=4英寸×4英寸C2=128E2= 8压头2=4英寸×4英寸C2=128E2= 8双头2=6×6C2=192阶段3H W16× 16E3= 4压头3=10mm×6C3=320E3= 4压头3=10mm×12C3=320E3= 4压头3=12mm×18mmC3=384阶段4H W32× 32E4= 4压头4=14mm×3C4=448E4= 4压头4=16mm×3C4=512E4= 4压头4=16mm×3C4=5123.3小波视觉Transformer回想一下，我们的Wavelet块是一个原则性的统一自注意力块，用Wavelet块构建多尺度ViT骨干是可行的。根据现有多尺度ViT的基本配置[35，55]，我们提出了具有不同模型尺寸的小波视觉Transformer（Wave-ViT）的三种变体，即：、Wave-ViT-S（小尺寸）、Wave-ViT-B（基本尺寸）和Wave-ViT-L（大尺寸）。请注意，Wave-ViT-S/B/L与Swin-T/S/B具有相似的模型大小和计算复杂性[35]。具体来说，给定输入图像（大小：224224），Wave-ViT的整个架构由四个阶段组成，每个阶段由一个补丁嵌入层和一堆Wavelet块组成，然后是前馈层。我们遵循ResNet[21]的设计原则，逐步增加所有四级的通道尺寸，同时缩小空间分辨率。表1详细说明了Wave-ViT的所有三种变体的架构，其中Ei、Headi和Ci是级i中前馈层的扩展比、磁头数量和通道尺寸。4实验我们评估了我们提出的多尺度ViT骨干的有效性，通过一系列主流CV任务的各种经验证据，包括图像识别，对象检测，实例分割和语义分割，称为Wave-ViT具体地说，我们考虑以下评估来比较从各种视觉骨干中获得的学习特征表示的质量：（a）在ImageNet 1 K上从头开始训练图像识别任务[12];（b）微调骨干（在ImageNet 1 K上预先训练）用于下游任务，即COCO上的对象检测和实例分割[32]，以及ADE 20 K上的语义分割[71];（c）支持我们Wavelet块中每个设计的消融研究;（d）通过Wave-ViT可视化学习的视觉表示。+v：mala2255获取更多论文小波视觉Transformer 9表2. 各种视觉骨干在ImageNet1K数据集上用于图像识别任务的性能。这表明视觉骨干还使用MixToken[24]和卷积干（conv-stem）[53]第53话打补丁我们将视觉骨干分为三类，每个类别中的所有骨干都具有相似的GFLOPs：Small（GFLOPs 6），Base（6≤ GFLOPs 10），Large（10≤GFLOPs 22）。方法Params GFLOPS前五名方法参数GFLOPs前五名小大[21]第二十一话25.5M4.178.3 94.3ResNet-152[21]60.2M11.681.3 95.5[45]第四十五话20.8M4.380.4 95.0[59]第五十九话83.5M15.681.5-Swin-T[35]29.0M4.581.2 95.5[48]第四十八话86.6M17.681.8 95.6ConViT-S[11]27.8M5.481.3 95.7[23]第二十三话66.8M11.682.2 95.9T2T-ViT-14[62]21.5M4.881.5 95.7[64]第六十四话48.3M10.282.3-RegionViT-Ti+[6]14.3M2.781.5-ConViT-B[11]86.5M16.882.4 95.9SE-CoTNetD-5023.1M4.181.6 95.8T2T-ViTt-24[62]64.1M15.082.6 95.9[9]第九话24.1M2.981.7 95.6TNT-B[19]65.6M14.182.9 96.3[60]第六十话20.0M4.081.9 95.5[72]第二十二话58.9M12.883.1-PVTv2-B2[54]25.4M4.082.0 96.0RegionViT-B[6]72.7M13.083.2 96.1Wave-ViT-S19.8M4.382.7 96.2[49]第四十九话68.4M13.983.3-Wave-ViT-S系列22.7M4.783.9 96.6CrossViT-15-384[5]28.5M21.483.5-基地BoTNet-S1-128[45]75.1M19.383.5 96.5ResNet-101[21]44.6M7.980.0 95.0Swin-B[35]88.0M15.483.5 96.5BoTNet-S1-59[45]33.5M7.381.7 95.8PVTv2-B4[54]62.6M10.183.6 96.7T2T-ViT-19[62]39.2M8.581.9 95.7双胞胎-SVT-L[9]99.3M15.183.7 96.5[57]第五十七话32.0M7.182.5-RegionViT-B+[6]73.8M13.683.8-Swin-S[35]50.0M8.783.2 96.2[61]第六十一话89.8M16.083.8 96.5双胞胎SVT-B[9]56.1M8.683.2 96.3PVTv2-B5[54]82.0M11.883.8 96.6SE-CoTNetD-101[30] 40.9M8.583.2 96.5SE-CoTNetD-15255.8M17.084.0 97.0PVTv2-B3[54]45.2M6.983.2 96.5[24]第二十四话55.8M16.084.1 96.7RegionViT-M+[6]42.0M7.983.4-[63]第63话58.7M14.185.2-[63]第63话26.6M6.884.2-[63]第63话86.3M20.685.4-Wave-ViT-B33.5M7.284.8 97.1Wave-ViT-L57.5M14.885.5 97.34.1基于ImageNet1K的数据集和优化设置。在图像识别任务中，我们采用了ImageNet1K基准测试，其中包括来自1，000个类的128万张训练图像和50K张验证图像。所有视觉骨干都是在训练集上从头开始训练的，并且前1和前5个准确度指标都用于评估验证集上的训练骨干。在训练期间，我们遵循[63]中的设置，通过应用RandAug[10]， CutOut[70]和带有MixToken[24]的TokenLabeling目标进行数据增强。我们采用AdamW优化器[39]，动量为0.9。特别是，优化过程包括10个线性预热时期和300个余弦衰减学习率调度器时期[38]。批量大小设置为1，024，8个V100 GPU。我们将学习率和权重衰减固定为0.001和0.05。性能比较。表2总结了最先进的视觉骨干和我们的Wave-ViT变体之间的性能比较。请注意，最具竞争力的ViT骨干VOLO变体（即，VOLO-D1卷积，VOLO-D2卷积和VOLO-D3卷积）使用MixToken[24]和卷积干（conv-stem）[53]进行额外的令牌标记目标训练，以获得更好的补丁编码。我们也采用同样的升级策略来培训我们的Wave-ViT，产生每个尺寸的变体（即，、Wave-ViT-S、Wave-ViT- B、Wave-ViT-L）。此外，为了与没有这些策略的其他视觉骨干进行公平的比较，我们还实现了Wave-ViT的降级版本，+v：mala2255获取更多论文××∼10T. Yao等人小尺寸，无标记物镜和conv-stem（即，Wave-ViT-S）。如表所示，在每组的类似GFLOP下，我们的Wave-ViT变体与现有vi相比始终实现更好的性能，包括两个CNN主干（例如，、ResNet和SE-ResNet）、单尺度ViT（例如，、TNT、CaiT和CrossViT）和多尺度ViT（例如，Swin，Twins-SVT，PVTv2，VOLO）。特别是，在基本尺寸下，顶部-Wave-ViT-B神经网络的1准确度评分可达到84.8%，这导致相对于最好的竞争对手VOLO-D1神经网络（Top-1准确度：84.2%）的绝对提高0.6%。此外，当去除VOLO中的升级策略进行训练时，我们的Wave-ViT-S仍然能够在小尺寸（PVTv 2-B2）中超越最佳的多尺度ViT。这些结果总体上证明了将自注意学习和可逆下采样与小波变换统一起来，以促进视觉表示学习。更具体地说，根据相同的大尺寸，与仅利用CNN架构的ResNet-152和SE-ResNet-152相比，单尺度ViT（例如，、TNT-B、CaiT-S36和CrossViT-15-384）通过经由Transformer结构捕获长程依赖性而优于它们。然而，CaiT-S36和CrossViT- 15-384的性能仍然低于大多数多尺度ViT（PVTv 2-B5和VOLO-D3），这些ViT聚合多尺度上下文用于图像识别。此外，在PVTv 2-B5中，我们的Wave-ViT-L不是使用不可逆下采样进行自注意力学习，而是使用小波变换实现可逆下采样，从而实现更好的效率与准确性权衡。值得注意的是，VOLO-D3FPGA不采用下采样操作来降低高分辨率输入的计算成本，而是在初始阶段直接降低输入分辨率（28 28）。相比之下，Wave-ViT-L保持高分辨率输入（56 - 56），并利用小波变换触发无损下采样进行多尺度自注意学习，从而提高性能4.2基于COCO的数据集和优化设置。在本节中，我们检查了COCO数据集上预训练的Wave-ViT的行为，用于定位从边界框级别到像素级别的对象的两个下游任务，即：、目标检测和实例分割。两种主流探测器，即，RetinaNet[31]和Mask R-CNN [20]用于每个下游任务，我们用我们的Wave-ViT替换每个检测器中的CNN骨干进行评估。具体来说，每个视觉骨干首先在ImageNet1K上进行预训练，然后使用Xavier初始化新添加的层[17]。接下来，我们按照[35]中的标准设置在COCO train2017上训练所有模型（118K图像）。这里批量大小设置为16，AdamW[39]用于优化（权重衰减：0.05，初始学习率：0.0001）。所有模型最终在COCO val2017上进行评估（5K图像）。对于对象检测的下游任务，我们报告了不同IoU阈值和三种不同对象大小（即，、小、中、大（S/M/L））。对于实例分割的下游任务，边界框和掩码平均精度（即，、APb、APm）的数据。在训练过程中，我们调整每个输入训练的+v：mala2255获取更多论文××小波视觉Transformer11表3. 各种视觉骨干在COCO val2017数据集上的性能，用于目标检测和实例分割的下游任务。对于目标检测任务，我们采用RetinaNet作为目标检测器，并在不同IoU阈值或三种不同目标大小（即，、小、中、大（S/M/L））进行评价。例如分割任务，我们采用Mask R-CNN作为基础模型，边界框和掩码平均精度（即，、APb和APm）被报告用于评估。我们将所有的视觉骨干分为两类：小型和基本尺寸。骨干[31]第三十一话Mask R-CNN 1x[20]AP AP50AP 75APSAPb APb APb APm APm50 75 50 75ResNet50[21]36.3 55.3 38.6 19.3 40.038.0 58.6 41.4 34.4Swin-T[35]41.5 62.1 44.2 25.1 44.9 55.542.2 64.6 46.2 39.1 61.6 42.0[9]第九话43.0 64.2 46.3 28.0 46.4 57.543.4 66.0 47.3 40.3RegionViT-S[6]43.9- -44.240.8PVTv2-B2[54]44.6 65.6 47.6 27.4 48.8 58.645.3 67.1 49.6 41.2 64.2Wave-ViT-S45.8 67.0 49.4 29.2 50.0 60.8 46.6 68.7 51.2 42.4 65.5 45.8[21]第二十一话38.5 57.8 41.2 42.6 51.140.4 61.1 44.2 40.4[59]第59话39.9 59.6 42.7 22.3 44.2 52.541.9 62.5 45.9 37.5 59.4 40.2Swin-S[35]44.5 65.7 47.5 27.4 48.0 59.944.8 66.6 48.9 40.9双胞胎SVT-B[9]45.3 66.7 48.1 28.5 48.9 60.645.2 67.6 49.3 41.5 64.5 44.8RegionViT-B[6]44.6- -45.441.6PVTv2-B3[54]45.9 66.8 49.3 28.6 49.8 61.447.0 68.1 51.7 42.5 65.7Wave-ViT-B47.2 68.2 50.9 29.7 51.4 62.3 47.6 69.1 52.4 43.0表4. 各种视觉骨干在COCO val2017数据集上的性能，用于目标检测的下游任务。四种目标探测器，即。，GFL[28]，稀疏RCNN[46]，级联掩码R-CNN[3]和mm检测[7]中的ATSS[67]用于评估。我们报告了不同IoU阈值下的边界框平均精度（APb）。骨干方法APB APB50 APB75骨干方法APB APB50 APB75ResNet50[21]44.5 63.048.3ResNet50[21]44.5 63.448.2Swin-T[35]PVTv2-B2[54]GFL[28]47.650.266.869.451.754.7Swin-T[35]PVTv2-B2[54][46]第四十六话R-CNN47.950.167.369.552.354.9Wave-ViT-S50.9 70.2 55.4Wave-ViT-S50.7 70.4 55.5ResNet50[21]层叠掩模R-CNN[3]第一章46.3 64.350.5ResNet50[21]43.5 61.947.0Swin-T[35]PVTv2-B2[54]50.551.169.369.854.955.3Swin-T[35]PVTv2-B2[54]ATSS[67]47.249.966.569.151.354.1Wave-ViT-S52.1 70.7 56.6Wave-ViT-S50.7 69.8 55.5通过将短边固定为800像素，同时使长边不超过1，333像素来生成图像。注意，对于RetinaNet和Mask R-CNN，1个训练时间表（即，12 epochs）训练两种主流检测器。除了RetinaNet，我们还包括四个最先进的检测器（GFL[28]，稀疏RCNN[46]，级联掩码R-CNN[3]和ATSS[67]）用于对象检测任务。在[35，54]之后，我们使用3个时间表（即，，36个时期）的多尺度策略进行训练，并将每个输入图像的短边在[480，800]范围内随机调整大小，而长边强制小于1，333像素。性能比较。表3列出了在RetinaNet和Mask R-CNN的基础检测器下，分别针对对象检测和实例分割任务的不同预训练视觉骨干的性能比较。注意，我们通过将所有预训练的骨干分组为两个类别（即，小尺寸和基本尺寸）。如该表所示，每个下游任务的性能趋势+v：mala2255获取更多论文12 T. Yao等人表5. 各种视觉骨干在ADE 20K验证数据集上的性能，用于语义分割的下游任务。我们采用常用的基础模型（UPerNet）进行语义分割，并报告所有类的平均IoU（mIoU）进行评估。我们将所有的视觉骨干分为两类：小型和基本尺寸。小基地方法主干Miou方法主干Miou[21]第二十一话：我的世界42.8[21]第二十一话：我的世界44.9[48]第四十八话：一个人43.8[48]第四十八话：一个人47.2[64]第六十四话：我的世界45.1[64]第64话我的世界 46.9[25]第二十五话PVTv2-B2[54]45.2[25]第二十五话PVTv2-B3 [54]47.3[6]第58话：我的世界45.3[6]第58话我的世界47.5[35]第三十五章：你是我的女人45.8[9]第58话：一个人的世界 48.9[9]第58话：一个人的世界 47.1[35]第三十五章：你是我的女人49.5[58]第58话49.6[58]第五十八话51.5与图像识别任务中的相似。具体地，在每组的相似模型大小下，多尺度ViT骨干（例如，，Swin-T/S和PVTv 2-B2/B3）一致地表现出比CNN主干（例如，，ResNet50/101）。此外，通过利用小波变换来实现多尺度自注意力学习中的无损下采样，Wave-ViT变体优于利用池化内核探索次优下采样的PVTv 2-B2/B3。结果证实，将自注意学习和无损下采样与小波变换统一起来，可以提高预训练的多尺度表示在密集预测任务上的传输能力。为了进一步验证通过Wave-ViT进行对象检测的预训练的多尺度特征的通用性，我们在四个最先进的检测器（GFL、稀疏RCNN、级联掩码R-CNN和ATSS）上评估了各种预训练的视觉表4示出了在小尺寸下具有不同预训练视觉骨干的四个对象检测器的详细性能。与RetinaNet的基础检测器中的观察结果类似，我们的Wave-ViT-S在所有四个最先进的检测器中实现了与CNN主干（ResNet 50）和多尺度ViT主干（Swin-T和PVTv 2-B2）一致的性能增益这再次验证了在我们的Wave-ViT中将多尺度自关注与可逆下采样集成用于对象检测的优势4.3基于ADE20K的语义分割数据集和优化设置。接下来，我们在ADE20K数据集上的语义分割下游任务中评估预训练的Wave-ViT。该数据集是用于评

下载后可阅读完整内容，剩余1页未读，立即下载