动态窗口可视Transformer：探索窗口设置对模型性能的影响

156 浏览量更新于2023-10-25 收藏 1019KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11987∈除固定外：动态窗口可视Transformer任鹏珍1李长林2王广润3云霄1*青杜4*梁晓丹5，6常晓军2，71中国西北大学2ReLER，AAII，悉尼科技大学3牛津大学4华南理工大学5中山大学6鹏程实验室7皇家墨尔本理工大学pzhren@foxmail.com，yxiao@nwu.edu.cn，duqing@scut.edu.cn，xiaojun. uts.edu.au{changlinli.ai，wanggrun，xdliang328}@ gmail.com摘要最近，在视觉变压器的兴趣激增是通过限制计算的自我注意到一个局部窗口，以减少计算成本当前大多数工作默认情况下使用固定的单比例窗口进行建模，忽略了窗口大小对模型性能的影响。然而，这可能会限制这些基于窗口的模型对多尺度信息的建模潜力在本文中，我们提出了一种新的方法，命名为动态窗口可视化Transformer（DW-ViT）。DW-ViT提出的动态窗口据我们所知，我们是第一个使用动态多尺度窗口来探索窗口设置对模型性能影响的上限。在DW-ViT中，通过将不同大小的窗口分配给76.576.075.575.074.54.4 4.6 4.8 5.0 5.2 5.4 5.6FLOPs（G）图1. DW-ViT，Swin [31]和Swin在ImageNet-1 K上的多尺度窗口（MSW-Swin）的性能比较[10]随着窗口大小的增加。我们使用紫色虚线（l ）表示Swin-T [31]在单尺度窗口（win[7，14，21，23]）下的性能和FLOP变化MSW-Swin和DW-T使用的多尺度窗口均设置为[7，14，21]。不同头组窗口多头自注意。然后，通过对多尺度窗口分支分配不同的权重来动态融合信息我们在ImageNet-1 K、ADE 20 K和COCO三个数据集上进行了详细的性能评估与相关的最新技术（SoTA）方法相比，DW-ViT获得了最好的性能。具体而言，与当前SoTA Swin变压器[31]相比，DW-ViT在所有三个数据集上实现了一致和实质性的改进，具有相似的参数和计算成本。此外，DW-ViT具有良好的可扩展性，可以很容易地插入到任何基于窗口的视觉转换器。11. 介绍在计算机视觉（CV）任务中，以Vision Transformer（ViT）[12]为代表的视觉Transformer已经显示出巨大的潜力。这些方法取得了显著的效果，*通讯作者。1代码发布：https://github.com/pzhren/DW-ViT。这项工作是在第一作者在暗物质AI实习时完成的。在图像分类[37，49]，语义分割[30，51]和对象检测等任务上表现出色。[31，55，57]。在ViT中，自注意操作的复杂度与图像块的数量的平方成比例。这对CV字段中的大多数任务都不友好。Swin [31]因此提出将自注意力的计算限制在局部窗口以降低计算复杂度，并取得了一些有希望的结果。这种局部窗口的自我关注很快吸引了大量的注意力[7，28，50]。然而，大多数这些方法[7，28，50]使用固定的单尺度窗口（例如，win= 7）。因此产生了以下问题：这个窗口大小是否最佳？更大的窗户是否意味着更好的性能？多尺度窗口是否比单尺度窗口更有优势？此外，动态多尺度窗口会产生更好的结果吗？为了回答这些问题，我们评估了窗口大小对模型性能的影响图1，我们报告的变化曲线（l）Swin-T [31] 在 ImageNet 上的四个单尺度窗口（win∈[7，14，21，23]）赢=23赢=21赢=14DW-TMSW-Swinl：Swin-T赢=7Top-1 Acc.（%）11988！1DMSW！2一个窗口-MSAMSWTransformer编码器贴片××贴片(a) DW-ViT（我们的）（b）Swin Transformer图2. DW-ViT36×36窗口（3×3）Win1=6和Win2=3）和基于Swin的单尺度窗口（例如，win=9）。本地窗口中的补丁数量是双赢的。一种动态多尺度窗口（DMSW），我们设计了一个动态自适应窗口模块，图3.在可视化的Transformer中，一个示意图显示了窗口自注意力的计算过程。假设输入图像中的像素数为H×W（例如，36×36）。图像首先将其分割为10H× 10W × 10W固定大小的面片（例如，p=6），以及窗口多头自注意（MSW-MSA）。α是可学习的p pDMSW模块的参数。α1DMSW的分配方案α2是一个可能的重量则自注意力计算被限制到固定大小的窗口（即，每个窗口具有MM个补丁，例如，M=win=3）。为了简单起见，这里省略了补丁和位置嵌入1K [10]。在Swin [31]中，窗口大小对模型参数数量的影响非常小。如图随着窗口大小的增加，模型的性能得到了显著的改善，但这并不是绝对单调的。例如，当窗口大小从21增加到23时，模型的性能几乎没有提高甚至下降。因此，简单地增加窗口来提高模型的性能是不可行的。此外，很难从多个可选窗口大小中选择最佳窗口大小并且不同层的最佳窗口设置也可以不同。一个自然的想法是混合来自不同尺度窗口的信息进行预测任务。基于这一思想，我们设计了一个多尺度窗口多头自注意（MSW-MSA）机制的窗口为基础的ViT。在图1中，如具有MSW的Swin-T（MSW-Swin）和具有单尺度窗口的 Swin-T 的结果所示，简单地为Transformer的W-MSA引入MSW机制不能进一步有效地提高模型的性能例如，当win= 21时，MSW-Swin（win= [7，14，21]）的性能低于具有单尺度窗口的Swin-T。它可能是由次优窗口设置导致的这表明，可能需要更多的努力来保护具有MSW的ViT免受次优窗口设置的影响，同时保留多尺度窗口的优点。另一方面，动态神经网络[17]由于能够根据输入自适应地调整模型的结构和参数，受到了大量研究者的青睐。此外，动态网络已成功应用于CNN [27，40，43，44，53，62]和ViT [4，50，55]。基于上述观察，本文提出了一种新的方法，称为动态窗口视觉Transformer（DW-ViT）。据我们所知，这是第一个使用动态多尺度窗口来探索窗口设置对模型性能影响的上限的方法，表演。在DW-ViT中，我们首先通过将不同的尺度窗口分配给Transformer中多头自注意的不同头组来获得多尺度信息。然后，我们实现了动态融合的信息，通过分配权重的多尺度窗口分支。在图2中，我们基于Swin[ 31 ]类方法比较了DW-ViT更具体地说，在DW-ViT中， MSW-MSA 负责多尺度窗口信息的提取，而DMSW负责这些多尺度信息的动态DW-ViT通过以上两个部分，在保证相对较低计算复杂度的同时，动态地提高了模型如图1、动态窗口的DW-T的性能明显好于单一固定尺度窗口的Swin-T，我们称之为我们的主要贡献可概括如下：• 最近流行的基于窗口的ViT大多忽略了窗口大小对模型性能的影响。这严重限制了模型性能的上限。据我们所知，我们是第一个挑战这个问题的。• 我们提出了一种新的即插即用模块与一个动态的多尺度窗口的多头自注意Transformer。DW-ViT优于使用相同单尺度窗口的所有其他ViT，并且可以轻松嵌入到任何基于窗口的ViT中。• 与最先进的方法相比，DW-ViT在具有相似参数和FLOP的多个CV任务上实现了最佳性能。2. 相关作品窗口自我关注在ViT上下文中，标准的自我注意力将每个图像分割成固定大小的补丁[12，46，11989&×W ×48 ×W ×*×W×2×W×4×W×8 ×&&&&44448816 1632 32图4.动态窗口视觉Transformer（DW-ViT）的体系结构49]。这些补丁被扩展为令牌序列，然后在编码后将其馈送到Transformer编码器这个标准的自我关注的计算量仍然是巨大的。随后的工作[22，49，51]继续尝试降低标准自我注意的计算复杂性特别是，Swin [31]提出将自我注意力的计算限制在局部窗口。这种窗口自注意策略将MSA的计算复杂度从O（N2）降低到O（N）（这里N是图像块的数量）。ViT中基于窗口的自注意力计算过程示意图如图所示3 .第三章。这种窗口自我注意机制很快吸引了大量研究人员的注意[7，50，55]。然而，这些作品都使用固定的单尺度窗口。他们忽略了窗口大小对模型性能的影响这可能会限制窗口配置对模型性能影响的上限。图1，Swin [31]在不同单尺度窗口下的性能比较正好验证了这一思路。在此基础上，我们填补了这一空白，详细探讨了窗口大小对模型性能的影响，是对上述工作的补充ViT中的多尺度信息。多尺度信息已经成功地应用于卷积领域。为了获得更全面的信息，模型不仅需要小尺度信息，而且需要大尺度信息。例如，Inception[41 ， 42] ， Timeception [23]， MixConv [45]和 SKNet[27]等通过使用不同大小的卷积核来获得多尺度信息。此外，一些作品[15，50]还尝试使用CNN的输出作为ViT的输入，以提高ViT对局部信息建模的能力。特别是，CrossFormer [50]使用多尺度卷积为ViT输入提供多尺度信息。近年来，由于ViT在CV领域的广泛应用，许多研究者尝试将多尺度信息引入ViT。CNN中的金字塔结构是一个被广泛借鉴的想法。例如，T2T [57]通过聚合相邻的补丁来逐步减少令牌序列的长度，而PVT [49]通过修改自注意力来减少特征维度。通过这种方式，多尺度特征信息从网络框架中构建。此外，P2T [51]将金字塔池引入自我注意力关于Transformer同样，焦点自我注意力[55]也将多尺度信息纳入每个自我注意力的计算中。更直接地，CrossVit [4]设计了一个具有不同大小的图像标记的双分支Transformer编码器所有这些都在不同程度上提高了模型对多尺度信息的建模能力。然而，上述方法要么由于全局自关注而计算量大在我们的工作中，我们设计了一个多尺度窗口机制，以提高MSA的建模能力，在多尺度信息的背景下。这种MSW-MSA策略适用于大多数类型的W-MSA计算，并具有良好的扩展性。动态多分支网络。近年来，动态网络[17]由于可以根据输入灵活地调整网络的结构和参数，具有较好的自适应能力而受到欢迎。在动态多分支网络中，一种常用的策略是根据分支的重要性为不同的分支分配相应的权重，以实现大容量、多功能、灵活的网络结构。例如，关于这个主题的早期工作[13，24]使用实值权重来动态地重新缩放从不同专家获得的表示。此外，SKNet [27]和ResNeSt [59]提出了一种简单的分裂注意力机制，该机制动态调整由不同卷积核或分支获得的信息的权重。该策略能够以较小的计算代价获得不同样本的动态特征表示，从而提高模型在我们的工作中，所提出的多尺度窗口自注意模块与上述动态多分支网络具有天然的亲和力。因此，我们提出了一个动态多尺度窗口（DMSW）模块的MSW-MSA。这种DMSW策略使DW-ViT能够以动态的方式整合来自不同尺度窗口的信息，从而使模型具有更好的表达能力。3. 方法3.1. 整体架构为了便于正确的比较，同时保持其高分辨率的任务处理能力，DW-ViT如下：&×W×3阶段1阶段2阶段3阶段4动态窗口模块（DWM）动态窗口模块（DWM）动态窗口模块（DWM）动态窗口模块（DWM）贴片嵌入×s1×s）×s*×s+贴片分割内衬嵌入面片合并面片合并面片合并11990×××××n赢××}∈----ΣHC2n赢h，我winiwini8816163232yi=Spliti（x）∈Rnwin⌈ ⌉ × ⌈⌉× ××在[31，49，60]中概述的架构设计图4给出了DW-ViT的总体架构。该模型包括四个阶段。为了生成层次特征表示，第i阶段由特征压缩层和si动态窗口模块（DWM）转换层组成。更具体地说，在阶段1中，类似于ViT [12，31]，RGB图像被分割成不重叠的补丁（补丁大小设置为4 4;即，空间维度中的压缩比为4）。每个补丁的原始RGB像素值被连接（即，在片连接之后，维度为4 × 4 × 3 = 48），并通过线性嵌入层投影到任意维度（表示为C）。核心的特征尺寸对应的补丁嵌入层输出为H×W×C。其中，第i个分支y=i被划分为在空间维度上的H W窗口。每个窗口被扩展为长度为winiwini的令牌序列，并用作MSW-MSA的第i个分支W-MSAwini的输入W-MSA的结构如图所示。3.第三章。W-MSAwini的输出在空间维度上被重构为HW，并且最终输出维度为H WC。这些分支的输出在通道维度中连接，并用作整个MSW-MSA模块的输出。3.2.2动态多尺度窗口H×W ×C44输出yMSW-MSA∈R多分支机构这些生成的补丁令牌然后被用作DWM Transformer层和层的数目（即，高×宽）结构MSW-MSA自然可以用作输入44的DMS W。yMS W-MSA=Concat（{W-MSAwini（i），i=在此过程中，令牌的数量保持不变类似地，阶段2-4使用类似的结构。不同之处在于，每一级中的补丁合并层的特征压缩比为2，而通道的数量增加了一倍。也就是说，阶段2-4的输出要素的分辨率W、HW和HW，相应的通道尺寸分别为2C、4C和8C。不同阶段的输出特征的组合可以用作分类、分割和检测等任务网络的输入。3.2. 动态窗口模块如图5、我们设计的DWM包括两个主要部分：多尺度窗口多头自注意模块（MSW-MSA）和动态多尺度窗口模块（DMSW）。前者负责多尺度窗口信息的捕获，而后者负责该信息的动态自适应加权。1、… n win）保留了信道维度中不同尺度的窗口组的多尺度信息。为此，我们设计了一个用于MSW-MSA的动态多尺度窗口信息加权模块DMSW。DMSW利用所有分支的综合信息为每个分支生成相应的权值，然后通过加权对不同分支的信息进行DMSW结构图如图右侧所五、此过程分为两个主要步骤：搜索和选择。前者负责融合所有分支的信息，后者根据全局信息为每个分支生成相应的权值，完成分支信息的融合。具体来说，这两部分的具体内容如下：它主要由池化层Fgp和两对全连接层Ffc和激活层Fa组成。计算过程如下：3.2.1多尺度窗口多头自注意图图5（左）显示了MSW-MSA的架构图y=δ2（Ffc2（Fgp（δ1（y≤Fuse），y=Ffc1（yMSW-MSA），（二）具有h个头部和n个窗口。这里我们以h= 6和nwin= 3为例。MSA的多头h被均匀地划分为n个win组，它们在不同尺度窗口执行多头自注意，以捕获多尺度窗口信息。这里的一组窗口可以设置为 Win =win i， i=1，.，n赢。具体来说，假设输入特征映射xRH×W ×C;因此我们有以下MSW-MSA的输出：yMSW-MSA=MSW-MSA（x）=Concat（{W-MSAwini（yi）}），其中Fa=δ是GELU [20]函数。具体尺寸设置如图所示。5（右），其中y∈R1×1×C′，C′设为C。选择：它由两部分组成第一部分由一组全连接层F α=F αi，i=1，2，.，n赢以及softmax层，用于为每个分支，而第二个包含两个线性映射层，以恢复融合特征的通道尺寸。具体计算过程如下：n赢×高 ×宽×h，i = 1，...，n赢，我x=Reshape（x）∈Rh×H ×W ×C（一）eFαi（yFuse）nwineFαi（yFuse），i = 1，2，…n赢，2019 - 04 -2201：03：04（αi×W-MSAwini（y<$i），（三）αi=119911×C1×我我22⌊⌋∈⌊⌋- -×2我我我赢得22多尺度窗口多头自注意模块动态多尺度窗口模块赢3softmax多头0-i/宽×高×宽 ℎ重塑高×宽分裂赢得2高×宽 ×*/0-i/concatf$货币f$+货币a中文（简ℎ高×宽× ×W×*0×高×宽×高*高×宽 ×*/0-i/1×1×*′高×宽 ×*/0-i/ℎ-i/赢得11×1×*1×1×*/0-i/高×宽宽×高×宽W-MSA0-i/ℎ高×宽×*高×宽 ×*/0-i/图5.动态窗口模块（DWM）。DWM有两个主要部分：多尺度窗口多头自注意模块（MSW-MSA）和动态多尺度窗口模块（DMSW）。其中αi∈Rnwin . DMSW模块输出为窗口自注意计算Qi如下所示如下所示：yDMSW=ySelect+yFus e。（四）1、Q= 0，Qi KT√d+Bi）Vi，（6）此外，yDMSW∈RH×W ×C也是2其中Q，K，V∈RM×d是查询、键和值ma-整个DWM。3.3. 动态窗口块我我我trices，而M2是第i个尺度窗口中的补丁的数量，d是Qi/Ki维度。此外，我们还-对偏置矩阵集合B_i={B_i，i=1，.， nwi n}。DW块是通过用DWM替换Transformer块中的标准MSA模块来构造的。此外，由于DWM是为多尺度信息设计的，因此它并不是专门为跨窗口信息交换设计的。为了简单起见，遵循[31]中提出的设计，我们保留了Swin将具有移位窗口策略的DWM定义为动态移位窗口（DSW）块。每个DWM（或DSW）块由两个LayerNorm（LN）层和具有GELU非线性的两层MLP组成。DSW通过在空间维度上将特征窗口当特征被重建时，它将窗口块移动到右下方以恢复特征的空间位置。DWM和DSW的交替堆叠用于避免信息交换的下降。具体地，如下计算两个连续DWM块zl=DWM（ LN（zl−1））+zl−1，l l l具体地，对于Bi，因为每个轴上的相对位置位于[ M i +1，M i 1]的范围内，所以小尺寸的偏置矩阵BiR（2Mi−1）×（2Mi−1）是参数化的，B i中的值是从Bi获取的。3.4. 车型配置为了便于公平比较，在[31]之后，我们将两个配置模型设置为DW-T和DW-B。它们的配置详细信息总结在表1中。1.一、具体地，根据图1D中的结果。1和ImageNet上每个阶段的输出特征的大小[10]，对于第一阶段有三个头部的DW-T，我们设置Win 1= [7，14，21]。对于阶段2-类似地，对于DW-B，Win1= [7，12，17，22]。对于所有实验，每个头的查询维度为d=32，而每个MLP的扩展层为α= 4。3.5. 复杂性分析z=MLP（LN（z））+z，z_l+1=DSW（LN（z_l））+z_l，zl+1=MLP（LN（zl+1））+zl+1，（五）DWM块的计算复杂度由两个主要部分组成：Ω（SMW-MSA）和Ω（DMSW）。对于具有h w块的图像，其计算复杂度如下：其中，z=1和z=1分别定义了DWMn的输出(DSW)模块和MLP模块，第一个街区。×（SMW-MSA）= 4hwC2+2hw加入我们我W在2。（七）位置编码。对于带有M M[1][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][1位置偏差B={B∈RM× M，i= 1，2，.，n}到nwini1C2Δ（DMSW）=（1 + hw（1+））。（八）DWM自注意各头部相似度计算。n赢n赢对于第i个尺度局部窗口的W-MSAwini，我们有2此处忽略SoftMax的计算。11992×ΣC我××输出大小图层名称DW-TDW-B阶段1H W4× 4贴片嵌入p1=4;C 1=96Σ Σp1=4;C 1=128Σ ΣDWM赢1=[7，14，21]h1=3，C 1=96×2赢1=[7，12，17，22]h1=4，C 1=128×2阶段2H W8× 8面片合并p2=2;C 2=192Σ Σp2=2;C 2=256Σ ΣDWM赢2=[7，14，21]h2=6，C 2=192×2赢2=[7，12，17，22]h2=8，C 2=256×2阶段3H W16× 16面片合并p3=2;C 3=384Σ Σp3=2;C 3=512Σ ΣDWM赢3=[7，14，14]h3=12，C 3=384×6赢3=[7，12，14，14]h3=16， C3=512×18阶段4H W32× 32面片合并p4=2;C 4=768Σ Σp4= 2;C 4= 1024Σ ΣDWM赢4=[7，7，7]h4=24，C 4=768×2赢4=[7，7，7，7]h4=32，C 4=1024×2表1. DW-ViT的配置细节。这里，pipi是第i阶段中的补丁的大小，并且也是空间维度中的特征的下采样比率。Ci是特征通道的数量，而Wini和hi分别是MSW-MSA模块使用的窗口组合和Transformer中MSA使用的头的数量。DWM的总计算复杂度如下：（DWM）=ConvNet=（1 + 4n +hw+nwin）温和文HWn赢C2+（九）n赢2小时nW在2。Transformer赢了我由于wini和nwin都是常数，因此DWM的总计算复杂度不会显著增加。DWM的计算复杂度仍然是O（N）。4. 实验我们在上游任务ImageNet-1 K图像分类[10]和两个下游任务上与最先进的（SoTA）方法进行了性能比较：在ADE 20 K上进行语义分割[61]，在COCO 2017上进行对象检测和实例分割[29]。最后，我们烧蚀DW-ViT的重要模块。4.1. ImageNet-1 K图像分类我们在 ImageNet-1 K 上对 DW-ViT 进行了基准测试[10]。ImageNet-1 K包含来自1000个类别的1280万张训练图像和50 K张测试图像。为了测试DW-ViT的有效性并与类似方法进行公平比较[4，7，31]，我们小心避免使用任何提供不公平优势的技巧[25，48]。具体来说，按照[7，31]中的设置，使用AdamW优化器[32]以1024的批量大小训练DW-ViT 300个epoch使用余弦衰减学习速率调度器和20个线性预热时期。初始学习率和权重衰减分别设置为0.001和0.05。在训练中，[47]的增强和正则化策略被使用。在[31]中的设置之后，放弃了重复增强[21]和EMA [34]策略。结果选项卡。2报告了DW-ViT和ImageNet-1 K上最先进方法的性能比较。表2. ImageNet-1 K上的性能比较。所有模型都以224 224分辨率进行训练和评估。CrossFormer-S†显示了单尺度嵌入情况下的性能。比较方法包括经典和最新的基于ConvNet的[19，35，53]和基于Transformer的[4，31，50]模型。所有模型都以224 224分辨率进行训练和评估。如Tab.所示。2、在参数和FLOP相近的情况下，DW-ViT与目前其他方法相比仍具有明显的优势具体而言，与Transformer基线DeiT [46]相比，DW-T和DW-B的性能分别提高了2.1%和2.0%。同时，在相同设置下，与Swin [31]相比，DW-T和DW-B在动态窗口的帮助下也分别获得了0.7和0.5点的性能提升。这表明DW-ViT作为一种通用的视觉特征提取器可以获得更好的特征表示。此外，值得一提的是，作为一个独立的模块，DWM可以灵活地嵌入任何基于窗口的ViT模型[7，28，50]，如方法#param.（男）FLOPs（G）前1名（%）ResNet50 [19]264.176.6[19]第十九话457.978.2X50-32x4d [53]254.377.9X101-32x4d [53]448.078.7RegNetY-4G [35]214.080.0RegNetY-8G [35]398.081.7RegNetY-16G [35]841682.9[46]第四十六话224.679.9CrossViT-S [4]275.681.0T2T-ViT-14 [57]225.281.5TNT-S [16]245.281.3[54]第五十四话106.880.8[49]第四十九话253.879.8CPVT-GAP [57]234.681.5[50]第五十话284.581.5Swin-T [31]284.581.3DW-T305.282.0[11]第十一话8717.677.9[46]第四十六话8717.681.8T2T-ViT-24 [57]6414.182.3CrossViT-B [4]10521.282.2TNT-B [16]6614.182.8CPVT-B [8]8817.682.3[49]第四十九话619.881.7Swin-B [31]8815.483.3DW-B9117.083.811993××××→3骨干方法#param.FLOPs(M)（G）Miou+MsResNet-101 [19]DANet [33]69111945.3-ResNet-101OCRNet [58]5692344.1-ResNet-101DLab.v3+[6]63102144.1-ResNet-101ACNet [14]--45.9-ResNet-101[56]第56话69124946.0-ResNet-101UperNet [52]86102944.9-HRNet-w48 [38]DLab.v3+[6]7166445.7[59]第五十九话DLab.v3+[6]66105146.9-ResNeSt-200 [59]DLab.v3+[6]88138148.4-PVT-S [49]S-FPN [26]28-39.8PVT-MS-FPN4821941.6-PVT-LS-FPN6528342.1-[第28话]S-FPN4121442.8-cat-BS-FPN5527644.9-Swin-T [31]UperNet [52]6094544.5 45.8Swin-B [31]UperNet [52]121118848.1 49.7DW-TUperNet [52]6195345.746.9DW-BUperNet [52]125120048.750.3表3. ADE20K [61] val.单尺度和多尺度评价结果见最后两列。FLOP（G）是在1024 ×1024的输入分辨率下计算的。Swin [31]改进了模型与使用固定单尺度窗口的这些ViT[7，28，50]相比， DWM使DW-ViT具有更大的模型容量，并且在适应性和可扩展性方面表现得更好。4.2. 基于ADE20K的ADE20K [61]也是一种广泛使用的语义分割数据集。它包含20K训练图像，2K验证图像和3K测试图像，共覆盖150个语义类别。mm分割[9]中的DW-ViT和UperNet [52]分别用作主干和分割方法使用的预训练骨干是在ImageNet-1 K上训练的按照[31]中的设置，图像的输入大小为512 512，AdamW [32]用作优化器（初始学习率为6 10−5，权重衰减为0.01，使用线性学习率衰减），模型的批量大小为16，迭代次数为160K。对于多尺度评估（+MS），缩放比在0.5和1.75之间。4.3. 基于COCO的此外，我们使用COCO 2017 [29]对DW-ViT进行了对象检测和实例分割的基准测试。COCO包含118K训练，5K验证和20K测试图像。使用的预训练模型是在ImageNet-1 K上训练的DW-ViT。DW-ViT被用作视觉骨干，然后插入到一个代表性的对象检测框架。我们在这里考虑两个代表性的对象检测框架：Mask R-CNN[18]和Cascade Mask R-CNN [2]。在训练图像上训练所有模型，并在验证集上报告结果。所有框架都使用相同的设置。具体来说，我们使用多尺度训练[3，39]，AdamW [32]优化器（初始学习率，权重衰减和批量大小为0.0001，0.05和16）和3时间表（它有36个epoch，学习率在 epoch 27 和 33 之间衰减 10 ）。它基于MMDetection [5]实现。COCO 2017 val数据集上的对象检测和物体分割的性能比较如表1所示。4.第一章与其他国家的最先进的方法相比，DW-ViT实现了最好的性能在两个对象检测框架。具体而言，与Trans-former基线DeiT-S [46]相比与Swin [31]相比，DW-ViT在两种目标检测框架下的目标检测和实例分割方面都实现了0.7分以上的提升。与此同时，DW-ViT与Swin相比，参数和FOLPs没有明显增加，再次证明了动态窗口机制的优越性此外，两个检测框架的结果表明，DW-ViT可以很容易地嵌入到不同的框架一样，其他骨干。4.4. 消融研究为了探索DW-ViT的每个组件的效果，我们比较了具有单尺度窗口的Swin-T、MSW-Swin和具有和不具有DMSW机制的DW-ViT的性能具体来说，我们设置epoch= 50;对于所有其他设置，我们采用Swin提供的默认设置[31]。DW-ViT与其他方法在ADE 20 K val上的性能比较如表10所示。3 .第三章。如Tab.所示。3、DW-ViT与许多最先进的方法相比具有最佳性能。具体而言，在相似的FLOP和参数下，与Swin [31]相比，DW-ViT分别将单尺度评价提高了1.2和0.6分。与其它方法相比，DW-ViT也取得了较好的效果。与Swin相比，DW-ViT具有更明显的优势（例如， 0 的情况。 71. 2 ）在ADE20K中比在ImageNet中更好。这表明DW-ViT的动态窗口机制在更复杂的图像数据集等下游任务中具有更明显的优势单尺度窗口取自[7，11，14，17，21，23]，多尺度窗口设置为[7，14，21]3。他们在ImageNet-1 K [10]上的性能显示在Tab中。五、在选项卡中。5、DMSW显示三种状态（“1”、“-”、“0”）。MSW-MSA +“1”是指删除动态权重生成，并直接将相同的权重（1）分配给所有分支。MSW-MSA +当win= 21时，MSW-Swin的性能低于Swin-T。这可能是由于3我们采用Swin [31]中的原始设置，只修改了窗口大小。当窗口大小大于输入特征时，此时执行全局自关注。11994×方法#param.（男）FLOPs（G）AP髁间盒AP髁间盒50AP髁间盒75AP掩模AP掩模50AP掩模75[18]第十八话ResNet50 [19]4426041.061.744.937.158.440.1[49]第四十九话4424543.065.346.939.962.542.8[60]第六十话4517443.464.947.039.662.142.4Swin-T [31]4826446.068.250.241.665.144.8DW-T4927546.769.151.442.466.245.6[53]第53话10249344.464.948.839.761.942.6[49]第四十九话8136444.566.048.340.763.443.7ViL-基础[60]76.136545.767.249.941.364.444.5Swin-Base [31]10749648.569.853.243.466.846.9DW-B11150549.270.654.044.068.047.7级联掩码R-CNN [2，18][46]第四十六话8088948.067.251.741.464.244.3ResNet50 [19]8273946.364.350.540.161.743.4Swin-T [31]8674550.569.354.943.766.647.1DW-T8775451.570.555.944.767.848.5X101-64 [53]14097248.366.452.341.764.045.1Swin-B [31]14598251.970.956.545.068.448.7DW-B14999252.971.657.545.769.050.0表4. COCO2017 val数据集上的对象检测和实例分割的性能比较。使用了两个对象检测框架：Mask R-CNN [18]和Cascade MaskR-CNN [2]。FLOP（G）是在1280 800的输入分辨率下计算的。t指示附加的去卷积层用于生成分层特征。具有良好的可扩展性，因此可以很容易地插入到任何基于窗口的ViT作为一个模块。6. 讨论潜在的负面社会影响：作为一个通用的视觉特征提取器，DW-ViT在多个CV任务上表现出良好的性能。然而，由于不同任务之间的域间隙，当模型被转移到其他任务时，可能仍然需要一些精细的调整。表5. Swin和DW-ViT在ImageNet-1 K上的性能比较[10]在不同的窗口和模块设置下。次优窗口设置在一定程度上损害了模型的性能DW-T和MSW-MSA +“1”的性能比较3.3%）。此外，在动态窗口机制的帮助下，DW-ViT的性能优于所有使用相同单尺度窗口的ViT。这表明这种动态窗口加权机制在DW-ViT中确实起着非常重要的作用5. 结论窗口的大小对模型的性能有重要影响。目前在基于窗口的ViT作品中，对窗口大小的系统研究还很少。在本文中，我们第一次挑战了这个问题基于我们对上述问题的深入观察，我们提出了一种新的动态多尺度窗口机制，用于W-MSA获得最佳窗口配置，从而增强模型在动态窗口机制的帮助下，DW-ViT的性能优于所有使用相同单尺度窗口的ViT，所提出的方法在多个CV任务上取得了良好的效果与此同时，DWM局限性：这是我们未来需要改进的几个问题：（1）虽然DW-ViT在多个视觉任务上表现出良好的性能。但与单尺度窗口自注意机制[31]相比，DWM仍然引入了少量的附加参数和计算。(2)此外，就DWM然而，理想的策略是将整个计算预算分配给网络每层的最有潜力的窗口。确认本工作得到了国家重点研究发展计划项目（ 2020AAA0109700 ）和国家自然科学基金项目（61972315）的广东省基础与应用基础研究（区域联合基金-重点）基金（编号：2019 B1515120039）、广东省杰出青年基金（编号：61976233）、广东省基础与应用基础研究（区域联合基金 - 重点）基金（编号： 2019B1515120039）2021 B1515020061）、澳大利亚研究理事会（ARC）发现早期职业研究者奖（DECRA）DE190100626、陕西省国际科技合作计划项目-重点项目2022 KWZ-14、科技部基金项目2020 AAA 0106900和广州市重点领域&研发项目202007030007，阿里巴巴的开放式基金。方法窗口#param.（男）FLOPs（G）前1名（%）728.294.4974.311128.314.6975.18Swin-T141728.3428.354.895.0675.8376.312128.365.3476.282328.365.4976.24DW-TDMSWMSW-MSA（[7，14，21]）1-✓29.0528.3329.775.185.075.1873.4376.1076.6811995引用[1] HangboBao，Li Dong，Furu Wei，Wenhui Wang，NanYang ， Xiaodong Liu ， Yu Wang ， Songhao Piao ，Jianfeng Gao ， Ming Zhou ， and Hsiao-Wuen Hon.Unilmv 2：用于统一语言模型预训练的伪掩码语言模型。在ICML，2020。5[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页，2018年。七、八[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。7[4] 陈春福，范全

下载后可阅读完整内容，剩余1页未读，立即下载