多尺度视觉Longformer：一种新的高分辨率图像编码视觉Transformer

39 浏览量更新于2023-10-13 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11†Multi-Scale Vision Longformer：一种新的高分辨率图像编码视觉Transformer张鹏川1席阳戴1†杨建伟1†肖斌1陆远1张磊2高建峰11微软公司{penzhan，xidai，jianwei.yang，bin.xiao，luyuan，jfgao}@ microsoft.com2国际数字经济学院（IDEA）leizhang@idea.edu.cn摘要本文提出了一种新的视觉Transformer（ViT）架构多尺度视觉Longformer，其显著增强了[12]的ViT，用于使用两种技术编码高分辨率图像。第一种是多尺度模型结构，其提供具有可管理的计算成本的多尺度的图像编码。第二个是Vision Long-former的注意力机制，它是Longformer的变体[3]，最初是为自然语言处理而开发的，并且实现了线性复杂度w.r.t.输入令牌的数量。一项全面的实证研究表明，新的ViT在一系列视觉任务（包括图像分类、对象检测和分割）上的表现明显优于几个强大的基线，包括现有的ViT模型及其ResNet对应模型，以及来自并行工作的Pyramid VisionTransformer[47] 。模型和源代码发布于https://github.com/microsoft/vision- longformer。1. 介绍Vision Transformer（ViT）[12]因其强大的远程上下文建模能力而在图像分类任务上显示出有希望的结果。但其计算和存储器复杂性的二次增加阻碍了其在许多视觉任务上的应用，这些任务需要在高分辨率图像上计算高分辨率特征图1，如对象检测[34，24]，分割[27，6]和人体姿势估计[49，37]。视觉语言任务，如VQA，图像字幕和图像文本检索，也受益于高分辨率特征图[16，53]，这些特征图是用预训练的CNN模型提取的。开发一表示贡献相等。在本文中，对高分辨率图像进行编码意味着为高分辨率图像生成高分辨率特征图。能够处理高分辨率特征图的视觉Transformer是实现统一视觉和语言模态的模型架构以及改进多模态表示学习的目标的关键一步在本文中，我们提出了一种新的视觉Transformer架构多尺度视觉Longformer，它使用两种技术显著增强了用于编码高分辨率图像的基线ViT[12]：（1）多尺度模型结构;（2）Vision Longformer的注意机制。具有多尺度（金字塔、分层）结构的模型提供了多尺度图像的综合编码，同时保持计算和分类复杂性可管理。深度卷积网络天生就具有这样的多尺度结构，然而，这对于传统的ViT架构来说并非如此。为了获得多尺度视觉Transformer，我们堆叠多个（例如，四）视景变换器（ViT阶段）顺序。第一ViT阶段在高分辨率特征图上操作，但具有小的隐藏维度。当我们进入以后的ViT阶段时，特征图分辨率降低，而隐藏维度增加。通过在每个ViT阶段执行修补嵌入来实现分辨率降低。在我们的实验中，我们发现，在相同数量的模型参数和相同的模型FLOP的情况下，多尺度ViT在图像分类任务上比vanilla ViT实现了显著更好的准确性。结果表明，多尺度结构不仅提高了计算和存储效率，而且提高了分类性能。所提出的多尺度ViT具有与传统（多尺度）CNN模型（如ResNet [14]）相同的网络结构，并且可以作为几乎所有ResNet应用的替代和插件选择。在本文中，我们证明了这种似是而非的属性在图像分类，对象检测和实例分割。多尺度结构本身不足以按比例放大ViT以处理高分辨率图像和特征图，这是由于计算和存储器复杂度相对于特征图中的令牌数量的二次增加。29982999×4××××自我关注层与数据是1-D的自然语言任务相比，这个问题在视觉任务中更为严重，其中复杂性的增加是随着图像分辨率的增加而增加的四次（四阶）例如，4更高分辨率的多头自注意（MSA）层（隐藏维度减少4，即，4H4WD）等于原始尺寸中的64层（即，H W D）。为了应对这一挑战，我们开发了Longformer的2-D版本[3]，称为Vision Longformer，以实现线性复杂度w.r.t.令牌的数量（二次w.r.t.分辨率）。我们的实验表明，与基线ViT相比，VisionLongformer没有表现出性能下降，同时显着降低了图像编码的计算和内存成本。结果表明，视觉变形器的我们还比较了视觉Long- former与其他有效的注意机制。实验结果再次验证了其在图像分类和目标检测任务上的优越性能本文的主要贡献有两个方面：（1）提出了一种新的视觉Transformer，它利用二维Longformer的多尺度模型结构和注意力机制，实现了高分辨率图像的高效编码。(2) 我们进行了一个全面的实证研究表明，建议的ViT显着优于以前的ViT模型，他们的ResNet同行，ViT与其他几个有效的注意力机制，图像分类，对象检测和分割任务。2. 相关工作Vision Transformer（ViT）[12]应用最初为自然语言处理（NLP）开发的标准Transformer，通过将图像视为单词序列来进行图像编码，即，将图像分割成块（字），并使用这些块的线性嵌入作为输入序列。ViT已经证明优于卷积神经网络（CNN）模型，如ResNet[14]，在多个图像分类基准上实现了最先进的性能，其中训练数据足够。 DeiT [43] 是另一个利用Transformer的计算机视觉模型。它使用了专门针对Transformers的师生策略来提高培训中的数据效率。因此，与ViT相比，它需要少得多的训练数据和计算资源来产生最先进的图像分类结果。除了图像分类之外，变换器还被应用于其他计算机视觉任务，包括对象检测[4，58，54，11]，分割[2，3，4]，图像分割[4，5，5]，图像分割[5，6]，图像分割[7，8]，图像分割[8，9]，图像分割[9，10]，图像分割[9，11]。站[45，48]，图像增强[5，50]，图像生成-[30，7]，视频处理[52，57]和视觉语言任务[28，38，8，36，22，21，56，23]。开发一种高效的高分辨率图像编码的注意机制是本工作的重点我们模型的灵感来自于为Transformers开发的高效注意力机制，其中大部分用于NLP任务。这些机制可分为四类。第一种是稀疏注意机制，包括内容无关的稀疏性[30，9，31，15]和内容相关的稀疏性[31，15稀疏性[18，35，40，55]。轴向Transformer [15]和图像变压器[30]是少数几个基于稀疏性的有效张力，开发用于图像生成。第二种是基于内存的机制，包括压缩变换器[32]和设置变换器[20]。这些模型使用一些额外的全局令牌作为静态内存，并允许所有其他令牌只关注这些全局令牌。三是基于低级别的机制。例如，Linformer [46]将输入键值对投影到一个较小的块中，并在查询和投影的键值对之间执行交叉关注第四种是（广义的）基于内核的机制，包括Performer[10]和Linear Transformer [17]。许多模型利用混合注意力机制。例如，Longformer[3]、BigBird[51]和ETC[1]结合了稀疏性和记忆机制;合成器[39]结合了稀疏性和低秩机制。我们来看看[42]。[41]进行全面调查和基准。在本文中，我们开发了一个 2-D 版本的Longformer[3]，称为Vision Longformer，它利用了稀疏性和记忆机制。它的类conv稀疏机制在概念上类似于Image Transformer[30]中使用的稀疏机制。多尺度视觉Transformer架构是我们在我们提出的高分辨率Vi- sion Longformer中使用的另一种技术。用于NLP的分层变换器[29]包含两个阶段，第一阶段处理重叠段，第二阶段使用来自所有段的CLS在我们提出的Vision Longformer中，通过在每个阶段的开始处嵌入补丁来执行大小减小，通过将来自前一阶段的补丁中的所有令牌合并到当前阶段的单个令牌中。我们通常为我们的模型使用4个阶段，因为我们已经根据经验验证了使用4个阶段比使用2个或3个阶段更好，特别是对于对象检测任务。Informer[55]采用类似的堆叠多级方法来编码长序列，其中通过最大池化来实现级之间的大小减小。Pyramid Vision Transformer （ PVT ） [47] ， SwinTrans- former [26]和HanoNet [44]是我们的并发作品所有这些作品都使用多尺度架构，其中堆叠多个（稍微修改的）ViT。PVT的作者提出了空间缩减注意力（SRA）来减轻自我注意力层中的成本增加然而，PVT的计算和存储器的复杂性仍然增加四分之一w.r.t.分辨率（常数较小）。 Swin Transformer [26] 和HanoNet [44]利用与我们的Vision Longformer类似的本地注意力机制。3000××××∈×详见3.2和3.3节（4）我们使用绝对2-D位置嵌入（简称APE，分别编码x和y坐标并连接它们）或相对位置偏差（简称RPB）来代替原始的绝对1-D位置嵌入。除了注意事项a之外，E-ViT具有从普通ViT继承的以下架构参数：输入块大小p、关注块的数量n、隐藏尺寸d和头部的数量h，表示为E-ViT（an/p;h，d，n，g）。使用完全注意力机制（即，a= full）和一个全局令牌（即，具有ng=1的CLS令牌），缺陷E-ViT（全12/16;h，d，l）模型对于微小（h=3，d=192）和小（h=6，d=384）模型大小仍然实现比基线ViT更好的ImageNet分类性能性能增益归因于添加的LayerNorm，如我们在补充中所示。在数学上，E-ViT（a n/p;h，d，ng）编码模块可以写为：z0=[x1;. . . ; x ng; LN（x1E）;. . . ; LN（X ηI E）]+E 〇 ps，g g pp（一）图1.通过堆叠4个E-ViT模块（顶部）的多尺度视觉变压器（底部）。E-ViT（an/ p）模块是具有高效注意机制a、n个高效变换器块、输入补丁大小p的ViT编码器。我们在补丁嵌入之后添加LayerNorm。我们添加ng个额外的全局令牌，作为全局内存的一种形式，并在进入下一阶段时简单地将它们丢弃。3. 多尺度堆叠视觉变换器3.1. 多尺度模型体系结构高效ViT（E-ViT）。如图1（底部）所示，我们通过进行以下修改来提高vision Transformer的编码效率。经修改的ViT被称为高效ViT（E-ViT）。(1)我们在面片嵌入后添加层归一化（LayerNorm）。（2）我们定义了一些全局令牌，包括CLSto- ken。相应地，与图像和特征块相关联的令牌之后被称为本地令牌(3) 我们用一个高效的注意力机制来代替香草式的完全自我注意力，用a表示，这将在后面描述zk′=MSAa（LN（zk−1））+zk−1，k=1，...，n（二）zk=MLP （ LN （ zk′ ））+zk′ ，k=1 ， ... ， n ，（ 3）其中LN是在补丁嵌入E之后添加的层归一化，MSA a是具有注意类型a的多头自注意，并且MLP是标准Transformer中的前馈块。当使用绝对二维位置嵌入时，E opsR（ nl+ngn）× d包含nl个局部标记的二维位置嵌入和ngn个全局标记的一维位置嵌入.当使用相对位置偏差时，E 〇 ps= 0，并且人均相对位置偏差被直接添加到MSAa模块中的注意力分数，如在等式⑷中。堆叠多个E-ViT模块作为多尺度视觉变换器。如图1（顶部）所示，通过堆叠多个E-ViT模块来构建多尺度视觉Transformer.在下文中，我们描述了我们在构建多尺度ViT时做出的几个设计选择。每个阶段的面片大小和隐藏维度是多少？如在对象检测和人体姿态估计中所要求的，对于具有4尺度特征图的模型，第一特征图需要将图像下采样4，并且因此阶段1可以被写为E-ViT（a1n1/4;h1，d1，ng，1）。我们通常只使用一个注意力块，即，n1=1。第一阶段生成最高分辨率的特征图，这会消耗大量内存，如表2所示。我们还构建了几个3阶段模型，其第一阶段斑块大小为8。对于后面的阶段，补丁大小被设置为2，这将特征图分辨率缩小2。遵循ResNet中的实践，我们在通过以下方式3001×→2.我们在表1中列出了一些代表性的模型配置。不同的注意类型（a）具有不同的全局标记数ng的选择。但它们共享相同的模型配置。因此，我们在表1中不指定a和ng本文中使用的模型配置的完整列表请参见补充文件。大小阶段1n、p、h、d阶段2n、p、h、d阶段3n、p、h、d阶段4n、p、h、d微小1,4,1,481,2,3,969,2,3,1921,2,6,384小1,4,3,962,2,3,1928,2,6,3841,2,12,768介质1,4,3,964,2,3,19216,2,6,3841,2,12,768基地1,4,3,968,2,3,19224,2,6,3841,2,12,768表1.用于多尺度堆叠ViT的模型架构。每个E-ViT阶段E-ViT（a n/p;h，d）的架构参数：注意力块的数量n、输入补丁大小p、头部的数量h和隐藏维度d。请参见图1（底部）中这些参数的含义。如何在连续的阶段之间连接全局令牌？在不同的阶段和不同的任务中，选择是不同的。对于本文中的任务，例如，分类，对象检测，实例分割，我们简单地丢弃全局令牌，并且仅重塑局部令牌作为下一阶段的输入。在这种选择中，全局令牌只扮演一种有效的方式在遥远的本地令牌之间进行全局通信的角色这些全局令牌在视觉语言任务中很有用，其中文本令牌用作全局令牌并且将在各个阶段之间共享。我们应该使用平均池层规范的功能或LayerNormedCLS令牌对于平面模型，该选择没有区别。但是对于多尺度模型，平均池化特征比CLS特征表现得更好，特别是对于在最后阶段仅具有一个注意力块的多尺度模型（包括表1中的所有模型）。消融研究请参阅补充部分。如表2所示，即使在ImageNet分类中，多尺度模型也优于平面模型，这证明了多尺度结构的重要性然而，全自注意机制遭受四次计算/存储器复杂度w.r.t.特征图的分辨率，如表2所示。因此，不可能在DeiT中使用相同的设置（批量大小和硬件）以完全注意力训练4阶段多尺度ViT3.2. Vision Longformer：一种“局部注意+全局记忆”机制我们建议使用“局部注意力+全局记忆”的模型#参数（男）FLOPs（G）存储器（男）Top-1（%）DeiT-Small / 16 [43]E-ViT（完整/16）-APE22.122.14.64.667.167.179.980.4/80.7全小型APE24.636.95488.381.9ViL-Small-APE24.634.86116.882.0ViL-Small-RPB24.654.86131.682.4表2.平面与多尺度模型：参数数量，FLOPS，每个图像的内存（启用Pytorch自动混合精度），以及图像大小为224的ImageNet精度。由于我们所有的多尺度模型使用来自最后阶段的平均合并特征进行分类，因此我们报告了具有CLS特征（第一）和具有平均合并特征（第二）的“E-ViT（全/ 16）-APE”的Top-1准确度多尺度模型始终优于平面模型，但当引入高分辨率块时，全注意力的内存使用量会迅速增加VisionLongformer（使用相对位置偏差（图2.左图：Vision Longformer的注意力机制。右：基于低阶的注意力机制。在Vision Longformer中没有“局部局部”的关注，我们得到了全局成型器。用线性层作为投影，我们得到Linformer[46]。使用具有相等内核大小和步幅的conv层，我们得到空间减少注意力（SRA）[47]。Longformer [3]最初是为NLP任务开发的我们添加ng个全局令牌（包括CLS令牌），它们被允许参与所有令牌，用作全局存储器。本地令牌被允许只关注全局令牌及其在窗口大小内的本地2-D邻居。毕竟，在这种“局部注意力+全局注意力”机制中有四个组成部分在等式（2）中，具有Vision Longformer注意机制的多头自注意（MSA）块被表示为MSAViL，即，a=等式⑵中的ViL。Vision Longformer的相对位置偏倚。关注-ing [33，2，26]，我们在计算注意力分数时向每个头部添加相对位置偏差B降低了E-ViT模块中的计算和存储成本2-D VisionLongformer是1-D VisionAttention（Q，K，V）=SoftMax（QKT/√d+B）V，（4）3002O×O×××≪×O×LO×其中Q、K、V是查询、键和值矩阵，并且d是查询/键维度。这种相对位置偏差使得Vision Longformer平移不变，这是视觉模型的期望属性。我们观察到相对于绝对2-D位置嵌入的显著改进，如表2所示的ImageNet分类和第4.4节的COCO对象检测。理论复杂性。给定全局和局部令牌的数量（分别由n_g和n_l表示）以及局部注意力窗口大小w，MSAVIL块的存储器复杂度为（ng（ng+nl）+nlw2）。虽然[3]指出分离全局和局部标记的注意力参数是有用的，但我们在实验中没有观察到明显的增益，因此只是让它们共享同一组注意力参数。我们根据经验将所有E-ViT阶段的窗口大小w设置为15，这使得我们的模型与作用于224 224个图像的ViT/16的全局注意力窗口大小14相当利用这样的窗口大小，只有前两个阶段（在4阶段多尺度ViT中）中的注意力后两个阶段的注意力相当于完全注意力。在我们的实验中，我们发现对于ImageNet分类问题，只使用一个全局令牌（ng=1）就足够了所以，有效的...MSAViL块的理论复杂度为O（（152+1）n），最快，这比完全注意力快60%，其代价是消耗比理论复杂度略多的存储器。通过滑动块的实现，我们还提出了一种随机移位的训练策略，进一步提高了训练速度和训练过程中的内存消耗。有关这些实现和随机移位训练策略的详细信息，请参见补充文件3.3. 其他有效的注意力机制我们将Vision Longformer与以下高效注意力方法的替代选择进行比较。我们把这些方法的详细描述和他们的实验装置在补充。纯全局内存（a=全局）。在Vision Long-former中，见图2（左），如果我们去除局部到局部的注意，那么我们得到纯全局记忆注意机制（以下称为全局注意）。其存储复杂度为（ng（ng+nl）），也是线性的。北湖然而，对于这种纯粹的全局记忆注意力，ng必须远大于1。我们逐渐增加ng（每次增加2），其性能在128处接近饱和因此，ng=128是此全局注意的默认值。其是线性w.r. t。token的数量lLinformer[46]（a=LIN）投影nl×d维ImageNet分类的卓越性能。表2中的结果表明，与全注意力模型相比，所提出的多尺度Vision Longformer实现了类似或甚至更好的性能，同时节省了大量的存储器和计算成本。对于分辨率为56 × 56的特征图（即，4级多尺度模型的第一级中的特征图）。对于更高分辨率的特征图，节省甚至更显著。这使得VisionLong-former可扩展到高分辨率视觉任务，例如对象检测和分割。当配备相对位置偏差时， VisionLongformer优于具有绝对位置嵌入的这表明Vision Longformer的三种实现及其随机移位训练策略。Vision Longformer在概念上类似于conv类局部注意力。我们通过三种方式实施Vision Longformer：（ 1 ）使用 Pytorch 的 unfold 函数（ nn.unfold 或tensor.unfold），(2)使用定制的CUDA内核和（3）使用滑动块方法。展开实现简单但非常慢，即，比全神贯注慢24倍40 40 768特征图。使用定制的CUDA内核的实现速度比在相同的设置下完全关注的速度快约20%，同时达到理论上的内存复杂度。滑动块方法是2在我们的sliding-chunk实现中等价（默认选择）。键和值到K d维使用额外的投影层，其中K nl。然后， n-l 个查询仅关注这些投影的 K 个键值对。Linformer的存储器复杂度为（Kn1）。我们逐渐增加K ，其性能在 256 处接近饱和。因此，我们为该Linformer注意力设置K=256，这与其推荐值相同。注意，Linformer空间缩减注意力（SRA ）[47]（a=SRA）类似于Linformer，但是使用具有内核大小R和步幅R的卷积层来投影键值对，因此产生nl/R2个压缩键值对。因此，SRA 的存储复杂度为（n2/R2），仍然是二次的.nl，但具有小得多的常数1/R2。当将ImageNet预训练的SRA模型转移到高分辨率任务时，SRA仍然遭受四次计算/存储器爆炸w.r.t. 特征图分辨率。 PyramidVision Transformer [47]使用此SRA构建多尺度视觉变换器主干，每个阶段具有不同的空间缩减比（R1=8，R2=4，R3=2，R4=1）。利用该PVTPerformer [10]（a=performer）使用随机内核来近似MSA中的Softmax计算，并且实现关于nl和随机特征的数量的线性计算/存储器复杂度。公司现采用国际3003−×××××Performer的默认256个正交随机特征（OR），并在补充中提供其他详细信息。注意型微小尺寸小型Trans2Det充分七十六。0681.91–ViL76.1881.99✓全球71.5278.97✓联系我们[46]74.7180.98✗SRA/64[47]69.0876.37✓SRA/32[47]73.2279.9–表演者71.1278.72✓Par-Global75.3281.46–Par-Linformer75.5681.79✗Par-SRA/3275.281.61–部分执行者75.3481.72–表3.在ImageNet分类上使用2D绝对位置嵌入的“Par-xformer”indicates multi-scale在“Trans2Det”列中这意味着它可以被传输，但是由于需要使用高分辨率特征图，相应的检测模型消耗过大的存储器。SRA/32在PVT[47]中使用相同的时间表缩小键/值特征映射，而SRA/64更积极地缩小，以使内存可用于下游高分辨率任务。将Vision Longformer与其他注意力机制进行比较。在表3中的ImageNet分类任务中，上述所有有效的注意力机制都显示出与Vision Longformer的巨大性能差距。Linformer 的性能非常有竞争力。 Global attention 和Performer具有与DeiT模型类似的性能（对于微小和微小的，为72.2）。79.8小的）。对于多尺度SRA模型，我们使用从阶段1到阶段4的空间缩减比16，8，4，2，这与PVT [47]中的缩减比8，4，2，1不同在表3中，这种更积极的空间减少使得分类性能更差，但是当转移到输入图像大小800的检测任务时，使得存储器成本可管理1333年有关这些模型的更完整比较，包括模型参数、FLOP和内存使用情况，请参阅补充资料。为什么Longformer更好？一个可能的原因是，与其他注意机制相比，凸状稀疏性是视觉变换器的良好电感偏置。这得到了我们的补充中预训练DeiT模型[43]的注意力图的可视化的支持。另一种解释是 VisionLongformer保持了键和值特征映射的高分辨率。然而，基于低分辨率的注意力机制（如 Linformer 和SRA）和纯全局注意力丢失了键和值特征图中的高分辨率信息。混合注意力机制（部分X型）分类任务对于具有224 × 224图像大小作为输入的分类任务，多尺度ViT中的阶段3处的特征图大小为14 ×14。这与ViT和DeiT中的特征图大小相同，最适合完全注意力。自然选择是在前两个阶段中使用有效注意力（具有高分辨率特征图但具有少量块），并且在后两个阶段中使用完全注意力具有这种混合注意机制的多尺度ViT被称为我们还在表3中报告了这些部分X-形成物所有这些Partial X-former在ImageNet分类上表现良好，Full Attention和Vision Longformer之间的差距非常小（甚至没有）。这些部分X-形式实现了非常好的精度效率性能的低分辨率分类任务。我们没有3.4. 转移到高分辨率视觉任务类似于ImageNet预训练的CNN权重到下游高分辨率任务的可转移性，例如对象检测和分割，在ImageNet上预训练的多尺度Vision Longformer可以转移到这样的高分辨率任务，如我们将在第4.3节中所示。然而，Linformer是不可转移的，因为线性投影层的权重对于分辨率是特定的。部分X-成形器和多尺度ViT与充分注意是不可转让的，由于其禁止大的内存使用后，转移到高分辨率的任务。在表7中，我们还显示了Vision Longformer在对象检测和分割任务上优于其他注意力机制4. 实验在本节中，我们展示了Vision Longformer（ViL的缩写）在4.1 4.2节中的ImageNet分类和4.3节中的下游高分辨率检测任务上的最终性能。我们遵循DeiT训练配置进行ImageNet分类训练，并使用标准的详细的实验设置，请参阅附录。4.1. ImageNet分类根据DeiT [43]中的设置，我们纯粹在ImageNet1K上训练多尺度ViL。在表4中，我们报告了我们的结果并与ResNets[14]，ViT [12]，DeiT [43]和PVT [47]进行了比较。我们的模型比同规模的其他模型高出很大一部分。我们再次确认，相对位置偏差（RPB）优于绝对的2-D位置嵌入（APE）的视觉Longformer。3004××××ViL-Base-RPB55.713.483.743.786.2表5.完全在ImageNet-1 K上训练，图像大小为224（无IN-21K）。在ImageNet-21 K上以图像大小224进行了预处理，并在ImageNet-1 K上以图像大小384进行了微调（IN-21 K之后），除了BiT-M [19]以图像大小480进行了微调我们的ViL模型用灰色背景突出显示。表4.参数数量、FLOPS和ImageNet精度。在ImageNet-1 K上训练，图像大小为224。我们的ViL模型具有灰色背景。详细型号配置见表14.2. ImageNet-21 K预训练当纯粹在ImageNet-1 K上训练时，从ViL-Medium到ViL-Base的性能增益非常小。这与ViT中的观察结果一致[12]：只有当训练数据足够时，才能很好地训练基于大的纯Transformer的模型。因此，我们进行了实验，其中ViL-Medium/Base模型首先在图像大小为2242的ImageNet-21 k上进行预训练，然后在图像大小为3842的ImageNet-1 K上进行微调。对于图像大小为3842的ViT模型，总共有24 24个标记具有完全关注。对于图像大小为3842的ViL模型，我们将窗口大小设置为（13，17，25，25），从Stage1到Stage4。因此，在最后两个阶段，ViL模型如表5所示，在ImageNet-21 K预训练后，ViL中等模型和基础模型的性能都得到了显著提升。我们想指出在ImageNet-21 K预训练设置中，ViL-Medium模型的性能已经超过ViT-Base/16，ViT-Large/16和BiT-152x4-M。ViL-Base模型的性能甚至更好。这显示了ViL模型的优越性能和参数效率。4.3. 检测任务我们将ViL应用于两个代表性的对象检测管道，包括RetinaNet [24]和Mask-RCNN [13]。我们遵循常规设置，使用我们的Vision Long- former作为主干来为两个检测流水线生成特征图。与[47]类似，我们从所有四个尺度中提取特征，然后将它们馈送到检测和/或实例分割头。为了使学习到的相对位置偏差适应检测中更高的图像分辨率，我们在训练之前对其执行双线性插值。在我们的实验中，所有模型都在COCO数据集[25]上进行评估，其中118k图像用于训练，5k图像用于评估。我们报告了1和3 +MS训练计划的结果，并将其与两种骨干架构进行了比较：[14][15][16][17][18]如表6所示，对于RetinaNet和Mask R-CNN流水线，我们的ViL实现了比ResNet和PVT架构更好的改进在所有模型尺寸（微小、小、中等、基本）和所有对象尺度（APS、APM、APL）上是均匀的。改进是如此之大，以至于具有“3x+MS”时间表的ViL-Tiny已经优于ResNeXt 101 - 64 x4 d和PVT-Large型号。当与并发Swin Transformer [26]相比时，我们的模型也以更少的参数和FLOP表现出色更具体地说，我们的ViL-Small在45 M参数下实现了47.1APb，而Swin-Tiny在48 M参数下实现了46.0APbRetinaNet和Mask R-CNN的这些一致和显著的改进证明了我们提出的ViL在将其用作高分辨率密集对象检测任务的图像编码器时的前景4.4. 检测任务的消融研究与其他有效的注意机制比较。与第4.4节类似，我们研究了SRA [47]，Global Transformer和Performer及其相应的部分版本，使用Mask R-CNN管道（使用1时间表训练）。如表7所示，当在所有阶段使用有效的注意力具体来说，我们的ViL达到42.9APb，而其他三个都在附近模型参数数（M）GFLOPS前1名（%）吞吐量模型参数数（M）无IN-21 KIN-21 K之后GFLOPSTop-1GFLOPSTop-1ViT-Base/16[12]ViT-Large/16[12]86.630717.661.677.976.549.3191.184.085.2BiT-152x4-M92818281.383785.4Swin-Base[26]8815.483.547.186.4R1811.71.869.84367DeiT-Tiny/16[43]5.71.372.22532PVT-Tiny[47]13.21.975.11489ViL-Tiny-APE6.71.376.3949ViL-Tiny-RPB6.71.376.7901R5025.64.178.51206DeiT-Small/16[43]22.14.679.9939PVT-小型[47]24.53.879.8810[26]第二十六话284.581.2713ViL-Small-APE24.64.982.0366ViL-Small-RPB24.64.982.4350R10144.77.979.8725PVT-培养基[47]44.26.781.2515[26]第二十六话508.783.2420ViL-培养基-APE39.78.783.3235ViL-培养基-RPB39.78.783.5222X101-64x4d83.515.681.5302ViT-Base/16[1]86.617.677.9291DeiT-Base/16[43]86.617.681.8291PVT-大号[47]61.49.881.7368Swin-Base[26]8815.483.5282ViL-Base-APE55.713.483.2149ViL-Base-RPB55.713.483.71443005×骨干参数数（M）FLOPs（G）RetinaNet 3x + MS计划Mask R-CNN 3x + MS时间表APAP50 AP75APSAPMAPLAPBAPB50APB75APmAPm50APm75ResNet18PVT-Tiny[47]21.3/31.223.0/32.9190/207-/-35.439.453.959.837.642.019.525.538.242.046.852.136.939.857.162.240.043.033.637.453.959.335.739.9ViL-Tiny-RPB16.6/26.9183/19943.664.446.128.147.556.744.266.448.240.663.244.0ResNet5037.7/44.2239/26039.058.441.822.442.851.641.061.744.937.158.440.1PVT-小型[47]34.2/44.1226/24542.262.745.026.245.257.243.065.346.939.962.542.8[26]第二十六话-/48-/264––––––46.068.150.341.665.144.9ViL-Small-RPB35.7/45.0255/27745.966.649.030.949.359.947.168.751.542.765.946.2ResNet10156.7/63.2315/33640.960.144.023.745.053.842.863.247.138.560.141.3ResNeXt101-32x4d56.4/62.8319/34041.461.044.323.945.553.744.064.448.039.261.441.9PVT-培养基[47]53.9/63.9283/30243.263.846.127.346.358.944.266.048.240.563.143.5[26]第二十六话-/69-/354––––––48.570.253.543.367.346.6ViL-培养基-RPB50.8/60.1330/35247.968.851.332.451.961.848.970.354.044.267.947.7ResNeXt101-64x4dPVT-大号[47]95.5/101.971.1/81.0473/493345/36441.843.461.563.644.446.125.226.145.446.054.659.544.444.564.966.048.848.339.740.761.963.442.643.7ViL-Base-RPB66.7/76.1421/43948.669.452.234.152.561.949.670.754.644.568.348.0表6. COCO val2017上的对象检测和实例分割性能。列“/”前后的数字2和3分别是RetinaNet和Mask R-CNN的模型大小和复杂度。FLOP（G）以分辨率800 1333测量。我们的ViL-Tiny和ViL-Small模型在ImageNet-1 K上进行了预训练，我们的ViL-Medium和ViL-Base模型在ImageNet-21 k上进行了预训练。ViL结果以灰色背景突出显示。表7.比较使用Mask R-CNN进行对象检测的不同有效注意力机制。所有使用小模型尺寸和绝对2-D位置嵌入（APE）进行公平比较。还报告了训练每个模型时的运行时内存成本36.0AP湾当有效的注意力机制仅用于前两个阶段（Par-Xformer）时，不同机制之间的差距此外，ViL模型优于所有其他注意力机制的部分模型，并且与部分ViL模型具有非常小的差距（0.4APb这些结果表明，Vision Longformer中的在ImageNet分类中，窗口大小和全局令牌数量的影响并不明显，只要最后两个阶段使用完全注意力。对于[9，15，21]中的不同窗口大小和[9，15，21]中的不同全局令牌数量[0，1，2，4，8]，则最终top-1精度相差最

下载后可阅读完整内容，剩余1页未读，立即下载