自适应T2T-ViT:从零开始训练的视觉转换器

83 浏览量更新于2023-10-13 收藏 901KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

558××代币到代币ViT：在ImageNet上从零开始训练视觉转换器LiYuan1*，YunpengChenn2，TaoWang1，3*，WeihaoYu1，YujunShi1，Zihang Jiang1，Francis E.H.泰1、嘉世丰1、水城燕11新加坡国立大学2依图科技3新加坡国立大学数据科学研究院yuanli@u.nus.edu，yunpeng. yitu-inc.com，shuicheng. gmail.com摘要变形金刚，这是流行的语言建模，已被探索解决视觉任务最近，例如Vision Transformer（ViT）用于图像分类。ViT模型将每个图像分割成固定长度的令牌序列，然后应用多个Transformer层来建模它们的全局关系以进行分类。然而，当在ImageNet等中型数据集上从头开始训练时，ViT的性能不如CNN。我们发现这是因为：1）输入图像的简单标记化不能对重要的局部结构（例如相邻像素之间的边缘和线）进行建模，导致低的训练样本效率; 2）ViT的冗余注意力主干设计导致固定计算预算和有限训练样本的有限特征丰富度。为了克服这些限制，我们提出了一种新的令牌到令牌可视化Transformer（T2 T-ViT），其包括：1）逐层令牌到令牌（T2 T）转换，以通过递归地将相邻令牌聚合成一个令牌（令牌到令牌）来将图像渐进地结构化为令牌，使得由周围令牌表示的局部结构可以被建模并且令牌长度可以被减少; 2）基于CNN的结构设计，提出了一种基于深度窄结构的视觉Transformer的有效主干。值得注意的是，T2 T-ViT将vanilla ViT的参数计数和MAC减少了一半，同时在ImageNet上从头开始训练时实现了超过3.0%的改进它还优于ResNets，并通过直接在ImageNet上训练来实现与MobileNets相当的性能。例如，具有可比尺寸的到ResNet50（21.5M参数）可以在ImageNet上的图像分辨率为384× 384时达到83.3%的top1准确率。11. 介绍用于语言建模的自我注意力模型，如Trans-former[37]最近已应用于视觉任务，包括图像分类[5，12，43]，对象检测[ 5，12，43 ]，视觉任务[5，12，43]*在依图科技实习期间完成的工作1代码： https://github.com/yitu-opensource/T2T-ViT图1. T2 T-ViT与ViT，ResNets和MobileNets在ImageNet上从头开始训练时的比较。左：MAC与Top-1精度。右：型号尺寸与Top-1精度。[3，61]和图像处理，如去噪、超分辨率和去噪[4]。其中，VisionTransformer（ViT）[12]是第一个可以直接应用于图像分类的全变换模型。特别地，ViT将每个图像分割成14× 14或16 × 16块（也称为根据语言建模Transformer的实践，ViT应用转换器层来建模这些词之间的全局关系以用于分类。虽然ViT证明了全变压器架构在视觉任务中很有前途，但其性能仍然不如类似大小的CNN同行（例如，CNN ）。 ResNets ）在中型数据集（例如， Im-ageNet）。我们假设这种性能差距源于ViT的两个主要限制：1）通过硬分割对输入图像进行的直接拓扑化使得ViT无法对图像局部结构（如边缘和线条）进行建模，因此它需要比CNN显著更多的训练样本（如用于预训练的JFT-300 M）来实现类似的性能; 2）ViT的注意力主干没有被很好地设计为用于视觉任务的CNN，其包含冗余并且导致有限的特征丰富度和模型训练的困难。为了验证我们的假设，我们进行了一项初步研究，以通过图1中的可视化来研究ViT-L/16[12]和ResNet 50[15]二、我们观察到ResNet的特征捕获期望的局部559ResNet50：conv1ResNet50：conv25ResNet50：conv49ViT-L/16：阻断ViT-L/16：阻断ViT-L/16：阻断T2 T-ViT-24：T2 T阻T2 T-ViT-24：阻断T2 T-ViT-24：块24图2. ResNet 50、ViT-L/16 [12]和我们提出的T2 T-ViT-24在ImageNet上训练的特征可视化。绿色框突出显示学习到的低级结构特征，如边缘和线条;红色框突出显示值为零或过大的无效特征图注意，这里针对ViT和T2 T-ViT可视化的特征图不是注意力图，而是从标记重塑的图像特征为了更好地可视化，我们将输入图像缩放到1024×1024或2048×2048的大小。结构（边缘、线条、纹理等）从底层（Conv1）到中间层（Conv25）逐渐地进行然而，ViT的功能却大不相同：结构信息被很差地建模而全局关系（例如，整个狗）被所有的注意块捕获这些观察结果表明，香草ViT忽略了本地结构时，直接分裂图像的令牌具有固定长度。此外，我们发现ViT中的许多通道具有零值（图中以红色突出显示）。2），这意味着ViT的骨干不如ResNets高效，并且当训练样本不足时提供有限的特征丰富度。然后，我们有动机设计一个新的全变压器视觉模型来克服上述限制。1)代替ViT [12]中使用的朴素令牌化，我们提出了一个渐进的令牌化模块来将相邻的令牌聚合到一个令牌（称为令牌到令牌模块），该模块可以对周围令牌的局部结构信息进行建模并迭代地减少令牌的长度。具体地，在每个令牌到令牌（T2T）步骤中，由Transformer层输出的令牌被重构为图像（重构），然后将其分割成具有重叠的令牌（软分割），并且最后通过使分割的块变平来将周围的令牌聚合在一起。因此，来自周围贴片的局部结构被嵌入到令牌中以输入到下一个Transformer层中。通过迭代地进行T2T，局部结构被聚集成令牌，并且令牌的长度可以通过聚集过程来减少。2)为了找到视觉变换器的有效骨干，我们探索从CNN借用一些架构设计来构建变换器层以用于改善特征丰富性，并且我们发现ViT中具有较少通道但更多层的“深窄”架构设计在相当的模型大小和MAC（多添加）下带来更好的性能。我们特别研究Wide-ResNets（浅宽与深窄结构）[52]，DenseNet（密集连接）[21]，ResneXt结构[44]，Ghost操作[14，59]和通道atten- tion [20]。我们发现其中，深窄结构[52]对于ViT是最有效的，显著减少了参数计数和MAC，几乎没有性能下降。这也表明CNN的架构工程可以有益于视觉转换器的骨干设计。基于T2 T模块和深窄主干架构，我们开发了令牌到令牌视觉转换器（T2 T-ViT），当在ImageNet上从头开始训练时，它显着提高了性能（图1）。1），并且比香草ViT更轻便如图1，我们的21.5M参数和4.8GMAC的T2 T-ViT可以在ImageNet上达到81.5%的top-1准确率，远高于48.6M参数和10.1G MAC的ViT [12]（78.1%）。该结果也高于类似大小的流行CNN，如具有25.5M参数的ResNet 50此外，我们还通过简单地采用更少的层来设计T2 T-ViT的精简变体，其实现了与MobileNets相当的结果[17，32]（图1B）。①的人。综上所述，我们的贡献有三方面：•这是第一次，我们通过仔细设计变压器架构（T2 T模块和有效的主干），表明视觉变压器可以在ImageNet上以不同的复杂度胜过CNN，而无需在JFT-300 M上进行预训练。•我们开发了一种新的渐进令牌化ViT，并证明了它的优势，简单的令牌化方法由ViT，我们提出了一个T2T模块，可以编码的重要的本地结构为每个令牌。560•我们表明CNN的架构工程可以有益于ViT的主干设计，以提高特征丰富性并减少冗余。通过大量的实验，我们发现深窄结构设计最适合ViT。2. 相关工作Vision Transformers中的Transformers [37]是完全依赖于自注意机制来绘制输入和输出之间的全局依赖关系的模型，目前它们已经主导了自然语言建模[10，30，2，46，29，23]。Transformer层通常是我不是步骤1：重组步骤2：软分割1下一个T2Tally由多头自注意层（MSA）和MLP块组成在自注意层和MLP块两者中的每个层和残差连接之前应用层范数（LN）。最近的工作探索了将变压器应用于各种视觉任务：图像分类[5，12]、对象检测[3，61，58，8，34]、分割[4，40]、图像增强[4，45]、图像生成[27]、视频处理[60，53]和3D点云处理[56]。其中，VisionTransformer（ViT）证明了纯Transformer架构也可以在图像分类方面达到最先进的性能。然而，ViT严重依赖于大规模数据集，如ImageNet-21 k和JFT-300 M（这是不可用的）进行模型预训练，需要大量的计算相比之下，我们提出的T2 T-ViT更有效，并且可以在ImageNet上训练，而无需使用那些大规模数据集。最近的并发工作DeiT [36]应用知识蒸馏[16，49]通过添加KD令牌以及类令牌来改进原始ViT，这与我们的工作正交，因为我们的T2 T-ViT专注于架构设计，并且我们的T2 T-ViT可以在没有CNN作为教师模型的情况下实现比DeiT更高的CNN中的自我注意力自我注意力机制已被广泛应用于视觉任务中的CNN [38，57，19，47，20，39，1，6，18，31，42，13，50，48]。其中工作时，SE块[20]将注意力应用于信道维度，并且非本地网络[39]被设计用于通过全局注意力捕获远程依赖性。与大多数探索图像上的全局注意力的作品[1，42，13，39]相比，一些作品[18，31]还探索了局部补丁中的自注意力，以减少内存和计算成本。最近，SAN [55]研究了图像识别的成对和分片自注意，其中分片自注意是卷积的推广。在这项工作中，我们还在实验中用多个卷积层代替T2T模块，发现卷积层的性能并不比我们设计的T2T模块好。图3. T2T工艺图解。令牌Ti 重新-在变换和重塑之后被结构化为图像Ii;则Ii再次被重叠地分割为令牌Ti+1。具体地，如粉红色面板中所示，输入I i的四个令牌（1，2，4，5）被连接以形成T i +1中的一个令牌。T2T转换器可以是普通的Transformer层[37]或其他高效的转换器，如有限GPU内存中的执行者层[34]3. 通证到通证ViT为了克服ViT的简单令牌化和低效骨干的局限性，我们提出了令牌到令牌视觉 Transformer （ T2 T-ViT），其可以逐步将图像令牌化为令牌并且具有高效的骨干。因此，T2 T-ViT由两个主要组成部分组成（图1）。4）：1)逐层的“令牌到令牌模块”（T2 T模块），用于对图像的局部结构信息进行建模并逐步减少令牌的长度;2）有效的“T2 T-ViT骨干”，以从T2 T模块提取令牌上的全局注意力关系。在探索了几种基于CNN的架构设计后，我们采用了一种深窄结构的主干，以减少冗余并提高特征丰富性。我们现在逐一解释这些部件。3.1. 令牌到令牌：渐进式令牌化令牌到令牌（T2T）模块旨在克服ViT中简单令牌化的限制。它逐步地将图像结构化为令牌并对局部结构信息进行建模，并且以这种方式可以迭代地减少每个T2T过程有两个步骤：重构和软分裂（SS）（图1）。（3）第三章。重组如图所示。3，给定来自前一个Transformer层的令牌T的序列，它将被自注意块（图3中的T2T变换器）变换。3）：T′=MLP（ MSA（T）），（1）其中，MSA表示具有层归一化的多头自注意操作，并且T2T工艺1代币到代币25344重塑12 345 678 9展开2918566785我我不i+19TiT2T TransformerT2T Transformer561∈−×∈∈×O2∈ceptron在标准的Trans-former中进行层归一化[12]。然后，令牌T’将被重塑为空间维度中的图像，I=重塑（T′）。（2）这里“Reshape”将令牌T ′ R l × c重新组织为I其中l为T′的长度，h、w、c分别为高度、宽度和沟道，l=h×w。软分裂如图所示3、在获得重构图像I之后，我们对其应用软分裂以建模局部结构信息并减少令牌长度。具体来说，为了避免信息丢失，从重构图像生成令牌，我们将其分割成重叠的补丁。因此，每个区块与周围区块相关以建立周围标记之间应该存在更强相关性的先验。每个分割补丁中的令牌被连接为一个令牌（令牌到令牌，图1A）。3），并且因此可以从周围像素和块聚集局部信息。当进行软分割时，每个补丁的大小为k k，其中在图像上有s重叠和p填充，其中k s类似于卷积运算中的步幅因此，对于重建图像IRh×w ×c，软分裂后的输出令牌的长度T。3.2. T2 T-ViT骨架由于香草ViT的主干中的许多通道是无效的（图1）。2），我们计划为我们的T2 T-ViT找到一个有效的主干，以减少冗余并提高特征丰富性。因此，我们探索了ViT的不同架构设计，并借鉴了CNN的一些设计，以提高骨干效率并增强学习特征的丰富性由于每个Transformer层具有作为ResNets的跳过连接，因此一个简单的想法是应用密集连接作为DenseNet [21]以增加连接性和特征丰富性，或者应用Wide-ResNets或ResNeXt结构来改变ViT的主干中的通道维度和头数。我们探索了从CNN到ViT的五种架构设计1.DenseNet的密集连接[21];2.深窄与如Wide-ResNets中的浅宽结构[52];3.通道注意力作为挤压和激励（SE）网络[20];4.多头注意力层中的更多分裂头，如ResNeXt [44];l=，h +2p −k+1，×，w +2p −k+1，.（三）k−sk−s5.Ghost操作为GhostNet [14]。每个分裂面片的大小为k×k×c。我们将空间维度中的所有补丁平坦化为令牌ToRlo×ck。在软分割之后，输出令牌被馈送用于下一个T2T过程。T2T模块通过迭代地进行上述重构和软分割，T2T模块可以逐渐减少标记的长度并变换图像的空间结构。T2T模块中的迭代过程可以公式化为Ti′=MLP（ MSA（Ti），附录中给出了ViT中这些结构设计的详细信息我们进行了大量的结构转换实验。四点二。我们的实验发现：1）通过采用深窄结构，简单地减小通道维数以减少通道中的冗余，增加层深度以提高特征丰富度，在ViT中，模型大小和MAC都减小了，但性能得到了提高;2）作为SE块的通道注意力也改善了ViT，但不如使用深度-Ii=Reshape（Ti′），（四）狭窄的结构基于这些发现，我们设计了一个深窄的ar-T i+1= SS（I i）， i = 1…（n − 1）。对于输入图像I0，我们首先应用软分割将其分割为令牌：T1= SS（10）。在最后一次迭代之后，T2 T模块的输出令牌Tf具有固定长度，因此T2 T-ViT的主干可以在Tf上建模全局关系。另外，由于T2T模块我们的T2 T-ViT骨干的架构具体地，它具有小的信道号和隐藏维度d，但是具有更多的层b。对于来自T2T模块的最后一层的具有固定长度Tf的令牌，我们将类令牌连接到它，然后向它添加正弦位置嵌入（PE），与ViT进行分类相同大于ViT中的正常情况（16 16），MAC和内存使用量巨大。为了解决这些限制，在Tf0 =[t CLS;Tf ]+E，E∈R（l+1）×d我们的T2T模块，我们将T2T层的信道维度设置为小（ 32 或 64 ）以减少 MAC ，并且可选地采用诸如Performer [7]层的高效Transformer来重新配置。Tfi=MLP（MSA（Tfi−1）），i=1…By=fc（ LN（Tfb））（五）在有限的GPU内存中减少内存使用我们提供了一个烧蚀研究之间的差异，采用标准的 Transformer 层和Performer层在我们的实验。其中E是正弦位置嵌入，LN是层归一化，fc是用于分类的一个全连接层，并且y是输出预测。562类图4.T2 T-ViT的整体网络架构在T2T模块中，输入图像首先被软分割为补丁，然后展开为令牌序列T0。令牌的长度在T2T模块中逐渐减少（我们在这里使用两次迭代并输出Tf）。然后，T2 T-ViT主干将固定令牌作为输入并输出预测。两个T2T块与图1B相同PE是位置嵌入。表1.T2 T-ViT的结构细节T2 T-ViT-14/19/24与ResNet 50/101/152的型号尺寸相当T2 T-ViT-7/12具有与MobileNetV 1/V2相当的型号尺寸。对于T2 T Transformer层，我们在有限的GPU存储器上采用用于T2 T-ViT t-14的变换器层和用于T2 T-ViT-14的执行者层。对于ViT，“S”表示小，“B”表示碱基，“L”表示大。‘ViT-S/16’ is a variant from original ViT-B/16 [模型令牌到令牌模块T2 T-ViT骨架模型大小T2tTransformer深度隐藏昏暗MLP大小深度隐藏昏暗MLP大小ParamsMacs(M)（G）ViT-S/16 [1]----8786235848.610.1ViT-B/16 [1]----12786307286.817.6[12]第十二话----2410244096304.363.6T2T-ViT-14表演者2646414384115221.54.8T2T-ViT-19表演者2646419448134439.28.5T2T-ViT-24表演者2646424512153664.113.8T2T-ViTt-14Transformer2646414384115221.56.1T2T-ViT-7表演者2646482565124.21.1T2T-ViT-12表演者26464122565126.81.83.3. T2 T-ViT架构T2 T-ViT有两个部分：令牌到令牌（T2 T）模块和T2 T-ViT主干（图11）。4）.对于T2T模块存在各种可能的设计选择。这里，我们设置n=2，如图所示。4，这意味着在T2T模块中存在n+1= 3个软分裂和n=2个重构。三个软分割的补丁大小是P=[7，3，3]，并且重叠是S=[3，1，1]，这减小了输入的大小图像从224×224到14×14（三）、T2 T-ViT骨干网从T2 T模块获取固定长度的令牌作为输入，与ViT相同;但深窄架构设计，隐藏尺寸（256-512）和MLP尺寸（512-1536）小于ViT。例如， T2 T-ViT-14 在 T2 T-ViT 主干中具有 14 个Transformer层，具有384个隐藏维度，而ViT-B/16具有12个变换器层和768个隐藏维度，其在参数和MAC方面比T2 T-ViT-14大3倍。为了与常见的手工设计的CNN进行公平比较，我们使T2 T-ViT模型具有与之相当的大小。ResNets和MobileNets。具体来说，我们设计了三种模型：T2 T-ViT-14、T2 T-ViT-19和T2 T-ViT-24分别具有与ResNet 50、ResNet 101和ResNet 152相当的参数。为了与MobileNets等小型模型进行比较，我们设计了两种精简模型：T2 T-ViT-7、T2 T-ViT-12，型号尺寸与MibileNetV 1和MibileNetV 2相当。这两个精简版TiT-ViT没有特殊的设计或技巧，如高效卷积[26]，只是降低了层深度，隐藏维度和MLP比率。网络详细信息汇总在表1中。1.一、4. 实验我们使用T2 T-ViT在ImageNet上进行了以下图像分类实验a）我们通过在ImageNet上从头开始训练来验证T2 T-ViT，并将其与一些常见的卷积神经网络（如ResNets和MobileNet）进行比较;我们还将预训练的T2T-ViT转移到下游数据集，如CIFAR 10和CIFAR 100（第二节）。4.1）。（b）我们比较令牌到令牌模块T2 T-ViT骨架图像224 x224展开T2tT2t+PECLS令牌TfI0T2MLP头T17Transformer层Transformer层T2T TransformerT2T Transformer563××五个T2 T-ViT骨干架构设计灵感来自CNN（Sec.4.2）。(c)我们对恶魔进行消融研究-表2. T2 T-ViT和ViT之间的比较，通过ImageNet上的scratch进行训练。T2 T模块的基板效应和T2 T-ViT的深窄结构设计（第2节）4.3）。4.1. ImageNet上的T2 T-ViT所有实验都在ImageNet数据集上进行[9]，训练集中有大约130万张图像，验证集中有50k张图像。我们使用批量大小为512或1024的8个NVIDIA GPU进行训练。我们采用 Pytorch [28] 库和 Pytorch 图像模型库（timm）[41]来实现我们的模型并进行所有实验。为了公平比较，我们对CNN实施了相同的训练方案ParamsMacs模型、ViT和T2 T-ViT。在ImageNet上的整个实验中，除了384 384上的一些特定情况外，我们将默认图像大小设置为224 224，并采用一些常见的数据增强方法，如mixup [54]和表3.我们的T2 T-ViT与ImageNet上的ResNets之间的比较。T2T-ViTt-14：在T2 T模块中使用Transformer。T2 T-ViT-14：在T2 T模块中使用Performer。* 意味着我们用我们的训练方案训练模型以进行公平比较。cutmix [11，51]用于CNN和ViT T2 T-ViT模型训练，因为ViT模型需要更多的训练数据模型Top1-访问（%）参数（M）MAC（G）达到合理的性能。我们训练这些模型310 epochs，使用AdamW [25]作为优化器和协同ResNet50 [15]76.225.54.3正弦学习率衰减[24]。实验组的详细信息ResNet50*79.125.54.3附件中给出了这些数据。我们还使用TransformerT2T-ViT-1481.521.54.8层和执行者层的T2T模块，重新T2T-ViTt-1481.721.56.1在 T2 T-ViTt-14/19/24 （ Transformer ）和 T2 T-ViT-14/19/24（Performer）中进行了测试。T2 T-ViT vs. ViT我们首先在ImageNet上比较T2 T-ViT和ViT的性能。结果见表。二、我们的T2 T-ViT在参数和MAC的数量上比ViT小得多，但性能更高。例如，具有48.6M和10.1G MAC的小型ViT模型ViT-S/16在ImageNet上从头开始训练时具有78.1%的top-1准确率，而我们的T2 T-ViTt-14 只有44.2%的参数和 51.5%的MAC，实现了超过3.0%的改进（81.5%）。如果我们将T2 T-ViTt-24与ViT-L/16进行比较，前者将参数和MAC减少了约500%，但在ImageNet上实现了超过1.0%的改进。将 T2 T-ViT-14 与 DeiT-small 和 DeiT-small-Distilled进行比较，我们的T2 T-ViT可以实现更高的准确性。没有大的CNN模型作为老师来增强ViT。我们还采用了更高的图像分辨率为384×384，并通过我们的T2 T-ViT-14↑384获得了83.3%的准确率。T2 T-ViT vs. ResNet为了公平比较，我们设置了三个T2 T-ViT模型，它们具有与ResNet 50，ResNet 101和ResNet 152相似的模型大小和MAC。实验结果见表1。3 .第三章。所提出的T2 T-ViT在具有类似模型大小和MAC的ResNets上实现了1.4%-2.7%的性能增益。例如，与25.5M参数和4.3G MAC的ResNet 50相比，我们的T2 T-ViT-14具有21.5M参数和4.8G MAC在ImageNet上获得81.5%的准确率。T2 T-ViT vs. MobileNetsT2 T-ViT-7和T2 T-ViT- 12与MobileNetV 1 [17]和Mo具有相似的型号大小ResNet101[15]ResNet101*T2T-ViT-19T2T-ViTt-1977.479.981.982.244.644.639.239.27.97.98.59.8ResNet152 [15]78.360.211.6ResNet152*80.860.211.6T2T-ViT-2482.364.113.8T2T-ViTt-2482.664.115.0bileNetV2 [32]，但实现与MobileNets相当或更高的性能（Tab. 4）.例如，我们的T2 T-ViT-12具有6.9M参数，达到76.5%的top1精度，高于MobileNetsV 2 1。4x0.9%。但我们也注意到，由于Transformers中的密集操作，我们的T2 T-ViT的MAC仍然比MobileNets大然而，在当前的T2 T-ViT-7和T2 T-ViT-12中没有像有效卷积[26，32]这样的特殊操作或技巧，并且我们仅通过减小隐藏维度、MLP比率和层深度来减小模型大小，这表明T2 T-ViT作为精简模型也非常有前途我们还将知识蒸馏应用于我们的T2 T-ViT作为并行工作DeiT [36]，并发现我们的T2 T-ViT-7和T2 T-ViT- 12可以通过蒸馏进一步改进。总的来说，实验结果表明，我们的T2 T-ViT可以实现卓越的性能，当它具有中等大小的ResNets和合理的结果，当它具有一个小的模型大小的MobileNets。我们将预训练的T2 T-ViT转移到下游数据集，如CIFAR 10和CIFAR 100。我们ViT-B/16 [1][12]第十二话T2T-ViT-2479.881.182.386.4 17.6304.3 63.664.1 13.8模型Top1-访问（%）（男）（G）ViT-S/16 [1]78.148.610.1[36]第三十六话79.922.14.6[36]第三十六话81.222.14.7T2T-ViT-14T2T-ViT-14↑38481.583.321.521.54.817.1564模型Top1-访问（%）MobileNetV1 1.0x*T2T-ViT-7T2 T-ViT-7-蒸馏MobileNetV2 1.0x*MobileNetV2 1.4x*70.871.773.172.875.6参数MAC(M)（G）4.2 0.64.3 1.14.3 1.13.5 0.3表4.我们的lite T2 T-ViT与MobileNets之间的比较。带有“-Distilled”的模型由教师模型使用DeiT [ 36 ]的方法进行教学。SW的性能下降了8.2%，而ViT-DN只有一半的模型大小和MAC实现了0.9%的增长。这些结果验证了我们的假设，香草ViT与浅宽结构是多余的通道尺寸和有限的功能丰富的浅层。密集连接会损害ViT和T2 T-ViT的性能：与ResNet 50相比，DenseNet 201具有更小的参数和相当的MAC，同时具有更高的性能。然而，密集连接会损害ViT-Dense和T2 T-ViT-Dense（暗）MobileNetV3（已搜索）75.25.40.2选项卡中的蓝色行（六）。T2T-ViT-1276.56.91.8SE阻滞改善ViT和T2 T-ViT：从红色T2 T-ViT-12-蒸馏77.46.91.9选项卡中的行6，我们可以找到SENets，ViT-SE和T2T-ViT-表5. 将预训练的T2 T-ViT微调到下游数据集的结果：CIFAR10和CIFAR 100。模型参数（M）ImageNetCIFAR10CIFAR100ViT/S-1648.678.197.187.1T2T-ViT-1421.581.597.588.4T2T-ViT-1939.181.998.389.0通过使用SGD优化器和余弦学习率衰减来微调具有60个epoch的预训练的T2 T-ViT-14/19。五、我们发现我们的T2 T-ViT 可以实现比原始ViT更高的性能，在下游数据集上具有更小的模型大小。4.2. 从CNN到ViT为了找到用于视觉变换器的有效主干，我们实验性地将DenseNet结构、Wide-ResNet结构（宽或窄通道尺寸）、SE块（通道注意力）、ResNeXt结构（多头注意力中的更多头这些架构设计的细节在附录中给出。从实验结果“CNN到ViT”在Tab. 6，我们可以发现SE（ViT-SE）和深窄结构（ViT-DN）都有利于ViT，但最有效的结构是深窄结构，它将模型大小和MAC降低了近2倍，并在基线模型ViT-S/16上带来了0.9%的改进我们进一步将CNN中的这些结构应用到我们的T2 T-ViT中，并在相同的训练方案下在ImageNet上进行实验我们将ResNet 50作为CNN的基线，将ViT-S/16作为ViT的基线，将T2 T-ViT-14作为T2 T-ViT的基线。所有实验结果在表1中给出。6，而CNN和ViT T2 T-ViT上的那些用相同的颜色标记。我们在下面总结了每个基于CNN的结构的影响。深窄结构有利于ViT：Tab.中的型号ViT-DN（深窄）和ViT-SW（浅宽）图6是通道尺寸和层深度的两种相反设计，其中ViT-DN具有384个隐藏尺寸和16层，ViT-SW具有1，024个隐藏尺寸和4层。与具有768个隐藏维度和8层的基线模型ViT-S/16相比，浅宽模型ViT-S/16具有更高的隐藏维度和更高的隐藏维度。SE高于相应基线。SE模块可以提高CNN和ViT的性能，这意味着对通道的关注对CNN和ViT模型都有好处。ResNeXt结构对ViT和T2 T-ViT的影响较小ResNeXts在ResNets上采用多头，而Transformers也是多头注意力结构。当我们采用更多的头，如32，我们可以发现它对每分钟的影响很小（表6中的红色行）。然而，采用大量头使得GPU存储器大，这因此在ViT和T2 T-ViT中是不必要的。Ghost可以进一步压缩模型并减少T2 T-ViT的MAC比较Ghost操作的实验结果（表1中的品红色行）。6），在ResNet 50上准确度降低2.9%，在T2 T-ViT上降低2.0%，在ViT上降低4.4%。因此，Ghost操作可以进一步降低T2 T-ViT的参数和MAC，并且性能下降比ResNet小。但对于原始ViT，它会导致比ResNet更多的减少。此外，对于所有五种结构，T2 T-ViT的性能优于ViT，这进一步验证了我们提出的T2 T-ViT的优越性。我们也希望将CNN结构移植到ViT的研究能够促进视觉任务中Transformers的网络设计。4.3. 消融研究为了进一步确定T2 T模块和深窄结构的影响，我们对我们的T2 T-ViT进行了消融研究T2 T模块为了验证所提出的T2 T模块的效果，我们实验比较了三种不同的模型：T2 T-ViT-14，T2 T-ViT-14woT2 T和T2 T-ViTt-14，其中T2 T-ViT-14woT2T具有相同的T2 T-ViT骨架但没有T2 T模块。我们可以发现，在模型大小和MAC相似的情况下，T2 T模块可以在ImageNet上将模型性能提高2.0%-2.2%。由于T2T模块中的软分裂类似于没有卷积滤波器的卷积运算，因此我们也用3个卷积层来代替T2T模块，分别具有内核大小（7，3，3）和步长大小（4，2，2）。这样的模式与565消融类型型号Top1-访问参数MAC（%）（M）（G）T2T模块T2T-ViT-14woT2TT2T-ViT-1479.581.5（+2.0）21.14.24.8CT2T-ViT-14DN结构T2T-ViT-d768-481.578.8（-2.7）21.54.85.4表6.将CNN中的一些常见设计转移到ViT T2 T-ViT，包括DenseNet，Wide-ResNet，SE模块，ResNeXt，Ghost操作。相同的颜色表示相应的转移。所有模型都在ImageNet上从头开始训练。* 这意味着我们用我们的训练方案重现模型以进行公平比较。模型类型模型Top1-访问（%）参数（M）MAC（G）深度隐藏暗淡AlexNet [22]56.661.10.77--传统的CNNVGG11 [33]69.1132.87.711-[35]第三十五话77.427.25.7--ResNet50 [15]76.225.64.350-ResNet50*（基线）79.125.64.350-Wide-ResNet18x1.5*78.0（-1.1）26.04.118-跳过连接CNNDenseNet201*77.5（-1.6）20.14.4201-SENet50*80.3（+1.2）28.14.950-ResNeXt50*79.9（+0.8）25.04.350-ResNet50-Ghost*76.2（-2.9）19.93.250-ViT-S/16（基线）78.148.610.18768ViT-DN79.0（+0.9）24.55.516384ViT-SW69.9（-8.2）47.99.941024CNN转ViTViT密集76.8（-1.3）46.79.719128-736ViT-SE78.4（+0.3）49.210.28768ViT-ResNeXt78.0（-0.1）48.610.18768ViT-Ghost73.7（-4.4）32.16.98768T2 T-ViT-14（基线）81.521.54.814384T2 T-ViT-宽77.9（-3.4）25.15.014768CNN转T2 T-ViTT2 T-ViT-密集T2T-ViT-SE80.6（-1.1）81.6（+0.1）23.721.95.54.91914128-584384T2T-ViT-ResNeXt81.5（+0.0）21.54.814384T2T-ViT-Ghost79.5（-2.0）16.33.714384表7. T2T模块、深窄（DN）结构的消融研究结果。T2T-ViTt-1481.7（+2.2） 21.56.1T2T-ViT-1480.8（+1.3） 21.34.6用于构建T2 T模块的卷积层被表示为T2 T-ViTc-14。从Tab。7，我们可以发现T2 T-ViTc-14比T2 T-ViT-14和T2 T-ViTt-14差0.5%-1.0%。我们还注意到，T2 T-ViTc-14仍然高于T2 T-ViT-14woT2T，因为早期阶段的卷积层也可以对结构信息进行建模。但我们设计的T2T模块比卷积层更好，因为它可以同时建模图像的全局关系和结构信息深窄结构我们使用隐藏维度更少但层数更多的深窄结构，而不是原始ViT中的浅宽结构。我们比较了T2 T-ViT-14和T2 T-ViT-d 768 -4以验证其有效性。566影响。T2 T-ViT-d 768 -4是一种浅宽结构，隐藏尺寸为768和4层，具有与T2 T-ViT-14相似的模型尺寸和MAC。从Tab。7，我们可以发现，在将我们的深窄结构改变为浅宽结构之后，T2 T-ViT-d 768 -4在top-1准确度方面降低了2.7%，验证深窄结构对于T2 T-ViT至关重要。5. 结论在这项工作中，我们提出了一个新的T2 T-ViT模型，可以在ImageNet上从头开始训练，并实现与CNN相当甚至更好的性能。T2 T-ViT有效地对图像的结构信息进行建模，增强了特征的丰富性，克服了ViT的局限性。它引入了新的令牌到令牌（T2T）过程，以渐进地将图像令牌化为令牌并在结构上聚集令牌。我们还探索了CNN的各种架构设计选择，以提高T2 T-ViT性能，并根据经验发现深窄架构比浅宽结构表现更好。当在Image

下载后可阅读完整内容，剩余1页未读，立即下载