视觉Transformer的连续优化空间和瘦身方法

9 浏览量更新于2023-10-25 收藏 1.24MB PDF 举报

搜索过程

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4931∼∼×视觉Transformer瘦身：连续优化空间ArnavChavan 1，3，Zhiqiang Shen*2，3，Zhuang Liu4，Zechun Liu5，Kwang-Ting Cheng6，Eric Xing2，31IIT Dhanbad2 CMU3 MBZUAI4 UC Berkeley5 Reality Labs，Meta Inc. 6香港科技大学am.iitism.ac.in{zhiqians，zechunl}@andrew.cmu.eduzhuangl@berkeley.edutimcheng@ust.hkepxing@cs.cmu.edu摘要本文探讨了从视觉Transformer中寻找最优子模型的可行性，并介绍了一个纯视觉Transformer瘦身（ViT-Slim）框架。它可以从原始模型端到端跨多维搜索子结构，包括具有最先进性能的kens，MHSA和MLP模块我们的方法是基于一个可学习的和统一的l1稀疏约束与预定义的因素，以反映在连续搜索空间的不同维度的全球重要性。搜索过程是高效的，通过一个单一的拍摄训练计划。例如，在DeiT-S上，ViT-Slim搜索过程仅需43个GPU小时，并且搜索的结构灵活，不同模块具有不同的维度。然后，根据对运行设备的精度-FLOPs权衡的要求，采用萌芽阈值，并执行重新训练过程以获得最终模型。大量的实验表明，我们的ViT-Slim可以在各种视觉转换器上压缩高达40%的参数和40%的FLOP，同时在ImageNet上将准确率提高0.6%。我们还展示了我们的搜索模型在几个下游数据集上的优势。我们的代码可以在https://github.com/Arnav0400/ViT-Slim上找到。1. 介绍Transformer [49]一直是各种视觉任务的强大网络模型，如图像分类[14，28，38，46，53]，对象检测[3，43，64]，分割[50，54，61]等。它主要由三个底层模块组成：多头自注意（ MHSA ），多层感知器（MLP）和图像修补机制。ViT在实践中的主要限制是巨大的模型尺寸*表示同等贡献。这项工作是在Arnav担任MBZUAI研究助理时完成的，Zhiqiang Shen是通讯作者。以及过多的训练和推理成本，这阻碍了其在现实世界应用中的广泛使用。因此，最近的大量研究集中在通过搜索更强大和更有效的架构[6-然而，许多常用的搜索策略是资源消耗，如流行的强化学习和进化搜索方法。单路径单次（SPOS）[15]是一种有效的搜索策略和有前途的解决方案，但它仍然需要训练超网数百个epoch，然后评估数千个epoch以找到最佳子架构，这仍然很耗时，通常需要数十个GPU天。最近，有一些工作利用批量归一化（BN）缩放参数作为修剪或搜索冗余的操作的重要性的指示符，诸如网络瘦身[27]、SCP [23]、BN-NAS [5]等。由于BN参数是网络中的一个既有因子，也是衡量网络重要性的一个轻量级度量。这种搜索方法比一般的SPOS算法有10倍的训练加速比。但实际上，并非所有网络都包含BN层，例如变压器。此外，在Transformer设计中有许多独特的属性，例如从浅层到深层的输入令牌的依赖性简单地利用这样的策略对于较新的Transformer模型不一定是因此，剩下的主要问题是在传统的Transformer架构中没有涉及BN层，因此我们不能直接采用BN中的缩放系数作为搜索的指示符。为了解决这个问题，在这项工作中，我们建议将明确的软掩模，以表明全球重要性的尺寸在不同模块的Transformer。我们考虑在Transformer端到端的所有三个维度上联合搜索，包括：分层令牌/补丁，MHSA和MLP维度。特别是，我们在不同的模块上设计了额外的可区分的软掩模，4932×××方法目标拱门搜索空间搜索方法搜索时间继承预训练减少参数FLOPsGLiT [6]SA +1D-CNN离散，预定义两阶段进化200-ep没有两[8]第八届全国人大代表ViT/DeiT家族持续，有限迭代修剪生长510克小时（600磅）是的两[34]第三十四话ViT/DeiT家族动态面片选择分层预测模块26克小时（30磅）是的仅限FLOPS[45]第四十五话ViT/DeiT家族分层贴片选择自顶向下分层31克小时（36-ep）是的仅限FLOPSVITAS [42]定制ViT离散，预定义进化300-ep没有两自动成型机[7]定制ViT离散，预定义进化500-ep没有两ViT-Slim（我们的）ViT/DeiT/Swin等连续，所有模块单次w/l1-稀疏43克小时（50磅）是的两表1.视觉变换器的压缩和搜索方法的逐特征比较的Transformer的各个维度，并且l1-稀疏性也被施加以迫使掩码在搜索期间是稀疏我们只需要几个时期来微调这些掩码参数（它们被初始化为1，以便在搜索开始时对所有维度给予同等重要性），以与原始模型对于令牌搜索部分，我们在掩码上应用双曲正切，以避免根据经验观察到的掩码值爆炸我们称我们的方法ViT-Slim，一个联合稀疏掩码为基础的搜索方法与隐式权重共享机制，nism搜索一个更好的子变压器网络。这是一种比以前基于BN的方法更通用和灵活的设计，因为我们在网络中不需要BN层。这对transformers更友好，与其他ViT压缩方法的功能比较如表1所示。该方法的一个核心优点是搜索效率高，可以继承预先训练好的与SPOS搜索需要评估数千个子验证数据相比，一旦我们完成搜索过程，我们就可以获得无数的子网络，并且最终结构可以通过我们部署模型的实际设备的准确性-FLOP权衡的要求最后一个优点是，我们可以搜索更细粒度的架构，例如不同自我注意头中的不同维度，因为我们的搜索空间在它们中是连续的。这一特性使我们能够在不同的层和模块中找到具有独特的个体尺寸和形状的架构，比其他同行更好的子网。在ImageNet [13]上进行了全面的实验和消融研究，结果表明ViT-Slim可以在DeiT [47]，Swin [28]等各种视觉转换器上压缩高达40%的参数和40%的FLOP，而不会影响准确性（在某些情况下，我们的压缩模型甚至比原始模型更好我们还展示了我们的搜索模型在几个下游数据集上的优势。我们的主要贡献是：• 我们介绍了ViT-Slim，一个框架，可以联合执行-形成一个有效的架构搜索在所有三个模块- MHSA，MLP和修补机制的视觉转换器。我们强调，我们的方法搜索可以在现代硬件上带来实际效率的结构化体系结构（例如，GPU）。• 我们通过共享候选结构中的权重来经验性地探索各种结构化瘦身策略，并通过采用连续搜索空间来提供最佳性能结构，与现有作品中预定义的离散搜索空间形成对比。• 我们的方法可以通过对所有可能的预算采用单次搜索机制来直接在预训练的变压器上执行，从而消除了对大型模型的搜索特定预训练的需要，并对不同的模块/预算执行重复搜索。• 我们在ImageNet上的各种ViT压缩和搜索变体上实现了不同的萌芽状态的最先进性能我们提出的ViT-Slim可以压缩高达40%的参数和40%的FLOP，准确度提高了0.6%。2. 相关工作高效的模型和架构搜索神经网络压缩已被公认为将深度神经网络模型应用于资源有限的设备的重要技术。压缩研究从通道修剪[17，27，56]，量化扩展[1，9，21，29，33，63]，knowledge distribution，tillation [18，32，36，39-sign [10，22，31，52，60]到architecture search [35，65，66]。具体来说，MobileNets [19，37]提出将卷积滤波器分解为深度卷积和点卷积，以减少卷积神经网络（CNN）中的参数。EfficientNet [44]提出在深度/宽度/分辨率的所有维度中搜索统一的缩放比例，以实现更好的准确性和效率。网络瘦身[27]使用BN参数作为缩放因子来找到最佳子结构。JointPruning [30]联合搜索逐层通道数选择以及深度和分辨率，以实现更细粒度的压缩。NetAdapt [55]和AMC [16]采用反馈回路或强化学习方法来搜索CNN的信道号。此外，许多神经架构搜索（NAS）方法的目标是探索操作选择（例如，三点三，5五、七7个卷积）用于架构。比如说，SPOS [15]建立了一个包含所有可能的选择并使用子网络4933在Supernet中。DARTS [26]、FB-Net [51]和Proxyless-NAS [2]使用基于梯度的方法来更新与每个操作选择相关的掩码然而，这些NAS方法定义在离散操作搜索空间上，很难推广到解决连续信道数搜索的问题。高效的视觉转换器。有几个作品探索这个方向[6贴片瘦身[45]探索了通过从上到下依次修剪补丁来提高变压器效率的方向。类似地，Dynamic-ViT [34]探索了基于输入贴片的动态贴片选择他们采用多层次预测模块来估计每个补丁的重要性得分。然而，补丁修剪没有提高参数效率。ViTAS [42]使用进化算法以目标预算搜索最佳架构然而，他们的搜索空间是离散的，预先确定的，因此是有限的。GLiT [6]引入了一个局部模块来对局部特征和全局特征进行建模。但他们的方法使用了CNN和注意力，并在全局和局部模块上进行了进化搜索。BigNAS [57]引入了单阶段方法，通过切片权重矩阵来生成高效的子模型。基于此，AutoFormer [7]表明，权重纠缠是比在架构搜索中为每个可能的子模块定义权重矩阵和使用进化算法搜索最优子网络更好的选择但由于采用了进化算法进行搜索，所有这些算法都具有有限的离散搜索空间[42]。S2 ViTE [8]为视觉转换器提供了端到端的稀疏性探索，并采用了迭代修剪和增长策略。他们的结构化修剪方法基于分别使用损失函数和l1范数的泰勒展开计算的评分函数来消除完全注意头和MLP神经元。我们认为，消除完整的注意力头是一个次优的选择，并限制了学习动态的Transformer。允许模型为每个注意头确定最佳尺寸（而不是消除完整的头）是修剪MHSA模块的更好的替代方案。3. 该方法3.1. 概述和动机在本节中，我们首先围绕现有作品提出的一些重要问题展开工作，即：• 我们能否利用变压器中仅存在完全连接的层的优势，使搜索空间连续，从而比现有的作品大得多，而不需要更大的内存或计算开销？• 什么是最佳的结构配置，必须在ViT家庭搜索，并可以联合搜索的architec-图1.概述我们提出的ViT-Slim框架。D真正的（MHSA/MLP维度搜索）和架构内部的逐层数据流机制（逐层补丁选择）可以在单次设置中耦合在一起吗？• 单个模块对最终模型的性能有何影响我们的框架概述如图1所示。在下文中，我们将讨论（i）如何实现连续搜索空间;（ii）确定最优搜索空间;以及(iii)使用l1-Sparsity进行单次架构搜索。3.2. 实现连续搜索空间CNN的一次性NAS方法[11，15，44]明确地为每一层定义多个解耦的候选块，用于训练中央超网。这种策略适用于CNN，因为每一层的候选块来自各种各样的子架构，以便在搜索时保持从超网中采样不同块的特性。对于变压器来说，情况并非如此，因为它们内部由多个完全连接的层组成，这些层以不同的配置堆叠在不同的模块中。核心块全部由全连接层组成的事实打开了通过在任何块内的候选全连接层之间共享权重来扩展搜索空间的可能性。考虑一个全连接层，在给定输入维度D的情况下，必须搜索该层的最优输出维度，传统的方法是从预定义的搜索空间中定义具有输出维度的多个候选层，并用合适的搜索算法从它们中搜索最优层。然而，有几个缺点-1）较长的搜索时间，因为每个候选层都需要至少部分地进行搜索训练2）每个候选层的权重矩阵贡献的较大内存占用我们建议通过在所有可能的候选层之间共享权重来解决这些问题。我们将最大允许输出尺寸固定为DmaxNN×DN×DD线性D线性D线性DQKVD'D'D'MN×M′NNND'D'D'N−K面片维数注意头N×DD线性ProjD多头自注意我的N×D多层感知器线性2线性1N×DM4934∈×∈×→∈∈∈∈W， z∈ ∈∈N×D∈并在Dmax中定义一个超权矩阵WsupD。候选层权重可以容易地从W_sup切片。为了实现连续的搜索空间，我们采用单阶段方法来对超网权重的每个维度的重要性进行排名，从[27]中获得灵感，我们使用l1- Sparsity来实现它。我们首先预训练超网直到收敛（在实践中，我们的方法将直接在预训练的网络上工作，无需超网训练）。然后，我们定义掩码对应于每一个维度，必须进行搜索。掩码值的大小对应于相应维度的重要性分数，因此我们将所有掩码值初始化为1。一旦预训练的权重被加载，我们就将这些掩码引入模型。考虑到前一个单全连接层的示例，其中要搜索具有权重矩阵Wsup的层的输出维度，最大D定义。Wsup和z之间的点积给出了要在转发传播中使用的候选权重矩阵。搜索算法采用损失函数，该损失函数是预训练损失函数（分类任务中的交叉熵）和掩码上的l1范数的组合该组合损失将掩码值驱动为0，同时最小化目标损失函数。在某种程度上，优化景观隐式地驱动掩码根据其对最终性能的影响对其自身进行排名。3.3. 确定最优搜索空间NAS中的基本问题是定义搜索空间。本节介绍我们定义的搜索空间。灵活的MHSA和MLP模块。最近的工作遵循两种方法来定义MHSA模块的搜索空间-1）搜索每个不同MHSA模块中的头部数量[8，25]和/或2）从任何特定MHSA模块中的所有注意头部的预定义离散样本空间中搜索共同特征尺寸[6，7，42]。这些方法已经显示出一些可靠的结果，但它们并不完全灵活。如果每个吸头都具有不同的特征尺寸，则可以实现更大程度的灵活性假设一个超级变压器网络最多有L个MHSA模块，每个模块的最大允许头数设置为H。这给出了总共L H个独特的张力头。如果我们将最大允许特征维数大小固定为d，则等价搜索空间的大小等于（d+1）L× H。在如此庞大的搜索空间中进行搜索在然而，这种多样的搜索空间具有几个优点：1）搜索算法可以更灵活地使超级Transformer适应更小的架构，同时保持搜索空间的多样性。完备的（d +1）L× H搜索空间。类似地，对于MLP，整个网络中总共有L个模块，现有的工作使用离散和有限的搜索空间来搜索最佳特征维度。如果我们将最大允许特征维数固定为M，则我们的方法所能探索的搜索空间等于（M+1）L。合并MHSA和MLP一起在一个单一的搜索机制是相当直截了当因此，与现有的所有作品相比，它将产生一组更加面片选择。补丁瘦身[45]表明，MHSA聚集补丁，因此补丁之间的余弦相似性以指数方式逐层增加，在最终层中达到0.9。这就有可能消除大量较深的补丁和一些不重要的浅补丁。通过MHSA和MLP搜索引入补丁选择，可以在相同的参数数下以更低的FLOP提取更虽然直观地，动态方式在块维度上更有希望，因为所选择的块应该与输入图像对齐以反映图像中不同区域的重要性。3.4. 单镜头拱。使用l1-稀疏我们的搜索方法的主要目标是根据它们对最终性能的影响对掩码值一旦排序，我们就消除具有最少掩码值的维度。令f：Rx Ry表示视觉Transformer网络，其学习将输入x变换为具有权重W和由权重W和输入x构造的中间激活/张量T Rd的目标输出y。我们将zRd定义为一组稀疏掩码，其中ziz是指与中间张量tiT相关联的掩码。为了应用掩码，z i与ti的对应条目相乘。优化目标可以表述为：minLCE（f（z<$T（W，x）），y）+z<$1，（1）我们引入均匀掩码来搜索MHSA模块中每个不同头部的最佳尺寸，每个MLP模块的尺寸和逐层最重要的补丁。考虑一个Transformer网络，它有L层MHSA+MLP块，每个块由H个自注意头组成。每个MHSA层的输入张量 R其中N是补丁的数量，D是全局特征维度大小。在MHSA模块的每个头i内，tal用全连接层变换为q iRN× d，k iRN× d和v iRN×d，d表示每个自注意头的特征尺寸我们定义面具性能;以及2）提取的架构将是za∈RL×H，以及za，zal，h∈Rd搜索算法可以将最不重要的注意力头部的特征维度推到甚至为零，从而大大降低FLOP，因此效率要高得多。公司现采用国际对应于第L层和第H头。因此，通过我们的方法可以探索的网络中MHSA模块的总可能性是（d +1）L× H。计算机-4935∼∼××第m∈∈N×M∈MHSA模块内部的稀疏掩码是：由于线性关系，FLOP和参数预算也是Ai=softmax（（qi阿雷兹湖）×（ki阿雷兹湖（2）之间的维数和FLOP/参数，并诱导补丁选择进一步降低FLOP。一旦提取出特定于非线性的结构，Oi=Ai×（vi<$zal，h）（3）t ml = projection（[O1，O1，.，（4）与预训练模型完全相同的设置这允许权重从搜索空间中的连续掩码调整到最终结构中的二进制/不存在的掩码。其中tml∈R是MHSA块N×D其又变成MLP块的输入。在MLP块内部，t ml通过全连通层f1投影到高维空间，形成中间张量t e l R，该中间张量t e lR通过另一个全连通层f 2再次投影回RN× D。我们定义了掩码zmRL，以及zm中对应于l层的相应向量，zmlR因此，通过我们的方法，MLP模块在网络上的总可能性是（M +1）L。以下计算示出了掩码与MLP模块相互tel=fl（tml）zml，tal+1=f2（tel）（5）在 Patch Dim. 中解决 Patch Dependency AcrossLayers。对于Patch选择，我们定义了一个不同的遮罩值，对应于每个层中的每个Patch，并消除对应于较低遮罩值的Patch。由于全局单次搜索而产生的问题是，可能存在异常情况，其中在较浅层中消除了相同的补丁，但在较深层中存在。在实践中，这种异常实例是有限的，这表明基于l1为了应对这些有限的异常补丁，一旦一个补丁被从早期的层中删除，我们也会从其他层中删除它，同时增加预算。此外，我们应用tanh1激活函数在补丁特定的面具之前，采取点积与补丁，以阻止面具值爆炸。3.4.1搜索时间分析我们的方法直接适用于预先训练的模型，消除了训练搜索特定模型的需要。我们在预先训练的模型上引入稀疏掩码，并结合CE损失和掩码的l1范数来联合优化掩码和模型权重。在我们的设置中，我们将所有搜索的搜索时期固定为50。这意味着DeiT-S为43 GPU小时，DeiT-B为71 GPU小时。在搜索结束时，掩码根据其值进行排名。3.4.2再培训与隐性预算一旦排名，根据目标预算，低排名的维度/补丁将从网络中删除。对于MHSA+MLP联合搜索，预算大约为1初始化为3.0，相当于tanh后的1.0。4. 实验在本节中，我们首先探索每个单独组件在 ViT[14]/DeiT [46]模型的最终性能中的贡献，并搜索最佳一维搜索模型。然后，我们移动到联合搜索结合所有三个组件，并表明我们的方法优于所有现有的架构搜索和修剪方法。我们还展示了我们的方法对其他Transformer架构的适用性，例如Swin [28]。最后，我们进一步展示了在迁移学习设置中搜索模型在下游数据集上的性能4.1. 培训程序和设置我们的ViT-Slim框架工作流程中有三个步骤，包括：(i) 一次搜索。我们使用预先训练的权重来初始化现有的视觉Transformer模型，并将它们用作我们的超网。然后，我们根据要搜索的维度将稀疏掩码引入模型中，并使用等式1中给出的损失函数以5e-04的恒定学习率和1 e-03的权重衰减的AdamW优化器联合训练权重和掩码DeiT-S的批量设置为1024，DeiT-B的批量设置为512我们也使用随机深度[20]，cutmix [58]，mixup[59]，randaugment [12]，random erasing [62]等。作为搜索时跟随DeiT的增强。(ii) 预算选择。一旦搜索完成，在搜索步骤之后，根据其值对掩码进行排名根据压缩的目标预算，从超网中消除低秩维度以提取搜索模型的最终结构。(iii) 重新训练最后，我们使用与[28，46]中最初预训练相同的设置重新训练提取的压缩结构300个epoch。4.2. 一维搜索为了显示MHSA和MLP模块独立地对最终模型性能的影响，我们分别在这两个模块中搜索最佳维度。我们在DeiT-S的各个模块中引入稀疏掩码，并搜索两个超网，每个超网的稀疏权重为1 e-04，用于MLP和MHSA维度。由于MLP模块中存在4个额外的维度，因此MLP模块中诱导的掩码总数是MHSA的4不同预算下的搜索后准确度和最终准确度如Ta所示4936×B-MLPB-MHSA参数数（M）FLOPs（B）前1名（%）前5名（%）10010022.04.679.9095.01808017.73.780.6095.29707015.63.380.0395.05606013.52.879.2094.75505011.42.377.9494.14表4. DeiT-S[47]（ViT-SlimPS）用于MLP和MHSA联合维度搜索。预算分别表示网络中活动MHSA和MLP维的百分比。表2. DeiT-S[47]用于MHSA和MLP维度搜索的性能。预算表示网络中各个搜索模块的活动维度的百分比。W1W2后搜索精度最终准确率前1名（%）前5名（%）前1名（%）前5名（%）表5. W1(MHSA稀疏权重），W2(MLP稀疏权重）1e-041e-043e-041e-044e-041e-042e-044e-052e-045e-0576.54 93.3776.34 93.3676.40 93.3976.6993.6176.6893.6479.10 94.6594.7078.71 94.5779.17 94.7279.20 94.75和W3（补丁稀疏权重）网格搜索DeiT-S（ViT-Slim JS）。表3. DeiT-S [ 47 ]（ViT-Slim PS）的W1（MHSA稀疏权重）和W2（MLP稀疏权重）网格搜索。后搜索是指超网后搜索的软精度。最终精度表示压缩模型在60%预算下的最终精度表6.DeiT-S[47]（ViT-SlimJS）用于MLP的性能表2.在更高的预算下，压缩模型甚至比预训练模型的性能更好，准确率提高了1%在相同的预算下，MHSA搜索的性能优于MLP搜索，但MLP实现了更好的参数和FLOP压缩程度。40%的MHSA和60%的MLP具有相同的FLOP，但MLP优于MHSA。类似地，MHSA在40%和MLP在70%具有相同数量的参数，MLP以1.2%的公平幅度这清楚地表明，与MHSA维度相比，压缩MLP维度更容易实现相同的目标FLOP/参数，表明MHSA的重要性大于MLP。4.3. 参数搜索接下来，我们将MHSA和MLP结合在一个超网搜索中。要控制的最重要的超参数是每个不同模块的稀疏权重。基于MLP易于压缩并且比MHSA多4维的事实，我们期望最佳稀疏权重处于类似的比率。我们从相等的稀疏权重1 e-04开始，并进行彻底的网格搜索以实现最佳性能，如表3所示。我们搜索和重新培训在60%的预算公平的比较。从结果可以看出，搜索后的准确度直接反映了最终的模型准确度。如预期的，最优稀疏权重2 e-04和5e-05的比率为4：1。我们在多个芽点重新训练最优搜索模型，如表4所示。该模型的性能是完整的，甚至比预训练模型更好，高达70%的预算，之后准确度开始下降。这MHSA和补丁选择联合搜索。预算表示网络中活动修补程序MHSA和MLP的预算固定为70%。转换为更好的性能与30%的FLOP和参数减少。然而，从60%到50%的bud- get显示了性能的急剧下降。我们将这些预算模型系列命名为ViT-SlimPS，表示直接参数搜索或部分搜索而不选择补丁。讨论：预处理的FLOP和参数缩减预算表示在最终搜索的模型中存在的各个模块的活动维的数量。然而，对于MHSA和MLP联合搜索，由于它们之间的线性关系，预算翻译为最终FLOP和参数预算。这有助于根据特定硬件上的目标 FLOP/ 参数预算部署大型Transformer网络。4.4. 多维联合搜索最后，在所有三个维度上进行联合搜索-MHSA，MLP和补丁选择。一旦我们确定最佳MHSA和MLP稀疏权重分别为2 e-04和5e-05，我们就在补丁稀疏上进行网格搜索，如表5所示。在我们所有的实验中使用的最佳补丁稀疏权重是1 e-04。为了显示在不同预算下补丁选择的效果，我们将MHSA和MLP预算固定为70%（因为70%保持性能不变，如表4所示），并在多个补丁上重新训练2FLOP和参数四舍五入到小数点后一位，在表4中的尺寸预算和FLOP/参数预算之间产生微小差异。后搜索精度W1W2W3Top-1（%）Top-5（%）2e-04 5e-052e-04 5e-05 2e-04预算#参数（M）FLOPs（B）前1名（%）前5名（%）100 15.6 3.3 80.03 95.0180 15.6 3.1 79.9170 15.6 2.9 79.72预算（%）模块参数数（M）FLOPs（B）前1名（%）前5名（%）100-22.04.679.9095.01搜查后22.04.676.8593.707019.94.180.9095.4460MHSA19.23.980.6395.315018.53.780.1095.074017.83.579.6194.73搜查后22.04.676.8593.707017.83.880.8095.3760MLP16.43.580.3995.285015.03.279.8995.054013.52.979.2094.754937∼预算模型参数数（M）FLOPs（B）前1名（%）前5名（%）100 DeiT-B86.617.581.8 95.6- PS-ViT-B [45]86.610.581.5-- S2 ViTE-B [8]56.811.782.2-- GLiT-B [6]96.117.082.3-- AutoFormer-B [7]54.011.082.495.760 ViT-Slim-B52.610.682.4 96.110028.34.581.395.580Swin-T22.33.881.395.57019.43.480.795.4表7. DeiT-B[47]（ViT-Slim-BPS）和Swin-T[28]用于MLP和MHSA联合维度搜索的性能。预算分别表示网络中活动MHSA和MLP维度的百分比。选择预算见表6。消除多达40%的补丁在80%的预算下，性能与预训练的DeiT-S（79.9% Top-1）相匹配。我们将这种多维搜索的模型族命名为ViT-SlimJS指示联合搜索。4.5. 其他架构我们进一步证明了我们的方法在DeiT-B（ViT-Slim-BPS）上的有效性，具有相同的超参数集。我们在表7中显示了与现有方法的全面比较。我们的模型的预算设置为60%，相当于FLOPs和参数下降40%。ViT-Slim优于所有现有的方法，具有更少的FLOP和参数，并将精度提高了0.6%。请注意，虽然我们的准确性与AutoFormer-B相当，但我们的搜索资源仅为其1/10，模型大小和FLOP更小。我们还使用与Swin-T [28]上的ViT-SlimPS相同的超参数进行了搜索，结果见表7。模型使用与[28]中相同的策略进行重新训练最终精度在80%预算时保持不变，但在70%预算时下降。这部分是因为Swin是一个精心设计的分层架构，它已经在每一层最大化了维度，部分是因为我们没有专门为Swin-T做一个彻底的但是，我们仍然实现了相当数量的压缩，同时保持准确性不变。4.6. 与最先进方法的我们将我们的两个模型系列 - ViT-SlimPS和 ViT-SlimJS与现有的高效Transformer架构搜索和压缩方法进行比较，如表所示8. 我们的方法在不同的目标参数和FLOP上都优于所有这些方法。与基线DeiT-S相比，GLiT-S [6]提高了准确度（80.5%），但增加了额外的参数，FLOP降低幅度极小。我们的 ViT-SlimPS 实现了更好的精度（80.6%），同时大幅降低了FLOP和参数我们的Vit-SlimJS模型允许高达30%的参数减少和超过30%的FLOPs减少，同时匹配它的超网（DeiT-S）的性能即使是皮毛-表8.与ImageNet-1 k上的SOTA ViT搜索和压缩方法的比较。“MHSA+MLP维度，因为Patch Selection不会影响参数的数量，而只是帮助减少模型中的FLOP。“模型#参数（男）FLOPs（B）C100C10iNat-19iNat-18DEIT-S22.04.687.8098.5675.3569.02ViT-SlimPS15.63.388.1698.7076.6769.83表9. DeiT-S[47]和ViT-SlimPS在CIFAR-100（C100）、CIFAR-10（C10）[24]、iNaturalist上的迁移学习准确性2018（iNat-18）和iNaturalist-2019 [48]（iNat-19）数据集。所有模型都在ImageNet上搜索和预训练。.与其他人相比，减少FLOPsPS-ViT- S [45]和Dynamic-ViT-S [34]在FLOP方面对我们的方法进行了改进4.7. 下游数据集上的迁移学习我们分析了我们的搜索和再训练模型在各种下游分类任务上的性能。我们提供了CIFAR-10，CIFAR-100[24]，inaturalist-2018 [48]和inaturalist-2019数据集的结果，如表9所示。ViT-SlimPS以70%的预算进行了重新训练，并且它们在数据集上的表现始终优于DeiT-S基线。需要注意的一点是，ViT-Slim架构是在ImageNet[13]上搜索的，而不是直接在相应的下游数据集上搜索的，这表明相同的ViT-Slim架构也能够很好地传输到其他下游任务5. 可视化和分析5.1. 搜索架构分层注意头部各部位尺寸. 图2显示了DeiT-S搜索模型中的MHSA模块。共有12个MHSA模块，每个模块有6个注意力头。网格内的数字表示该特定头部的尺寸大小。可以看出，在低预算下，较深的层具有最小的尺寸。大多数维度在网络的中间是完整的，并且在网络的开始部分适度地减少维度。自我注意力机械-模型#参数（男）FLOPs （B）前1名（%）前5名（%）[47]第四十七话22.04.679.9 95.0GLiT - S [6]24.64.480.5-[34]第三十四话22.04.079.8-ViT-SlimPS17.73.780.6 95.3[8]第八届全国政协委员14.63.179.2-[34]第三十四话22.02.979.3-PS-ViT-S [45]22.02.779.4-[42]第四十二话12.62.777.4 93.8S2 ViTE+ - S [8]14.62.778.2-ViT-SlimJS15.73.179.9 95.04938原始预算= 0.5预算=0.7预算=0.8预算=0.9图2.ViT-Slim型号在不同预算（50%、60%、70%、80%和90%）下的分层注意力头部尺寸1536115276838400 1 2 3 4 5 6 7 8 9 10 11层数图3. ViT-Slim模型在各种预算（50%、60%、70%和80%）下的分层MLP尺寸。当补丁是不同的并且需要在它们之间进行信息交换时，在网络的中间以及在某种程度上在网络的开始处需要ANISM。不同预算下的分层MLP维度。类似地，图3显示了各种预算下DeiT-S搜索模型的MLP模块维度。跨层的图案类似于MHSA的图案，其中较深的层与较早的层相比具有更大程度的减小的尺寸。较深层的最大尺寸被移除，而中间层的最大尺寸保持不变。这再次与大多数特征已经在较早的层中学习的事实相一致，使得较深的层能够由较小的尺寸组成。5.2. 注意力地图可视化我们采用[4]中提出的方法，该方法采用深度泰勒分解来计算局部相关性，然后将这些相关性得分传播到各个层以生成最终的相关性图。随机选择的ImageNet图像的类可视化如图所示4. 第一章与 DeiT-S 相比， ViT-SlimJS 这也表明 ViT-SlimJS具有更好的交互性，图4. ImageNet图像的类式可视化，方法见[4]。第一行是原始图像，第二行代表 DeiT-S 的可视化，第三行代表 ViT-SlimJS，预算为70%。因此，在深度网络的可解释性和可解释性很重要的领域中，这是有帮助的。6. 结论我们已经提出了ViT-Slim，一个灵活而有效的搜索策略，利用模型稀疏性的子网发现的视觉转换器所提出的方法可以在ViT中的所有三个维度上联合搜索，包括：分层令牌/补丁，MHSA和MLP模块端到端。我们确定了全局重要性因素是至关重要的，并在不同的模块上设计了额外的可区分的软掩模，以反映维度的个体重要性此外，l1-稀疏性被施加以迫使掩模在搜索期间是稀疏使用各种ViT架构在ImageNet和下游数据集上进行了大量实验，以证明我们所提出的方法的效率和有效性。预算=1.0预算=0.8预算=0.7预算=0.6预算=0.5有效尺寸4939引用[1] Adrian Bulat和Georgios TzimiropoulosXnor-net++：改进的二进制神经网络。英国机器视觉大会，2019年。2[2] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接搜索神经架构2018年国际学习表征会议。3[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。1[4] 希拉·切佛希尔·古尔和里奥·沃尔夫Transformer的可解释性超出了注意力可视化。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第782-791页，2021年6月。8[5] Boyu Chen，Peixia Li，Baopu Li，Chen Lin，ChumingLi，Ming Sun，Junjie Yan，and Wanli Ouyang. Bn-nas：使用批量归一化的神经架构搜索在IEEE/CVF计算机视觉国际会议论文集，第307-316页1[6] Boyu Chen ， Peixia Li ， Chuming Li ， Baopu Li ， LeiBai ， Chen Lin ， Ming Sun ， Junjie Yan ， and WanliOuyang.Glit：用于全局和局部图像Transformer的神经架构搜索。IEEE/CVF计算机视觉国际会议论文集，第12-21页，2021年。一二三四七[7] Minghao Chen，Houwen Peng，Jianlong Fu，and HaibinLing. Autoformer：搜索变压器的视觉识别。2021. 一二三四七[8] 陈天龙、程昱、甘哲、陆远、张磊、王张扬。在视觉转换器中追逐稀疏性神经信息处理系统进展（NeurIPS），2021年。一二三四七[9] Jungwook Choi，Zhuo Wang，Swagath Venkataramani，Pierce I-Jen Chuang ， Vijayalakshmi Srinivasan ， andKailash Gopalakrishnan. Pact：量化神经网络的参数化裁剪激活。arXiv预印本arXiv：1805.06085，2018。2[10] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在Proceedings of the IEEE confe

下载后可阅读完整内容，剩余1页未读，立即下载