分层池化视觉Transformer的可扩展性研究

141 浏览量更新于2023-10-13 收藏 12.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Abstract1. Introduction048121620GFLOPs65707580Top-1 Acc (%)HVT-Ti-1Scale HVT-Ti-4HVT-S-1DeiT-TiDeiT-SDeiT-BR-18R-34R-50R-101R-152HVTDeiTResNetTo improve the efﬁciency, there are emerging efforts todesign efﬁcient and scalable Transformers.On the onehand, some methods follow the idea of model compressionto reduce the number of parameters and computational over-head. Typical methods include knowledge distillation [19],low-bit quantization [29] and pruning [12]. On the otherhand, the self-attention mechanism has quadratic memoryand computational complexity, which is the key efﬁciencybottleneck of Transformer models.The dominant solu-tions include kernelization [20, 28], low-rank decomposi-tion [41], memory [30], sparsity [4] mechanisms, etc.Despite much effort has been made, there still lacks spe-ciﬁc efﬁcient designs for Visual Transformers consideringtaking advantage of characteristics of visual patterns. Inparticular, ViT models maintain a full-length sequence inthe forward pass across all layers. Such a design can sufferfrom two limitations. Firstly, different layers should havedifferent redundancy and contribute differently to the accu-racy and efﬁciency of the network. This statement can besupported by existing compression methods [35, 23], whereeach layer has its optimal spatial resolution, width and bit-width. As a result, the full-length sequence may contain3770具有分层池化的可扩展视觉Transformer0潘子政庄博涵† 刘静何浩宇蔡建飞数据科学与人工智能系，蒙纳士大学0最近提出的纯注意力的视觉图像Transformer（ViT）在图像识别任务（如图像分类）上取得了很好的性能。然而，当前ViT模型的常规做法是在推理过程中保持完整的补丁序列，这是多余的并且缺乏分层表示。为此，我们提出了一种分层视觉Transformer（HVT），它逐步池化视觉令牌以缩小序列长度，从而减少计算成本，类似于卷积神经网络（CNNs）中的特征图下采样。这带来了一个巨大的好处，即我们可以通过调整深度/宽度/分辨率/补丁大小的维度来增加模型容量，而不会引入额外的计算复杂性，因为序列长度减少了。此外，我们凭经验发现，平均池化的视觉令牌包含比单个类令牌更具有区分性的信息。为了展示我们的HVT的可扩展性改进，我们在图像分类任务上进行了大量实验。在相同的FLOPs下，我们的HVT在ImageNet和CIFAR-100数据集上优于竞争基线。代码可在https://github.com/MonashAI/HVT找到。0配备了强大的捕捉长距离依赖关系的自注意机制，基于Transformer[37]的模型在许多计算机视觉（CV）和自然语言处理（NLP）任务上取得了显著突破，如机器翻译[10,9]、图像分类[11, 36]、分割[43, 39]和目标检测[3,48]。然而，Transformer的良好性能带来了高计算成本。例如，一个单独的Transformer模型需要超过10G的乘加操作来翻译只有30个单词的句子。这样巨大的计算复杂性阻碍了Transformer的广泛应用，特别是在资源受限的设备上，如智能手机。0† Corresponding author. Email: bohan.zhuang@monash.edu0图1：ImageNet上的性能比较。在相同的GFLOPs（1.25vs. 1.39）下，我们提出的ScaleHVT-Ti-4在Top-1准确率上超过DeiT-Ti 3.03%。3780巨大的冗余。其次，它缺乏多层次的分层表示，这对于图像识别任务的成功是必不可少的。为了解决上述限制，我们提出随着模型加深逐渐降低序列长度。具体而言，受到VGG-style[33]和ResNet-style[14]网络设计的启发，我们将ViT块划分为几个阶段，并在每个阶段应用池化操作（例如平均/最大池化）来缩小序列长度。这种分层设计是合理的，因为最近的一项研究[7]表明，具有足够数量头的多头自注意力层可以表达任何卷积层。此外，ViT中的视觉标记序列可以类比于CNN沿空间维度展平的特征图，其中每个标记的嵌入可以看作是特征通道。因此，我们的设计与CNN中特征图的空间下采样具有相似性。需要强调的是，所提出的分层池化具有几个优点。（1）它带来了可观的计算节省，并提高了当前ViT模型的可扩展性。在相同的浮点运算（FLOPs）下，我们可以通过扩展宽度/深度/分辨率的维度来扩展我们的HVT。此外，降低的序列分辨率还可以将输入图像分割成更小的块大小，用于高分辨率表示，这对于低级视觉和密集预测任务是必要的。（2）它自然地导致了通用的金字塔层次结构，类似于特征金字塔网络（FPN）[24]，它提取了许多图像识别任务的基本多尺度隐藏表示。除了分层池化，我们还提出在没有类标记的情况下进行预测。继承自NLP，传统的ViT模型[11,36]配备了一个可训练的类标记，该标记附加到输入块标记上，然后通过自注意力层进行改进，并最终用于预测。然而，我们认为对于图像分类来说，依赖额外的类标记是不必要的。为此，我们直接对块标记应用平均池化，并使用结果向量进行预测，从而实现了改进的性能。我们注意到，还有一项同时进行的工作[6]也观察到了类似的现象。我们的贡献可以总结如下：0•我们提出了一种分层池化机制，随着层的加深逐渐减少序列长度，这显著提高了VisualTransformers的可扩展性和金字塔特征层次结构。节省的FLOPs可以用来提高模型容量和性能。0•实验证明，相比于类标记，平均池化的视觉标记包含更丰富的判别模式，适用于分类。0•大量实验证明，在相同的FLOPs下，我们的HVT在图像分类基准测试中（包括ImageNet和CIFAR-100）优于竞争对手的基线模型DeiT。02. 相关工作0视觉Transformer。强大的多头自注意机制激发了将Transformer应用于各种计算机视觉任务的研究。一般来说，当前的视觉Transformer主要可以分为两类。第一类旨在将卷积与自注意力相结合。例如，Carion等人[3]提出了用于目标检测的DETR，它首先使用CNN骨干提取视觉特征，然后使用Transformer块对特征进行细化。BotNet[34]是最近的一项研究，它在ResNet的最后一阶段将卷积层替换为多头自注意层。其他工作[48,18]也使用这种混合架构取得了有希望的结果。第二类旨在设计一种纯注意力的架构，不使用卷积。最近，Ramachandran等人[27]提出了一种模型，它将所有的空间卷积替换为应用于ResNet的一种形式的自注意力。Hu等人[17]提出了LR-Net[17]，它将卷积层替换为局部关系层，根据局部像素对的组合关系自适应确定聚合权重。Axial-DeepLab[40]还提出使用Axial-Attention[16]（一种自注意力的广义形式）进行全景分割。Dosovitskiy等人[11]首次将Transformer应用于图像分类。该模型继承了NLP中标准Transformer的类似架构，并在ImageNet上取得了有希望的结果，但训练复杂度非常高。为了解决这个问题，后续的工作DeiT[36]提出了一种更先进的优化策略和蒸馏令牌，提高了准确性和训练效率。此外，T2T-ViT[45]旨在克服ViT中简单分词输入图像的局限性，提出逐步将图像结构化为标记，以捕捉丰富的局部结构模式。然而，以前的文献都假设与NLP任务相同的架构，没有适应图像识别任务。在本文中，我们提出了几种简单而有效的修改方法，以提高当前ViT模型的可扩展性。0高效的Transformer。尽管Transformer模型在性能上处于领先地位，但它们对资源的需求很高，计算成本也很高。我们将高效的Transformer大致分为两类。第一类是应用通用压缩技术来加速推理，可以基于量化[47]、修剪[26,12]、蒸馏[32]等方法，也可以使用神经架构搜索（NAS）[38]来探索更好的配置。另一类旨在解决自注意机制的二次复杂度问题。一种代表性的方法[5,20]是将自注意权重表示为核函数的线性点积，并利用矩阵乘积的结合性质将整体自注意复杂度从O(n^2)降低到O(n)。此外，还有一些工作研究自注意的不同稀疏模式[4,21]，或者考虑注意矩阵的低秩结构[41]，从而使得时间和内存复杂度与序列长度呈线性关系。还有一些自然语言处理的文献在处理过程中倾向于减少序列长度。例如，Goyal等人提出了PoWER-BERT，在前向传播过程中逐步消除单词标记。Funnel-Transformer提出了一种仅池化查询向量的策略，在每个自注意层中对查询向量进行池化。然而，针对ViT模型的效率改进的文献很少。…012131415……012345670123013790MLP头0平均池化0猫0狗0鸟0线性投影0Transformer块0最大池化0Transformer块0Transformer块0Transformer块0Transformer块0最大池化0Transformer块0Transformer块0Transformer块0Transformer块0最大池化0Transformer块0Transformer块0Transformer块0阶段1 阶段2 阶段30没有'CLS'0图2：分层视觉Transformer的概述。为了减少完整补丁序列中的冗余并构建分层表示，我们提出了逐步池化视觉标记以缩小序列长度的方法。为此，我们将ViT[11]块分为几个阶段。在每个阶段，我们在第一个Transformer块之后插入一个池化层进行下采样。除了池化层之外，我们还使用最后一个阶段的输出视觉标记的平均池化结果向量进行预测，而不仅仅使用类标记。0架构搜索（NAS）[38]来探索更好的配置。另一类旨在解决自注意机制的二次复杂度问题。一种代表性的方法[5,20]是将自注意权重表示为核函数的线性点积，并利用矩阵乘积的结合性质将整体自注意复杂度从O(n^2)降低到O(n)。此外，还有一些工作研究自注意的不同稀疏模式[4,21]，或者考虑注意矩阵的低秩结构[41]，从而使得时间和内存复杂度与序列长度呈线性关系。还有一些自然语言处理的文献在处理过程中倾向于减少序列长度。例如，Goyal等人提出了PoWER-BERT，在前向传播过程中逐步消除单词标记。Funnel-Transformer提出了一种仅池化查询向量的策略，在每个自注意层中对查询向量进行池化。然而，针对ViT模型的效率改进的文献很少。0为了在牺牲FLOPs的同时增强对密集预测的泛化能力，当前的ViT模型将输入图像分成粗糙的补丁（即大的补丁尺寸），这阻碍了它们对密集预测的泛化能力。为了弥合这一差距，我们提出了一种通用的分层池化策略，显著降低了计算成本，同时增强了ViT架构的重要维度（即深度、宽度、分辨率和补丁尺寸）的可扩展性。此外，我们的通用编码器还继承了经典CNN的金字塔特征层次结构，可能有益于许多下游识别任务。还要注意，与一项同时进行的工作[42]应用2D补丁合并不同，本文引入了1D池化的特征层次结构。我们在第5.2节讨论了2D池化的影响。03. 提出的方法0在本节中，我们首先简要回顾了视觉Transformer[11]的基础知识，然后介绍了我们提出的分层视觉Transformer。03.1. 预备知识0设I ∈ RH × W ×C是输入图像，其中H，W和C分别表示高度、宽度和通道数。为了处理2D图像，ViT首先将图像分割成一个扁平化的2D补丁序列X = [x1p; x2p; ...; xNp]，其中xi p ∈ RP2C是输入图像的第i个补丁，[∙]表示连接操作。这里，N =HW/P2是补丁的数量，P是每个补丁的大小。然后，ViT使用一个可训练的线性投影将每个向量化的补丁映射到一个D维的补丁嵌入。类似于BERT[10]中的类别标记，ViT在补丁嵌入序列之前添加了一个可学习的嵌入xcls ∈RD。为了保留位置信息，ViT引入了一个额外的可学习的位置嵌入E ∈R(N+1)×D。数学上，输入序列的结果表示可以表示为0X0 = [xcls; x1pW; x2pW; ...; xNpW] + E, (1)0其中 W ∈ RP 2C × D是可学习的线性投影参数。然后，得到的嵌入序列作为Transformer编码器的输入[37]。假设Transformer中的编码器由L个块组成。每个块包含一个多头自注意力(MSA)层和一个位置感知多层感知机(MLP)。对于每一层，都使用了层归一化(LN)[1]和残差连接[14]，可以用于X′l1 = Xl1 + MSA(LN(Xl1)),(2)3800可以表示为0Xl = X′l−1 + MLP(LN(X′l−1)), (3)0其中 l ∈ [1, ..., L]是Transformer块的索引。这里，MLP包含两个全连接层和一个GELU非线性激活函数[15]。为了进行分类，ViT对Transformer编码器的输出X0L的第一个标记应用了层归一化层和一个全连接(FC)层。通过这种方式，输出预测y可以通过以下方式计算得到0y = FC(LN(X0L)). (4)03.2. 分层视觉Transformer0本文提出了一种分层视觉Transformer (HVT)来减少完整补丁序列中的冗余信息并构建分层表示。接下来，我们首先提出了一种分层池化方法逐渐缩小序列长度，从而减少计算成本。然后，我们提出了在没有类别标记的情况下进行预测。所提出的HVT的概述如图2所示。03.2.1 分层池化0我们提出在ViT中应用分层池化的两个原因：(1)最近的研究[13,8]表明，随着深度增加，标记往往携带冗余信息。因此，通过池化方法减少这些冗余信息将是有益的。(2)从图像补丁中投影出的输入序列可以被看作是具有编码空间信息的扁平化CNN特征图，因此从附近的标记进行池化可以类比CNN中的空间池化方法。受VGG-style[33]和ResNet-style[14]网络的分层流程的启发，我们将Transformer块分为M个阶段，并对每个阶段应用下采样操作来缩小序列长度。设{b1,b2, ...,bM}为每个阶段中第一个块的索引。在第m个阶段，我们对Transformer块bm ∈ {b1, b2, ...,bM}的输出应用一个核大小为k、步长为s的1D最大池化操作，以缩小序列长度。注意，位置编码对于Transformer是重要的，因为位置编码能够捕捉到序列中标记的相对和绝对位置的信息[37, 3]。在ViT的Eq.(1)中，每个补丁在开头都配备了位置嵌入E。然而，在我们的HVT中，由于每个池化操作后序列长度都会减小，原始的位置嵌入E在池化之后可能不再有意义。在这种情况下，池化后的序列中的位置嵌入0需要更新。此外，以前的工作[8]在NLP中也发现在改变序列长度后补充位置信息很重要。因此，在第 m个阶段，我们引入了一个额外的可学习位置嵌入 E b m来捕捉位置信息，可以表示为：0ˆ X b m = MaxPool1D(X b m) + E b m，(5)0其中 X b m 是 Transformer 块 b m的输出。然后，我们将得到的嵌入 ˆ X b m 转发到下一个Transformer 块 b m + 1。03.2.2 没有类令牌的预测0以前的工作[11,36]在分类任务中通过将类令牌作为输入进行预测，如方程（4）所述。然而，这种结构仅依赖于具有有限容量的单个类令牌，而丢弃了能够存储更多区分性信息的其余序列。为此，我们首先在第一步中移除类令牌，并使用最后一个阶段的输出序列进行预测。具体而言，给定不包含类令牌的最后一个阶段的输出序列 XL，我们首先应用平均池化，然后直接在池化的嵌入之上应用一个全连接层并进行预测。该过程可以表示为：0y = FC(AvgPool(LN(X L)))，(6)03.3. 复杂度分析0在本节中，我们分析了分层池化的块压缩比。按照 ViT [11]的做法，我们使用 FLOPs 来衡量 Transformer的计算成本。设序列中的令牌数量为 n，每个令牌的维度为d。Transformer 块的 FLOPs φ BLK (n, d)可以通过以下公式计算：0φ BLK (n, d) 0= 12nd^2 + 2n^2d，(7)0其中 φ MSA (n, d) 和 φ MLP (n, d)分别是MSA和MLP的FLOPs。关于方程（7）的详细信息可以在补充材料中找到。不失一般性，假设在执行分层池化后，序列长度 n 减半。在这种情况下，块压缩比 α可以通过以下公式计算：0α = φ BLK (n, d) / φ BLK (= 2 + 2012（d/n）+1.（8）0显然，方程（8）是单调的，因此块压缩比 α 介于 (2, 4)之间，即 α ∈ (2, 4)。3810ResNet50：conv420DeiT-S：线性投影，N = 196 DeiT-S：Block1，N = 1960ResNet50：conv10HVT-S-1：线性投影，N = 196 HVT-S-1：Block1，N = 970图3：ResNet50 [14]，DeiT-S[36]和我们在ImageNet上训练的HVT-S-1的特征可视化。DeiT-S和我们的HVT-S-1对应于DeiT中的小型设置，不同之处在于我们的模型应用了池化操作，并在没有类令牌的情况下进行预测。ResNet50 conv1和conv42的特征图分辨率分别为112×112和14×14。对于DeiT和HVT，特征图是从令牌中重塑而来的。对于我们的模型，我们将池化后的序列插值到其初始长度，然后将其重塑为2D地图。04. 讨论04.1. 分层池化的分析0在CNN中，特征图通常以分层方式下采样到较小的尺寸[33,14]。在本文中，我们展示了这个原则可以应用于ViT模型，通过比较ResNet conv4 2、DeiT-S [36] block1和HVT-S-1block1的可视化特征图来进行。从图中可以看出，在ResNet中，第一个卷积层之后的初始特征图包含丰富的边缘信息。在将特征传递给连续的卷积层和池化层之后，输出的特征图往往保留更多的高级区分信息。在DeiT-S中，遵循ViT结构，尽管通过初始线性投影层将图像分辨率降低到14×14，我们仍然可以观察到清晰的边缘和模式。然后，在第一个块中对特征进行了改进，以获得更清晰的边缘信息。与在相同分辨率级别上改进特征的DeiT-S相反，在第一个块之后，提出的HVT通过池化层对隐藏序列进行下采样，并将序列长度减半。然后，我们将序列插值回196并将其重塑为2D特征图。我们可以发现隐藏表示包含更抽象的高区分性信息，这与ResNet类似。04.2. HVT的可扩展性0计算复杂度的减少使得HVT在宽度/深度/补丁大小/分辨率方面具有很强的可扩展性。以DeiT-S为例，该模型由12个块和6个头组成。给定一个大小为224×224、补丁大小为16的图像，DeiT-S的计算成本约为4.6GFLOPs。通过应用四个池化操作，我们的方法能够实现近3.3倍的FLOPs减少。此外，为了重新分配减少的FLOPs，我们可以构建更宽或更深的HVT-S，具有11个头或48个块，总FLOPs分别约为4.51G和4.33G。此外，我们可以通过设置较小的补丁大小或使用较大的分辨率来考虑更长的序列。例如，使用补丁大小为8和图像分辨率为192×192，HVT-S的FLOPs约为4.35G。或者，将图像分辨率扩大到384×384将导致4.48G的FLOPs。在上述所有情况中，计算成本仍然低于DeiT-S，同时增强了模型容量。值得注意的是，找到一种合理的方式来扩展HVT以获得最佳的效率与准确性权衡仍然是一个未解决的问题。在当前阶段，我们通过均匀分割块并遵循DeiT[36]中的模型设置进行了早期探索，以进行公平比较。事实上，HVT的改进可扩展性使得使用神经架构搜索（NAS）自动找到最佳配置成为可能，例如Ef�cientNet [35]。我们050100150200250300Epoch3.54.04.55.05.56.06.57.002046803820留待未来更多潜在研究的工作。05. 实验0比较方法。为了研究HVT的有效性，我们将我们的方法与DeiT [36]和基于BERT的剪枝方法PoWER-BERT[13]进行比较。DeiT是一种代表性的视觉Transformer，而PoWER逐步剪枝预训练的BERT模型中的不重要的标记以加速推理。此外，我们考虑了DeiT中的两种架构进行比较：HVT-Ti：采用微小设置的HVT。HVT-S：采用小型设置的HVT。为了方便起见，我们使用“Architecture-M”来表示具有M个池化阶段的模型，例如HVT-S-1。0数据集和评估指标。我们在两个图像分类基准数据集CIFAR-100 [22]和ImageNet[31]上评估我们提出的HVT。我们以Top-1和Top-5准确率来衡量不同方法的性能。与DeiT[36]一样，我们通过FLOPs来衡量计算成本。此外，我们还通过参数数量（Params）来衡量模型大小。0实现细节。对于在ImageNet上的实验，我们将模型训练300个epoch，总批量大小为1024。初始学习率为0.0005。我们使用AdamW优化器[25]进行优化，动量为0.9。我们将权重衰减设置为0.025。为了公平比较，我们保持与DeiT[36]相同的数据增强策略。对于下采样操作，默认使用最大池化。核大小k和步长s分别设置为3和2，通过在CIFAR100上进行简单的网格搜索选择。此外，所有可学习的位置嵌入都以与DeiT相同的方式初始化。有关其他超参数的更详细设置，请参阅DeiT。对于在CIFAR-100上的实验，我们使用总批量大小为128进行模型训练。初始学习率设置为0.000125。其他超参数与ImageNet上的设置保持一致。05.1. 主要结果0我们将提出的HVT与DeiT和PoWER进行比较，并在表1中报告结果。首先，与DeiT相比，我们的HVT通过分层池化实现了近2倍的FLOPs减少。然而，显著的FLOPs减少也导致了在微小和小型设置中的性能下降。此外，HVT-S-1的性能下降小于HVT-Ti-1。例如，对于HVT-S-1，Top-1准确率仅下降了1.80%。相比之下，对于HVT-Ti-1，Top-1准确率下降了2.56%。这可以归因于与HVT-Ti-1相比，HVT-S-1具有更多的冗余和参数。因此，将分层池化应用于HVT-S-1。0训练损失0Top-1准确率(%)0DeiT-Ti 缩放HVT-Ti-40图4：DeiT-Ti（1.25GFLOPs）和提出的缩放HVT-Ti-4（1.39GFLOPs）的性能比较。所有模型都在ImageNet上进行评估。实线表示Top-1准确率（右侧y轴）。虚线表示训练损失（左侧y轴）。0可以显著减少冗余并保持性能。其次，与PoWER相比，HVT-Ti-1在实现更好性能的同时使用更少的FLOPs。此外，HVT-S-1比PoWER减少了更多的FLOPs，同时性能略低于PoWER。还要注意的是，PoWER涉及三个训练步骤，而我们的训练方案是一个更简单的单阶段训练方案。此外，我们还将缩放后的HVT与具有相似FLOPs的DeiT进行比较。具体来说，我们在HVT-Ti中增加了嵌入维度并添加了额外的头部。从表1和图4可以看出，通过将节省的FLOPs重新分配以扩大模型，HVT可以收敛到更好的解决方案并获得改进的性能。例如，在微小设置中，ImageNet上的Top-1准确率可以提高3.03%。有关模型缩放效果的更多实证研究可参见第5.2节。05.2.消融研究0没有类标记的预测效果。为了研究没有类标记的预测的效果，我们训练了带有和不带有类标记的DeiT-Ti，并在表2中展示了结果。从结果可以看出，没有类标记的模型的性能优于带有类标记的模型。性能的提升主要来自于整个序列中没有类标记的额外区分信息。请注意，CIFAR-100上的性能改进要比ImageNet上的性能改进大得多。这可能是因为CIFAR-100是一个小数据集，与ImageNet相比缺乏多样性。因此，在CIFAR-100上训练的模型更多地受益于模型区分能力的增加。0不同池化阶段的效果。我们训练了具有不同池化阶段M ∈ { 0 ,1 , 2 , 3 , 4}的HVT-S，并在表4中展示了结果。请注意，HVT-S-0等同于DeiT-Ti [36]1923121.255.7272.2091.10DeiT-Ti + PoWER [13]1923120.805.7269.40 (-2.80)89.20 (-1.90)HVT-Ti-11923120.645.7469.64 (-2.56)89.40 (-1.70)DeiT-S [36]3846124.6022.0579.8095.00DeiT-S + PoWER [13]3846122.7022.0578.30 (-1.50)94.00 (-1.00)HVT-S-13846122.4022.0978.00 (-1.80)93.83 (-1.17)DeiT-Ti with CLS1.255.7272.2091.1064.4989.27DeiT-Ti without CLS1.255.7272.42 (+0.22)91.55 (+0.45)65.93 (+1.44)90.33 (+1.06)HVT-SConv1.4723.5469.7592.12HVT-SAvg1.3921.7770.3891.39HVT-SMax1.3921.7775.4393.565 (%)04.5721.7080.3995.1371.9992.4412.4021.7478.0093.8374.2793.0721.9421.7677.3693.5575.3793.6931.6221.7776.3292.9075.2293.9041.3921.7775.2392.3075.4393.56121.3921.7775.4393.56161.7228.8775.3293.30202.0535.9775.3593.35242.3743.0775.0493.3930.385.5869.5191.7861.3921.7775.4393.56125.3486.0176.2693.39169.39152.4376.3093.163830表1：DeiT和PoWER在ImageNet上的性能比较。 “嵌入维度”指的是序列中每个标记的维度。“#Heads”和“#Blocks”分别是Transformer中的自注意力头数和块数。 “FLOPs”是使用224×224图像测量的。“Ti”和“S”分别是指微小和小型设置。 “Architecture-M”表示具有M个池化阶段的模型。“Scale”表示我们扩大了嵌入维度和/或自注意力头的数量。 “DeiT-Ti/S + PoWER”指的是将PoWER-BERT [ 13]中的技术应用于DeiT-Ti/S的模型。0模型嵌入维度 #Heads #Blocks FLOPs (G) 参数 (M) Top-1准确率(%) Top-5准确率(%)0尺度 HVT-Ti-4 384 6 12 1.39 22.12 75.23 (+3.03) 92.30 (+1.20)0表2：没有类标记的预测的效果。 “CLS”表示类标记。0模型FLOPs (G) 参数 (M) ImageNet CIFAR-1000Top-1准确率(%) Top-5准确率(%) Top-1准确率(%) Top-5准确率(%)0表3：在HVT-S-4上使用卷积、最大池化和平均池化三种下采样操作的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0模型操作 FLOPs (G) 参数 (M) Top-1 准确率 (%) Top-5 准确率 (%)0表4：在具有不同池化阶段 M的HVT-S上的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0M FLOPs 参数 ImageNet CIFAR1000没有类令牌的DeiT-S。随着 M的增加，HVT-S在CIFAR-100上的FLOPs减少，性能得到了提升，而在ImageNet上我们观察到准确率下降。一个可能的原因是HVT-S在CIFAR-100上非常冗余，池化作为正则化器可以避免过拟合问题，提高HVT在CIFAR-100上的泛化性能。在ImageNet上，我们认为HVT的冗余性较低，需要更好的缩放策略来提高性能。0不同下采样操作的效果。为了研究不同下采样操作的效果，我们使用卷积、平均池化和最大池化三种下采样策略训练了HVT-S-4。如表3所示，使用卷积进行下采样的效果最差，即使0表5：在HVT-S-4上使用不同数量的Transformer块的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0#块数 FLOPs (G) 参数 (M) Top-1 准确率 (%) Top-5 准确率 (%)0表6：在HVT-Ti-4上使用不同数量的自注意力头的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0#头部 FLOPs (G) 参数 (M) Top-1 准确率 (%) Top-5 准确率 (%)0引入额外的FLOPs和参数。此外，平均池化在Top-1准确率方面略优于卷积。与这两种设置相比，最大池化在Top-1准确率和Top-5准确率方面表现更好。结果与常识[2]一致，即最大池化在各种设置中表现良好。因此，我们默认在所有其他实验中使用最大池化。0模型缩放的效果。提出的分层池化的一个重要优势是，我们可以通过构建具有更宽、更深、更高分辨率或更小的补丁尺寸配置的模型，重新分配节省的计算成本，以提高模型的容量。与卷积相似，使用卷积进行下采样的效果最差，即使1600.6921.7073.8492.902241.3921.7775.4393.563203.0021.9275.5494.183844.4822.0676.3194.0286.1821.9977.2994.22161.3921.7775.4393.56320.3722.5568.1590.193840在CNN文献[14, 44,46]中，我们研究了模型缩放的效果。基于HVT-S-4，我们首先通过增加Transformer中的块数来构建更深的模型。具体来说，我们训练了4个具有不同块数L ∈ {12, 16, 20,24}的模型。因此，不同模型的每个池化阶段分别具有3、4、5和6个块。我们在CIFAR-100上训练了4个模型，并在表5中报告了结果。从结果中，我们观察到在HVT中堆叠更多的块没有带来更多的收益。基于HVT-Ti-4，我们通过增加自注意力头的数量来构建更宽的模型。具体来说，我们在CIFAR-100上训练了4个具有不同自注意力头数量的模型，即3、6、12和16，并在表6中报告了结果。从结果中，我们的模型在宽度增加时获得了更好的性能。例如，具有16个自注意力头的模型在Top-1准确率和Top-5准确率方面比具有3个自注意力头的模型分别提高了6.79%和1.38%。基于HVT-S-4，我们进一步构建具有更大输入图像分辨率的模型。具体来说，我们在CIFAR-100上训练了4个具有不同输入图像分辨率的模型，即160、224、320和384，并在表7中报告了结果。从结果中，我们的模型在图像分辨率增加时获得了更好的性能。例如，分辨率为384的模型在Top-1准确率和Top-5准确率方面分别比分辨率为160的模型提高了2.47%和1.12%。然而，增加图像分辨率也会导致较高的计算成本。为了在计算成本和准确率之间取得平衡，我们默认将图像分辨率设置为224。最后，我们使用不同的补丁尺寸P ∈ {8, 16,32}训练HVT-S-4，并在表8中展示结果。从结果中，HVT-S-4在补丁尺寸减小时表现更好。例如，当补丁尺寸从32减小到8时，我们的HVT-S在Top-1和Top-5准确率方面分别提高了9.14%和4.03%。直观地说，较小的补丁尺寸导致细粒度的图像补丁，并有助于学习高分辨率的表示，从而提高分类性能。然而，较小的补丁尺寸会导致补丁序列变长，从而显著增加计算成本。为了在计算成本和准确率之间取得平衡，我们默认将补丁尺寸设置为16。0对2D池化的探索。与1D池化相比，2D池化提出了更多要求。例如，为了确保足够的序列长度，需要较小的块大小。相应地，从高分辨率特征图中节省FLOPs和内存消耗，早期阶段需要减少头部。此外，还需要在每个阶段变化块以控制整体模型复杂性。在表9中，我们将2D池化应用于HVT-S-2。0表7：在不同图像分辨率下对HVT-S-4的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0分辨率 FLOPs（G）参数（M） Top-1准确率（%） Top-5准确率（%）0表8：在不同块大小P下对HVT-S-4的性能比较。我们报告CIFAR-100上的Top-1和Top-5准确率。0P FLOPs（G）参数（M） Top-1准确率（%） Top-5准确率（%）0表9：2D池化对HVT-S-2的影响。我们报告CIFAR-100上的Top-1和Top-5准确率。对于HVT-S-2，我们应用2D最大池化，并使用块大小为8。0模型 FLOPs（G）参数（M） Top-1准确率（%） Top-5准确率（%）0DeiT-S 4.60 21.70 71.99 92.44 HVT-S-2（2D）4.62 21.80 77.58 94.400并将其与DeiT-S进行比较。结果表明，具有2D池化的HVT-S-2在CIFAR100上的性能远远优于DeiT-S，而FLOPs相似。在这种情况下，我们假设HVT可以通过专门的缩放方案实现2D池化的良好性能。我们将把这个探索留给未来的工作。06. 结论和未来工作0在本文中，我们提出了一种分层视觉Transformer，称为HVT，用于图像分类。特别是，所提出的分层池化可以以简单而有效的形式显著压缩顺序分辨率，以节省计算成本。更重要的是，这种策略极大地提高了视觉Transformer的可扩展性，使得在深度、宽度、分辨率和块大小等

下载后可阅读完整内容，剩余1页未读，立即下载