减少冗余的多样性原则提升视觉Transformer性能

195 浏览量更新于2023-10-25 收藏 16.46MB PDF 举报

图像分类

自注意力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

120200多样性原则：训练更强大的视觉Transformer需要减少所有层次的冗余0Tianlong Chen 1，Zhenyu Zhang 1，Yu Cheng 2，Ahmed Awadallah 2，Zhangyang Wang 101 德克萨斯大学奥斯汀分校，2 微软研究院0{tianlong.chen，zhenyu.zhang，atlaswang}@utexas.edu，{yu.cheng，hassanam}@microsoft.com0摘要0视觉Transformer（ViTs）因其通常被认为具有更高的建模能力和表示灵活性而越来越受欢迎，而传统的卷积网络则不具备这些特点。然而，ViTs的潜力是否在实践中得到充分发挥是值得怀疑的，因为学习到的ViTs往往会遭受过度平滑的问题，导致产生冗余的模型。最近的研究初步尝试识别和减轻这种冗余，例如通过规范化嵌入相似性或重新注入类似卷积的结构。然而，关于ViTs中冗余程度的“从头到脚评估”，以及通过彻底减轻冗余可以获得多少收益，这个领域一直缺乏研究。本文首次系统地研究了补丁嵌入、注意力图和权重空间中冗余的普遍存在。基于这些研究，我们提出了训练ViTs的多样性原则，通过提出相应的正则化项，在每个层次上鼓励表示的多样性和覆盖范围，从而能够捕捉更多的区分性信息。在ImageNet上进行了大量实验证明了我们提议的方法的有效性，大大消除了观察到的ViT冗余并显著提升了模型的泛化能力。例如，我们的多样化DeiT在高度减少的相似性下，在ImageNet上获得了0.70%�1.76%的准确率提升。我们的代码完全可在https://github.com/VITA-Group/Diverse-ViT中获得。01. 引言0Transformer [57]作为自然语言处理（NLP）[4,19]中的事实上的神经架构，最近在图像分类[21, 26, 53]、目标检测[5, 17, 74,80]和图像生成[10, 31, 46]等现代计算机视觉应用中引起了革命。视觉Transformer[21]（ViTs）不依赖于类似卷积的归纳偏差，而是利用自注意力[57]来聚合所有空间位置上的图像补丁，并建模它们的全局关系，这被认为可以提高模型的表达能力和表示灵活性。尽管它们有着很大的潜力，但ViT训练仍然存在相当大的不稳定性，特别是在深层网络中[23,55]。其中一个主要原因[23]是所有补丁之间的全局信息聚合鼓励它们的表示变得过于相似，导致严重降低的区分能力。这种现象被称为过度平滑，表明ViT的表达能力和灵活性存在较高程度的“冗余”或无效使用，并已经被一些先前的研究所研究[23, 55, 75,76]。一些初步尝试从不同的角度填补了这一空白。例如[23]提出了基于对比的正则化方法来增加补丁嵌入的多样性。0权重相似性0注意力相似性嵌入相似性0图1.DeiT-Small在ImageNet上嵌入、注意力和权重空间的相对相似性比较。较大的数字表示更严重的相关性/冗余。B1�B5代表DeiT-Small模型中的块。采用余弦、（归一化的）均方误差和（归一化的）重构损失来衡量嵌入、注意力和权重的相似性。前两者是使用ImageNet训练集中的10,000张图像计算得出的，没有进行数据增强，遵循[23]中的标准。0表达能力和表示灵活性。尽管它们有着很大的潜力，但ViT训练仍然存在相当大的不稳定性，特别是在深层网络中[23,55]。其中一个主要原因[23]是所有补丁之间的全局信息聚合鼓励它们的表示变得过于相似，导致严重降低的区分能力。这种现象被称为过度平滑，表明ViT的表达能力和灵活性存在较高程度的“冗余”或无效使用，并已经被一些先前的研究所研究[23, 55, 75,76]。一些初步尝试从不同的角度填补了这一空白。例如[23]提出了基于对比的正则化方法来增加补丁嵌入的多样性。̸120210[76]通过类似卷积的聚合直接改进自注意力图，以增强局部模式。本文旨在全面研究和减轻ViT的冗余问题。我们首先系统地证明了当前最先进的ViTs在三个级别上普遍存在冗余：补丁嵌入、注意力图和权重空间，即使对于那些配备了强大数据增强（例如DeiT [54]）或复杂注意机制（例如Swin[43]）的模型也是如此，如图1所示。鉴于这种崩溃，我们提倡训练ViTs的多样性原则，通过提出相应的正则化器，在每个级别上鼓励表示的多样性和覆盖范围，释放ViTs的真正判别能力和表示灵活性。我们发现每个级别的正则化器都能提供泛化增益，而将它们全部应用在一起始终能够获得更好的性能。我们的贡献在以下几个方面：0•我们首次全面调查了ViTs中的冗余问题，通过展示其在补丁嵌入、注意力图和权重空间三个级别上的普遍存在，跨越了当前最先进的ViT模型。0•对于每个级别，我们提出了用于训练ViTs的多样性正则化器，它们在消除冗余、鼓励多样性和增强泛化能力方面具有互补效果。0• 我们在ImageNet数据集上对Vanilla ViT、DeiT和SwinTransformer骨干进行了大量实验，通过解决我们提出的三级冗余问题，展示了一致且显著的性能提升。具体而言，我们的提议提高了DeiT和Swin的准确率，分别为0.70%�1.76%和0.15%�0.32%。02. 相关工作0视觉变换器。变换器[57]起源于NLP应用的普遍成功，这促使其适应计算机视觉场景[21]。ViTs将图像编码为一系列补丁，并将其馈送到变换器编码器中。这种基于自注意力的模型摆脱了卷积神经网络（CNNs）中的常见归纳偏差，例如局部性，而嵌入之间的全局交互赋予ViTs更强的学习能力。ViTs在各种计算机视觉任务中的实证成功包括图像分类[11,21, 24]，目标检测[5, 17, 74, 80]，分割[60, 63,73]，增强[9, 68]，图像生成[10, 31,46]，视频和视觉语言理解[15, 36–38, 44, 51, 52, 71, 77,78]。然而，ViTs的全局信息聚合也导致了过度平滑和冗余的表示[23,76]。这使得ViTs的有效学习能力“崩溃”，从而使ViTs在实际中无法应用。0实现更高容量和复杂表示。现有的研究从两个角度出发：(i)通过类似卷积的结构重新注入局部性，并融合全局和局部上下文，用于自注意力[2, 27, 32, 43, 55, 56, 64, 65, 67, 69,76]；(ii)采用基于补丁的对比或混合损失来增强多样性，用于补丁嵌入。我们的工作旨在连接和扩展这些孤立的努力，我们是第一个针对ViTs在嵌入、注意力和权重级别上的完全冗余进行研究的工作。请注意，我们的三级多样化框架与现有方法兼容，只需将它们插入到相应的级别中。详细的调查结果将在第4.3节中介绍。0多样性正则化。多样性约束旨在学习改进特征覆盖和泛化的判别模式[12, 23,41]。代表性的正则化器包括基于余弦相似度的[23]，基于边缘或距离的[13, 23, 33, 42, 49,50]，基于超球面均匀性的[39–41]和基于正交性的[1, 3, 12,25, 30, 34, 48, 58,72]。其中大部分应用于CNNs，[23]是ViTs中最近的尝试。03. 方法论03.1. 检查ViTs中的三级冗余0预备知识。回顾transformer架构[21,057]通常包含多头自注意力模块（MHA）和前馈网络（FFN）。在MHA中，键、查询和值经过线性变换以计算注意力头，然后所有头部通过另一个线性变换进行聚合。FFN也是基于两个带有激活函数的线性变换构建的，如图2所示。这里，我们用 W MHA 和 W FFN分别表示MHA和FFN模块中的权重。A 表示注意力图（或亲和矩阵）。它通过 A =softmax( α QK � ) 计算，其中 Q 是查询矩阵，K 是键矩阵，α 是一个缩放因子（通常为1/√0d 和 d 是键和查询的维度）。令 e l = [ e l class , e l 1 , ∙ ∙∙ , e l n ] 为第 l 层的特征嵌入（1 ≤ l ≤ L），其中 n是图像补丁的总数。不失一般性，我们以图像识别为例。然后，视觉transformer通过最小化分类损失 L ( C ( e L class) , y ) 进行优化，其中 C 是分类头，y 是输入样本的标签。0补丁嵌入的冗余。我们通过计算逐令牌的余弦相似度来研究特征嵌入的冗余。具体如下所示：0R s cosine ( h ) := 10n ( n − 1)0�0i � = j0∥ h i ∥ 2 ∥ h j ∥ 2 ,(1)0R d cosine ( h l 1 , h l2 ) := 10n0�0i0∥ h l 1 i ∥ 2 ∥ h l 2 i∥ 2 , (2).........̸RPCA(W ) := ∥W − ˜W ∥22(3)Rcontrastive(el1, el2) :=− 1nni=1logexp(el⊤1i el2i )exp(el⊤1 el2) + exp(el⊤1 (1̸el2)),120220线性投影0线性线性线性0缩放点积0注意力0线性0分类器0权重0嵌入0注意力0嵌入0冗余0注意力图0冗余0权重冗余0线性0线性0FFN0跳跃连接0跳跃连接0图2. (左) 视觉transformer的整体流程[21,54]。每个图像被分成补丁，并通过线性投影层转换为嵌入。然后，嵌入被馈送到由MHA和FFN模块组成的transformer编码器。这里省略了softmax和归一化等其他操作。(右) 嵌入、注意力和权重的冗余示意图。0其中 h 是特征嵌入 e = [ e class , e 1 , ∙ ∙ ∙ , e n]（为简单起见省略了上标 l），n是令牌的总数。值得注意的是，R s cosine ( h ) 和 R dcosine ( h l 1 , h l 2 )分别表示同一层内特征嵌入的余弦相似度和两个不同层 l 1 ,l 2之间的余弦相似度。较大的余弦相似度表示更多的冗余。直观地说，同一层的冗余阻碍了ViT捕捉不同令牌的特征；而跨层的冗余则损害了ViTs的学习能力，因为高度相关的表示实际上使得ViT的有效深度减少到较少甚至单个transformer层。0注意力中的冗余。我们考虑使用 R cosine ( A )来衡量同一层中注意力图的余弦相似度。类似地，R MSE ( A ) := 10n ( n − 1) � i � = j ∥ A i − A j ∥ 2 2也可用于冗余度量。与显示注意力头之间的相似性的这两个度量相比，我们进一步使用标准差统计量来表示注意力头内的元素方差。0模型权重中的冗余性。如果参数空间高度冗余，则权重矩阵将近似落入低秩参数子空间。因此，我们使用重构误差来描述权重冗余：0其中 ˜ W是通过主成分分析（PCA）得到的重构权重矩阵，具有前 k个主成分。给定固定的重构误差，较大的 k意味着更好的多样性。换句话说，给定k，较大的重构误差意味着更少的权重冗余。[12,41]也从秩的角度剖析了权重冗余。03.2. 消除ViTs中的三级冗余0为了减少观察到的冗余性，我们引入了三组正则化项，以鼓励视觉变换器中的以下多样性：i）学习到的特征嵌入；ii）注意力图；iii）模型权重。0补丁嵌入多样性。为了使补丁特征嵌入多样化，我们使用余弦角度正则化 R s cosine ( e ) 和 R d cosine ( e l 1 , e l 2)分别约束同一层和跨层嵌入。类似的方法在视觉[23]、语言[22]和图[8]场景中用于获得多样化的表示。同时，我们采用对比正则化 R d contrastive ( e l 1 , e l 2 )来增强跨层嵌入的多样性，具体如下所示：0(4) 其中 l 1 和 l 2是两个不同的层索引。需要注意的是，对于同一层嵌入多样性的正则化器不适用，因为缺少正样本对。� 理由。正如[23,45]所指出的，余弦角度正则化可以起到最小化补丁嵌入 e的最大特征值上界的作用，从而提高表达能力[23]和学习表示的多样性。对于对比正则化，它将相应于同一补丁的嵌入拉在一起，并同时将属于不同补丁的嵌入推开，减少了不同层之间的特征相关性。因此，它能够学习可分离的补丁嵌入，并对语义相似的补丁保持容忍度[59,61]，从而提高表示质量和ViT性能。RSO(A) := ∥A⊤A − I∥2F,(5)RCNO(A) = ∥λ1(A⊤A) − λ2(A⊤A)∥2.(6)It enforces the orthogonality via directly regularizing the̸120230注意力多样性。同样地，余弦正则化 R s cosine ( A )可以应用于消除注意力的冗余，其中 A = [ A 1 , A 2 , ∙ ∙ ∙, A H ]，H 是一个层内注意力头的数量。受到在视觉[12,35,47]和语言任务[72]中正交正则化的经验有效性的启发，我们在ViTs的背景下进行了研究。我们采用了经典的软正交正则化（SO）[3]，具体如下所示：0其中 ∥ ∙ ∥ F 是Frobenius范数，I 是与 A � A大小相同的单位矩阵。我们还尝试了一种替代的条件数正交正则化（CNO）[12]，具体如下所示：0λ 2 变为1，其中 λ 1 和 λ 2 是目标矩阵 A � A的最大和最小特征值。为了使其在计算上更易处理和稳定，我们对 λ 1 和 λ 2 之间的差异进行约束。�理由。这些正则化项（即SO和CNO）通过将注意力图彼此正交来鼓励多样化的注意力图，实际上上界了学习函数映射的利普希茨常数[72]，从而产生稳健和信息丰富的表示。正如[72]所示，引入正交多样性正则化器到注意力图中也可以稳定变换器的训练，并提高其在NLP任务上的泛化能力。0权重多样性。类似地，正交正则化，例如RCNO(W)，可以轻松地插入并促进ViT的权重空间的多样性。与正交性相比，超球面均匀性是另一种更一般的多样性正则化，已在[41]中证明。尽管它已经在CNN中进行了探索，但在ViT中尚未进行研究。我们研究了最小超球面分离(MHS)正则化器，它通过最大化分离距离（或最小的成对距离）来定义如下：0max{ˆw1,∙∙∙,ˆwm}∈St−1{RMHS(ˆW) := mini�=jρ(ˆwi,ˆwj)},0∥wi∥是第i个权重向量在单位超球面St−1 :={ˆw∈Rt|∥ˆw∥=1}上的投影，ρ(∙,∙)是单位超球面上的测地距离。如方程7所示，它被制定为一个最大最小优化问题，并通过交替梯度上升/下降来解决。此外，我们还研究了另一个最大格拉姆行列式(MGD)正则化器RMGD(ˆW)，如下所示：0max{ˆw1,∙∙∙,ˆwm}∈St−1logdet�G := (K(ˆwi,ˆwj))mi,j=1�,(8)0其中det(G)是核格拉姆矩阵G的行列式，K(u,v) :=exp(−∑ti=1ϵ2(ui−vi)2)表示具有尺度ϵ>0的核函数。通过最大化权重ˆW的格拉姆行列式det(G)，MGD强制权重向量均匀分布在超球面上。0�原理。正如[39-41]所示，超球面均匀性正则化（即MHS和MGD）表征了单位超球面上向量的多样性，它编码了一种具有关系信息的强归纳偏差。我们相信它从两个方面有益于ViT的训练[41]：（i）消除权重冗余，提高代表能力；（ii）通过减少[39-41,66]中的虚假局部最小值，学习更好的优化和泛化。04. 实验0实施细节。我们在ImageNet-1k[18]数据集上进行了大量实验，使用ViT[21]、DeiT[53]和SwinTransformer[43]。我们通过网格搜索仔细调整了我们引入的多样性正则化的所有超参数，并在附录A2中提供了最佳配置。我们使用Tesla V100-SXM2-32GBGPU作为计算资源。具体而言，每个实验在8个V100上运行，持续1�4天。0对于普通的ViT模型，我们考虑两种架构，即ViT-Small和ViT-Base，每个架构都包含12层，分别在每层的多头自注意力块中包含6个和12个头。我们使用批量大小为4096的每个模型进行300个epoch的训练。采用AdamW优化器，权重衰减为0.3，学习率从4×10−3开始，进行4个epoch的预热，然后按照余弦退火的方式进行衰减。我们保持所有训练设置与[21]中的原始设置相同。0对于DeiT架构，我们选择了DeiT-Small、DeiT-Small24和DeiT-Base。具体而言，DeiT-Small和DeiT-Base都包含12层，而DeiT-Small24有24层。在每个层中，DeiT-Small和DeiT-Small24的自注意力模块有6个头，而DeiT-Base有12个头。按照[53]的方法，我们使用批量大小为1024的模型进行300个epoch的训练。我们使用AdamW优化器，权重衰减为0.05。初始学习率为1×10−3，进行5个epoch的预热，然后按照余弦退火的方式进行衰减。有关数据增强和其他训练技巧的更多细节可以在[53]中找到。0对于SwinTransformer，我们从官方的Swin-Small和Swin-Base预训练模型开始，然后在另外30个epoch中进行微调，其中使用恒定的学习率1×10−5，权重衰减1×10−8和批量大小为1024[23]。我们保持其他训练细节与[43]相同，并将微调性能与有/无多样性正则化进行比较。120240嵌入0相似性0注意力0相似性0权重0重构误差0ViT DeiT0Swin0SAMViT*0Refiner*0金字塔0ViT 交叉ViT0T2T0TNT0VOLO0CvT0我们的0多样化0DeiT0ViT DeiT0Swin0SAMViT*0Refiner*0金字塔0ViT0交叉ViT T2T TNT0VOLO0CvT0我们的0多样化0DeiT0ViT DeiT Swin SAM ViT*0Refiner*0金字塔0ViT0交叉ViT0T2T TNT0VOLO0CvT0我们的0多样化0DeiT0图3.（左）ViT [21]，DeiT [53]，Swin [21]，SAM-ViT [14]，Refiner [76]，金字塔-ViT [62]，交叉ViT [7]，T2T [69]，TNT [27]，VOLO[70]，CvT[64]和我们多样化的DeiT在ImageNet上的嵌入、注意力和权重空间的冗余性比较。我们使用公开可用的预训练模型来评估它们在各个冗余层面上的性能。为了公平比较，大多数选择的预训练transformer具有相似的参数数量，即19M�27M，即使最小的SAM-ViT和Refiner也有83M和78M。↑/↓表示较大/较小的数字表示更好的多样性。采用余弦相似度、重构误差（归一化）来衡量嵌入、注意力和权重的相似性。前两者是使用ImageNet训练集的10000个子样本计算得出的，没有进行数据增强，遵循[23]中的标准。（右）ViT、DeiT和Swin的逐层相似性/重构误差，其中B1�B8是相应的transformer块（或层）。04.1. 当前ViT中的冗余性0在本节中，我们进行了彻底的调查，揭示了ViT的补丁嵌入、注意力图和权重空间中广泛存在的冗余性。具体而言，我们在ImageNet上对11个当前的SOTAViT和我们的多样化DeiT进行了检查，根据它们在ViT[21]上的提出方法，可以将它们分为四类：（i）改进训练技术，如DeiT [53]中的数据增强和SAM-ViT[14]中的平坦感知正则化器；（ii）引入卷积层或设计类卷积操作，如CvT [64]和Refiner [76]（称为CNN +ViT）；（iii）设计分层结构以捕捉多尺度信息，如Swin[21]，金字塔-ViT [62]和交叉ViT[7]；（iv）探索更细粒度的特征或将局部上下文编码到特征中，如T2T [69]，TNT [27]和VOLO[70]。从图3中我们可以观察到：0� 在补丁嵌入水平上，大多数当前的SOTAViT（除了SAM-ViT）与普通的ViT相比，嵌入冗余性得到了放大。这似乎表明0平坦感知正则化器可以使ViT生成更多样化的嵌入。此外，我们的多样化DeiT在逐层和整体嵌入相似性上呈现出一致且显著的降低，优于所有其他ViT变体。0�在注意力水平上，我们多样化的DeiT再次通过最少的冗余实现了最优异的多样化注意力图。此外，Swin[21]中具有移位窗口的自注意力和Re- finer[76]中的类卷积聚合有效地减少了注意力图的相关性。此外，SAM-ViT中的平坦感知机制带来了更多的注意力头之间的多样性。0� 在权重级别上，具有相似参数数量的Cross-ViT[7]具有提取多尺度特征的双分支结构，其权重重建误差最大，意味着更多的权重多样性。此外，如图3（右侧）所示，我们的多样化DeiT仍然始终优于其原始版本，这验证了我们的提议在消除权重空间冗余方面的有效性。The Original Imaget-SNE of Baselinet-SNE of OursThe Original Imaget-SNE of Baselinet-SNE of Ours1256789101233445678910120250图4.从ImageNet中随机采样的图像的补丁嵌入（即196个令牌）的t-SNE可视化。第2列和第5列/第3列和第6列中的补丁嵌入分别来自Deit基线和我们的多样化变体。补丁①�⑩对应于原始图像中的红色框。0图5. DeiT在ImageNet上的注意力可视化。第1行和第2行的热图分别来自基线和我们的多样化变体。采用了[6]中解释ViT的工具来生成可视化结果。0表1.在ImageNet上使用或不使用全层级多样化的ViT的Top-1准确率（%）。↑表示与其原始版本相比，通过我们的多样性正则化器获得的性能提升。所有的ViT和DeiTTransformer都是使用[21]和[53]中的默认设置从头开始训练300个epoch。Swin Transformer是从[43]的发布检查点进行微调，训练30个epoch。0设置和方法大小准确率0(CNN) ResNet-152 [28] 230M 78.10 DenseNet-201 [29] 77M 77.600(CNN + ViT) CVT-21 [64] 32M 82.50 (ViT + DiversePatch �)DeiT-Small [23] 22M 80.43 (ViT + DLA �) Refiner [76] 86M 81.200(Vanilla ViT 12层)0ViT-Small [21] 22M 76.54 ViT-Small + 我们的方法 22M78.60 (↑ 2.04)0ViT-Base [21] 86M 77.90 ViT-Base + 我们的方法 86M 79.96(↑ 2.06)0(DeiT 12层)0DeiT-Small [53] 22M 79.78 DeiT-Small + 我们的方法 22M80.61 (↑ 0.83)0DeiT-Base [53] 86M 80.98 DeiT-Base + 我们的方法 86M81.68 (↑ 0.70)0(Swin 12层)0Swin-Small [43] 50M 83.18 Swin-Small + 我们的方法 50M83.33 (↑ 0.15)0Swin-Base [43] 88M 83.40 Swin-Base + 我们的方法 88M83.72 (↑ 0.32)0(DeiT 24层) DeiT-Small24 [53] 43M 80.03 DeiT-Small24 + 我们的方法 43M 81.79 (↑ 1.76)0� DiversePatch是在令牌嵌入级别上的多样化[23]。�DLA是在注意力级别上的多样化[76]。04.2. 引入多样性增强的ViTs0我们提议的优越泛化性。在本节中，我们展示了改善ViT训练中的多样性可以实现更好的泛化性能。具体而言，我们的实验考虑了六种代表性的Transformer骨干，即vanillaViT-Small/Base，DeiT-Small/Base和Swin-0Small/Base。如表1所示，可以得出几个一致的观察结果：�与ViT、DeiT1和Swin基线相比，我们的多样化变体分别获得了约2%、0.70%~1.76%和0.15%~0.32%的准确率提升，这证明了我们的三级多样性正则化的有效性。� VanillaViTs倾向于从我们的多样化训练中获益更多，在DeiT和Swin上改进了3~7倍。一个可能的解释是DeiT中的数据增强和Swin中的自注意力与移位窗口已经注入了一定程度的多样性，如图3中的注意力和权重相关性的降低所示。�与相同ViT骨干的现有方法相比，我们的多样化ViTs分别比DiversePatch [23]和DLA[76]提高了0.18%和0.48%的准确率，这表明减少所有级别的冗余是必要的。�深层ViTs从多样性正则化训练中获得更多好处。特别是，DeiT-Small24的准确率提高了1.76%，而其12层变体的准确率提高了0.83%。这是符合预期的，因为更深的Transformer通常会遭受更严重的过度平滑和表示冗余[20,79]，为多样化提供了更多的潜在进展。在[23]中也可以观察到类似的结论。0有效地减少了冗余。为了进一步验证我们多样化ViT的优越性，我们提供了所有级别的补丁嵌入、注意力图和模型权重的广泛定性和定量可视化。01由于DeiT-Base的训练方案中已知的原始实现的损失NAN问题（https://github.com/facebookresearch/deit/issues/29），我们禁用了DeiT-Base中的重复增强，这将导致轻微的性能下降。0.50.950.980510152025120260我们的基线0图6. DeiT基线（第一行）和我们的多样化变体（第二行）之间的注意力图（即亲和矩阵A）的比较。0基线我们的0图7.DeiT基线（第一行）和我们的多样化变体（第二行）的注意力概率，具有24个层（列）和6个头（行），由[16]可视化。注意力图是在ImageNet的100个测试图像上平均计算的。黑色方块是查询像素。放大以获得更好的可见性。0# 选择的 / # 总组件0重构误差0块1 块8块15块220图8.在选择的主成分数量上的权重重构误差。虚线和实线分别表示我们的多样化ViT和其原始版本。较小的误差表示原始权重空间中的冗余性较大。0�补丁嵌入级别。如图3（右）和图A10所示，与基线DeiT相比，我们的多样化DeiT在层内和跨层嵌入方面都显著降低了相似性。图4可视化了从ImageNet中随机选择的图像的所有补丁嵌入（共196个令牌）。我们的方法显示出更多样化的嵌入分布和改进的区分能力。0基线我们的0块2块190图9. Deit基线（第一列）和我们的多样化变体（第二列）的权重主成分（前50个）的t-SNE图。0识别能力。具体而言，左图中的补丁①和②属于两个不同的对象（即人手和狗玩具），并且具有完全不同的视觉内容。然而，基线ViT产生高度相关的补丁嵌入（在图4中几乎完全重叠的点），无法区分它们。幸运的是，我们的多样性感知ViT训练很好地解决了这些嵌入冗余和语义模糊问题。类似的观察可以从补丁对（③，④），（③，⑤），（⑥，⑩）和（⑧，⑨）中得出。�注意力图级别。从图3（右），图A11和图A12以及我们的建议中，我们的方法在层内/跨层注意力头和注意力图内的标准差方面始终达到了增强的多样性。此外，我们提供了说明性的可视化来展示ViT的改进表示灵活性。图5是通过先进的ViT可解释性方法[6]生成的。我们方法的热图显示了更多样化和准确的关注点。具体而言，我们的方法将注意力集中在更多的焦点上，这些焦点分布在整个图像上。Other - Mixing LossWithin-layer EmbeddingCross-layer EmbeddingAttention MapsWeight✓✗✗✗✗79.99✓✓✗✗✗80.12✓✗✓✗✗80.13✓✓✓✗✗80.43✓✓✓✓✗80.53120270表2.多样性正则化的不同组合的消融实验。在DeiT-Small和ImageNet上进行实验，并报告top-1测试准确率（%）。0消融 ↓0准确率0无：DeiT-Small � � � � � 79.780多样性正则化0所有层级的多样性 � � � � � 80.610像头部、腿部和主体一样的对象。图6可视化了注意力亲和矩阵A。我们发现，与基线ViT相比，我们多样化的ViT训练的注意力图变得不那么均匀，并显示出更强的局部模式，这提供了我们有益的多样性正则化的另一种可能解释。最后，图7解剖了某些查询像素的细粒度注意力行为，其中我们的方法显示出更多样化的注意力响应，特别是在ViT的后几层。�权重级别。如图3（右）和图8所示，给定一定数量的选定主成分，多样化的ViT在几乎所有变压器层上都具有显著较大的重构误差，这意味着消除了权重冗余并改善了代表性能力。在图9中展示了一致的观察结果，我们的多样化ViT可以广泛地在2维空间上跨越其权重主成分。04.3. 切除研究0多级与单级多样性。为了验证不同级别的多样性正则化方法的效果，我们对DeiT-Small在ImageNet上进行了递增评估。实验结果如表2所示。我们观察到：（i）多样化补丁嵌入带来了最大的准确性提升（约0.4%），其他两个级别的贡献相似（约0.1%）。值得一提的是，如果只采用层内或跨层嵌入多样性正则化，只能获得约0.1%的准确性提升，而将它们结合起来则会带来额外的性能提升。（ii）减少补丁嵌入、注意力图和权重的三级冗余建立了更优越的性能，这验证了多级多样性与单级多样性相比的有效性。（iii）以前有用的数据级多样化，即来自[23]的混合损失，可以很容易地插入我们的训练框架，并在提高ViT的泛化能力方面发挥补充作用。有关混合损失的更多细节，请参阅附录A1。0如何选择不同的多样性正则化方法。如第3节所讨论的，有各种正则化器选项-0表3.对不同类别的多样性正则化进行切除研究。在ImageNet上对DeiT-Small进行实验，报告了top-1测试准确率（%）。0DeiT-Small (79.78) 权重注意力嵌入0相似性正则化0余弦 N.A. 79 . 95 80.200对比 69 . 98 80 . 110均匀性正则化0MHS 80.05 N.A. 80 . 100MGD 79 . 96 79 . 920正交正则化0CondO 80 . 01 79 . 90 79 . 960SO 79 . 80 80.03 80 . 090我们在我们多样化的ViTs中为不同级别的正则化提供了详细的比较。我们对这六种正则化方法进行了全面的比较。N.A.表示由于设计动机不匹配，在某些级别上不适用。从表3中可以看出，首先，我们发现以对比的方式限制逐层注意力图可能过于激进，会损害性能。而补丁嵌入更容易实现多样化，所有检查的正则化方法在嵌入级别上都提升了ViT的性能。其次，与严格的正交正则化相比，超球面均匀性更受ViTs的权重级别的青睐。最后，在注意力级别上，SO优于其他选择。一个可能的原因是正交注意力图不仅享受到了无限制的表示灵活性，而且由于减小的Lipschitz常数，还稳定和平滑了ViT的训练，正如[72]所建议的。0训练时间分析。由于我们的正则化器计算非常便宜（例如，2步幂迭代），额外的时间开销是适度的，如下所示，每个时期在八个Quadro RTX 6000 GPU上的训练时间。0设置基线 + 嵌入正则化 + 注意力正则化 + 权重正则化 + 全部正则化0训练时间（秒）582 590 595 677 69505. 结论和更广泛的影响0在本文中，我们首次系统地揭示了视觉Transformer中所有令牌嵌入、注意力图和权重层面存在的冗余现象，这限制了ViT的表达能力和灵活性。我们遵循多样性原则解决了这个问题，在ViT训练过程中引入了多样性正则化器。在不同的ViT骨干网络上进行的全面实验表明，配备多样性正则化器可以有效消除冗余表示并实现更好的泛化性能。对于这项工作的局限性，我们只关注视觉Transformer而不是自然语言处理中的通用Transformer，这留给未来的工作。同时，尽管我们的论文具有科学性质，但它可能放大了应用ViT的现有社会风险，因为我们无法控制任何可以访问我们改进的训练算法的人。一个潜在的解决方案是发布许可证并限制滥用。120280参考文献0[1] Martin Arjovsky，Amar Shah，和YoshuaBengio。单元进化递归神经网络。在机器学习国际会议上，页码1120-1128。PMLR，2016年。20[2] Anurag Arnab，Mostafa Dehghani，Georg Heigold，ChenSun，Mario Luˇci´c，和Cordelia Schmid。Vivit:一种视频视觉Transformer。arXiv预印本arXiv:2103.15691，2021年。20[3] Nitin Bansal，Xiaohan Chen，和ZhangyangWang。我们能从正交正则化在训练深度CNN中获得更多吗？arXiv预印本arXiv:1810.09102，2018年。2，40[4] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah，Jared Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell等。语言模型是少样本学习器。arXiv预印本arXiv:2005.14165，2020年。10[5] Nicolas Carion，Francisco Massa，GabrielSynnaeve，Nicolas Usunier，Alexander Kirillov，和SergeyZagoruyko。端到端的目标检测与Transformer。在欧洲计算机视觉会议上，页码213-229。Springer，2020年。1，20[6] Hila Chefer，Shir Gur，和LiorWolf。超越注意力可视化的Transformer可解释性。在计算机视觉和模式识别IEEE/CVF会议论文集中，页码782-791，2021年。6，70[7] Chun-Fu Chen，Quanfu Fan，和Rameswar Panda。Crossvit:用于图像分类的跨注意力多尺度视觉Transformer。arXiv预印本arXiv:2103.14899，2021年。50[8]陈德利，林彦凯，李伟，李鹏，周杰，孙栩。从拓扑视角测量和缓解图神经网络的过度平滑问题。在人工智能AAAI会议论文集中，第34卷，页码3438-3445，2020年。30[9] Hanting Chen，Yunhe Wang，Tianyu Guo，Chang Xu，YipingDeng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu，和WenGao。预训练图像处理Transformer。arXiv预印本arXiv:2012.00364，2020年。20[10] Mark Chen，Alec Radford，Rewon Child，JeffreyWu，Hee- woo Jun，David Luan，和IlyaSutskever。从像素开始的生成式预训练。在Hal Daum´eIII和AartiSingh编辑的第37届国际机器学习会议论文集中，机器学习研究论文集的第119卷，页码1691-1703。PMLR，2020年7月13日至18日。1，20[11] Tianlong Chen，Yu Cheng，Zhe Gan，Lu Yuan，LeiZhang，和ZhangyangWang。追求稀疏性在视觉Transformer中的应用：一种端到端的探索。神经信息处理

下载后可阅读完整内容，剩余1页未读，立即下载