鲁棒性评估及提升方法对视觉Transformer的研究

86 浏览量更新于2023-10-25 收藏 13.5MB PDF 举报

阿里巴巴集团

EPFL

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0510152070727476788082848605101520102030405060120420走向鲁棒的视觉Transformer0Xiaofeng Mao 1 Gege Qi 1 Yuefeng Chen 1 Xiaodan Li 1 Ranjie Duan 2 Shaokai Ye 30Yuan He 1 Hui Xue 101 阿里巴巴集团 2 斯威本科技大学 3 EPFL0{ mxf164419,qigege.qgg,yuefeng.chenyf,fiona.lxd } @alibaba-inc.com0摘要0最近关于VisionTransformer(ViT)及其改进变体的进展表明，基于自注意力的网络在大多数视觉任务中超越了传统的卷积神经网络(CNNs)。然而，现有的ViT模型只关注标准准确性和计算成本，缺乏对模型鲁棒性和泛化性的内在影响的研究。在这项工作中，我们对ViT的组成部分进行了系统评估，以评估其对抗性示例、常见破坏和分布偏移的鲁棒性影响。我们发现一些组件可能对鲁棒性有害。通过利用鲁棒组件作为ViT的构建模块，我们提出了一种新的视觉transformer，称为RobustVisionTransformer(RVT)，它具有强大的鲁棒性和卓越的性能。在评估过程中的发现启发了我们进一步提出了两种新的即插即用技术，称为位置感知注意力缩放和逐补丁数据增强，以增强我们的RVT，我们将其缩写为RVT*。RVT在ImageNet和六个鲁棒性基准测试中的实验结果表明，与之前的ViT和最先进的CNN相比，它具有先进的鲁棒性和泛化能力。此外，RVT-S*在包括ImageNet-C、ImageNet-Sketch和ImageNet-R在内的多个鲁棒性排行榜上排名第一。01. 引言0随着自然语言处理(NLP)应用中transformer的流行，例如BERT[8]和GPT[30]，人们对于transformer能否成为以卷积神经网络(CNNs)为主导的计算机视觉应用的主要骨干产生了特别的兴趣。最近，VisionTransformer(ViT)[10]成功地将纯transformer应用于分类任务，通过自注意力捕捉长距离依赖关系，实现了令人印象深刻的速度-准确性平衡。基于这项开创性的工作，已经提出了许多改进ViT的变体。0FLOPS(G)0标准准确性(%)0DeiTConViTSwinPVT PiTRVT0FLOPS(G)0鲁棒准确性(%)0DeiTConViTSwinPVT PiTRVT0图1.RVT与基线transformers的比较。图中的鲁棒准确性是在FGSM[11]对抗下记录的。0从不同的角度来看，包含训练数据效率[40]、自注意机制[25]、引入卷积[23, 45, 50]或池化层[20,43]等。然而，这些工作只关注标准准确性和计算成本，缺乏对模型鲁棒性和泛化性的内在影响的研究。在这项工作中，我们首先在图1中对现有的ViT模型进行了实证评估。令人惊讶的是，尽管所有的ViT变体都能够复现论文中声称的标准准确性，但其中一些修改可能会对模型的鲁棒性造成严重破坏。一个生动的例子是PVT[43]，它在标准准确性上取得了很高的成绩，但鲁棒准确性却大幅下降。我们展示了PVT-Small只能获得26.6%的鲁棒准确性，比原始的DeiT-S低14.1%。为了揭示准确性和鲁棒性之间的权衡，我们分析了具有不同补丁嵌入、位置嵌入、变换器块和分类头的ViT模型，这些影响鲁棒性的因素从未被彻底研究过。基于宝贵的发现。120430通过探索性实验揭示的发现，我们提出了一种名为RobustVisionTransformer（RVT）的方法，它在鲁棒性上有显著改进，并且在准确性上也超过了大多数其他变换器。此外，我们提出了两种新的即插即用技术，进一步提升了RVT的性能。第一种是位置感知注意力缩放（PAAS），它在RVT中起到位置编码的作用。PAAS通过过滤冗余和噪声的位置相关性，并仅激活具有强相关性的主要注意力，从而增强模型的鲁棒性。第二种是一种简单通用的基于补丁的数据增强方法，用于补丁序列，它为训练数据添加了丰富的关联性和多样性。基于补丁的数据增强还通过减少过拟合的风险，有助于模型的泛化。通过上述提出的方法，我们可以构建一个增强的Robust Vision Transformer *（RVT*）。本文的贡献有三个方面：0•我们对ViTs进行了系统的鲁棒性分析，并揭示了有害的组件。受此启发，我们将鲁棒组件重新构建为构建块，作为一种名为Robust Vision Transformer（RVT）的新变换器。0•为了进一步改进RVT，我们提出了两种名为位置感知注意力缩放和基于补丁的数据增强的新的即插即用技术。它们都可以应用于其他ViT模型，并在鲁棒性和标准准确性上取得显著的提升。0•在ImageNet和六个鲁棒性基准测试上的实验结果显示，与之前的ViTs和CNNs相比，RVT在标准准确性和鲁棒性之间展现出最佳的平衡。具体来说，RVT-S *0在ImageNet-C、ImageNet-Sketch和ImageNet-R上取得了Top-1的排名。02. 相关工作0鲁棒性基准测试。严格的基准测试对于评估和理解深度模型的鲁棒性至关重要。早期的工作关注在受限扰动的对抗性示例下的模型安全性[11,38]。在实际应用中，图像损坏或分布偏移的现象更为常见。基于此，ImageNet-C[17]对模型进行了针对来自现实世界来源的失真的图像损坏的评估。ImageNet-R [16]和ImageNet-Sketch[42]收集了由自然发生的分布变化（例如图像风格）组成的在线图像，以衡量模型对新分布的泛化能力。在本文中，我们采用所有上述基准作为公正的评估指标。0对CNN的鲁棒性研究。近年来，对CNN的鲁棒性研究经历了爆炸性的发展。许多研究对CNN的鲁棒性进行了彻底的研究，并通过不同的方式来加强它，例如更强的数据增强[16,18, 33]，精心设计[36, 44]或搜索[9,13]网络架构，改进的训练策略[22, 26,47]，权重的量化[24]和修剪[49]，更好的池化[41,53]或激活函数[46]等。尽管上述方法在CNN上表现良好，但没有证据表明它们在ViTs上也同样有效。改进ViTs的鲁棒性的有针对性研究仍然是空白的。对ViTs的鲁棒性研究。到目前为止，有几项工作试图研究ViTs的鲁棒性。早期的工作关注ViTs的对抗鲁棒性。他们发现ViTs比CNNs更具对抗鲁棒性[34]，而在CNNs和ViTs之间的对抗性示例的可转移性非常低[27]。后续的工作[2,29]将ViTs的鲁棒性研究扩展到更常见的图像损坏和分布偏移，并表明ViTs是更鲁棒的学习器。尽管有些发现与上述工作一致，但在本文中，我们不仅仅简单比较ViTs和CNNs的鲁棒性，而是进一步分析ViT及其变体中的详细鲁棒组件。基于这种分析，我们设计了一个鲁棒的视觉变换器，并引入了两种新技术来进一步降低ViT模型的脆弱性。03. 设计组件的鲁棒性分析0我们对ViTs的四个主要组件进行了鲁棒性分析：补丁嵌入，位置嵌入，变压器块和分类头。我们使用DeiT-Ti [ 40]作为基础模型。综合考虑了第2节中提到的所有鲁棒性基准。在大多数情况下，这些基准之间存在正相关性。由于空间的限制，我们在正文中展示了FGSM [ 11]对手下的鲁棒准确性，其他结果在附录A中展示。03.1. 补丁嵌入0F1：补丁的低级特征有助于鲁棒性。ViTs [ 10]通过将图像分割成大小为16×16或32×32的补丁来进行标记化。这种简单的标记化使得模型难以捕捉低级结构，如边缘和角落。为了提取补丁的低级特征，CeiT [ 50 ]，LeViT [12 ]和TNT [ 14 ]使用卷积干而不是原始线性层，T2T-ViT [51]利用自注意力来建模邻近像素之间的依赖关系。然而，这些方法仅关注标准准确性。要回答的问题是低级特征对鲁棒性的影响如何……RemovingCLS tokenConv. stem for patch emb.Patch-wiseaugmentationMulti-stageblocksToken featurepooling…+…………………LinearW𝒑…PAASUsing a suitable head numberConvolutional FFNPatch Emb.LocalConv.CLSAccRob.LinearConv.T2TSAFFNAcc✓✓72.222.3✓✓73.623.2✓✓74.925.4✓✓✓69.121.0✓✓73.931.9✓✓72.428.4120440MHSA*0FFN *0(L-2) × RVT块0分类器0鸟0RVT块 2 ×02 × 2池化0全局平均0池化0RVT* ViT0嵌入到令牌 *0线性0嵌入到令牌0Q K V0�0� softmax �0MHSA0线性0�0�0FFN0Linear10ViT块0图像增强0补丁02 × 2池化0重塑02 × 2卷积0重塑0图像增强 + 补丁0展平0线性投影0[CLS]0MHSA0FFN0L × ViT块0嵌入到令牌0分类器0鸟0分解块0卷积干0补丁增强0嵌入到令牌 *0RVT块0Q K V0�0� softmax �0MHSA*0�0FFN*0Linear1 3 × 3卷积 Linear20Linear20图2. 提出的Robust Vision Transformer (RVT)的整体架构。0对于补丁，我们将原始线性投影与CeiT和T2T-ViT提出的两种新的卷积和令牌到令牌嵌入器进行比较。如表2所示，低级别的补丁嵌入对模型的鲁棒性和标准准确性有积极影响，因为更详细的视觉特征被利用。其中，令牌到令牌嵌入器是最好的，但随着图像尺寸的扩大，它具有二次复杂度。我们采用计算成本较低的卷积嵌入器。0位置嵌入 Acc 鲁棒 Acc0(i) 无 68.3 15.8 (ii) 学习的绝对位置 72.2 22.3 (iii)sin-cos绝对位置 72.0 21.9 (iv) 学习的相对位置 [ 35 ] 71.822.3 (v) 输入条件位置 [ 3 ] 72.4 21.50表1. 不同位置嵌入的效果。我们使用Deit-Ti作为基础模型。03.2. 位置嵌入0F2：位置编码对于学习基于形状偏差的语义特征具有关键作用，这些特征对纹理变化具有鲁棒性。此外，现有的位置编码方法对鲁棒性没有太大影响。我们首先探讨位置嵌入的必要性。之前的研究 [ 3]表明，没有位置嵌入的ViT的标准准确性下降了4%。在这项工作中，我们发现在鲁棒性方面，这个差距甚至可能更大。在附录A中，我们发现没有位置编码，ViT无法识别形状偏差对象，这导致ImageNet-Sketch上的准确性下降了8%。关于位置编码的方式，我们比较了学习的绝对位置、sin-cos绝对位置、学习的相对位置 [ 35 ]、输入条件位置 [ 3]表示。在表1中，结果表明大多数位置嵌入方法的效果相似。0位置编码方法对鲁棒性没有太大影响，甚至有少数方法产生负面效果。特别是，CPE[3]对位置嵌入进行了条件编码。这种条件位置表示使其很容易随输入而改变，导致鲁棒性较差。位置嵌入的脆弱性也激发了我们设计更鲁棒的位置编码方法的动机。0表2. 对其他ViT组件的消融实验，其中 � 表示使用了相应的组件。03.3. 变压器块0F3：构建鲁棒的视觉变压器需要精心设计的多阶段设计。现代CNN始终从具有较大空间尺寸和较小通道尺寸的特征开始，并逐渐增加通道尺寸，同时减小空间尺寸。不同尺寸的特征图构成了多阶段卷积块。正如之前的研究所示[4]，这种设计有助于网络的表达能力和泛化性能。PVT [43]，PiT[20]和Swin[25]将这种设计原则应用于ViTs。为了衡量随着阶段分布的变化而变化的鲁棒性方差，我们稍微修改了DeiT-Ti的架构，得到了五个变体（V2-V6），如表3所示。我们保持变压器块的总数不变V1[0, 0, 12, 0]1.31.172.222.3V2[0, 0, 10, 2]1.21.174.824.3V3[0, 2, 10, 0]1.51.773.822.0V4[0, 2, 8, 2]1.41.776.422.3V5[2, 2, 8, 0]3.46.073.417.0V6[2, 2, 6, 2]3.46.076.417.5120450与12保持一致，并用更小或更大的空间分辨率替换其中的一些。详细架构请参见附录A。通过与DeiT-Ti进行比较，我们发现所有五个变体都提高了标准准确性，受益于分层图像特征的提取。在鲁棒性方面，具有不同空间尺寸的变压器块显示出不同的效果。一个实验性的结论是，当模型包含更多具有较大空间分辨率的变压器块时，其鲁棒性会变差。相反，逐渐减小后续变压器块的空间分辨率有助于鲁棒性的适度提高。此外，我们还观察到，具有更大输入空间尺寸的块数量会增加FLOPs和内存消耗。为了在速度和性能之间取得最佳平衡，我们认为V2是本文中最折中的选择。F4：通过选择适当的头数，可以从注意力头之间的完整性和紧凑性中获益，ConViT [6]，Swin [25]和LeViT[12]都使用更多的自注意力头和较小的键和查询维度，以在可控的FLOPs下实现更好的性能。为了研究头数如何影响鲁棒性，我们使用不同的头数训练DeiT-Ti。一旦头数增加，我们同时减小头维度，以确保整体特征维度不变。与NLP中的一般理解类似[28]，我们发现注意力头之间的完整性和紧凑性对ViTs很重要。如表4所示，鲁棒性和标准准确性在头数增加到8时仍然有很大的提升。我们认为适当数量的头提供了输入的各个方面的关注信息。这种完整且非冗余的关注信息还引入了更细粒度的表示，这些表示容易被具有较少头数的模型忽视，从而增加了鲁棒性。0变体[S1，S2，S3，S4] FLOPs Mem Acc Robust Acc0表3.阶段分布的影响。我们消融了DeiT-Ti中各个阶段（S1，S2，S3，S4）的块数，其中S1是具有最大56×56输入空间尺寸的阶段，并逐渐减少到原始尺寸的一半。GPU内存消耗是在批量大小为64的输入上测试的。0F5：自注意力层的局部性约束可能对鲁棒性有害。传统的自注意力计算所有序列元素之间的成对注意力。但对于图像分类来说，需要关注局部区域。0头数 1 2 4 6 8 120准确率 69.0 71.7 73.1 73.4 73.9 73.5 鲁棒准确率 17.621.4 22.8 24.6 25.2 24.70表4.头数变化对性能的影响。对比训练了头数为1、2、4、6、8和12的DeiT-Ti。0比较关注远程区域。Swin[25]将自注意力计算限制在输入的非重叠局部窗口上。这种硬编码的自注意力局部性具有很高的计算效率，并且与图像大小呈线性复杂度。尽管Swin也可以获得竞争性的准确性，在这项工作中，我们发现这种局部窗口自注意力对模型的鲁棒性有害。表2中的结果显示，将自注意力修改为局部版本后，鲁棒准确性变差。我们认为这种现象可能部分是由于ViTs中长程依赖建模的破坏所致。F6：前馈网络（FFN）可以通过在局部区域编码多个令牌来扩展为卷积FFN。FFN中的局部令牌信息交换使ViTs更加鲁棒。LocalViT [23]和CeiT[50]通过在前馈网络（FFN）中添加深度卷积，将局部区域的连接性引入ViTs。我们在表2中的实验证实，卷积FFN极大地提高了标准准确性和鲁棒性。我们认为原因在于两个方面。首先，与局部自注意力相比，卷积FFN不会破坏ViTs的长期依赖建模能力。ViTs的优点可以被继承。其次，原始FFN只编码单个令牌表示，而卷积FFN编码当前令牌及其邻居。局部区域内的这种信息交换使ViTs更加鲁棒。03.4. 分类头部0F7：对于ViTs来说，分类令牌（CLS）重要吗？答案是否定的，将CLS替换为输出令牌的全局平均池化甚至可以提高鲁棒性。CNN在分类器之前采用全局平均池化层，以整合不同空间位置的视觉特征。这种做法也本质上利用了图像的平移不变性。然而，ViTs使用额外的分类令牌（CLS）进行分类，不具有平移不变性。为了克服这个缺点，CPVT[3]和LeViT[12]移除了CLS令牌，并将其替换为沿着Transformer的最后一层顺序输出的平均池化。我们在表2中比较了使用和不使用CLS令牌训练的模型。结果表明，通过移除CLS令牌可以大大提高对抗性鲁棒性。我们还发现，移除CLS令牌对标准准确性有轻微帮助，这可以从所需的平移不变性中受益。1204603.5. 鲁棒组件的组合0在上述内容中，我们分别分析了ViTs中每个设计组件的效果。为了利用这些发现，我们结合了以下选择的有用组件：1）使用卷积干扰提取补丁的低级特征；2）采用ViTs的多阶段设计，并避免具有较大空间分辨率的块；3）选择适当数量的头部；4）在FFN中使用卷积；5）用令牌特征汇聚替换CLS令牌。由于我们发现上述修改的效果是叠加的，我们将所有这些强大的组件应用于ViTs，得到的模型称为RobustVisionTransformer（RVT）。与其他ViT变体相比，RVT在鲁棒性方面取得了新的最先进水平。为了进一步提高性能，我们提出了两种新技术，即位置感知的注意力缩放和逐补丁数据增强，用于训练我们的RVT。它们都适用于其他ViT模型。04. 位置感知注意力缩放0在本节中，我们介绍了我们提出的位置编码机制Position-Aware AttentionScaling（PAAS），它将点积注意力中的重新缩放操作修改为更通用的版本。首先，我们首先介绍了Transformer中的缩放点积注意力。然后解释了PAAS的修改。0缩放点积注意力。缩放点积注意力是Transformer中多头自注意力层（MHSA）的关键组件。MHSA首先生成一组查询Q ∈ R N × d，键K ∈ R N × d，值V ∈ R N × d0与相应的投影相匹配。然后将查询向量q ∈Rd与K中的每个键向量进行匹配。输出是一组N个基于匹配分数的值向量v的加权和。这个过程称为缩放点积注意力：0注意力(Q, K, V) = Softmax(QKT / √0d) V (1)0为了防止梯度过小并稳定训练过程，QKT中的每个元素乘以一个常数1 √0d需要重新缩放为标准范围。0位置感知注意力缩放。在这项工作中，提出了一种更有效的位置感知注意力缩放方法。为了使点积注意力的原始重新缩放过程具有位置感知性，我们定义了一个可学习的位置重要性矩阵Wp ∈ R N ×N，它表示每对q-k的重要性。原始的缩放点积注意力修改如下：0注意力(Q, K, V) = Softmax(QKT ⊙ (Wp / √0d)) V (2)0自注意力图0PAAS之前0干净示例广告示例0学习到的缩放因子可视化（块1-12）0自注意力图0PAAS之后0图3.顶部：位置感知注意力缩放前后的自注意力可视化。底部：我们的PAAS学习到的缩放因子的可视化。0其中⊙是逐元素乘积。由于Wp与输入无关，仅由序列中每个q，k的位置确定，我们的位置感知注意力缩放也可以作为位置表示。因此，我们在RVT中用PAAS替换了传统的位置嵌入。之后，整体的自注意力可以分解为两部分：QKT项表示基于内容的注意力，Wp / √0d术语作为基于位置的注意力。这种解耦设计通过消除混合和噪声相关性[21]提供了更多的表达能力。0PAAS的鲁棒性。如第3.2节所述，大多数现有的位置嵌入对模型的鲁棒性没有贡献，其中一些甚至产生了负面影响。不同的是，我们提出的PAAS可以有效地提高模型的鲁棒性。这种优越的性能依赖于位置重要性矩阵Wp，它在每个q-k位置对上充当软注意力掩码。如图3所示，我们可视化了第3个查询块中第3个变压器块的注意力图。没有PAAS，对抗性输入会激活一些不相关的区域并产生嘈杂的自注意力图。为了过滤掉这些噪声，PAAS通过Wp中的学习小乘数抑制了与分类无关的冗余位置，最终只激活了对分类重要的区域。我们通过实验证实，PAAS可以对抗一些白盒攻击，例如FGSM[11]。它不仅限于对抗性攻击，还有助于对数据的损坏和超出分布的泛化。详细信息可以参考第6.3节。1204705. 补丁级数据增强0图像增强是ViT特别重要的一种策略，因为ViT的最大缺点是在相对较小的数据集上训练时的泛化能力较差，而这个缺点可以通过充分的数据增强来弥补[40]。另一方面，丰富的数据增强也有助于鲁棒性和泛化能力，这在之前的工作中已经得到验证[18]。为了提高增强训练数据的多样性，我们提出了ViT的补丁级数据增强策略，在训练时对每个输入图像的补丁序列施加多样化的增强。我们的动机来自于ViT和CNN的差异，ViT不仅提取补丁内特征，还关注补丁间的关系。我们认为随机变换整个图像的传统增强可以提供足够的补丁内增强。然而，它缺乏补丁间增强的多样性，因为所有补丁在同一时间具有相同的变换。为了施加更多的补丁间多样性，我们保留原始的图像级增强，然后在每个图像补丁上添加以下补丁级增强。为简单起见，我们只考虑三种基本的图像变换作为补丁级增强：随机调整大小裁剪、随机水平翻转和随机高斯噪声。0补丁级数据增强的鲁棒性。与MixUp[52]、AugMix[18]、RandAugment[5]等增强方式一样，补丁级数据增强也有助于模型的鲁棒性。它对传统的图像级增强后的阶段产生影响，并对补丁序列输入提供有意义的增强。与RandAugment不同，RandAugment采用与ImageNet-C冲突的增强方式，而我们只使用简单的图像变换进行补丁级增强。这证实了鲁棒性改进的大部分来自于策略本身而不是所使用的增强方式。补丁级数据增强的一个显著优势是它可以在不同的ViT模型中通用，并在标准和鲁棒准确性上带来超过1%和5%的改进。详细信息可参见第6.3节。06. 实验06.1. 实验设置0实现细节。我们的所有实验都在NVIDIA 2080TiGPU上进行。我们分别实现了三种大小的RVT，分别命名为RVT-Ti、RVT-S、RVT-B。它们都采用了第2节中调查的最佳设置。对于RVT�，我们在多个Transformer块上添加了PAAS。补丁级数据增强使用了第6.4节介绍的基本增强的组合。其他训练超参数与DeiT[40]相同。0评估基准。我们采用ImageNet-1K[7]数据集进行训练和标准性能评估。对于鲁棒性评估，我们在三个方面测试了我们的RVT：1）对于对抗鲁棒性，我们在ImageNet-1K验证集上测试了由白盒攻击算法FGSM[11]和PGD[26]生成的对抗性示例。ImageNet-A[19]用于评估模型在自然对抗性示例下的表现。2）对于常见的损坏鲁棒性，我们采用包含15种算法生成的5个严重程度级别的损坏的ImageNet-C[17]。3）对于域外鲁棒性，我们在ImageNet-R[16]和ImageNet-Sketch[42]上进行评估。它们包含具有自然发生的分布变化的图像。不同的是，ImageNet-Sketch只包含素描图像，可用于在缺少纹理或颜色信息时测试分类能力。06.2. 标准性能评估0为了进行标准性能评估，我们将我们的方法与包括基于Transformer的模型和代表性的基于CNN的模型在表5中进行了比较。与基于CNN的模型相比，RVT以更少的参数和FLOPs超过了大多数CNN架构。RVT-Ti�在ImageNet-1K验证集上实现了79.2%的Top-1准确率，与目前流行的ResNet和RegNet系列相比具有竞争力，但只有1.3GFLOPs和10.9M参数（比CNN小约60%）。在相同的计算成本下，RVT-S�获得81.9%的测试准确率，比ResNet-50高2.9%。这个结果接近于EfficientNet-B4，但EfficientNet-B4需要更大的380×380输入尺寸，并且吞吐量更低。与基于Transformer的模型相比，我们的RVT也实现了可比较的标准准确性。我们发现只需组合强大的组件就可以使RVT-Ti获得78.4%的Top-1准确率，并超过现有的ViTs小版本的最新技术水平。通过采用我们新提出的位置感知注意力缩放和基于补丁的数据增强，RVT-Ti�可以在很少的额外计算成本上进一步提高0.8%的RVT-Ti。对于模型的其他规模，RVT-S�和RVT-B�与DeiT-S和DeiT-B相比也取得了很好的提升。尽管随着模型容量的增加，改进变得越来越小，但我们认为我们的模型的进步仍然很明显，因为它增强了模型在各种视角（如鲁棒性和域外泛化）上的能力。06.3. 鲁棒性评估0我们使用一系列基准来评估模型在不同方面的鲁棒性。其中，ImageNet-C（IN-C）计算平均损坏误差（mCE）作为指标。mCE越小，模型的鲁棒性越高。N-RIN-SKCNNsResNet-50 [15]4.125.676.186.012.20.976.70.036.124.1ResNet-50∗ [15]4.125.679.094.436.312.565.55.942.531.5Inception v3 [37]5.727.277.493.422.53.180.610.038.927.6RegNetY-4GF [31]4.020.679.294.715.42.468.78.938.825.9EfficientNet-B4 [39]4.419.383.096.344.618.571.126.347.134.1ResNeXt50-32x4d [48]4.325.079.894.634.713.564.710.741.529.3DeepAugment [16]4.125.675.892.727.19.553.63.946.732.6ANT [33]4.125.676.193.017.83.163.01.139.026.3AugMix [18]4.125.677.593.720.23.865.33.841.028.5Anti-Aliased CNN [53]4.225.679.394.632.913.568.18.241.129.6Debiased CNN [22]4.125.676.993.420.45.567.53.540.828.4TransformersDeiT-Ti [40]1.35.772.291.122.36.271.17.332.620.2ConViT-Ti [6]1.45.773.391.824.77.568.48.935.222.4PiT-Ti [20]0.74.972.991.320.45.169.16.234.621.6PVT-Tiny [43]1.913.275.092.510.00.579.67.933.921.5RVT-Ti1.38.678.494.234.811.758.213.343.730.0RVT-Ti∗1.310.979.294.742.718.957.014.443.930.4DeiT-S [40]4.622.179.995.040.716.754.618.942.229.4ConViT-S [6]5.427.881.595.841.017.249.824.545.433.1Swin-T [25]4.528.381.295.533.77.362.021.641.329.1PVT-Small [43]3.824.579.995.026.63.166.918.040.127.2PiT-S [20]2.923.580.995.341.016.552.521.743.630.8TNT-S [14]5.223.881.595.733.24.253.124.743.831.6T2T-ViT t-14 [51]6.121.581.795.940.911.453.223.945.032.5RVT-S4.722.181.795.751.326.250.124.146.935.0RVT-S∗4.723.381.995.851.828.249.425.747.734.7DeiT-B [40]17.686.682.095.746.421.348.527.444.932.4ConViT-B [6]17.786.582.496.045.420.846.929.048.435.7Swin-B [25]15.487.883.496.449.221.354.435.846.632.4PVT-Large [43]9.861.481.795.933.17.359.826.642.730.2PiT-B [20]12.573.882.495.749.323.748.233.943.732.3T2T-ViT t-24 [51]15.064.182.696.146.717.548.028.947.935.4RVT-B17.786.282.596.052.327.447.327.748.235.8RVT-B∗17.791.882.796.553.029.946.828.548.736.0120480表5. RVT和几个SOTA CNN和Transformer在ImageNet和六个鲁棒性基准上的性能。RVT �0代表RVT模型，但使用我们提出的PAAS和逐补丁增强进行训练。除了不同的架构，我们还比较了一些方法，如AugMix，它旨在基于ResNet-50提高模型的鲁棒性。0组模型FLOPs参数ImageNet鲁棒性基准0在损坏情况下。如果没有特殊说明，所有其他基准都使用测试数据的Top-1准确率。结果报告在表5中。对抗鲁棒性。为了评估对抗鲁棒性，我们采用单步攻击算法FGSM [ 11]和多步攻击算法PGD [ 26 ]，步数为t = 5，步长为α =0.5。这两种攻击者都以最大幅度ϵ =1扰动输入图像。表5表明，对抗鲁棒性与模型架构的设计有很强的相关性。在相似的模型规模和FLOPs下，大多数基于Transformer的模型在对抗性攻击下具有更高的鲁棒准确性。这个结论也与[ 34]一致。对ViTs或CNNs进行一些修改也会削弱或增强对抗鲁棒性。例如，Swin-T [ 25]引入了窗口自注意力以降低计算成本，但损害了对抗鲁棒性，EfficientNet-B4 [ 39]使用平滑的激活函数对对抗鲁棒性有帮助。我们总结了ViTs的鲁棒设计经验0在这项工作中，我们的RVT模型在FGSM和PGD攻击者上取得了卓越的性能。具体而言，与以前的ViT变体相比，RVT-Ti和RVT-S在FGSM上的改进超过了10%。我们的PAAS和逐块增强进一步扩大了这一进展。对抗鲁棒性似乎与标准性能无关。尽管像Swin-T、TNT-S这样的模型的标准准确性比DeiT-S更高，但它们的对抗性鲁棒准确性远低于基准线。然而，我们的RVT模型可以在标准性能和对抗性鲁棒性之间取得最佳平衡。0常见的损坏鲁棒性。为了衡量模型在常见图像损坏上的退化情况，我们在表5中提供了ImageNet-C（IN-C）上的mCE。我们还列出了一些来自ImageNet-C排行榜的方法，这些方法是基于ResNet-50构建的。我们的RVT-S�在排行榜中的top-1方法DeepAugment[16]上取得了49.4的mCE，比其改进了4.2，并建立了新的最先进技术。该结果还表明，基于Transformer的模型在处理图像损坏方面具有天然优势。✓78.941.5✓79.141.3✓✓78.841.3120490由于其对长距离依赖建模的能力，ViTs更容易学习到形状偏差特征。需要注意的是，在这项工作中，我们没有考虑RandAugment。作为ViTs的训练增强，RandAugment采用了与ImageNet-C冲突的增强方式，可能导致[1]提出的比较的不公平性。外部分布鲁棒性。我们通过在表5中报告ImageNet-R（IN-R）和ImageNet-Sketch（IN-SK）上的top@1准确率来测试RVT在外部分布数据上的泛化能力。我们的RVT和RVT�在外部分布泛化上也超过了其他ViT模型。由于上述基于Transformer的模型在捕捉形状偏差特征方面的优越性，我们的RVT-S也超过了大多数CNN和ViT模型，并在ImageNet-Sketch和ImageNet-R上获得了35.0%和46.9%的测试准确率，建立了新的最先进技术。0层 Pos. Acc Rob.0嵌入 Acc00-1 原始 78.2 34.10我们的 78.4 34.300-5 原始 78.4 34.60我们的 78.6 35.200-10 原始 78.4 34.80我们的 78.6 35.30表6.单个和多个块PAAS的比较。Ori.代表原始ViTs中学习到的绝对位置嵌入。0增强 Acc Rob. Acc RC GN HF0� 79.0 42.00� � 79.0 41.9 � � � 79.2 41.70表7.逐块增强的消融实验。RC，GN，HF分别表示随机调整大小的裁剪，随机高斯噪声和随机水平翻转。06.4.消融研究0我们在本节中对PAAS和逐块增强的提出组件进行了消融研究。由于已经在第2节中分析了RVT的其他修改，因此不涉及这些修改。我们所有的消融实验都基于ImageNet上的RVT-Ti模型。单层PAAS与多层PAAS。我们评估在多个Transformer块上使用PAAS是否有助于性能或鲁棒性的提升。结果如表6所示。采用了原始ViT模型中学习到的绝对位置嵌入进行比较。使用更多的Transformer块使用PAAS，标准和鲁棒准确性得到更大的提升。在5个块上应用PAAS后，PAAS的好处得到了饱和。如果我们用原始位置嵌入替换PAAS，趋势将是相同的。但是原始位置嵌入在标准和鲁棒准确性上的表现不如我们的PAAS好。不同类型的基本增强。由于训练资源有限，我们只测试了三种基本的图像增强：随机调整大小的裁剪，随机水平翻转和随机高斯噪声。对于随机调整大小的裁剪，我们根据从[0.85,01.0]，然后保持纵横比不变地将其调整为原始大小。我们将均值和标准差设置为0和0.01以进行随机高斯噪声。对于每个转换，我们将应用概率p = 0.1。其他超参数与Kornia[32]中的实现保持一致。如表7所示，我们可以看到两种增强方法都有助于提高标准和鲁棒准确性。其中，随机高斯噪声是更好的选择，因为它有助于提高更多的鲁棒性。基本增强方法的组合。我们进一步评估基于补丁的基本增强方法的组合。对于传统的图像增强，组合多个基本变换[5]可以大大提高标准准确性。不同的是，如表7所示，对于基于补丁的基本增强方法的组合，好处较小，但是三种方法的组合仍然比仅使用单一增强方法更好。在本文中，我们采用了所有基本增强方法的组合。对其他ViT架构的影响。为了展示我们提出的位置感知注意力缩放和基于补丁的增强方法的有效性，我们将它们应用于训练其他ViT模型。我们采用DeiT-Ti，ConViT-Ti和PiT-Ti作为基础模型。实验结果如表8所示，将这些技术组合到这些基础模型中，所有增强模型在标准和鲁棒准确性上都取得了显著的改进。具体而言，所有改进的模型在标准和鲁棒准确性上的提升平均超过1%和5%。0Vanilla Acc Rob. Acc Improved Acc Rob. Acc models models0DeiT-Ti 72.2 22.3 DeiT-Ti � 74.4 29.9 ConViT-Ti 73.3 24.7ConViT-Ti � 74.4 30.7 PiT-Ti 72.9 20.4 PiT-Ti � 74.3 27.70表8.我们提出的PAAS和基于补丁的增强方法对其他ViT架构的影响。07. 结论0我们系统地研究了ViT中关键组件的鲁棒性，并通过交替修改破坏鲁棒性的方法提出了Robust VisionTransformer（RVT）。此外，我们设计了一种新颖的基于补丁的增强方法，为训练数据增加了丰富的关联性和多样性。考虑到缩放点积注意力中缺乏空间信息相关性，我们提出了位置感知注意力缩放（PAAS）方法，进一步提升了RVT的性能。实验证明，我们的RVT在ImageNet和六个鲁棒性基准测试上始终表现出色。在FLOPs、标准和鲁棒准确性之间的详尽权衡下，广泛的实验结果验证了我们的R

下载后可阅读完整内容，剩余1页未读，立即下载