金字塔对抗训练提高ViT性能

19 浏览量更新于2023-10-26 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13419金字塔对抗训练提高ViT性能Charles Herrmann*Kyle Sargent*Lu Jiang Ramin ZabihHuiwen Chang Ce Liu<$ Dilip Krishnan Deqing Sun GoogleResearch摘要积极的数据扩充是Vision Transformer（ViT）强大泛化能力一种这样的数据增强技术是对抗训练（AT）;然而，许多先前的工作[28，45]表明，这通常会导致较差的干净准确性。在这项工作中，我们提出了金字塔对抗训练（PyramidAT），一个简单而有效的技术，以提高ViT我们将其与“匹配”的类似于AdvProp [61]对CNN的改进（不直接适用于ViT），我们的金字塔对抗训练打破了ViT和相关架构的分布准确性和分布鲁棒性之间的权衡。它导致1。当仅在ImageNet-1 K数据上训练时，ViT-B模型的ImageNet清理准确性绝对提高了82%，同时提高了7个ImageNet鲁棒性指标的性能，绝对数值范围从 1. 76% 对 15 百分之六十八我们为ImageNet-C（41.42 mCE），ImageNet-R（53.92%）和ImageNet-Sketch（41.04%）设置了一个新的最新技术水平，没有额外的数据，只使用ViT-B/16骨干和我们的金字塔对抗训练。我们的代码可在pyramidat.github.io上公开获取。1. 介绍人类智能的一个迷人的方面是能够从有限的经验中归纳出新的环境。虽然深度学习在模拟或卷积神经网络（CNN）可能无法对具有挑战性上下文的图像进行分类[22]，不寻常的颜色和纹理[16，19，58]以及常见或对抗性腐败[17，20]。为了在现实世界中的各种任务上可靠地部署神经网络，我们必须*同等贡献，按顺序排列。†目前隶属于Microsoft Azure AI。图1.上图：我们学习的多尺度金字塔扰动的可视化。我们显示原始图像，多尺度的扰动金字塔，和扰动图像。下图：我们展示了分布内和分布外数据集的缩略图，以及在每个数据集上应用我们的技术所获得的收益。(Note更低的是更好的ImageNet-C。提高其对分布外数据鲁棒性。一个主要的研究方向是网络设计。最近，VisionTransformer（ViT）[14]及其变体[2，32，46，55]已经推进了以下方面的技术水平：各种计算机视觉任务。特别是，ViT模型比类似的CNN架构更强大[36，38，49，49]。由于弱归纳偏差和强大的模型容量，ViT在很大程度上依赖于强大的数据增广和正则化来实现更好的泛化[51，55]。为了进一步推动这个信封，我们探索使用对抗训练[29，65]作为一个强大的正则化器来提高ViT模型的性能。先前的工作[56]表明，在分布泛化和对抗性示例的鲁棒性之间存在性能权衡。类似的权衡已经13420在分布内和分布外泛化之间观察到[45，65]。这些权衡主要是在CNN的背景下观察到的[7，45]。然而，最近的研究表明，这种权衡是可以打破的。AdvProp [61]通过对抗训练（缩写为AT）实现了这一点，其中包含Batch Normalization的[24] 效率网[53]。在我们的工作中，我们证明了新引入的视觉Transformer架构可以打破这种权衡[14]。我们引入了金字塔对抗训练（缩写为PyramidAT），它用在多个空间尺度上改变的输入图像来训练模型，如图1所示;金字塔攻击旨在以结构化、受控的方式对图像进行大的编辑（类似于增强亮度），并以灵活的方式对图像进行小的编辑（类似于像素对抗）。使用这些结构化的、多尺度的对抗性扰动，与基线和标准像素方式的对抗性扰动相比，导致显著的性能增益。有趣的是，我们看到了干净（分布内）和健壮（分布外）准确性的这些收益。我们进一步增强了金字塔在tack与额外的正则化技术：“匹配”辍学和随机深度。Matched Dropout对小批量中的常规样本和对抗样本使用相同的Dropout配置随机深度[23，51]随机丢弃网络中的层，并在匹配时提供进一步的提升，并与匹配的丢弃和多尺度扰动配对。我们的消融研究证实了与金字塔对抗训练结合使用时匹配脱落的重要性。它们还揭示了对抗训练、攻击手段和网络能力之间复杂的相互作用我们还表明，我们的方法适用于各种规模的数据集（ImageNet-1 K和ImageNet-21 K）和各种网络架构，如ViT [14]，离散ViT [37]，ResNet [18]和MLP- Mixer [54]。我们的贡献概述如下：• 据我们所知，我们似乎是第一个证明对抗训练可以提高ImageNet [12]和分布外ImageNet鲁棒性数据集[16，19，20，22，58]上的ViT模型性能的人• 我们证明了匹配的Dropout和随机深度对于ViT对抗训练• 我们设计了金字塔对抗训练来生成多尺度、结构化的对抗扰动，这比非对抗基线和具有像素扰动的对抗训练实现了显著的性能提升• 我们为 ImageNet-C 、 ImageNet-R 和 ImageNet-Sketch建立了一个新的技术水平，而无需额外的数据，只使用我们的金字塔对抗训练和标准ViT-B/16骨干。我们通过引入额外的ImageNet-21 K数据来进一步改进我们的结果。• 我们进行了大量消融，突出了对性能增益至关重要的几个要素。2. 相关工作在对抗性示例和推广到非对抗性但移动的分布的背景下，存在大量关于测量和改进深度学习模型的鲁棒性的工作。我们定义了分布外准确性/鲁棒性，明确表示模型对非对抗性分布变化的性能，对抗性准确性/鲁棒性表示对抗性示例的鲁棒性的当评估是在从同一个数据集上提取的数据集上执行时，我们称之为干净的准确性。对抗性训练和鲁棒性对抗性示例的发现[52]激发了大量关于对抗性攻击和防御的文献[1，6，29，35，40、43、44、60]。在许多提出的防御中，对抗训练[29，35]已经成为一种简单，有效，但昂贵的方法来使网络对抗鲁棒性。尽管一些工作[56，65]建议在对抗性和分布外稳健性或干净准确性之间进行权衡，但其他分析[7，45]表明同步改进是可以实现的。在[39，45]中，作者注意到干净和反向扰动数据的准确性都有所提高，尽管仅在较小的数据集（如CIFAR-10 [27]和SVHN [42]）上，并且仅通过使用额外的数据将问题扩展到半监督设置。类似地，在NLP中，对抗性训练导致机器翻译的准确性提高[8，9]。与我们的工作最密切相关的是[61]的技术，它展示了对抗训练在提高干净准确性和分布外鲁棒性方面的潜力。他们主要关注CNN，并提出了分割批规范，以单独捕获小批中干净和反向扰动样本的统计数据。在推理时，与逆向扰动样本相关的批范数被丢弃，所有数据（假定为干净或分布外）流经与干净样本相关的批范数。他们的结果在EfficientNet [53]和ResNet [18]架构上得到了证明。然而，他们的方法并不直接适用于批量规范不存在的ViT。在我们的工作中，我们提出了新的方法，并发现正确构建的对抗训练有助于ViT模型的准确性和分布外ViT ViT模型的鲁棒性已被发现比CNN更具对抗性鲁棒性[41，49]，并且更不稳定。13421DBδ∈P.x=CxP重要的是，在ImageNet分布外鲁棒性基准上，比具有类似模型容量的CNN更好地推广[49]。虽然现有的作品集中在分析的原因，ViT的优越的推广，这项工作的目的是进一步提高强大的分布鲁棒性的ViT模型。一种有前途的方法是数据增强;如最近所示[51，55]，ViT受益于强大的数据增强。然而，ViT [51，55]中使用的数据增强技术在ImageNet上针对干净的准确性进行了优化与以往的工作不同，本文的重点是提高清洁精度和鲁棒性的ViT。我们表明，我们的技术可以有效地补充强大的ViT增强[51]。我们还验证了我们提出的增强可以使其他三种架构受益：ResNet [18]，MLP混合器[54]和离散ViT [37]。数据增强现有的数据增强技术，虽然主要是为CNN开发的，但可以很好地转移到ViT模型[10，21，59]。其他工作研究了更大的结构化攻击[60]。我们的工作是从以前的工作不同，因为我们利用对抗训练，以增强ViT和定制我们的设计ViT架构。据我们所知，我们似乎是第一个证明对抗性训练在干净和分布外准确性方面大大提高了ViT性能的人。3. 方法我们在监督学习设置中工作，其中我们给出了由干净图像组成的训练数据集，表示为x及其标签y。所考虑的损失函数是交叉熵损失L（θ，x，y），其中θ是ViT模型的参数，具有权重正则化f。基线模型最大限度地减少了以下损失：E（x，y）<$D<$L（θ，x<$，y）+f（θ）<$，（1）其中x是指干净样本x的数据增强版本，我们采用[51]中的标准数据增强，例如RandAug [10]。3.1. 对抗训练对抗训练的总体训练目标[57]如下所示：的Eqn。二、这个目标试图提高网络的最坏情况下的性能w.r.t.扰动;因此，得到的模型具有较低的清洁精度。为了解决这个问题，我们可以使用以下目标在干净和不利的图像上训练[17，29，61]E （ x ， y ） <$D<$L（ θ ， x<$， y ）+λmaxL（ θ ，x<$+δ，y）+f（θ）<$，（3）该目标使用对抗性图像作为规则化或数据增强的一种形式，以迫使网络向某些在分布外数据上表现良好的表示。这些网络表现出一定程度的鲁棒性，但仍然具有良好的清洁精度。最近，[61]提出了一种拆分批处理范数，可以在干净和强大的ImageNet测试数据集上为CNN带来性能增益。请注意，他们不关心对抗鲁棒性，我们在本文中也不关心。3.2. 金字塔对抗训练逐像素对抗图像被定义为[29] xa= x+δ，其中扰动分布P由剪切函数C B组成，该剪切函数CB将每个像素位置处的扰动剪切到指定的球（）内，对于指定的lp范数[35]，扰动的最大半径为。动机对于逐像素对抗图像，增加Eqn中的内循环的步长或步长的值。3最终导致清洁精度下降（图2）。从概念上讲，像素攻击非常灵活，如果能够进行大的更改（在L2距离上），可以破坏正在分类的对象;使用这些图像进行训练可能会损害网络。相比之下，增强，如亮度，可以导致大的L2距离，但将保留对象，因为它们是结构化的。我们的主要动机是设计一种两全其美的攻击：一个低幅度的灵活组件和一个高幅度的结构化组件;这种攻击可以导致大的图像差异，同时仍然保持类身份。方法我们提出了金字塔对抗训练（PyramidAT），它通过在多个尺度上对输入图像进行扰动来生成对抗示例这种攻击更灵活，也更结构化，因为它由多个尺度组成，但扰动在每个尺度上都受到约束。E（x，y） maxL（θ，x∈+δ，y）+f（θ）∈（2）一1s∈ Ss（δs）δ∈P其中C是保持图像其中δ每像素、每颜色通道的加性扰动，B1在正常范围内，S是标度的集合，是的分布，是微扰分布。请注意，广告图像xa 是givenbyx+δ，并且我们在下面可互换地使用这通过在最大化内优化目标来计算扰动δ尺度s的乘法常数，δs是学习的扰动（具有与x相同的形状）。对于尺度s，δs中的权重由大小为s×s的正方形区域中的像素共享，左上角[s·i，s·j]，对于所有离散i∈[0，width/s]，13422∈ΣΣMMj[0，height/s]，如图1所示。注意，类似于像素AT，图像的每个通道被独立地扰动。参数设置的更多细节在第4节中给出，伪代码包含在附录中。设置攻击对于像素和金字塔的攻击，我们使用投影梯度下降（PGD）在随机标签上使用多个步骤[35]。关于损失，我们观察到，对于ViT，最大化真实标签的负损失导致积极的标签泄漏[29]，即，该网络学习预测对抗性攻击，并在扰动图像上表现得更好。为了避免这种情况，我们选择一个随机标签，然后最小化该随机标签的softmax交叉熵损失，如[29]所述3.3. “Matched” Dropout and StochasticViT模型的标准训练使用Dropout [50]和随机深度[23]作为正则化器。在adversar- ial训练期间，我们在一个小批次中同时使用干净样本和adversar- ial样本。这就提出了一个关于对抗训练（像素或金字塔）中Dropout处理的问题。在对抗训练文献中，通常的策略是在不使用Dropout或随机深度的情况下运行对抗攻击（以生成对抗样本）。然而，这会导致在使用干净训练路径和对抗训练路径时，在亏损中，3），使用Dropout训练的干净样本和没有Dropout的对抗样本。对于mini-batch中的每个训练实例，clean分支将仅更新网络的子集，而adversarial分支将更新整个网络。因此，对抗分支更新在评估期间与模型性能更紧密地对齐，从而以牺牲干净的准确性为代价提高对抗准确性该目标函数如下所示：4.1. 实验装置模型我们主要关注ViT-B/16 [14]，这是一种贴片大小为16的基线ViT。我们还证明我们在其他网络架构上的技术，如ViT-Ti/16，ResNet [18]，MLP-Mixer [54]和最近的Discrete ViT [37]。数据集我们在ImageNet-1 K和ImageNet-21 K上训练模型[12，48]。我们评估了另外两个变体的分布性能：ImageNet-ReaL [4]重新标记原始ImageNet的验证集以纠正标记错误; ImageNet-V2 [47]收集ImageNet评估集的另一个版本我们在6个数据集上评估了分布外鲁棒性：ImageNet- A [22]将ImageNet对象放置在不寻常的环境或方向中; ImageNet-C [20]应用了一系列损坏（例如运动模糊，雪，JPEG等）;ImageNet-Rendition [19]包含对象的抽象或渲染版本; ObjectNet [3]由大量不同背景，旋转和成像视点的大型真实世界集合组成;ImageNet-Sketch [58] 包含对象的艺术草图 ; StylizedImageNet [16]处理ImageNet图像，并从不相关的源图像进行样式转移。为了简洁起见，我们可以将ImageNet称为IM。对于除IM-C之外的所有数据集，我们报告了top-1准确度（越高越好）。对于IM-C，我们报告标准的在[51]之后，我们在所有实验中使用4096的批量大小，前10k步线性预热的余弦衰减学习率计划（0.001量级）[34]和AdamW优化器[26]Aug和正则化包括默认设置为（2，15）的RandAug [ 10 ]，概率为0的Dropout[ 50 ]。1，概率为0的随机深度[23]。1.一、我们使用Jax [5]库Scenic [11]在DragonFish TPU上进行训练。为了生成像素对抗攻击，我们遵循[61]。E（x，y）DL（（θ），xα，y）+λmaxL（θ，xα，y）+f（θ），（5）δ∈P我们使用1/255的学习率，=4/255，并使用SGD进行5我们使用PGD [35]来生成对抗扰动。我们还尝试使用更多的其中，稍微滥用一下符号，（θ）表示具有随机丢弃掩码和随机深度配置的网络。为了解决上述问题，我们提出了具有“匹配”Dropout的ViT的对抗训练我们-为干净和对抗训练分支（以及对抗样本的生成）使用相同的Dropout配置。我们通过第4节中的消融显示，使用相同的Dropout配置可以为干净和强大的数据集带来最佳的4. 实验在本节中，我们比较了我们提出的PyramidAT与非AT模型和PixelAT模型的有效性。最近的优化器[66]来构造攻击（结果在附录中提供）。对于金字塔攻击，我们发现在粗尺度上使用更强的扰动比在所有尺度上使用相等的扰动强度更有效。默认情况下，我们使用3级金字塔并使用扰动比例因子S=[32，16，1]（比例1意味着每个像素具有一个学习参数，比例16意味着每个[16，16]块具有一个学习参数），乘法项为ms=[20，10，1]（参见等式2）。4）.我们对金字塔的所有层次使用裁剪值6s= 6/255。4.2. ViT-B/16的实验结果ImageNet-1 K表1显示了ImageNet-1 K的结果和不含adversar的ViT-B/16模型的鲁棒性数据集。13423ViT [14]72.8278.288.0374.0817.3658.7327.0717.286.41[63]第六十三话75.4980.5314.7564.0721.6162.3728.4717.157.19[64]第六十四话77.7582.9312.1561.7625.6564.7634.9025.979.84[51]第51届中国国际音乐节79.9285.1417.4852.4629.3067.4938.2429.0811.02+随机像素79.7284.7217.8152.8328.7267.1739.0129.2612.11+随机金字塔80.0685.0219.1552.4929.4167.8139.7830.3011.64+PixelAT80.4285.7819.1547.6830.1168.7845.3934.4018.28+PyramidAT（Ours）81.7186.8222.9944.9932.9270.8247.6636.7719.14[51]第51话81.4486.3826.2058.1935.5970.0938.1528.138.36+随机像素81.3286.1825.9558.6934.1269.5037.6628.799.77+随机金字塔81.4286.3027.5557.3134.8370.5338.1229.169.61+PixelAT82.2487.3531.2348.5637.4171.6744.0733.6813.52+PyramidAT（Ours）83.2688.1436.4147.7639.7973.1446.6836.7315.00表1. ImageNet-1 k上的主要结果。所有列都报告前1名的准确性，但ImageNet-C除外，它报告的是平均损坏误差（mCE），其中越低越好。所有型号均为ViT-B/16。第一组行显示了在224×224图像上训练和测试的性能。第二组行显示了在384×384图像上进行微调的性能。[19]第十九话高级道具[61][38]第三十八话独立ViT [37]QualNet [25]我们的（ViT-B/16 +PyramidAT）独立ViT [37]我们的（ViT-B/16 +PyramidAT）额外数据IM-C mCE↓53.60美元52.90美元46.80美元46.20美元42.50美元41.42美元✓38.74✓36.80方法额外数据IM-草图[15]第十五话[32]第32.40页[38]第38话独立ViT [37] 39.10我们的（ViT-B/16 +PyramidAT）41.04独立ViT [37] ¥ 44.72我们的（ViT-B/16 +PyramidAT）46.03表4.与ImageNet上Top-1的最新技术水平比较表2.与ImageNet-C上最新技术水平的平均损坏误差（mCE）比较。额外数据是IM-21 k。方法额外数据IM-再现[19]第十九话✗46.80[38]第三十八话✗48.70独立ViT [37]✗48.82我们的（ViT-B/16 +PyramidAT）✗53.92独立ViT [37]✓55.26我们的（ViT-B/16 +PyramidAT）✓57.84表3.与ImageNet-R上Top-1的最新技术水平比较。额外数据是IM-21 k。通过像素对抗攻击和金字塔对抗攻击进行简单训练。这两种对抗性训练攻击都使用了匹配的Dropout和随机深度，并优化了随机目标丢失。金字塔攻击提供了一致的改进，在清洁和鲁棒性精度，在基线和像素对手。在表1中，我们还比较了CutMix [63]增强。我们发现CutMix在ViT基线上提高了性能，但在与Ran结合时无法提高性能Sketch.额外数据是IM-21 k。dAug.与[33]类似，我们发现CutOut [13]并没有提高我们模型在ImageNet上的性能。我们的技术的鲁棒性增益通过在更高分辨率（384x384）下对干净数据进行微调来保持，如Ta的第二组行所示。表1.此外，对于像素和金字塔模型，对抗性扰动在预训练或微调方面始终优于随机扰动。我们在 IM-1 K 上训练的模型为 IM-C [20] ， IM-Rendition [19]和IM-Sketch [58]设定了新的整体技术水平，如表2，3和4所示。虽然我们在主要实验中在统一的框架下比较了所有模型，但在与最先进的模型进行比较时，我们选择了给定数据集的最佳预处理，微调和Dropout设置。我们还在IM-21 K上与[37]进行了比较，发现我们的结果仍然令人满意。ImageNet-21 K在表5中，我们表明我们的技术在更大的数据集IM-21 K上保持了基线Reg-ViT和像素级攻击的增益。[51]我们方法ImageNet房一C↓OutofDistribObjectNet版本RoV2bustness测试再现不草图程式化13424方法ImageNet RealOut of Distribution RoA C↓ObjectNet V2强度试验风格化的渲染草图ViT-B/16（512x512）84.4288.7455.77 46.6946.6874.8851.2636.7913.44+PixelAT84.8289.1057.39 43.3147.5375.4253.3539.0717.66+PyramidAT（Ours）85.3589.4362.44 40.8549.3976.3956.1543.9519.84表5.在ImageNet-21 K上进行预训练，在ImageNet-1 K上进行微调的主要结果。我们使用前面提到的对抗技术（像素或金字塔）进行预训练，但只对干净的数据进行微调。在IM-21 K上进行预训练，并在IM-1 K上以更高的分辨率进行微调我们只在预训练阶段应用对抗训练。4.3. 消融ImageNet-1 k在其他主干上我们探索了对抗训练在其他三个主干上的效果：ResNet [18]，离散ViT [37]和MLP-Mixer [54]。如表6所示，我们发现结果略有不同。对于ResNet，我们使用[61]中的拆分BN，并显示PyramidAT的其他ResNet变体（-101，-200）显示出相同的趋势，并被包括在补充中。对于离散ViT，我们表明，AT与像素和金字塔导致一般的改善，虽然从金字塔像素的增益是不太一致的ViT-B/16。对于MLP-混合器，我们观察到干净准确性的降低，但Pix-elAT的鲁棒性数据集的增益，类似于传统上从 ConvNets 上的 AT 观察到的。然而，使用PyramidAT，我们观察到所有评估数据集的改进。匹配的丢弃和随机深度我们研究了表7中的干净更新和对抗更新处理丢弃和随机深度的影响。我们发现，将匹配的Dropout应用于干净和对抗性更新对于实现干净和健壮性能的同时增益至关重要。当我们在对抗性更新中消除Dropout时（这一结果似乎类似于[45，65]中提出的通常的权衡。相比之下，仔细处理Dropout和随机深度可以在干净和分布外的数据集中获得性能金字塔攻击设置在表8中，我们消除了金字塔攻击。金字塔攻击始终优于像素或补丁攻击，而3级金字塔攻击往往具有最佳的整体性能。请注意，2级金字塔攻击由像素攻击和补丁攻击组成。请参阅所有指标的比较说明网络容量和随机增强我们测试了网络容量对对抗训练的影响，并与现有文献[28，35]一致，发现大容量对于有效利用PixelAT至关重要。特别是，像ViT-Ti/16这样的低容量网络已经很难表示数据集，通过PixelAT 可以变得更糟表 9 显示 PixelAT 损害了RandAugment 0.4模型的分布内性能，但改善了分布外性能。与以前的工作不同，我们注意到这种效果取决于网络容量和应用于数据集的随机增强。表9显示，如果随机增强的幅度很小，则低容量网络可以从对抗训练中受益。RandAug- ment [10]幅度为0.4（缩写为RAm=0.4）的标准训练比RAm=0.1的标准训练提供更好的干净准确度;然而，具有较弱增强的PixelAT ， RAm=0.1 ，比标准训练或 RAm=0.4 的PixelAT这表明增强应针对对抗性训练进行调整，而不是基于标准训练进行固定。表9还示出PyramidAT与PixelAT作用不同，并且可以提供分布内增益，尽管使用更强的增强。对于这些模型，我们发现对于鲁棒性数据集，PixelAT往往略优于PyramidAT。攻击强度像素攻击在L2范数下比金字塔攻击小得多。我们检查了简单地扩展PixelAT无法实现与图2中的PyramidAT相同的性能。对于ImageNet和ImageNet-C，我们展示了提高像素和金字塔粘性强度的效果。虽然最好的PyramidAT性能是在高L2扰动范数下实现的，但PixelAT性能下降超过一定的范数。4.4. 分析和讨论定性结果在[14]之后，我们可视化了正常训练模型的学习像素嵌入（过滤器），像素对手，以及图中的金字塔3 .第三章。我们观察到PixelAT模型倾向于将其注意力紧紧地虽然这可能看起来是期望的行为，但是这种聚焦对于分布中的数据集（其中背景可以提供有价值的上下文）可能是次优的，并且对于分布外的数据集容易出错具体来说，PixelAT模型可以13425像素80.42 19.15 47.6845.39 34.40贴片81.20 21.33 50.3042.87 33.75二级金字塔81.65 22.79 45.2736.71美元三级金字塔81.7122.9944.9947.66 36.77四级金字塔81.6623.2145.2947.68 37.41方法ImageNet房分布外稳健性测试一C↓ObjectNetV2引渡草图程式化ResNet-50 [18]（我们的运行）76.7083.114.4974.9026.4764.3136.2423.446.41+PixelAT77.3784.116.0366.8827.8065.5941.7527.048.13+PyramidAT77.4884.226.2466.7727.9165.9643.3228.558.83[54]第54话我的世界78.2783.6410.8458.5025.9064.9738.5129.0010.08+PixelAT77.1782.999.9357.6824.7564.0344.4333.6815.31+PyramidAT79.2984.7812.9752.8828.6066.5645.3434.7914.77[37 ]第37话：我的世界79.8884.9818.12 49.4329.9568.1341.7031.1315.08+PixelAT80.0885.3716.88 48.9330.9868.6348.0037.4222.34+PyramidAT80.4385.6719.55 47.3030.2869.0446.7237.2119.14表6.金字塔对抗训练提高了ResNet、MLP-Mixer和离散ViT的性能。在MLPMixer上，像素攻击降低了干净的性能，但提高了鲁棒性，类似于传统上观察到的对抗训练效果。具有匹配Dropout的80.4285.7819.1547.6830.1168.7845.3934.4018.28PixelAT无脱落79.3584.6715.2751.4529.4667.0147.8335.7718.75PyramidAT匹配Dropout81.7186.8222.99 44.9932.9270.8247.6636.7719.14PyramidAT无脱落79.4385.1354.70美元29.6767.4052.3440.2522.34表7.匹配的Dropout在分布数据集上的性能优于不带Dropout的AT表8.金字塔结构消融。这显示了金字塔各层的效果。添加具有较大幅度的较粗糙层通常会提高性能。补丁攻击是一个1级金字塔，在大小为16×16的补丁上共享参数。图2.作为扰动大小函数的干净和稳健数据的性能。金字塔的性能随着扰动大小的增加而增加，而大扰动大小的像素性能较差Ti/16 RAm=0.1+PixelAT63.58 4.80 79.2374.5432.5212.5417.65是物体的一部分而不是整体这可能是prob-lematic用于细粒度分类时，+PyramidAT74.3029.1816.55两个阶级之间的差异可以归结为一些小的东西，Ti/16 RAm=0.478.10 24.9913.47条纹或微妙的形状线索（虎鲨与大白鲨）;+PixelAT62.78 4.0577.6716.35或纹理和背景（绿曼巴对葡萄蛇）。图-+PyramidAT65.61 4.80 74.7216.14图4显示了平均注意力的热图，表9.Ti/16的结果，随机增量较低RAm是RandAugment [10]幅度-随机增强的强度影响PixelAT是否提高了干净的准确性;相反，PyramidAT提供了超过基线的一致性增益。低估物体的大小或形状，年龄在 ImageNet-A 的评估集中。我们观察到，PyramidAT往往比基线和PixelAT更均匀地将其注意力图5展示了基线、PixelAT和PyramidAT模型之间的表示差异。对基线和PixelAT的像素攻击具有少量的结构，但似乎主要由纹理级噪声组成相比之下，PyramidAT的像素级别显示了原始图像中的结构：腿和背分布外稳健性测试方法ImageNet Real一C↓ObjectNetV2格式再现草图方法IM A C↓Rend.草图方法IM A C↓绘制草图13426图6.各种扰动的傅立叶谱热图。原始基线PixelAT PyramidAT图3.不同模型的注意力可视化。pix-elat积极地关注感知到的物体。然而，如果对象没有被正确地识别，则该焦点可以是模糊的，如上面所示，其中对象的大部分被丢弃。PyramidAT使用更全局的视角并考虑上下文。基线PixelAT PyramidAT图4.ImageNet-A上的平均关注度：PyramidAT模型比基线或PixelAT关注更多的图像。图像基线PixelAT PyramidAT图5.攻击的可视化：对基线ViT的像素攻击;对PixelAT ViT的像素攻击;以及对PyramidAT ViT的金字塔攻击的像素级别对基线的像素攻击表现出少量的结构，并且可以用小的变化扰乱标签。PyramidAT模型上的像素级别对结构进行了较大的更改;这表明该表示对半随机噪声具有鲁棒性，并且主要关注结构。的狗。这表明PyramidAT模型的表示侧重于形状，对纹理的敏感性低于基线模型。受[62]的启发，我们从频率的角度分析了金字塔对抗训练。对于此分析，所有可视化和图形都是平均值图7. 当输入被低通/高通滤波噪声破坏时的模型性能。滤波后噪声的L2范数随着带宽的增加而保持恒定。在整个ImageNet验证集上。图6示出像素和金字塔攻击的随机和对抗版本的傅立叶热图。虽然随机像素噪声均匀地集中在所有频率上，但对抗性像素攻击往往集中在较低的频率上。随机金字塔也显示出对低频率的偏好，这一趋势在对抗金字塔中被放大为了进一步探索这一点，我们复制了[62]中的分析，其中将低通和高通滤波的随机噪声添加到测试数据中以干扰分类器。图7给出了我们的基线、像素和金字塔逆向训练模型的结果。虽然像素和金字塔模型通常比基线更鲁棒，但金字塔模型比像素模型对低频扰动更鲁棒。限制我们的技术的成本是增加训练时间。一个k步PGD攻击需要k个向前和向后的传球，每一步的训练.请注意，这个限制适用于任何对抗训练，推理时间是相同的。在没有对抗训练的情况下，更多的训练时间不会改善基线ViT-B/16。5. 结论我们引入了金字塔对抗训练，这是一种简单有效的数据增强技术，可以显著提高ViT和MLP-Mixer架构在分布内和一些分布外ImageNet数据集上的性能。13427引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在国际机器学习会议（ICML）上，第274-283页。PMLR，2018。2[2] 包航波、李东、朴松浩、魏福如。BEit：BERT图像转换器的预训练。在国际会议上学习表示（ICLR），2022年。1[3] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 Christopher Wang 、 Dan Gutfreund 、 JoshTenenbaum和Boris Katz。Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。在神经信息处理系统（ NeurIPS ）的进步，第 32 卷。 CurranAssociates，Inc. 2019. 4[4] 卢卡斯·拜尔，奥利维耶·J·赫纳夫，亚历山大·科列斯尼科夫，翟希奥华，亚伦·范登奥德。我们完成了imagenet吗？arXiv预印本arXiv：2002.05709，2020。4[5] 詹姆斯·布拉德伯里冰霜斯蒂格彼得Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclau-rin、George Necula、Adam Paszke、Jake VanderPlas、SkyeWanderman-Milne 和 QiaoZhang 。 JAX ：Python+NumPy程序的可组合转换，2018。4[6] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。2[7] Yair Carmon ， Aditi Raghunathan ， Ludwig Schmidt ，John C Duchi，and Percy S Liang.未标记数据提高了对抗鲁棒性。神经信息处理系统进展（NeurIPS），第32卷，2019年。2[8] Yong Cheng，Lu Jiang，and Wolfgang Macherey.具有双重对抗输入的鲁棒神经机器翻译。arXiv预印本arXiv：1906.02443，2019。2[9] 陈勇，卢江，沃尔夫冈·马切里，和雅各布·爱森斯坦.Advaug：用于神经机器翻译的鲁棒对抗增强。arXiv预印本arXiv：2006.11834，2020。2[10] Ekin Dogus Cubuk ， Barret Zoph ， Jon Shlens 和 QuocLe。Randaugment：减少搜索空间的实用自动数据增强。In H. Larochelle，M.兰扎托河哈德塞尔M.F. Balcan和 H.Lin ， editors ， Advances in Neu-ral InformationProcessing Systems （ NeurIPS ）， volume 33 ， pages18613Curran Associates，Inc. 2020. 三、四、六、七[11] Mostafa Dehghani，Alexey Gritsenko，Anurag Arnab，Matthias Minderer，and Yi Tay. Scenic：一个用于计算机视觉研究及其他领域的JAX库。arXiv预印本arXiv：2110.

下载后可阅读完整内容，剩余1页未读，立即下载