视觉变换器对对抗样本的鲁棒性研究

200 浏览量更新于2023-10-16 收藏 654KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7838视觉变换器对对抗样本的鲁棒性研究Kaleel Mahmood美国康涅狄格大学计算机科学与工程系，邮编：06269kaleel. uconn.eduRigel Mahmood美国康涅狄格大学计算机科学与工程系Marten van DijkCWI，阿姆斯特丹荷兰摘要基于注意力的网络的最新进展表明， VisionTransformers可以在许多图像分类任务上实现最先进或接近最先进的结果这使得变压器处于独特的位置，成为传统卷积神经网络（CNN）的有前途的替代品。虽然 CNN 已经被仔细研究了对抗性攻击，但 VisionTransformers却不能这么说。在本文中，我们研究了视觉变换器对对抗性示例的鲁棒性。我们对Transformer安全性的分析分为三个部分。首先，我们在标准白盒和黑盒攻击下测试Transformer。其次，我们研究了CNN和transformer之间对抗性样本的迁移能力。我们表明，对抗性的例子不容易在CNN和变压器之间转移。基于这一发现，我们分析了CNN和变压器的简单集成防御的安全性。通过创建一个新的攻击，自注意混合梯度攻击，我们表明，这样的合奏是不安全的下，白盒广告。然而，在一个黑盒子的对手，我们表明，合奏可以实现前所未有的鲁棒性，而不牺牲干净的准确性。我们对这项工作的分析是使用六种类型的白盒攻击和两种类型的黑盒攻击。我们的研究包括在CIFAR-10、CIFAR-100和ImageNet上训练的多个VisionTransformers、 Big Transfer Models和CNN1. 介绍对于视觉任务，卷积神经网络（CNN）[20]是事实上的架构[37，19]。对另一方面，在自然语言处理（NLP）中，基于注意力的转换器是最常用的模型之一基于变压器在自然语言处理中的成功，各种作品都试图应用自我注意力（有和没有CNN）图像处理任务[4，36]。特别地，在[12]中，自我注意力转换器的训练是通过处理图像块来实现的。[12]中的训练是独特的，因为在较小的数据集上训练之前，首先在数据集ImageNet-21 K（或JFT）上训练Transformer，以在ImageNet，CIFAR-10和CIFAR-100上实现接近最先进的结果。这些类型的变压器被称为视觉变压器（ViT）[12]。重要的是要注意，相同类型的训练方案可以应用于CNN。在[19]中，他们还提出了在大型数据集（ImageNet-21 K或JFT）上进行训练，并在较小的数据集上进行微调。使用这种方法，CNN还能够在ImageNet，CIFAR-10和CIFAR-100上实现最先进的结果。以这种方式训练的CNN被称为大传输模型（BiT-M）[19]。虽然CNN在视觉任务中很受欢迎，但它们并非没有缺陷。已经有广泛的文献证明CNN容易受到对抗性示例的影响[33，14]。对抗性示例是添加了小扰动的良性输入图像。这种扰动导致CNN以高置信度对图像进行错误分类。一般来说，攻击者使用两种威胁模型之在白盒对手[5]下攻击者可以直接从模型中获取梯度信息来创建对抗性示例。另一种类型的威胁是黑箱对手。在这种情况下，攻击者不知道CNN还表明，使用CNN生成的对抗性示例具有可转移性[28，21，29]。在这里，可转移性是指这样一个事实，即为了欺骗一个CNN而制作的对抗性示例通常也会被其他CNN错误分类。总的来说，CNN具有广泛的7839×∈ǁ − ǁ≤与对抗性攻击[6，11，10]和防御[23，5，34]相关的文献。相比之下，视觉转换器尚未在对抗环境中进行仔细研究。在这项工作中，我们研究了视觉变形金刚的出现如何在这里，我们特别关注基于图像的对抗性攻击。我们的论文组织如下：在第2节中，我们首先讨论一些相关的 NLP 工作。然后，我们将对 Vi- sionTransformers的分析分解为几个相关问题：在白盒对手的情况下，Vision Transformers是否提供了比CNN更好的安全性我们在第3节中通过使用六种标准的白盒对抗机器学习攻击来攻击视觉转换器，大传输模型和传统的CNN（ResNets）来探索这个问题。我们表明，在白盒对手，视觉变形金刚是一样脆弱（不安全）的其他模型。在第4节中，我们进一步深入研究白盒攻击，并提出以下问题：视觉变形金刚和其他模型之间的对抗性例子有多可转移？我们使用八个CIFAR-10 和 CIFAR- 100 模型（包括四个 VisionTransformer，两个Big Transfer Model和两个ResNets）进行了可移植性研究。我们还使用七个模型（三个Vision Transformer ，两个 Big Transfer Model 和两个ResNet）研究了ImageNet Vision Transformer的可转移性。从我们的实验中我们观察到一个有趣的现象。之间的转移视觉变压器和其他非变压器模型- els是出乎意料的低。如何利用可转移性现象来提供安全性？这是我们在第5节和第6节中最后一个问题的主题。我们进一步将这个问题分解为白盒和黑盒分析。首先，我们考虑一个白盒对手。我们开发了一种新的白盒攻击称为自注意混合梯度攻击（SAGA）。使用SAGA，我们表明，它是不可能利用的可转移性现象，以实现白盒安全。然而，实现黑盒安全仍然是可能的。为了证明这一点，我们考虑一个黑盒攻击者，它可以利用传输风格[29]和基于查询的攻击[8]。我们表明，在这种威胁模型下，一个简单的视觉变形金刚和大传输模型的合奏可以实现一个前所未有的鲁棒性水平，而不牺牲干净的准确性。最后，在第7节中，我们给出结论性意见。2. 相关工作已经从 NLP 应用的不利角度很好地研究了Transformer[18，31，17，15]。[18]中的工作分析了两种流行的自我关注架构：（a）用于神经机器翻译的Transformer ，以及（ b ）用于情感和蕴涵分类的BERT，并提出了生成保留语义的更自然的对抗示例的算法。[18]中还提供了理论解释，以支持以下主张：与基于LSTM的架构相比，自关注结构对NLP中的小对抗性扰动更鲁棒[31]中的工作分析了自注意层之间的复杂关系，包括交叉非线性和交叉位置，并开发了变压器的鲁棒性验证算法。作者没有使用大规模的预训练模型，如BERT，因为它们太具有[17]中的工作研究了NLP中的大型预训练Transformer模型，如BERT。[17]的作者提出的一个猜想是，由于Transformer模型是用大量数据预训练的（例如，BERT是在30亿个令牌上训练的还提到的是，也许自我监督训练也可以有助于这种鲁棒性。[15]中的工作提出了一种自我注意归因方法来解释Transformer内部的作者以BERT为例进行实验，识别出重要的注意力头部，并提取每层中最显著的依赖关系，构建属性树。该信息用于提取对抗模式，以实现对BERT的非针对性攻击。因此，如上所述，一个很好的工作主体已经被投票给了针对NLP应用程序的Transformer的对抗性探索。据我们所知，我们是第一个从视觉角度深入分析Transformer的对抗3. 对Vision Transformers的白盒攻击在白盒对手的情况下，Vision Transformers是否提供了比CNN更好的我们通过实验分析Vision Transformers来回答这个问题。从实验开始似乎是不正统的。然而，直接确定Transformer的安全性的最有利的方式是通过攻击和对这些攻击的分析。我们从白盒对手开始，因为它代表了最强大的对手。3.1. 对抗模型、综合分类器与白盒攻击选择对抗模型：在本节中，我们的对手了解模型架构和模型的训练参数。我们假设对手可以扰动原始输入x，以根据x x adv∞ε在一定量ε内创建x adv。对于CIFAR-10和CIFAR- 100，ε=0。031，对于ImageNetε=0。062，其中x 是n × m 彩色图像，使得x[0，1]n×m×3。如果攻击者能够在该界限ε内创建被分类器错误分类的输入xadv（非目标攻击），则攻击者成功当我们测量安全性时，我们通过采取一组由分类器正确识别的干净的测试示例来这样做使用这组干净的示例，我们使用六种攻击之一生成对抗性示例7840然后，我们测量分类器仍然正确识别的示例的百分比。由于Vision Transformers相对较新，因此我们尝试了各种攻击和模型。下面，我们列出了我们使用的攻击和模型。我们也给我们的理由，包括他们在本文中。白盒攻击：我们对我们的模型运行六种不同类型的白盒攻击。我们从最基本的方法之一开始，快速梯度符号法（FGSM）[13]作为鲁棒性的初始测试。我们进一步通过测试更强的多步攻击，动量迭代方法（MIM）[11]和投影梯度下降（PGD）[24]来建立这一点。我们还测试了最新的迭代攻击，它在每次迭代中使用可变步长，自动投影梯度下降（APGD）[10]。除了前面提到的攻击，还有两种其他可能的攻击方向。为了制造极小的、几乎难以察觉的对抗性噪声，Carlini和Wagner（CW）攻击通常是感兴趣的[6]。最后，如果梯度掩蔽或梯度的混淆发生，则一些白盒攻击可能失败[2]。重要的是要注意，这实际上并不意味着分类器是安全的，它仅仅意味着分类器的梯度没有被正确地估计。存在设计用于克服梯度掩蔽的攻击，例如反向通过可微近似（BPDA）[2]。我们在这里使用BPDA来确保梯度掩蔽不会发生在自我注意层或视觉Transformer的任何其他部分中。由于篇幅所限，我们无法在这里详细描述每种白盒攻击我们敦促感兴趣的读者检查补充材料，我们提供了每种攻击的描述。分类器型号：当考虑视觉变换器时，有几种不同类型的模型变体。首先，需要选择Transformer的贴片尺寸。为了测试不同的贴片尺寸，在我们的研究中，我们包括贴片尺寸32（ViT-B-32）和贴片尺寸16（ViT-B-16）。模型中的B是指模型复杂度[12]。B模型包含12层，L模型包含24层。由于模型复杂性是另一个可能影响安全性的因素[24]，因此我们还测试了模型复杂性（ViT-B-16和ViT-L-16）。也可以首先使用自注意力层，然后在顶部使用传统的CNN（ResNet）。该构型表示为ViT-R50。实验- ING跨补丁大小，模型复杂性和混合配置给我们四个视觉Transformer模型。对于大转移模型[19]，我们根据模型复杂性（BiT-M-R50和BiT-M-R101 x3）而变化我们对传统的ResNet（ResNet-56和ResNet- 164 [16]）做同样的事情。总体而言，对于CIFAR-10和CIFAR-100，这为我们提供了总共8个要攻击的模型：ViT-B-32、ViT-B-16、ViT-L-16、ViT-R50、BiT-M-R50、BiT-M-R101 x3、ResNet-56和ResNet-164。对于ImageNet，我们运行上述集合的一个轻微变化，攻击7个模型：ViT-B-16、ViT-L-16（图片尺寸 224 ）、 ViT-L-16 （图像尺寸 512 ）、 BiT-M-R50、BiT-M-R152 x4、ResNet-50和ResNet-152。对于ImageNet，我们主要关注更复杂的模型（例如，测试两种类型的ViT-L-16而不是ViT-B-32）。我们这样做是因为更复杂的 Vision Transformers 更好地指示ImageNet上最先进的性能。我们在补充材料中提供了模型的体系结构和训练参数的完整描述。3.2. 白盒攻击分析我们在表3.1中报告了CIFAR-10和ImageNet的六次白盒攻击的结果。表3.1中报告了鲁棒准确性（分类器正确识别的样本百分比），每种攻击使用1000个示例。对于这组攻击，CIFAR-10和CIFAR-100遵循极其相似的趋势。因此，为了简洁起见，我们提供了我们的CIFAR-100白盒攻击结果的补充材料。总体而言，基于表3.1中的结果，我们可以明确回答本节开始时提出的原始问题。Vision Transformers不提供任何超过大传输模型或传统CNN的额外安全性。我们可以在所有数据集上清楚地看到这一点，表明Vision Transformers没有鲁棒性（即0%）&。同样，视觉变换器在所有数据集上对PGD和MIM攻击的鲁棒性小于6%虽然这一结果似乎是预期的，但它是了解Vision Transformers完整安全性的重要一步既然我们知道Vision Transformer对白盒攻击不健壮，我们可以考虑下一个关于可转移性的重要问题。4. Vision Transformers可转让性研究Vision Transformers创建的对抗性示例的可转移性如何？在第 3 节中，白盒攻击在创建欺骗 VisionTransformers的示例时非常有效我们进一步扩展了以前的分析，现在检查由视觉变换器错误分类的对抗性示例的可转移性这里，可转移性是指被多个（即，多于一个）分类器。对抗性示例的可转移性已经针对不同的CNN架构得到了很好的证明。在文献中，在[33]中首次观察到对抗性示例的可转移性。随后的研究表明，[30]中的MNIST数据集和[22]中的ImageNet数据集上的CNN之间的对抗性示例具有可转移性。然而，据我们所知，目前还没有关于CNN和Visions Transformer之间的可转移性的大规模研究。我们在这一部分对此进行了详细的评价和分析。7841表1.对Vision Transformers、Big Transfer Models和ResNets的白盒攻击。攻击使用l∞范数完成，其中g=0。031，g=0。ImageNet的062。 CIFAR-100的白盒攻击结果遵循极其相似的趋势 CIFAR-10因此，为了简洁起见，补充材料中给出了CIFAR-100白盒攻击结果。在该表中，针对每个对应的攻击给出了鲁棒精度。最后一列CIFAR-10FGSMPGDBPDAMIMC WAPGDACCViT-B-32百分之三十七点九百分之一点八百分之十七点六百分之四点四百分之零点零百分之零点零百分之九十八点六ViT-B-16百分之三十九点五百分之零点零百分之二十点三百分之零点三百分之零点零百分之零点零百分之九十八点九ViT-L-16百分之五十六点三百分之一点二百分之二十八点七百分之五点九百分之零点零百分之零点零百分之九十九点一ViT-R50百分之四十点八百分之零点一百分之十三点四百分之零点二百分之零点零百分之零点零百分之九十八点六BiT-M-R50x166.0%百分之零点零14.9%百分之零点零百分之零点零百分之零点零97.5%BiT-M-R101x385.2%百分之零点零百分之十七点一百分之零点零百分之零点零百分之零点零百分之九十八点七ResNet-5623.0%百分之零点零5.0%百分之零点零百分之零点零百分之零点零92.8%ResNet-16429.0%百分之零点零百分之五点四百分之零点零百分之零点零百分之零点零百分之九十三点八ImageNetFGSMPGDBPDAMIMC WAPGDACCViT-B-16百分之二十三点一百分之零点零百分之七点三百分之零点零百分之零点零百分之零点零80.3%ViT-L-16（224）百分之二十七点九百分之零点零百分之八点四百分之零点零百分之零点零百分之零点零82.0%ViT-L-16（512）百分之二十九点八百分之零点零百分之八点四百分之零点零百分之零点零百分之零点零85.4%BiT-M-R50x1百分之二十八点七百分之零点零百分之三点五百分之零点零百分之零点零百分之零点零79.9%BiT-M-R152x4百分之六十点九百分之零点零百分之十五点二百分之零点零百分之零点零百分之零点零百分之八十五点三ResNet-50百分之十一点八百分之零点零百分之一点四百分之零点零百分之零点零百分之零点零百分之七十四点五ResNet-152百分之十八点一百分之零点零二点七厘百分之零点零百分之零点零百分之零点零77.0%4.1. 测量可转移性形式上，我们可以如下定义非目标可转移性：我们从分类器C1和正确识别的输入/标签对（x，y）开始。攻击A Ci用于生成关于分类器C i的对抗示例x adv：xadv=ACi（x，y）（1）对抗样本xadv被称为从分类器转移到Ci到n-1个其他分类7842nMJCiKKK器，当且仅当：CNN ，我们使用与第 3.1 节中提到的 CIFAR-10 和CIFAR-100相同的8个模型。对于ImageNet，我们也使用了3.1节中列出的7个模型。对于我们的可转移性研究，我们考虑所有可能的分类器对。对于每对分类器（i，j），我们找到一组m=1000个样本，这两个分类器都正确识别。然后，我们使用等式3测量分类器对之间的可转移性重要的是要注意，可转移性测量将受到用于生成对抗性攻击的白盒攻击ACij=1 [{Cj（x）=y}∧{Cj（xadv）/=y}]（2）例子.它已被证明，MIM，PGD和FGSM是很好的候选人，为创造高度可转移的考试-等式2指出每个分类器Cj必须正确地分类。sifyx and must misclassifyxadv. 假设有两个分类器（n=2）和一组m个样本被两者正确分类，我们可以如下定义从Ci到Cj的可转移性：ples [25].因此，对于每对分类器（i，j），我们测试所有三种攻击并报告最高的可转移性结果。对于这些攻击，我们使用与3.1节中描述的相同的ε和l∞范数其他实验细节在我们的补充材料中提供。1Σ。1，如果C（A（x，y））/=y，M k=1在表2中，我们示出了用于以下的可转移性结果：CIFAR-10、CIFAR-100和ImageNet。的顶行分类器之间的高可转移性表明它们对相同的对抗性示例集合具有共享的脆弱性。另一方面，低可转让性可能表明可能的安全途径。这是由于同一组对抗性示例不会被两个分类器错误分类。4.2. 可转移性研究设置正确研究Vision Transformers、Big Transfer Models和传统模型对抗性示例，等式3中的Ci表中的第一列对应于用于预测对抗性示例的标签的模型。第一列中的模型是等式3中的Cj。在i=j的特殊情况下，我们训练模型i的独立副本，以生成CIFAR-10和CIFAR-10的对抗示例。100. 对于ImageNet，由于模型训练的计算成本很高，我们放弃了i = j测量。从我们研究的其他数据集和文献[22]中可以清楚地看到，相同模型（i = j）的副本已经ti，j=（三）0否则。表对应于用于生成7843具有高的可转移性。我们还以图形方式表示了图1中表2的CIFAR-10数据集的结果4.3. 可转移性研究从表2和图1中，我们可以看到一个非常有趣的现象。Vision Transformer和Big Transfer Model之间的可移植性例如，考虑ViT-L-16和BiT-M-50 xl。使用BiT-50 x1生成的不利示例在所有数据集上被ViT-L-16错误分类的时间不到16%（5. 7%，15。5%和11. CIFAR-10、CIFAR-100和ImageNet）。同样，不到一半的时间BiT-M-50 x1被使用ViT-L-16生成的对抗性示例愚弄（42. 5%，47. 6%，34。CIFAR-10为3%CIFAR-100和ImageNet）。一般来说，我们可以将 ViT 模型， BiT 模型和ResNets各自视为模型属。一般来说，低传递性现象多发生在模式属之间，而不是模式属内。也就是说，由一个BiT模型生成的对抗性示例可能会转移到不同的BiT模型，但不会转移到ViT模型或ResNet。在视觉上，我们可以看到图1中CIFAR-10X轴表示用于生成对抗性示例的不同模型，并且y轴表示用于评估那些对抗性示例的模型。z轴用于测量可转移性。为了清楚起见，图中的条被颜色编码。绿色、蓝色和浅蓝色条代表不同属型之间的可转移性测量值（绿色为ViT/ResNet可转移性，蓝色为ViT/BiT可转移性，浅蓝色为BiT/ResNet可转移性）。粉红色、红色和橙色条代表相同属的模型之间的可转移性。粉红色是ViT模型之间的可转移性，红色是BiT模型之间的可转移性，橙色是ResNet模型之间的可转移性。重要的是要注意，虽然低可转移性现象是普遍观察到的趋势，但它不是绝对的例如，ImageNet的BigTransfer模型（BiT-M-R50 x1和BiT-M-152 x4）之间的可移植性为也相对较低（28%和24. 9%）。然而，最重要的因素是低可转移性现象确实发生在多个数据集和多个不同的模型对上这些观察的有用性可能不会立即显现出来。然而，它们具有严重的安全影响，我们将在下文详细阐述。5. 白盒安全性和可转移性如何利用可转移性现象来提供安全性？从第4节中，我们知道不同模型属之间的对抗性示例的可移植性通常较低。因此，我们建议测试不同模型的集合作为防御。进一步明确图1. CIFAR-10的表2的视觉表示。X轴对应于用于生成对抗性示例的模型。y轴对应于用于评估对抗性示例的模型。z轴测量两个模型之间的可转移性根据两个模型对条进行颜色编码粉红色、红色和橙色条表示相同属的模型之间的可转移性。绿色、蓝色和浅蓝色条表示不同属种的模型之间的可转移性测量最初的问题，我们把它分成两部分：集合防御可以提供针对白盒对手的安全性吗？集合防御可以提供针对黑盒对手的安全性吗？在本节中，我们通过提出一种新颖的攻击来回答白盒问题，该攻击同时破坏变压器和CNN。在第6节中，我们研究了黑盒问题。我们首先定义我们的基本情况集合防御。集成模型：在本文中，我们已经检查了多个VisionTransformer，Big Transfer Model和ResNets。最简单的集成将是从该组中选择两种类型的分类器因此，作为基本情况，我们使用最复杂的BiT模型和ViT模型。对于CIFAR-10和CIFAR-100数据集，系综由ViT-L-16和BiT-M-101 x3组成。对于ImageNet，该集成由ViT-L-16（图像大小为512）和BiT-M-152 x4组成在这里，我们不考虑ResNets，因为它们的准确性明显较低，我们不想支付这样的安全成本。在补充材料中，为了完整起见，我们确实提供了一些ResNet集成实验。集成输出：在我们的集合防御中，有几种可能的方法来组合模型的输出。在这里，我们考虑了文献中常见的三种方法，多数投票[27]，绝对共识[26]和随机选择[32]。多数投票是一种评估对抗性示例的弱方法，因为不是每个分类器都必须被愚弄，导致随着分类器数量的增加，收益递减多数投票的替代方案是绝对共识[26]。在这种情况下，如果-7844表2. CIFAR-10、CIFAR-100和ImageNet的可转移性结果。每个表中的第一列表示用于生成对抗性示例的模型C1。每个表中的顶行表示用于评估对抗性示例的模型Cj。每个条目是使用等式3在三种不同攻击（FGSM、PGD和MIM）上使用Ci和Cj计算的最大可转移性。CIFAR-10ViT-B-32ViT-B-16ViT-L-16R50-ViTBiT-50x1BiT-101x3ResNet-56ResNet-164ViT-B-32百分之九十五点八84.1%百分之七十五点五百分之三十四点九60.8%62.0%18.6%百分之十九点九ViT-B-1657.1%99.6%88.9%百分之二十二点六43.4%45.0%13.9%14.0%ViT-L-1655.6%百分之七十八点四89.6%30.3%百分之四十二点五百分之四十四点七13.0%百分之十四点八R50-ViT百分之三十九点六58.1%51.5%百分之九十八点三61.0%58.0%百分之二十六点七29.0%BiT-50x1百分之四点五百分之十点九百分之五点七百分之四点七百分之一百百分之五十一点四7.0%9.0%BiT-101x3百分之八点六百分之二十点三百分之十三点七百分之七点二75.9%百分之一百百分之七点八百分之九点三ResNet-56百分之六点六9.0%百分之五点三百分之九点七22.5%百分之十一点八百分之八十五点九百分之八十七点二ResNet-164百分之六点八百分之八点一5.0%百分之九点七22.3%百分之十一点二83.6%百分之八十五点七CIFAR-100ViT-B-32ViT-B-16ViT-L-16R50-ViTBiT-50x1BiT-101x3ResNet-56ResNet-164ViT-B-32百分之九十六点二百分之八十八点五83.6%百分之五十二点二60.5%61.1%14.9%14.0%ViT-B-1671.3%百分之九十九点三百分之九十三点二百分之三十八点六百分之四十四点五百分之四十七点九9.0%百分之七点五ViT-L-16百分之六十七点八88.3%94.2%百分之四十八点一47.6%百分之五十九点九九点五厘R50-ViT百分之五十一点六65.0%百分之六十二点三百分之九十八点九64.1%百分之六十一点二11.0%九点九BiT-50x117.7%25.0%15.5%百分之十八点二百分之一百百分之五十六点五百分之四点九百分之五点二BiT-101x3百分之二十四点九39.0%百分之二十六点三23.5%百分之七十四百分之九十九百分之五点七百分之三点二ResNet-56百分之二十点一22.2%百分之十五点三22.7%31.4%百分之二十一点九70.8%68.9%ResNet-16422.1%百分之二十四点五15.5%百分之二十四点二35.9%26.5%百分之七十四点五百分之七十九点二ImageNetViT-B-16ViT-L-16ViT-L-16（512）BiT-50x1BiT-152x4ResNet-50ResNet-152ViT-B-16+百分之八十九点一百分之三十九点六百分之四十点八百分之二十七点四44.0%40.1%ViT-L-16百分之九十点九+64.5%40.0%百分之二十六点九百分之四十三点七百分之四十点八ViT-L-16（512）28.0%43.4%+百分之三十四点三百分之二十六点三百分之二十八点四百分之二十三点二BiT-50x1九点八厘百分之八点四百分之十一点八+百分之二十四点九百分之二十四点七百分之十八点七BiT-152x4百分之八点二百分之七点六13.5%28.0%+百分之十五点一12.0%ResNet-5023.8%百分之十八点八百分之二十四点七55.3%百分之二十四点四+百分之八十六点七ResNet-152百分之二十五点九22.1%百分之二十六点六百分之五十四点一百分之二十六点八百分之八十九点四+每个分类器不同意相同的类标签，则样本被标记为对抗。绝对共识消除了多数投票的收益递减缺点，尽管代价是干净的准确性。在绝对的共识中，许多干净的样本通常被标记为对抗性[26]。由于这一点，我们使用随机选择在我们所有的合奏防御论文的其余部分。在随机选择中，单个模型被随机选择并用于在运行时评估输入。5.1. 自注意力梯度攻击攻击动机：一种天真的方法是假设，如果只考虑第3节和第4节中的低可转移性结果，则整体防御将提供针对白盒对手的安全性。考虑以下分析：让我们关注ImageNet模型ViT-L-16（图像大小512）和BiT-M-152x4。从第4节中，我们知道白盒MIM攻击在ViT-L-16上具有100%的攻击成功率（0%鲁棒准确度）（参见表2）。现在让我们将一个附加模型BiT-M-152 x4引入到7845具有ViT-L的系综中，16. 从第4节表2中，我们知道对抗性考试-从ViT-L-16生成的样本将仅被BiT-M-152 x4错误分类26。3%的时间。如果我们随机选择ViT-L-16和BiT-M-152 x4，这意味着平均攻击成功率将下降到63。百分之十五似乎我们从仅使用ViT-L-16的0%稳健准确度到36。85%的鲁棒精度，只是通过使用- ING与随机选择的合奏然而，事实并非如此，因为我们使用的对抗性示例仅来自攻击一个模型。我们通过提出一种新的攻击来证明这种类型分析的缺陷，该攻击生成同时被Vision Transformers和CNN错误分类的对抗性示例。我们称这种新的攻击为自注意力梯度攻击（SAGA）。数学描述：为了得到SAGA，我们假设我们在第3节中详细描述的相同白盒对手。这样的对手具有集合防御中的模型和训练参数的知识。SAGA不是完全专注于优化其中一个假设我们给出了具有一组视觉变换器V和一组CNNK的系综。攻击者的目标是从perturba中的x创建一个对抗性的示例xadv7846∈∈AdvAdvx∅AdvAdvAdvl我l我Ⓢ共混Advk（i）AdvvⓈ.YΣΣ被所有成员v V和k K错误分类的边界。我们可以迭代地计算对抗示例，如下所示：百分之一百（i+1）（一）（一）xadv=xadv+εs*sign（Gblend（xadv））（4）其中x（1）=x，ε s是攻击的步长。毛皮-因此，我们定义Gblend（x（i））如下：G（x（i））=Σαk∈KLk+v∈VLvⓈ（五）在等式5中，第一求和是针对集合K中的模型也就是CNNLk/的偏导数图2.自注意梯度攻击的攻击成功率第k次损失函数AdvCNN关于对抗性（SAGA）、对包含一个ViT-L-16模型和一个BiT-M-R101 x3模型（或输入x（i）。每个模型k具有相关联的加权因子。托尔αk在一个更精确的方法中，αk也可以被优化，但这里我们只是将αk作为攻击中的超参数。请注意，没有随机开始的PGD [24]是我们攻击的特殊情况，当V=，K有前-一个元素和一个1=1。然而，当攻击一个系综时，V，因此我们有第二项。在等式5中，第二项1αv φvLv/x（i）用于制作被集合中的视觉变换器错误分类的对抗性示例。这里Lv/x（i）是Transformer相对于对抗输入的损失函数同样，αv是攻击者选择的权重因子，用于平衡不同模型的重点我们还引入了一个额外的术语，它是视觉变形器特有的，φv。项Φv是与系综中的第v使用注意滚出[1]来计算自注意Φv，并且定义为：ImageNet的BiT-M-R152 x4有关每种攻击的完整描述，请参见第5.1节。对于CIFAR-10和CIFAR-100，我们使用Bit-M-R101 x3和ViT-L-16。对于ImageNet，我们使用Bit-M-R152 x4和ViT-L-16。我们还测试了其他三种简单的攻击，在图2中被标记为基本攻击、单PGD攻击和单MIM攻击。基本的攻击是一个组合的模型梯度没有加权系数和自我关注。单一MIM/PGD攻击是对集合的最佳转移攻击，如表2所示。此攻击的主要贡献是证明 Vision Transformer/BigTransfer类型的集合在白盒对手下不安全。这正是图2中所示 SAGA的攻击成功率为74。0%，84. 4%，91。CIFAR- 10，CIFAR-100和ImageNet的集成分别为8%在图2中，我们还显示SAGA优于其他白盒多φv=nl nhl=1i=1（0。5W（att）+0.5I）ΣΣx.（六）对所有数据集的攻击进行建模。为了简洁起见，这里省略了许多细节，例如 SAGA 的超参数选择和对Transformer/ResNet集成的攻击。我们其中nh是每层的注意力头部的数量，nl是注意力层的数量，W（att）是每个注意力头部中的注意力权重矩阵，I是单位矩阵，并且X是输入图像。这种技术考虑了从Transformer的每一层到下一层的注意力流，包括跳过连接的影响。来自同一层内的不同注意力头部的注意力值被平均，并且注意力值在不同层之间递归地相乘。实验结果：我们通过攻击CIFAR-10、CIFAR-100和ImageNet的视觉变换器和大传输模型的简单集合来展示SAGA结果。我们使用1000个干净的正确识别的例子，具有与第3节中描述的相同的攻击参数。1是逐元素Hadamard乘积;（5）和（6）中的x是图像矩阵，并且（5）中的偏导数w.r.t x被表示为矩阵。在补充材料中充分提供这一信息。6. 黑盒安全性和可转移性在本节中，我们将考虑黑盒对抗模型下的可转移性现象及其安全含义。我们再次使用分类器的集合，随机选择，如第5节所述从第5.1节中，我们知道这样的集合对于白盒对手是不安全的。使用像SAGA这样的攻击，对手可以混合不同模型的梯度和变形金刚的自我注意力这导致所有分类器错误分类的对抗性示例的比例很然而，这种类型的攻击严重依赖于对手的白盒能力。如果不知道集合中的模型及其训练的百分之八十60.0%40.0%20.0%0.0%SAGA单 PGD 单MIM基础ImageNet百分之九十一点八56.2%百分之71.6%CIFAR-100百分之八十四点四62.4%百分之百分之七十三点七CIFAR-10百分之七十四百分之五十九点二百分之五十二点五xv（一）Adv7847参数，这种类型的攻击不会起作用。这带来了一种新的可能性。当单个模型梯度对攻击者不可用时，可转移性（通过集成）能否提供安全性？6.1. 黑盒攻击参数与对抗模型对抗模型：在本节中，我们考虑两种主要类型的黑盒对手，基于查询的对手[3]和基于传输的对手[29]。对于基于查询的对手，我们测试了最近的攻击之一，RayS攻击[8]。在这种攻击中，对手通过重复查询防御并相应地调整噪声来生成对抗性示例。对于传输攻击，我们实现了自适应黑盒攻击[26]。这种攻击是最初在[29]中提出的Papernot攻击的更强版本。在这里，攻击者可以访问原始训练数据的百分比，对防御的查询访问在这种攻击中，对手查询防御以获得训练数据的标签。然后，它使用由防御标记的数据来训练独立的分类器（合成模型）。然后对训练的合成模型执行攻击。然后在防御上测试由此产生的对抗性攻击参数：对于所有黑盒攻击，我们使用与第3.1节中描述的相同的基本约束集。对手可以生成的噪声受l∞范数，其中ε=0。对于CIFAR-10/CIFAR-100和λ=0，ImageNet的062。对于RayS攻击，我们给对手的预算是每个样本10，000个对于自适应攻击，我们向对手提供100%的训练数据。对于这次攻击中的合成模型，我们使用了在ImageNet-21 K上预训练的ViT-B-32。我们还尝试了基于CNN的合成模型，但这些模型在我们的整体防御中表现不佳。还应该注意的是，100%强度攻击需要大量的计算。因此，我们只显示了自适应攻击的CIFAR-10的结果。对于RayS，我们显示了所有三个数据集的结果。6.2. 黑盒攻击分析在图3中，我们以图形方式显示了RayS和自适应攻击的结果我们考虑三种不同的模型配置。我们测试了一个视觉转换器（ViT-L-16）和一个大转换模型（用于CIFAR-10/CIFAR-100的BiT-M-101 x3和用于ImageNet的 BiT-M-152 x4我们还测试了单个ViT-L模型和单个CNN（ResNet-56用于CIFAR-10/CIFAR-100，ResNet- 50用于ImageNet）。虽然有点多余，但我们确实在补充材料中测试了其他集合配置（和单个大转移模型），供感兴趣的人使用。鲁棒准确性（对抗样本的百分比）百分之一百百分之八十60.0%40.0%20.0%百分之零点零图3.黑盒攻击下不同模型配置的鲁棒准确性（越高越好）这里 ViT/BiT 是包含 Vision Transformer （ ViT-L-16 ）和 BigTransfer Model（BiT-M-101 x3用于CIFAR-10/CIFAR-100，Bit-M-R152 x4用于ImageNet）的集合。由防御方直接识别），如图3所示。在这里，我们观察到我们的论文最重要的结果：包括视觉转换器和大传输模型

下载后可阅读完整内容，剩余1页未读，立即下载