对抗样本的输入多样性提高对抗样本的可移植性

91 浏览量更新于2023-10-19 收藏 903KB PDF 举报

可移植性

攻击方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2730利用输入多样性提高对抗样本的可移植性谢慈航1张志帅1周玉音1宋白2王建宇3周仁4阿兰·尤耶11约翰霍普金斯大学2牛津大学3百度研究4Wormpex AI研究摘要inception-V3inception-V4inception-ResNet-v2Resnet-v2-152尽管CNN在各种视觉任务上都达到了最先进的性能，但它们容易受到对抗性示例的影响-通过向干净的图像中添加人类无法察觉的扰动来制作。然而，大多数的非对抗性攻击只能在具有挑战性的黑盒设置下实现相对较低的成功率，其中攻击者不知道模型的结构和参数。为此，我们建议通过创建不同的输入模式来提高对抗性示例的可移植性。我们的方法不是只使用原始图像来生成对抗性示例，而是在每次迭代时对输入图像应用在ImageNet上进行的大量实验表明，所提出的攻击方法可以生成比现有基线更好地转移到不同网络的对抗性示例。通过对顶级防御解决方案和NIPS2017对抗赛的官方基线评估我们的方法，增强的攻击达到了73的平均成功率。0%，大幅跑赢NIPS竞赛中排名前一的攻击子任务6. 百分之六。我们希望我们提出的攻击策略可以作为一个强有力的基准基线，用于评估网络对对手的鲁棒性和不同的攻击策略的有效性图1. 三种不同攻击的成功率比较。在前5个置信度分布图中，地面实况对抗性示例是在Inception-v3上制作的，最大扰动为15。从第一行到第三行，我们分别绘制了干净图像的前5个置信度分布，FGSM和I-FGSM第四行显示了所提出的多样输入迭代快速梯度符号方法（DI2-FGSM）的结果，该方法成功地攻击了白盒模型和所有黑盒模型不同模型的鲁棒性[1]，并了解当前训练算法的不足[11，17，37]。已经提出了几种方法[11，36，16]未来的防守方式。代码可从https：//github.com/cihangxie/DI-2-FGSM网站。1. 介绍卷积神经网络（CNN）最近的成功导致各种视觉任务的性能显著提高，包括图像分类[15，32，13]，对象检测[10，28，40]和语义分割[22，5]。然而，CNN对输入图像的小扰动非常脆弱，即，人类察觉不到的附加扰动可能导致CNN的失败预测。这些有意制作的图像被称为对抗性示例[36]。学习如何生成对抗性示例可以帮助我们研究来寻找对抗性的例子。一般来说，这些攻击可以根据梯度计算的步数分为两类，即，单步攻击[11]和迭代攻击[36，16]。一般来说，迭代攻击可以实现更高的成功率比单步攻击的白盒设置，其中攻击者有一个完美的知识的网络结构和权重。然而，如果这些对抗性示例在不同的网络上进行测试（在网络结构、权重或两者方面），即，黑盒设置下，单步攻击效果更好。这种折衷是由于迭代攻击倾向于过拟合特定网络参数（即，具有高的白盒成功率）并且因此使得生成的对抗性示例很少转移到其它网络（即，具有低的黑盒成功率），而单步攻击通常不适合网络参数（即，有棒捷豹猎豹雪豹响尾蛇棒棒捷豹猎豹雪豹黑熊猎豹跑步鞋豹虎猫美洲虎猎豹雪豹豹子Lynx豹美洲虎埃及猫老虎猫雪豹埃及猫牛蛙乳头雪豹螺丝刀藤蔓蛇壶螳螂绿曼巴锅鸡青蛇藤蛇跑步鞋步行步行美洲鳄水蛇龟埃及猫罐赤狐美洲鳄猫熊长鼻猴拐杖一锅红狐狸猫熊犰狳美洲鳄科摩多龙猫熊豹牛蛙豹子藤蔓蛇罐螳螂栅栏螳螂壶青蛇藤蛇螳螂卷尾猴小蓝鹭黄色女拖鞋三趾犰狳拐杖拐杖步行拐杖I-FGSMDI2-FGSM清洁FGSM2731低白盒成功率），从而产生具有稍微更好的可转移性的对抗性观察这一现象，一个有趣的问题是，我们是否可以在白盒和黑盒设置下生成具有高成功率的对抗性示例。在这项工作中，我们建议通过创建不同的输入模式来提高对抗性示例的可移植性我们的工作受到数据增强策略[15，32，13]的启发，该策略已被证明可以有效地通过应用一组标签保持变换（例如，缩放、裁剪和旋转）到训练图像。同时，[38，12]表明图像变换在某些情况下可以防御对抗性示例这些转换后的对抗性示例被称为攻击者的硬示例[30，31]，然后可以作为好样本来生成更多可转移的对抗性示例。我们将所提出的输入多样性策略与迭代攻击相结合，例如，[17][19][ 19][19] [19]在每次迭代中，不同于传统的方法，直接将损失函数最大化w.r.t.对于原始输入，我们应用随机和可微变换（例如，随机填充，随机填充）到具有概率p的输入图像，并最大化损失函数w.r. t。这些转换的输入。请注意，这些随机操作以前用于防御对抗性示例[38]，而在这里，我们将它们纳入攻击过程以创建硬而多样的输入模式。图1显示了我们的方法生成的对抗性示例，并将成功率与其他攻击方法进行了比较。白盒和黑盒设置。我们在白盒和黑盒设置下，以及单模型和多模型设置下，在几个网络上测试了所提出的输入多样性。与传统的迭代攻击相比4.2）表明，我们的方法在黑盒模型中获得了更高的成功率，并在白盒模型中保持了类似的成功率。通过评估我们的攻击方法w.r.t.顶级防御解决方案和NIPS 2017对抗赛的官方基线[18]，这种增强型攻击的平均成功率达到73。0%，在NIPS竞赛中以6. 百分之六。我们希望我们提出的攻击策略可以作为评估网络对对手的鲁棒性以及未来不同防御方法的有效性2. 相关工作2.1. 生成对抗性示例已知传统的机器学习算法容易受到对抗性示例的影响[7，14，3]。最近，Szegedy等人[36]指出CNN对对抗性样本也很脆弱，并提出了一种框约束L-BFGS方法来可靠地找到对抗性样本由于[36]中的昂贵计算，Goodfellowet al.[11]提出了快速梯度符号方法，通过执行单个梯度步骤来有效地生成对抗性示例。Kurakin等人扩展了该方法。[16]到迭代版本，并表明生成的对抗性示例可以存在于物理世界中。Dong等人[9]提出了一种广泛的基于动量的迭代算法，以提高对抗性示例的可移植性。可转移性也可以通过同时攻击网络的集合来提高[21]。除了图像分类，对抗性示例还存在于对象检测[39]，语义分割[39，6]，语音识别[6]，深度强化学习[20]等。与人类可以识别的对抗性例子不同，Nguyenet al. [25]生成的欺骗图像与自然图像不同，人类难以识别，但CNN以高置信度对这些图像进行我们提出的输入多样性也与EOT [2]有关。这两部作品在以下几个方面有所不同：（1）我们主要关注具有挑战性的黑盒设置，而[2]则关注白盒设置;（2）我们的工作旨在减轻对抗攻击中的过拟合，而[2]旨在使对抗示例对变换鲁棒，而不讨论过拟合;（3）在每一次攻击迭代中不采用期望步骤，而“期望”是文[ 2 ]的核心思想。2.2. 防御对抗性示例相反，最近提出了许多方法来防御对抗性示例。[11，17]提出将对抗性示例注入训练数据以提高网络鲁棒性。 Tra me`r等人[37]指出，这种对抗性训练的模型仍然容易受到对抗性示例的影响，并提出了集成对抗性训练，它通过从其他模型转移的扰动来增强训练数据，以进一步提高网络的鲁棒性。[38，12]在推理时对输入进行随机图像变换，以减轻对抗效应。Dhillon等人[8]根据其大小修剪激活的随机子集以增强网络鲁棒性。Prakash等人[27]提出了一种结合像素偏移和软小波去噪的框架来抵御对抗性样本。[24，33，29]利用生成模型通过将它们移回干净图像的分布来净化对抗图像3. 方法令X表示图像，y真表示相应的地面实况标签。我们使用θ表示网络参数，L（X，ytrue; θ）表示损耗。完成网站2732Xnn;θ）），XnXnn在对抗性示例中，目标是在所生成的对抗性示例Xadv=X+r应该看起来在视觉上类似于原始图像X和相应的预测标签yadv=/ytrue的约束下，最大化图像X的损失L（X + r，y true ;θ ）。本文利用l∞-范数度量对抗扰动的可感知性，即，||R||∞≤。损失函数定义为L（X，ytrue;θ）=−ytrue·log（softmax（l（X;θ），（1）其中ytrue是地面实况的独热编码y为真，l（X;θ）为logits输出。请注意，所有基线攻击都已在cleverhans库中实现[26]，可以直接用于我们的实验。3.1. 一族快速梯度符号方法在本节中，我们将概述快速梯度符号方法家族快速梯度符号法。FGSM [11]是该攻击家族中的第一个成员，它发现了损失梯度XL（X，ytrue;θ）.更新方程为Xadv=X+·sign （ XL （ X ， ytrue;θ ））。（二）迭代快速梯度符号法。 Ku- rakin等。[17]将FGSM扩展到迭代版本，其可以表示为Adv模型，即，L（Xadv，ytrue;θ）> L（X，ytrue;θ）。一方面，传统的单步攻击，FGSM由于损失L（X，ytrue;θ）的不准确线性分配而倾向于欠拟合特定网络参数θ，因此在白盒模型上不能达到高成功率另一方面，传统的迭代攻击，I-FGSM，在每次迭代时，在损失梯度的符号方向上极大地扰动图像<$XL（X，ytrue;θ），从而容易陷入局部极大值和过拟合具体的网络参数θ。这些过度拟合的对抗性例子很少转移到黑盒模型。为了生成具有强可移植性的对抗性示例，我们需要找到一种更好的方法来优化损失L（X，ytrue;θ），以减轻这种过拟合现象。数据增强[15，32，13]显示为有效的防止网络在训练过程中过拟合的方法。同时，[38，12]表明，如果应用简单的图像变换，对抗性示例不再是恶意的，这表明这些变换后的对抗性图像可以作为更好的优化样本。这些事实启发我们对输入应用随机和可区分的变换，以便于对抗性示例的可转移性。3.3. 多样化的输入模式基于上述分析，我们的目标是通过不同的输入模式生成更多可转移的对抗性示例DI2-FGSM。首先，我们提出了多样输入迭代法X0 = X.（三）快速梯度符号法（DI2-FGSM），适用于IM-Advn+1个=夹子Xadv+α·sign（XL（Xadv，ytrue）年龄变换T（·）到输入的概率为p其中，裁剪**表示在原始图像X的** 球内裁剪结果图像，n是迭代次数，α是步长。动量迭代快速梯度符号法. MI-FGSM [9]建议将动量项集成到攻击过程中，以稳定更新方向并逃离不良局部最大值。更新过程类似于I-FGSM，其中替换Eq.（3）通过：XL（Xadv，ytrue;θ）gn+1= µ· gn+在I-FGSM的每次迭代中[17]，以减轻过拟合现象在本文中，我们将随机缩放（将输入图像调整为随机大小）和随机填充（以随机方式在输入图像周围填充零）[38]视为图像变换T（·）1. 转换概率p控制白盒模型的成功率和黑箱模型的利率，这可以从图中观察到。4.第一章当p=0时，DI2-FGSM退化为I-FGSM，并导致过拟合。如果p=1，即，只有转换后的输入用于攻击，生成的对抗性示例往往Advn+1个=夹子||1||1.ΣXadv+α·sign（gn+1），（四）在黑盒模型上有更高的成功率，但在白盒模型上有更低的成功率，因为攻击者看不到原始输入其中μ是动量项的衰减因子，gn是迭代n时的累积梯度。通常，DI2-FGSM的更新过程类似于I-FGSM，其中替换Eq.（3）由3.2. 动机Adv.拉法德夫AdvΣ真让θˆ 表示的未知网络参数Xn+1=裁剪X{Xn+α·符号XL（T（Xn;p），y;θ）}的情况下，（五）XX2733一般来说，一个强对抗性的例子应该在两个白盒模型上都有很高的成功率，L（Xadv，ytrue;θ）> L（X，ytrue;θ），黑盒1我们还试验了其他图像变换，例如，旋转或翻转，以创建不同的输入模式，并发现随机调整大小填充产生具有最佳可移植性的对抗性示例2734nnnN=1p=0μ=0p=0其中lk（X;θk）是参数为θk的第k个模型的logits输出，wk是wk≥0的总体权重ΣKμ=0和k=1 w k= 1。图2. 不同攻击之间的关系。通过设置变换概率p、衰减因子μ和总迭代次数N的设置值，我们可以将这些不同的攻击与快速梯度符号方法家族其中，随机变换函数T（Xadv;p）是.概率为p的T（Xadv）4. 实验4.1. 实验装置数据集。攻击已经被错误分类因此，我们从ImageNet验证集中随机选择了5000张图像，这些图像都是类T（Xadv;p）=nadvn.前进，前进概率1-p.（六）通过我们测试的所有网络，我们的测试数据所有这些图像都被调整为299×299×3M-DI2-FGSM。直觉、动力和多样化的投入是缓解过度拟合现象的两种完全不同的方式。我们可以将它们自然地结合起来，形成更强的攻击，动量多样输入迭代快速梯度符号法（M-DI2-FGSM）。M-DI2-FGSM的整体更新过程类似于MI-FGSM，仅替换Eq.（4）由XL（T（Xadv;p），ytrue;θ）g=μ·g +n。（七）不是象预料网络. 我们考虑四个正常训练的网络，即，Inception-v3（Inc-v3）[35]，Inception-v4（Inc-v4）[34]，Resnet-v2-152（Res-152）[13]和Inception-Resnet-v2（IncRes-v2）[34]，以及三个对抗训练的网络[37]，即，ens3-adv-Inception-v3 （ Inc-v3ens3 ）、 ens4-adv-Inception-v3（Inc-v3ens4）和ens-adv-Inception- ResNet-v2（IncRes-v2ens）。所有网络都是公开可用的2，3。n+1个n||XL（T（Xadv; p），ytrue;θ）||1实作详细数据。对于不同的参数，3.4. 不同攻击之间的关系上面提到的攻击都属于快速梯度符号方法的家族，并且它们可以通过不同的参数设置来关联，如图所示二、总结一下• 如果变换概率 p=0，则 M-DI2-FGSM 退化为MI-FGSM，DI2-FGSM退化为I-FGSM。• 如果衰减因子μ=0，则M-DI2-FGSM退化为DI2-FGSM，MI-FGSM退化为I-FGSM。• 如果总迭代次数 N=1 ，则 I-FGSM 退化为FGSM。3.5. 攻击网络集合Liu等[21]他认为，攻击一个群体，多个网络的同时使用可以生成更强的对抗性示例。其动机是，如果一个对抗性图像在多个网络中保持对抗性，那么它也更有可能转移到其他网络。因此，我们可以使用该策略来进一步提高可移植性。我们遵循[9]中提出的集成策略，将logit激活融合在一起以同时攻击多个网络。具体地，为了攻击K个模型的集合，通过以下方式融合logits：ΣKl（X; θ1，…， θ K）=wk l k（X; θ k）（8）k=1攻击者，我们遵循[ 16 ]中的默认设置，步长α=1，总迭代次数N=min（n+4，1. 25分）。我们将每个像素的最大扰动设置为λ=15，这对于人类观察者来说仍然是不可感知的[23]。对于动量项，衰减因子µ设置为1，如[9]所示。对于随机变换函数T（X;p），概率p被设置为0。5，即，处理者对原始输入和变换后的输入给予同等的关注。F或变换运算T（·），首先将输入X随机调整大小为rnd×rnd×3图像，其中rnd∈[299，330），然后以随机方式填充到大小330×330×34.2. 攻击单个网络我们首先对单个网络进行对抗性攻击我们只在正常训练的网络上制作对抗性的例子成功率如表1所示，其中对角块表示白盒攻击，非对角块表示黑盒攻击。我们将攻击的网络按行列出，将测试的网络按列列出。从表1中可以看出，M-DI2-FGSM在所有黑盒模型上的性能都大大优于所有其他基线攻击，并且在所有白盒模型上都保持了很高的成功率。例如，如果对抗性示例2https://github.com/tensorflow/models/tree/硕士/研究/苗条3https://github.com/tensorflow/models/tree/master/research/adv_imagenet_modelsM-DI2-FGSMDI2-FGSMI-FGSMMI-FGSMFGSMX2735模型攻击Inc-v3Inc-v4IncRes-v2RES-152Inc-v3ens3Inc-v3ens4IncRes-v2ensFGSM64.6%23.5%21.7%21.7%百分之八点零百分之七点五百分之三点六I-FGSM百分之九十九点九百分之十四点八百分之十一点六百分之八点九百分之三点三二点九厘百分之一点五Inc-v3DI2-FGSM（我们的）百分之九十九点九35.5%百分之二十七点八百分之二十一点四百分之五点五百分之五点二二点八厘MI-FGSM百分之九十九点九百分之三十六点六百分之三十四点五27.5%百分之八点九百分之八点四百分之四点七M-DI2-FGSM（我们的）百分之九十九点九百分之六十三点九59.4%百分之四十七点九百分之十四点三14.0%7.0%FGSM百分之二十六点四百分之四十九点六百分之十九点七百分之二十点四百分之八点四百分之七点七4.1%I-FGSM22.0%百分之九十九点九百分之十三点二百分之十点九百分之三点二3.0%百分之一点七Inc-v4DI2-FGSM（我们的）百分之四十三点三百分之九十九点七百分之二十八点九百分之二十三点一百分之五点九百分之五点五百分之三点二MI-FGSM51.1%百分之九十九点九百分之三十九点四百分之三十三点七百分之十一点二百分之十点七百分之五点三M-DI2-FGSM（我们的）百分之七十二点四百分之九十九点五百分之六十二点二52.1%百分之十七点六15.6%百分之八点八FGSM百分之二十四点三百分之十九点三百分之三十九点六百分之十九点四百分之八点五百分之七点三百分之四点八I-FGSM22.2%17.7%97.9%百分之十二点六百分之四点六百分之三点七百分之二点五IncRes-v2DI2-FGSM（我们的）百分之四十六点五百分之四十点五百分之九十五点八百分之二十八点六百分之八点二百分之六点六百分之四点八MI-FGSM百分之五十三点五百分之四十五点九百分之九十八点四百分之三十七点八百分之十五点三13.0%百分之八点八M-DI2-FGSM（我们的）71.2%67.4%百分之九十六点一百分之五十七点四百分之二十五点一百分之二十点七14.9%FGSM百分之三十四点四28.5%27.1%百分之七十五点二百分之十二点四11.0%6.0%I-FGSM百分之二十点八百分之十七点二14.9%百分之九十九点一百分之五点四百分之四点六二点八厘RES-152DI2-FGSM（我们的）53.8%49.0%百分之四十四点八99.2%13.0%百分之十一点一6.9%MI-FGSM百分之五十点一百分之四十四点一42.2%百分之九十九百分之十八点二百分之十五点二9.0%M-DI2-FGSM（我们的）78.9%76.5%74.8%99.2%35.2%百分之二十九百分之十九点零2736点四表1. 七个网络的成功率，我们攻击一个网络。对角块表示白盒攻击，而非对角块表示更具挑战性的黑盒攻击。实验结果表明，我们提出的输入多样性策略大大提高了生成的对抗性示例的可移植性。图3. 可视化随机选择的干净图像及其相应的对抗性示例。所有这些对抗性示例都是使用我们提出的DI2- FGSM在Inception-v3上生成的，每个像素的最大扰动为15。在IncRes-v2上制作，M-DI 2-FGSM的成功率为67。Inc-v4（正常训练的黑盒模型）为4%，Inc-v3 ens 3（对抗训练的黑盒模型）的成功率为1%，而像MI-FGSM这样的强基线只能获得45的相应成功率。9%和15。3%，相对稳定。这令人信服地证明了输入多样性和动量的组合对于提高对抗性示例的可移植性的有效性。然后，我们比较了I-FGSM和DI2-FGSM的成功率，以了解单独使用不同输入模式的有效性。通过生成具有输入多样性的对抗性示例，DI2-FGSM显著提高了I-FGSM在挑战性黑盒模型上的成功率，而不管该模型是否经过对抗性训练，并在白盒模型上保持了高成功率。例如，如果在Res-152上制作对抗性示例，DI 2-FGSM的成功率为99。2%，Res-152（白色-box model），53. 8%在Inc-v3（正常训练的黑盒模型）上，11. 1%，而I-FGSM仅获得99. 百分之一，二十。8%和4. 分别为6%。与FGSM相比，DI2-FGSM在正常训练的黑盒模型上也达到了更高的成功率，并且在对抗训练的黑盒模型上具有相当的性能此外，我们在图3中可视化了5对随机选择的这种生成的对抗图像及其干净的对应物。这些可视化结果表明，这些生成的对抗性扰动是人类无法感知的。应该提到的是，所提出的输入多样性不仅适用于快速梯度符号方法。为了证明推广性，我们还将CW攻击[4]与输入多样性结合起来。实验是在1000个正确分类的图像上进行的。为了爸爸-C W的最大迭代次数为250次，率为0。01，信心是10。如表2所示，我们的方法D-CW在黑盒模型上获得了比C W显著的性能改进。4.3. 攻击网络集合虽然表1中的结果表明动量和输入多样性可以显着提高对抗性示例的可转移性，但它们在黑盒设置下攻击对抗性训练的网络时仍然相对较弱，例如，IncRes-v2 ens上的最高黑盒成功率仅为19。0%。所以，我们遵循战略，清洁对抗性2737模型攻击Inc-v3Inc-v4IncRes-v2RES-152Inc-v3ens3Inc-v3ens4IncRes-v2ensInc-v3C W百分之一百百分之五点七百分之五点三百分之五点一3.0%百分之二点五百分之一点一D-C W（我们的）百分之一百百分之十六点八13.0%百分之十一点二百分之五点八百分之三点九二点一厘Inc-v4C W百分之十五点一百分之一百九点二百分之七点八百分之四点四百分之三点五百分之一点九D-C W（我们的）29.3%百分之一百百分之二十点一15.4%百分之七点一百分之五点三百分之三点一IncRes-v2C W百分之十五点八百分之十一点二百分之九十九点九百分之八点六6.3%百分之三点六百分之三点四D-C W（我们的）百分之三十三点九百分之二十五点六百分之一百百分之十九点四百分之十一点二百分之七点三4.0%RES-152C W百分之十一点四6.9%6.1%百分之一百百分之四点四4.1%百分之二点三D-C W（我们的）33.0%百分之二十七点七百分之二十四点四百分之一百13.1%百分之九点三百分之五点七表2.在七个网络上，我们使用CW攻击攻击单个网络的成功率。实验结果表明所提出的输入多样性策略可以增强CW攻击，生成更多可转移的对抗样本。模型攻击-Inc-v3-Inc-v4-IncRes-v2- 第152号决议-Inc-v3ens3-Inc-v3ens4-IncRes-v2ensI-FGSM百分之九十六点六96.9%百分之九十八点七百分之九十六点二97.0%97.3%94.3%合奏DI2-FGSM（Ours）MI-FGSM88.9%96.9%89.6%96.9%百分之九十三点二百分之九十八点八百分之八十七点七百分之九十六点八百分之九十一点七百分之九十六点八百分之九十一点七97.0%百分之九十三点二94.6%M-DI2-FGSM（我们的）90.1%百分之九十一点一94.0%89.3%92.8%92.7%百分之九十四点九I-FGSM百分之四十三点七百分之三十六点四33.3%百分之二十五点四百分之十二点九百分之十五点一百分之八点八托色DI2-FGSM（Ours）MI-FGSM百分之六十九点九71.4%67.9%65.9%64.1%64.6%百分之五十一点七55.6%百分之三十六点三百分之二十二点八35.0%百分之二十六点一百分之三十点四百分之十五点八M-DI2-FGSM（我们的）百分之八十点七百分之八十点六百分之八十点七百分之七十点九百分之四十四点六百分之四十四点五百分之三十九点四表3. 群体攻击的成功率。对抗性的例子是在六个网络的集合上生成的，并在集合网络（白盒设置）和保持网络（黑盒设置）上进行测试。符号“-”表示保持网络。我们观察到，建议的M-DI2-FGSM显着优于所有黑盒模型上的所有Egy在[21]中提出了同时攻击多个网络的方法，以进一步提高可转移性。我们在这里考虑所有七个网络。对抗的例子产生在一个集成的六个网络，并测试的集成网络和hold-out网络，使用I-FGSM，DI 2-FGSM，MI-FGSM和M-DI 2-FGSM，分别。 FGSM在这里被忽略，因为它在白盒模型上的成功率很低。所有集成的模型都被赋予相同的权重，即，w k=1/6。结果总结在表3中，其中顶行示出了集成网络（白盒设置）上的成功率，并且底行示出了保持网络（黑盒设置）上的成功率在挑战黑盒设置下，我们观察到M-DI2-2738FGSM总是生成对抗性示例，并且在所有网络上都具有比其他方法更好的传输能力。例如，通过保持Inc-v3ens 3作为一个保持模型，M-DI 2-FGSM可以以44的成功率欺骗Inc-v3 ens 3。6%，而I-FGSM、DI 2-FGSM和MI-FGSM的成功率仅为12。9%，36. 3%，22。8%，分别。此外，与MI-FGSM比较，我们观察到，单独使用不同的输入模式，即，DI2-FGSM，可以达到一个更高的成功率，如果坚持模型是一个对抗训练的网络，和一个相当的成功率，如果坚持模型是一个正常训练的网络。在白盒设置下，我们看到与I-FGSM和MI-FGSM相比，DI2-FGSM和M-DI2-FGSM在系综模型上达到略低（但仍然非常高）的成功率这是因为同时攻击多个网络比攻击一个网络要困难得多。单一型号然而，如果我们为转换概率p分配一个较小的值，增加总迭代次数N或使用较小的步长α，则可以提高白盒成功率（参见第二节）。4.4）。4.4. 消融研究在本节中，我们进行了一系列消融实验，以研究不同参数的影响。我们在这里只考虑攻击网络的集合，因为它比攻击单个网络更强大，并且可以提供对网络鲁棒性的更准确评估。对于所有实验，每个像素的最大扰动被设置为15变换概率p 我们首先研究了白盒和黑盒条件下转换概率p对成功率的影响。我们设置步长α=1和总迭代次数N=min（m+4，1. 25分）。变换概率p从0到1变化。回想一下图中所示的关系2，如果p=0，则M-DI2-FGSM（或DI2-FGSM）降解为MI-FGSM（或I-FGSM）。我们在图中显示了各种网络的成功率4.第一章我们观察到随着p的增加，DI2-FGSM和M-DI2-FGSM都而且，对于所有攻击，如果p很小，即，仅利用少量的经变换的输入，黑盒成功率可显著增加，而白盒成功率仅下降一点。这一现象揭示了在攻击过程中加入转换输入的重要性。273910.80.60.40.210.80.60.40.210.80.60.40.210.80.60.40.200 0.2 0.4 0.6 0.81概率（一）00 0.2 0.4 0.6 0.8 1概率（b）第（1）款01/301/251/20 1/15 1/101/5步长（一）01/30 1/25 1/20 1/15 1/10 1/5步长（b）第（1）款图4.DI2-FGSM（a）和M-DI2-FGSM的成功率（b）当改变变换概率p时。“Ensem- ble”（黑盒设置）为实线。图6.DI2-FGSM（a）和M-DI2-FGSM的成功率（b）当改变步长α时。实线10.80.60.40.2015 19 23 2731迭代次数（一）10.80.60.40.2015 19 23 27 31迭代次数（b）第（1）款2 2迭代次数N在15到31之间变化，结果如图所示。五、对于DI2-FGSM，我们看到黑盒成功率和白盒成功率总是随着总迭代次数N的增加而增加。对于M-DI2-FGSM也可以观察到类似的趋势，除了对抗训练模型的黑盒成功率，即，执行更多的迭代不能在反向训练的模型上带来额外的可转移性。此外，我们观察到M-DI2-FGSM和DI2-FGSM之间的成功率差距随着N的增加而减小。步长α。最后研究了白盒和黑盒条件下步长α对算法成功率的影响。我们设置转换概率p=0。五、为了在小步长α下也能达到最大扰动，我们将总迭代次数设置为pro，图5.DI-FGSM（a）和M-DI-FGSM的成功率（b）当改变总迭代次数N时。“Ensemble” (white-box框设置）是实线。图中显示的趋势。4也为在实践中构造强对抗攻击提供了有益的借鉴。例如，如果你知道黑盒模型是一个完全不同于任何现有网络的新网络，你可以设置p=1以达到最大的可转移性。如果黑盒模型是新网络和前网络的混合，则可以选择适当的p值，以在预定义的白盒成功率下最大化黑盒成功率，例如，白盒成功率必须大于或等于90%。总迭代次数N。然后，我们研究了白盒和黑盒设置下的总迭代次数N对成功率的影响。我们设置变换概率p=0。5，步长α=1。总与步长成比例，即，N=λ/α。结果如图所示。六、我们观察到，如果提供较小的步长，则DI2-FGSM和M-DI2-FGSM的白盒成功率都可以提高。在黑盒条件下，DI2-FGSM的成功率对步长不敏感，而M-DI2-FGSM的成功率在较小的步长下仍能得到提高。4.5. NIPS 2017对抗赛为了验证我们提出的攻击方法在实践中的有效性，我们在这里复制了NIPS2017对抗赛的顶级防御条目和官方基线[18]，以测试可转移性。由于资源的限制，我们只考虑前 3 名的防御条目，即， TsAIL[19] ，Iyswim[38]和Anil Thomas4，以及3个官方基线，即，Inc-v3adv、IncRes-v2ens和Inc-v3。4https://github.com/anlthms/nips-2017/tree/主/MMDInc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4 IncRes-v2-ensInc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4 IncRes-v2-ensInc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4IncRes-v2-ens-IncRes-v2-ens成功率成功率成功率成功率成功率Inc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4IncRes-v2-ens-IncRes-v2-ens成功率Inc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4IncRes-v2-ens-IncRes-v2-ensInc-v3-Inc-v3Inc-v4-Inc-v4IncRes-v2-IncRes-v2Res-152-Res-152Inc-v3-ens3-Inc-v3-ens3Inc-v3-ens4-Inc-v3-ens4IncRes-v2-ens-IncRes-v2-ens-IncRes-v2-ens-IncRes-v2-ens2740255255255 255攻击TsAIL伊斯维姆阿尼尔·托马斯Inc-v3advIncRes-v2ensInc-v3平均I-FGSM14.0%百分之三十五点六百分之三十点九98.2%百分之九十六点四百分之九十九62.4%DI2-FGSM（我们的）22.7%百分之五十八点四48.0%91.5%百分之九十点七97.3%68.1%MI-FGSM14.9%百分之四十五点七46.6%97.3%百分之九十五点四百分之九十八点七66.4%MI-FGSM*百分之十三点六百分之四十三点二43.9%94.4%93.0%97.3%64.2%M-DI2-FGSM（我们的）20.0%69.8%64.4%百分之九十三点三92.4%97.9%73.0%表4.顶级防御解决方案的成功率和NIPS 2017对抗性竞争的官方基线[18]。* 表示比赛中公布的官方结果。我们提出的M-DI 2-FGSM达到73的平均成功率。0%，大幅优于NIPS竞赛中的top-1攻击提交6. 百分之六。我们注意到，1号解决方案和3号解决方案应用了显著不同的图像变换（与我们的攻击方法中使用的随机填充相比）来防御对抗性示例。例如，第一种解决方案TsAIL应用图像去噪网络来去除对抗性扰动，而第三种解决方案Anil Thomas包括一系列图像变换，例如，JPEG压缩，旋转，平移和缩放，在国防管道. 测试数据集包含5000个图像的大小都是299×299×3，对应的标签与ImageNet标签相同。生成对抗性示例。当生成对抗性示例时，我们遵循[ 18 ]中的程序：（1）将数据集平均分为50批;（2）对于每批，从集合{4，8，12，16}中随机选择最大扰动;（3）在相应的约束下为每批生成对抗性示例。攻击者设置。对于攻击者的设置，我们遵循[9]通过攻击一个集合八个不同的模型，即，Inc-v3、Inc-v4、IncRes-v2 、 Res-152 、 Inc-v3ens3 、 Inc-v3ens4 、 IncRes-v2ens和Inc-v3adv [17]。集合权重被设置为1/7。前七款车型平均为25，全天候25为Inc-v3adv.总迭代次数N为10，衰减因子μ为1。MI-FGSM的这种配置在NIPS2017对抗性攻击比赛中获得了第一名。对于DI 2-FGSM和M-DI2-FGSM，我们选择p=0。根据图4所示的趋势。4.第一章结果结果总结于表4中。我们还报告了MI-FGSM（命名为MI-FGSM*）的官方结果MI-FGSM和MI-FGSM*之间的性能差异是由于攻击过程中引入的最大扰动幅度的随机性。与MI-FGSM相比，DI2-FGSM在顶层防御方案上的成功率较高，而在基线模型上的成功率稍低，这导致两种攻击方法的平均成功率相近。通过对不同的输入和动量项进行积分，这种增强的攻击，M-DI 2-FGSM，平均成功率达到73。0%，远远优于其他方法。例如，在NIPS竞赛中排名前一的攻击提交MI-FGSM的平均成功率仅为66。百分之四我们认为这种优越的可转移性也可以在我们不评估的其他辩护意见书中观察到。4.6. 讨论我们提供了一个简短的讨论，为什么提出的不同的输入模式可以帮助生成具有更好的可移植性的对抗性的例子。一个假设是，由于相同的训练数据集，不同网络的决策边界共享相似的内在结构，例如，ImageNet。例如，如图1所示，不同的网络在存在对抗性示例的情况下会犯类似的错误。通过在每次攻击迭代中合并不同的模式，优化产生了对抗性的示例，这些示例对小的变换更鲁棒这些对抗性示例在网络决策边界的某个区域是恶意的，从而增加了欺骗其他网络的机会，即，它们实现了比现有方法更好的黑盒成功率。在未来，我们计划从理论上或经验上验证这一假设。5. 结论在本文中，我们提出了提高输入多样性的对抗性示例的可转移性。具体来说，我们的方法在攻击过程中的每次迭代中对输入图像应用随机变换在ImageNet上的实验结果表明，与传统的迭代攻击方法相比，该方法对黑盒模型的攻击成功率显著提高，而对白盒模型的攻击成功率保持不变.我们通过整合动量项和同时攻击多个网络来进一步提高可转移性。通过对NIPS 2017对抗性竞争的顶级防御提交和官方基线[ 18 ]评估这种增强型攻击，我们发现这种增强型攻击的平均成功率达到73。0%，这比NIPS竞赛中的前1名攻击提交的性能高出6. 百分之六。我们希望我们提

下载后可阅读完整内容，剩余1页未读，立即下载