提高黑盒对抗性可转移性的攻击方法及其应用

104 浏览量更新于2023-10-25 收藏 896KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14983提高对抗性可转移性的熊毅峰，李家栋，张敏，李晓庆.Hopcroft2，Kun He1†1华中科技大学计算机科学系，武汉，中国2美国纽约州伊萨卡市康奈尔大学计算机科学系{xiongyf，jdlin，m zhang}@ hust.edu.cn，jeh@cs.cornell.edu，brooklet60@hust.edu.cn摘要黑盒对抗攻击因其在深度学习安全领域的实际应用而引起了广泛关注同时，这是非常具有挑战性的，因为无法访问目标模型的网络架构或内部权重。基于集合的对抗性攻击方法是一种有效的黑盒攻击方法，其假设是如果一个实例对多个模型保持对抗性，那么它更有可能将攻击能力转移到其他模型上然而，对集成攻击的研究较少，现有的集成攻击只是将所有模型的输出在这项工作中，我们把迭代系综作为一个随机梯度下降优化过程，其中不同模型上的梯度的方差可能会导致局部最优。为此，我们提出了一种新的攻击方法称为随机方差减少集成（SVRE）攻击，它可以减少集成模型的梯度方差，并充分利用集成攻击。在标准Ima-geNet 数据集上的实验结果代码可在https://github.com/JHL-HUST/SVRE上获得。1. 介绍深度神经网络（DNN）在各种计算机视觉任务中表现出令人印象深刻的性能。然而，最近的研究表明，DNN对通过添加人类无法感知的扰动而制作的对抗性示例非常脆弱[7，23，28]。此外，已知对立示例是可转移的，即为一个模型制作的示例也可能误导其他黑盒模型[17，20，22]。生成对抗性的例子，即*前两位作者贡献相同。†通讯作者。对抗性攻击引起了极大的关注，因为它可以帮助评估不同模型的鲁棒性[2，29]，并通过对抗性训练提高其鲁棒性[7，19]。已经提出了各种对抗性攻击方法，包括基于优化的方法，例如框约束L-BFGS [28]和CarliniWagner一般来说，这些对抗性攻击方法可以在白盒设置中实现高攻击成功率[2]，其中攻击者可以访问目标模型的完整信息，包括模型架构和梯度信息。然而，这些方法通常在黑盒设置中表现出较低的攻击成功率[3]，其中攻击者无法访问目标模型的信息。在这种情况下，攻击者要么利用敌对示例的可转移性来欺骗黑盒模型，要么直接基于对黑盒模型近年来，已经提出了许多方法来增强对抗性示例的可转移性，以提高黑盒设置中的攻击成功率，包括梯度优化攻击[3，16，31]，put变换攻击[4，16，35]和模型集成攻击[3，17]。在这些方法中，模型集成攻击是有效的，并已被广泛采用，以提高黑盒攻击性能[5，16，35]。然而，与其他两类已经深入研究的攻击相比，模型集成攻击的研究相对较少。在这项工作中，我们观察到，现有的模型集成攻击方法简单地直接融合所有模型的输出，但忽略了不同模型上的梯度的方差，这可能会限制模型集成攻击的潜在能力。由于模型体系结构的内在差异，模型的优化路径可能存在很大差异，这表明可能的模型之间在梯度方向的方差上存在着相当大的差异。这种差异可能会导致14984B{−联系我们集成攻击的优化方向不太准确。因此，转移的对抗性示例的攻击能力相当有限。为了解决这个问题，我们提出了一种新的方法称为随机方差减少集成（SVRE）攻击，以提高对抗性的集成攻击的可转移性。我们的方法受到随机方差降低梯度（SVRG）方法[12]的启发，该方法设计用于随机优化，该方法具有一个外循环，用于维护一批数据的平均梯度，以及一个内循环，用于从该批数据中随机抽取一个实例，并基于方差降低计算梯度的无偏估计。在我们的方法中，我们把集成模型看作是外循环的一外循环以良性图像为初始对抗样本，计算该批模型的平均梯度，并将当前样本复制到内循环，内循环对内对抗样本进行多次迭代更新。在每次内部迭代中，SVRE计算随机挑选的模型上的当前梯度，通过外部对抗性示例在该随机挑选的模型和集成模型上的梯度偏差进行调整。在内部循环结束通过这种方式，SVRE可以在外部循环处获得更准确的梯度更新，以摆脱较差的局部优化，使得精心制作的对抗性示例不会“过拟合”集成模型。Hence, the crafted adver- sarial example isexpected to have higher transferability to other unknownmodels.据我们所知，这是第一个工作，调查现有的合奏tack的限制，通过镜头的梯度方差多个模型。在ImageNet数据集上进行的大量实验表明，SVRE始终优于vanilla en，黑盒环境下的攻击模型。2. 相关作品令x和y分别是良性图像和对应的真标签设J（x，y）是分类器的损失函数，并且n（x）=x ′：xx ′pn是以x为中心，半径为φ的Lp范数球。非目标对抗攻击的目标是搜索一个对抗样本xadv∈B（x），使损失J（xadv，y）最大化。为了与以前的工作保持一致，我们专注于L∞-范数非有针对性的对抗性攻击。2.1. 对抗性攻击现有的对抗性攻击方法可以分为三组，即梯度优化攻击[3，7，13，16，31]，输入变换攻击[3，16，32，35]，以及模型集成攻击[3，17]。梯度优化攻击。最典型的基于梯度的对抗攻击是快速梯度符号法（FGSM）[7]，它使用损失函数相对于输入图像的梯度方向来生成固定量的扰动。Kurakin等人[13]提出基本迭代法（BIM），以小扰动运行FGSM的多次迭代。Madry等人[19] pro- pose a noisy version ofBIM, named the Projected Gradient Descent (PGD).虽然PGD在白盒环境中表现出良好的攻击性能[1]，但它容易过拟合目标模型，并且在黑盒环境中产生弱的可转移性。为了提高对抗性攻击的可转移性，Dong et al.[3]建议以势头推动对抗性攻击。最近，Linet al.[16]将Nesterov加速梯度方法引入到基于梯度的攻击中，有效地进行前瞻，避免过拟合。Wang等人[31]在每次迭代时减小梯度的方差以稳定更新方向。输入变换攻击。另一种攻击集中在采用各种输入转换，以进一步提高对抗性示例的可移植性。 Xie等人[35]提出了多样化输入法（DIM）[35]，它利用随机填充和填充来创建多样化的输入模式以生成对抗性示例。Dong等人[4]提出平移不变方法（TIM），该方法在一组平移图像上优化扰动Lin等[16]发现了深度学习模型的尺度不变属性，并提出了尺度不变方法（SIM），该方法优化了输入图像的尺度副本上的对抗扰动。Wang等人[32]提出Admix，它计算输入图像上的梯度，并将每个插件图像的一小部分与之混合，以制作更多可转移的对手。模型集合攻击。 Liu等[17]发现同时攻击多个模型也可以提高攻击的可转移性。他们融合多个模型的预测以获得集合预测的损失，并采用现有的对抗性攻击（例如，FGSM和PGD）来生成使用损失的对抗示例。Dong等人[3]提出了模型集成攻击的两种变体，分别是融合logits和融合损失。与梯度优化或输入变换的各种探索相比，模型集成攻击的研究要少得多，现有方法仅简单地融合输出预测，logit或损失。2.2. 对抗性抗辩作为对抗性攻击的对应物，也提出了各种防御方法，包括基于对抗性训练的防御[6，19，24，25，28，30，34，37]和基于输入变换的防御[8，10，11，15，18，21，33，36]。基于对抗训练的防御。对抗训练被认为是最有效的防御之一14985J（x，y）=−1·log（softmax（yk=1k=1Kk=1ΣΣΣ在训练过程中通过生成adversarialeexamples来增加训练数据的方法。Trame`r等人[30]提出了集成对抗训练，它使用从其他模型转移的扰动来增强训练数据。Madry等人 [19] 提出了 PGD-Adversarial Training （ PGD-AT），它通过PGD攻击制作的对抗性示例来增强训练数据Xie等人[34]开发新的网络架构，通过执行特征去噪来提高对抗性鲁棒性。对抗性训练虽然有前途，但计算成本高，难以扩展到大规模数据集[14]。基于输入转换的防御。这一防御线旨在减少输入数据的对抗性扰动。Guo等[8]和Xieet al. [33]对图像进行变换以去除对抗扰动。Liao等人[15]使用高级表示引导去噪器（HGD）来净化对抗图像。Xu等[36]提出了两种特征压缩方法，即.比特减少（Bit-R）和空间平滑来检测ADVER，图1.不同模型下采样图像梯度（通过符号函数处理）之间的余弦相似性。包围 logits 。 Dong 等人 [3] 建议融合模型的 logits（softmax之前的输出）。对于K个模型的集合，集合在logits上的损失函数为：讽刺的例子。Liu等[18]提出了特征提取（FD），它采用了基于JPEG的防御性压缩框架来减少对抗性扰动。Kk=1其中lk是第k个模型的logits。wklk（x），（2）Jia等人[11]利用名为ComDefend的端到端图像压缩模型来防御对抗性示例。 Jia等人 [10] 利用随机平滑（RS）来训练一个可靠的ImageNet分类器。Naseer等人[21]开发一个神经表示净化器（NRP）模型，它通过自动导出的监督来学习净化受不利干扰的图像。3. 方法我们专注于通过减少用于制作对抗性示例的集成模型的梯度方差来解决对抗性可转移性。由于我们的方法是基于模型集成攻击，我们首先介绍了现有的集成攻击方法，然后提出我们的动机，并详细阐述了所提出的3.1. 围攻手段集成攻击[3，17]是一种有效的增强对抗性可转移性的策略。其基本思想是使用多个模型生成对抗性示例。包围预测。Liu等[17]首先提出通过平均模型的预测（预测概率）来实现集成攻击。对于K个模型的集合，集合模型的损失函数为：J（x，y）=−1y·log（Kwkpk（x）），（1）其中1y是地面实况标签的独热编码x的y，pk是第k个模型的预测，且wk ≥ 0包围损失。 Dong等人[3]还介绍了通过如下平均K个模的损失的备选系综攻击J（x，y）=KwkJk（x，y），（3）其中Jk是第k个模型的损失。对于权重参数，三种方法在实验中都简单地选取了平均权重，即：wk=1/K。3.2. 反思围攻集成攻击方法已被广泛采用，以提高黑盒攻击的性能[3，5，16，17，31，35]。然而，据我们所知，研究人员只是利用现有的集成攻击策略作为一个即插即用的模块，以提高自己的攻击方法，而没有深入研究集成攻击方法本身。直觉上，现有的集成攻击方法[3，17]有助于提高对抗性可转移性，因为攻击集成模型可以帮助找到更好的局部最大值，并且更容易推广到其他黑盒模型。然而，仅仅对模型的输出（logits、预测或损失）进行平均以构建用于对抗性攻击的集成模型可能会限制攻击性能，因为不同模型的个体优化路径可能会变化，但未考虑方差，导致集成模型的过拟合。如图1所示，不同模型上采样图像的更新方向之间的余弦相似性极低，表明这些模型之间在优化方向上存在(See型号详情见第4.1节）。我们认为，系综权重受以下约束：wk=1。149860−不--不--∥≤不X{·}·不不K不M不不∇−∇21：x= Clip{x+α·sign（Gt+1）}tt·联系我们∇ − ∇−−联系我们融合模型的预测/logit/loss，但忽略不同模型上的梯度的方差，将导致次优结果，并限制集合攻击的性能。3.3. 随机方差缩减包围攻击在以前的作品，林等。和Wanget al. [16，31]将对抗性示例生成的过程类比为神经网络训练的过程，其中白盒模型类比为训练数据，黑盒模型类比为测试数据。因此，利用输入图像构造对抗样本的迭代优化过程可以看作是神经网络的参数更新，对抗样本的可移植性可以类比为模型的泛化在这项工作中，我们把迭代集成攻击作为一个随机梯度下降优化过程，在每次迭代中，攻击者总是选择一批集成模型进行更新。在对抗性样本生成过程中，不同模型上的梯度方差可能会导致局部最优。因此，我们的目标是减少梯度方差，以稳定梯度更新方向，使诱导梯度更好地推广到其他可能的模型。受随机优化设计的随机方差降低梯度（SVRG）方法[12]的启发，我们提出了一种随机方差降低集成攻击方法来解决模型的梯度方差，以便充分利用集成攻击。SVRG的基本思想是通过预测方差降低来降低随机梯度下降（SGD）的固有方差SVRE与MI-FGSM的集成[3]，SVRE-MI-FGSM，总结在算法1中。将传统的模型集成攻击方法称为Ens。我们的方法Ens的主要区别是，SVRE有一个内部的更新循环，其中SVRE通过M次更新获得方差约简的随机梯度具体来说，我们首先通过一次遍历模型来获得多个模型的梯度gens，并在M次内部迭代期间保持该值。然后，从集合模型中随机选取一个模型，得到方差约简后的随机内梯度 g_ （？） m ，并利用 g_（？）m的累积梯度更新内样本。最后，我们使用最后一个内部循环的累积梯度更新外部梯度。由于gm是gens的梯度的无偏估计，（xJ k（xadv，y）gens）有助于降低不同模型的梯度。简而言之，现有的Ens方法直接使用集成模型gens的平均梯度来更新对抗性示例，而SVRE使用随机方差约简梯度gens来更新对抗性示例。算法1SVRE-MI-FGSM攻击算法输入：良性样本x及其标签y，一组K个代理模型及其相应的损失J1，. . .，J，K，系综损耗J选自等式（1），Eq. （2），Eq. （三）输入：扰动界μ、迭代次数T、内部更新频率M、内部步长β、衰减因子μ1、内部衰减因子μ2输出：一个对抗性的例子xadv，满足xadv−x∞1：α=α/T;G0=0;2：初始化xadv=x;3：对于t=0至T1，4：#计算集合模型5：得到系综模型J（xadv，y）的损失;6：计算集合模型gens的梯度：gens=1xJ（xadv，y）;7：#通过M更新的随机方差减少8：初始化x0=xadv;G0=09：对于m=0至M1，10：随机选取一个模型指数k1，. - 是的-是的，K11：得到相应的损失J kJ1，. . .，J K12：gm=xJk（xm，y）（xJk（xadv，y）gens）13：#通过动量14：Gm+1=µ2Gm+gm15：#更新内部对抗示例16：更新xm+1=剪辑xm+β符号（Gm+1）17：结束18：#通过动量19：Gt+1=µ1Gt+GM20：#更新外部对抗示例advt+1x t22：结束23：returnxadv=xadv从理论上讲，SVRE可以很容易地与其他迭代梯度攻击方法相结合。E.G. I-FGSM [7]、MI [3]、DI [4]、TI[4]、SI [16]可以在内环和外环中使用相同的技术与SVRE集成。而在SVRE-I-FGSM中，我们在内部循环中积累梯度，以具有更好的可传递性。与现有的基于优化的增强攻击可转移性的方法相比，我们的方法是从不同的角度。现有的工作主要集中在沿迭代过程的优化。例如，MI-FGSM [3]和NI-FGSM [16]旨在加速收敛，而VT [31]旨在使用单个模型的前一次迭代的梯度方差来调整当前梯度。相比之下，我们的方法旨在减少集合攻击中各种模型引起的梯度方差14987×4. 实验本节首先介绍了实验设置，然后报告了正常训练模型和防御模型的攻击成功率，表明SVRE在黑箱攻击方面明显优于Ens。我们进一步证明，SVRE增加了黑盒模型的平均损失的大幅度。最后，我们进行了消融研究，以证明在SVRE的关键参数的有效性。4.1. 实验装置数据集。我们在ImageNet兼容的数据集1上进行实验，该数据集由1，000张图像组成，并广泛用于最近的基于FGSM的攻击[4，5]。网络 . 我们考虑四个正常训练的网络，即，Inception-v3（Inc-v3）[27]、Inception-v4（Inc-v4）、Resnet-v2-152 （ Res-152 ） [26] 和 Inception-Resnet- v2（IncRes-v2）[9]。对于对抗训练的模型，我们考虑Inc-v3ens 3、Inc-v3ens 4和IncRes-v2ens [30]。除此之外，我们考虑了九种对黑盒攻击具有鲁棒性的防御模型，包括NIPS竞赛中的前三种防御方法：HGD [15]，R& P [33]，NIPS-r3 2和最近提出的六种防御方法：Bit-R [36]，JPEG [8]，FD [18]，ComDefend [11]，[10]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！基线。我们将所提出的SVRE与基于高级梯度攻击的Ens进行了比较，包括I-FGSM [7]，MI-FGSM [3]，TIM [4]，TI-DIM [4]和SI-TI-DIM [16].对于Ens，我们采用融合差分模型的logits的集成方法 [3]，这被证实比集成更好地预测或损失。此外，我们使用不同的随机种子运行SVRE攻击5次，超参数。为了与以前的工作[3，4，16，35]保持一致，我们设置最大扰动为16/255。对于I-FGSM，迭代次数为10，步长为α= 1.6。对于MI-FGSM，我们将衰减因子µ1设置为1.0。对于TIM，我们采用高斯核尺寸77 .第一次会议。对于TI-DIM，转换概率p设定为0.5。对于SI-TI-DIM，我们设置副本m到5。对于SVRE，我们将内部更新频率M设置为系综模型数量的四倍，内部步长β设置为与α相同，内部衰减因子μ2设置为1.0。4.2. 攻击正常训练的模型我们首先比较了我们的方法在正常训练的模型上的性能，包括Inc-v3，Inc-v4，Res-1521https://github.com/cleverhans- lab/cleverhans/tree/master/cleverhans_v3.1.一、0/examples/nips17_adversarial_competition/dataset2 https：//github。© 2019 www.anlthms.com版权所有并保留所有权利主/MMD表1.对抗样本对hold-out模型的攻击成功率（%）。我们研究了四个正常模型：Inc-v3，Inc-v4，IncRes-v2和Res-101。对于每个模型，对抗性示例都是在其他三个模型的集合上制作的。基地攻击Inc-v3Inc-v4IncRes-v2Res-101平均I-FGSMEnsSVRE77.3089.2466.7083.6458.5077.6048.8065.5862.8379.02MI-FGSMEnsSVRE90.3096.8486.6095.3082.2092.8077.4089.4084.1393.59蒂姆EnsSVRE91.7096.1088.7093.6684.3090.1879.2085.3685.9891.33TI-DIMEnsSVRE95.7097.7894.1096.8693.2095.9290.1093.9893.2896.14SI-TI-DIMEnsSVRE97.6098.8097.6098.8897.2097.9095.9097.8297.0898.35IncRes-V2。具体来说，我们保留一个模型作为保持黑盒模型，并通过Ens和SVRE集成各种基本方法在其他三个模型的集合上生成对抗性示例。表1示出了在保持模型上的攻击性能。SVRE在所有测试模型中均优于Ens。SVRE在I-FGSM的基础攻击上的平均改进在16.19%是显著的。即使在MI-FGSM、TIM、DIM和SI-TI- DIM等先进的攻击方法上，SVRE的平均性能也比Ens提高实验结果表明，SVRE能有效地提高对抗样本在正常训练模型上的可移植性4.3. 攻击高级防御模型为了进一步验证我们的方法在实践中的有效性，我们继续在具有各种先进防御的模型上评估SVRE具体来说，我们在四个正常训练的模型的集合上制作对抗性示例，Inc-v3，Inc-v4，Res-15和IncRes-v2，并测试制作的对手在防御模型上的可转移性。我们首先在三个对抗训练模型Inc-v3 ens 3，Inc-v3 ens 4和IncRes-v2 ens上评估对手的可转移性。结果示于表2中。我们看到SVRE在每个对抗训练模型的黑盒攻击上都大大优于Ens。在集成攻击的基本方法中，SVRE表现出对TIM的最高改进，因为SVRE-TIM产生比Ens-TIM高17.30%的平均攻击成功率。此外，SVRE在白盒环境下也有较好的表现，并能略微改善白盒攻击在大多数情况下的表现。除了经过对抗训练的模型，我们还评估了九个具有高级防御机制的模型的精心制作的示例结果示于表3中。在所有比较中，SVRE的表现都明显优于Ens。我们方法的最强版本SVRE14988表2.黑盒攻击成功率（%）对三个对抗训练模型。对抗性样本在集成模型上生成，即，Inc-v3、Inc-v4、IncRes-v2和Res-101。白盒设置表3.黑盒攻击成功率（%）对9个模型与先进的防御机制。基地攻击HGDR PNIPS-r3比特-RJPEGFDComDefendRsNRP平均I-FGSMEnsSVRE27.0045.4815.2025.0218.9034.1026.0030.9641.8062.0637.1050.4256.0066.9825.2026.9817.3021.6029.3940.40MI-FGSMEnsSVRE41.3044.0633.0040.7244.6059.5439.7043.4275.9089.0662.8073.2877.5086.6036.9039.1227.3028.4648.7856.03蒂姆EnsSVRE72.5087.1060.5080.1667.2083.8449.3062.2682.6091.9674.8083.9685.1092.2247.8062.4637.6052.2464.1677.36TI-DIMEnsSVRE87.4094.8681.2091.9285.7093.2263.0072.8891.7096.4884.3090.7691.9095.9857.9073.6049.8065.3876.9986.12SI-TI-DIMEnsSVRE95.7097.7093.2096.1294.1097.4882.7086.6496.7098.5493.3095.6097.9099.0678.0085.7276.8085.4489.8293.59结合SI-TI-DIM，平均攻击成功率可达93. 59%的人认为这些防御模型处于黑盒设置中，这对深度学习模型的鲁棒性提出了新的安全问题。4.4. 损失比较上述实验表明，SVRE显著提高了对抗性攻击的攻击成功率为了提供直观的证据，证明SVRE可以有效地提高对抗性示例的可移植性，我们分别在四个白盒模型和三个黑盒模型上对第4.3节中生成的对抗性图像的损失进行平均，并在图2中描绘了平均损失的改善曲线。损失可以间接反映对抗效能。较高的损失表明较强的对抗强度，黑箱模型上较高的损失表明较强的可转移性。我们可以在图2（b）中看到，SVRE显著增加了黑箱模型上Ens的平均损失根据图2（a）中的白盒设置，SVRE和Ens是比较，表明SVRE在可移植性上的改进并不是以牺牲白盒攻击性能为前提的4.5. 超参数烧蚀研究在本小节中，我们进行了一系列消融实验，以研究SVRE中参数的影响。在这里，我们攻击Inc-v3，Inc-v4，Res-152和IncRes-v2的集合，并在对抗训练的模型Inc-v3 ens 3，Inc-v3 ens 4和IncRes-v2 ens上测试对手的可转移性，如第4.2节中的设置。在内部更新频率M上。我们首先分析了内部更新频率M对SVRE攻击成功率的有效性。我们分别将I-FGSM、MI-FGSM和SI-MI-DIM攻击与SVRE相结合，并将内部更新频率M的范围从0到32粒度为4。注意，如果M=0，SVRE平凡地退化为Ens的正常系综方法。由于白盒设置中的攻击成功率接近100%，因此我们只显示黑盒攻击的结果，基地攻击黑盒设定Inc-v3Inc-v4IncRes-v2Res-101Inc-v3ens3 Inc-v3ens4IncRes-v2ens平均I-FGSMEnsSVRE100.0099.80100.0099.6099.6099.3899.8099.5827.1040.0824.5037.3015.7024.7622.4334.05MI-FGSMEnsSVRE99.9099.9699.9099.9699.7099.8699.5099.8250.5064.5449.3059.0232.3039.0844.0354.21蒂姆EnsSVRE99.8099.8499.7099.9099.4099.8099.2099.7073.5087.8868.1085.6259.7079.7067.1084.40TI-DIMEnsSVRE99.5099.8699.4099.8099.0099.6898.7099.3487.4095.3284.3093.6677.6090.0883.1093.02SI-TI-DIMEnsSVRE99.7099.9899.4099.9699.3099.9099.4099.8095.6098.5695.1097.7892.4095.8094.3797.3814989Inc-v3Inc-v4IncRes-v2Res-101EnsSVREInc-v3ens3Inc-v3ens4IncRes-v2ensInc-v3ens3Inc-v3ens4IncRes-v2ensInc-v3ens3Inc-v3ens4Inc Res-v2ensInc-v3ens3Inc-v3ens4Inc Res-v2ens攻击成功率（%）平均损失攻击成功率（%）攻击成功率（%）攻击成功率（%）40103583025620 415210I-FGSM MI-FGSM TIM TI-DIM SI-TI-DIM(a) 白盒设置I-FGSM MI-FGSM TIM TI-DIM SI-TI-DIM(b) 黑盒设定图2.七个模型对Ens和SVRE的平均损失分别与五种攻击相结合45 70 10065 994060 983555 973050 962545 9540 942035 931530 92100 10 20 30内部更新频率M(a) SVRE-I-FGSM250 10 20 30内部更新频率M(b) SVRE-MI-FGSM910 10 20 30内部更新频率M(c) SVRE-SI-TI-DIM图3. SVRE结合I-FGSM、MI-FGSM和SI-TI-DIM的攻击成功率（%）。当M = 0时，退化为与Ens的积分。407098359760963050952520150.10.20.40.81.63.2 6.4 12.8 25.6内部步长(a) SVRE-I-FGSM40300.10.20.40.81.63.2 6.4 12.8 25.6内部步长(b) SVRE-MI-FGSM9493920.11.2 1.4 1.6 3.2 1.4 12.8 25.6内部步长(c) SVRE-SI-TI-DIM图4.在不同的内部步长β下，I-FGSM、MI-FGSM和SI-TI-DIM与SVRE结合后的攻击成功率（%）。Inc-v3ens3Inc-v3ens4Inc Res-v2ensEnsSVREInc-v3ens3Inc-v3ens4IncRes-v2ens平均损失Inc-v3ens3Inc-v3ens4Inc Res-v2ens攻击成功率（%）攻击成功率（%）14990×706560555045403530252015100 50 100 150200250 300350400梯度计算图5.SVRE-MI-FGSM和Ens-MI-FGSM针对不同梯度计算总数的攻击成功率（%）图3所示乍一看，我们的SVRE已经取得了令人印象深刻的改善Ens（M=0）。随着迭代次数的增加，攻击成功率也随之增加，在M=16时达到最大值。我们还从凸曲线上观察到，迭代次数过多或过少都可能导致对抗样本过拟合当前模型，从而损害攻击的可传递性。内部步长β。内部步长β在提高攻击成功率方面起着至关重要的作用，因为它决定了每个内环中数据点更新的程度。类似地，我们分别执行与I-FGSM、MI-FGSM和SI-MI-DIM集成的SVRE，1 .一、6，并且使β的范围从0.1倍到25.6。如图所示在图4中，SVRE的性能随着步长大小，最佳步长因不同方法而异为了公平比较，我们没有故意为每种方法设置不同的最佳参数，而是选择β=1。六、在实际应用中，针对特定的攻击，可以采用最佳步长，以获得更高的性能。关于迭代次数T. 对于相同的迭代次数，SVRE由于其内部循环而具有更多的梯度计算。为了表明SVRE的增益不是简单地来自于增加梯度计算的数量，我们对它的总次数进行了额外的分析。以内部更新频率M=16，集成模型数K=4为例，每次迭代需要Ens中的4个模型查询，而对于SVRE，内部循环需要162=32个额外的查询。SVRE的查询总数是Ens的9倍那么，如果我们增加其他方法的迭代次数呢从图5可以看出，Ens-MI-FGSM对黑盒模型的攻击成功率随着梯度计算总数的增加而逐渐衰减，即使总数达到360时也存在很大差距这个经验-结果表明，单纯增加Ens上的迭代次数并不能获得SVRE的高攻击性能。5. 结论在这项工作中，我们提出了一种新的方法，称为随机方差减少集成（SVRE）攻击，以增强制作的对抗性示例的可移植性与现有的模型集成攻击简单地将多个模型的输出均匀融合不同，该算法考虑了不同模型的梯度方差，通过减小方差来稳定集成攻击的梯度更新通过这种方式，SVRE可以为其他可能的模型制作具有更高可移植性的对抗性示例。大量的实验表明，SVRE在黑盒环境下的攻击性能明显优于vanilla模型集成攻击，而在白盒环境下，SVRE的攻击性能与vanilla模型集成攻击相当。相对于梯度优化攻击和输入变换攻击，集成攻击的研究较少。我们的工作可以揭示通过更好地设计集成方法来提高对侧转移性的巨大潜力。在未来的工作中，我们希望我们的工作可以激发更深入的工作在这个方向的合奏攻击。确认本课题得到了国家自然科学基金（62076105）和湖北省国际合作基金（2021EHB011）的资助。迭代=1（Ens）迭代=1（SVRE）迭代=10（Ens）迭代=10（SVRE）Inc-v3ens3Inc-v3ens4Inc Res-v2ensEnsSVRE攻击成功率（%）14991引用[1] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感第35届国际机器学习会议论文集，ICML，第80卷，第274-283页，2018年。2[2] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页，2017年。1[3] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在IEEE计算机视觉和模式识别会议上，CVPR，第9185-9193页，2018年。一、二、三、四、五[4] 董银鹏，庞天宇，苏航，朱军。通过平移不变攻击规避对可转移对抗样本的防御。在IEEE计算机视觉和模式识别会议上，CVPR，第4312- 4321页，2019年。一、二、四、五[5] Lianli Gao，Qilong Zhang，Jingkuan Song，XianglongLiu，and Heng Tao Shen.欺骗深度神经网络的补丁式攻击。在欧洲计算机视觉会议上，ECCV，第307-322页，2020年。一、三、五[6] 龚承悦、任同政、叶茂、刘强。Maxup：轻量级对抗训练与数据增强提高神经网络训练。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第2474-2483页，2021年6月。2[7] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。第三届国际学习表征会议，ICLR，2015年。一、二、四、五[8] ChuanGuo，MayankRana，MoustaphaCisse'，andLaurensvan der Maaten.使用输入变换对抗性图像。在第六届国际会议上学习- ING代表，ICLR，2018年。二三五[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议，CVPR，第770-778页，2016年。5[10] Jinyuan Jia ， Xiaoshua Cao ， Binghui Wang ， and NeilZhenqiang Gong.通过随机平滑，对top-k预测对抗对抗性扰动第八届国际学习表征会议，ICLR，2020。二三五[11] Xiaojun Jia ， Xingxing Wei ， Xuxun Cao ， and HassanForoosh. ComDefend：一种有效的图像压缩模型，用于防御对抗性示例。在IEEE计算机视觉和模式识别会议上，CVPR，第6084-6092页，2019年。二三五[12] 李·约翰逊和张彤。使用预测方差减少加速随机梯度下降。在神经信息处理系统的优势26：2013年第27届神经信息处理系统年会。第315-323页，2013年。二、四[13] Alexey Kurakin，Ian J Goodfellow，and Samy Bengio.物理世界中的对抗性例子在第五届国际...关于学习表征的国家会议，ICLR（工作室），2017年。一、二[14] 作者：Alexey Kurakin，Ian J.古德费洛和萨米·本吉奥大规模的对抗性机器学习第五届国际学习表征会议，ICLR，2017。3[15] Fangzhou Liao ， Ming Liang ， Yinpeng Dong ， TanyuPang，Xiaolin Hu，and Jun Zhu.使用高级表示引导的去噪器防御对抗性攻击。在IEEE计算机视觉和模式识别会议上，CVPR，第1778-1787页，2018年。二三五[16] Jiadong Lin，Chuanbiao Song，Kun He，Liwei Wang，and John E.霍普克罗夫特Nesterov加速了对抗性攻击的梯度和规模不变性。第八届国际学习表征会议，ICLR，2020。一、二、三、四、五[17] Yanpei Liu，Xinyun Chen，Chang Liu，and Dawn Song.深入研究可转移的对抗性例子和黑盒攻击。第五届国际学习表征会议，ICLR，2017。一、二、三[18] 刘子豪，刘奇，刘涛，徐诺，林雪，王艳芝特色蒸馏：面向Dnn的JPEG压缩对抗对抗性示例。在IEEE计算机视觉和模式识别会议上，CVPR，第860-868页，2019年。二三五[19] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。对抗攻击的深度学习模型。第六届国际学习表征会议，ICLR，2018。一、二、三[20] Seyed-Mohsen Moosavi-Dezfooli ， Alhussein Fawzi ，Omar Fawzi，and Pascal Frossard.普遍对抗性扰动。在IEEE计算机视觉和模式识别会议上，CVPR，第86-94页，2017年。1[21] Muzammal Na

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

提高黑盒对抗性可转移性的攻击方法及其应用

针对ML模型的对抗性攻击方法

对抗攻击中patch攻击属于黑盒攻击吗

深度学习攻击算法应用场景

基于决策边界的黑盒攻击算法原理精析

白盒攻击和黑盒攻击的定义以及区别

automl 的黑盒性

对抗机器学习攻击下的数据库注入检测系统的设计与实现

白盒测试和黑盒测试的应用场景

介绍一下现有的机器学习模型逆向攻击方法

黑白盒攻击测试的的意义

软件测试黑盒测试应用题csdn

黑盒测试的用例方法及特点

使用黑盒及白盒测试进行单元测试的方法和过程

使用黑盒及白盒测试进行单元测试的方法

黑盒测试方法思维导图

黑盒测试的基本方法?

文件包含漏洞黑盒测试

如何快速学习黑盒测试

测试方法：白盒和黑盒测试

最新资源