特征重要性感知的可转移对抗攻击

57 浏览量更新于2023-10-07 收藏 1017KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7639特征重要性感知的可转移对抗攻击Zhibo Wang†，‡，Hengchang Guo‡，†，ZhifeiZhang，Wenxin Liu‡，Zhan Qin†，Kui Ren†，†浙江大学网络科学与技术学院，P.R. 中国‡武汉大学网络科学与工程学院，武汉理工大学R. 中国，Adobe Research区块链与网络空间治理浙江省重点实验室，P.R. 中国{zhibowang，qinzhan，kuiren}@ zju.edu.cn，{hc guo，wxliu111}@ whu.edu.cn，zzhang@adobe.com摘要对抗性样本的可移植性对于攻击未知模型至关重要，这有助于在更实际的场景中进行对抗性攻击，例如，黑箱攻击。现有的可转移攻击倾向于通过不加区别地扭曲特征来制作对抗性示例，以降低源模型中的预测准确性，而不知道图像中对象的内在特征。我们认为这种暴力降解会导致传统我们对抗性图像关注源模型关注目标模型模型特定的局部最优转化为对抗性的例子，从而限制了可移植性。相比之下，我们提出了特征重要性感知攻击（FIA），它破坏了重要的对象感知功能，主导模型的决定一致。更具体地说，我们通过引入聚合梯度来获得特征重要性，该聚合梯度相对于源模型的特征图对梯度进行平均，该梯度是在原始干净图像的一批随机变换上计算的梯度将与感兴趣的对象高度相关，并且这种相关性呈现跨不同模型的不变性。此外，随机变换将保持对象的固有特征和抑制模型特定信息。最后，特征重要性指导搜索对抗性示例，以破坏关键特征，实现更强的可移植性。广泛的实验评估表明，所提出的FIA的有效性和优越的性能，即，与现有技术的可转移攻击相比，针对正常训练模型的成功率提高了9.5%，针对防御模型的成功率提高了12.8%代码可在：https://github.com/hcguoO0/FIA1. 介绍深度神经网络（DNN）已经在许多视觉任务中实现了卓越的性能，例如，图像分类[17，12]，对象检测[9，25]，语义分割*郭恒昌为通讯作者。图1.传统的无差别攻击（顶行）和我们的特征重要性感知攻击（底行）的比较。在源模型（VGG 16）上生成广告图像，并用于攻击目标模型（Inception-V3）。我们的攻击将抑制重要特征并促进琐碎特征，从而显著地散焦/误导模型，如注意力图所示，即，我们的对抗性示例导致源模型和目标模型不仅未能捕获重要对象，而且还聚焦于琐碎区域。tion [4，22]、面部识别[31，27]等。然而，尽管取得了令人印象深刻的进展，但最近的研究表明，DNN容易受到对抗性示例的影响[30]，这些示例是通过添加精心设计的扰动来欺骗DNN而制作的。对抗性攻击已经引起了人们对基于DNN的应用程序的极大关注，特别是在自动驾驶等安全敏感领域。同时，对抗性样本在研究神经网络的内部缺陷和提高其鲁棒性方面也起着重要作用。已经提出了许多作品[30，10，18，3，34，33，35]来生成对抗性示例，这些示例可以分为两类，即，白盒攻击与黑盒攻击，根据攻击者所拥有的知识，随着对抗性攻击技术的发展，更具有挑战性的黑盒攻击越来越受到人们的关注。一种常见的黑盒攻击[33，14，2]是通过基于查询信息（例如，概率向量和硬标签），这被称为基于查询的攻击。那些原始图像7640基于查询的攻击在现实世界中可能是不切实际的，因为不允许过多的查询。相比之下，另一种典型的黑盒攻击，称为基于转移的攻击，依赖于敌对示例的跨模型可转移性[21]（即在一个模型上制作的对抗性示例可以成功地攻击同一任务的其他模型），这更实用和灵活。然而，由传统攻击方法制作的对抗性示例（例如，FGSM [10]、BIM [18]等）由于对源模型的过拟合，常常表现出弱的可传递性。因此，一些研究试图通过在优化过程中引入额外的操作来减轻这种过拟合，以提高可转移性，例如，随机变换[35]、平移运算[6]。最近，[36，7，23]直接在中间层进行攻击以增强可转移性。这些特征级攻击不是干扰输出层，而是最大化内部特征失真并实现更高的可传输性。然而，现有的方法通过不加选择地扭曲特征而不知道图像中对象的内在特征来生成对抗性示例，从而容易陷入模型特定的局部最优。由于分类器倾向于提取任何可用的信号以最大化分类准确性，即使是图像中隐含的那些不可感知的噪声[15]，模型将学习额外的因此，通过前向方法制作的对抗性示例倾向于扭曲这种模型特定的特征，从而过度拟合源模型并阻碍对抗性示例的可移植性。本文提出了一种特征重要性感知攻击（FIA），它通过破坏重要的对象感知特征来显着提高对抗性示例的可转移性，这些特征应该主导不同模型的决策。针对特定于模型的特征，我们引入了聚合梯度，这将有效地抑制特定于模型的特征，同时提供对象感知的特征重要性。如示于图1，与传统的无差别攻击相比，来自所提出的FIA的对抗图像显著地使模型散焦，即，未能捕捉到物体的重要特征同时，模型也被误导，只关注那些琐碎的领域。更具体地说，随机变换（我们采用随机像素丢弃）首先应用于原始图像。由于变换后的图像将保留空间结构和纹理但改变非语义细节，因此来自它们的特征将与对象感知特征一致但在非对象上波动（即，模型特定的“噪声”）特征。关于这些特征，梯度被平均以统计地抑制那些波动的模型特定特征。同时，由于特征重要性与感兴趣的对象高度相关并且在不同的模型中是一致的，所以对象感知/重要的特征被保留以指导更多可转移的对抗性示例的生成。我们的主要贡献总结如下。• 我们提出了特征重要性感知攻击（FIA），通过破坏主导不同模型决策的关键对象感知特征来增强对抗性示例的可转移性。• 我们分析了现有作品可转让性相对较低的原因，即过度拟合到模型特定的• 在不同分类模型上的大量实验表明，与最先进的可转移攻击方法相比，所提出的FIA生成的对抗性示例具有优异的可转移性。2. 相关工作自Szegedy等人[30]证明了存在针对神经网络的脆弱性问题，提出了许多对抗性攻击算法[10，18，3，33，14，2 本文主要研究了基于转移的攻击，即利用对抗样本的可转移性来进行黑盒攻击使用在一个模型上制作的对抗性示例来攻击其他模型。有许多工作旨在提高对抗性示例的迁移能力。Dong等人[5]在迭代算法中采用动量来稳定更新并避免不良的局部最优，而Lin等。[20]引入Nesterov加速梯度以进一步增强转移能力。Xie等人[35]应用图像变换（即，随机地调整大小和填充）到每一次的输入以提高可转移性。Gao等人[8]精心制作了分片噪声而不是像素噪声，以增强对抗性示例的可转移性。Dong等人[6]通过优化翻译图像上的扰动来提出翻译不变攻击，这导致对防御模型的更高传输能力。而不是破坏输出层，几个作品提出了攻击内部功能。Zhou等[36]首先证明，最大化自然图像与中间层中的对抗示例之间的特征距离Naseer等人[24]还得出结论，神经表示失真不会受到过拟合问题的影响，并且可以表现出跨架构，跨数据集和跨任务的可转移性。Huang等人. [13]微调现有的对抗性示例，通过增加其扰动来提高可转移性。7641̸›→xadv∞··p输入图像...积极特征消极特征...0指数特征图图2.特征重要性感知攻击（FIA）。给定输入图像，从源分类模型的中间层（红色块）然后，计算从输出反向传播到特征图的梯度在特征图和标准化梯度之间的逐元素乘积（即，特征重要性），可以通过具体地抑制正面/重要特征并提升负面/琐碎特征来优化加权特征图，从而实现更高的可转移对抗示例。从源模型中的预先指定的层上提取。Gane- Shan等。[7]提出了一种原则性的方式来对特征表示造成我们提出的方法也属于这一类，关键的区别在于我们的方法考虑了特征重要性，并破坏了在不同模型中主导决策的关键对象感知特征原始图像原始特征原始梯度聚合特征聚合梯度而现有方法不加区别地扭曲特征。3. 预赛假设分类模型f θ：x y，其中x和y分别表示干净图像和真实标签，θ表示模型的参数。我们的目标是生成一个对抗性的例子x adv= x + ε，它被精心设计的扰动ε扭曲，但会误导分类器，即，fθ（xadv）=y.通常，通常采用p-范数来正则化扰动。因此，对抗性示例的生成可以被公式化为优化问题，如下所示。arg maxJ. x adv，yΣ，s.t. <$x−xadv<$$>≤，（1）其中损失函数J（i）测量真实和预测标记之间的距离（即，交叉熵），并且p=在这项工作中。已经提出了许多方法来解决上述优化问题，快速梯度符号法（FGSM）[10]、基本迭代法（BIM）[18]、动量迭代法（MIM）[5]等。然而，优化Eq.1需要显式访问fθ的参数，而这在黑盒跟踪中是不切实际的因此，可行的解决方案是在类似的模型f上进行优化（即，源模型），从而生成高度可转移的对抗性示例来攻击目标模型f θ。图3. VGG16的层Conv3 3处的特征图和相应梯度的可视化。从原始图像获得原始特征和梯度，并且从多个变换（即，随机像素丢弃）。4. 功能重要性感知攻击来自大多数基于DNN的分类器的经验研究Inception[29]和ResNet [11]已经表明，深度模型倾向于提取语义特征，这些特征是对象感知的区分性，从而有效地提高分类准确性。直观地说，破坏那些主导所有模型决策的对象感知特征可能有利于对抗性示例的可转移性。然而，不同的网络还提取排他性特征以更好地使它们自身适合数据域，这导致模型特定的特征表示。在没有意识到这些特征的情况下，现有的对抗性攻击倾向于通过不加区别地扭曲针对源模型的特征来制作对抗性示例，从而陷入模型特定的局部最优并显著降低可转移性。因此，避免这种局部最优是可转移性的关键更具体地说，对抗性示例的生成需要由来自源模型的模型不可知的关键特征来引导图2概述了所提出的特征重要性感知可转移攻击（FIA），其中聚合梯度（在第4.1节中详细描述）可以有效地避免局部最优并表示可转移特征重要性。然后，梯度正常化0.10.50.2 - 0.40.3-0.20.70.60.4-0.30.80.30.6-0.30.50.4梯度反向传播逐元素...产品.优化目标...加权特征映射......激活值7642Σ。ΣL⊙.ΣLxx¨∇K··KKKCKDx⊙M优化不随机掩码梯度反向传播......0.10.50.2-0.40.3-0.20.7 0.60.4-0.30.8 0.30.6-0.30.5 0.4梯度_10.20.40.10.20.4-0.40.6 0.5逐元素添加算法一：功能重要性感知攻击输入：原始干净图像x，分类模型f，中间层k，drop-0.1 -0.30.30.20.3-0.2 0.3 0.4梯度_20.30.20.4 -0.2概率pd和系综数N......0.10.20.40.50.2-0.2 -0.2 0.30.4-0.3 0.7 0.60.10.30.50.4等级_30.30.4-0.2 0.3-0.10.30.50.40.1-0.40.60.30.10.30.20.4聚合物梯度总梯度、最大扰动ε和迭代次数T。输出：对抗图像xadv。...0.2-0.5 0.5 0.40.6-0.3 0.7 0.10.20.1-0.2-0.3等级n初始化：∆ = 0，g0= 0，µ= 1，α=ε/T遮罩图像梯度图4.聚合梯度的图示。从多个随机掩蔽图像获得梯度，并且最终的聚集梯度（即，特征重要性）通过平均这些梯度来表示。聚集梯度在优化中用作权重以扭曲重要特征（在4.2节中讨论），即，减少具有正权重的特征并增加对应于负权重的特征。4.1. 按聚合梯度的获得聚合物梯度：对于n = 0至N - 1，n∆=∆+∆k∆✓ =构造∆2目标：（xadv）= ∆fk（xadv）用动量迭代法更新xadv对于t =0至T - 1，Adv不为了简单起见，让f表示源模型，并且gt+1=µ·gt+xL. x副词1来自第k层的特征图被表示为f（x）。xadv=Clipx，ε. xadv−α·sign（gt+1）ΣK由于特征重要性与特征有助于最终决策，一个直观的策略是获得梯度w.r.t.fk（x）如下所示∆x=l（x，t），（2）kfk（ x）t+1t返回xadv应用于输入x的随机掩码。图4示出了梯度聚集的过程骨料梯度x突出显示了鲁棒性和关键对象的区域，其中，l（，）表示相对于真值标签测试然而，原始梯度Δx将携带模型特定信息。如图原始梯度图和原始特征图都是视觉上有噪声的，即，脉冲和非对象区域上的大梯度，这可能是由模型特定的解决方案空间引起的。为了抑制特定于模型的信息，我们提出了聚合梯度，其聚合来自随机变换的x的梯度，如图所示。4.第一章该变换被认为是扭曲的图像细节，但保留的空间结构和一般的纹理。由于语义上的对象感知/重要特征/梯度对这种变换是鲁棒的，但模型特定的特征/梯度容易受到变换的影响，因此这些鲁棒的/可转移的特征/梯度将在聚合后被突出显示，而其他特征/梯度将被中和。本文采用随机像素丢弃（即，随机掩蔽），概率为Pd。因此，聚集体梯度可以表示如下。K可以将对抗性示例引导到更可转移的方向。图3可视化了聚合梯度，与原始梯度相比，聚合梯度更清晰并且更关注对象，从而在可转移视角中提供更好的特征重要性。4.2. 攻击算法利用上述特征重要性（即， aggrgategradient∆¯x），我们设计损失函数Eq. 4通过显式抑制重要特征来指导对抗性示例x adv的生成。为了简单起见，我们表示在这篇文章的其余部分。L（xad v）=Σ。∆⊙fk(xad v)Σ.（四）直观地，重要特征将在∆中产生相对较高的强度，这指示了cor-tech的努力Nn∆¯x=1Σ∆x⊙Mpd，Mn=1Bernoulli（1 −p），（3）叙述特征以接近真实的标签，和标志的Δ提供了校正方向。生成可转移对抗性示例的目标是减少img_1pdpdpdp dimg_2原始图像pdimg_3img_n......不pdpd7643⊙其中Mpd是具有与x相同大小的二进制矩阵，并且表示元素乘积。正规化子C是通过对相应的和项进行n~ 2系综数N表示具有正∆的重要特征，并增加对应于负∆的那些特征。因此，通过最小化Eq.4.第一章最后，替换Eq.4到Eq。1，我们得到了提出的目标，7644xadv∞¨¨表1.不同攻击对正常训练模型的成功率。第一列显示源模型，第一行列出目标模型。FIA是我们的方法，FIA+PIDIM是FIA和PIDIM的结合。“*” indicates white-box attack since the target model is the source model, and the best results are highlighted in攻击Inc-v3Inc-v4IncRes-v2RES-50RES-152VGG-16VGG-19Inc-v3MIMDIMPIMPIDIMNRDMFDA100%*99.6%*97.9%*98.1%*98.2%*98.7%*41.6%64.6%55.8%百分之七十点五68.1%71.9%百分之三十八点八59.6%51.5%66.4%百分之五十九点九百分之六十六点三33.1%40.7%百分之五十三点三百分之六十一点八47.5%48.4%百分之二十九点七百分之三十六点三46.3%百分之五十六点三37.1%37.1%百分之三十八点六47.6%61.6%57.7%百分之四十九点九百分之五十一点九百分之三十八点三46.4%60.5%56.0%百分之五十点五53.0%FIAFIA+PIDIM98.3%*98.8%*83.5%87.8%百分之八十点六百分之八十五点七百分之七十点四79.7%64.9%74.4%71.4%百分之八十二点四百分之七十三点三84.1%IncRes-v2MIMDIMPIMPIDIMNRDMFDA百分之六十点二百分之七十五点二66.8%百分之八十点五65.0%64.3%百分之五十二点五71.3%百分之六十二点九百分之七十八百分之五十五点五53.7%99.3%*97.1%*99.6%*98.5%*75.3%*76%*40.1%百分之五十点九56.2%56.6%53.0%50.2%百分之三十六点一百分之四十三点七百分之五十点八百分之五十点一44.0%41.0%46.9%51.5%64.4%百分之六十二点五百分之四十九点四百分之五十三点五百分之四十三点八百分之五十一点四63.5%62.6%49.1%百分之五十三点九FIAFIA+PIDIM81.1%百分之八十四点二百分之七十七点五79.7%89.2%*91.6%*百分之七十一点八79.0%68.9%百分之七十八点四71.4%百分之八十点六71.4%79.9%RES-152MIMDIMPIMPIDIMNRDMFDA百分之五十七点二80.3%66.0%百分之八十二点二64.5%百分之六十点七48.2%72.2%百分之五十六点四76.6%59.1%百分之五十二点三百分之四十五点七百分之七十二点六51.1%77.0%51.2%48.0%百分之九十点六95.0%92.3%96.7%百分之八十七点七百分之八十五99.8%*99.9%*100%*99.8%*95.4%*95.3%*百分之七十二点八88.4%83.2%91.2%79.3%百分之七十五点零百分之七十二点九88.0%82.5%百分之八十九点九79.3%百分之七十五点零FIAFIA+PIDIM百分之八十五点三90.3%81.1%百分之八十五点九77.8%百分之八十五点六百分之九十六点八98.2%99.5%*99.5%*91.5%百分之九十五点八91.5%95.7%VGG-16MIMDIMPIMPIDIMNRDMFDA80.3%百分之八十七点二84.1%百分之八十九点一百分之七十三点六76.1%81.1%87.0%82.0%89.5%百分之七十二点八76.7%百分之七十四点六80.9%百分之七十五点六百分之八十四点七57.1%64.0%89.3%百分之九十二百分之九十一点一百分之九十三点八百分之七十七点五81.7%百分之八十四点四87.8%百分之八十五点九百分之九十点八73.0%78.7%100%*99.8%*100%*99.9%*93.2%*95.7%*96.5%百分之九十八点九百分之九十八点九百分之九十八点八百分之九十一点一95.7%FIAFIA+PIDIM95.7%百分之九十七点六百分之九十五点六97.5%92.3%百分之九十三点八97.3%98.2%95.3%百分之九十六点四99.8%*99.8%*99.6%百分之九十九点八特征重要性感知的可转移对抗攻击。arg minL. x advΣ，s.t. x− x adv≤。7645D·Adv2¨¨（五）存在许多现有的基于梯度的攻击方法，旨在求解上述目标函数Eq. 5，例如，BIM [18]，MIM [5]等。鉴于MIM的优越性能，我们采用这种方法来求解方程。5中所描述的，并且细节在算法1中示出。4.3. 相关攻击值得进一步强调的是，特征重要性感知优于相关的基于特征的攻击，即[24][25][26][27][28][29]为了更好地说明，它们的损失函数被写在等式中。6和7分别LNRDM=fk（xadv）−fk（x），（6）其中采用2-范数来简单地度量特征失真，其不加区别地干扰特征。Adv其中（）是2-范数，并且Ck（h，w）表示跨通道的平均激活值。从目标函数出发，NRDM简单地优化了原始图像和对抗图像之间的特征失真，没有任何约束。对于FDA，虽然它引入了利用特征激活来指导优化的类似思想，即，支持地面实况的特征然而，FDA使用跨通道的平均值作为区分标准，这不能有效地避免模型特定的信息。相比之下，所提出的FIA通过聚合梯度提供了更多的内在特征重要性，从而实现了更高的可转移对抗示例。定量比较实验评价表明，所提出的FIA的优越性能5. 实验评价5.1. 实验装置LfDA= log（D（f k（x））|f k（x） C k（h，w）（七）数据集：为了公平比较，我们遵循之前的工作[6，8]使用兼容ImageNet的数据集[1]，7646表2.不同攻击对防御模型的成功率。第一列显示源模型，第一行列出目标模型。FIA是我们的方法，FIA+PITIDIM是FIA和PITIDIM的组合。最佳结果以粗体突出显示。攻击Adv-Inc-v3Adv-IncRes-v2Ens3-Inc-v3Ens4-Inc-v3Ens-IncRes-v2MIM百分之二十二点九百分之十七点五15.4%百分之十五点八百分之七点八昏暗26.0%百分之二十四点五百分之十七点八百分之二十点八10.0%蒂姆32.0%百分之二十六点四百分之三十点一32.5%22.4%Inc-v3PIMTIDIM百分之三十四点三40.7%百分之三十点二37.1%33.3%百分之四十点八百分之三十八点四百分之四十二点三百分之二十六点二百分之三十点四PITIDIM41.6%百分之三十三点九43.1%百分之四十七点三31.4%FIA百分之五十四点五百分之五十四点九43.9%42.0%23.5%FIA+PITIDIM百分之六十四点八59.0%百分之六十二点五百分之六十三点二百分之五十点九IncRes-v2MIMDIMTIMPIMTIDIMPITIDIM百分之二十五点五33.1%40.0%39.0%百分之五十点四53.8%百分之二十九点九百分之四十二点九43.5%35.3%55.7%55.2%百分之二十一点四百分之三十点五百分之三十九点五百分之三十九点四百分之五十点一百分之五十四点七22.7%百分之二十九点七百分之四十一点五42.2%百分之四十九点五百分之五十四点五百分之十二点五百分之十九点零百分之三十八点四百分之三十二点八百分之四十八点一百分之五十点六FIAFIA+PITIDIM百分之五十四点九55.1%百分之五十六点八百分之五十二点九46.9%百分之五十四点九百分之四十四点七56.2%百分之三十七点四百分之五十点六MIM百分之三十六点九34.8%百分之三十六点二百分之三十七点四22.0%昏暗百分之五十四点三百分之五十四点六百分之五十三点三百分之五十点四33.5%蒂姆百分之四十一点五百分之三十七点五43.1%47.6%百分之三十四点一RES-152PIMTIDIM40.7%52.4%38.9%48.6%46.9%百分之五十七点五百分之五十一点八61.1%百分之三十八点八46.3%PITIDIM百分之五十一点九49.0%58.6%百分之六十四点八百分之四十七点九FIA百分之七十点一66.7%百分之六十一点四60.3%41.7%FIA+PITIDIM百分之六十六点三百分之六十二点五69.6%百分之七十二点七百分之六十一点四MIM64.3%61.1%64.3%64.3%45.0%昏暗百分之六十九点九百分之六十六点二百分之七十点三百分之六十七点八百分之四十九点九蒂姆52.8%百分之四十六点二55.1%55.3%41.6%VGG-16PIMTIDIM百分之五十一点九59.1%百分之四十三点二48.2%50.2%59.6%百分之五十六点三60.3%百分之三十九点九百分之四十七点九PITIDIM51.0%百分之四十四点六55.6%百分之六十点七43.1%FIA87.8%86.3%百分之八十五点六86.0%70.8%FIA+PITIDIM百分之七十四点七71.4%百分之七十七点三百分之八十点一67.0%它由1000张图像组成，用于NIPS 2017对抗赛。目标型号：所提出的FIA在十二个最先进的分类模型上进行了验证，包括七个正常训练的模型 * 和五个对抗训练的模型 *（即，防御模型）。正常训练的模型是Inception-V3 （ Inc-v3 ） [29] 、 Inception-V4 （ Inc-v4 ）7647[28]、Inception-ResNet-V2（IncRes-v2）[28]、ResNet-V2 （ IncRes-v3 ） [29] 、 Inception-V4 （ IncRes-v4 ）[29] 、 Inception-V4 （ IncRes-v4 ） [29] 、 Inception-ResNet-V2（IncRes-v2）[29]、Inception-V4（IncRes-v4 ） [29] 、 Inception-ResNet-V2 （ IncRes-v2 ） [29] 、Inception-V4（IncRes-v4）[29]、Inception-V4（IncRes-v4）[29]、Inception-V2（IncRes-v2）[29]、V1-50 （ Res-50 ） [11] 、 ResNet-V1-152 （ Res-152 ）[11] 、 VGG16 （ Vgg-16 ） [26] 和 VGG19 （ Vgg-19 ）[26]。与对抗训练[19，32]，相应的防御模型是Adv-Inc-v3，Adv-IncRes-v2 ， Ens 3-Inc-v3 ， Ens 4-Inc-v3 和 Ens-IncRes-v2。基线攻击：为了证明所提出的FIA的有效性，我们将其与各种最先进的攻击方法进行比较，例如，MIM [5]、DIM [35]、TIM[6]、PIM [8]以及这些方法的组合版本，即，[6]，[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]，[19]，[19]，[19]。此外，还涉及最近的特征级攻击，即，NRDM[24]、FDA [7]。参数设置：在所有实验中，最大扰动ε= 16，迭代T= 10，步长* 网址https://github.com/tensorflow/models/tree/master/research/slim†https://github.com/tensorflow/models/tree/archive/research/adv_imagenet_模型α=ε/T= 1。6（重述算法1）。对于基线at- tacks，变换概率在DIM中为0.7，并且对于TIM，核大小为15由于PIM的设置会因目标模型和方法组合方式的不同而不同，我们将具体详细说明其设置（即，放大因子β、投影因子γ和投影核大小kw）。在所提出的FIA中，下降概率p d= 0。当攻击正常训练的模型并且p d= 0时。1时攻击防御模型，和集合数N= 30的聚合梯度。对于特征级的at- tacks，我们选择相同的层，即Inc-V3的混合5 b，Vgg-16的Conv 3 3，InRes-V2的Conv 4a，以及Res-152的第二块的最后一层5.2. 可转移性比较为了定量地比较所提出的FIA和基线之间的可转移性，我们分别选择Inc-v3、IncRes- v2、Res-152、Vgg-16作为源模型，并攻击其他正常训练的模型（表1）和防御模型（表2）。请注意，TIM未包含在表1中，因为它是为防御模型设计的。有关定性比较，请参阅补充资料。攻击正常训练的模型。我们跟着布景走-7648∼表3.当使用包含Res-50、Res-152、Vgg-16和Vgg-19的集成模型时，针对防御模型的不同攻击的成功率。最佳结果以粗体突出显示。攻击adv.Inc-v3adv.IncRes-v2Ens3-Inc-v3Ens4-Inc-v3恩-IncRes-v2MIM71.0%69.6%70.6%71.3%百分之五十一点七昏暗81.2%83.6%81.6%百分之七十九点八65.9%蒂姆68.0%百分之六十三点九70.7%百分之七十二点七百分之六十点七PIM72.1%66.4%百分之七十六点三79.3%68.2%潮汐74.4%68.3%75.9%77.8%百分之六十七点一PITIDIM72.1%66.4%百分之七十六点三79.3%68.2%FIA百分之九十点九百分之九十88.0%88.4%百分之七十五点八在[8]中，即，对于P顶，β= 10，γ= 16，并且β= 2。5，对于PIM和DIM的组合版本PIDIM，γ= 2两种方法的项目内核大小kw= 3如表1所示，我们的方法显著优于其他方法的可转移攻击，平均提高特别是，FIA对每个正常训练的模型的成功率始终达到90%以上，而其他方法可能会下降到大约90%。目标型号：IncRes-v28078767472706866510152025303540集成号目标型号：Adv-Inc-v355524946434037510152025303540集成号目标型号：Vgg-167270686664510152025303540集成号目标型号：Ens 4-Inc-v34540353025510152025303540集成号60%在转移攻击。我们的方法可以容易地适用于其它方法以进一步提高可转移性，FIA+PIDIM是FIA和PIDIM的组合（β= 2。5，γ= 2，kw= 3），成功率提高1%~ 10%。最后，与其他特征级攻击相比，即与NRDM和FDA相比，FIA在所有情况下（白盒攻击和黑盒攻击）都表现最好，这证明了所提出的聚合梯度在定位关键对象感知特征方面的有效性在不同的模型中主导决策。表1中的结果也给出了对模型复杂性和可转移性之间关系的洞察，即，较不复杂/较小的模型倾向于产生较高的可转移对抗性示例（前提是模型应当实现相似的分类精度）。例如，当使用Vgg-16作为源模型时，它直观地说，那些较大的模型（例如，IncRes-v2和Res-152）提供了更大的搜索空间，使得更难以避免局部最优。攻击防御模型由于防御模型是对抗性训练的，因此对对抗性示例显示出很强的鲁棒性。在表2中，由于其他特征级攻击的性能较差，因此未列出它们。在PIM中，我们遵循[8]的建议删除动量项，因为它可能会阻碍攻击防御模型的性能。PIM及其组合的设置为β=10、γ= 16和kw= 7。如表2所示，FIA或相应的组合版本FIA+PITIDIM（β= 2. 5，γ= 2。0，且kw= 7）优于其它方法。在大多数情况下，FIA+PITIDIM和FIA排名前两名，与FIA相比，FIA+PITIDIM将进一步平均而言，我们的方法将成功率提高了约12.8%，p_d=0.5p_d=0.4p_d=0.3p_d=0.2p_d=0.1p_d=0.5p_d=0.4p_d=0.3p_d=0.2p_d=0.1p_d=0.5p_d=0.4p_d=0.3p_d=0.2p_d=0.1p_d=0.5p_d=0.4p_d=0.3p_d=0.2p_d=0.1攻击成功率攻击成功率攻击成功率攻击成功率7649图5.丢弃概率和系综数对攻击成功率对抗性示例由FIA生成，其中针对源模型Inc-v3具有不同的参数设置丢弃概率以0.1的步长从0.1变化到0.5，并且系综数以5的步长从5变化到40。上一行是攻击两个正常训练模型IncRes-v2和Vgg-16的成功率，下一行是攻击两个防御模型Adv-Inc-v3和Ens 4-Inc-v3的结果。攻击防御模型相比，其他方法。由于攻击防御模型的可转移性相对较低，我们通过在模型集合上生成对抗性示例来进一步提高可转移性[21]，这可以防止对抗性示例陷入单个模型的局部最优。按照[8]中的设置，即，对于P顶及其组合形式，β= 5和γ= 8，结果示于表3中，其中所有方法均为改进的。证明，我们的方法仍然优于其他人。5.3. 集料级配有三个参数，即，丢弃概率pd、集合数N和层k（等式1）。3），这影响了拟议的FIA的性能。对于前两个参数，我们采用Inc-v3作为源模型，并以0.1的步长将pd从0.1修改为0.5。对于每个pd，N以5的步长从5变为40。图5示出了通过攻击IncRes-v2、Vgg-16、Adv-Inc-v3和Ens 4-Inc-v3的Pd和N的影响，其中丢弃概率和系综数以跨不同目标模型大致一致的方式影响成功率。更具体地，丢弃概率Pd在影响成功率方面起重要作用，并且这种影响在不同的目标模型中趋于一致大PD（例如，0.5)会破坏重要的结构信息7650攻击成功率攻击成功率..LL3KK100源模型：Inc-v3100源型号：Vgg-1610080源模型：Inc-v3906080804060702040 Inc-v3Inc-v4IncRes-v2Res-152VGG-1620Adv-Inc-v3Ens4-Inc-v3Ens-IncRes-v2Conv_2bConv_4a混合7a图层名称60Inc-v3Inc-v4IncRes-v250RES-152Vgg-16Adv-Inc-v340Ens4-Inc-v3Ens-IncRes-v2Conv1_2Cnov2_2Conv3_3Conv4_3Conv5_3图层名称010080Inc-v3 Inc-v4IncRes-v2RES-152VGG-16Adv-Inc-v3Ens4-Inc-v3 Ens-IncRes-V2目标模型源型号：Vgg-16图6.层的选择对攻击成功率的影响。来自源模型的不同层（即，Inc-v3和Vgg-16）来生成对抗性示例，针对不同的目标模型报告其成功率。因此显著降低了成功率。因此，用于攻击正常训练模型的最佳pd在0.2和0.3之间，并且如果攻击防御模型，则其应该在0.1左右对于系综数N，较大的N倾向于产生较高的成功率，但将逐渐饱和最后，我们确定系综数N = 30，丢弃概率Pd= 0。3，并且p d=0。1对防御模式。特征层k的选择对攻击级别的攻击影响很大，因为DNN的早期层可能正在努力构建一个基本特征集，通常是-6040200Inc-v3 Inc-v4IncRes-v2RES-152VGG-16Adv-Inc-v3Ens4-Inc-v3 Ens-IncRes-V2目标模型图7.骨料坡度对攻击成功率的影响。L1在没有梯度指导的情况下优化特征失真，L2使用原始梯度，L3采用聚合梯度。从原始干净图像的梯度。图7分别示出了使用三种损失的成功率L1=Σfk（x）−fk（xadv），（8）L2=Σ（∆clean⊙（fk（x）−fk（xadv），（9）L=Σ（∆⊙（f（x）−f（xad v）。（十）例如，模型可以是数据特定的，并且另外的层可以处理这些提取的特征以最大化模型的分类准确性，这使得特征变得模型特定[16]。因此，早期的层还没有学习到真实类的显著特征和语义概念，而后面的层是模型特定的，这在可转移攻击中应该避免相比之下，中间层具有良好分离的类表示，并且它们与模型架构不高度相关，因此中间层是为了更好的可移植性而被攻击的最佳选择。同样的结论可以从图中得出。6，其报告了通过在不同源模型层上优化的对抗示例攻击不同目标模型的成功率。基于这一结论，我们首先为每个源模型选择几个中间层，并根据实验结果确定最终的攻击层。5.4. 消融研究提出的流动注射算法的关键是聚合梯度Δ，这显著提高了可转移性，如上述结果所示。为了突出聚合梯度的贡献，我们进行了消融研究，以比较具有和不具有聚合梯度的物镜的性能。我们构造了三个目标函数，如下所示，其中1优化了特征发散度，而没有像大多数基线方法那样的约束，L3相当于我们提出的损失（等式。4）. L2使用非聚合梯度∆clean，即L1L2L3L1L2L3攻击成功率攻击成功率7651建议的损失3在所有情况下都以较大的幅度优于其他损失，表明建议的聚合梯度的有效性。6. 结论在这项工作中，我们提出了一个特征重要性感知攻击（FIA），以产生高度可转移的对抗性的例子，其有效性在我们的exhaustive实验证明。FIA通过不同分类模型的聚合梯度来探索特征的重要性，并将这种可转移的信息引入到对抗性样本的搜索中。因此，优化过程被引导到破坏主导模型决策的关键对象感知特征，从而获得显著的可移植性。我们进行了大量的实验，以证明FIA的优越性能相比，这些国家的最先进的方法，我们的方法可以作为一个基准，用于评估各种模型的鲁棒性。致谢本工作得到国家自然科学基金（批准号：20000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

下载后可阅读完整内容，剩余1页未读，立即下载