平移不变攻击规避可转移对抗样本防御

198 浏览量更新于2023-10-18 收藏 1.95MB PDF 举报

防御策略

计算机安全

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4312利用平移不变攻击规避对可转移对抗样本的防御董银鹏，庞天宇，苏航，朱军部的Comp. Sci.技术，国家重点实验室BNRist中心。Tech. &系统：清华大学人工智能研究所，清华大学人工智能实验室，北京，100084{dyp17，pty17}@ mails.tsinghua.edu.cn，{suhangss，dcszj}@ mail.tsinghua.edu.cn摘要深度神经网络容易受到对抗性示例的影响，这些示例可能会通过添加不可感知的扰动来误导分类器。对抗性示例的一个有趣特性是它们良好的可移植性，使得黑盒攻击在现实世界的应用中变得可行。由于对抗性攻击的威胁，已经提出了许多方法来提高鲁棒性。几个国家的最先进的防御被证明是强大的对可转移的对抗性的例子。在本文中，我们提出了一个防御不变的攻击方法，以产生更多的可转移的对抗性的例子对防御模型。通过优化翻译图像集合上的扰动，生成的对抗性示例对被攻击的白盒模型不太敏感为了提高攻击的效率，我们进一步证明了我们的方法可以通过将未翻译图像的梯度与预定义的内核进行卷积来实现。我们的方法一般适用于任何基于梯度的攻击方法。在ImageNet数据集上的大量实验验证了该方法的有效性。我们最好的攻击愚弄八个国家的最先进的防御在82%的成功率平均只基于可转移性，证明了当前的防御技术的不安全性。1. 介绍尽管取得了巨大的成功，但深度神经网络已被证明非常容易受到对抗性示例的影响[3，32，10]。这些恶意生成的对抗性示例通过添加小扰动与合法示例无法区分，但会使深层模型产生不合理的预测。即使在物理世界[15，8，2]中，对抗性示例的存在也引起了对安全敏感应用的关注，例如，自动驾驶汽车，医疗保健和金融。*通讯作者。原始图像FGSM TI-FGSM图1.由快速梯度符号法（FGSM）[10]和针对Inception v3 [31]模型提出的不变性FGSM（TI-FGSM）生成的对抗性示例。攻击深度神经网络已经引起了越来越多的关注，因为生成的对抗性示例可以作为评估不同模型的鲁棒性的重要替代[5]并提高鲁棒性[10，20]。已经提出了几种方法来生成具有给定模型的梯度信息的对抗性示例，例如快速梯度符号方法[10]，基本迭代方法[15]和Carlini Wagner此外，它表明对抗性示例具有跨模型转移能力[19]，即，为一个模型制作的对抗性示例可以以很高的概率欺骗另一个模型。这种可移植性使得实际的黑盒攻击能够应用于现实世界的应用程序，并引发严重的安全问题。对抗性示例的威胁激发了对构建鲁棒模型或技术以防御对抗性攻击的广泛研究。这些方法包括使用对抗性示例进行训练[10，33，20]，图像降噪，[18，36，11]，理论上证明的去-[26][ 29][28][29][29][29][29尽管非认证防御已经证明了对常见攻击的鲁棒性，但它们通过引起混淆的梯度来实现，这可以很容易地被新的攻击绕过[1]。4313Inception v3成立ResNetv2ResNet 152Tramer等.（2018）Liao et al.（2018年）Xie等人（2018）Guo等人（2018年）图2.与正常训练的模型相比，防御模型的不同区分区域的证明。我们采用类激活映射[38]来可视化三个正常训练模型的注意力图-Inception v3 [31]，Inception ResNetv2 [30]，ResNet 152 [12]和四个防御模型[33，18，36，11]。与正常训练的模型相比，这些防御模型依赖于不同的判别区域进行预测，这可能会影响对抗性示例的可转移性。然而，一些防御[33，18，36，11]声称对可转移的对抗性示例具有抵抗力，因此很难通过黑盒攻击来规避它们。防御模型对可转移的对抗性示例的抵抗力主要是由于与正常训练的模型相比，防御基于不同的区分区域例如，我们在图中显示了几个正常训练模型和防御模型的注意力图。2，以表示用于其预测的判别区域。可以看出，正常训练的模型具有相似的注意力地图，而防御诱导不同的注意力地图。在[34]中也发现了类似的观察结果，即输入空间中防御的梯度与人类感知一致，而正常训练的模型则显得非常嘈杂。这种防御现象是由在不同的数据分布下训练[33]或在分类之前转换输入[18，36，11]引起的对于基于可转移性的黑盒攻击[10，19，7]，通常针对白盒模型的单个输入生成对抗性示例因此，生成的对抗性示例与白盒模型在给定输入点处的区分区域或梯度高度相关，使得难以转移到依赖于不同区域进行预测的其他防御模型。因此，对抗性示例的可移植性在很大程度上降低了防御。为了减轻模型之间不同区分区域的影响，并通过可转移的对抗性示例来规避防御，我们提出了一种防御不变的攻击方法。特别是，我们生成一个对抗性的例子，一个合法的一个及其翻译版本组成的图像的合奏。我们预计，由此产生的对抗性示例对被攻击的白盒模型的区分区域不太敏感，并且有更高的概率欺骗另一个具有防御机制的黑盒模型。然而，为了生成这样的扰动，我们需要计算集合中所有图像的梯度，这带来了更多的计算。到提高我们的攻击效率，我们进一步表明，我们的方法可以实现卷积的梯度在未翻译的图像与一个预先定义的内核在一个温和的假设。通过将所提出的方法与任何基于梯度的攻击方法（例如，快速梯度符号法[10]等），我们获得了更多的可转移的对抗性例子，具有相似的计算复杂度。在ImageNet数据集上进行的大量实验[27]表明，所提出的防御不变攻击方法有助于大幅提高黑盒攻击对防御模型的成功率。我们最好的攻击达到了82%的平均成功率，仅基于可转移性就避开了八种最先进的防御，从而证明了当前防御的不安全性。2. 相关工作对抗性的例子。深度神经网络已被证明容易受到对抗性示例的攻击，首先是在视觉领域[32]。然后提出了几种方法来生成对抗性示例，以实现高成功率和最小扰动大小[10，15，5]。它们也存在于物质世界中[15，8，2]。虽然对抗性的例子最近制作了许多其他领域，我们专注于图像分类任务在本文中。黑箱攻击。黑盒对手无法访问模型参数或梯度。对抗性示例的转移能力[19]可以用来攻击黑盒模型。已经提出了几种方法[7，37除了基于传输的黑盒攻击之外，还有另一种基于自适应查询的攻击。例如，Papernotet al.[25]使用查询来提取目标模型的知识并训练代理模型。因此，他们将黑盒攻击转变为白盒攻击。最近的方法使用查询来估计黑盒模型的梯度或决策边界[6，4]以生成对抗性示例。43140不t+1tt∞然而，这些方法通常需要大量的查询，这在实际应用中是不切实际的。在本文中，我们诉诸于基于传输的黑盒攻击。攻击的一个合奏的例子。对抗性扰动可以为合法示例的集合生成在[22]中，对整个数据分布产生了普遍扰动，这可以欺骗模型大部分自然图像。在[2]中，对抗扰动在变换分布上进行了优化，这与我们的方法类似。[2]中的方法和我们的方法之间的主要区别是三方面的。首先，我们希望生成针对防御模型的可转移对抗示例，而[2]中的作者提出在物理世界中合成鲁棒对抗示例。第二，我们只使用平移操作，而他们使用了很多变换，如旋转，平移，添加噪音等。第三，我们开发了一种有效的优化算法，只需要计算未翻译图像的梯度，而他们通过采样来计算一批变换图像的梯度。防御敌对攻击。已经提出了各种方法来提高深度学习模型的鲁棒性。除了直接制作模型对于对抗性的例子产生正确的预测，一些方法试图检测它们[21，23]。然而，大多数未经认证的防御通过引起模糊梯度来展示鲁棒性，这可以被新的攻击成功规避[1]。虽然这些防御在白盒环境中并不强大，但其中一些[33，18，36，11]在经验上显示了对黑盒环境中可转移对抗性示例的抵抗。在本文中，我们专注于针对这些防御生成更多3. 方法在本节中，我们提供了我们的算法的详细描述令xreal表示一个真实的例子，y表示相应的地面真值标签。给定一个分类器f（x）：X → Y，它输出一个标签作为对一个输入，我们想生成一个对抗性的例子xadv它在视觉上与xreal无法区分，但欺骗了为了解决这个优化问题，需要计算损失函数相对于输入的梯度，称为白盒攻击。然而，在某些情况下，我们无法访问分类器的梯度，我们需要以黑盒方式执行攻击我们采用可转移的对抗性示例，这些示例是为不同的白盒分类器生成的，但对于黑盒攻击具有高3.1. 基于梯度的对抗攻击方法已经提出了几种方法来解决方程中的优化问题。（一）.我们在本节中对它们进行简要介绍。快速梯度符号法（FGSM）[10]通过线性化输入空间中的损失函数并执行一步更新来生成对抗示例xadv，如下所示：xadv=xreal+·sign（xJ（xreal，y）），（2）其中，ΔxJ是损失函数相对于x的梯度。sign（·）是使扰动满足L∞范数界的符号函数FGSM可以生成更多可转移的对抗性示例，但通常效果不佳。足以攻击白盒模型[16]。基本迭代方法（BIM）[15]通过以小步长α多次迭代应用梯度更新来扩展FGSM，其可以表示为xadv=xadv+α·sign（xJ（xadv，y）），（3）其中xadv= xreal。为了将生成的对抗样本限制在xreal的球内，我们可以在每次更新后裁剪xadv，或者设置α = x/T，其中T是迭代次数。已经表明，BIM比FGSM引起更强大的白盒攻击，代价是更差的可移植性[16，7]。动量迭代快速梯度符号方法（MI-FGSM）[7]提出通过将动量项集成到迭代攻击方法中来提高对抗性示例的可移植性。更新程序是J（xadv，y）分类器，即，f（xadv）y. 1在大多数情况下，常态gt+1 =µ·gt+xt，（4）ǁ∇xJ(xadv, y)ǁ对抗扰动需要小于a门槛值||xadv−xreal||p≤100。本文利用Advt1AdvL∞范数作为度量。对于对抗样本生成，目标是最大化分类器的损失函数J（xadv，y），其中J通常是交叉函数。熵损失因此，约束优化问题可以写成arg maxJ（xadv，y），s.t. xadv−xreal（一）xadv1这相当于无目标攻击。该方法可以简单地推广到目标攻击。xt+1=xt+α·sign（gt+1），（5）其中，gt收集梯度信息，直到第t次，衰减因子为μ。多样输入方法[37]对输入应用随机变换，并将变换后的图像馈送到分类器中进行梯度计算。该变换包括具有给定概率的随机填充和填充。该方法可以与基于动量的方法相结合，进一步提高可移植性。4315Carlini Wagnerargminxadv−xrealp−c·J（xadv，y），（6）xadv其中损失函数J可以不同于交叉熵损失。该方法旨在寻找具有最小扰动的对抗性它也缺乏像BIM这样的黑盒攻击的有效性。3.2. 平移不变攻击方法尽管许多攻击方法[7，37]可以生成在正常训练模型之间具有非常高的可移植性的对抗性示例一些防御[33，18，36，11]被证明对黑盒攻击非常强大。所以我们想回答：这些防御真的没有可转移的对抗性例子吗？我们发现，防御者用来识别物体类别的判别区域与防御者用来识别物体类别的判别区域不同，使用正常训练的模型，如图所示二、当我们可以通过卷积神经网络中平移不变性的假设[17]开发一种有效的算法来计算损失函数的梯度3.2.1梯度计算为了解决方程中的优化问题。（7），我们需要计算（2k+1）2个图像的梯度，这引入了更多的计算。采样少量的平移图像进行梯度计算是一种可行的方法[2]。但是我们证明了在一个温和的假设下，我们只能计算一幅图像的梯度卷积神经网络被认为具有不变性[17]，即输入中的对象可以被识别，而不管其位置如何。在实践中，CNN并不是真正的双稳态不变[9，14]。因此，我们假设在非常小的平移下几乎保持平移不变性（这在第二节中得到了实证验证）4.2）。在我们的问题中，我们沿着每个维度移动图像不超过10个像素（即，k≤10）。因此，基于该假设，翻译图像Tij（x）几乎与作为模型输入的x以及它们的梯度生成一个对抗性的例子的方法介绍在第二节。3.1，对抗性示例仅优化.（x，y）.x=Tij（x）.（x，y）.x=x .（八）一个合法的例子。因此，它可以与输入数据点处被攻击的白盒模型的区分区域或梯度对于其他具有不同区分区域或梯度的黑盒防御模型，对抗性示例几乎无法重新识别。然后，我们计算定义由方程式（7）在点x处，. ΣΣxwijJ（Tij（x），y）. x=xi、jΣ。主要对抗。因此，辩护被证明是对可转移的对抗性示例鲁棒。生成不太敏感=i、jΣwij<$xJ（Tij（x），y）.x=x.T （x）针对白盒模型的可区分区域，提出了一种不变性攻击方法。在部分-=i、j wij ij（x） J（Tij（x），y）·ijx..x=x（九）ular，而不是优化目标函数在一个单一的点，方程。（1），所提出的方法使用一组翻译的图像来优化对抗性示例，Σ=i、jΣwijT−i−j..（x，y）.X=T.Σ（x）Σarg maxwijJ（Tij（xadv），y），≈i、jwijT−i−j（x，y）.x=x）。xadvi、j（七）给定等式（9）我们不需要计算梯度S.T.n×adv−xrealn∞≤，（2k +1）2个图像。相反，我们只需要得到未平移图像x的梯度，然后计算所有平移图像的平均值。其中Tij（x）是平移图像的平移操作，分别沿着二维的x乘i和j个像素梯度此过程等效于将具有由所有权重wij组成的核的梯度，即，经平移的图像的每个像素（a，b）是T ij（x）a，b= 0。.xa−i，b−j，wij是损失J（Tij）的权重（xadv），y）。i、jwijT−i−j（x，y）.x = x（x，y）惠W（x，y）.x=x，我们设i，j ∈ {−k，.，0，…其中k是最大的要移动的像素数。使用此方法，生成IJ4316对抗性示例对被攻击的白盒模型的区分区域不太敏感我们在本文中选择平移操作而不是其他变换（例如，旋转、缩放等），因为其中W是大小为（2k +1）×（2k +1）的核矩阵，Wi，j=w-i-j。 We将在下一节中指定W。3.2.2核矩阵有许多选项来生成核矩阵W。一个基本的设计原则是，4317√电话+1不不应该具有相对较低的权重，以使对抗扰动有效地欺骗未转换图像处的模型。在本文中，我们考虑三种不同的选择：(1) 一个一致的核，Wi，j=1/（2k+1）2;0.50.1010500.50.11001051050500(2) 一个线性核，W∈ i，j =（1−|/ k +1）·（1−|/k+1)·(1−|/ k+1），|/k+1),Y-5-5x-10-10Y-5-5x-10-10和Wi、j=Wi，j/i、jWi，j;(a) Inc-v3（b）Inc-v42 2(3) 一个高斯核t，它是W∈ i，j =12exp（−i+j）2πσ2σ2其中标准差σ=k/3，0.50.40.50.4核的半径为3σ，Wi、j=Wi，j/i，jW.i，j.0.30.20.10.30.20.1我们将在第二节中对这三种内核进行经验四点三。3.2.3攻击算法01050Y-550-5x-10-101001050Y-51050-5x-10-10请注意，在SEC。3.2.1，我们只说明如何计算方程中定义的损失函数的梯度。（7），但不指定用于生成反例的更新算法。这表明，我们的方法可以集成到任何基于梯度的攻击方法，例如， FGSM 、BIM、MI-FGSM等对于第二节中3.1，在每一步中，我们计算梯度在当前解xadv求出xJ（xadv，y），然后卷积（c）Inc-Res-v2（d）Res-v2-152图3.我们显示了Inc-v3，Inc-v4，IncRes-v2和Res-v2-152的损失表面，给出了每个位置的平移图像。NIPS 2017对抗赛我们包括八个防御模型，这些模型对ImageNet数据集上的黑盒攻击具有鲁棒性这些是• Inc-v3ens3、Inc-v3ens4、IncRes-v2ens3;• 高级表示引导去噪器（HGD，秩-具有预定义内核W的梯度，最后是ob-在不同的攻击方法下，遵循更新规则，得到新的解xadv例如，我们的平移不变方法和快速梯度符号方法[10]的组合（TI-FGSM）具有以下更新规则xadv=xreal+·sign（WxJ（xreal，y））.（十）此外，将不变量方法集成到基本迭代方法[15]中，得到TI-BIM算法xadv=xadv+α·sign（WxJ（xadv，y））.（十一）NIPS 2017年国防竞赛中的1件作品）[18];• 通过随机填充和填充进行输入转换（R P，NIPS2017年防御竞赛中的排名2）[36];• 通过JPEG压缩或总方差最小化（TVM）进行输入变换[11];• 在NIPS 2017国防竞赛（NIPS-r3）中排名3t+1t为了攻击这些基于可转移性的防御，我们同样地，可以将不变量方法[27][28][29]DIM，分别。4. 实验在本节中，我们提出的实验结果来证明所提出的方法的有效性。我们首先在第二节中指定实验设置。4.1.然后，我们验证了卷积神经网络的收敛不变性。四点二。我们进一步进行了两个实验，以研究不同的内核和内核大小的影响，在秒。4.3和Sec. 4.4最后，我们比较了所提出的方法与基线方法的结果。4.5和第四点六分。4.1. 实验设置我们使用由1，000张图像组成的ImageNet兼容数据集2进行实验。该数据集用于损失损失损失损失0.40.40.30.30.20.24318还包括四个正常训练的模型-Inception v3（Inc-v3）[31] ， Inception v4 （Inc-v4 ）， Inception ResNet v2（ IncRes-v2 ） [30] 和 ResNet v2-152 （ Res-v2-152 ）[13]，作为白盒模型来生成对抗性示例。在我们的实验中，我们将我们的方法集成到快速梯度符号方法（FGSM）[10]，动量迭代快速梯度符号方法（MI-FGSM）[7]和不同输入方法（DIM）[37]中。我们不包括基本的迭代方法[15]和C W我们将与我们的攻击不变的方法相结合的攻击分别表示为TI-FGSM，TI-MI-FGSM和TI-DIM。对于超参数的设置，我们在[0，255]中的像素值的所有实验中将最大扰动设置为λ=16。对于迭代攻击方法，我们设置迭代次数为10，步长为α=1。六、对于MI-FGSM和TI-MI-FGSM，我们采用默认衰减因子µ=1。0的情况。对于DIM和TI-DIM，2https://github.com/tensorflow/cleverhans/tree/master/examples/nips17_adversarial_competition/dataset3https://github.com/anlthms/nips-2017/tree/主/MMD4319IncRes-v2-ensHGDR PTVMNIPS-r3IncRes-v2-ensHGDR PTVMNIPS-r3成功率（%）成功率（%）攻击Inc-v3ens3Inc-v3ens4IncRes-v2ensHGDR PJPEGTVMNIPS-r3均匀25.027.921.115.719.124.832.321.9TI-FGSM线性30.732.424.220.923.328.134.625.8高斯28.228.922.318.419.825.530.724.5均匀30.032.222.821.722.826.432.725.9TI-MI-FGSM线性35.835.026.825.523.429.035.827.5高斯35.835.125.825.723.928.234.926.7均匀32.634.625.624.127.230.234.928.8TI-DIM线性45.247.034.935.635.238.543.639.7高斯46.947.137.438.336.837.044.241.4表1.黑盒攻击的成功率（%）对八种防御与不同的内核选择。对抗性示例由TI-FGSM、TI-MI-FGSM和TI-DIM分别使用均匀核、线性核和高斯核为Inc-v350 50 5040 40 4030 30 3020 20 2010 10 100135791113151719 21核长度0135791113151719 21核长度0135791113151719 21核长度(a)TI-FGSM（b）TI-MI-FGSM（c）TI-DIM图4.针对IncRes-v2 ens、HGD、RP&、TVM和NIPS-r3的黑盒攻击的成功率（%）。对抗性示例是针对Inc-v3生成的，内核长度范围从1到21。转换概率设为0。7 .第一次会议。请注意，每种攻击方法及其防御不变版本的设置都是相同的，因为我们的方法与特定的攻击过程无关。4.2. CNN的平移不变性在本节中，我们首先验证卷积神经网络的不变性我们使用数据集中的原始1，000张图像，并将其移动-10到每个维度10个像素我们输入原始的im-年龄以及翻译成Inc-v3，Inc-v4，IncRes-v2和Res-v2-152。每个输入图像的损失由模型给出。我们对每个位置的所有平移图像的损失进行平均，并在图中显示损失表面。3 .第三章。可以看出，损失面通常是光滑的，在每个维度上的平移从-10到10。所以我们可以假设平移不变性几乎保持在一个小范围内。在我们的攻击中，图像沿着每个维度移动不超过10个像素。原始图像和翻译图像的损失值非常相似。因此，我们认为，我们认为翻译后的图像与作为模型输入的相应原始图像几乎相同。4.3. 不同内核在这一节中，我们展示了所提出的具有不同攻击参数的攻击方法的实验结果。选择kernels我们用TI-FGSM、TI-MI-FGSM和TI-DIM攻击Inc-v3模型，并分别使用三种核，即，均匀内核，线性内核，高斯内核，内核，如在第二节介绍。第3.2.2条。在表1中，我们报告了针对我们研究的八个防御模型的黑盒攻击的成功率，其中成功率是以生成的对抗图像作为输入的相应防御模型的错误分类率。我们可以看到，对于TI-FGSM，线性核导致比均匀核和高斯核更好的结果对于更强大的攻击，如TI-MI-FGSM和TI-DIM，高斯核可以实现与线性核相似甚至更好的结果。然而，线性核和高斯核都比均匀核更有效。这表明，我们应该设计的内核，具有较低的权重较大的位移，讨论在第二节。第3.2.2条。在下面的实验中，我们简单地采用高斯核。4.4. 内核大小核W的大小对于提高黑盒攻击的成功率也起着关键作用。如果核大小等于1×1，则基于防御不变的攻击退化为它们的普通版本。因此，我们进行了消融研究，以检查内核大小的影响。我们使用TI-FGSM、TI-MI-FGSM和TI-DIM攻击Inc-v3模型，使用高斯核，其长度范围为1到21，粒度为2。图4、我们展示了...IncRes-v2-ensHGDR PTVMNIPS-r3成功率（%）4320攻击Inc-v3ens3Inc-v3ens4IncRes-v2ensHGDR PJPEGTVMNIPS-r3Inc-v3FGSMTI-FGSM15.628.214.728.97.022.32.118.46.519.819.925.518.830.79.824.5Inc-v4FGSMTI-FGSM16.228.216.128.39.021.42.618.17.921.621.827.919.931.811.524.6IncRes-v2FGSMTI-FGSM18.032.817.233.610.228.13.925.49.928.124.732.423.438.513.331.4Res-v2-152FGSMTI-FGSM20.234.617.734.59.927.83.624.48.627.424.032.722.038.112.530.1表2.黑盒攻击对八种防御的成功率（%）。对抗性示例分别使用FGSM和TI-FGSM为Inc-v3、Inc-v4、IncRes-v2和Res-v2-152制作。攻击Inc-v3ens3Inc-v3ens4IncRes-v2ensHGDR PJPEGTVMNIPS-r3Inc-v3MI-FGSMTI-MI-FGSM20.535.817.435.19.525.86.925.78.723.920.328.219.434.912.926.7Inc-v4MI-FGSMTI-MI-FGSM22.136.720.139.212.128.79.627.812.128.026.031.624.838.415.629.5IncRes-v2MI-FGSMTI-MI-FGSM31.350.727.251.719.749.319.645.118.645.231.645.934.455.422.746.2Res-v2-152MI-FGSMTI-MI-FGSM25.139.923.737.713.332.815.131.814.631.131.238.324.541.218.034.4表3.黑盒攻击对八种防御的成功率（%）。对抗性示例分别使用MI-FGSM和TI-MI-FGSM为Inc-v3、Inc-v4、IncRes-v2和Res-v2-152制作。内核长度=1内核长度=3 内核长度=5内核长度=7 内核长度=9内核长度=11内核长度=13内核长度=15图5.用TI-FGSM为Inc-v3生成不同核大小的对抗性例子针对IncRes-v2ens、HGD、RP、TVM和NIPS-r3五种防御模型的成功率成功率起初继续上升，内核尺寸超过15×15。因此，下面将内核的大小设置为15×15我们还展示了为图中的TI-FGSM的Inc-v3模型具有不同的内核大小。五、由于内核提供的平滑效果，我们可以看到，当使用更大的内核时，对抗性扰动更平滑4.5. 单一模型攻击在本节中，我们将基于防御不变的攻击的黑盒成功率与基线攻击进行比较。首先，我们分别使用FGSM、MI-FGSM、DIM及其扩展，结合TI-FGSM、TI-MI等攻击不变攻击方法，FGSM和TI-DIM。我们采用15×15高斯核in this set组of experiments实验.然后，我们使用生成的对抗性示例来攻击我们仅基于可转移性考虑的八种防御模型。我们在表2中报告了FGSM和TI-FGSM的黑盒攻击成功率，表3报告了MI-FGSM和TI-MI-FGSM的黑盒攻击成功率，表4报告了DIM和TI-DIM的黑盒攻击成功率。从表中，我们观察到，当使用所提出的方法时，无论攻击算法或被攻击的白盒模型，对防御的成功率一般来说，基于防御不变量的攻击始终优于基线攻击减少了5%到30%。特别是，当使用TI-DIM时，我们的方法和DIM的组合，攻击IncRes-v2模型时，所得到的对抗性示例对防御的成功率约为60%（如表4所示）。它展示了当前防御黑盒攻击的脆弱性。仿真结果也验证了该方法的有效性虽然我们只比较了我们的攻击方法的结果与基地-4321攻击Inc-v3ens3Inc-v3ens4IncRes-v2ensHGDR PJPEGTVMNIPS-r3Inc-v3昏暗TI-DIM24.246.924.347.113.037.49.738.313.336.830.737.024.444.218.041.4Inc-v4昏暗TI-DIM28.348.627.547.515.638.714.640.317.239.338.643.529.145.614.141.9IncRes-v2昏暗TI-DIM41.261.340.060.127.959.532.458.730.261.447.255.741.766.237.661.5Res-v2-152昏暗TI-DIM40.556.136.055.524.149.532.651.826.450.442.450.836.855.734.452.9表4.黑盒攻击对八种防御的成功率（%）。对抗性示例分别使用DIM和TI-DIM为Inc-v3、Inc-v4、IncRes-v2和Res-v2-152制作。攻击Inc-v3ens3Inc-v3ens4IncRes-v2ensHGDR PJPEGTVMNIPS-r3FGSMTI-FGSM27.539.123.738.813.431.64.929.913.831.238.143.330.039.819.833.9MI-FGSMTI-MI-FGSM50.576.448.374.432.869.638.673.332.868.367.777.250.172.143.971.4昏暗TI-DIM66.084.863.382.745.978.057.782.651.781.482.583.464.179.863.783.1表5.黑盒攻击对八种防御的成功率（%）对抗性示例是使用FGSM、TI-FGSM、MI-FGSM、TI-MI-FGSM、DIM和TI-DIM为Inc-v3、Inc-v4、IncRes-v2和Res-v2-152的集合制作的线方法对防御模型，我们的攻击仍然是在白盒设置和黑盒设置对正常训练的模型，这将在附录中显示的基线攻击的成功率我们在图中显示了由FGSM和TI-FGSM为Inc-v3模型生成的两个对抗图像。1.一、可以看出，通过使用TI-FGSM，其中梯度在应用于原始图像之前由核W卷积，对抗性扰动比由FGSM生成的扰动平滑得多平滑效应同样存在于其他基于平移不变量的攻击中.4.6. 基于包围的攻击在本节中，我们将进一步介绍为模型集合生成对抗性示例时的结果Liu等[19]已经表明，同时攻击多个模型可以提高生成的对抗性示例的可移植性。这是因为，如果一个例子对于多个模型仍然是对抗性的，那么它更有可能转移到另一个黑盒模型。我们采用了[7]中提出的集成方法，该方法融合了不同模型的logit激活。我们分别使用FGSM、TI-FGSM、MI-FGSM、TI-MI-FGSM、DIM和TI-DIM以相等的系综权重攻击Inc-v3、Inc-v4、IncRes-v2和Res-v2-152的系综我们在基于平移不变量的攻击中，我们也使用了15×15在表5中，我们展示了针对这八种防御的黑盒攻击的结果。所提出的方法还提高了在基线攻击的所有实验的成功率。应该注意的是，TI-DIM生成的对抗性示例可以基于可转移性以平均82%的成功率欺骗最先进的防御。然后生成对于不知道防御策略的正常训练的模型。论文中的结果表明，目前的防御距离真正的安全还很远，不能部署在现实世界的应用中。5. 结论本文提出了一种对抗不变攻击方法，该方法生成的对抗样本对被攻击白盒模型的判别区域不敏感，对防御模型具有较高的可移植性。我们的方法通过使用一组翻译的图像来优化对抗图像。基于一个假设，我们的方法是有效地实现卷积的梯度与一个预定义的内核，并可以集成到任何基于梯度的攻击方法。通过实验验证了该方法的有效性.我们最好的攻击，TI-DIM，所提出的防御不变方法和不同输入方法的组合[37]，可以以平均82%的成功率欺骗八种最先进的防御，其中对手-针对四个正常训练的模型生成了al示例。结果发现了当前防御的漏洞，从而为开发更强大的深度学习模型提出了安全问题我们在https://github.com/dongyp13/Translation-Invariant-Attacks上公开我们的代码。确认本研究得到了国家重点研究发展计划（2004）的资助。2017YFA0700904）、国家自然科学基金项目（编号：6162010601061621136008 ， 61571261 ），北京 NSF 项目（ No.L172037），DITD项目JCKY2017204B064，天工智能计算研究所，NVIDIA公司的NVAIL Pro- gram，以及西门子和英特尔的项目。4322引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在ICML，2018。第1、3条[2] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。在ICML，2018。一、二、三、四[3] 巴蒂斯塔·比吉奥，伊基诺·科罗纳，达维德·马约卡，布莱恩·尼尔森，帕维尔·拉斯科夫，乔治·贾钦托和法比奥·罗利.在测试时对机器学习进行Eva- sion攻击。在2013年关于数据库中的机器学习和知识发现的联合欧洲会议上，第387-402页。1[4] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。在ICLR，2018年。2[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposium on Security and Privacy，2017。一、二、四、五[6] Pin Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，无需训练替代模型即可对深度神经网络进行攻击。在ACM人工智能和安全研讨会，第15-26页2[7] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在CVPR，2018年。二三四五八[8] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。在CVPR，2018年。一、二[9] Ian Goodfellow ， Honglak Lee ， Quoc V Le ， AndrewSaxe，and Andrew Y Ng.测量深度网络中的不变性NIPS，2009年。4[10] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。2015年，国际会议。一、二、三、五[11] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens Van Der Maaten.使用输入变换对抗性图像。在ICLR，2018年。一、二、三、四、五[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在ECCV，2016年。5[14] 埃里克·考德雷尔-艾布拉姆斯量化卷积神经网络中的不变性。arXiv预印本arXiv：1801.01450，2017。4[15] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。 arXiv 预印本 arXiv ：1607.02533，2016。一、二、三、五[16] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习。在ICLR，2017。3[17] 扬·勒昆和约瑟芬·本吉奥图像、语音和时间序列的卷积网络脑理论和神经网络手册，1995年。4[18] Fangzhou Liao ， Ming Liang ， Yinpeng Dong ， TanyuPang，Xiaolin Hu，and Jun Zhu.使用高级表示引导去噪器对抗攻击的防御在CVPR，2018年。一、二、三、四、五[19] Yanpei Liu，Xinyun Chen，Chang Liu，and Dawn Song.深入研究可

下载后可阅读完整内容，剩余1页未读，立即下载