深度神经网络的对抗性示例对模型性能具有显著影响，黑盒攻击的性能下降

52 浏览量更新于2023-10-13 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

可转移对抗性扰动周文[0000−0002−5485−287X]、侯欣[0000−0002−0788−3438]、陈拥军[0000−0002−3608−7799]、唐梦云[0000−0003−1210−2779]、黄祥琪[0000−0003−1612−0819]、甘祥[0000−0002−7495−0071]、杨勇[000 0−0003−2117−0853]腾讯安全平台部基础研究组{wen8.zhou，hx173149} @ gmail.com，{yongjunchen，mengyuntang，angelahuang，xenosgan，coolcyang} @ tencent.com抽象。最先进的深度神经网络分类器非常容易受到对抗性示例的影响，这些示例被设计成以非常小的扰动来误导分类器。然而，黑盒攻击（不知道模型参数）对部署模型的性能总是显着下降。在本文中，我们提出了一种新的扰动对抗性的例子，使黑箱传输。我们首先表明，在中间特征图中最大化自然图像与其对抗性示例之间的距离可以改善白盒攻击（具有模型参数的知识）和黑盒攻击。我们还证明了对抗扰动的平滑正则化能够跨模型转移。大量的实验结果表明，我们的方法优于国家的最先进的方法在白盒和黑盒攻击。关键词：对抗性扰动·可转移性·黑盒攻击1介绍最近，深度神经网络在许多领域实现了最先进的性能，例如计算机视觉[1，2]，语音识别[3]和机器翻译[4]。然而，最近的研究[5，6，7，8，9]表明，深度神经网络非常容易受到数据的对抗性扰动的影响。对抗性示例以旨在导致分类器错误分类它们的方式进行非常轻微的修改。已经提出了几种方法来生成对抗性的例子，利用神经网络的梯度信息快速梯度符号法（FGSM）[7]和基本迭代法（BIM）[8]作为两种基线方法来生成具有不同传输能力的对抗性示例。FGSM通过围绕模型的当前参数线性化成本函数来生成对抗性示例。它可以使用反向传播有效地计算。然而，它通常具有低的成功率与白盒攻击同等贡献2W. Zhou，X. Hou等人因为它不能用单个步骤充分地增加成本函数BIM通过采取FGSM的多个步骤来扩展FGSM。对于白盒攻击，它通常会导致比FGSM更高的错误率，因为它可以产生更有害的对抗性示例，而无需对白盒模型进行任何近似。然而，BIM以较低的速率在模型之间传输，并且它产生比FGSM更弱的黑盒攻击，这表明BIM倾向于在白盒模型上过拟合由于搜索空间巨大，一步法和迭代法都不能有效地搜索可传递摄动，而可传递摄动对模型的参数和结构不敏感。我们提出了一种新的对抗性扰动生成方法，使黑箱传输。在代价函数中引入两个项来指导扰动的搜索方向首先，我们在中间特征图中最大化自然图像与其对抗性示例之间的距离，这可以解决对抗性扰动生成的消失梯度。因此，它可以用反向传播有效地搜索扰动。此外，由于中间特征图中的大距离与神经网络预测中的大距离相关，因此会导致高概率的错误预测我们表明，它也可以增加成功的黑箱传输的概率。其次，我们引入一个正则化项的成本函数，以消除高频扰动，这使得黑盒传输具有较高的错误率。由于数据中出现的相邻像素的连续性，深度神经网络学习的卷积核也捕捉到了这一特性。因此，高频扰动被这些内核一层一层地平滑，而不需要努力，这不会改变神经网络的最终预测。正则化项减少了对抗性扰动的变化，并且使得它们难以通过逐层卷积来平滑，这使得能够进行黑盒传输。图1给出了FGSM、BIM和所提出的使用Inception-V3模型的方法生成的几个对抗性示例Fig. 1. 分别使用FGSM，BIM和我们的方法对Inception V3模型进行不同的对抗性示例可转移对抗性扰动3我们在两个公共数据集上评估了所提出的方法，这些数据集具有各种模型，包括最先进的分类器[10]和防御模型[11]。实验结果表明，我们的方法优于国家的最先进的方法在白盒和黑盒攻击。2相关工作在本节中，我们回顾了一些相关工作。Szegedy等人[12]首先通过分析深度神经网络的不稳定性来介绍对抗性示例生成。他们表明，对抗性扰动比深度神经网络的随机扰动更有效，尽管随机扰动的幅度更大，这表明对抗性示例暴露了学习算法的基本盲点Goodfellow等人 [7]通过分析深度神经网络的线性行为，进一步解释了对抗性样本现象，并提出了一种简单高效的对抗性样本生成方法：FGSM。它可以通过利用神经网络的线性行为来推广模型。Kurakin等人[8]研究大规模数据集的对抗性示例：ImageNet和他们在黑盒对抗攻击的鲁棒性方面比较了FGSM和BIM。他们表明，尽管白盒攻击的错误率更高，但具有多步FGSM的BIM比单步FGSM的可转移性更低。Kurakin等人[13]进一步探索物理世界中的对抗性示例这两项工作都表明多步优化比单步优化的可传递性差。然而，我们表明，通过适当的引导梯度，多步优化可以实现更高的白盒和黑盒攻击的错误对于输入和架构使用集成方法是很自然的，以实现跨模型的传输。Moosavi-Dezfooli等人[6]使用输入的集合来寻求通用扰动，其在深度神经网络和输入两者上都是通用的。与以前的作品，计算每个例子独立的扰动，他们聚合原子扰动，以减少扰动的变化。他们表明，这种扰动在不同的分类模型中具有很好的泛化能力。另一种类型的工作使用不同架构的集合来实现在竞赛中广泛使用的模型之间的传输从防御的角度来看，弗洛里安等人。[11]结合从其他预训练模型转移的对抗性示例，以利用不同架构的集成，从而提高深度神经网络对黑盒攻击的鲁棒性。这两种集成方法都鼓励算法搜索共享空间，以减少高计算复杂度的扰动的变化。我们证明了一个光滑的正则化扰动可以有效地减少扰动的变化。4W. Zhou，X. Hou等人3可转移扰动令f（x）表示任意深度神经网络，其取x（x∈Rn）作为输入和输出类y（y∈Rm）的概率，我们首先定义一个对抗性的例子，对于所选的p范数和噪声参数ε，欺骗模型f（x），如下所示：x~=argmaxxl（x~，t）（1）其中，t和d（·，·）分别不包括用于建立模型的x和los函数的列表。在我们所有的实验中，我们使用交叉熵作为损失函数。FGSM [7，8]和BIM[13]可用于优化上述功能并生成额外的放大器x~。 FGSM发现了一个改进的特征值，其中一步增加损失函数的值。BIM扩展了FGSM，它以较小的步长多次应用它，以进一步增加损失函数。对于白盒攻击，它通常比FGSM获得更高的成功率。但是，它的可转让性低于FGSM。为了解决这个问题，我们首先在特征空间中最大化自然图像和对抗样本之间的距离以提高传输速率。此外，我们引入了光滑正则化的扰动，惩罚相邻像素的不连续性3.1最大化距离标准的神经网络架构是具有大容量的卷积和最大池化的深层结构。先前的对抗性示例生成方法旨在使用梯度上升来增加如⑴然而，由于体系结构的深层次结构，相对于输入x的损失梯度变得非常小（消失梯度问题）。因此，用很少的步骤来最大化损失是不够的。为了解决这个问题，我们添加了中间损失，其测量中间特征图与输入x之间的距离，并且增加了一个空间样本x~。相对于输入x的整数倍增益足以在几步中使中间损耗最大化。此外，这些梯度还提供了良好的指导以使损失函数（1）最大化。在nx和xx之间映射时，较大的整数倍误差将在nx和x之间的n个整数倍误差的最终输出中以较高的概率产生较大的误差，这将增加损失函数（1）并进行错误预测。令L（x，d）表示层d ∈ D中的中间特征图，对于所有层，我们将2-范数分布最大化为T（L（x，d））和T（L（x ~，d）），其中T（L（x~，d））不等于L（x~，d）的范数分布[14]。该功率归一化用于降低L（x，d）中的大值的贡献的权重，其定义如下：T（L（x~，d））=sign（L（x~，d））⊙absL（x~，d）α（2）可转移对抗性扰动5其中0≤α≤ 1是归一化的参数，⊙表示逐元素产生式。在实验中，我们发现上述变换对于黑箱传输是非常有效的。通过最大化输入x之间的中间特征图的距离并添加了一个自动执行的示例，我们将自动执行以下示例：x~=argmaxx∑（l（x<$，t）+λ<$T（L（x，d））−T（L（x<$，d））<$2），（3）d∈D其中λ表示损耗⑴和中间损耗之间的折衷。为了使每个层中的特征贡献相等，我们使用min-max缩放将L（x，d）归一化为[0，3.2正则化由于深度神经网络的不同输入和架构，在一个架构中使用的损失函数的最大化不能保证在其他架构中使用的损失函数的最大化。因此，传输速率总是会降低，特别是在传输到Inception-Resnet-V2和ResNet等复杂架构时。不同输入[6]或体系结构的集合可以部分地解决这个具有高计算复杂度的问题。这两种方法都希望去除高频扰动，减少对抗性扰动的变化，使对抗性样本更具可移植性。我们在扰动上引入正则化，以更有效地减少变化：x~=argmaxJ（x~，x，t，ws）=argmax（l（x~，t）x~−x∑+λxT（L（x，d））−T（L（x~，d））（四）d∈D∑+ηabsRi（x~−x，ws））我其中，该平衡平衡被重新调整并且损失了功能。 Ri（x−x，ws）表示响应映射中的第 i 个元素，该响应映射通过在 x − x 上对 kernelws（withsizes）和 i 处的 perturb进行计算来计算。Ws被设计为箱式线性滤波器，其是空间域线性滤波器，其中所得到的图像中的每个像素具有等于其在输入中的相邻像素的平均值的值。它是一种低通滤波器的形式，它加强了相邻像素的连续性，并减少了对抗性扰动的变化3.3优化为了优化（4），我们使用迭代FGSM（I-FGSM）[11]，其以预算ε′=ε/k迭代地应用FGSMk次。首先，我们将输入x缩放为[-1，1]和6W. Zhou，X. Hou等人i n i t i alizex~0=x。并且，我们计算出具有输入 x的期望值的 10s（4）的部分。之后，对抗性示例通过多个步骤进行更新。在每一步中，我们取梯度的符号函数，并将对立的例子裁剪成[-1，1]，以生成有效的图像。最后，通过将最后更新的对抗性示例与输入x之间的像素差与ε相加来计算对抗性示例。算法1给出了扰动生成的细节。算法1可转移扰动′in it ia lize：x〜0=x，ε=ε/k，i=0，而我却′x~i+1=clip（x~i+εsign（xJ（x~i，x，t，ws）），−1，1）end whilereturnx=p（x+sign（x−xk），−1，1）4实验在本节中，我们将描述在两个公共数据集上的实现细节和实验结果。我们首先分析了我们的方法，FGSM，BIM，C W[23]，MI-FGSM [22]和通用对抗扰动（UAP）的可移植性在兼容ImageNet的数据集上1.该数据集包含1000个图像在原始ImageNet数据集中没有使用。为了避免对上述数据集的过拟合，我们对ImageNet数据集[15]包含从ILSVRC 2012验证集[16]中随机选择的1000张图像。我们使用不同的架构，包括 VGG 16 [17] ， Inception V3 [18] ，Inception V4 [10]，Inception-ResNet-v2 [10]，ResNet V2 [2，19]2作为防御模型。此外，我们平均上述模型的预测概率作为集成模型（Ensemble）。我们还使用经过逆向训练的Inception v3模型[8]（adv-v3），对抗训练的Inception-ResNet-V2模型（adv-res-v2），以及对抗训练的Inception v3，分别具有3个模型（ens 3-inc-v3）和4个模型（ens 4-inc-v3）[11]3作为防御模型。在我们所有的前-实验中，我们报告的识别精度进行比较。此外，为了解决“标签泄漏”问题[ 8 ]，我们使用当前模型的预测作为基础事实t（4）。我们使用TAP来表示所提出的方法。1此数据集可从https://github.com/tensorflow/cleverhans/tree/master/examples/nips 17adversarial competition/dataset2https://github.com/tensorflow/models/tree/master/research/slim3https://github.com/tensorflow/models/tree/master/research/adv imagenet模型可转移对抗性扰动7表1.在识别准确性方面的可转移性比较。分别使用VGG 16和Inception-V3生成扰动VGG16 InceptionV3启动V4成立ResNet-V2ResNet-V2合奏无扰动百分之八十六点八百分之九十六点四百分之九十七点六百分百89.6%百分之九十九点八随机噪声81.3% 百分之九十一点七94.6%百分之九十七点八84.5%百分之九十八点一VGG16-TAP百分之三点二百分之二十三点九百分之二十八点一百分之三十二点三百分之二十三点九百分之二十六点七VGG16-FGSM百分之三点七百分之三十四点九44.0%百分之五十34.7%46.4%VGG16-BIM4.0%百分之二十四点二百分之二十四点五28.5%百分之二十三点九22.7%VGG16-UAP百分之十二点四31.2%百分之三十二点八46.9%33.2%百分之四十三点七Inc-V3-TAP百分之二十九点四百分之零点零22.1%百分之二十四点七46.9%百分之三十点八Inc-V3-FGSM57.7% 百分之二十六点九百分之七十点二百分之七十二点九百分之六十五点七75.4%Inc-V3-BIM66.0%0.01%67.7%百分之七十点二76.8%百分之七十三点六Inc-V3-UAP39.8% 百分之五十二点二百分之五十六点四63.1%百分之五十点五64.6%Inc-V3-MI-FGSM 百分之四十五点九百分之零点一百分之四十七点三百分之五十点七百分之六十一点八百分之六十二点五Inc-V3-CW百分之八十四点九百分之二十四点五百分之九十三点五百分之九十八点六86.9%96.9%我们使用FGSM和BIM作为两种基准方法进行比较，定义如下：FGSM：BIM：x~=x+signxl（x~，t）x0= x，xk= clip（xk−1+ signxl（xk−1，t））。（五）在我们的实验中，我们使用FGSM， BIM和 C W的实现，并使用CleverHans [20，21]的默认参数我们还修改CleverHans来实现我们的方法。我们还使用MI-FGSM [22]4的实现进行比较。为了与这些方法公平地比较，将扰动大小设置为16。为了公平比较，我们将C W方法[23]的扰动大小线性归一化为16，并使用简单的梯度下降来优化[23]中定义的目标函数。在我们的实验中，对于所有实验，扰动大小ε被设置为16。λ和η分别设为0.05和103归一化的参数α被设置为0.5以获得最佳性能。（4）中的核的大小的迭代次数k根据经验被设置为5。我们将使用如上所述的ImageNet数据集的子集来分析这些参数对可转移性的影响我们首先使用上述模型来评估干净图像和添加了随机噪声扰动（ε=16）的结果列于表二、Inception-Resnet-V2（100%）在干净图像方面的性能明显优于VGG 16（86.8%），因为容量更高。这两种模型都能抵抗随机噪声攻8W. Zhou，X. Hou等人击，且容量越大的模型性能越好。跨模型的可移植性。我们首先使用VGG 16，Inception-V3，Inception-V4，Inception-ResNet-V2，ResNet-V2和这些mod的集合，4https://github.com/dongyp13/Non-Targeted-Adversarial-Attacks可转移对抗性扰动9表2. 在识别准确性方面的可转移性比较。分别使用Inception-ResNet-V2、ResNet-V2和ResNet-V1生成扰动。VGG16 InceptionV3启动V4成立ResNet-V2ResNet-V2合奏Inc-ResV2-TAP37.0% 百分之二十五点九33.2%百分之四点八百分之五十三点三48.2%Inc-ResV2-FGSM59.4%69.0%76.5%百分之五十七点二71.7%78.7%Inc-ResV2-BIM48.9% 百分之四十一点五51.5%百分之一点二60.4%百分之五十四点五Inc-ResV2-MI-FGSM 百分之三十八点八百分之二十五点三33.2%百分之零点一百分之五十一点六46.3%Inc-ResV2-CW百分之八十三点四百分之九十一点七92.4%49.0%百分之八十五点六百分之九十三点五ResNet-V2-TAP百分之三十一点八48.2%55.7%百分之五十五点五百分之七点六47.4%ResNet-V2-FGSM百分之三十七点三百分之五十六点三百分之六十四点八66.8%百分之十四点六百分之六十三点三ResNet-V2-BIM百分之四十四点八53.2%62.0%百分之六十三点八百分之四点四百分之五十四点三ResNet-V2-MI-FGSM 46.3% 百分之四十五点二百分之五十一点六55.2%24.1%56.2%ResNet-V2-CW84.0%94.5%百分之九十六点四百分之九十九点五百分之三十七点七百分之九十八点五ResNet-V1-TAP百分之二十点二百分之三十八点一48.7%49.1%百分之二十五点三44.4%ResNet-V1-UAP35.3%41.6%50.2%百分之五十七点八百分之四十点三百分之五十六点八ResNet-V1-MI-FGSM 65.3%74.3%78.7%82.0%71.3%百分之八十六点八ResNet-V1-CW86.9%96.0%97.5%百分之九十九点九百分之八十九点四99.6%作为防御模式。我们迭代地产生扰动使用一个模-el并报告所有这些模型上的识别准确度。对于每个迭代-在这个过程中，我们使用所选模型的所有特征图，除了ResNet-V1和ResNet-V2，因为层的数量很大。我们使用ResNet-V2中的特征映射-s：“block 3/u i n t 23”“block 3/u in t 36”和“block 4/u i n t 3”以及ResNet-V1中的“block 1”和“block 2”来生成对抗性示例。为了证明所提出的方法的优越性，我们还比较了我们的方法与FGSM，BIM和UAP分别。从表2中可以看出，我们的方法对于白盒攻击的VGG 16、Inception-V3、Inception-ResNet-V2和ResNet-V2分别达到3.2%、0.0%、4.8%和7.6%的准确率，其显著优于FGSM、BIM、UAP、MI-FGSM和CW，除了tResNet-V2-BIM、Inc-ResV2-MI-FGSM和Inc-ResV2-BIM。至于黑盒传输，我们的方法使用Inception-V3和 ResNet-V1 来生成对抗性扰动，实现了最低的识别精度。使用Inception-ResNet-V2和ResNet-V2与MI-FGSM，我们的方法也得到了值得注意的是，使用VGG16模型来生成扰动对于所有方法具有最高的传递速率我们发现，相对于VGG模型的输入的损失的梯度是几个数量级大于那些梯度更复杂的架构，因为相对较少的层数。对于VGG模型，10W. Zhou，X. Hou等人我们的方法无法获得更多的好处。我们还评估了TAP对逆向训练模型的鲁棒性，如表3所示。我们表明，VGG16模型仍然给出了最高的黑盒传输率。Kurakin等人[8]表明，对抗性训练为使用FGSM等单步方法生成的对抗性示例提供了鲁棒性，但它对BIM等迭代方法没有太大帮助。可转移对抗性扰动11他们还表明，通过迭代方法生成的对抗性示例不太可能跨模型传输然而，我们表明，我们的方法，使用迭代方法生成对抗性的例子，仍然使对抗性的例子，因为引导梯度跨模型转移。表3. TAP、FGSM、BIM和UAP对逆向训练模型的鲁棒性。adv-v3 adv-res-v2 ens3-inc-v3 ens4-inc-v3VGG16-TAP百分之三十八点八百分之六十三点八41.9%百分之四十七点三VGG16-FGSM百分之五十点九71.1%56.1%58.5%VGG16-BIM57.3% 百分之七十三点六百分之五十三点五百分之五十五点四VGG16-UAP百分之三十九点四57.3%47.4%43.9%Inc-V3-TAP52.8%68.8%百分之六十点九百分之五十九点八Inc-V3-FGSM72.1%93.6%85.1%百分之八十六点四Inc-V3-BIM百分之八十二点四百分之九十三点九88.2%百分之八十八点五Inc-V3-UAP百分之六十五点五百分之八十二点四77.0%百分之七十六点九Inc-V3-MI-FGSM74.3% 百分之九十点六百分之八十点七82.0%Inc-V3-CW93.0% 百分之九十六点四92.3%百分之九十Inc-ResV2-TAP60.5%87.8%79.1%百分之八十二点一Inc-ResV2-FGSM73.9%92.7%86.9%87.3%Inc-ResV2-BIM70.8%92.9%百分之八十四点八86.9%Inc-ResV2-MI-FGSM 百分之六十六点九83.6%百分之七十一点八百分之七十三点四Inc-ResV2-CW百分之九十一点八百分之九十四点九91.9%89.3%ResNet-V2-TAP49.2%64.1%百分之五十七点八56.0%ResNet-V2-FGSM62.1% 百分之八十五点七77.4%77.8%ResNet-V2-BIM百分之六十四点七百分之八十二点六72.3%百分之七十四点七ResNet-V2-MI-FGSM 71.1%86.6%百分之七十六点九百分之七十七点九ResNet-V2-CW94.0% 百分之九92.8%百分之九12W. Zhou，X. Hou等人十六点三十点五ResNet-V1-TAP50.2%64.4%百分之五十五点五57.7%ResNet-V1-UAP60.4% 百分之七十七点九68.8%百分之六十六点一ResNet-V1-MI-FGSM 84.5% 百分之九十三点四90.3%百分之九十点二ResNet-V1-CW95.0%97.5%94.2%百分之九十一点八我们计算（4）的等式：ΣiabsRi（x~-x，ws）以分别检测由FGSM、BIM和TAP捕获的低频信息。图？？分别为3.72×105、2.71×105和5.35×105。由于我们使用低通滤波器ws进行卷积，因此正则化项的较大值意味着相邻像素发生变化更顺利。损失函数的影响。我们在每次损失函数（4）中删除两项，以检查这些项对性能的影响我们通过将λ和η分别设置为0来移除第二项和第三项。图2显示了所提出的方法的性能，该方法使用Inception-V3在不同条件下生成对抗性示例从图我们可以看到，对抗性训练可以抵抗对抗性样本。例如，adversarially可转移对抗性扰动11训练的Inception-ResNet-V2（adv-res-v2）比原始Inception-ResNet-V2获得更高的识别当λ= 0和η= 0时，所提出的方法退化为BIM，BIM对所有防御模型具有最高的识别精度，这表明这些防御模型对使用BIM生成的对抗性示例具有鲁棒性。通过在（4）中添加正则化项（λ= 0且η= 103），我们表明这种操作一致地降低了所有逆向训练模型（ENS 3-INC-V3、ENS 4-INC-V3、ADV-RES-V2、ADV-V3）的识别准确度。这样的操作也会降低 ResNet-V2 和集成模型的识别准确度，并且它在 Inception-V4 和Inception-ResNet-V2上的表现略差由于它对具有光滑正则化的扰动施加了限制，因此它消除了白盒攻击（Inception-V3）的细微和最佳扰动。因此，它具有比BIM更高的识别精度。806040200图二、在不同的配置下，所提出的方法的识别精度λ和η。Inception-V3用于生成对抗性示例。其中λ = 0。05和η= 0时，所提出的方法考虑了特征距离。我们表明，该方法在对抗训练模型上的准确率略低于BIM。它显著降低了Inception-V3，Inception-V4和Inception-ResNet-V2，ResNet-V2和集成模型的识别值得注意的是，对于白盒攻击，它在Inception-V3上的识别率极低。从上面的实验中我们可以看到，对抗训练的模型（ens 3- inc-v3，ens 4-inc-v3，adv-res-v2和adv-v3）和原始模型（Inception-V3，VGG16，Inception-V4，Inception-ResNet-V2，ResNet-V2和Ensemble）是非常互补的。对抗性训练将来自其他模型的对抗性示例注入到训练集中，它倾向于解决原始模型的弱点。（4）中的两项在这两种类型的模型上表现不同。我们设置λ = 0。05和η= 103来平衡这两种类型的电介质的性能。模型λ= 0 η = 0λ = 0 η = 10 3λ= 0。λ =0。05η = 103识别准确率%10W. Zhou，X. Hou等人ens3-inc-v3ens4-inc-v3启动-V3启动-V4adv-res-v2Inc-ResNet-V2adv-v3ResNet-V2VGG16合奏80604020010−310−210−1100101102λ图三. 不同λ的识别精度。参数对可移植性的敏感性。为了分析参数对可转移性的敏感性，我们改变一个参数并固定其他参数来报告防御模型的识别精度λ从5×10 −4至100（λ ∈ {5×10−4，10 −3，5×10−3，0. 01 0 02，0。05，0。1，0。5、 1、2、 5、 10、 50、 100}）并且α和η分别设置为0.5和103防御模型的识别精度报告在图中3 .第三章。随着λ值的增加，由我们的方法生成的示例在两组模型（有和没有对抗训练）上表现不同对抗性样本更难被转移到具有较大λ的对抗性训练模型，而那些没有对抗性训练的模型更容易。图4示出了在不同的α（α ∈ {0，0. 五一一5， 2}）。我们观察到有一个最佳值α =。5的α产生最佳稳健性。图图5呈现了所提出的具有如⑷中的不同大小的ws的方法的性能对于大的s，所提出的方法的传输速率对于所有模型轻微地且一致地降低。因此，我们选择s= 3以获得最佳性能。我们将η从0.05变化到104（η ∈ {0. 05，0。1、1、10、50、100、500、10 3、2 ×10 3、5 ×103， 104}），并观察两种不同的模式，为两种类型的模型在图。六、随着η值的增加，对抗性样本的识别准确率对抗性训练的模型减少，这意味着对抗性训练的模型对具有较大η值的对抗性示例的鲁棒性较差。然而，随着η值的增大，所提出的方法在没有对抗训练的那些模型上表现得更好。识别准确率%12W. Zhou，X. Hou等人ens3-inc-v3ens4-inc-v3启动-V3启动-V4adv-res-v2Inc-ResNet-V2adv-v3ResNet-V2VGG16合奏ens3-inc-v3ens4-inc-v3adv-res-v2Inc-ResNet-V2adv-v3ResNet-V2VGG16启动-V3启动-V48060402000的情况。五十一5 2α图4.第一章不同α的识别精度。6040203 4 5 6 7 8 9S图五、识别精度与不同大小的ws。识别准确率%识别准确率%可转移对抗性扰动13ens3-inc-v3ens4-inc-v3启动-V3启动-V4adv-res-v2Inc-ResNet-V2adv-v3ResNet-V2VGG16合奏604020010−1100101102103104η图六、不同η的识别精度。t-SNE对抗性示例的可视化。为了直观地展示对抗性示例的影响，我们将黑盒模型的提取特征可视化，如图所示7 .第一次会议。具体来说，我们使用Inception-V3生成对抗性示例，并在倒数第二层使用Inception-V4提取1536维特征我们使用t-SNE来计算尊重高维（L2）距离的三维嵌入。我们的方法和其他两个基线方法的对抗性的例子连接到干净的图像分别用红色和蓝色的直线。通过将扰动添加到干净图像中，它导致倒数第二个特征空间中的扰动，这将导致错误的预测。对于白盒攻击，很明显，我们优化目标函数以找到像素中的扰动，从而直接最大化倒数第二个特征空间中的扰动。这将导致白盒模型的精度极低在黑盒攻击中，由于不同的结构，一种模型产生的像素扰动不能有效地转移到另一种模型的倒数第二个特征空间中。FGSM和BIM都可以扰动倒数第二个特征空间中的对抗性示例，以进行Inception-V4的错误预测，如图所示7 .第一次会议。然而，表2示出了Inception-V4模型仍然可以分别在使用FGSM和BIM生成的那些对抗性示例上实现70.2%和这意味着像素中的大多数扰动不能在倒数第二特征空间中引起足够大的扰动以进行Inception-V4的错误预测。识别准确率%14W. Zhou，X. Hou等人见图7。使用Inception-V4从干净图像和对抗性示例（分别由FGSM，BIM和TAP（我们的方法）在Inception-V3上生成）中提取的特征的t-SNE可视化。TAP生成的对抗样本与嵌入空间中的干净图像之间的距离远大于FGSM和BIM对应的距离，这意味着TAP生成的扰动比FGSM和BIM更具可传递性。如图7，由我们的方法生成的对抗性示例与干净图像之间的距离大于FGSM和BIM的相应距离。这将导致Inception-V4中的错误预测，概率很高，表2对此进行了验证。我们表明，我们的方法可以产生的扰动像素使用Inception-V3可以转移到倒数第二个特征空间的Inception-V4的扰动，以高概率。5结论在本文中，我们提出了一种新的可转移对抗扰动生成方法来欺骗深度神经网络。我们使用两个额外的惩罚条款，以指导有效的搜索方向。我们表明，最大化输入和对抗性示例之间的中间特征映射的距离，使对抗性示例跨模型转移。此外，我们观察到，s-光滑正则化可以通过减少对抗性扰动的变化来实现黑盒传输。我们进一步使用t-SNE来可视化倒数第二个特征空间中的可转移能力和距离之间的相关性，这也为未来的研究提供了一个见解。鸣谢我们感谢岳志飞和刘水生的有益讨论和建议。可转移对抗性扰动15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。（2012）10972. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议论文集。（2016）7703. Hinton，G.邓湖Yu，D.，达尔，通用电气，Mohamed，A.r.，Jaitly，N.，Senior，A. Vanhoucke，V.，Nguyen，P.，Sainath，T.N.，等：用于语音识别中声学建模的深度神经网络：四个研究小组的共同观点。IEEESignalProcessingMagazine29（6）（2012）82-9714. 萨茨克弗岛Vinyals，O.，Le，Q.V.：使用神经网络进行序列到序列学习。在：Avancesineuralinner matonpoce ssssysss in。（2014）31045. Nguyen，A.，Yosinski，J.，Clune，J.：深度神经网络很容易被愚弄：无法识别图像的高置信度预测。 In ： ProceedingsoftheIEEEconnferenceoncomputtervisionandpatter nrecognition. （2015）4276. Moosavi-Dezfooli，S.M.，Fawzi，A.，Fawzi，O.，Frossard，P.：普遍对抗性扰动。arXiv预印本arXiv：1610.08401（2016）1，3，57. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。学习表征国际会议（2015）1，3，48. Kurakin，A.，Goodfellow，I.J. Bengio，S.：大规模对抗性机器学习。arXiv：计算机视觉和模式识别（2016）1，3，4，6，89. Moosavi-Dezfooli，S.M.，Fawzi，A.，Frossard，P.：Deepfool：欺骗深度神经网络的简单而准确的方法。 In ： Proceedings of the IEEE conferenceoncomputtervisionandpatternrecognition. （2016）257410. 塞格迪角 Ioffe ， S. ， Vanhoucke ， V. ， Alemi ， A.A. ： Inception-v4、Inception-resnet以及恢复期间的连接恢复的重要性。 In：AAAI. （ 2017 ）4278 - 4284 3，611. Tram`er，F.， Kurakin，A.， Paper not，N.， Boneh、D. ，McDaniel，P. ：高级高级培训：攻击和防御。arXiv预印本arXiv：1705.07204（2017）3，5，612. 塞格迪角Zaremba，W.，萨茨克弗岛Bruna，J.，Erhan，D.，古德费洛岛 Fergus， R. ：神经网络的有趣特性 arXiv 预印本 arXiv ：1312.6199（2013）313. Kurakin，A.，Goodfellow，I.J. Bengio，S.：物理世界中的对抗性例子。arXiv：计算机视觉和模式识别（2016）3，414. Per〇 nnin，F.， S'anchez，J.， Mensink，T. ：我将为一个可伸缩的图像分类提供所需的文件。欧洲专利委员会关于计算机软件的报告（2010年）14315. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：Proceedings of the IEEE conference oncomputerviisionandpater nrecognition，IEEE（2009）248-2556中16. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：ImageNet 大规模视觉识别挑战。 International Journal of Computer Vision（IJCV）115（3）（2015）211-252617. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556（2014）616W. Zhou，X. Hou等人18. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。 In ： Proceedings of the IEEE conferenceoncomputtervisionandpatternrecognition. （2016）281819. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。In：EuropeanConferenceonCom up u

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度神经网络的对抗性示例对模型性能具有显著影响，黑盒攻击的性能下降

针对深度神经网络的黑盒对抗攻击的条件转移方法

"移动物理对象对深度神经网络的对抗性攻击

参数噪声注入：提高深度神经网络对抗性攻击鲁棒性的方法

黑盒攻击深度神经网络的高效查询机制

写一个深度神经网络的模型

如何使用MATLAB进行garch模型的系数显著性检验

检验时间序列模型显著性的代码

怎么提取openattack中的对抗性示例

R语言logistic模型系数显著性检验的代码

写一段python代码：写一段深度神经网络的示例

matlab深度神经网络程序

用python实现一个深度神经网络算法

请分别示例基于自注意力机制的神经网络模型和基于两段式监督的神经网络模型

如何使用MATLAB进行garch模型的系数显著性检验，用LM检验

R语言Arima模型参数显著性检验代码

用pytorch写出针对MNIST数据集的DeepFool算法的代码，并写出测试代码用于计算由DeepFool算法得到的对抗性示例攻击神经网络的错误率

神经网络预测模型matlab

tensorflow搭建深度神经网络要做得尽善尽美可以有哪些步骤，处理mnist数据集

为何使用pytorch框架开发深度神经网络程序

最新资源