无数据替代训练法：对抗性攻击的新方法

50 浏览量更新于2023-10-24 收藏 640KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DaST：对抗性攻击的无数据替代训练周明义1，2，周伟，吴静1，2，刘毅鹏1，†，刘帅成1，2，朱策1电子科技大学1旷视科技2{zhoumingyi，wujing}@ std.uestc.edu.cn，{yipengliu，liushuaicheng，eczhu}@uestc.edu.cn摘要机器学习模型容易受到对抗性示例的影响。对于黑盒设置，当前的替代攻击需要预先训练的模型来生成对抗性示例。然而，预训练的模型在现实世界的任务中很难获得。在本文中，我们提出了一个无数据的替代训练方法（DaST），以获得替代模型的对抗性黑盒攻击，而不需要任何真实的数据。为了实现这一目标，DaST利用专门设计的生成对抗网络（GAN）来训练替代模型。特别是，我们设计了一个多分支结构和标签控制损失的生成模型，以处理合成样本的不均匀分布。然后，由生成模型生成的合成样本训练替代模型，这些合成样本实验结果表明，DaST生成的替代模型与使用相同训练集训练的基准模型相比，具有较好的性能。此外，为了评估所提出的方法在现实世界任务上的实用性，我们在Microsoft Azure平台上攻击了一个在线机器学习模型。远程模型错误分类了98.35%的由我们的方法制作的对抗性示例。据我们所知，我们是第一个在没有任何真实数据的情况下为对抗性攻击训练替代模型的人。我们的代码是公开的1。1. 介绍深度神经网络已被证明容易受到具有不可感知扰动的示例的影响[38]。这使得研究人员对研究攻击和防御以评估和提高网络的鲁棒性产生了浓厚的兴趣。对抗性攻击方法可以分为两种主要的攻击，白盒攻击可以完全访问*同等贡献†通讯作者1https://github.com/zhoumingyi/DaST攻击模型和黑盒攻击，有部分信息的模型。与白盒攻击相比，黑盒攻击在现实系统中更实用。在这些攻击中，基于分数的攻击[8，19，20，16]和基于决策的攻击[3，9，7]使用被攻击模型返回的类概率或硬标签直接攻击被攻击模型。这些攻击方法不需要预先训练的替代模型，然而，作为代价，它们需要对被攻击模型进行大量查询以生成每个攻击。相反，基于梯度的攻击方法[14，22，35，30]需要知道被攻击模型的架构和权重。Goodfellow等人[14]表明，对抗性示例具有可转移性，这意味着通过白盒攻击方法为一个模型生成的对抗性示例也可以攻击其他模型。因此，为了在黑盒环境下实现攻击方法，他们使用替代模型来寻找对抗样本，然后基于这些对抗样本的可移植性来攻击机器学习模型。与现有的基于分数和基于决策的攻击相比，替代攻击不需要查询来生成对抗样本。然而，他们需要一个预先训练好的模型来生成对抗性攻击。Papernot等。[34]开发了一种方法，该方法使用大量图像来模仿受攻击模型的输出，以获得替代网络。预测API也被开发来窃取机器模型[39]。Orekondy等人[32]提出了一个“山寨”来窃取机器学习模型的功能。这些方法不需要预先训练好的模型，而是需要被攻击模型标记的大量真实数据来训练替代模型。然而，在一些现实世界的任务中，真实的图像是很难得到的。因此，重要的是开发无数据替代攻击，使得可以更全面地评估当前机器学习模型所面临的风险。在这项研究中，我们提出了一种无数据替代训练（DaST）方法来训练对抗攻击的替代模型我们利用生成对抗网络（GAN）来创建合成样本来训练替代模型。的234235替代模型使用这些样本进行训练，其中样本的标签由被攻击模型产生。为了提高性能，合成样本应该均匀分布在输入空间中。样品标签应涵盖所有类别。然而，传统的GAN在没有真实数据的情况下，可能会产生分布极不均匀且只包含少量类别的样本，这意味着替代模型无法全面学习被攻击模型的分类特征。为了解决这个问题，我们设计了一个多分支结构和标签控制损失的生成模型，以处理合成样本的不均匀分布。生成式模型可以生成具有随机标签的合成样本。因此，替代模型可以在这种对抗性训练中学习被攻击模型的分类特征，并产生对被攻击模型具有强可移植性的对抗性示例。本研究的主要贡献总结如下：• 我们是第一个在没有任何真实数据的情况下训练对抗性攻击的替代模型的人。攻击者可以使用这种方法来训练对抗性攻击的替代模型，而无需收集任何真实数据。• 我们评估了DaST在本地深度学习模型和在线机器学习系统上的有效性，这揭示了一个事实，即当前的机器学习模型具有被攻击的重大风险。• 我们在两种攻击场景中评估了我们的方法的性能，包括攻击者可以访问被攻击模型的输出概率的仅概率场景和攻击者仅访问被攻击模型的输出标签的仅标签场景。我们的方法在这两种情况下都能有效地生成对抗性示例。此外，我们使用不同的模型架构的替代模型，以测试攻击成功率的影响所造成的模型容量。我们的论文的其余部分组织如下：第二节介绍了相关的工作。所提出的方法在第3节中描述。我们在第4节中评估了DaST的性能。2. 相关作品对抗性攻击在白盒设置或黑盒设置中进行。在白盒设置中，攻击者可以访问被攻击模型的结构和权重。相反，在黑盒设置中，攻击者只有替代模型（基于梯度的攻击）或访问由被攻击模型返回的输出（基于查询的攻击）。黑盒战术方法在实际任务中更实用。基于对抗性的攻击，如FGSM [14]和BIM [22]，可以完全访问模型，因此它们通常使用预先训练的替代模型来生成对抗性示例，然后使用对抗性示例的可转移性来攻击被攻击的模型。FGSM旨在通过直接增加模型的损失来找到对抗性的例子，BIM是FGSM的迭代版本。同样，DeepFool [30]发现了可能跨越决策边界的对抗性示例。为了找到具有最小p范数的扰动，Nicholas Carlini和David Wagner [6]介绍了一种通过同时最小化扰动来设计这些扰动的方法。类似于该方法，Ronyet al. [36]还约束了扰动的2在黑盒设置中，这些攻击依赖于对抗性示例的可转移性。然而，Liuet al. [25]表明，这些例子几乎没有可移植性的攻击。相反，Chenget al. [8]提出了一种基于分数的攻击方法零阶攻击（ZOO）使用梯度估计，和Ilyas等人。[20]改进了梯度估计方法。而不是梯度估计，郭等人。[16]介绍了一种简单的黑盒攻击（SimBA），它根据输出概率的变化来决定扰动的方向。Brendel等人[3]第一次提出了基于决策的攻击。基于这种方法，Chenget al. [9]和Chenget al. [7]提高了查询效率，这是黑盒攻击的一个重要对抗性防御已经提出了几种增强模型鲁棒性的防御方法。对抗性训练[38，27，23，40]修改了模型的训练方案，它们直接使用对抗性示例进行训练。另一种方法旨在修改对抗性示例本身，例如随机变换[22，28，41]。Buckman等人[4]提出了一种基于one-hot编码的模型输入非线性变换。梯度掩蔽方法[40，10]破坏梯度信息，使它们无法进行基于优化的攻击。然而，这些基于梯度掩蔽的防御方法已被证明是不可靠的[1]，并且具有上述防御的模型对某些攻击仍然是不安全的[5，17]。此外，检测敌对的例子引起了研究人员的兴趣。其中一些通过辅助网络检测它们是否是对抗性的或干净的示例[13，15，29]，而另一些则通过它们的统计特性发现对抗性示例[2，18，12，26，33]。3. 方法在本节中，我们描述了本研究中的攻击场景，然后介绍了替代攻击，并提出了一种无数据的方法来训练替代模型。2363.1. 攻击情形仅标签场景假设受攻击的机器学习模型在线使用，攻击者可以自由探测受攻击模型的输出标签。攻击者很难获得被攻击模型输入空间中的任何数据。我们将仅标签场景中提出的DaST命名为DaST-L。Probability-only scenario此场景的其他设置与仅标签场景相同，但攻击者可以访问被攻击模型的输出概率。我们将仅概率场景上的建议DaST命名为DaST-P。3.2. 对抗性攻击在本小节中，我们介绍了对抗性替代攻击的定义。X表示来自被攻击模型T的输入空间的样本。 y和y0是指样本X的真实标签和目标标签，关于y。 T（y|X，X）是由X参数化的at- tac k ed模型。对于非目标攻击，对抗性攻击的目标可以表述为：用被攻击模型训练替代模型。在接下来的两节中，我们将介绍一种可以在没有任何图像的情况下训练替代模型的方法。整个过程如图1所示。3.3. 对抗性生成器-分类器训练在本小节中，我们将介绍基本的对抗训练方法并讨论其局限性。为了在没有任何图像的情况下训练替代模型，我们使用生成模型G来产生替代模型D的训练数据。生成器从输入空间随机采样噪声向量z并产生数据Xb =G（z）。然后，使用生成的数据来探测攻击模型T的输出T（Xb）。替代模型由图像输出对（Xb， T（Xb））训练。如图1所示D是模仿T的输出。这是一个特殊的双人游戏，参与这个游戏的攻击模型是裁判。为了简化表达式，但不失一般性，我们利用二进制分类作为一个案例来分析（输出概率可以被认为是一个标量在二进制分类，所以也是输出标签）。游戏的价值函数表示为：最小k_k服从r_gmaxT（yi|X=X+，）y<$bb阿吉岛（一）最大最小VG，D=d（T（X），D（X））（3）G D和kkr。Bb对于有针对性的攻击，目标是：最小k_k服从r_gmaxT（y|X=X+X，X）=y0我其中d（T（X），D（X））是测量输出的度量T和D之间的距离。对于仅标签攻击场景，该测量可以用公式表示为：B B（4）阿吉岛和kkr，（二）d（T，D）=CE（D（X），T（X）），其中，D（Xb）和T（Xb）在本例中表示外-其中，ε和r分别是样本的扰动和扰动的上界。为了攻击难以检测的机器学习系统，在攻击方法中将r设置为较小的值。X=X+X是对抗性的例子，它可以导致被攻击的模型T输出一个错误的标签（非目标设置）和一个特定的错误标签（目标设置）。对于白盒攻击，它们可以充分利用T的梯度信息，然后利用它生成对抗性样本来攻击T。对于黑盒替代攻击，他们训练一个模型Tb来替代攻击模型来生成对抗样本，然后转移样本来攻击T。这些黑盒攻击的成功率在很大程度上依赖于对抗性示例的可移植性。因此，开发有效的替代攻击的关键是训练一个替代模型，该模型具有尽可能与被攻击模型相似的属性。现有的攻击方法都是利用被攻击模型的同一训练集或收集大量的其他图像进行标记将替代模型的标签和被攻击模型的标签分别放在不同的位置。CE（D（Xb）， T （Xb））表示交叉熵损失，并且T的输出标签被用作la-这一损失。交叉熵损失的作用是抑制T和D之间的差异。对于仅概率攻击场景，该测量被公式化为：d（T，D）=kD（Xb）， T（Xb）kF，（5）其中，D（Xb）和T（Xb）在该场景中分别表示替代模型的输出概率和附加模型的输出概率。因此，替代模型D通过这种对抗性训练复制了被攻击模型T的信息在训练中，D的损失函数被设置为LD=VG，D。为了保持训练的稳定性，G的损失函数被设计为LG=e-d（T ，D）。因此，得到全局最优替代网络D的充要条件是8 Xb，T（Xb）=D（Xb）。此时，LD=0且LG=e0= 1。237G图1.提出的对抗性无数据模仿。G的结构如蓝色虚线框所示 N表示category的数量。在训练阶段，G的目标iv e是生成样本Xb=G（X），并且令yD（Xb）6=yT（Xb）。D的目标iv e是保证yD（Xb） =yT（Xb）。在测试阶段，利用替代模型D生成攻击T的样本。设8Xb=G（z），Xb2R，R是T的输入空间.如果D可以实现D（Xb）=T（Xb），则由我们的替代模型执行的与没有T的梯度信息的白盒攻击相同的成功率。因此，对于一个训练良好的替代网络，D生成模型G的损失公式化为：LC= CE（T（G（z，n）），n）.（六）上面的方法生成带有随机标签的数据，这些标签由T.然而，对T.b这种标签控制损失需要然而，不可能保证D（X）=T（Xb）在有限的时间内。如果我们不限制G，T的合成训练数据可能仅分布在在R的小范围内，因此这种训练不能工作。为了解决这个问题，我们设计了一个标签可控的G结构，它可以控制合成子的分布攻击模型T，它违反了黑盒攻击的规则。我们需要训练一个标签可控的生成模型，而不需要T的梯度信息。对于模仿过程，它可以近似为以下目标函数：加快训练收敛速度。minDd（T（Xb），D（Xb））.（七）3.4. 标签可控数据生成在这一小节中，我们介绍了生成模型G的标签可控结构。为了获得均匀分布的合成数据来训练替代模型D，我们考虑开发一种可以控制X b分布的方法。为了训练T的复制，合成数据用于探测T的信息。被攻击的模型被攻击模型产生的样本标签应该涵盖所有类别。在训练过程中，在相同的输入条件下，D的输出逐渐接近T的输出。因此，我们用D来代替等式中的T。（6），其中公式为：LC= CE（D（G（z，n）），n）.（八）替补D的训练可以避免接触T的信息。然后我们将G的损失更新为：因此，如图1的蓝色虚线框所示，我们设计了一个生成网络，它包含N个upsam，L=e-d（T，D）+ΔL、（9）对去卷积分量进行卷积，N是类别的数量所有上采样组件共享一个后处理卷积网络。模型G从输入空间和变量标签值中随机采样噪声向量zn. 然后将z输入到第n个上采样解卷积中，卷积网络和共享卷积网络以产生数据Xb =G（z，n）。附加标签控制其中，R2控制标签控制损失的权重（我们在实验中将其设置为0.2）。在训练阶段，随着D的模仿能力的增强，T标记的合成样本的多样性也会增强。因此，D可以学习被攻击模型T的信息，这可以提高由D生成的对抗性示例的可移植性。我们去卷积层卷积层L1yTL合成数据NGobj：yT 埃尼D生成模型（G）替代模型（D）obj：yT 埃尼D受攻击模型（T）…C238算法1小批量随机梯度下降训练提出的方法DaST。#acc表示D的精度att表示由D生成的攻击的攻击成功率1：当迭代<6或acc，att不增加时，生成m个示例{Xb（1），. ...... 你好。，Xb（m）}，表1. MNIST上拟议DaST的性能。“预训练”、“DaST-L”和“DaST-P”：分别由预训练的大型网络和DaST-L和DaST-P生成的对抗性示例的攻击成功率（%）。（）表示每个图像的平均LF扰动距离。非目标6：LG = e-d（T，D）+εLC.7：结束PGD [27] 37.93（3.98）53.99（3.99）23.22（3.98）C W [6] 23.34（2.91）27.35（2.74）18.16（2.75）袭击的目标是4. 实验4.1. 实验设置在本小节中，我们介绍了我们的实验设置，包括数据集，模型架构，攻击方法和评估标准。数据集：我们在MNIST[24]和CIFAR-10 [21]。这两个数据集的测试集分别有10k张图像。场景：我们评估我们的方法在两个标签只有在粘性和概率只有场景。DaST-L和DaST-P分别表示仅标签场景中的DaST和仅概率场景中的DaST。在本研究的场景中，攻击者可以自由访问被攻击模型的输出。因此，我们得到的替代模型训练DaST时，算法收敛。模型架构和攻击方法：替代网络没有被攻击模型的先验知识，这意味着在实验中它不加载任何预先训练的模型。对于MNIST的实验，我们设计了3种不同的网络架构，包括小型网络（3个卷积层），中型网络（4个卷积层）和大型网络（5个卷积层），用于评估我们的DaST与具有不同容量的模型的性能。我们利用预训练的中间网络和VGG-16 [37]分别作为MNIST和CIFAR-10的攻击模型。此外，我们使用不同的架构的替代模型和攻击模型，以评估模型结构对我们的方法在CIFAR-10实验的影响。为了将DaST产生的替代模型与预训练模型进行比较，我们利用4种攻击方法生成对抗性示例，包括FGSM [14]，BIM [22]，投影梯度[27]，C W [6].为了测试，我们使用Ad- verTorch库[11]来生成对抗性示例。为了评估所提出的方法在现实任务中的性能，我们将我们的攻击应用于Microsoft Azure的在线MNIST该在线模型使用的训练技巧和机器学习方法无法访问。评价标准：为了评估DaST的性能，我们将其他预训练网络生成的对抗性示例的攻击成功率作为基线。非目标攻击和目标攻击的目标分别是导致被攻击模型输出错误标签和特定错误标签。在非目标攻击场景中，我们只在被攻击模型正确分类的图像上生成对抗性示例。在目标攻击中，我们只在没有被分类到特定错误标签的图像上生成对抗性示例。对抗性攻击的成功率由n/m来计算，其中n和m分别是能够欺骗被攻击模型的对抗性样本数和对抗性样本总数4.2. MNIST实验在本小节中，我们使用所提出的DaST来训练MNIST数据集上的对抗性攻击的替代模型，并在仅标签和仅概率场景下评估攻击成功率方面的性能。首先，我们进行实验，以评估的perfor-曼斯在概率只有和标签的攻击场景。我们采用中型网络作为MNIST的攻击模型，大型网络作为DaST的替代模型。我们在与被攻击模型相同的训练集上训练一个预先训练好的大型网络。我们利用进攻的成功第二章：第三章：更新替代模型：G.攻击预训练DaST-PDaST-L第四章：L D=d（T（Xb），D（Xb））.FGSM [14]59.72（5.40）69.76（5.41）35.74（5.40）将该方法命名为无数据替代训练（DaST），预训练DaST-PDaST-L这在算法1中示出。FGSM [14]12.10（5.46）20.45（4.49）13.10（5.46）与目前的替代攻击方法一样，BIM [22]37.83（4.90）57.22（4.87）29.18（4.87）用我们的方法训练的模型被用来生成广告。PGD [27]28.95（4.60）47.57（4.63）19.25（4.63）239表2.在MNIST上使用三种不同的替代架构的建议DaST的性能“小”、“中”、“大”：DaST生成的对抗性示例的攻击成功率（%），分别为小型、中型和大型替代网络。（）表示每个图像的平均LF扰动距离。非目标攻击表3.拟议DaST在CIFAR-10上的性能。“预训练”、“DaST-P”和“DaST-L”：分别由预训练的大型网络DaST-P和DaST-L生成的对抗性示例的攻击成功率（%）。（）表示每个图像的平均LF扰动距离。非目标攻击由预训练模型生成的对抗性示例的比率作为基线。我们的DaST的性能如表1所示。DaST-P和DaST-L训练的替代模型在测试集上分别达到97.82%和83.95%的准确率。由我们的DaST产生的替代模型的攻击成功率高于非目标（FGSM，BIM，PGD和CW分别高出10.04%，10.66% ， 16.06% 和 4.01% ）和目标攻击（ FGSM ，BIM ， PGD 和 C W 分别高出 11.83% ， 19.39% ，18.62%，13.48%）的预训练模型。实验结果表明，DaST-P生成的替代模型与被攻击模型在相同训练集（60000张图像）即使是DaST-L训练的替代模型在FGSM和CW攻击（有针对性）上也比基线模型表现得更好。然后，我们评估我们的DaST的性能，仅概率系统中的不同替代体系结构。我们还使用中型网络作为MNIST的攻击模型，并使用三种不同的替代架构，其中包括大型，中型和小型网络应用我们的DaST。这三种替代架构的攻击成功率如表2所示。与其他模型相比，大替换模型在FGSM、BIM、PGD攻击中取得了最好的效果与其他模型相比，小替代模型在C-W攻击中取得了最好的效果。结果表明，两种替代模型的架构在对抗性攻击中都取得了良好的效果。一般来说，结构越复杂的替代模型，对抗攻击的性能越好.4.3. CIFAR-10的实验在本小节中，我们使用所提出的DaST来训练CIFAR上的对抗性攻击的替代模型10个数据集，并在仅标签和仅概率场景下的攻击成功率方面评估性能。我们进行实验，以评估在概率只有和标签只有攻击的情况下的性能，并使用VGG-16网络作为被攻击的模型。我们在与at-tacked模型相同的训练集上训练一个预先训练好的ResNet-50网络。我们的DaST的性能如表3所示。DaST-P和DaST-L训练的替代模型在测试集上分别达到25.15%和20.35%的准确率。我们的DaST还通过预训练模型实现了具有竞争力的性能。在仅概率场景的大多数情况下（针对非目标攻击的FGSM、BIM、CW，针对目标攻击的BIM、PGD、C W），由DaST-P生成的替代模型优于基线模型。DaST-L训练的替代模型在CW攻击（非目标）上的表现优于基线模型。我们还评估了我们的DaST的性能与不同的替代架构的概率只有sce- nario。VGG-16网络被用作攻击模型。我们使用3种不同的替代架构来应用我们的DaST，其中包括VGG-13，ResNet-18和ResNet-50. 这三种替补队员的进攻成功率分别为结构如表4所示。它表明，替代模型的两种架构在对抗性攻击上都取得了良好的效果。在大多数情况下（BIM，PGD，C W用于非目标攻击，FGSM，BIM，PGD，C W用于目标攻击），VGG-13在对抗性攻击方面优于其他模型。ResNet-50在FGSM攻击（针对性）上获得了最佳结果。与MNIST上的实验结果不同，简单模型在CIFAR-10上取得了最好我们分别在图2和图3中可视化了DaST-P和DaST-L生成的对抗性示例这两种情况下的攻击扰动都很小。小介质大预训练DaST-PDaST-LFGSM [14]62.61（4.38）56.21（4.45）69.76（5.41）FGSM [14]39.10（1.54）39.63（1.54）22.65（1.54）BIM [22]94.86（4.85）92.47（4.84）96.36（4.81）BIM [22]59.18（1.01）59.71（1.18）28.42（1.19）PGD [27]45.31（3.99）43.62（3.99）53.99（3.99）PGD [27]35.40（1.02）29.10（1.10）17.80（1.10）C W [6]30.61（2.89）二十四点三十四分（二点七五）23.80（2.99）C W [6]9.76（0.77）13.52（0.74）10.34（0.74）攻击针对性攻击针对性小介质大预训练DaST-PDaST-LFGSM [14]19.92（4.43））20.45（4.49）23.93（5.45）FGSM [14]9.62 (1.54)6.697.32240表4.所提出的DaST在CIFAR-10上具有三种不同的替代架构的性能“VGG-13”、“ResNet-18”、“ResNet-50”：DaST分别使用VGG-13、ResNet-18和ResNet-50替代模型生成的对抗性示例的攻击成功率（越高越好）。（）中的数字表示每个图像的平均LF扰动距离。非针对性攻击（%）表5.所提出的DaST攻击Microsoft Azure示例模型的性能。“预训练”、“DaST-P”和“DaST-L”：由预训练的大型网络生成的对抗性示例的攻击成功率（越高越好），分别是仅概率场景中的DaST和仅标签场景中的DaST。（）中的数字表示每个图像的平均LF扰动距离。由于C W [6]上的所有方法都很难产生对抗性的例子，因此我们省略了这种攻击方法。VGG-13 ResNet-18 ResNet-50FGSM [14] 6.87（1.54）17.97（1.54）39.63（1.54）非针对性攻击（%）攻击目标（%）VGG-13 ResNet-18 ResNet-50PGD [27] 59.23（3.99）90.63（3.88）96.97（3.96）攻击目标（%）FGSM [14]18.27（1.54）2.07（1.54）6.69（1.54）预训练DaST-PDaST-LBIM [22]62.23（1.24）8.00（1.52）20.22（1.18）FGSM [14]13.52（5.46）32.00（5.21）43.99（5.37）PGD [27]41.48（1.17）3.72（1.26）14.09（1.12）BIM [22]19.31（4.88）50.21（4.90）71.15（4.56）C W [6]33.65（2.42）7.31（1.46）26.53（1.98）PGD [27]19.31（4.60）45.66（4.46）65.91（4.32）FGSMBIMCWPGD图2. DaST-L在CIFAR-10上生成的对抗性示例的可视化。我们为每个攻击生成5个样本。4.4. 在Microsoft Azure上进行实验在本小节中，我们在两种情况下进行了攻击Microsoft Azure在线模型的实验。我们使用Azure上机器学习教程的示例MNIST模型我们不知道这个模型的机器学习方法和架构。我们能得到的唯一信息就是这个模型的输出。我们将基于概率的DaST和基于标签的DaST攻击应用于该模型，以评估所提出的方法在现实世界中的应用的性能。替代模型在这个实验中有5个卷积层。用DaST-P和DaST-L训练的替代模型的正确率为79.35%FGSMBIMCWPGD图3. DaST-P在CIFAR-10上生成的对抗性示例的可视化。我们为每个攻击生成5个样本。在MNIST测试集上的准确率分别为90.75%。所提出的方法在对抗性攻击上的性能如表5所示。DaST-L在该在线模型上的性能优于DaST-P。因为受攻击的Azure模型 MNIST的准确率仅为91.93%。图6显示了DaST-P的训练，它可以访问比DaST-L更多的被攻击模型的信息，遭受过拟合。DaST-L 替代品在FGSM（98.21%）、BIM（98.35%）、PGD（96.97%）攻击上取得了非常高的攻击成功率。此外，我们的DaST方法即使在有针对性的攻击中也实现了高攻击成功率。与MNIST训练集训练的模型相比，DaST训练的替代模型在纯标签BIM [22]93.13（1.18）31.70（1.54）59.71（1.18）预训练DaST-PDaST-LPGD [27]56.14（1.08）10.04（1.11）29.10（1.10）FGSM [14]77.96（5.41）96.83（5.25）98.21（5.36）241表6. DaST和其他攻击的比较。ASR：攻击成功率。“查询”：评估阶段的查询次数。 ”Boundary”: Decision-Based Attacks[ ”GLS”: a score- based black-box attack based on greedy localsearch [“-”表示我们的DaST在评估阶段不需要查询。本实验中的DaST使用BIM生成攻击。攻击ASR距离查询DaST-P96.83%4.79-GLS [31]40.51%4.27297.07DaST-L98.35%4.72-边界[3]百分百4.69670.54（非靶向FGSM高20.25%，32.10%，37.74%，BIM、PGD攻击。在针对FGSM、BIM、PGD攻击的情况下，分别高出30.47%、51.84%、46.60%）和仅概率场景。结果表明，即使不需要任何真实数据，我们的方法也能更好地攻击实际在线模型。由于DaST在评估阶段不需要任何查询，但在训练阶段需要查询，因此我们的DaST需要与基于分数的攻击和基于决策的攻击不同的信息（它们需要在评估阶段查询）。我们显示了基于分数和基于决策的攻击的查询数量，这些攻击与非目标攻击中的DaST具有相似的扰动距离结果示于表6中。我们的DaST在训练阶段通过对被攻击模型的20，000，000个查询进行训练。与基于决策和基于分数的攻击相比，DaST每次访问被攻击模型的输入在训练阶段是不同的（当前基于查询的攻击需要使用一个原始数据多次访问被攻击模型来生成每次攻击）。因此，DaST的查询比其他攻击更难被跟踪。可视化：我们在图4所示的Azure实验中可视化由DaST中的生成模型生成的合成样本。我们还在图5中可视化了DaST-P和DaST-L生成的对抗性示例。DaST的攻击扰动很小。培训衔接：我们展示了在Azure实验的训练阶段，DaST生成的BIM攻击的攻击成功率曲线，如图6所示。DaST-L和DaST-P的攻击成功率分别在20，000，000和2，000，000次查询后收敛。5. 结论我们提出了一种无数据方法DaST来训练对抗性攻击的替代模型。 DaST通过利用GAN生成合成样本来减少对抗性替代攻击的先决条件。这是第一种可以训练替代模型而不需要任何真实数据的方法。实验表明，图4.在DaST训练中生成器生成的合成样本的可视化。左图：DaST-L生成的样本。右：DaST-P生成的样本。FGSMBIMPGD图5. DaST生成的攻击Azure模型的对抗性示例的可视化。左图：DaST-P生成的示例。右图：DaST-L生成的示例。图6. Azure实验训练阶段DaST生成的BIM攻击成功率。我们的方法。机器学习系统存在很大的风险，攻击者可以在真实输入数据难以收集的情况下训练替代模型。所提出的DaST不能单独生成对抗性示例，它应该与其他基于梯度的攻击方法一起使用。在以后的工作中，我们将设计一种新的替代训练方法，直接生成攻击.此外，我们还将探讨DaST的防御。6. 确认本研究得到了国家自然科学基金（NSFC ， No.61602091号61571102号、61872067号）和四川省科技计划（四川省科技计划（四川省科技计划）2019YFH0008 号、 2018JY0035 号、 2019YFH0016号）。242引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊渐变会给人一种错误的安全感：规避对抗性例子的防御。在第35届机器学习国际会议（ICML 2018）上，2018年7月2[2] 阿琼·尼廷·巴戈吉，丹尼尔·库里纳，普尔提·米特·塔尔.降低机器学习分类器的模糊性以抵御入侵攻击。arXiv预印本arXiv：1704.02654，2017。2[3] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。arXiv预印本arXiv：1712.04248，2017。一、二、八[4] 雅各布·巴克曼，奥科·罗伊，科林·拉菲尔，伊恩·古德费尔-洛.温度计编码：一个抵抗敌对例子的好方法。在国际会议上学习表示（ICLR），2018年。2[5] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。第10届ACM人工智能与安全研讨会论文集，第3-14页。ACM，2017。2[6] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。二五六七[7] 陈建波， Michael I. Jordan 和 Martin J. 温赖特Hopskipjumpattack：2019年基于查询效率的决策攻击。一、二[8] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，在没有训练替代模型的情况下对深度神经网络进行攻击. 第10届ACM人工智能与安全研讨会论文集，第15-26页。ACM，2017。一、二[9] Minhao Cheng，Thong Le，Pin-Yu Chen，Jinfeng Yi，Huan Zhang，and Cho-Jui Hsieh.查询高效的硬标签黑盒攻击：基于优化的方法。arXiv预印本arXiv：1807.04457，2018。一、二[10] 古尼特岛放大图片作者：David D.放大图片创作者：Bernstein ， Jean Kossaifi ， Aran Khanna ， Zachary C.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活修剪。在2018年国际学习代表会议上。2[11] Gavin Weiguang Ding ，Luyu Wang，and Xiaomeng Jin.Ad- verTorch v0.1：基于pytorch的对抗鲁棒性工具箱。arXiv预印本arXiv：1902.07623，2019。5[12] Reuben Feinman，Ryan R Curtin，Saurabh Shintre，andAn- drew B Gardner.从伪像中检测对抗样本。arXiv预印本arXiv：1703.00410，2017。2[13] 龚志涛，王文禄，顾伟信。对抗性数据和干净数据并不是一对孪生兄弟。arXiv预印本arXiv：1704.04960，2017年。2[14] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。国际学习表征会议（ICLR），2015年。一、二、五、六、七[15] Kathrin Grosse、Praveen Manoharan、Nicolas Papernot、Michael Backes和Patrick McDaniel。关于对抗性示例的（统计）检测。arXiv预印本arXiv：1702.06280，2017。2[16] Chuan Guo ， Jacob Gardner ， Yurong You ， AndrewGordon Wilson，and Kilian Weinberger.简单的黑盒攻击。在机器学习国际会议上，第2484-2493页，2019年。一、二[17] Warren He，James Wei，Xinyun Chen，Nicholas Carlini，and Dawn Song.对抗性示例防御：防御薄弱的群体并不强大。第11届进攻技术研讨会（WOOT 2017），2017年。2[18] 丹·亨德里克斯和凯文·金佩尔。检测对抗性图像的早期方法。2017年学习表征国际会议（ICLR）。2[19] Andrew Ilyas ， Logan Engstrom ， Anish Athalye 和 JessyLin。使用有限的查询和信息进行黑盒对抗攻击。在机器学习国际会议上，第2142-2151页，2018年。1[20] Andrew Ilyas，Logan Engstrom，and Aleksander Madry.前科：黑盒对抗攻击与禁令- dits和先验。 arXiv预印本arXiv：1807.07978，2018。一、二[21] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。5[22] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。国际学习表征会议（ICLR），2017年。一、二、五、六、七[23] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习。2017年国际学习表征会议（International Conference on Learning Representations，ICLR）2[24] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。 Proceedingsof the IEEE，86（11）：2278-2324，1998. 5[25] Yanpei Liu，Xinyun Chen，Chang Liu，and Dawn Song.深入研究可转移的对抗性例子和黑盒攻击。2017年国际学习表征会议（ International Conference on LearningReprese

下载后可阅读完整内容，剩余1页未读，立即下载