无数据黑盒对抗性攻击的高效方法

6 浏览量更新于2023-10-25 收藏 13.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0202040608010002020406080100151150面向高效的无数据黑盒对抗性攻击0Jie Zhang 1 � Bo Li 2 �‡ Jianghe Xu 2 Shuang Wu 20Shouhong Ding 2 Lei Zhang 1 Chao Wu 1 ‡01浙江大学2腾讯优图实验室0{zj zhangjie，lei.zhang，chao.wu}@zju.edu.cn，{libraboli，jankosxu，calvinwu，ericshding}@tencent.com0摘要0经典的黑盒对抗性攻击可以利用类似的替代模型生成的可转移的对抗性示例成功欺骗目标模型。然而，这些替代模型需要通过目标模型的训练数据进行训练，由于隐私或传输原因，这很难获得。认识到对于对抗性查询而言真实数据的可用性有限，最近的研究提出在无数据黑盒场景中训练替代模型。然而，他们基于生成对抗网络（GANs）的框架存在收敛失败和模型崩溃的问题，导致效率低下。在本文中，通过重新思考生成器和替代模型之间的合作关系，我们设计了一种新颖的黑盒攻击框架。所提出的方法可以通过少量的查询有效地模仿目标模型，并实现高攻击成功率。对六个数据集进行的全面实验证明了我们的方法对抗最先进的攻击的有效性。特别是，我们在MicrosoftAzure在线模型上进行了仅标签和仅概率的攻击，并且仅使用SOTA方法[49]的0.46%查询预算实现了100%的攻击成功率。01. 引言0最近，深度神经网络（DNN）已被应用于人工智能在已建立和新兴领域的发展中作为一种基本技术[24-28, 31-33,42, 45, 46,48]。尽管DNN的成功，最近的研究发现DNN对对抗性示例是脆弱的[3, 6, 13, 16, 30,41]。对图像进行几乎不可察觉的扰动可以导致一个良好的0*两位作者对本文贡献相同。本工作是在JieZhang在腾讯优图实验室实习期间完成的。‡通讯作者。0查询（×2 k）0准确率（%）0DaSTDFME我们的0查询（×2 k）0ASR（%）0图1. 与最先进的方法DaST [49]和DFME[43]的效率比较。左子图显示替代模型的准确率，右子图显示无目标攻击的成功率。在MNIST上进行的概率仅场景的攻击，查询预算Q = 40 k（1 k = 1000）。0训练DNN以进行错误分类。因此，关于DNN的安全性问题引起了许多研究人员对网络的对抗性脆弱性和鲁棒性的兴趣[29]。经典作品[2, 13,34]在白盒设置中进行攻击：通过完全访问模型的参数和架构，他们可以直接使用基于梯度的优化来找到成功的对抗性示例。然而，由于隐私和安全问题，这种攻击场景通常在现实世界的部署中不可用。作为现实世界系统中更实际的场景，黑盒攻击假设攻击者只能查询目标网络并获得给定输入的输出（概率或标签）。通过使用真实图像查询目标网络，恶意攻击者可以训练替代模型来模仿目标模型。然后，可以使用替代模型生成对抗性示例[8, 17,39]来基于这些对抗性示例的可转移性[10, 11,41]攻击目标模型。然而，替代模型需要通过目标模型的训练数据进行训练，由于隐私或传输原因，这很难获得。最近，一些研究人员[43, 44,49]已经认识到对于对抗性查询而言真实数据的可用性有限。151160并提出在无数据黑盒场景中训练替代模型。通过采用生成对抗网络（GANs）的原则，他们[43，49]尝试通过竞争游戏来解决这个问题：一个生成器负责合成一些输入图像，替代模型在这些图像上训练以模仿目标模型。在这个游戏中，两个对手——替代模型和生成器模型，分别试图最小化和最大化替代模型与目标模型之间的匹配率。然而，在黑盒场景中准确量化替代目标不一致性非常困难，更不用说直接使用这个目标来训练生成器了。因此，这个不稳定的训练过程使得模型很难收敛。即使在无限次查询之后，他们的方法仍然不可避免地导致模型崩溃，在实践中几乎无法达到理想的纳什均衡点（我们在第4节中通过实验证实了这些现象）。尽管先前的方法为无数据替代模型训练提供了一些启示，但这些方法需要大量的查询，在实际世界的设置中并不实际（例如，攻击MicrosoftAzure上的在线模型需要200万次查询[49]）。事实上，商业模型通常作为按查询付费的预测API部署，以保护数据隐私。如何在有限的查询预算下有效学习替代模型仍然是一个开放且非常具有挑战性的问题。在本文中，我们考虑了一个更严格但更实际的对抗场景，即无法访问真实数据且查询目标模型的预算有限的黑盒模型。重新思考生成器和替代模型之间的合作关系，我们设计了一个强大的黑盒攻击框架。如图1所示，所提出的方法可以通过少量查询有效地模仿目标模型，并在概率和标签基础的黑盒设置中实现高攻击成功率。我们的贡献如下：（1）我们重新审视了先前无数据攻击方法的收敛问题，这是由于它们不稳定的训练过程引起的。我们不再使用不准确的替代目标不一致性训练生成器，而是改变了生成器和替代模型之间的博弈。这两个合作的玩家不再被迫在一个最小化-最大化的游戏中直接竞争。相反，我们给他们不同的目标。特别是对于生成器，我们将其目标重置为合成接近目标训练数据分布的替代数据集。而替代模型旨在使用生成的训练样本有效地模仿目标模型。在我们的新游戏中，生成器和替代模型具有相对独立的优化过程，这使得替代模型更稳定地收敛到目标模型。（2）除了收敛问题，先前的方法还存在模型崩溃的问题，导致低0替代模型准确性低，攻击成功率低。我们试图通过平衡数据分布和促进数据多样性的方式来缓解无数据替代模型训练中的模式坍塌问题。一方面，我们最大化每个批次中合成数据的信息熵。当信息熵最大化时，各个类别的分布是均匀的。另一方面，我们随机平滑伪标签，并引导生成器在每个类别中合成多样化的数据。（3）为了进一步提高替代模型的训练效率，我们提出更深入地利用合成数据。为了实现更高的攻击成功率，我们鼓励替代模型具有与目标模型高度一致的决策边界。因此，我们认为有两种类型的数据需要特别关注。我们设计了两个损失来提升替代模型的训练。（4）我们在六个数据集上进行了实证评估，包括非定向攻击和定向攻击，结果表明所提出的方法可以使用少量查询有效地模仿目标模型，并使用替代模型成功生成对抗样本。具体而言，在CIFAR10的仅标签情景下，我们实现了98.0%的非定向攻击成功率，仅使用了先前SOTA方法DFME[43]的3.75%的查询预算。此外，我们在MicrosoftAzure在线模型上进行了仅标签和仅概率的攻击，并以先前SOTA方法DaST[49]的0.46%的查询预算实现了100%的攻击成功率。02. 相关工作0黑盒对抗攻击在黑盒设置中，攻击者只能查询目标网络并获得给定输入的输出（概率或标签）。对抗样本的可转移性首先由Szegedy等人验证[41]，他们发现一个模型生成的对抗样本很可能被另一个模型错误分类。因此，在黑盒设置中，恶意攻击者可以训练替代模型来模仿目标模型。然后，替代模型可以用于生成对抗样本[8，17，39]，以基于可转移性[41]攻击目标模型。在本文中，我们关注这些基于转移的黑盒攻击，采用更严格但更实际的对抗情景：黑盒模型无法访问真实数据，并且在查询目标模型时有限的预算。注意，还有另一种称为基于查询的黑盒攻击[1，4，5，7]，它利用输入查询反馈来指导攻击方法生成对抗样本。Cheng等人提出了一种基于分数的攻击方法，即基于零阶梯度估计的攻击（ZOO）。Brendel等人首次提出了一种基于决策的攻击。尽管这些基于查询的方法在执行黑盒攻击时不需要真实训练数据，但与无数据转移的黑盒攻击仍存在一些显著差异。最重要的区别是，基于查询的攻击方法基于实例生成攻击（在评估阶段，它们需要使用一个原始数据多次访问被攻击模型以生成每个攻击）。因此，他们的方法所需的查询成本与生成的对抗样本数量成线性关系。而基于转移的黑盒攻击在评估阶段不需要任何查询，但在训练阶段需要查询。在获得替代模型后，此类攻击将不再需要额外的查询成本来生成攻击样本。无数据知识蒸馏无数据知识蒸馏将教师模型的知识传递给学生模型，无需原始数据集[35]。训练一个生成模型来合成学生查询教师的数据样本，以无数据方式进行[9，12，35]。无数据知识蒸馏的成功暗示了无数据对抗攻击的可行性[44，49]。然而，先前的工作假设教师模型是白盒模型，并直接利用梯度或特征图信息进行蒸馏[12]。黑盒场景中无法获得教师模型的梯度信息[43]利用无数据知识蒸馏提取模型知识，旨在窃取目标模型的知识。与先前的方法不同，它近似了目标模型的梯度，这是一个进一步的步骤，对于对抗攻击具有启发意义。但是，该方法只考虑了目标模型的仅概率输出，忽略了仅标签的情况，这在实际应用中是一个具有挑战性和实用性的任务。151170尽管在执行黑盒攻击时，基于查询的攻击方法不需要真实训练数据，但与无数据转移的黑盒攻击仍存在一些显著差异。最重要的区别是，基于查询的攻击方法基于实例生成攻击（在评估阶段，它们需要使用一个原始数据多次访问被攻击模型以生成每个攻击）。因此，他们的方法所需的查询成本与生成的对抗样本数量成线性关系。而基于转移的黑盒攻击在评估阶段不需要任何查询，但在训练阶段需要查询。在获得替代模型后，此类攻击将不再需要额外的查询成本来生成攻击样本。无数据知识蒸馏无数据知识蒸馏将教师模型的知识传递给学生模型，无需原始数据集[35]。训练一个生成模型来合成学生查询教师的数据样本，以无数据方式进行[9，12，35]。无数据知识蒸馏的成功暗示了无数据对抗攻击的可行性[44，49]。然而，先前的工作假设教师模型是白盒模型，并直接利用梯度或特征图信息进行蒸馏[12]。黑盒场景中无法获得教师模型的梯度信息[43]利用无数据知识蒸馏提取模型知识，旨在窃取目标模型的知识。与先前的方法不同，它近似了目标模型的梯度，这是一个进一步的步骤，对于对抗攻击具有启发意义。但是，该方法只考虑了目标模型的仅概率输出，忽略了仅标签的情况，这在实际应用中是一个具有挑战性和实用性的任务。03. 方法论03.1. 攻击情景和符号0在实际应用中，存储在远程服务器上的预训练模型只提供推理的API。用户无法访问模型参数和训练数据。假设攻击者只能访问由API返回的黑盒模型的标签或概率输出。我们分别将其定义为仅标签和仅概率的情况。本文中出现的重要符号在表1中描述。0表1. 重要符号及其描述0符号说明0T，S，G目标模型，代替模型，生成器0X，Z，Y合成数据，随机噪声，标签03.2. 框架概述0在本节中，我们在图2中说明了我们提出的无数据对抗攻击方法的框架。我们的方法的过程包括两个阶段：1）高效数据生成和2）代替模型蒸馏。在第一阶段，我们将生成器G的目标重置为合成的期望数据，其分布接近目标训练数据。G不直接参与第二阶段的代替模型蒸馏。因此，两个参与者不再被迫在一个最小化-最大化的游戏中直接竞争。在第二阶段，代替模型S旨在使用生成的数据高效地模仿目标模型T。基于对抗性示例的可转移性[41]，S精心设计的这些对抗性示例可以转移到T。我们的方法的详细描述如算法1所示。03.3. 高效数据生成0首先，给定一批随机噪声Z = {z1，z2，...，zn}和伪标签Y ={y1，y2，...，yn}，生成器G被用来将Z映射到所需的数据X=G(Z)。合成数据X的分布应该与真实数据类似。如果G生成的图像与训练数据集具有相同的分布，它们的预测也应该是相似的。因此，我们将优化G如下：0LG = CE(T(X), Y), (1)0其中CE表示交叉熵损失函数。然而，这个损失的反向传播需要T的梯度信息，这违反了黑盒攻击的原则。因此，我们使用S来近似方程1中的T（我们在实验中经验证明了这种替代的可行性）：0LG = CE(S(X), Y). (2)0注意，伪标签y可以是随机生成的，也可以由T提供。然而，在数据生成过程中持续查询T将极大地消耗有限的查询预算。因此，我们随机采样Y作为伪标签。正如在引言中讨论的那样，先前的方法遭受了模型崩溃的问题，导致替代模型的准确性和攻击成功率低。我们试图通过平衡生成的数据分布和促进数据多样性来缓解模型崩溃问题。为了使生成的样本覆盖我们方法中的所有类别，我们引入信息熵来衡量标签的混乱程度。假设总共有k个类别，且Hinfor = -10k Σ k i=1 pi log pi是给定概率向量P ={p1，p2，...，pk}的信息熵损失。Ldis = d(T (X), S(X)),(5)××××××151180批次噪声生成器合成数据代替模型0逻辑回归0保存的数据随机平0�� + �� 0更新0�� 高效数据生成0标签或0概率0逻辑回归0代替模型0更新0黑盒模型0�� 代替模型蒸馏0保存的数据0伪标签0�� + �� + �� 0图2. 我们提出的无数据对抗攻击方法的示意图。0然后，合成数据的信息熵损失LH被制定为正则化项：0LH = -Hinfor(10n0i=1 S(Xi)) (3)0当LH达到最大值时，各个类别均匀分布。为了进一步促进数据的多样性，我们随机平滑[40]伪标签，并引导生成器在每个类别中合成多样化的数据。总之，我们最小化以下损失函数来更新G：0L G = 交叉熵 � S ( X ) , ˆ Y � + α L H , (4)0其中，α表示调整正则化值的超参数，ˆY是平滑标签。对于每个时期，我们运行t次迭代来合成X。与以前的研究不同，我们的方法不依赖于经过对抗训练的G。实际上，我们在每个时期随机初始化G。在这种情况下，G只负责该时期生成的合成数据X，并且G不直接参与模型蒸馏阶段。03.4. 替代模型蒸馏0一旦我们获得了合成数据 X，期望的是T(X)和S(X)的输出尽可能一致。受知识蒸馏[15]的启发，S可以模仿T的输出，如下所示：0其中，d是衡量距离的度量。具体来说，在仅有标签的情况下，这个度量可以是交叉熵损失，而在仅有概率的情况下，d可以是L2范数。为了实现更高的攻击成功率，鼓励替代模型具有决策边界，这些决策边界与目标模型高度一致。0算法1 提出的无数据黑盒攻击。0要求：随机噪声 Z ，生成器 G ，目标模型 T ，替代模型S ，合成数据 X ，迭代次数 E ，每个迭代次数 t ，参数 θG ， θ S 和学习率 γ 1 ， γ 2 。01: 对于每个 e ∈ E 执行 2: //高效数据生成：03: 对于每个 i ∈ t 执行04: 生成一批数据 X ← G ( Z )05: 计算 L G = 交叉熵 ( S ( X ) , y ) + α L H06: 更新 θ G ← θ G − γ 1 ▽ θ G L G ( θ G07: 将 X 保存到 D = { X 1 , ∙ ∙ ∙ , X t }08: // 替代模型蒸馏：09: 对于 x 在 D 中执行010: 计算 L S = L dis + β 1 ∙ L bd + β 2 ∙ L adv011: 更新 θ S ← θ S − γ 2 ▽ θ S L S ( θ S )012: 返回 θ S0L 期望数据0替代模型目标模型替代模型目标模型0合成数据0测试数据0分类错误0对抗攻击0对抗样本0决策边界0图3. 左图：低多样性数据，易于学习。右图：蒸馏所需数据。0与目标模型高度一致。然而，如图3所示，左子图展示了以前方法生成的低多样性的低质量数据。它们远离分类边界。这些数据对于S来说非常容易学习，并且很容易导致过拟合。为了进一步提高替代模型的训练效率，̸0306003060102000000020406080151190此外，我们建议更深入地利用合成数据。因此，我们认为有两种类型的数据需要特别关注。第一种类型是指在S和T之间存在决策不一致的数据（黑色圆圈）。这种类型的数据主要存在于目标模型和替代模型的决策边界之间。给予这些数据更多的权重有助于弥合两个决策边界之间的差距。我们更加关注这些样本，并引入了一个边界支持损失：0L bd = d ( T ( X ) , S ( X )) ∙ 1 { arg max T ( X ) � = argmax S ( X ) } . (6) 函数 1是一个指示器，当T和S在给定数据上产生不一致的预测时，它的值为1。可以轻松从S转移到T的对抗样本被认为是另一种重要类型的数据。这种数据的存在意味着S和T的决策边界相对接近。更加关注这种类型的数据可以确保S继续朝着接近T边界的正确方向移动。然后我们引入一个对抗样本支持损失：0Ladv = d(T(X), S(X)) ∙ 1 � arg max T(ˆX) = arg max S(ˆX)�.(7)ˆX是由PGD[34]攻击生成的对抗性示例。请注意，此损失将增加额外的查询成本。请注意，此损失要求我们再次查询目标模型。总之，我们更新S的损失为：0LS = Ldis + β1 ∙ Lbd + β2 ∙ Ladv, (8)0其中β1和β2控制不同损失函数的值，默认设置为1。04. 实验04.1. 实验设置0数据集和模型我们在流行的数据集上评估我们的方法：MNIST [23]，FMNIST [47]，SVHN [36]，CIFAR10[19]，CIFAR100 [19]和Tiny-ImageNet[22]。根据[49]的设置，对于MNIST和FMNIST，我们使用轻量级CNN模型作为目标模型。小型CNN用作替代模型。此外，我们使用ResNet-34[14]作为SVHN和CIFAR-10的目标模型，并使用ResNet-18[14]作为替代模型。根据[12]的架构，我们使用StyleGAN[18]中的相同生成器。0训练细节替代模型使用批量大小为256的SGD进行训练，初始学习率为0.01，动量为0.9，无权重衰减。生成器也使用相同的批量大小256进行训练，但使用固定学习率0.001的Adam优化器。由于CIFAR100和Tiny-ImageNet中有更多的类别（100个和200个类别），我们将大小设置为1024以保持G生成的数据的多样性。训练时期为400，每个时期我们训练生成器10轮。在我们的实验中，MNIST、FMNIST和SVHN的默认查询预算Q =20k，CIFAR-10、CIFAR-100和Tiny-ImageNet的默认查询预算Q = 250k。0CIFAR100中的类别和Tiny-ImageNet中的200个类别），我们将大小设置为1024以保持G生成的数据的多样性。训练时期为400，每个时期我们训练生成器10轮。在我们的实验中，MNIST、FMNIST和SVHN的默认查询预算Q =20k，CIFAR-10、CIFAR-100和Tiny-ImageNet的默认查询预算Q = 250k。0基线为了进行公平比较，我们将我们的方法与三种最先进的方法进行比较：1）需要训练数据的黑盒攻击，例如JPBA[38]和Knockoff [37]；2）无数据的黑盒攻击，例如DaST[49]和Del[44]；3）基于目标模型返回的概率的无数据模型提取攻击，例如DFME[43]。请注意，此方法不适用于仅标签的情况。为了便于比较，我们基于DaST的框架将此方法扩展到仅标签的情况。我们在相同的查询预算Q下进行所有实验。0评估我们使用三种常见的攻击方法生成对抗性示例，包括FGSM [20]，BIM [21]，PGD[2]*。对于FMNIST和FMNIST，我们设置扰动边界ϵ =32/255，步长α =0.031。对于SVHN、CIFAR10和CIFAR100，我们设置扰动边界ϵ = 8/255，步长α =2/255。在非定向攻击场景中，我们只对被攻击模型正确分类的图像生成对抗性示例。在有目标的攻击中，我们只对未被分类为特定错误标签的图像生成对抗性示例。攻击成功率（ASR）通过n/m计算，其中n和m分别是可以欺骗被攻击模型的对抗性示例的数量和总对抗性示例的数量。为了评估所提出的方法在现实任务中的性能，我们进一步将我们的方法应用于攻击微软Azure的在线模型。0损失0DaST0生成器替代0准确率或ASR（%）0DaST0准确率ASR0# Epoch0损失0DFME0生成器替代0# Epoch0准确率或ASR（%）0DFME0准确率ASR0图4. 先前SOTA方法的训练缺陷。0* 我们使用AdverTorch进行实现MNISTJPBA3.896.895.3118.1423.5620.184.297.025.4918.9825.1421.98Knockoff4.186.034.6619.5527.3222.184.676.865.2621.3528.5623.34DaST4.336.495.1720.1527.4527.134.576.415.3425.3629.5629.14Del6.459.146.1322.1325.6923.186.979.676.2424.5625.3525.28DFME10.4514.286.3850.1468.8963.3811.6716.327.9354.1670.1866.32Ours14.4528.719.8666.2195.9087.8916.9936.8214.5560.4597.4680.76FMNISTJPBA6.458.467.5724.2230.5630.116.898.567.5626.2331.3531.11Knockoff6.348.357.3228.1936.8835.926.658.988.2330.2136.9436.22DaST5.387.186.5330.4536.1734.235.337.467.8432.1437.3434.91Del3.898.197.4728.1434.1432.453.238.598.1131.4336.2633.87DFME7.1822.4524.5860.4574.2972.199.4426.8925.7462.1578.5677.89Ours30.0876.4632.4291.41100.0098.8331.1579.335.4591.9999.9098.93MNISTFGSM35.7534.3037.2066.21BIM38.5838.6570.8595.91PGD36.1236.9556.4687.89FMNISTFGSM39.4737.0263.3091.99BIM42.6542.6674.0899.91PGD39.2440.4259.3198.93MNISTFGSM55.6453.3458.4460.45BIM58.5558.2790.3697.46PGD55.8956.9275.8880.76FMNISTFGSM59.1356.9782.4391.41BIM62.3761.7693.76100.00PGD58.9060.2079.2698.83151200表2. 在相同查询预算 Q = 20 k 下，我们提出的方法与基线方法在MNIST和FMNIST上的攻击成功率（%）比较。0数据集类型有针对性，仅有标签无针对性，仅有标签有针对性，仅有概率无针对性，仅有概率0方法 FGSM BIM PGD FGSM BIM PGD FGSM BIM PGD FGSM BIM PGD04.2. 先前方法的实证研究0为了更好地说明我们在引言中提到的先前SOTA方法（DaST[49]和DFME[43]）的训练缺陷，本节我们对他们提出的最小最大竞争游戏进行了实证分析。如图4所示，在顶部子图中，我们可以看到生成器（绿色）和替代模型（橙色）的损失都在时间上剧烈波动。同时，替代模型的准确率（红色）在一个低水平（10%）附近波动，可转移攻击成功率（蓝色）在剧烈波动中逐渐下降。由于不准确的替代-目标不一致性引起的这种不稳定的训练过程使得模型难以收敛。在底部子图中，由于对替代-目标不一致性的更准确估计，我们可以看到相对稳定的替代模型（橙色）损失。然而，随着训练轮数的增加，替代模型的损失保持接近零，尽管生成器的损失增加（绿色）。这表明生成器在以某种一致的方式生成示例方面表现不佳，使得替代模型无法从目标模型中学习到更多知识。替代模型的准确率（红色）和攻击成功率（蓝色）也保持低水平且不再增加，这也表明了模型崩溃的出现。04.3. 黑盒攻击结果0在MNIST和FMNIST上的实验我们报告了仅有标签和仅有概率两种情况下的有针对性和无针对性攻击成功率。如表2所示，我们的方法在所有数据集上的攻击成功率远高于其他最先进的基线方法。我们指出，我们的方法可以在很少的查询次数下实现非常高的攻击成功率，而其他方法表现不佳。与有针对性攻击相比，我们的方法在无针对性攻击上也有更好的表现。0表3. 在MNIST上的攻击成功率。所有基线方法的查询预算均为10M，我们提出的方法的查询预算非常小，为10 k。0类型数据集攻击方法 DaST (10M) Del (10M) DFME (10M) Ours (10k)0仅有标签0仅概率攻击0攻击中，所有这些方法在无目标攻击中都显示出更高的ASR。原因是无目标攻击试图使模型预测任何错误的类别，而有目标攻击试图将模型引导到特定的类别。显然，我们的方法在有目标攻击中甚至可以获得比其他基准方法更高的ASR改进。此外，我们发现其他方法无法在少量查询 Q = 10 k的情况下达到令人满意的攻击成功率。由于不准确的替代目标不一致导致的不稳定训练过程，使得模型难以收敛。因为它们的生成器是使用不准确的替代目标不一致进行训练的，这在早期阶段很难收敛。因此，这些方法需要大量的查询，在实际应用中不切实际。0为了进一步展示我们方法的优势，我们报告了其他无数据对抗攻击方法在大量查询 Q = 10 M下的最佳结果。如表3所示，我们的方法仍然在其他基准方法中表现出色，仅使用少量的SVHNJPBA4.135.185.0322.1527.4326.234.675.855.5223.1127.7226.82DaST4.285.195.1222.1628.9421.365.195.825.9622.2929.2921.95DFME9.7815.3814.1134.1836.8235.1110.1215.8814.4534.2337.5435.54CIFAR10JPBA6.327.707.9227.8233.2331.707.288.567.6428.7733.3831.96DaST6.547.817.4127.6134.4326.998.158.408.2627.5834.7527.47DFME12.6218.3216.7639.6642.0740.5112.5818.7016.8039.4343.3340.69JPBA4.356.206.1733.5838.5437.085.737.506.4134.2139.1237.31CIFAR100DaST4.976.195.9233.5739.8632.716.387.047.0132.8040.3432.78DFME11.2317.0215.5845.6647.2646.2210.6217.6215.1744.7648.7346.5103020406080100010040020406080100151210表4. 我们提出的方法与基准方法在几个数据集上的ASR（%）比较。默认查询预算 Q = 250 k 。0数据集类型有标签的有针对性攻击无标签的有针对性攻击有标签的概率攻击无标签的概率攻击0方法 FGSM BIM PGD FGSM BIM PGD FGSM BIM PGD FGSM BIM PGD0仿冒 3.89 4.98 4.82 23.78 26.05 24.75 4.43 5.50 5.15 24.51 26.94 24.990删除 4.67 5.01 4.45 20.14 25.44 24.78 5.53 5.81 4.81 20.88 25.79 25.740我们的方法 21.58 31.25 21.88 55.76 76.37 74.51 19.34 32.81 24.02 58.01 76.37 75.590仿冒 6.26 7.02 7.04 29.61 31.86 30.68 6.46 8.27 7.35 30.02 31.98 30.350删除 7.14 7.44 6.95 25.33 30.45 30.34 7.86 8.29 7.17 26.38 31.53 31.470我们的方法 34.57 76.95 72.27 86.13 99.22 99.41 31.54 73.93 69.14 83.89 99.32 99.020仿冒 4.40 5.86 5.25 34.84 36.92 36.34 4.88 7.05 6.18 36.01 37.61 35.470删除 5.38 5.72 5.69 30.80 35.63 36.15 6.30 6.53 5.23 31.64 36.63 37.440我们的方法 26.64 46.88 42.77 78.61 91.31 91.21 7.91 56.15 52.54 83.69 94.53 94.140查询（×5 k）0准确率或ASR（%）0DFME，准确率DFME，ASR我们的方法，准确率我们的方法，ASR0查询（×10k）0DFME，准确率DFME，ASR0图5. 左图：我们的方法和DFME在CIFAR10上的有限查询预算Q =150k下的ASR和准确率。右图：在大量查询次数Q =4000k下，DFME获得了可比较的性能。0查询Q =10k。根据表2和表3，这些基准方法在查询次数较多时可以获得更好的性能。这是由于GAN在后期阶段的逐渐稳定训练。相反，我们的方法中生成器和替代模型不再强制在一个最小化-最大化的游戏中直接竞争。因此，我们的方法可以在早期阶段迅速收敛。这是我们用替代模型替换生成模型训练中T的可行性和有效性的另一个证明。我们进一步研究了我们的方法在更复杂数据集上的性能，因为灰度图像数据集具有简单的风格（即MNIST和FMNIST）对神经网络来说很容易学习，当在合成数据上进行查询时，底层表示可以很容易地学习到。因此，我们在SVHN和CIFAR-10、CIFAR-100上对我们的方法的性能进行了进一步的研究。正如我们在图1中讨论的那样，DaST在MNIST上的性能非常差。0由于查询预算较小，很难扩展到大型数据集。因此，我们首先将我们的方法与CIFAR10数据集上最佳基线DFME进行比较。如图5所示，较小的查询预算导致DFME的性能极不稳定。我们的方法仍然能够获得比DFME更高的成功率和准确率。实际上，当Q =60k时，我们提出的方法的准确率和ASR分别为61.9%和98.0%。在足够的查询次数（Q =400M）下，DFME可以获得与我们相当的ASR（97.8%），但测试准确率远低于我们的方法（43.9%）。如表4所示，我们对每个数据集在仅概率和仅标签的情况下进行了广泛的比较。对于目标攻击和非目标攻击设置，我们的方法在所有数据集下都实现了最佳的概率攻击和标签攻击成功率。此外，与强基线DFME相比，我们的方法在很大程度上优于它。需要注意的是，类别的数量直接影响替代模型的训练。在更大的数据集（CIFAR-100和Tiny-ImageNet）上进行的实验都是使用较大的批量大小（1024）进行的。显然，我们的方法在具有100个图像类别的CIFAR-100数据集上仍然实现了非常高的ASR。Tiny-ImageNet上的实验可以在补充材料中找到。0对MicrosoftAzure在线模型的攻击为了研究我们的方法在实际环境中的有效性，我们在MicrosoftAzure上进行了攻击在线模型的实验，共有两种情景。按照[49]中的设置，我们使用Azure上的机器学习教程的示例MNIST模型作为目标模型，并将其作为Web服务提供。黑盒情景020800204060801000390306090AccASR0390306090AccASR01300306090AccASR01300306090AccASR151220表5. Microsoft Azure在线模型的攻击结果。0攻击类型 DaST Del DFME 我们的方法0仅标签0FGSM 66.46 65.22 80.24 98.120BIM 74.16 73.95 84.26 100.000PGD 72.55 71.28 83.16 98.350仅概率0FGSM 71.32 70.05 84.72 99.320BIM 78.91 78.54 88.66 100.000PGD 77.49 76.00 87.34 99.560查询（×250）0损失0ASR准确率0图6. 我们的方法生成的BIM攻击的ASR，用于攻击在线模型。0该模型没有提供关于该模型的任何信息，包括其结构和参数。我们只能从该模型的输出中获取信息。目标模型在MNIST测试集上达到了91.80%的准确率。我们在表5中报告了概率攻击和标签攻击的非目标攻击结果，所有实验都是在查询预算Q =10k的情况下进行的。我们的方法在仅标签和仅概率攻击的情况下都实现了100%的攻击成功率。我们注意到，正如[49]中报道的那样，DaST在训练阶段对被攻击模型进行了2000万次查询。然而，被攻击的Azure模型对我们的方法来说太简单了。我们展示了我们的方法在Azure实验的训练阶段生成的BIM攻击的攻击成功率曲线，如图6所示。显然，我们的方法可以在非常小的查询Q =9.2k（远低于DaST）的情况下实现100%的高攻击成功率，替代模型的准确率为89.11%。04.4. 对我们方法的全面理解0不同损失的贡献首先，我们研究了我们方法中引入的不同损失函数的贡献，包括边界支持损失Lbd和在第3.4节中描述的对抗损失Ladv，以及信息熵损失LH。如表6所示，去除Lbd和Ladv会导致性能下降，但去除LH可能会导致更严重的性能下降。根据我们在第3.4节中的讨论，如果我们不控制生成数据上的标签分布，生成器可能会产生具有极端分布（即标签不平衡）的偏斜数据。此外，边界支持损失Lbd和对抗损失Ladv对于替代模型的训练也很重要。0表6. 通过去除不同模块进行消融研究。0方法 SVHN CIFAR10 CIFAR1000我们的方法 77.13 99.26 94.360w/o L H 72.45 93.78 90.16 w/o L bd73.69 96.02 91.58 w/o L adv 74.06 97.3490.120# Epoch0MNIST0# Epoch0FMNIST0# Epoch0SVHN0# Epoch0CIFAR100图7.无目标攻击和仅概率场景下替代模型在各个数据集上的准确率和ASR。0收敛过程在本节中，我们在图7中展示了详细的准确率和ASR曲线。训练准确率在整个训练阶段平稳增加，并在大约40个时期（对于MNIST）和50个时期（对于FMNIST）收敛到局部最优解。每个时期，黑盒模型被查询256次。通过这样少量的查询，强烈证明了我们的方法在无数据的情况下窃取目标模型的有效性。此外，从图7中可以看出，准确率和ASR高度相关，准确率的训练曲线波动较小。由于对抗样本的可迁移性，ASR往往高于准确率。05. 结论0在本文中，我们考虑了一种更严格但更实际的对抗情景，即没有访问真实数据并且查询目标模型的预算有限的黑盒模型。尽管先前的研究已经揭示了无数据黑盒攻击的一些方法，但它们基于GAN的框架存在收敛失败和模型崩溃的问题，效率较低。通过重新思考生成器和替代模型之间的协作关系，我们设计了一个强大的新的黑盒攻击框架。对六个数据集和一个在线机器学习平台进行的全面实验表明，所提出的方法可以在小的查询预算下高效地模仿目标模型，并实现高攻击成功率。06. 致谢0本工作得到了中国国家重点研发计划（2021ZD0110400No.2018AAA0101900）、国家自然科学基金（U19B2042）、浙江实验室（2

下载后可阅读完整内容，剩余1页未读，立即下载