深入研究数据：对抗性攻击的替代训练和数据优化

84 浏览量更新于2024-01-22 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4761深入研究数据：有效地替代黑箱攻击王文轩1尹邦杰2姚太平2张莉1§傅艳伟1丁守红2李吉林2黄飞跃2薛向阳11复旦大学2腾讯优图实验室摘要深度模型在处理对抗性样本时表现出了脆弱性。对于黑盒攻击，在不知道被攻击模型的结构和权值的情况下，训练对抗性攻击的替代模型引起了广泛的关注。以前的替代训练方法集中在基于真实训练数据或合成数据窃取目标模型的知识，而没有探索什么样的数据可以进一步提高替代模型和目标模型之间的可移植性。在本文中，我们提出了一种新的视角替代训练，重点是设计在知识窃取过程中使用的数据的分布。更具体地说，提出了一种多样的数据生成模块，以合成具有广泛分布的大规模数据。并引入了对抗替代训练策略，使训练集中于决策边界附近的数据.这两个模块的结合可以进一步提高替代模型和目标模型的一致性，从而大大提高对抗性攻击的有效性广泛的实验证明了我们的方法对国家的最先进的竞争对手在非目标和目标在粘性设置的功效。还提供了详细的可视化和分析，以帮助理解我们的方法的优点1. 介绍尽管在大多数计算机视觉任务中取得了令人印象深刻的性能，但深度神经网络（DNN）已经被*表示平等捐款。†表示对应作者。王文轩、薛向阳分别就职于复旦大学计算机邮箱：{wxwang 19，xyxue} @ fudan.edu.cn。§Li Zhang和Yanwei Fu就职于MoE数据科学学院复旦大学脑科学前沿研究中心、上海市智能信息处理重点实验室.邮箱：{yanweifu，lizhangfd} @ fudan.edu.cn。殷邦杰、姚太平、丁寿红、李吉林和黄飞跃来自腾讯优图实验室。邮箱：{bangjieyin，taipingyao，ericshding，jerolinli，garyhuang}@tencent.com.图1.应用真实数据和合成数据进行替代训练的区别。比较（a）和（b），以我们的方式生成的合成数据可以训练一个替代模型，该模型具有与目标模型更相似的决策边界。最好用彩色和放大的方式观看。显示出对甚至不可察觉的对抗性噪声/扰动的脆弱性[28，18]。相反的例子的存在揭示了将DNN部署到现实世界应用程序中的重要安全风险。社会各界研究对抗性攻击在白盒或黑盒攻击的设置下，在实际应用中，由于白盒攻击的完整目标模型的信息不可用于实际部署，本文特别关注黑盒攻击，黑盒攻击通常只产生对目标模型的硬标签或输出分数进行回复的对抗性示例。通常，黑盒攻击包括基于分数的方法[3，12，11，7]或基于决策的方法[5，1]。然而，在这种攻击中，需要对目标模型进行大量查询，这仍然可能限制了它们在实际情况下攻击DNN的可用性。最近，替代训练的想法在黑箱攻击中得到了广泛的探索[8，26，16，23，29]。通常情况下，替代模型不是直接学习合成对抗性示例，而是被训练来做出与目标模型相似的预测，并由相同的4762输入数据。在一定数量的查询中，这种类型的方法通常能够从目标模型中学习替代模型。因此，攻击可以在替代模型上进行，然后转移到目标模型。从根本上说，替代模型试图从目标模型中获取关键是，输入数据是否来自目标模型的训练数据？通过假设“是”的答案，它确实简化了替代训练。然而，在许多现实世界的视觉任务中，收集真实的输入数据甚至是不平凡的。例如，个人图像和视频的数据受到非常严格的控制，并且个人数据的隐私在许多国家都受到法律的此外，真实图像是替代训练的最有效数据吗？目标模型的训练数据确实有助于在原始任务上获得性能良好的替代模型，但它不能保证攻击从替代模型到目标模型的可转移性，这在Tab中已经得到了证明1、Tab。二、为了提高替代训练中的攻击性能，需要最小化替代模型与目标模型之间的决策边界距离，这不仅需要大规模、多样性的训练数据，更需要分布在决策边界附近的数据。为了解决真实数据的局限性和探索替代训练数据的更好分布，我们提出了一种新的任务驱动的统一框架，该框架仅使用专门设计的生成数据进行替代训练，并实现了高攻击性能。如图1所示，与使用目标模型的训练数据进行替代训练相比，多样化的合成数据结合对抗性示例，将促进替代模型进一步接近目标。更具体地说，在我们的框架中，我们首先提出了一种新的多样性数据生成模块（DDG），它将噪声与标签嵌入信息相结合，以生成多样性的训练数据。这种分布式生成的数据基本上可以保证替代模型从目标学习知识。此外，为了进一步激励以相似决策边界为目标的替代模型，提出了对抗性替代训练策略（AST），将对抗性示例作为边界数据引入到训练过程中。总体而言，DDG和AST的联合学习保证了替代模型和目标模型之间的一致性，这大大提高了在没有任何真实数据的情况下进行黑盒攻击的替代训练的攻击成功率。这项工作的主要贡献概括为，(1) 我们提出了一种新的有效的基于生成的替代训练范式，以提高无数据的黑盒攻击的性能，第一次，通过深入研究输入生成的替代训练数据的本质。(2)为了实现这一目标，我们首先提出了一个多样化的数据生成模块与多个不同的约束，以扩大合成数据的分布。然后通过对抗性替代训练策略进一步提高替代模型与目标模型决策边界的一致性。（3）在四个数据集和一个在线机器学习平台上的综合实验和可视化结果表明，该方法能够有效地抵御当前最先进的攻击。2. 相关工作对抗性攻击。许多以前的工作集中在白盒攻击[28，24，2，16，20]通过访问目标模型的梯度信息生成对抗性示例。此外，还有一些白盒攻击方法研究未知黑盒模型上的可转移攻击性能[6，34，4]。不幸的是，这样的白盒设置极大地且不现实地简化了现实世界场景中的攻击任务，因为它需要访问目标模型的强大先决条件。相比之下，最近的努力是在黑盒在钉的方法，它具有更实际的设置。通常，攻击者只能获得目标受害者模型的输出分数或硬标签。一般来说，黑盒攻击[9，1]是通过从试验中找到对抗性的例子来进行的，这些例子将跨越类的决策边界。例如，当处理类概率输出时，Chen等人。 [3]提出利用零阶导数来估计真实梯度，并且该工作已由[30]扩展。Ilyas等人。[11，12]还提出了通过先验知识执行基于分数的黑盒攻击。然而，先前的黑盒攻击限于广泛查询目标模型的高昂成本以及对应目标模型的大量真实数据。我们的模型不是直接发现对抗性的例子，而是学习有效地合成目标模型的数据分布来训练替代模型。这种替代模型在攻击生成过程中潜在地节省了对目标模型的大量查询。替代训练。代课培训正成为一个蓬勃发展的研究方向。 Papernot et al.[23]火车模型窃取攻击[29，35]也是基于真实数据窃取目标模型。然而，考虑到训练数据的私有性或不可实现的问题，一些作品[31，32，33]生成合成数据来训练替代模型。[31，32]中的方法从噪声中生成合成图像或从教师模型中恢复训练图像，用于基于知识提取（KD）的替代训练。Zhou等人 [33]首先提出了一种在无数据条件下学习替代模型的攻击方法。然而，它们只学习输出与目标模型相同的结果，而没有进一步恢复目标的数据分布和决策边界，这对对抗性示例的可移植性更为关键。不同于他们4763tt−1图2.统一的建议架构的说明，其中包括多样化的数据生成模块（DDG）和对抗性替代训练模块（AST）。（a）DDG旨在生成具有给定标签的多样化数据，用于训练替代模型。（b）AST利用当前替代模型生成的对抗性样本，推动替代模型模仿目标的边界策略，从关注替代模型生成数据的分布训练入手，从数据生成的多样性和替代模型的对抗性训练两个角度全面提高黑盒模型的攻击性能.3. 方法3.1. 框架概述我们工作的目标是训练一个有效的替代模型来应对黑盒对抗攻击，整个框架如图2所示。它由两个模块组成：生成多样化数据的多样化数据生成模块（DDG）和进一步模仿目标模型“行为”的对抗性替代训练策略（AST）。在图2（a）中，DDG基于随机噪声z（i）和标签索引i的标签嵌入向量e（i）生成数据x∈（i）=G（z（i），e（i））。为了保证合成数据的多样性，将通过三个约束来训练生成器G，即：自适应标签归一化生成器、噪声/标签重构和类间分集，这将在后面详细描述。此外，为了确保替代模型S近似于目标模型T的决策边界，我们将合成数据以及AST使用的对抗性示例馈送到S中进行替代训练，如图2（b）所示。本质上，我们将目标模型T视为一个分类M类的黑盒，其中只有标签/概率输出可用。师生策略在这里被重新利用，从T中学习S。最后，攻击可以在替代模型上进行，然后转移到目标模型上。3.2. 多样化的数据生成为了合成更好的数据用于替代训练，我们首先提出了一种新的多样性数据生成模块（DDG），该模块具有三个约束来操纵生成的合成图像的多样性。这些约束原则上鼓励生成器G学习每个不同类的相对独立的数据分布，并保持类间方差，这促进了替代模型学习目标模型的知识。自适应标签归一化生成器。为了更好地从目标模型中学习，我们需要均匀分布的所有类别的数据进行替代训练，因此有必要生成标签控制的数据。为了实现这一点，我们充分利用了给定的标签和随机噪声。一是随着以从标准高斯分布采样的随机噪声向量z（i）∈RN和标签i为输入，基于嵌入层计算标签嵌入向量e（i）∈RN[21]。这样的标签嵌入过程可以将单个离散标签编码为连续的可学习向量，其在特征空间中具有更宽的分布并且包含更多的表示信息。与GAN不同，我们没有真实的图像进行监督，这样的标签嵌入过程对于数据生成至关重要。接下来，我们通过两个全连接层从N维标签嵌入向量e（i）中提取均值μ（i）和方差σ（i）然后，在所有的反卷积块中涉及μ（i）和σ（i），以迭代地合成具有特定类别的条件的图像数据，其可以表示为，x（i）=DeConv（其中总共有五个去卷积块，并且t表示去卷积块的数量在得到4764GSBAdv∗∗最后的输出生成的数据是用标签归一化信息修饰这样的自适应标签归一化生成器可以更好地利用输入噪声和标签嵌入向量之间的关系来合成尺寸受控的标签数据。噪声/标签重建。为了进一步保证生成数据的多样性，我们引入了一个重构网络R来重构输入噪声和标签嵌入z（i），e（i）=R（x∈（i））. 以及相应的重建算法1提出的黑盒攻击。要求：输入：随机噪声z（i）∈RN; 标号i∈{0，1，. M− 1};生成器G;目标受害者模型T;替代模型S;迭代R。θ 1：模型参数θG，θS;超参数β1，β2，β3，γ1，γ2;。确保：模型参数θ、θ。1：对于每个r∈R，R r损失可以计算为，M−1L=（z（i） −z（i））+CE（f（e（i），e），i）（2）2：合成数据生成：3：给定标签i和随机噪声z（i），从标签嵌入的recr1ri=0时向量e（i）4：通过自适应标签归一化生成数据其中，我们使用L1来表示内部和外部之间的差异生成器x（i）=DeConv（x（i））<$σ（i）+μ（i）把z（i）和重建的z（i）。至于标签重建，t t−1R我们应用函数f（f）来计算余弦距离be-（一）5：基于所述矩阵x（i）生成自定义示例6：更新S：吐温和e，由Softmax进一步处理，用地面实况标签I.在此约束下，我们的G可以为每个类别的不同输入噪声向量生成更多样化的图像。′7：计算LS：=（Ld，Ld）然后更新θS←θS−γ1<$θSLS（ θS）8：更新G：9：计算LG：=（Lc，Ladv，Lrec，Ldiv），然后c阶级的多样性。为了进一步加强数据潜水员-不同类的相似性，我们使用余弦相似矩阵以使所有合成图像的类间距离最大化。特别地，发生器产生一个输入同步信号。更新θG<$θG−γ2<$θGLG（θG）10：endfor′ ′十一日： θG=θG，θS=θS12：返回θ，θ;G SMB×MB的合成数据批，模型S给出输出相似矩阵OB∈RMB×MB这一批。注意，我们有地面真实相似性矩阵O gt∈{0，1}MB ×MB，除了对角元素被设置为1之外，所有元素都为0。”于是乎，潜水员。攻击算法，得到基于当前S.生成对抗图像的目标函数定义为，密度损失函数Ldiv可以公式化为：Ldiv=<$TRI（OB−Ogt）<$2（3）minn∈[0，1]dǁǫǁ+λ·L(xˆ(i)+ǫ,iadv)(4)B其中，TRI（n）被定义为提取相似性矩阵中除diag之外的上三角形元素的操作其中，L（·）表示反映问题的攻击对象ive如果考虑非目标攻击，则预测x_i（i）+x_i为iadv的能力或交叉入口py，自然元素。这样，Ldiv 将确保合成i adv= t，t是目标标签。λ是正则化系数，而约束<$∈[0，1]d将扰动<$限制为数据拥有每个类的独立分布。3.3. 对抗性替代训练在DDG生成多样化的训练数据后，为了更好的即时性能，我们仍然要进一步鼓励以更相似的决策边界为目标的替代模型。众所周知，对抗样本在视觉上不可区分的扰动作用下会被错误分类，由于扰动相对较小，对抗样本可以看作决策边界附近因此，我们建议有效的图像空间。然后，生成的图像和相应的对抗数据一起用于更新S。3.4. 损失函数最后，我们应用[33]中的基本损失函数来训练替代模型，M−1Ld=<$T（x<$（i）），S（x<$（i））<$F（5）i=0时提出了一种新的对抗性替代训练策略（AST），该策略利用对抗性样本进一步推动S的决策边界更接近T的决策边界更具体地用于Lc=e−Ld+M−1i=0时CE（S（G（z（i），e（i），i）4765（6）在训练过程中的每次迭代，我们的生成器首先通过DDG合成大小图像。然后我们选择白盒其中Ld测量T的输出之间的距离和S，并且Lc表示发电损耗。e−Ld蕴含a4766DCDC表1.使用概率作为目标模型输出，比较我们的方法和竞争对手在几个数据集上的ASR结果数据集MNISTCIFAR-10CIFAR-100Tiny ImageNet目标模型AlexNetVGG-16ResNet-18AlexNetVGG-16ResNet-18VGG-19ResNet-50ResNet-50非目标训练数据41.3629.2534.8130.9523.1532.6614.4718.3312.86ImageNet44.7834.8631.3936.8422.9434.0117.2620.9321.75PBBA [23]52.5350.3159.7745.8230.1933.9122.3428.1126.54[22]第二十二话59.2158.3865.8250.9331.5839.4027.7329.5529.99[33]第三十三话58.8654.8259.6250.2832.4542.7727.3926.1828.81我们66.3162.8470.2755.7642.3146.8235.4839.2934.28目标训练数据38.4540.2743.9411.4510.3511.225.028.666.17ImageNet40.4243.8841.7214.6610.2813.435.8210.3911.25PBBA [23]42.6755.6649.2425.8315.3820.446.7317.2213.88[22]第二十二话48.2852.8954.2730.8716.9219.5612.8322.3715.26[33]第三十三话50.1752.8451.2929.9316.2821.4410.8415.8113.92我们59.2957.2864.4633.8129.8925.7717.2321.4419.37‘min-max’因此，凭借这种交替最小化，通过这两个损失函数，替代模型S可以学习模仿目标模型T的输出。在DDG和AST的进一步推动下，利用生成的数据和对抗性实例，统一替代训练损失LS以及发电机对列车S和G的损失LG被定义为，需要真实数据的攻击，例如PBBA [23]和 Knockoff[22]。我们还使用被攻击模型的原始训练数据进行替代训练，并利用ImageNet [25]来学习替代模型。实施细节。我们使用Pytorch来实现。我们利用Adam从头开始训练我们的替代模型、生成器和重建网络，所有权重都是使用标准差为0.02的截断正态分布随机初始化。所有网络的初始学习率LS=Ld+Ladv（七）被设置为0.0001时，它们从第80个历元逐渐减小到零我们设定LG=β1（Lc+Ladv）+β2Lrec+β3Ldiv（8）其中Ladv定义为与等式中的Ld相同。 5使用对抗性示例作为输入来测量来自T和S的输出之间的距离。Ladv定义为等式中的Lc。 6来约束以对抗性示例作为输入的生成，提出了Lrec和Ldiv来增强生成数据的多样性，这将在后面详细说明。 β1、β2和β3是DDG的平衡超参数。总体看整个训练过程在Alg.1.一、4. 实验4.1. 实验装置数据集和目标模型。1）MNIST [17]：被攻击的模型在AlexNet [14]，VGG-16 [27]和ResNet-18 [10]上进行了预训练。默认的替代模型是具有3个卷积层的网络。2)CIFAR-10 [13]：在AlexNet，VGG-16和ResNet-18上进行预训练默认替代型号为VGG-13。3)CIFAR-100[13]：被攻击者在VGG-19和ResNet上进行了预先训练。50.默认的替代模型是ResNet-18。4)Tiny Im- agenet[25]：被攻击者在ResNet-50上进行了预先训练。替代模型是ResNet-34。竞争对手为了验证该方法的有效性，我们将我们的攻击结果与无数据的黑盒攻击，即。，DaST [33]，和几个黑盒4767最小批量为500，超参数β1，β2和β3等于1。我们的模型由一个NVIDIA GeForce GTX1080Ti GPU训练。我们应用PGD [20]作为故障方法，在AST和评估期间生成对抗图像我们还利用FGSM [8]，BIM [15]和CW [2]进行了广泛的实验攻击。评价指标。考虑到DaST [ 33 ]中提出的两种不同情况，即，只从目标模型中获取输出标签，并很好地访问输出概率，我们将这两种情况命名为Probability-基于标签和基于标签。在实验中，我们报告了由替代模型生成的对抗性示例攻击目标黑盒模型的攻击成功率（ASR）。根据DaST [33]中的设置，在非目标攻击设置中，我们只在被攻击模型正确分类的图像上生成对抗性示例对于目标攻击，我们只在没有被分类到特定错误标签的图像上生成对抗性示例。为了进行公平的比较，在所有对抗性示例生成期间，我们将扰动限制为ε= 8。我们对每个测试进行五次，并报告平均结果。4.2. 黑盒攻击结果我们与竞争对手在四个数据集和一个在线机器学习平台上评估了我们的方法，包括目标和非目标攻击设置。如Tab.所示。1，Tab. 2、Tab。3、我们进行广泛的比较，4768表2.在我们提出的方法和竞争对手的几个数据集上使用标签作为目标模型输出来比较ASR结果数据集MNISTCIFAR-10CIFAR-100Tiny ImageNet目标模型AlexNetVGG-16ResNet-18AlexNetVGG-16ResNet-18VGG-19ResNet-50ResNet-50非目标训练数据17.4520.1124.5013.7610.4313.055.018.587.32ImageNet18.2623.7722.5615.8312.7314.118.3811.2813.29PBBA [23]22.4528.1829.0021.8413.6317.6611.4816.3315.37[22]第二十二话25.3933.1837.7220.1620.7419.8716.4818.3122.33[33]第三十三话26.5129.2235.8125.1819.3423.0117.3417.2716.28我们31.7432.7040.9629.4426.9223.3823.4827.8828.31目标训练数据15.5312.5510.889.9210.249.093.976.444.92ImageNet14.2914.8115.7011.0112.229.324.828.567.02PBBA [23]15.2619.8618.5312.8411.3310.486.917.338.61[22]第二十二话19.4823.7417.8516.3812.8013.919.489.5210.65[33]第三十三话20.0321.4819.3315.7215.9214.837.4810.3910.31我们25.5627.6421.8321.6618.6717.9012.4716.2613.39表3.比较我们提出的方法和竞争对手攻击Microsoft Azure示例模型的ASR结果方法基于概率基于标签非目标PBBA [23]82.3480.29[22]第二十二话88.9192.88[33]第三十三话90.6396.97我们96.7398.91目标PBBA [23]39.2349.39[22]第二十二话46.9763.99[33]第三十三话45.6665.91我们57.9269.81在基于概率和基于标签的场景下，每个数据集都有多个目标模型与替代训练的真实数据进行比较。在这里，我们研究了使用真实图像进行攻击的替代训练，如表1所示1、Tab。2.直接使用目标模型或ImageNet的原始训练数据进行替代训练，而不是合成。结果表明，真实图像可以让替代模型从目标中学习到一些东西，并可以提高准确率。表4.所提出的攻击方法的变体的ASR结果。组件逐渐与行重叠。目标模型基于MNIST的AlexNet，CIFAR- 10的VGG-16，替代模型是根据数据集的默认模型。‘C-100’ refers to theCIFAR-100组件基于概率基于标签MNISTC-100MNIST C-100非目标基线29.428.2713.844.27+ ALNG49.1821.3820.8512.66+ N/LR55.2126.3124.9115.99+ ICR62.8231.2728.2019.94+ AST（我们的）66.3135.4831.7423.48目标基线26.293.2711.481.29+ ALNG44.4810.4716.287.83+ N/LR51.8711.8319.599.38+ ICR54.0114.8922.4811.03+ AST（我们的）59.2917.2325.5612.47ary，并实现无数据黑盒攻击的高ASR。与MicrosoftAzure上的竞争对手进行比较。为了更好地评估攻击方法在实际应用中的能力，我们进行了攻击分类，但攻击强度较弱相比，生成的数据。我们认为，这是由于真实图像的数量和多样性的限制，这可能会导致替代模型的学习和模仿失败的目标之一。因此，我们提出了一个DDG战略，以综合大规模和多样化的数据。与最新技术水平的比较。示在Tab中。1、Tab。2、将该方法与黑盒攻击进行了比较。对于非目标和目标攻击设置，我们的方法在所有数据集下实现了基于概率和基于标签的场景的最佳ASR。此外，与类似的生成式DaST相比，我们的方法显著优于它具有很大的利润。结果验证了所提出的方法的有效性，以鼓励替代模型更好地逼近目标Microsoft Azure上的在线模型。针对Azure上的机器学习教程的MNIST模型实例进行攻击，并与竞争对手的攻击结果进行比较结果显示在Tab。3、表明该方法可以在在线模型上获得最佳的ASR，进一步证明了该方法在真实场景下的有效性。4.3. 消融研究4.3.1定量结果所提出的方法中不同组分的功效。为了生成用于替代训练的标签控制和多样性数据，并使替代模型更好地拟合目标的决策边界，我们的方法应用4769表5.在MNIST中，应用各种攻击来生成AST在不同攻击评估下的对抗性示例的ASRs结果。目标模型是AlexNet，替代模型是默认模型。第3列和第4列表示应用FGSM进行AST，最后两列使用PGD进行AST，原始表示要评估的攻击表中的攻击FGSM [8]PGD [20个]-P-L-P-L非目标FGSM [8]70.2636.2957.3533.10BIM [15]66.3836.9768.4529.58PGD [20]62.6333.7266.3131.74C W [2]49.9220.9146.9322.02目标FGSM [8]50.8227.3829.4819.25BIM [15]67.2932.3344.8218.14PGD [20]52.7733.3939.2925.56C W [2]49.3820.3928.5719.66以下组件：（a）在Tab。4、我们通过逐步添加上述组件来列出变体结果显示在选项卡中。4.我们发现，在没有ALNG的情况下，替代模型“Baseline”很难从被攻击模型中学习到知识，这可能是由于没有强大的受控标签约束，生成能力差。此外，与N/LR和ICR模型可以实现更高的ASR结果相比，前者，这些验证了更多样化的标签控制的生成数据可以使替代模型从目标学习更多的知识。为了保证替代模型逼近被攻击的决策边界，采用AST技术生成对抗性样本作为边界数据，使替代模型模仿被攻击的决策边界，进一步提高攻击效果.ASR结果清楚地表明了组件在无数据黑盒攻击中的重要作用。不同攻击的影响。考虑到我们在替代训练过程中需要对抗性的例子，这里我们评估了攻击方法对我们算法的影响。如Tab.所示。5、列表示生成对抗样本进行替代训练的攻击，行表示攻击目标模型的评估方法。结果表明，不同的攻击可能对我们的方法没有明显的影响，这意味着使用不同的攻击，表6.使用不同的替代模型攻击在CIFAR-10上训练的VGG-16的ASR结果。表中的非目标攻击目标攻击-P-L-P-LAlexNet [14]39.7822.5724.9018.45VGG-13 [27]42.3126.9229.8918.67VGG-16 [27]45.2425.2830.4122.46VGG-19 [27]45.9227.6932.5921.94ResNet-18 [10]49.2826.8333.2020.58ResNet-34 [1]48.9428.7230.4820.4图3.MNIST上生成的图像示例上半部分代表我们生成的图像，下半部分来自DaST。从左到右代表0-替补训练中的进攻次数较少，对最后的进攻效果影响不大。因此，我们的方法在各种攻击下都是有效的，并且在替代训练和评估之间不需要限制攻击不同替代模式的影响架构我们的目标是在无数据条件下实现对黑盒的成功攻击，因此我们没有被攻击模型结构的先验知识为了进一步评估不同替代模型架构的影响，我们将几个替代模型应用于相同的攻击模型，该模型是在CIFAR-10上预训练的VGG- 16。如Tab.所示。6、我们尝试了各种架构作为替代模型，即，AlexNet，VGGNet和ResNet，结果表明，不存在最合适的结构，可以实现所有设置下的最佳ASR。除了最简单的AlexNet外，其他都达到了类似的高ASR结果，这表明不同的替代模型架构可能不会对攻击强度产生巨大影响，但仍然建议选择更深的网络。4.3.2定性结果我们的模型可以提高不同类别生成数据的多样性。（1）关于生成的数据4770图4.在CIFAR-100上使用t-SNE [19]将生成的数据可视化为8个类别（一种颜色表示一个类别）（a）DDG模块生成的数据。(b)由DaST生成的数据。图5.MNIST上一个类中的数据分布（a）MNIST中的原始真实数据。(b)由我们的DDG模块生成的数据。示于图3、对不同合成方法的数据进行了说明很明显，与我们的相比，没有ALNG，N/LR和ICD策略的DaST生成的数据在额外的类中更加相似，例如黄色虚线框中的数据具有近似的垂直线。(2) 在特征方面，我们将图4中的目标模型提取的合成数据的特征分布可视化。通过与DaST的比较可以看出，我们生成的数据在特征空间中分布较广，分类差异较明显。而DaST算法生成的数据类间距离相对较小这些也进一步验证了生成数据分布对于替代训练的重要性。我们的模型可以生成每个类的不同数据。（一）如图3、与我们的数据库相比，DaST生成的类间相似数据更多，如蓝色虚线框中的合成数据相似，red. (2)我们还可视化了从MNIST收集的同类数据的分布，并通过图5中的方法生成。在数据量方面，我们的比MNIST大得多。同时，在班级内部，我们生成的数据分布更广。这些定性的结果表明，我们的方法可以产生更多样化的数据，每一类，以进一步鼓励替代模型从目标学习。我们的AST策略可以提高替代模型和目标模型之间决策边界的一致性。如图6所示，目标模型和替代模型的边界通过输入数据特征可视化，t-SNE。比较图6（a）和图。6（b）虽然图6.CIFAR-10中两个类别之间的决策边界可视化圆圈表示正常数据，星号表示对抗性示例，绿色虚线表示决策边界。(a)目标模型的真实数据。(b)目标模型上的真实数据和相应的对抗性示例。(c)在替代模型上生成的数据。(d)生成的数据和相应的替代模型的对抗性例子。最好用彩色和放大的方式观看。同样的模型，决策边界随着表面周围的对抗性样本而更加清晰，这说明对抗性样本可以帮助精确地识别决策边界。同时，清楚的是，与图6（b）相比，如图6（c）中的具有对抗性示例的替代模型的可视化决策边界更接近于如图6（a）中所示的目标模型，并且这直观地验证了AST进一步鼓励模仿目标“行为”的功效5. 结论针对黑箱攻击的替代训练问题，研究了生成数据的分布问题。提出了一个统一的替代模型训练框架，该框架包括一个多样性数据生成模块（DDG）和一个对抗性替代训练策略（AST）。DDG可以生成标签控制的、多样化的数据来训练替代模型。AST利用对抗性示例作为边界数据，使替代模型更好地拟合目标的决策边界。实验结果表明，该方法具有较高的攻击性能.6. 确认本课题得到了国家自然科学基金项目（U62076067）、上海市科委项目（19511120700、19ZR 1471800 ）、上海市研究与创新功能计划（ 17DZ2260900 ）、上海市科技重大专项（2018SHZDZX01）和ZJLab的资助4771引用[1] 维兰德·布伦德尔、乔纳斯·劳伯和马蒂亚斯·贝奇。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。arXiv预印本，2017年。[2] 尼古拉斯·卡里尼和大卫·瓦格纳。对神经网络鲁棒性的评估2017年[3] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，无需训练替代模型即可对深度神经网络进行攻击。在2017年第10届ACM人工智能与安全研讨会上[4] 陈思哲，何正宝，孙成金，黄晓林。对注意力的普遍对抗性攻击及其结果数据集。IEEE TPAMI，2020年。[5] Minhao Cheng，Thong Le，Pin-Yu Chen，Jinfeng Yi，Huan Zhang，and Cho-Jui Hsieh.查询高效硬标签黑盒攻击：基于优化的方法。arXiv预印本，2018年。[6] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.以势头推动敌对的进攻。在CVPR，2018年。[7] Yinpeng Dong，Hang Su，Baoyuan Wu，Zhifeng Li，Wei Liu，Tong Zhang，and Jun Zhu.基于决策的黑盒对抗攻击在人脸识别中的应用。在CVPR，2019年。[8] Ian J. Goodfellow ， Jonathy Shlens ， and ChristianSzegedy.解释和利用对抗性的例子。arXiv预印本，2014年。[9] 作者：Jacob R.Gardner，Yurong You，Andrew GordonWilson，and Kilian Q.温伯格简单的黑盒攻击。arXiv预印本，2019年。[10] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年[11] Andrew Ilyas ， Logan Engstrom ， Anish Athalye ， andDaughy Lin.查询和信息有限的黑盒对抗攻击。arXiv预印本，2018年。[12] 安德鲁·伊利亚斯，洛根·恩斯特罗姆，亚历山大·马德里。先前定罪：黑盒对抗性攻击与禁令和先验。arXiv预印本，2018年。[13] 从微小图像中学习多层特征。2009年[14] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络进行图像网分类。Communications of the ACM，60（6）：84[15] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。 arXiv 预印本 arXiv ：1607.02533，2016年。[16] Alexey Kurakin，Ian J. Goodfellow，and Samy Bengio.物理世界中的对抗性例子。arXiv预印本，2017年。[17] YannLeCun，Le'onBottou，YoelmanBengio和PatrickHaffner。应用于文档识别的基于顺应性的学习Proceedings of the IEEE，86（11）：2278[18] 罗波，刘雁南，魏凌霄，徐强对神经网络的不可感知和鲁棒的对抗性示例攻击 arXiv 预印本 arXiv ：1801.04693，2018。[19] 劳伦斯·范德马滕和杰弗里·辛顿。使用t-sne可视化数据。Journal of Machine Learning Research，9（Nov）：2579[20] 亚历山大·马德里亚历山大·马克洛夫路德维希·施密特致力于建立能够抵抗恶意攻击的深度学习模型。arXiv预印本，2017年。[21] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合。神经信息处理系统的进展，第3111-3119页，2013年[22] 特里布瓦内什·奥雷康迪，伯恩特·席勒，马里奥·弗里茨。Knockoff nets：窃取黑盒模型的功能。在IEEE计算机视觉和模式识别会议论文集，第4954-4963页[23] Nicolas Papernot，Patrick McDaniel，Ian Goodfellow，Somesh Jha，Z.伯凯·塞利克和阿南瑟拉姆·斯瓦米针对机器学习的实用黑箱攻击在2017年ACM亚洲计算机和通信安全会议上，2017年。[24] Nicolas Papernot，Patrick McDaniel，Somesh Jha，MattFredrikson，Z.伯凯·塞利克和阿南瑟拉姆·斯瓦米深度学习在对抗环境中的局限性。2016年[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. Imagenet large scale visual recognitionchallenge.国际计算机视觉杂志，115（3）：211[26] 史玉成，王思宇，韩亚红。Curls whee：提升黑盒对抗攻击。在CVPR，2019年。[27] 凯伦·西蒙尼扬和安德鲁·齐瑟曼用

下载后可阅读完整内容，剩余1页未读，立即下载