探索数据用于替代训练以进行黑盒攻击

149 浏览量更新于2023-10-25 收藏 12.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Xuxiang Sun Gong Cheng∗ Hongda Li Lei Pei Junwei HanSchool of Automation, Northwestern Polytechnical University, Xi’an, China{xuxiangsun,hongda,peilei}@mail.nwpu.edu.cn{gcheng,jhan}@nwpu.edu.cn153550探索有效的数据用于替代训练以进行黑盒攻击0摘要0在没有访问部署黑盒受害模型的训练数据的情况下，训练一个用于黑盒对抗攻击的替代模型仍然是一项挑战。在数据方面，我们主要确定了本文中有效的替代训练的三个关键措施。首先，我们展示了利用本文中引入的损失来扩大类间相似性比现有方法扩大类间差异性更有意义。接下来，与隐式与模型无关的方法扩大类内差异性不同，我们提出了一种特定于替代模型的损失函数，用于增强类内差异性。最后，根据对基于代理数据的方法的深入观察，我们认为利用代理数据仍然是替代训练的一种有效方式。为此，我们引入了一个鉴别器到传统的无数据框架中，提出了一个三方参与者的框架。通过这种方式，我们的方法在稀缺代理数据（大小在1k到5k之间）和训练数据之间几乎没有语义重叠时可以具有竞争力。我们在一系列受害模型和数据集上评估了我们的方法。广泛的结果证明了我们方法的有效性。我们的源代码可在https://github.com/xuxiangsun/ST-Data上找到。01. 引言0在过去的几十年中，我们目睹了深度神经网络（DNNs）在计算机视觉任务中取得的巨大成功。然而，当它们面对对抗性示例时，它们也表现出普遍的脆弱性。这给DNNs的实际部署带来了巨大的安全隐患。因此，更具威胁性的对抗性示例被制造出来以推动进一步的研究。其中大多数假设可以访问受害模型（表示为V）的先前信息，例如其内部架构或训练数据。尽管这种宽松的攻击场景（即白盒设置）可以帮助我们探索DNNs的鲁棒性，但它们的性能将会大幅下降。0� 通讯作者。0�0�0（a）具有不足模仿能力的样本0�0�0（b）具有足够模仿能力的样本0图1.说明了特征空间中（a）具有不足模仿能力的样本和（b）具有足够模仿能力的样本之间的位置关系。这里，H表示模型的决策边界，�表示合成样本的模仿边界。0在黑盒设置下，只能访问受害模型V的输入-输出反馈。根据输出，黑盒攻击的解决方案可以是基于决策的（只能访问最终标签）或基于分数的（可以获得输出的对数）。其中，一种可行的方法是设计有效的搜索算法。然而，由于查询预算较低，它们的效率可能会受到限制。另一个直观的想法是训练一个本地替代模型（表示为S）来模仿远程受害模型V，然后通过现有的白盒攻击在训练模型S上制作对抗性示例。然而，没有模型V的训练数据，训练模型S仍然是困难的。最近的进展指出，利用合成数据比利用真实代理数据更有效。具体来说，研究指出，这可能是由于代理数据的多样性有限。从这个角度来看，合成数据可以作为具有无限大小和相对较大多样性的代理数据。在这种情况下，一个重要的问题是：什么样的合成数据对于训练模型S是有效的？为了解决这个问题，最先进的方法是IterationsBoundary Loss1e6IterationsBoundary Loss1e6Iterations1e6Attack Success RateIterations1e6Attack Success Rate153560ods [46,58]扩大了合成数据的类间差异性。然而，如图1所示，如果样本的模仿边界与决策边界保持一定距离，如图1a所示，那么替代模型S就无法学习到受害模型V的决策方式。当只有标签的情况下，情况会变得更糟。相反，如果合成数据能够靠近决策边界（即具有较大的类间相似性），则模仿能力就足够了，如图1b所示。这也可以在图2中看出（详细信息将在附录C.1中描述），其中边界损失衡量了合成数据与决策边界之间的距离。对于大多数情况，当边界损失相对较高时，DaST [58]和Knockoff[33]的攻击成功率（ASR）无法持续增长。与它们相比，我们的方法通过保持较低的损失实现了持续改进。此外，正如[46]所指出的，类内差异性对于替代训练是有意义的。然而，在[46]中没有对替代模型指定明确的约束来扩大类内差异性，这无法保证合成数据对模型S的有效性。0最后但并非最不重要的，根据[33]的研究，当代理数据集的大小足够大时，它仍然可以很好地工作。因此，我们提出了一个可行的猜想，即代理数据集的分布可以粗略地分为两部分，即第一部分包含对替代训练有用的样本，而第二部分则没有。不同的数据集包含不同比例的有效数据。基于这个假设，我们可以使用传统的生成对抗网络（GAN）[13, 30,35]来模仿代理数据集的分布。如图2所示，合成数据仍然可以有效（损失较低，性能优于DaST和Knockoff）。此外，令人惊讶的是，传统GAN的ASR甚至超过了DaST。我们认为这是因为像[46,58]那样从整个数据空间搜索可能在相同的训练预算下是无效的。因此，它们的性能将会停滞。0受到上述观察和假设的推动，我们做出以下贡献：1）我们提出了一个三方玩家框架，用于训练黑盒对抗攻击的替代模型。具体而言，基于传统的无数据训练框架，我们首次引入了一个鉴别器来限制生成器的搜索空间，从而提高训练效率；2）我们认为扩大类间相似性比类间差异性更有意义。因此，本文引入了一种损失函数来扩大合成数据的类间相似性；3）我们提出了一种专门针对替代模型的损失函数，明确提升类内差异性；4）我们指出，在稀缺代理数据（即大小在1k到5k之间）和训练数据之间几乎没有语义重叠时，我们的方法的有效性是有竞争力的。0图2. 迭代次数 vs.攻击成功率（非目标攻击）和边界损失（BL）。这里，BL表示合成数据与决策边界之间的距离。“*-P”表示仅有概率的情景，“*-L”表示仅有标签的情景。为了消除其他因素的影响，我们将DaST的生成器替换为我们的生成器，称为“DaST*”。02. 相关工作0对抗攻击。如第1节所述，在白盒设置下，早期的工作[3,14, 23, 26, 31]侧重于设计在RGB空间中受到紧密ℓp（p =1, 2,∞）范数约束的对抗样本。最近，研究人员尝试从不同的角度来制作对抗样本。例如，[55,56]探索了不同颜色空间中的对抗样本，[51,52]揭示了在特征空间中设计对抗样本也是值得注意的。此外，在频率空间中，[12]确定丢弃无用信息可以产生更不可察觉的对抗样本。对于黑盒攻击，除了我们在第1节中提到的内容外，提高对抗样本的可转移性也是一个研究的重点。例如，通过高效的梯度计算[10, 23, 25, 47]或输入变换[11,50]来提高基于梯度的攻击的可转移性。此外，[18-20]发现通过中间特征来设计对抗样本可以产生更具可转移性的对抗样本。此外，[49]指出DNN架构本身可以暴露更多的可转移性。替代训练。如果我们可以访问受害模型的训练数据和内部梯度，基于知识蒸馏的方法[17]可能对于训练黑盒对抗攻击的替代模型是有效的。此外，如果我们只能获取训练数据，[44,59]也是显著的。不幸的是，上述假设在现实中是不可行的。因此，[33,34]通过代理数据集窃取受害模型V的功能。最近的研究表明...Synthesized Data : XsGenerator (G)Proxy Data : Xp. . .z1z2...zB��Losses for GeneratorLoss for Surrogate ModelLoss for DiscriminatorBlack-Box Access OnlyACWNAdaptive Class-Wise Normalization ModuleData FlowFLabB��B. . .C��FNoi. . .B��B��CRepeat & ReshapeFNFLFMixcla = CE(S(Xs), Y).(2)max{max{f(x)i : i ̸= t} − f(x)t, −κ}.(3)153570鉴别器(D)0替代模型(S)0鉴别器(D)0S0div + sim + cla0GAN0噪声编码器0标签编码器0y = {0，1，...，C}0标签0噪声0解码器0V(Xs)0S(Xs)0图3.提出方法的框架。给定一系列的噪声和标签，我们的生成器首先合成数据Xs。然后受害模型V将标签Xs标记为V(Xs)（以最终标签或每个类别的概率形式），这将用于通过损失Ls训练替代模型S。此外，鉴别器D将通过损失LGAN学习区分Xs和代理数据Xp。最后，我们的生成器G将被优化。这里，B是输入噪声的数量，C表示受害数据集的类别数。此外，在FLab中，相同颜色的特征属于同一类别，对应于相同颜色的输入标签。0现有的方法假设无法利用代理图像。在这种情况下，[46，53，54，58]提出利用GAN的思想[13，30]合成替代训练数据。具体而言，[53，54]从噪声合成图像或从受害模型中恢复训练数据。然而，在严格的黑盒设置下，它们将无能为力。面对黑盒和无数据的挑战，DaST[58]是第一个在没有真实数据的情况下窃取黑盒模型的功能。它使用生成器合成数据，可以导致受害模型和替代模型之间的决策冲突。然后，DDG[46]进一步探索更有效的数据。它首先修改生成器的架构以压缩其大小，因为当受害数据集的类别数增加时，DaST[58]中生成器的大小会变得非常大。此外，它引入了一个重构网络，通过实现从随机噪声到图像的一对一映射来增强类内多样性。最后，进一步部署了对抗训练策略。03. 提出的方法03.1. 自适应类别归一化0值得强调的是，合成数据首先应该是可控的。换句话说，给定一个输入标签，合成的数据应该由替代模型S分类到相应的类别中。否则，可能会出现模式崩溃的问题，因为通常使用GAN的方法都会遇到这个问题。因此，类似于[46]，我们的生成器包括一个标签编码器，它由一个嵌入层[29]和几个全连接层组成。此外，几个全连接层被串联在一起形成噪声编码器。在这种情况下，通过噪声Z ={z1，z2，...，zB}，其中zi∈N(0，I)，和标签y ={0，1，...，C}，我们可以通过相应的编码器获得噪声特征FN∈RB×L×H×W和标签特征FL∈RC×L×H×W。0其中L是通道数，B是输入噪声的数量，C是受害数据集的类别数，H和W分别是相应特征的高度和宽度。一旦我们得到FN和FL，它们会被重复和重塑，以获得FNoi∈R(B×C)×L×H×W和FLab∈R(B×C)×L×H×W，如图3所示。然后，FNoi和FLab将被输入到我们的自适应类别归一化（ACWN）模块中，然后通过解码器生成合成图像Xs。关于ACWN的详细信息可以在我们的源代码中找到。形式上，我们将Xs表示为Eq.（1）所示：Xs = {xkj} (k = {1, 2, ..., C}, j = {1, 2, ..., B})。0这里，y 表示输入标签，Z 表示输入噪声。此外，x k j右上角的 k 表示其输入标签的索引，其右下角的 j表示其输入噪声的索引。为了表达方便，我们使用 Y ∈ R (B × C ) × 1 来表示 X s的相应原始输入标签。正如我们在本小节开头所提到的，我们框架中的生成器应该是可控标签的。因此，生成器 G的优化目标函数之一是交叉熵损失，如Eq. ( 2 )所示。0这里，S ( � ) ∈ R C 表示替代模型 S 的 softmax层之外的输出 logits。03.2. 类间相似性0由于Eq. ( 2)已经提供了可控标签的约束，我们现在引入一个损失函数来增强合成数据的类间相似性。回顾一下，[ 3 ]通过Eq. ( 3)改进了对抗能力：3300STD(S( ))(S( ))0iiiigxgx��g(S(x1))g(S(x3))3300(S( ))(S( ))iiiigxgx��g(S(x2))x1x2x3̸Lsim =||C�kB�j{max{S(xkj )i : i ̸= k} − S(xkj )k}||B × C, (4)153580大类内多样性0类别1 类别2 类别30类别00图4. 所提出的类内多样性损失的示意图。这里，g ( � ) 0 表示将softmax 函数应用于 �，其中除去了第0个条目。在底部部分，不同颜色代表不同的类别。在中间部分，显示了来自替代模型 S的输出概率。每个具有特定颜色的条形图是底部相同颜色类别的概率。在顶部部分，函数 STD 计算其输入中所有条目的标准差。0这里，给定输入数据 x ，f ( x ) 表示 DNN f 的 softmax层之外的输出，f ( x ) i 表示 f ( x ) 的第 i 个条目，t是目标标签（对于有目标攻击）或原始标签（对于无目标攻击）。0在本文中，我们将Eq. ( 3 )重新审视为将 x 推向类别 t 和 j之间的决策边界的方程，其中 j = max θ { f ( x ) θ : θ � =t } 。因此，为了0为了扩大类间相似性，我们将Eq. ( 3)基于损失函数引入到生成器的优化中。具体而言，如Eq. ( 4)所示：0其中 S ( � ) i 表示 S ( � ) 的第 i 个条目。0将Eq. ( 2 )和Eq. ( 4)结合起来，我们可以尽可能地将生成的样本推向其对应类别的决策边界，同时保持这些样本对于我们的生成器是可控标签的。此外，值得强调的是，增强类间相似性并不意味着混淆类别特定的特征，相反，Eq. ( 2)已经为此提供了保证。此外，附录C.3中生成样本的可视化仍然可以为此提供经验证据。03.3. 类内多样性0假设我们通过Eq. ( 2 )和Eq. ( 4)优化生成器，我们可以做一个理想的假设，即生成的样本是可控标签且具有较大的类间相似性。在这种情况下，为了处理类内多样性，让我们考虑图4中所示的典型情况。这里，这三个样本都属于类别0。我们将位置作为衡量类间多样性的度量标准。换句话说，如果它们离类别0和其他三个类别的决策边界离散分布，如图4底部所示，那么类别0的类间多样性将是理想的解决方案。在这种情况下，这三个样本可以探索所有类别的区域。现在，我们开始分析如何数学地构建我们的损失函数。回顾一下，在第3.2节中，我们引入Eq. ( 4)来描述输入样本与决策边界之间的距离。因此，如图4顶部所示，我们可以发现除了类别0之外的概率几乎相等。不幸的是，我们不知道确切的值是多少。相反，我们转而采用另一种思考方式，即标准差。具体而言，在这种情况下，标准差接近于零。因此，我们设计Eq. ( 5)作为损失函数，以扩大类内多样性，如下所示：0Ldiv = 10C01 m0s.t. B = m × (C - 1), m ∈ N+, (5)0其中，g(*)k表示对*应用softmax函数，其中第k个条目被排除在外，STD[*]表示计算*沿着第一个维度的标准差。Norm(x)通过式（6）进行归一化：0Norm(x) = x 0max(x - min(x)). (6)0这里，max(x)和min(x)表示沿着x的第一个维度提取最大值和最小值，分别。值得注意的是，在式（5）中，B应该是C-1的整数倍（N+是正整数集合）。然而，当C增加时，由于硬件条件的限制（即B <(C-1)），B不能设置为一个大数。我们将在附录A中给出这种情况的公式。03.4. 优化0对于图3中模型S的优化，我们使用式（7）作为其目标函数，具体如下：0Ls = CE(S(Xs), Yv) + α ||S(Xs), V(Xs)||F, (7)0其中，Yv是与Xs相对应的标签，由受害者模型V输出，即Yv= V(Xs)。||∙||F表示均方误差DataSetMNIST [24]CIFAR-10 [21]CIFAR-100 [21]Tiny-ImageNet [38]Victim ModelAlexNet VGG-16 ResNet-18 AlexNet VGG-16 ResNet-18 VGG-19 ResNet-50ResNet-50KnockoffP1-P [33]42.4740.7540.1627.1721.3624.4015.3612.5211.47KnockoffP2-P [33]45.5345.1442.9728.7122.0425.9616.0914.2413.86DaST-P [58]58.8654.8259.6250.2832.4542.7727.3926.1828.81DDG-P [46]66.3162.8470.2755.7642.3146.8235.4839.2934.28OursP1-P91.7090.1485.5962.2375.5174.2457.2861.4259.65OursP2-P94.9593.6385.6664.8977.5476.1660.8364.0862.81KnockoffP1-L [33]27.4528.4831.3818.2915.6516.388.117.817.25KnockoffP2-L [33]28.6629.8232.2119.5216.8617.479.748.738.46DaST-L [58]26.5129.2235.8125.1819.3423.0117.3417.2716.28DDG-L [46]31.7432.7040.9629.4426.9223.3823.4827.8828.31OursP1-L90.0088.3484.5658.3973.5771.2356.1558.0857.81OursP2-L92.0488.6584.7663.3275.0073.5059.8161.1660.98VDMNISTCIFAR-10 CIFAR-100 Tiny-ImageNetN4k4k4k4kB135135108SSmallVGG-13ResNet-18ResNet-34LR0.00010.00010.00020.0002P1 EMNIST CUB-200CUB-200CUB-200P2 KMNIST Places365Places365Places365LDGAN = Ex∼Xp[D(x) − 1]2 + Ex∼Xs[D(x)]2.(8)LG = LGGAN + β1Ldiv + β2Lsim + β3Lcla.(10)153590Table 2.在四个数据集上部署的多个受害者模型的非定向攻击成功率的性能比较。这里，实验设置在表1中报告。“*-P”表示仅概率攻击场景，“*-L”表示仅标签攻击场景。红色/蓝色表示最佳/次佳。与表3和表4相同。0Table 1.默认设置在每个受害者数据集上。这里，VD表示受害者数据集，S表示默认替代模型，B表示批量大小，LR表示模型S的学习率，P1和P2是两个代理数据集，N是P1和P2的图像数量。0损失。对于仅标签的场景，我们设置α =0。而对于仅概率的场景，α =1。对于鉴别器的优化，我们使用[28]提出的损失函数，即式（8）：0这里，Xp表示代理数据集。此外，为了优化生成器，应包括对抗性损失，即式（9）：LG GAN = E x � Xs [D(x) - 1]2.(9)0最后，生成器的总损失函数为公式（10）：04. 实验04.1. 实验设置0在本节中，我们将介绍实验中的主要设置，包括数据集、模型架构、用于评估性能的攻击方法和评估指标。0数据集和模型架构。总体上，一共部署了四个受害者数据集（即MNIST [24]，CIFAR-10 [21]，CIFAR-100[21]和Tiny-ImageNet[38]）来验证我们方法的有效性。此外，我们还为我们的方法和Knockoff [33]提供了四个代理数据集（即EMNIST[8]，KMNIST [7]，Places365 [57]和CUB-200[48]）进行替代训练。对于模型架构，我们使用了总共九个模型，属于五种不同类型（即具有3个卷积层的模型，在本文中称为“Small”，AlexNet [22]，GoogleNet[42]，MobileNet-V2 [40]，VGG-Net [41]，ResNet[16]）。在每个受害者数据集上，可以在表1中看到默认设置。值得注意的是，在本文中使用的所有代理数据集中，它们与受害者数据集几乎没有语义重叠。攻击方法和评估指标。在我们的实验中，我们主要通过四种攻击方法来评估性能，包括FGSM [14]，BIM [23]，PGD [26]和C＆W [3]。PGD[26]是评估我们方法性能的默认攻击方法，除非另有说明。对于评估指标，我们使用有针对性攻击成功率（ASR tar）和无针对性攻击成功率（ASR untar）。这两个指标的计算可以在附录B中看到。实现细节。对于实现，我们的代码基于Pytorch深度学习框架。我们使用Adam优化器来训练我们方法的所有网络。公式（10）中的超参数为 β 1 = β 2 = 2，β 3 =1.2。其他默认设置在表1中报告。本文中的所有实验都是在一台NVIDIA GeForce RTX 3090GPU上进行的。此外，所有代理图像在开始时是随机选择的，并在训练过程中保持不变。此外，生成器和判别器的学习率OursP1-P55.3654.6354.1729.0040.3139.3525.4228.3227.43OursP2-P61.0557.9357.1134.0741.2140.9229.2232.6030.93KnockoffP1-L [33]10.1015.998.987.996.237.353.372.252.22KnockoffP2-L [33]14.2817.4110.378.617.428.683.442.252.26DaST-L [58]20.0321.4819.3315.7215.9214.837.4810.3910.31DDG-L [46]25.5627.6421.8321.6618.6717.9012.4716.2613.39OursP1-L53.2850.3340.7726.5337.9535.7324.4726.2925.61OursP2-L54.3351.9244.9630.4639.9336.6026.1929.8528.62153600表3. 在四个数据集上部署的多个受害者模型的有针对性攻击成功率的性能比较。0数据集 MNIST [24] CIFAR-10 [21] CIFAR-100 [21] Tiny-ImageNet [38]0受害者模型 AlexNet VGG-16 ResNet-18 AlexNet VGG-16 ResNet-18 VGG-19 ResNet-50 ResNet-500Knockoff P1 -P [33] 24.07 23.32 28.96 16.59 11.04 13.13 4.34 5.26 4.97 Knockoff P2 -P [33] 25.43 24.89 30.0817.36 11.29 13.89 4.38 5.32 5.08 DaST-P [58] 50.17 52.84 51.29 29.93 16.28 21.44 10.84 15.81 13.92 DDG-P [46]39.29 57.28 64.46 33.81 29.89 25.77 17.23 21.44 19.370表4. 在CIFAR-10 [21]和CIFAR-100[21]数据集上的方法消融研究。这里，“Base”表示仅使用公式（2）训练替代模型。两者的默认代理数据集都是Places365[57]，受害者模型分别是VGG-16 [41]（CIFAR-10）和ResNet-50 [16]（CIFAR-100）。其他设置与表1中的相应设置相同。0数据集 CIFAR-10-P CIFAR-10-L CIFAR-100-P CIFAR-100-L0基准 � � � � � � � � � � � � � � � � � � � � L sim � � � � � � � � L div � � � � � � � � L GAN � � � � � � � � � � � � � � � �0ASR untar 18.60 28.59 49.70 50.92 77.54 10.16 24.73 46.26 50.20 75.00 3.31 27.40 42.84 45.67 64.08 2.38 20.28 41.38 44.65 61.16ASR tar 3.52 12.68 23.86 26.84 41.21 1.98 11.21 20.38 25.05 39.93 0.31 15.94 18.46 20.34 32.60 0.21 13.63 17.22 18.11 29.850表5.在MNIST数据集[24]上通过不同攻击（在第一列显示）使用两个代理数据集的ASR untar和ASRtar的性能评估（用双线分隔）。这里，受害者模型是AlexNet[22]，其他设置与Tab. 1中报告的相同。0攻击0仅概率仅标签0P2 P1 DDG P2 P1 DDG0FGSM untar 83.71 82.86 57.35 81.33 81.19 33.10BIM untar 94.15 90.76 68.45 90.87 88.37 29.58 PGDuntar 94.95 91.70 66.31 92.04 90.00 31.74 C&Wuntar 68.70 55.74 46.93 62.30 55.63 22.020FGSM tar 32.00 31.10 29.48 24.79 23.52 19.25 BIMtar 62.57 56.45 44.82 56.27 55.21 18.14 PGD tar61.05 55.36 39.29 54.33 53.28 25.56 C&W tar 40.0038.26 28.57 38.44 33.48 19.660生成器、判别器和代理模型的学习率都是Tab.1中报告的代理模型的学习率的5倍。对于Tabs.2到5中的实验，图3中的三个网络（即生成器、判别器和代理模型）的学习率从第75个epoch开始线性减少到零，并在第150个epoch后停止。此外，大多数0本文中的实验项目遵循最先进基线方法[46]的协议。04.2. 同行比较0在本节中，我们在两种攻击场景下对四个受害者数据集进行评估，即仅概率情况和仅标签情况。本部分的竞争对手包括基于代理数据集的方法（即Knockoff[33]）和两种无数据方法（即DaST [58]和DDG[46]）。为了公平比较，我们使用本文中我们的方法所利用的两个代理数据集来评估Knockoff的性能，而不是他们在其论文中使用的数据集。我们对每个评估运行我们的方法五次，并去掉最大值和最小值，计算剩下三个的平均值。本部分的结果总结在Tab. 2（对于ASR untar）和Tab.3（对于ASR tar）。每个数据集上的实验设置如Tab.1所示。将Tab. 2与Tab.3关联起来，可以初步得出四个结论。首先，当稀缺的代理数据（例如4k张图像）与训练数据几乎没有语义重叠时，Knockoff的性能将非常差。相比之下，利用合成样本是一个明智的方法。其次，与最先进的基线方法相比，我们的方法在大多数情况下都能取得更好的性能。Targeted Attack Success RateNumber of ImagesNumber of ImagesUntargeted Attack Success RateTargeted Attack Success RateNumber of ImagesUntargeted Attack Success RateNumber of Images153610（a）Places365数据集0（b）CUB-200数据集0图5. 在CIFAR-10数据集上的数据消融研究，使用（a）Places365[57]和（b）CUB-200[48]。这里，我们将代理图像的数量设置在1k到5k之间，以评估我们的方法和Knockoff在两种攻击场景下的性能。受害者模型是VGG-16 [41]。0通过大多数情况下的有针对性和无针对性攻击场景，我们的方法在大多数情况下都能明显优于基于代理数据集的方法，特别是在无针对性攻击场景中。这些结果表明，在绝大多数情况下，我们的措施对于代理训练非常有效。此外，正如预期的那样，在仅标签攻击场景中，我们在所有情况下都能大幅超过所有竞争对手。对于无针对性攻击，我们的方法在仅标签情况下的性能甚至可以与仅概率情况下的性能一样好。此外，配备不同的代理数据集，我们的方法展现出不同的性能。回想一下，在第1节中，我们假设不同的代理数据集包含不同数量的有效样本。然后，Tabs.2和3的结果给我们提供了这个想法的经验验证。也就是说，使用相同的搜索算法，P1数据集可能包含比P2数据集更多属于有效数据的区域。04.3.进一步分析0方法消融研究。在这部分中，我们进一步分析了我们方法中不同组件的效果。具体来说，消融项如表4所示。表4中的结果可以总结如下：1）在有限的训练步骤内在整个图像空间中进行搜索非常低效。然而，如果我们通过引入代理数据集来限制搜索空间，情况会大大改善（即使用公式（2）和公式（9）优化生成器）；2）基于公式（2）和公式（9），改善类内多样性或增强类间相似性都是有效的。与这两种损失相比，类间相似性似乎更重要。0表6.使用不同替代模型（显示在第一列）在CIFAR-10数据集[21]上评估性能，以ASR untar和ASRtar两种方式进行评估。这里，受害模型是VGG-16[41]，代理数据集是Places365 [57]。0替代模型0ASR untar ASR tar0Ours-P Ours-L Ours-P Ours-L0GoogleNet [42] 78.87 77.08 45.91 43.32MobileNet-V2 [40] 73.04 71.91 39.33 37.75VGG-16 [41] 74.60 73.35 40.43 38.07 VGG-19 [41]75.79 74.99 41.00 38.98 ResNet-18 [16] 78.4076.41 45.65 42.45 ResNet-34 [16] 79.31 78.7046.93 44.740与类内多样性相比，类间相似性更重要。也就是说，实现类内多样性潜力的先决条件是我们已经扩大了类间相似性；3）与仅概率的情况相比，在仅标签的情况下，将合成数据推向决策边界更加有效，特别是当类别数量较少时；4）将我们方法的所有组件结合在一起，模仿效率可以被充分挖掘。数据消融研究。由于我们在方法中利用了代理数据，我们现在对代理图像的数量进行消融研究，以评估ASR（报告了有目标和无目标的结果）。CIFAR-10的结果总结在图5中（CIFAR-100的扩展结果可以在附录C.2中找到）。通过观察图5，我们可以发现我们的方法对代理图像的长度不太敏感。也就是说，代理图像建立的数据空间在1k到5k之间似乎对我们方法的效率没有显著影响。但是在相同大小的代理图像下，我们可以大幅度地超越Knockoff。从这个角度来看，我们利用代理数据的方式更加有效。04.4.扩展评估0使用不同攻击进行评估。在这里，我们使用不同的攻击方法对MNIST数据集[24]进行评估，即FGSM [14]，BIM[23]，PGD [26]和C&W[3]。如表5所示，我们可以看到不同的攻击方法对于衡量不同方法的强度给出了一致的结果。我们的方法在各种攻击下仍然保持其性能。因此，与DDG[46]的建议一致，我们可以看到没有必要限制评估性能的攻击方法。使用不同的替代模型进行评估。实际上，我们并不确切知道受害模型的架构。因此，为了在替代模型的光线下进行进一步研究，我们使用相同的受害模型配备了各种替代模型。值得注意的是，我们只训练了75个epoch的替代模型。5. Conclusions and DiscussionsDaSTOursP1OursP2DaSTOursP1OursP2DaSTOursP1OursP2similarity instead of the inter-class diversity. Based on thisassumption, we introduced a loss for the generator to en-large the inter-class similarity. Secondly, unlike existingmethods that enlarge the intra-class diversity in a model-agnostic way, we designed a new loss function to enhancethe intra-class diversity explicitly in a model-speciﬁc way.Finally, based on careful observations, we proposed a triple-player framework to mine the great potential of the proxydata. With the proposed framework, our method can main-tain its efﬁciency even when there are almost no semanticoverlaps between the training data and the scarce proxy data(i.e., with the number of the proxy images between 1k and5k). According to extensive evaluations, the effectivenessof our method can be greatly veriﬁed.Besides the achievements of this paper, there are stillsome challenges to be solved. For instance, ﬁrst, in amore practical setting, in which the proxy dataset is of-ten the mixed one where the samples are randomly chosenfrom different datasets, and there are few semantic overlapsamong these datasets. In this scenario, can we achieve morestable performance? Besides, what is the lower bound interms of the number of proxy data that our method allows?Moreover, from the perspective of the optimization for thegenerator, given the determined data distribution built bythe ﬁxed proxy samples, can we design a more efﬁcient wayto search for the valid data within a lower query regime? Wewill leave them to our future work.153620密度0边界损失0密度0边界损失0图6.在CIFAR-10数据集[21]上边界损失分布的核密度估计（KDE）曲线。这里，我们使用高斯核绘制曲线。虚线表示中位数边界损失。0学习率从第37个epoch衰减到零。本部分的结果

下载后可阅读完整内容，剩余1页未读，立即下载