针对深度神经网络的黑盒对抗攻击的条件转移方法

71 浏览量更新于2023-10-25 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15095†利用部分转移条件对抗分布的Yan Feng1，6，刘彦，Baoyuan Wu2，3，†，Yanbo Fan4，Li Liu2，3，Zhifeng Li5 and Shu-Tao Xia1，7，†1清华大学深圳国际研究生院，中国2香港中文大学数据科学学院深圳3深圳大数据研究院、4腾讯人工智能实验室、5腾讯数据平台、6美团、7人工智能研究中心、鹏程实验室摘要这项工作研究了针对深度神经网络（DNN）的黑盒对抗攻击，其中攻击者只能访问被攻击的DNN模型返回的查询反馈，而其他信息（如模型参数或训练数据集）是未知的。一种有希望的提高攻击性能的方法是利用一些白盒代理模型和目标模型之间的对抗性可转移性（即，被攻击的模型）。然而，由于代理模型和目标模型之间在模型架构和训练数据集上可能存在差异，被称为为了解决这个问题，我们创新性地提出了一种黑盒攻击方法，通过开发一种新的对抗性可转移性机制，该机制对代理偏差具有鲁棒性其总体思想是转移代理模型的条件对抗分布（CAD）的部分参数，同时根据对目标模型的查询学习未转移的参数，以保持在任何新的良性样本上调整目标模型的CAD的灵活性。在基准数据集上的大量实验和对真实世界API的攻击表明，所提出的方法具有优越的攻击性能。该代码将在https://github.com/Kira0096/CGATTACK上获得。1. 介绍众所周知[4，14]，对抗性样本是对深度神经网络（DNN）的严重威胁现有的对抗性攻击通常可以分为两大类。第一类是白盒攻击[14]，攻击者可以访问被攻击DNN模型的参数。第二种是黑箱攻击[12]，* 部分工作是他在腾讯AI Lab实习时完成的对应于Baoyuan Wu（wubaoyuan@cuhk.edu.cn）和Shu-夏涛（xiast@sz.tsinghua.edu.cn）.攻击者只能访问被攻击模型返回的查询反馈，而模型参数对攻击者来说是未知由于在真实场景中很难获取模型参数，因此黑盒攻击更具有实用性，也是本文研究的重点。如果仅仅利用查询反馈，很难在有限的查询预算下获得高的攻击成功率一种有前途的方法来提高攻击性能，包括攻击成功率和查询效率，是利用一些白盒代理模型和目标模型（即，（at- tacked model）。在现有的工作中已经提出了许多对抗性的可转移性，例如梯度[9，17]，或从低维空间到原始样本空间的投影[25]等。这些可转移性已经显示出在一些黑盒攻击场景中对提高攻击性能的积极贡献，特别是在闭集场景中，其中目标模型的训练数据集对于攻击者是已知的然而，它们的效果可能会受到替代模型和目标模型之间差异的显著影响。更准确地说，代理模型和目标模型之间的架构可能不同，可能导致对同一查询的不同反馈其次，在开集黑箱攻击的实际场景下，即使使用相同的架构，不同的训练集（包括样本和类标签）也会导致不同的参数。我们通常将代理模型和目标模型之间由架构和训练数据集引起的差异总结为代理偏差。如果偏差太大，传递的信息可能会误导攻击目标模型的对抗性扰动搜索，导致对抗性可传递性对提高攻击性能的贡献4.3）。为了缓解上述问题，转移项不仅应该为此，我们专注于条件对抗分布-15096作用（CAD）（即，以良性示例为条件的对抗性扰动的分布如果传递的CAD精确地拟合目标模型，则将有助于搜索用于攻击目标模型的成功对抗性扰动。此外，注意CAD与类标签无关，因此转换CAD将对训练类标签的替代偏差具有鲁棒性。然而，CAD可能会受到模型架构和训练样本的偏差的影响。因此，我们提出了一种新的传输机制，只有部分参数的CAD被转移，而其余的参数是根据目标模型返回的查询反馈学习的被攻击的良性样本。因此，可以灵活地调整以任何新的良性样本为条件的目标模型的CAD，使得可以减轻由于架构和训练样本的替代偏差而导致的可能的负面影响一个剩下的重要问题是如何精确地对CAD建模。在这里，我们采用了条件生成流模型，称为c-Glow[39]，其总体思想是可逆地映射一个简单的分布（例如，高斯分布）通过可逆网络转换为复分布，如图1（a）所示。c-Glow已经显示出捕获复杂数据分布的强大能力[39]，我们相信它足以捕获CAD。据我们所知，这是第一个使用c-Glow来近似CAD的工作此外，我们开发了一个有效的训练算法的c-Glow模型的基础上随机采样的扰动，而不是昂贵的生成的对抗性扰动，使CAD的代理模型可以有效地和准确地近似。通过大量的实验验证了该攻击方法的有效性，包括在基准数据集上对闭集和开集的黑盒攻击场景，以及对真实世界API的黑盒攻击场景.总之，这项工作的主要贡献有三方面.1）提出了一种有效的黑盒攻击方法，通过设计一种新的对抗性转移机制，只转移条件对抗分布的部分参数，对代理模型和目标模型之间的代理偏差具有鲁棒性2）首次用c-Glow模型逼近CAD，并设计了一种基于随机采样扰动的有效训练算法3）通过大量的实验证明了该攻击方法在提高攻击成功率和查询效率方面优于SOTA黑盒攻击方法。2. 相关工作近年来，对抗性攻击得到了很好的研究。请参阅[1]以了解详细的调查。在这一节中，我们主要讨论了黑盒对抗性攻击方法的相关工作，包括基于决策和基于得分的对抗性攻击。基于决策的对抗性攻击。基于决策的攻击者只能获取目标模型的输出标签。边界攻击[5]首先通过从正态分布中随机采样扰动来研究该问题。基于进化的搜索方法[12]利用历史查询来近似高斯分布作为搜索分布。[8]通过交替优化扰动幅度和扰动方向，将基于决策的HopSkipJumpAttack [6]通过利用决策边界处的二进制信息来估计梯度，开发了一种迭代搜索算法。在[33]中通过学习更有代表性的扰动采样子空间进一步改进了它。基于对敌对示例周围决策边界的低曲率的观察，[38]中提出了一种梯度近似方法GeoDA[45]用超平面局部近似决策边界，并搜索超平面上的最近点作为扰动。NLBA [32]通过利用向量投影进行梯度估计，克服了黑盒攻击的梯度不可达性SFA [7]考虑了L∞环境下的攻击，通过随机翻转一小部分扰动的符号来基于分数的对抗性攻击。基于分数的黑盒攻击通常有三个子类，包括基于传输的攻击、基于查询的攻击和基于查询和传输的攻击。1）基于转移的方法试图利用代理白盒模型的信息来生成对抗性扰动。例如，在[44]中提出了首先用通过查询目标模型标记的数据集训练代理白盒模型，然后利用训练的代理模型的梯度来生成对抗性扰动以攻击目标模型。在[37]中发现对抗性扰动在源模型的集合上生成时可以实现更好的攻击性能最近，[29]提出在中间特征空间中进行扰动，而不是仅仅关注源模型的输出层，以提高生成的对抗性示例的可移植性。虽然基于传输的攻击方法非常有效，但攻击成功率往往低于基于查询的攻击方法。2）基于查询的方法通过迭代查询目标模型来解决黑盒优化问题。SimBA [16]从预定义的正交基随机采样扰动，然后将该扰动添加或减去攻击图像。在[27]中采用自然进化策略（NES）[52，53]，以基于搜索分布最小化黑盒目标函数的连续期望。Bandit [28]通过将数据和时间先验纳入梯度估计来改进NES方法。SignHunter [2]采用梯度符号而不是梯度作为搜索方向。PPBA [34]通过将可能的对抗性输入的解决方案空间缩小到包含低15097.Σ。Σ{1}| ∈∥ ∥联系我们△F −FN∈ Y F∈∈ XYX|X|F X → Y∞LF∈ YLFFF频率扰动PRFA [36]考虑了对检测模型的攻击基于查询的方法比基于传输的方法获得更好的攻击性能，但需要更多的查询。3）基于查询和传输的攻击方法试图综合利用基于传输和基于查询的攻击方法的优点，同时实现高攻击成功率和高查询效率。一般的思想是首先从替代模型中学习某些类型的先验知识，然后将这些先验知识结合到查询中，B=η ηRn，ηpϵ（0>0是攻击者定义的标量，将在第2节中指定。4.1），使得x + η的预测不同于x的预测。具体地，攻击问题可以用公式表示为最小化LadvLadv （η，x ， y ）=Iη∈B+ max 0，△ ，（1）其中对于untar=（x+η，y）max（x+η，j）-j=y△= maxF（x+η，j）− F（x+η，t）的方法来指导对目标的攻击过程J T有针对性的攻击成为目标标签。模型例如，ATTACK [35]中使用的先验是NES中高斯搜索分布的平均参数，它是使用基于代理模型训练的回归神经网络学习的。AdvFlow [42]假设良性示例和对抗性示例的边缘分布相似，以生成不显眼的对手。平方攻击[3]中使用的先验是，它更有可能在允许扰动的可行集的边界处找到对抗扰动[9]和[17]中的方法利用代理模型的梯度作为梯度先验。TREMBA [25]把从低维空间到原空间的投影作为先验，使得扰动可以在低维空间中搜索。混合方法[49]提出用代理模型的对抗性扰动初始化攻击，并使用目标模型的反馈更新代理模型LeBA [56]还提出通过构建高阶计算图来MSA [57]提出元学习搜索分布，有助于提高攻击效率。QA [41]考虑了NLP的黑盒攻击，并联合利用注意力机制和局部敏感哈希对输入词进行排名，以提高查询效率。最近专门开发了一些算法来处理开集黑盒攻击场景（在[23，59]中也称为无数据黑盒攻击然而，DaST [59]需要大量的查询来训练代理模型，这DFP [23]假设目标模型基于白盒预训练模型进行微调，攻击成功率非常低。3. 方法3.1. 黑盒攻击我们表示一个分类模型，其中是输入空间，n=表示输入空间的维数，并且是输出空间。给定良性示例X及其地面实况标签y，（x，y） [0，1]指示分类得分w.r.t. 第y个标签。在这项工作中，我们采用logit作为分类得分。对抗攻击的目标是在一个小球内找到一个小的扰动η，即，与t如果a为真，则I（a）= 0，否则I（a）=+，这强制要求扰动η在范围B内。注意adv是非负的，如果达到0，则相应的η是成功的对抗扰动。在这里，我们考虑一个实际的和具有挑战性的情况下，参数是未知的攻击者，而只有分类得分（x，y）是通过查询返回，被称为基于得分的黑盒攻击。此外，如果攻击者已知训练数据集，则称为闭集攻击场景，否则称为开集攻击场景。黑盒攻击者的目标是找到一个具有攻击性的对抗扰动η（即，adv（n，x，y）=0）。换句话说，一个好的攻击算法应该实现高攻击成功率（ASR）和高攻击效率（即，更少的查询）同时进行。为此，一种有前途的方法是利用目标模型返回的查询反馈和来自一些白盒代理模型的对抗性转移，称为基于查询和转移的攻击方法。可移植性的影响与代理模型和目标模型之间的差异有关这些差异通常被称为代理偏差，它可能会导致负迁移，损害攻击性能。为了减轻对抗性攻击可能带来的负面影响，transferability，在这里，我们提出了一种新的转移机制，是强大的替代偏见。总体思路是部分地转移代理模型的CAD，同时保持根据对目标模型的查询来调整CAD的灵活性。在下文中，我们将首先在第二章中介绍使用c-Glow模型的CAD建模。3.2;然后，我们将在第3.2 节中介绍利用所提出的传输机制（称为 CG-ATTACK）的攻击方法。三点三3.2. 条件对抗分布建模3.2.1条件辉光模型最近在[39]中提出了c-Glow模型，用于在结构化输出学习中学习复杂的后验概率。它可以生成一个随机变量η和另一个随机变量z之间的可逆映射，攻击，而15098CGN⊙⊙P·x，P|L·×PFP|△LP|P|⊙ ∼ N⊙Σ格-格.Ei，xi−1θ（η x）可以被认为是真实对抗分布的一个很好的近似在不失去一般性的情况下，我们→→P|图1.我们的方法的整体流水线（a）c-Glow模型的一般结构，它将简单正态分布映射到CAD。（b）c-Glow在替代白盒DNN模型上的有效训练方法（c）拟议的黑盒攻击方法-ATTACK，其传输在代理DNN模型上训练的c-Glow模型的映射参数fbk简单分布（例如，高斯分布），给定条件x。 c-Glow可以用公式表示为逆函数g x，x：zn，存在g −1：z，其中m表示映射参数。在对抗性攻击的场景中，条件变量x ∈ X是良性示例，η ∈ R |X|表示扰动变量。0，1（）表示多元正态分布（0，I）的概率密度函数。为了简单起见，在Eq. （3）将变换z =μ+σ z0视为c-Glow模型的M+1层，即g x，μM+1（z0）=μ+σz0，其中<$M+1=（µ，σ），它也是可逆的，但与x无关。因此，我们有η=gx，θ（z0）= gx，θ（z）。3.2.3学习c-Glow模型在[39]中，c-Glow的参数θ是通过最大似然估计学习的（即，maxθlogθ（η x））。然而，它可能不是近似CAD的合适选择，因为当所采用的c-Glow模型中存在多个层时，它通常需要大量对抗性同时，这些对抗性扰动的生成回想一下，我们的工作是将c-Glow在白盒攻击场景中学习的映射参数为了解决上述挑战，我们首先提出了一种新的学习方法的替代白盒模型的基础上。能源模式。通过利用对抗性损失adv（η，x），我们定义了一个基于能量的模型[22]来捕获η在x周围的分布，如下所示g，x可以进一步分解为M反函数[39]如下：P （η|x）= 0exp. -. λ·Ladv（η，x）Adv.（四）η= g x，η（z）= g x，η1（g x，η2（. （g x，M（z））. ）），（2）其中，λ被指定为（λ1，. . . .c-Glow模型可以由具有M层（M被设置为3）的神经网络表示每一层由条件actnorm模块、随后的条件11卷积模块和条件耦合模块组成c-Glow的一般结构如图1（a）所示。c-Glow模型的详细描述将在第2.2节中介绍1、补充材料。3.2.2用c-Glow逼近CAD代替对边缘分布θ（η）建模，这里我们建议利用c-Glow的强大功能来近似CAD（即，θ（η x））。基于从潜变量 z 到扰动变量 η 的映射（即，当量（2）），我们导出了θ（η x）的一个数学公式。具体来说，我们首先设置z=μ+σ z0，其中z0（0，I），其中项式乘积，I表示单位矩阵。注意，给定分类模型，标准化项（即，分母）是一个难以处理的常数。我们只需要将它保存下来，并将它保存下来。logPE（η|x）<$−λ·Ladv（η，x），（5）其中λ是正超参数，将在第2节中说明6、补充材料。注意，非靶向和靶向对抗性扰动的分布都可以由方程表示。（5）通过指定到adv（n，x）中的相应格式（参见等式①①）。在实践中，我们在每个良性示例x周围的邻域B内随机采样大量扰动，然后将扰动示例x+η馈送到攻击模型以获取log值E（η x）。注意我们只需要在B内采样扰动，因为外部扰动的logE（ηx）（1）、对学习毫无用处。KL分歧最小化给定PE（η|X）定义的然后，利用方程的变量[51]（2），给定x的η的条件似然可以公式化为：由方程式（5），我们建议通过最小化PE（η）之间的KL 散度 [31] 来学习 c-Glow 模型的参数 θ|x ）和 Pθ（η|X）。背后的逻辑是，如果logPθ（η|x）= log P0，1（z0）+M+1i=1log. det1x，xi（ri−1），.、（三）任何扰动的对抗概率，PE（η|x）和Pθ（η|x）是相似的，然后学习P|其中θ=（θ，μ，σ），ri=g−1（ri−1），r0=η，rM=z考虑一个良性的例子x，那么θ的学习是并且rM+1=z0，其中i指示c-Glow中的第i个反函数det（·）表示行列式公式化为以下目标的最小化，η∈B exp- λ·L（η，x）dη15099ΣΣLLP（η|x）θN LNLNΣexp.NLDDCGL·LLLP|θP θ（η|x）θ0L=EP E（η|x）logPE（η|X）。（六）Pθ（η|x）发现（即， adv（n，x，y）=0）。而不是采用简单的高斯分布作为搜索分布，我们采用基于梯度的方法对该问题进行优化，并将w.r.t. θ在定理中给出1.一、由于篇幅限制，定理1的证明将在第二节中给出。3、补充材料。请注意，在Eq.（7）是易处理的，因此θ可以容易地计算。实际上，z0的K个实例是从（0，I）采样的，则θ根据经验估计为这些K实例化所提出的学习方法的一般结构第1段（b）分段。定理1. 利用第二节中定义的η=gx ， θ（ z0 ）和 z0（0，I），3.2，以及Eq. 并且定义项D（η，x）=log PE（η|x），则L的梯度w.r.t. θ可以计算如下在TREMBA和ATTACK中，我们将搜索分布指定为c-Glow模型建模的CAD。正如在第二节中所介绍的实验中所验证的那样。2.4对于柔性材料，c-Glow模型比高斯模型能更准确地捕捉一种新颖的CAD传送机构上述基于ES的黑盒攻击方法的一个主要挑战是，c-Glow模型的参数明显多于高斯模型，并且可能需要更多的查询来学习好的参数。因此，我们诉诸对抗性转移能力，即，首先使用第二章中的学习算法，在白盒代理模型的基础上学习c-Glow模型3.2.3，然后将学习到的c-Glow模型转换为目标模型的CAD然而，正如在SEC中提到的那样3.1、替代模型和目标模型的CADL=−E−λ·Ladv（η，x）公司简介（z）应该是不同的，由于替代偏差。转让·θηD（η，x）θη=gx，θ（z0）θ，（7）式中，η D（η，x）= η[− λ Ladv（η，x）− logPθ（η|X）]。3.3. CG-攻击基于进化策略的攻击方法。在这里，我们首先简要介绍了进化策略（ES）[20，46]，它已被广泛用于黑盒攻击，如NES [27]，TREMBA [25]，攻击[35]等。该Gen-ES的一般思想是引入一个搜索分布来采样多个扰动η，然后将这些扰动馈送到目标模型中以评估相应的目标值adv（η，x，y），然后使用该目标值来基于一些策略更新搜索分布的参数。GIES（例如，天然ES [52，53]，CMA-ES [19]）。重复该过程，直到一个成功的对抗扰动被执行。算法1提出了以CMA-ES为基本算法的非攻击方法.输入：黑盒攻击目标adv（，x），具有良性输入x，地面真值标签y或目标标签t，群体大小k，代理白盒模型，代理模型的训练集，最大查询数量T，下采样率r。1、基于代理模型在r-DCT子空间中对c-Glow模型进行预训练，得到参数μ s，μs，σs;2：初始化µ=µs，σ=I，并初始化标准CMA-ES算法中的其他参数;3：对于t=1至T，4：样本k扰动η1，...，ηk（μ，μ，σ）（η x）;5：对扰动η1，.，ηk与IDCT相同x的大小，得到η1，.，nk;6：评估ad v（n′1，x），...，ad v（η<$k，x）; 7：如果η<$i，ad v（η<$i，x）=0则8：返回nx+ηi;9：结束，如果10：按照标准CMA-ES更新µ、σ和其他参数;11：结束z0<$N（0，I）x，θ整个c-Glow模型可能会造成负迁移危害15100PP|CGCG攻击性能。因此，我们提出了一种新的传输机制，只传输c-Glow模型的映射参数μ，而其余的高斯参数μ和σ是基于对目标模型的查询来学习的，如图所第1段（c）分段。这种部分转移背后的基本原理是假设1，这将在第2节中得到验证。2.1补充材料。假设1. 给定为两个DNN模型学习的两个c-Glow模型，即，g x，θ1，其中θ1=（μ1，μ1，σ1）和g x，θ2，其中θ2=（μ2，μ2，σ2），我们假设它们的映射参数相似，即，2001年2月2日。我们认为，这种部分转移机制有两个主要优点。1）它保持了在当前被攻击样本x上自动调整目标模型的CAD的灵活性，以减轻由于来自模型架构和训练样本的代理偏差而导致2）由于这种转移只与条件概率θ（η x）有关，而与边际概率（y）无关，因此它应该对训练类标签的替代偏差具有鲁棒性。上述优点使得利用这种部分转移机制的攻击方法在现实世界的场景中，特别是在开集场景中更加实用。结合基于ES的攻击和这种基于Congloglow模型的部分传输机制的攻击方法被称为-ATTACK，其一般过程如图所示。1.一、降维。许多黑盒攻击方法[12，15，25，28]已经表明，在合适的低维子空间中搜索或优化对抗性扰动可以显着提高查询效率。为了进一步提高查询效率，本文还将降维技术与- 攻击具体来说，我们采用的技术基于离散余弦变换（DCT）。的一般程序15101NCGCGCGCGCGCGCGCG在算法1中总结了使用DCT的-ATTACK，其中我们采用了基于ES的方法的流行变体，即，协方差矩阵自适应进化策略（CMA-ES）[19]作为基本算法。DCT和标准CMA-ES算法的细节将在第2节中介绍第四和第五，分别补充材料4. 实验4.1. 实验设置数据集和评估指标。根据 [13] 中的设置，我们从CIFAR-10的测试集[30]和ImageNet [47]中随机选择的10个类的验证集中随机选择1,000个图像进行评估。对于这两个数据集，我们将输入归一化为[0，1]。CIFAR-10 的对抗图像的最大失真设置为 0 。 03125 ，对于ImageNet设置为0。05.对于所有实验，查询的最大数量设置为10，000。与以前的工作[17，43]一样，我们采用ASR，成功攻击的平均和中值查询次数来评估攻击性能。目标和替代模型。对于CIFAR-10，我们考虑了四个目标模型： VGG-15 [48] ， ResNet-Preact-110 [21] ，DenseNet-BC-110 [24]和PyramidNet-110 [18]。这些模块是基于GitHub仓库1实现的。除非另有说明，我们对每个数据集的训练集进行标准训练。前1名错误率在CIFAR-10标准测试集上，这四个目标模型的平均预测误差分别为7.24%，10.04%，4.68%，7.24%对于ImageNet，我们还在四个目标模型上评估了我们的方法：VGG-16 [48]，ResNet-18 [21]，SqueezeNet[26]和GoogleNet [50]。这些模型基于Pytorch的官方实现，预训练参数从torchvision下载。这些目标模型在ImageNet验证集上的前1名错误率分别为（28.41%，30.24%，41.90%，30.22%）。为了进一步减轻由于模型架构的替代偏差而可能产生的负面影响，在每个数据集上，当攻击一个目标模型时，我们将其他三个模型视为替代模型。此外，我们还考虑了对可对抗防御模型的攻击在[25]之后，基于PGD对抗训练来[40]和[55]中的SOTA模型直接用于ImageNet。更具体地说，ResNet 50和WResNet [58]被用作CIFAR-10的代理和目标模型， ResNet 152 Denoise 和 RexneXt 101Denoise被用作ImageNet的代理和目标模型。比较方法。比较了几种基于SOTA分数的黑盒攻击方法，包括 NES [27] ， Bandits [28] ， ATTACK [35] ，SimBA [16]，Subspace [17]，P-RGF [19]，[9]，TREMBA [25]，MetaAttack [13]，Signhunter [2]和AdvFlow [42]。所有这些都是使用源代码实现的。1https://github.com/hysts/pytorch图片分类图2.攻击成功率（ASR %）w.r.t. 查询CIFAR-10上的无针对性攻击的编号。代码由作者提供。4.2. 闭集攻击场景4.2.1CIFAR-10的黑盒攻击性能无目标攻击在这种情况下，如果对抗性示例的预测类与地面事实标签不同，则一次攻击成功。结果报告在表的左半部分。1.一、它表明，所提出的-ATTACK在ResNet，DenseNet和PyramidNet上实现了 100%的ASR-ATTACK也是非常高效的查询。查询的平均数量是Tab中所有四个目标模型中最低的1.更令人惊讶的是，-ATTACK查询的中位数仅为1，这意味着我们仅用一个查询就成功地欺骗了目标模型，超过50%的攻击图像。相比之下，第二好的中值查询是由子空间[17]获得的，它是我们的10倍以上，并且具有低得多的ASR。所有评估图像上的平均ASR相对于查询编号的曲线如图2所示。它清楚地突出了我们的-ATTACK方法的优越性，特别是在低查询数的阶段。有针对性的攻击在[25]之后，我们对三个目标类别进行了有针对性的攻击，包括0（飞机），4（鹿）和9（卡车）。当攻击一个目标类时，跳过具有相同地面实况类的图像。我们在Tab的右半部分报告了目标类0的攻击结果。1，并留下其他两个目标类的结果7.1补充材料。如Tab.所示。1，我们的-ATTACK方法在所有目标模型上实现了至少98.8%的ASR。此外，-ATTACK的平均查询次数和中值查询次数均显著低于所有比较方法，证明了其查询效率。Signhunter [2]获得比- 攻击VGG和PyramidNet，但成本超过1.6倍查询数量。15102↓→↓↓CGCGCGCGCGCGCG表1. CIFAR-10上的攻击成功率（ASR%）、非目标攻击和目标攻击（目标类别0）的平均和中位查询数。前5种方法（从实现90%以上ASR的方法中的最佳和次佳值以粗体和下划线突出显示无目标攻击有目标攻击目标模型ResNet DenseNet VGG PyramidNet ResNet DenseNet VGG PyramidNet攻击方法ASR是说中值ASR是说中值ASR是说中值ASR平均值中位ASR均值中位ASR均值中位ASR是说中值ASR是说NES中位数[27]91.2 169.262.094.3249.4112.091.7二百八十四点三98.0 95.9 385.4 168.02973.5 1102.084.96932.4 4125.077.34192.4 2961.071.23977.8 2623.0[35]第三十五话99.6767.2628.099.6824.4672.099.7902.4736.0100.0675.8 548.0 99.11817.3 1548.0100.0 1718.5 1493.0100.0 3232.8 2874.0100.0 1569.3 1288.0土匪[28]90.8 193.488.0 96.0 206.396.0 93.0361.5158.092.0一百九十四点九92.0 72.63660.1 2812.080.04154.8 3842.083.43967.6 3860.077.84484.6 3876.0SimBA [16]93.2 432.1235.074.0480.5 223.068.3632.3 237.084.0 四百五十五点五270.0100.0 940.0 885.0100.0838.8 777.099.51343.2 1210.0100.0865.8779.0电子邮件：info@signhunter.com100.0135.147.099.8213.8 119.093.3244.3 102.097.5 一百六十一点九69.0100.0894.1657.0100.0826.9679.099.71431.7 1121.0100.01111.6 878.0[17]第十七话93.0 301.812.096.0115.812.090.0272.012.091.0 二百五十五点四10.078.02409.3 1630.094.01528.4 1012.067.02129.1 1366.080.02241.3 1586.0P-RGF [9]92.2 一百二十一点八62.099.6111.762.096.8176.462.098.2135.862.070.61020.8 390.077.11037.1 438.061.31083.9 360.050.31108.8 436.0[25]第二十五话90.9一百二十点七64.097.8126.466.097.7125.563.097.9八十二三39.091.21125.3 868.092.31123.4 879.096.51331.51142.098.11082.4759.0[13]第十三话100.0363.2153.0100.0411.5 225.0100.0392.0 161.0100.0320.4191.098.71953.3 1537.099.82013.7 1793.086.13045.6 2307.098.92054.6 1665.0[42]第四十二话97.2 841.4598.0100.01025.3 736.098.21079.1 862.099.7 857.5562.098.6911.7 822.096.31021.5 868.097.41144.1946.0100.0908.1 824.0CG-攻击100.0 81.61.0100.0 43.3 1.099.956.4 1.0100.0 30.11.099.9696.4 421.0100.0 787.1 621.098.8861.1 581.098.9651.2 461.0表2.攻击成功率（ASR%），ImageNet上无针对性攻击的平均查询最好的和第二的-表3.攻击成功率（ASR%），黑盒无针对性攻击对防御模型的平均查询次数和中位数。实现90%以上ASR的方法中的最佳值为分别以粗体和下划线突出显示目标模型→ ResNet GoogleNet VGG SqueezeNet攻击方法ASR平均中位数ASR平均中位数ASR平均中位数ASR平均中位数媒体数NES [27]91. 2 1642.1 664.086.31725.3 612.081.6 1394.7 586.087.5 1473.3 596.0[第28话]目标模型→ CIFAR10WResnet ImageNet RexneXt101攻击方法ASR平均中值 ASR 是说平均NES [27]13.25682.12261.310.37745.2 3943.0[35]第三十五话4753.92763.029.76352.4 3971.0[28]第二十八话3127.51263.216.44962.3 3138.0[13]第十三话94.8 335.2167.096.3 288.6121.093.6311.296.096.3 288.3 132.0[42]第四十二话 746.1 482.099.3694.8 364.095.5 1022.6 748.099.2 894.3 521.0CG-攻击97.3210.421.0138.821.099.477.31.099.3 132.921.04.2.2ImageNet上黑盒攻击的性能我们对ImageNet数据集上的模型执行有针对性和无针对性的攻击。我们报告的结果为无针对性的攻击，并将结果留给有针对性的攻击节中7.2补充材料。结果总结见表。二、结果表明，在大多数情况下，-ATTACK的性能优于比较方法。具体来说，当攻击GoogleNet模型时，-ATTACK以最低的平均和中值查询数实现了最高的 ASR 在 ResNet 和SqueezeNet上，-ATTACK实现了查询平均数和中位数的最佳值此外，我们还研究了效应降维在SEC。7.4补充材料。4.2.3对被防御模型的在本节中，我们对基于对抗训练的防御模型进行了无目标攻击，结果在Tab中报告。3 .第三章。除了基于第二节中提到的辩护代理模型的结果。4.1（列为-ATTACK-Robust），我们也给出了无防御代理模型（列为-ATTACK）的结果。请注意，对于其他基线方法，仅提供了辩护代理模型的结果。从Tab。3，我们可以看到，即使没有辩护代理模型，-ATTACK仍然优于基线方法在所有三个指标。这表明，我们的方法是能够有效地适应CAD，尽管在模型架构中的大代理偏差。用一个更好的代理模型，该防御模型， CG-ATTACK-Robust持续改进[13]第十三话1527.6681.046.52823.7 1149.0[42]第四十二话2386.21124.032.74952.8 3168.0CG-攻击58.5789.7371.063.31374.0 621.0CG-攻击-健壮64.3606.1341.072.11305.1 581.0在ASR（高5%）、平均值（低7%）和中值查询（低5%）方面，攻击性能优于ATTACK4.3. 开集攻击场景4.3.1对基准数据集的节中4.2中，我们考虑了代理模型和目标模型共享相同训练集的闭集攻击sce nario，它已被广泛用于许多恶意的黑盒攻击方法[9，13，17，25]。然而，在现实世界的场景中，攻击者可能不知道用于训练目标模型的数据集，称为开放集攻击场景。具体而言，我们考虑以下两种情况。情况1：代理模型和目标模型在来自相同类的不相交图像上训练在这种情况下，攻击者可以访问目标训练集的类标签，并通过从互联网上收集每个类的图像来创建代理训练集。在我们的实验中，我们均匀地分割每个类的训练图像，代理模型在一半上训练，而目标模型在另一半上情况2：代理模型和目标模型在来自不相交类的不相交图像上训练。在这种情况下，完整的类标签不会被释放，攻击者更难构建类似的代理数据集来训练代理模型。在这里，我们考虑一个极端的设置，用于训练代理和tergate模型的训练集特别地，我们将整个训练集按类平均划分，并在一半上训练代理模型NN[35]第三十五话95.3 1124.6 760.090.3 972.3 248.095.6 1266.4 864.089.7 1247.1 462.090.9 874.6 692.084.3 991.3 773.094.8 1362.2 812.088.2 1173.4 862.0SimBA [16]29.63826.92642.025.77152.63072.0SimBA [16]96.7 577.3 245.099.1 995.0 382.093.4 882.6 382.094.3 1052.3 766.0电子邮件：info@signhunter.com58.1986.1583.060.11585.3769.0电子邮件：info@signhunter.com[17]第十七话100.0278.2 四十八点零93.1533.8 224.0100.0284.7 124.096.3 632.1 322.0100.0218.9 六十四点零94.3 533.2 310.0100.0315.9 七十二点零95.7 589.2 272.0[17]第十七话31.33965.72492.026.16973.24175.0P-RGF [9]96.1528.1 284.097.3 466.2 271.097.3 336.1 184.094.7 463.7 172.0P-RGF [9]22.94983.23617.021.27791.45823.015103↓→CGCGCGCGCGCG表4.攻击成功率（ASR%），CIFAR-10上开集非目标攻击的平均和中位查询数（案例1和案例2）。前5种方法（从方法中的最佳值以粗体突出显示。案例一案例二目标模型ResNet DenseNet VGG PyramidNet ResNet DenseNet VGG PyramidNet攻击方法ASR是说中值ASR是说中值ASR是说中值ASR平均值中位ASR均值中位ASR均值中位ASR是说中值ASR是说NES中位数[27]93.1 225.279.096.7 188.568.093.281.0 97.2 273.5251.3101.092.9373.4186.094.2343.0192.096.3 309.1 214.0[35]第三十五话99.7688.3264.099.3645.2262.099.1725.7318.098.6205.0 98.2607.2335.099.1706.7349.

下载后可阅读完整内容，剩余1页未读，立即下载