没有合适的资源?快使用搜索试试~ 我知道了~
语义对抗攻击中的属性生成模型
4773语义对抗攻击:愚弄深度分类器的参数变换Ameya Joshi Amitangshu Mukherjee Soumik Sarkar Chinmay Hegde爱荷华州立大学{ameya,amimukh,soumiks,chinmay}@ iastate.edu摘要深度神经网络已被证明对被不可感知的扰动破坏的对抗性输入图像表现出令人不安的脆弱性然而,大多数对抗性攻击都假设对图像像素空间进行全局的细粒度控制。在本文中,我们考虑一个不同的设置:如果对手只能改变输入图像的特定属性,会发生什么?这些将生成可能明显不同的输入,但仍然看起来很自然,足以欺骗分类器。我们提出了一种新的方法来生成这样的我们展示了我们对在人脸图像上训练的二进制分类器的攻击的实现,并表明存在这种看起来自然的语义对抗示例。我们评估我们的攻击的有效性合成和真实的数据,并与现有的攻击方法进行了详细的比较。我们补充我们的经验结果与理论界证明存在这样的参数对抗的例子。1. 介绍基于深度神经网络的分类器的对抗性输入的存在已经通过几个最近的工作得到了很好的确立[5,10,16,17,58,41]。对手通常通过向给定的输入图像添加不可感知的扰动来混淆分类器,其中扰动的范围根据有界像素空间的P-P-范数球来定义。这种对抗性的像素空间范数约束攻击揭示了有趣的这项工作得到了NSF资助CCF-1750920、CNS- 1845969、DARPAAIRA资助PA-18-02-02、AFOSR YIP资助FA 9550-17-1-0220,来自ISU的ERP赠款,来自NVIDIA公司的GPU赠款以及布莱克和维奇基金会图1. 具有单个可修改属性的语义对抗攻击示例。第一列和第三列是原始图像。语义对抗示例(第2列和第4列)通过优化参数(属性)生成模型的流形来生成,以欺骗深度分类器;特别是针对上校的面部特征。2和照明Col.4.第一章深度神经网络的泛化特性的见解。然而,不可察觉的攻击肯定不是对手可用的唯一手段考虑一个输入示例,它包括显著的、不变的特征以及可修改的属性。一个例子是人脸图像,它由与人的身份相关的不变特征和可变属性(如头发颜色和眼镜的存在/不存在)组成。这样的对抗性示例虽然在感知上与原始输入不同,但对于预言机或人类观察者来说看起来自然且可接受,但仍然能够颠覆分类器。不幸的是,绝大多数对抗性攻击方法并不适用于这种自然环境.对这种攻击的系统研究在部署神经分类器的安全关键应用中是至关重要的,例如人脸识别系统或自动驾驶车辆的视觉模块。这些系统需要对输入数据中的有限变化量具有免疫力,特别是当这些变化通过自然方式实现时。因此,使用自然扰动(例如,在面部图像的情况下的面部属性,或用于自主导航系统的不同天气条件)来生成对抗性示例的方法将进一步揭示4774着眼于这种系统的真实世界鲁棒性。我们将这种可感知的攻击称为这种设置从根本上不同于现有的攻击方法,并且迄今为止(在很大程度上)尚未探索。语义攻击利用输入图像的非线性生成变换,而不是线性加法技术(例如图像混合)。这种复杂的生成变换在相应的攻击中显示出更高程度的非线性,其影响值得进一步研究。此外,给定输入中的可修改属性(生成模型中的参数)的数量的作用也是一个重要的考虑因素。贡献:我们提出并严格分析了一个通过修改语义属性为深度神经分类器生成对抗性示例的框架。我们利用生成模型,例如Fader Net- works [30],其具有与参数相对应的语义上有意义的可调属性,进入连续有界空间,该空间隐式地定义了“自然”输入数据的空间。我们的方法利用这个属性,通过治疗这些属性模型的范围空间作为一个图像的语义变换的流形。我们提出的搜索对抗的例子在这个se-mantic流形作为一个优化问题的参数条件的生成模型。使用人脸图像分类作为运行测试用例,我们训练了各种参数模型(包括Fader Networks和Attribute GAN),并展示了使用这些模型中的每一个生成语义有意义的对抗性示例的能力。除了我们的经验评估,我们还提供了一个简化的语义攻击模型的理论分析,以了解参数攻击的能力,通常利用一个显着较低的维度攻击空间相比,经典的像素空间攻击。我们的具体贡献如下:1. 我们提出了一种新的基于优化的框架,使用参数生成变换生成语义有效的对抗性示例。2. 我们使用多属性转换模型的变体来探索我们的方法的实现:Fader Net- works [30]和Attribute GAN [20]为在CelebA数据集[ 37 ]上训练的二元分类器生成对抗性面部图像。我们的一些修改后的多属性模型是不平凡的,可能是独立的利益。3. 我们提出了一个实证分析,我们的方法,并表明,增加攻击空间的维度,结果在更有效的攻击。此外,我们研究了一系列越来越多的非线性攻击,并证明,更高程度的非线性(令人惊讶的)导致较弱的攻击。4. 最后,我们通过提供对抗条件下简化代理模型的分类误差的上界来提供初步的理论分析[52]。这一分析支持了我们关于攻击空间维度的经验观察我们证明了我们对复杂图像数据集训练的简单深度分类器的攻击的有效性;因此,我们的经验比较比流行的攻击方法(如FGSM [16]和PGD [29,39])更真实,这些方法主要关注更简单的数据集,如MNIST [32]和CIFAR。我们的方法还提出了一个有趣的用例,多属性生成模型,已被单独用作可视化工具,迄今为止。大纲:我们从第2节的相关文献回顾开始。我们在第3节中描述了我们提出的框架,语义对抗生成。在第4节中,我们描述了我们的框架的两个变体,以显示确保语义约束的不同方法。我们将在第5节中对我们的工作进行实证分析。在第6节中,我们进一步对参数攻击空间的维度进行了实证分析和理论验证,并在第7节中总结了可能的扩展。2. 相关工作由于篇幅限制,再加上对抗性机器学习领域的大量最新进展,我们对相关工作的讨论必然是不完整的。我们把更详细的讨论推迟到附录。我们的重点是白盒,测试时攻击的深度分类系统;其他攻击家族(如后门攻击、数据中毒方案和黑盒攻击)与我们的设置没有直接关系,而我们有这里不讨论这些方法对抗性攻击:深度分类器容易受到难以察觉的对抗性示例的影响的证据可以归功于Szegedy等人。[58]。Goodfellow等人[16]和Kurakinet al. [29]使用快速梯度符号方法(FGSM)及其迭代变体扩展这一工作。Carlini和Wagner [5]通过提出多个对抗性损失函数,在各种像素空间lp范数球约束下设计了最先进的攻击Athalye等人[1]进一步分析了几种针对像素空间对抗性攻击的防御方法,并证明了大多数现有的防御可以通过在防御训练模型上近似梯度来超越。这种攻击在不可压缩性约束下扰乱像素空间。相反,我们处理生成具有可感知但语义有效修改的对抗性示例的问题。我们的方法considers一个较小的参数对抗攻击:参数化攻击是最近引入的一类攻击,其中攻击空间由一组参数而不是像素4775→×→C--原始分类器推子网络语义对抗示例女性对抗性推子网络Genc(x)Gdec(z,a)男性z属性向量一(眼镜)对抗性损失图2. 一个单属性的对抗性衰减器网络。语义对抗攻击框架优化对抗损失以生成对抗方向。通过衰减器网络相对于属性向量a反向传播对抗方向,确保对抗示例仅针对该特定属性生成。在这里,对抗算法通过优化a在女性的脸上生成眼镜,从而迫使性别分类器将图像误分类为男性。空间这种方法会产生更Athalyeet al[2] Liuet al. [35]使用3D空间中的几何表面优化来创建对抗性示例。Zhang等人[71]证明存在可以伪装车辆的逆向设计Zhao等人[72]通过使用GAN的参数输入潜在空间生成对抗示例[18]。Xiao等[65]采用空间变换来扰动图像几何形状以创建对抗性示例。Sharif等人[55]提出了一种生成模型来改变带有眼镜的面部图像,以便混淆面部识别分类器。与这些方法相反,我们考虑使用预训练的多属性生成模型来将输入转换为多个属性以生成对抗性示例的逆方法。Song等人[57]优化con-gAN的潜在空间,为性别分类器生成不受限制的对抗性虽然我们的方法在主题上是相似的,但我们在能够为给定的测试样本生成对抗性对应物我们在下面讨论关于这种多属性生成模型的相关文献。基于属性的条件生成模型:生成对抗网络(GAN)[18]是一种从真实世界的数据分布中生成样本的流行方法。GAN的最新进展[49,36,64,6Chen等人[6]引入属性学习生成模型的概念,其中视觉特征由输入向量参数化。Perarnae等人[48]使用条件生成广告网络[40]和编码器来学习属性用于属性编辑的不变潜在表示。衰减器网络[30]使用具有潜在延迟的自动编码器对此进行了改进。He等人[20]认为这样的属性不变约束过于紧缩,并将其替换为属性分类约束和重构损失,以仅改变保留属性排除特征的期望属性这些模型主要用于生成各种各样的面部图像。我们在理解神经网络的泛化属性的背景下为这种属性模型提供了一个次要的(也许是实际的)用例。3. 语义攻击从概念上讲,产生给定输入的对抗性语义(“自然”)扰动取决于两个算法组件:(i)导航输入图像的参数变换的流形的能力,以及(ii)在该流形上执行最大化关于给定目标模型的分类损失的优化的能力。我们在下面详细描述每个组件。符号:我们假设一个白盒威胁模型,其中对手可以访问目标模型f(x):0,1和与之相关的梯度。该模型将输入图像x分类为c类之一,由独热输出标签y。在本文中,我们专注于二元分类模型(c=2),同时注意到我们的框架透明地扩展到多类模型。设G(x,a):Rd RK Rd表示参数变换,条件是参数向量,a.这里,a的每个元素(比如ai)都是一个实数,对应于特定的语义属性。例如,0可以对应于面部毛发,其中零值(或负值)表示在给定面部示例上不存在毛发,并且正值表示在给定面部示例上存在毛发。我们定义了一个语义上的反对者-fθ(x)fθ(x)4776算法1对抗性参数优化Require:x0:输入图像,a0:初始属性向量,E(. ):属性编码器,G(.,. ):预训练的参数变换模型,f(. ):目标分类器,y:原始标签1:h0←f(x),ladv←∞,i←02:成功= 03:while doladv0且i≤MaxIter第四章:a<$←E(a)第五章:hi←f(G(xi,a<$i))第六章:ladv←Ladv(y,hi)7:ai+1←BackProp{ai,ladv(f(G(xi,E(ai)}8:x≠←G(x,E(ai+1))语义参数。对抗性示例的生成通常被建模为一个优化问题,可以分解为两个子问题:(1)优化目标网络上的对抗性损失以找到对抗性扰动的方向。(2)对抗向量在可行解空间上的投影在第一步中,我们优化了对抗性损失Ladv。我们将第二步建模为对抗向量在参数变换模型的范围空间上的投影。这是通过级联输出来实现的f(x)=0f(x≠0),则将转换函数放到目标的输入中10:返回成功,x11:如果结束12:i←i+ 113:结束while网络 然后,优化问题可以通过以下方式解决:在网络和变换上反向传播 。我们还修改了Carlini-Wagner非目标对抗损失[5],如公式1所示,以包括我们的语义约束:一种故意将输入图像,x通过一个参数模型产生一个新的例子Max.Σ0,max(f(x<$)t)−f(x<$)i(一)x≠G(x,a)使得f(x≠) f(x).t/=i3.1. 参数化变换模型S.T.x=G(x,a)首先,让我们考虑生成给定输入示例的语义转换的问题。为了创建语义转换的示例,定义了参数生成模型G(. )应该满足两个性质:G(. )应该重建图像中的不变数据,并且G(. )应该能够独立地扰动语义属性,同时最小限度地改变不变数据。因此,参数化变换模型被训练为在对语义属性进行分解的同时重构原始示例。这涉及在对应于可修改属性的一组参数上调节生成模型。语义参数向量由这些参数组成,并被输入到参数化模型以控制语义属性的表达。我们认为,这样一个模型的范围空间近似的输入图像的语义转换的流形因此,变换模型可以用作投影算子,以确保优化问题的解我们还观察到,语义参数向量的维度将比原始图像低得多。在本文中,我们考虑这种连续生成模型的两种变体:Fader Networks [30]和AttributeGAN(AttGAN)[20]。3.2. 对抗性参数优化生成语义对抗性示例的问题本质上可以被认为是找到分类器对对抗性在我们的方法中,我们将其建模为优化问题其中i是原始标签索引,t是类标签任何其他类别的索引。与 Zhao 等 人 提 出 的 网 格 搜 索 方 法 相 比 , [72]Engstromet al. [12],我们的优化算法规模更好。此外,我们为特定输入创建了具有多个属性的语义对抗转换,从而可以对目标模型的泛化能力进行细粒度分析。4. 语义转换虽然我们的语义攻击框架适用于任何支持梯度计算的参数变换模型,但我们通过构建两个最近提出的生成 模 型的 对 抗 变 体来 实 例 化 它 :Fader网 络 [30]和AttributeGAN(AttGAN)[20]。4.1. 对抗性衰减器网络衰减器网络[30]是一种编码器-解码器架构,用于修改具有连续参数化属性的图像。他们通过学习编码的潜在表示的不变性,同时解开图像和属性的语义信息来实现这一点。属性的不变性是通过潜在空间中的对抗训练步骤在潜在训练器的帮助下学习的,该潜在训练器被训练以识别对应于每个训练样本的正确属性使用我们的框架,我们可以适应任何预先训练的衰减器网络来模拟给定输入的语义扰动的流形我们注意到,在我们的设置中需要进行微小的调整,因为[30]的方法所需的参数向量需要每个标量属性ai,4777−要用元组表示,(1ai,ai)。由于两个表示之间的一对一映射,我们可以将任何实值参数向量a投影到这个图中。攻击类型属性目标模型的准确度(%)随机抽样(%)通过一个附加的、固定的仿射变换层来实现考虑到这个额外的我们定量地研究了允许攻击者访问单个或多个语义属性的效果。特别是,我们构建了三种生成语义对抗示例的方法:(i)单属性衰减器网络; ㈡多属性衰减器网络;及(iii)一个级联序列的单一原子-单属性攻击多属性攻击级联多属性攻击多属性AttGAN攻击A1 52.0 89.00A2 35.0 96.0014.0 90.00A1,A5,A6 3.00 89.00A2、A5、A6 1.00 81.00A1,A2,A7 3.00 87.00A1-A2-A3A2-A3-A4A1,A2,A6,A8,A10A1,A2,A6,A8,A9,A10 39.40 40.40向Fader Networks致敬单一属性攻击:对于单属性攻击,我们使用预训练的单属性Fader网络的范围空间来约束我们的对抗性攻击。单一属性攻击限制攻击者仅修改所有图像的指定属性。在面部图像的情况下,这样的属性可以包括眼镜的存在/不存在、头发颜色和鼻子形状。在我们的实验中,我们展示了使用三个单独的单一属性对性别分类器进行攻击的示例:眼镜、年龄和肤色。图2描述了单属性对抗性渐变器网络的机制,该机制通过添加眼镜来生成对抗性示例多属性攻击:与单属性情况类似,我们也可以使用预先训练的多属性衰减器网络来建模对手可以访问多个可修改特征的情况。多属性衰减器网络的局限性在于其训练的困难这是因为需要衰减器网络来学习属性的分离表示,而在实践中,语义属性不能完美地分离。我们使用如下所述的新的条件生成模型来解决这个问题。属性叠加攻击:我们提出了一种新的方法来模拟多属性攻击的逐阶段级联预训练的单属性Fader网络。其好处是,现在消除了学习解纠缠表示的计算负担。每个单属性模型暴露一个属性潜在向量。在执行Alg。1我们联合优化所有属性向量。然后将最佳对抗向量分割为每个Fader Network的相应属性,以生成对抗示例。4.2. 对抗AttGAN第二种编码器-解码器架构[20],称为AttGAN,通过操纵编码的潜在表示来实现与编辑属性的渐变器网络类似的目标;然而,AttGAN通过在训练时考虑原始和翻转的标签,将语义属性与数据的潜在不变性分离。这是通过训练一个潜在的神经元来实现的,表1.下的语义对抗示例的性能多个实现。属性图例:A1-眼镜,A2-年龄,A3-鼻子形状,A4-眼睛形状,A5-丰满,A6-苍白的皮肤,A7-微笑,A8-胡子,A9-眉毛,A10-头发颜色。随着属性数量的增加,语义攻击更有效。与10个随机抽样中最坏的相比,我们基于优化的攻击效果更好[12],显示了前者分类器对对原始图像和变换后的图像进行分类,以确保不变性。为了使用AttGAN生成语义对抗示例,我们使用了一个以13个属性为条件的预训练生成器。在这种情况下,属性向量被编码为图像的原始属性序列的扰动。我们考虑表1中列出的两组属性来生成对抗性示例。根据 我 们 的 经 验 , AttGAN 架 构 提 供 了 更 稳 定 的recruitment,从而允许更多的可修改参数。5. 实验结果我们展示了我们的语义对抗攻击框架,使用二进制(性别)分类器作为在CelebA数据集上训练的目标模型[37]。 虽然我们在本文中将自己限制在面部二进制分类器的结果上,但在Berkeley Deep Drive数据集[ 69 ]上使用多类分类器的广告结果可以在附录中找到(参考图10)。(八)。所有实验均在配备有Py- Torch [47]v1.0.0中的NVidia Titan Xp GPU1我们使用ADAM优化器[26]在分类交叉熵损失上训练分类器。训练数据通过随机水平翻转进行增强,以确保分类器不会过拟合。目标模型在测试集(数据集的10%)上实现了99.7%的(标准)准确度。我们的目标是使用语义攻击来打破这种分类器模型。为此,我们使用从测试集中随机选择的500个图像的子集每幅图像都是由我们的算法使用第4节中描述的各种参数变换家族进行变换的。我们对所有对抗性攻击的比较指标是目标模型在1代码和型号:https://github.com/ameya005/语义_对抗_攻击4778(a)(b)(c)(d)(e)(f)(g)(h)(i)图3.如表1所示,使用多属性语义模型生成的语义对抗示例。列(a)、(e)和(g)是原始图像。列(b){属性类别:A1,A5,A6}(c){属性类别:A1,A2,A7}和(d){属性类别:A2,A5,A6}示出了使用多属性衰减器网络作为语义变换生成的示例。(f)中的示例{属性类别:A1-A2-A3}使用级联单属性衰减器网络生成。列(h){属性类别:A1,A2,A6,A8,A10}和(i){属性类别:A1,A2,A6,A8,A9,A10}是分别使用具有5和6个属性的AttGAN变换的图像。附录中提供了对交通场景的多类分类器进行语义攻击的其他结果生成的对抗性测试集。对抗性衰减器网络:我们考虑第4.1节中记录的三种方法。对于我们原始测试集中的每一个图像,我们通过优化等式1中的对抗损失来生成对抗样本。在单属性和级联顺序攻击的情况下,我们使用Lample等人提供的预训练单属性模型。[30]表示语义转换的流形。对于多属性攻击,我们训练了3个多属性衰减器网络,其属性如表1所示。我们使用算法1中定义的算法为我们的每种方法创建一个对抗性测试集,如第4.1节所述。我们的实验表明,对抗性衰减器网络成功地生成了在所有情况下混淆二元分类器的示例;见表1。视觉对抗示例如图所示1和图3 .第三章。 我们还观察到多属性攻击优于单属性攻击,这符合直觉;下面在第6节中提供了语义属性的数量对攻击性能的影响的更系统的分析。对抗AttGAN:我们使用多属性AttGAN实现执行一组类似的实验,贡献增加(特别是,添加眉毛贡献导致模型精度下降近30%)。与参数空间采样的比较:我们将我们的方法与以前提出的方法,研究参数攻击等。[12 ]第10段。他们建议从参数空间中挑选s个随机样本,并选择由给出最差交叉熵损失的样本生成的对抗性样本(我们使用s=10)。我们在表1中展示了结果,并观察到在所有情况下(除了一种情况),我们的语义对抗攻击算法优于随机抽样。此外,该表还揭示了在衰减器网络或AttGAN范围内的随机示例这表明目标模型通常对于由参数变换模型2引起的低重构误差是不变的。与像素空间攻击的比较:除了上述分析之外,我们还将我们的攻击与最先进的Carlini-Wagner(CW)l∞攻击[5]以及表2中的其他几种攻击技术[16,29,12]进行了比较。为了确保公平的比较,我们考虑我们的多属性攻击的最大l∞距离作为所有基于像素范数的攻击的约束参数从表中,我们观察到化学武器攻击非常有效;He等人[20 ]第20段。我们记录了两个前-实验:一个使用5个属性,第二个使用6个属性,如表1所示。我们观察到一个显着的改善,在性能的数量语义at-2我们没有将我们的工作与其他方法进行比较,例如DifferentiableRenderer [35]和3D对抗攻击[70],因为这些论文期望Oracle访问3D渲染环境。我们也不同意Song等人的观点。[57]因为它们从头开始生成对抗性示例,而我们的攻击针对特定的输入。4779联系我们××→√联系我们≤是林书条第Att.是林书神经属性非林。条第Att.非林。神经属性表2.对抗性攻击与其他攻击策略的比较。较低的目标精度对应于较好的攻击。允许像素空间攻击生成对抗样本在对应于我们的最佳性能的多属性攻击模型的l ∞距离下。观察到语义攻击与最先进的像素空间攻击是可比较的。另一方面,我们的语义攻击能够胜过其他方法,如FGSM [17]和PGD [39]。我们还将我们的方法与[12]的空间攻击进行了比较,后者使用输入的仿射变换进行网格搜索以生成对抗性示例;这里不适用∞约束,而是使用[ 12 ]中提供的默认参数。我们提出的攻击方法被认为是更成功的。我们在附录中为其他属性以及其他数据集提供了关于二进制和多类分类器的额外详细实验。6. 分析:强制性从我们的实验中,我们观察到,将广告限制为输入的低维语义参数变换导致比像素空间攻击更低效的攻击此外,单属性语义攻击比多属性攻击更强大。这种观察具有直观的意义:扰动输入的流形的维数有效地表示对手的能力,因此扰动中的更大数量的自由度将导致更有效的攻击。在像素空间攻击中,对手可以自由地搜索以输入示例为中心的高维BLP-球,这可能是BLP-范数攻击如此难以防御的原因[1]。在本节中,我们提供了实验和理论分析,精确地揭示了属性参数的维度的影响虽然我们的分析是风格化的,并且不直接适用于深度神经分类器,但它构成了对语义约束对手可能希望实现的上限的系统性首次尝试。6.1. 合成实验我们提出并分析了下面的合成设置,它使显式控制的SEMANTIC扰动的尺寸数 据 : 我 们 从 具 有 10 个 分 量 的 高 斯 混 合 物(MoG)构建n=500个样本的数据集(表示为10的情况。80的情况。60的情况。40的情况。200 10 20 30 40 50参数空间(k)的逼近性图4. 参数攻击空间维数的影响。考虑到子空间和秩约束变换到生成的对抗性示例,请注意,目标模型精度随着攻击空间的维数增加而降低。在所有k值上,加法攻击(PGD的替代)比乘法攻击(类似于我们的方法)定义在(x,y)上Rd1.每个数据样本是通过对混合分量均值之一进行均匀采样,然后加入标准差为σ的随机高斯噪声而获得的D.分量均值被选择为从MNIST数据集[32]中随机选择的10个图像(每个数 字1 个 ) ,重 新 缩 放 为10 10 ( 即 ,周 围 尺 寸 为d=100)。目标型号:我们人为地定义了两个类:第一类包含从数字0-4生成的图像,第二类包含来自样本5-9的图像。我们训练一个简单的两层全连接网络,f(x):Rd1作为目标模型。该分类器通过使用ADAM[26]优化交叉熵进行50个epoch的训练,训练准确率为100%,验证准确率为99.8%,测试准确率为99.6%。参数变换:我们考虑一个程式化的变换函数G(x,δ):RdRkRd. 我们研究了两个特定的参数转换模型的不同k子空间攻击:我们首先考虑一个加性(线性)粘性模型.这里,语义扰动流形被约束为一个k维子空间,该子空间由任意矩阵U∈Rd×k所张成,其列被假定为正交正规的,且δ∈RkG(x,δ):=x∈=x+UUTδ( 2)神经攻击:接下来,我们考虑一个乘法攻击模型。这里的扰动流形对应于输入的秩k变换G(x,δ):=x≠U. diag(δ). (3)第一章这里,U和δ遵循前面给出的定义。该变换可以被解释为具有k个隐藏神经元的浅(两层)自动编码器网络的动作,其中标量激活由δ参数化。目标模型攻击(= 1. 74)准确度(%)单一属性语义攻击14.01多属性语义攻击1.00FGSM [16]91.6PGD [39,29]26.2CW-1∞[5]0.00空间[12]41.004780∞,1∞≪⋆√S{|||联系我们||≤ }不√√定理1(对于子系统的鲁棒分类误差)空间 攻击)。让w 被 苏志华 的w图5. 语义转换的单属性的例子,这些例子被目标模型正确分类,但表现出严重的K||U||∞,1||关于我们||是的。然后,线性分类器fw具有S-鲁棒分类误差上界为:文物这表明,与像素域不同,神经网络对语义域中的显著变化免疫。非线性ReLU变体:我们还考虑了上述两种攻击中的每一种,其中反式β≤exp.. w||U||||wˆTU||ǫΣ2Σ-2σ2(四)形成通过一个整流线性单元:ReLU(G(x,δ))。结果:我们通过考虑攻击空间的维数(k),对目标二元分类器的子空间和神经攻击。图4显示了线性和非线性情况下的约束攻击的比较。我们推断如下:(i)如所预期的,语义攻击空间的维度增加导致较不准确的目标模型;(ii)向变换函数添加非线性降低了子空间约束攻击和等级约束攻击的可行性;(iii)子空间约束攻击比神经攻击更强大。一般来说,转换模型中的“非线性”程度我们认为这种现象有些令人惊讶,并推迟到未来的工作中进一步分析。6.2. 理论在子空间攻击的情况下,我们显式地推导出目标模型泛化行为的上界。我们的推导遵循施密特等人最近的方法。[52],他们考虑了第6.1节中定义的数据模型的简化版本,并根据其鲁棒分类误差限制了线性分类器的性能。定义6.1(稳健分类错误)。 设Pd:Rd×{±1} →R是一个分布,S是任何包含x的集合。然后定义任意分类器f:Rd→ {±1}的S -鲁棒分类误差为β=P(x,y)<$Pd[<$x <$∈S:f(x<$)/=y].使用这个定义,我们分析了使用两个球形高斯的混合训练的简化线性分类器的子空间攻击的功效。考虑一个样本(x,y)∈ Rd×{±1}的数据集,该数据集是从两个高斯分布的混合样本中采样的,其分量均值为±θ,标准差为σ≤D. 我们假设线性分类器fw ,由单位向量w定义为fw(x)=sign(w,x)。让 =x~x=x+UUδ,Xx∞。假设目标分类器是良好训练的(即, w与真实分量均值θn足够好地相关),我们可以上界分类器在受到任何子空间攻击时引起的错误概率。证明推迟到附录,但我们提供了一些直觉。[52]的Lemma 20恢复了类似的结果,并且将指数中的k项替换为d。这是因为它们只考虑像素空间中的有界扰动,因此它们在鲁棒分类误差上的界根据环境维度d呈指数级变化,而我们的界则用语义属性的数量k表示D.下一步自然是推导类似于[52]的样本复杂度界限,但我们在这里不追求这个方向。7. 讨论和结论最后,我们提出了我们的方法可能面临的障碍我们已经提供了证据,证明存在深度神经分类器的对抗性示例,这些示例可能是可感知的,但在语义上是有意义的,因此难以检测。一个关键的障碍是与语义属性相关联的参数通常难以解耦。这带来了实际的挑战,因为很难训练具有独立潜在语义维度的条件生成模型。然而,最近在这个方向上的努力,包括FaderNet-works [30],AttGans [20]和StarGAN [8]的成功证明了我们方法的前景:任何新开发的条件生成模型都可以用于使用我们的框架进行语义攻击。尽管存在语义对抗的例子,我们已经发现,强制执行语义有效性混淆对手的任务,目标模型通常能够分类下我们的语义约束下生成的例子的重要子集。图5是生成的具有严重伪影但被成功分类的图像的示例。这就提出了一个问题:“自然”是强有力的辩护吗?这种直觉是最近一种名为DefenseGAN的防御战略的前提[51]。事实上,我们的方法可以被视为这一战略的反面:DefenseGAN使用生成模型(具体来说,GAN)的范围空间来防御像素空间攻击,而相反,我们使用相同的原理来攻击训练的目标模型。进一步研究这两种方法之间的相互作用是未来研究的方向。4781引用[1] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感在ICML,2018。一、二、七[2] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。在ICML,2018。3[3] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,2004年。[4] TomBBro wn , DandelionMane´ , Aurk oRoy , Mart´ınAbadi , and Justin Gilmer. 对 抗 补 丁 。 arXiv 预 印 本arXiv:1712.09665,2017。[5] Nicholas Carlini和David A.瓦格纳。评估神经网络的鲁棒 性 。 2017 IEEE Symposium on Security and Privacy(SP). 一二四六七[6] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大 化 生 成 对 抗 网 络 进 行 可 解 释 的 表 示 学 习 。InNeurIPS,2016. 3[7] Xinyun Chen,Chang Liu,Bo Li,Kimberly Lu,andDawn Song.使用数据中毒对深度学习系统进行有针对性的后门攻击arxiv预印本,abs/1712.05526,2017年。[8] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。8[9] 放 大 图 片 作 者 : Ali Dabouei , Sobhan Soleymani ,Jeremy M. Dawson和Nasser M. Nasrabadi快速几何扰动的敌对面孔。WACV,2019。[10] Sumanth Dathathri,Stephan Zheng,Sicun Gao,and RMMurray.通过最小对抗示例测量神经网络的鲁棒性。在NeurIPS-W,第35卷,2017年。1[11] Roberto Rey de Castro和Herschel A Rabitz。针对图像和视 频 中 的 非 线 性 对 抗 扰 动 。 arxiv 预 印 本 ,abs/1809.00958,2018年。[12] Logan Engstrom,Dimitris Tsipras,Ludwig Schmidt和Aleksander Madry。旋转和平移就足够了:用简单的转换愚弄cnns。arxiv预印本,abs/1712.02779,2017年。四、五、六、七[13] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Xiaodong Song。对深度学习视觉分类的强大物理世界攻击。CVPR,2018年。[14] Alhussein Fawzi、Hamza Fawzi和Omar Fawzi。任何分类器的不利漏洞。NeurIPS,2018。[15] Alhussein Fawzi、Omar Fawzi和Pascal Frossard。分类器对对抗扰动的鲁棒性分析机器学习,107,2018。[16] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。2015年,国际会议。一、二、六、七[17] 伊恩·J·古德费洛。黑魔法防御术:对抗性示例安全研究综述与展望研究方向arxiv预印本,abs/1806.04169,2018年。1、7[18] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville和Yoshua Bengio。生成性对抗网。NeurIPS,2014。3[19] 作 者 : Yu Yu , Brendan Dolan-Gavitt , and SiddharthGarg.坏网:识别机器学习模型供应链中的漏洞。arxiv预印本,abs/1708.06733,2017年。[20] Zhenliang He,Wangmeng Zuo,Meina Kan,ShiguangShan,and Xilin Chen.Attgan:通过只更改您想要的内容来编辑面部属性。arxiv预印本,2017年。 二三四五六八[21] 杰弗里·辛顿,尼蒂什·斯里瓦斯塔瓦,凯文·斯沃斯基.第6a课,小批量梯度下降的概述。[22] Andrew Ilyas,Logan Engstrom,Anish Athalye和JessyLin。使用有限的查询和信息进行黑盒对抗攻击。在PMLR,第80卷,2018年。1[23] Andrew Ilyas,Logan Engstrom,and Aleksander Madry.前科:黑盒对抗攻击与禁令- dits和先验。arxiv预印本,abs/1807.07978,2018年。1[24] 金子拓弘平松熏和香野国雄具有条件过滤生成对抗网络的生成属性控制器。CVPR,2017年。[25] Taeksoo Kim,Bengjip Kim,Moonsu Cha,and JiwonKim.无监督的视觉属性传输与重构生成对抗网络。arxiv预印本,abs/1707.09798,2017年。[26] 迪 德 里 克 · 金 马 和 吉 米 · 巴 。 Adam : A Method forStochastic Optimization(2014). 2015年,国际会议。五、七[27] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。arxiv预印本,abs/1312.6114,2014年。[28] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。在JMLR,第70卷,2017年。[29] 作者:Alexey Kurakin,Ian J.古德费洛和萨米·本吉奥物理 世 界 中 的 对 抗 性 例 子 。 arxiv 预 印 本 ,abs/1607.02533,2017年。二六七[30] Guillaume Lample,Neil Zeghidour,Nicolas Usunier,Antoine Bordes,Ludovic Denoyer,et al.衰减器网络:通过滑动属性对图像进行管理。NeurIPS,2017。二三四六八[31] Anders Boesen Lindbo Larsen ,Søren Kaae Sønderby,and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。InICML,2016.[32] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库,2010年。二、七[33] Mu Li,Wangmen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功