没有合适的资源?快使用搜索试试~ 我知道了~
7066特征空间扰动产生更多可转移的对抗性示例Nathan Inkahithd,Wei Wen,Hai(Helen)Li and YiranChen杜克大学电气和计算机工程系,达勒姆,NC 27708{nathan. inkahwhich,wei.wen,hai.li,yiran.chen}@ duke.edu摘要最近的许多研究表明,深度学习模型容易受到准不可感知的输入干扰的影响,但实践者无法完全解释这种行为。这项工作描述了一种基于传输的黑盒定向的深度特征空间表示的对抗性攻击,它还提供了对深度CNN的跨模型类表示的见解。该攻击被明确地设计用于可转移性,并且驱动层L处的源图像的特征空间表示朝向在L处的目标图像。该攻击产生高度可转移的有针对性的示例,在有针对性的攻击指标中,这些示例比竞争获胜方法的性能高出30%以上。我们还证明了选择L来生成示例是很重要的,可转移性特征是黑盒模型不可知的,并指出经过良好训练的深度模型具有相似的高度抽象表示。1. 介绍许多研究人员已经展示了如何故意用对抗性攻击来欺骗训练有素的深度学习算法[23,5,2,20,8]。大多数工作的重点是对模型产生最大的破坏性影响,同时对数据引入最小的扰动。在基于图像的数据的情况下,攻击者通过对图像的不可感知的扰动来破坏网络的分类能力[23,5,1,16,15]。这些攻击更令人担忧,因为我们作为一个社区,对这些基本上无法解释的深层模型内部发生的事情没有确切的了解然而,攻击也可能提供一种研究此类模型内部工作的方法。对于在CNN上操作的对手来说,更困难的威胁模型之一是针对黑匣子的攻击。在这种情况下,对手只能访问输入和输出,而没有底层权重或架构的工作知识更有甚者,对手可能会选择oracle网络错误分类的目标类别在这项工作中,我们设计了一个黑盒有针对性的对抗性攻击的深度图1:激活攻击的图示。假设白盒模型(fw)和黑盒模型(fb)最初是正确的,攻击将狗图像的层L激活驱动到平面的层L激活。在攻击之后,狗CNN模型。我们使用对抗可转移性的属性设计攻击,其中对一个模型具有对抗性的示例通常会对其他模型具有对抗性[11,18,13]。这种攻击的独特之处在于,它明确地扰乱了深度模型的特征空间,目的是创建更多可转移的对抗性示例。 直觉来自于观察到良好训练模型的中间特征是可转移的[26]。因此,中间特征的扰动也可以是可转移的。为了验证这一假设,我们设计了激活攻击(AA),如图所示。1.通过扰动源图像,该算法驱动源图像上的白盒模型的层L激活,朝向目标图像的该模型的层L净效应是特征空间中的扰动。我们通过馈送扰动图像来测试扰动特征7067真真黑盒模型。然后,这些扰动对黑盒模型中已经学习了这些相同特征的那一层产生了不可直接观察的影响。这项工作对对抗攻击和模型可解释性研究做出了一些贡献。首先,我们证明了构造具有特征空间扰动的对抗性示例会产生可转移的对抗性示例。此外,特征被扰动的层对对抗性示例的可转移性有很大的影响。接下来,我们使用规范的CNN架构来显示攻击对强大算法的有效性,而不是简单任务的自定义模型(即,MNIST分类器)。对于模型的可解释性,我们表明,黑盒模型架构不影响逐层可移植性的特点我们还提供了证据,为什么一个特定的层产生更多的可转移的例子比另一个。最后,这项工作证明了具有根本不同架构的深度学习模型的中间特征表示是相似的。此外,这些良好训练的模型具有相似的决策边界,在特征空间中具有相似的2. 相关工作相关工作的一个领域是对抗性攻击研究。许多攻击的目的是在输入图像中引入不可感知的扰动,这些扰动对分类器的性能有破坏性的影响,但对人类识别没有影响。Szegedy等人[23]和Goodfellowet al.[5]是最早表明在一个模型上生成的对抗性示例也可以转移到其他模型的人之一。然而,可移植性并不是设计的,而是训练良好的模型的方法和性质的结果。Papernot等。[18]开发了一种方法来训练一个替代模型使用水库采样,使替代模型产生更多的可转移的例子。这项工作显示了一系列机器学习算法的结果,如SVM,决策树,DNN,并且不太关注现代CNN的含义。最近,Tra me'retal. [25]E更详细地探索了可转移的对抗性示例,并研究了为什么通过小型自定义MNIST模型和非目标攻击发生可转移性。具体来说,他们发现模型决策同样相关的,Sabouret al. [21]是第一批在特征空间中解释描述白盒攻击的人。他们使用了一种昂贵的L-BFGS扰动方法,并表明不同类别的例子可以在特征空间中彼此非常接近,但仍然保持其原始图像结构。然而,作者简要地提到,扰动的例子不能很好地转移到黑盒模型作为有针对性的攻击,攻击是相当昂贵的。在2017年,有一场对抗性攻击和防御的竞赛[11],其中攻击者的目标是通过非目标攻击和目标攻击来击败黑盒模型。大多数表现最好的攻击[4,11,13,14]从白盒模型的集合中生成和传输对抗性示例,如[13,24]中所介绍的。 获奖者还使用了动量梯度去噪技术[4],该技术已纳入本研究。大多数攻击都是现有攻击的直接扩展这里我们不使用系综,而是将重点放在一种新的扰动技术上,这种技术将来可能会扩展到系综。工作相关工作的另一个领域是模型可解释性,特别是在深度模型的共享特征表示方面。Yosinski等人[26]表明,用来自相似分布的数据训练的模型的深度特征表示是可转移的。他们还测量了从广义特征到高度类特异性(即,专用)特征作为层深度的函数。这现在是迁移学习的一项开创性工作虽然[26]不是对抗性攻击,它确实提供了关于为什么特征空间攻击可能转移的直觉。3. 可转让性在这项工作中,我们将通过四个标准来定义成功:错误率(error)、非目标传输率(uTR)、目标成功率(tSuc)、目标传输率(tTR)。重要的是,我们假设所有的例子都被白盒和黑盒模型正确地分类,并且攻击强度=0意味着没有攻击。我们将白盒模型表示为函数f w黑盒模型为f b,两者都输出分类预测。我们定义原始数据集边界在任意方向和相反方向上都是相似的。典型的例子跨越输入的低维子空间。多里格={(x(1),y(1))、。. .,(x(N),y(N))}作为一组他们还讨论了扰动的特征地图,在direc-N个数据/标签对,其中f b(x(i))=fw(x(i))=类平均值,但CNN的结果很差,(一)真. 对于每一次攻击,我们创建一个对抗数据集,结论性的 最后,作者提供的证据表明,Dadv={(x(1),y(1),y(1) )、。. . ,(x(N),y(N)),y(N))}adv目标真adv目标真在某些情况下,对于同一任务,训练有素的模型,对简单的攻击表现出脆弱性,很可能会转移对抗性的例子。我们的工作的不同之处在于,攻击是有针对性的,我们针对非平凡问题对典型CNN进行了大量的逐层可转移性实验,并进一步分析了为什么例子会转移。其中,Dorig中的每个数据都被目标攻击fw的方法,使其成为一个对抗性的例子。攻击的错误率(error)或欺骗率是由fw生成的对抗性示例被f b错误分类的百分比。换句话说,误差是Dadv中fb(xadv)/=y为真的例子的百分比。y7068AA不S Lt LS2磅/秒错误越大,表示攻击越有效。非目标传输速率(uTR)是欺骗白盒模型的特定示例也欺骗黑盒模型的速率。注意,在这种情况下,欺骗意味着预测不等于真实的标签。意思是-确定uTR,我们定义DuTRDadv,它只包含Dadv中被fw错误分类的元素。因此,在本发明中,攻击算法和扰动方法,根据损失调整数据。4.1. 损失函数AA损失函数被定义为在某一层L处矢量化的源图像激活和矢量化的目标图像激活之间的欧几里德距离。设fL是fw(白盒模型)的截断版本,1uTR=Σ[(fb(xadv))ytrue)],(1)将图像作为输入并输出层的激活L. 所以AL=fL(Is)是源图像(Is)激活|DuTR|Ls(xadv,ytrue)∈DuTR其中,如果条件为真,则指示器函数为1,否则为0。该度量直观地编码了攻击者白盒模型的成功非目标对抗性示例也将对抗黑盒模型的可能性由于所考虑的攻击都是有针对性的,因此我们测量目标成功率(tSuc)。tSuc是由fw生成的对抗性示例被fb分类为目标标签的速率。换句话说,tSuc是Dadv中的例子,其中fb(xadv)=ytarget。tSuc越大,攻击在为黑盒模型生成目标示例时越有效。最后一个指标是目标传输率(tTR),它衡量的是在白盒模型上测量的成功的目标对抗示例在黑盒模型上也是成功的目标示例的比率。为此,我们定义DtTRDadv(也是DuTR的子集),它包含Dadv中被fw错误分类的所有元素作为指定的目标标签。从形式上讲,和A t = f L(I t)是L处的目标图像(I t)激活。两个图像之间的损失函数JAA则为J(I,I)=<$f(I)−f(I)<$=<$A L−AL<$。(三)AA损失函数背后的直觉是使源图像在特征空间中更接近目标类的图像。这种损失的影响/假设有三方面。首先,深特征空间表示的调整对分类结果具有相当大的影响。由于我们没有明确优化分类损失,我们依赖于特征空间扰动的副产品,即显著的分类中断。由于特征空间表示是如此之大且不可解释,因此情况并非立即显而易见。此外,由于尺寸(即,参数数目),我们必须假设受约束的图像域扰动将能够将原始样本移动到足够接近目标样本(在特征空间中),以便在目标类的区域内。使用该损失函数的第二个主要假设是:由于深层模型的中间层特征TTR=|D1TTR|Σ(xadv,ytarget)∈DtTR[(f b(x adv))= ytarget)]。(二)已经证明是可转移的[26],特征空间中的显式攻击将产生可转移的对抗性示例。因为现代的深层模型是不可理解的,没有办法精确地测量捕获了什么特征,tTR对在白盒模型上观察到的成功目标示例将是黑盒模型的成功目标示例的可能性进行编码。当前的针对性攻击文献通常测量错误和tSuc。我们introduce的uTR和tTR作为新的指标的攻击是有用的,如果攻击者想要最大限度地提高他的成功机会,在有限的尝试次数还要注意的是,即使攻击是有针对性的,我们也会测量非目标统计数据,因为它们仍然与攻击的威力相关。4. 激活攻击方法激活攻击(AA)是一种针对可转移性的黑盒攻击我们可以将激活攻击方法分为两个部分,这两个部分模仿了许多深度学习攻击实践。首先,我们指定一个要优化的损失函数。然后,我们建立在模型的每一层中学习因此,没有办法明确知道两个模型是否学习了相似的特征集,特别是在深度和高度抽象的层中。这种攻击主要假设不同深度模型的深层已经学习了类似的特征,因此在一个模型中扰动这些高度抽象的特征将扰动另一个模型中的相同特征。这是一个合理的假设,因为在可转移性攻击中,我们训练白盒模型的数据来自与黑盒模型的训练数据相同的分布。因此,我们期望模型已经学习了类似的分层特征集,以便正确地对数据类进行由于每个模型架构在复杂性、层数和整体架构方面都有所不同,因此要找到功能最可转移的层只能通过实验来确定。第三个主要假设是关于学习的决策边界和特征空间中的类方向7069具体来说,我们假设用来自相同分布的数据训练的两个不同模型学习相似的决策边界和类方向。这对于定向攻击尤其重要,因为为了使转移的定向示例成功,该目标类在特征空间中的区域必须具有相同的方向w.r.t.源图像。换句话说,如果我们从白盒模型中的源示例的特征空间表示开始4.2. 攻击算法扰动机制类似于L∞带动量的约束迭代梯度符号攻击[4].我们的攻击算法使用动量项的符号迭代地扰动源图像,其中动量被计算为梯度的加权累积。这里的区别在于,梯度不是针对分类损失计算的。相反,它们是根据(3)计算的。此外,梯度从层L开始向后流动。因此,动量计算为非平凡的,但最先进的模型可以实现小于10%的测试误差[12]。对于初步实验,我们选择并训练了三种具有不同设计复杂度的规范CNN模型架构,这些架构能够在CIFAR-10上实现我们使用ResNet-50 [6],它实现了6。62% top-1测试误差,DenseNet-121 [7]达到4. 72%的误差,和VGG19bn [22],测试在6。48%的误差。所有模型都是使用[12]中的代码在PyTorch [19]中训练的。为了完整性,我们还将一些实验扩展到ImageNet[3]训练模型。我们使用PyTorchs Torchvision Models的预训练DenseNet-121和ResNet-50。这些模型对于源任务会产生更高的误差,其中DenseNet-121有25。35%的前1错误,ResNet-50有23个。85%的误差。对于CIFAR-10测试,我们在完整的10 k测试集上测量四个主要首先,我们使用DenseNet-121作为白盒模型,并分别评估VGG 19 bn和ResNet-50黑盒模型的可移植性。接下来,我们使用VGG 19 bn作为白盒模型,并分别评估向DenseNet-121和ResNet-50黑盒模型的可移植性。这使我们能够同时看到白盒模型和黑盒模型的趋势。对于ILSVRC 2012测试,我们在15k随机抽样的mk+1 =mk +IkJAA(It,Ik)||1||1、(四)完整的50k测试集的子集在这里,我们测试了DenseNet-121白盒模型和ResNet-50黑盒模型。其中,m0=0,Ik是在iterationk处的扰动源图像。注意,I0=Is。这种有针对性的L∞约束激活攻击的扰动方法I k+1=Clip(I k−αsign(m k+1),0,1).(5)注意,扰动图像总是被裁剪到范围[0,1],以保持原始图像的分布。(5)的内在含义是,我们在略微调整图像中的每个像素的方向,将最小化我们的JAA损失。动量项用于直观地对梯度方向进行降噪或平滑,并且在[4]中被描述为梯度方向上的速度矢量的累积此外,请记住,我们正在扰乱图像,其明确意图是改变某个层L处的特征空间表示。因此,对分类的任何影响都是隐含的,因为我们没有专门考虑分类损失。该算法还需要设置一些超参数。由于这是一个迭代算法,我们必须选择要扰动的迭代次数K、总扰动量和每次迭代扰动量α。在所有测试中,我们设置K=10,改变α,并设置α=α/K。5. 实验装置正如[25]中所观察到的,示例倾向于在源任务实现低误差的模型之间进行转移。因此,我们选择CIFAR-10 [9]作为我们的主要测试数据集,因为它关于设置的说明是关于选择AA中的目标图像。对于每个数据集,我们保留了来自每个类的示例列表,这些示例都是从测试分割中随机采样的。在CIFAR- 10中,我们保留了每个类的100个示例,而在ImageNet中,每个类保留了20个示例。对于给定的源图像,我们随机选择一个目标类,然后从库中选择目标图像作为具有距源图像激活最远的层L激活(如通过欧几里德距离测量的)的图像。此外,注意,以下实验中的层深度是相对的,即,层2指的是比层10更靠近输入的层。此外,在所有测试中,测试的最深层是产生输出类logits的最终FC层补充材料中有一个解码每个模型图层的表格。6. 实验结果为了了解AA策略是否可行,我们将首先进行测试并收集实证结果,然后分析我们的发现。有两个主要的参数测试轴:宽度和深度。Epidemic测试分别处理来自每一层的攻击,并测量攻击对可转移性的影响。沿深度轴的测试包括固定攻击强度和测量攻击性能,作为我们生成AA示例的层的函数。在这些测试中,我们使用三条基线. 迭代目标类方法(ITCM)[10]是7070图2:CIFAR-10攻击从不同白盒模型转移到ResNet-50黑盒模型的可转移性与可转移性结果。DN和VGG代表DenseNet121和VGG19bn白盒模型。基本迭代方法的目标变体,并且表示简单方法。从[14]随机开始的目标投影梯度下降(TPGD)攻击代表了一种更复杂的方法,通常在其他基线之间执行。目标动量迭代快速梯度符号法(TMIFGSM)[4]在2017年NIPS攻击和防御竞赛中赢得了目标和非目标攻击的冠军[11]每种攻击在白盒模型上的性能如下图所示.6.1. Epperiment结果这些测试是两个实验的结果,一个共同的目标,欺 骗 ResNet-50 分 类 器 。 首 先 , 我 们 在 将 示 例 从DenseNet-121转移到ResNet-50(DN 121→RN50),然后运行VGG19bn→ RN50测试。 对于这两个人来说,扫描为[0. 0,0。010 03,0。05,0。07],其中n=0表示没有攻击。结果示于图2.所表示的AA攻击来自最好的层。我们看到的第一个趋势是,对于所有指标的所有攻击,随着攻击强度的增加,攻击强度也会增加。我们还 看 到 DenseNet-121 AA ( DN-AA ) 是 最强 大 的 攻击,而ITCM攻击是最无效的,TMIFGSM介于两者之间。在λ=0处。07,DN- AA在91. 42%的误差,提高了7。比最佳基线高出4%。它在uTR、tSuc和tTR方面比DN-TMIFGSM基线高7。2%,32. 6%,32。5%,分别。此外,DN-AA和 VGG-AA在tSuc和tTR方面都高于所有基线,表明基于激活的攻击都是比基线更好的黑盒攻击DN-AA优于VGG-AA的事实表明白盒模型架构确实影响AA性能。然而,更复杂的DN 121模型更容易转移到RN 50黑盒模型并不令人惊讶,因为与相对较浅的VGG相比,这两个模型都6.2. 深度结果对于我们的假设来说,最重要的结果是深度结果。在这里,我们固定=0。07,因为这是最强大的攻击能够在黑盒模型上实现随机精度的地方,尽管我们的结论适用于所有测试的ε。然后,我们在模型的不同深度测试AA,在每个深度运行完整的测试步骤图图3显示了深度扫描测试的结果,表1显示了最强大的层AA攻击与基线的数值结果在表1中,DN和VGG是CIFAR-10训练的白盒模型,DNIN是ImageNet训练的。图的前两行。3个是来自DN 121白盒模型的传输,底部两个是来自VGG 19bn白盒模型。我们看到,逐层可转移性特征不依赖于黑盒模型。也就是说,趋势线的形状不会随着黑盒模型的变化而变化。这对攻击的可行性至关重要,因为这意味着攻击者可以使用自己的黑盒模型来找到最佳传输层,然后使用这些知识来攻击真正的目标黑盒模型。这限制了对目标模型的查询量。此外,两个DN121白盒测试都显示了强大的传输功能,表1:数值转换结果(RN50黑盒)基地攻击误差UTRtSucTTRDNITCM58.6258.8839.9740.39TPGD61.3361.5235.8436.15TMIFGSM84.1284.3242.5342.90AAL=2191.4991.4875.1375.38VGGITCM53.7254.9437.4041.88TPGD58.8559.5536.6039.15TMIFGSM76.1976.7537.7241.14AAL=680.8180.9755.6455.98DN的ITCM21.1421.180.991.01TPGD25.2325.290.940.97TMIFGSM47.7547.762.252.25AAL=780.5881.772.578.637071图3:多种传输场景下的错误率、uTR、tSuc和tTR率与深度的关系。上面两行是来自DN 121白盒模型的传输,下面两行是来自VGG 19bn白盒模型的传输。数据集:CIFAR-10。VGG19bn试验表明,在较深的地层中具有较强的迁移能力,在中间层中具有较强的迁移能力。我们还看到,从某些层的AA如果我们选择单个最佳层进行攻击,我们可以将数值性能与最佳基线进行比较,在所有情况下都是TMIFGSM(见表1)。对于DN 121模型,最佳AA是从L=21开始,而对于VGG 19bn,最佳AA是从L=6开始。当转换到RN50时,DN121L=21攻击的性能比最佳基线高出7。4%的错误,7。2%,32. tSuc的6%,和32。tTR为5%。类似地,当从VGG 19bn转移到RN 50时,V GG19L=6攻击的性能比最佳基线高出4。6%,4.2%,17. 百分之九,十四。8%的误差,uTR,tSuc和tTR分别。注意,对于DN121白盒,错误率和非目标传输率都约为91。5%,目标成功率和转移率均在75%左右。百分之二。如此高的数字表明,这些深度和复杂的模型已经学习了类似的特征集和类似的决策边界结构。此外,一个模型的对抗方向在其他模型中也是对抗的。有针对性的转移度量进一步表明,决策界的方向特征空间中的变量和特征空间中从一个类移动到另一个类的方向在模型之间是相似的。最后,我们可以直接比较AA攻击的性能当转移到RN50时,DN121L=21超过V GG19L=6× 10。6%,10.5%,19. 5%,19. 4%,呃-ror、uTR、tSuc和tTR。 因此,我们再次发现,从白盒模型进行转移的选择是重要的。6.3. 分析下一个自然要问的问题是,为什么有些层比其他层好,特别是,为什么DN121L=21和V GG19L=6?考虑到图中的可转移性趋势。3.不随黑盒模型而变化,为了回答这个问题,我们只考虑白盒模型和扰动数据的特性。第一个实验是测量特征空间中类表示的可分性。直观地说,我们期望具有良好可移植性特征的AA将来自具有良好分离的类表示的层图4示出了同一类的示例(类内)和不同类的示例(类间)之间的平均角距离,7072图4:DN 121和VGG 19 bn CIFAR-10训练模型的同一类(类内)示例和图5:在图像域(红色)中测量的原始图像和AA扰动图像之间的L2从DN 121和VGG 19 bn CIFAR-10训练模型生成的示例。跨越层深。对于分离良好的层,我们期望类间距离高,类内距离低,而两者之间的差异很大。图4显示了类在后面的层中变得很好地分离DN121,以及更早的VGG19bn。因此,最好的传输层(DN121L=21和V GG19L=6)具有良好的分离类表示。然而,具有最大差异的层不一定是最可转移的。另一个实验是纯粹看数据,并测量每层原始样本和扰动样本之间的平均距离。我们在图像域和二维空间中测量欧氏距离。在这里,我们投影到干净数据的前两个主成分方向,以测量攻击沿最大方差方向的影响。本能地,我们可以预期具有更好的可转移性特征的层将产生远离原始数据的对抗性示例,因为它们可能更有可能跨越决策边界。图图5显示了在DN121和VGG19白盒模型上进行的这些实验的结果,这些白盒模型用于具有一定量的特征可分离性的层对于DN121,层16至21产生扰动的例子,从原始数据进一步在两个维度,但在图像域更接近即使L=21没有产生进一步的示例,二维测量的趋势也与图11中的DN 121可转移性趋势相似。其中层16-21具有最佳的可转移性特征。类似地,对于VGG19测试,L=6产生在两个维度上离原始数据最远的示例,而在图像域中,这些扰动的示例往往更接近原始数据。二维的VGG19趋势也模拟了图1。3趋势。从这个分析中,我们观察到了一些趋势,这些趋势表明了产生可转移的对抗性示例的层首先,这些层在特征空间中具有良好分离的类表示。其次,这些层产生的例子在图像域中更接近原始数据,但在前两个主成分方向上更远不幸的是,这些结果都不是绝对的结论。因此,我们把它留给未来的工作,以更彻底地探索分层转移能力的特点的原因然而,有了这些分析技术,我们现在可以对使用不同数据和模型时哪些层最可转移做出明智的预测有关SVHN [17]训练模型的分析优先实验,请参见补充材料。6.4. ImageNet结果我们现在将实验扩展到ImageNet训练的分类器。在这里,我们测量DN121的可转移性,→RN50攻击并做类似的结果分析。图6示出了对于固定的k = 0的可转移性结果。表1的07- tack和DN_IN行示出了数值结果。有趣的是,我们在这里看到了几种不同的趋势。首先,早期和中间层DN 121 AA更可转移,不像CIFAR-10测试。其次,定向转移7073图6:ImageNet训练的DN121 → RN50传输场景的错误率、uTR、tSuc和tTR率与深度的关系。所有攻击的统计数据tSuc和tTR都较低。考虑到锡德DN121L=7这可以说是最好的AA层.与最佳基线相比,DN121L=7AA具有32。8%,34. 0%,0. 3%、6. 误差、uTR、tSuc和tTR分别提高3%。CIFAR-10测试中tSuc和tTR的下降说明了这些不太准确的模型在决策边界上的差异。AA在愚弄率和错误分类的可能性(即uTR)方面比基线有很大的优势。这给出了从示例到附近决策边界的方向在某些层中类似的指示然而,在特征空间中类的总体布局和方向在模型之间是不相同的这突出了基于单一模型传输的有针对性攻击的根本弱点。如果模型没有针对源任务进行良好的训练,则特征空间中的决策边界一个有趣的未来工作将是从一个合奏产生AA的例子图7:分析ImageNet训练的DN121逐层特征相似性(顶部)以及从这个白盒模型(底部)中使用激活攻击生成的原始和对抗性示例之间的距离。它可能会找到一个平均移动方向。图7(顶部)示出了原始(干净)和扰动示例之间的层可分离性和距离的分析。从tSuc和tTR结果来看,DN121 ImageNet模型中没有一个层在特征空间中具有很好的分离类,这并不奇怪。因此,我们期望将源特征驱动到单个目标示例的特征并不一定意味着我们正在驱动到特征空间中该目标类的大区域一个潜在的未来的工作是驱动器的质心的目标类的例子,这可能会膨胀的目标性能和提高AA我们也看到了一个变化的趋势,在图。7(底部)当我们看具有一定程度的可分离性的层时。不是层16至21产生进一步二维的示例,而是较早的层(10至15)产生进一步的示例。这与图相似6个发现,其中较早的层比较晚的层转移得更好。这进一步证明了更多的可转移AA层产生沿着主分量方向远离原始的扰动示例,但更接近图像域中的原始。7. 结论这项工作描述了一种使用特征空间扰动的对抗性攻击,它还提供了对深度学习模型如何做出决策的见解。我们表明,对于训练良好的模型,特征空间扰动是高度transferable和层的扰动转移有很大的影响,攻击的有效性。此外,白盒模型的逐层可转移性特征是黑盒模型不可知的。通过分析,我们发现最好的攻击层具有良好的分离类表示,并产生沿着主成分方向扰动更多的示例。对于可解释性,我们指出不同架构的深度CNN通过显示一个模型的扰动特征也会扰动其他模型的特征来学习数据的类似分层表示。鸣谢我们感谢AFRL(FA 8750 -18-2-0057)的支持。7074引用[1] N. Carlini和D.A. 瓦格纳。神经网络的鲁棒性评价2017年IEEE安全与隐私研讨会(SP),第39-57页[2] N. Carlini和D. A.瓦格纳。音频对抗示例:针对语音转文本的攻击。2018 IEEE安全和隐私研讨会(SPW),第1-7页[3] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页[4] Y. Dong,F.廖氏T.庞氏H. Su,J. Zhu,X. Hu和J. Li.以势头增强对抗性攻击。2017年。[5] I.古德费洛,J。Shlens和C.赛格迪解释和利用对抗性的例子。CoRR,abs/1412.6572,2014年。[6] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR),第770- 778页[7] G. Huang,Z.柳湖,加-地van der Maaten和K. Q.温伯格。密集连接的卷积网络。2017年IEEE计算机视觉和模式识别会议,第2261-2269页[8] 科斯岛Fischer和D. X.歌生成模型的对抗示例2018 IEEE安全和隐私工作-商店(SPW),第36-42页[9] A.克里热夫斯基河Nair和G.辛顿加拿大高级研究所。[10] A.库拉金岛Goodfellow和S.本吉奥。大规模对抗性机器学习。CoRR,abs/1611.01236,2016。[11] A. 库拉金岛J. Goodfellow,S.本焦湾Dong,F.獠M. 梁、 T. 庞 J. Zhu, X. 胡 C. Xie,J. Wang,Z. Zhang,Z.Ren,中国茶条A.L. Yuille,S.Huang,Y.黄氏Y.Zhao,Y.赵、Z. Han,J. Long,Y.别尔迪别科夫阿基巴河德井,M. 安倍对抗性的攻击和防守比赛。CoRR,abs/1804.00097,2018。[12] K. 刘 某 pytorch-cifar 。 https://github.com/kuangliu/pytorch-cifar,2017.[13] Y. Liu,X.Chen C.,马缨丹属Liu和D.X. 歌深入研究可转 移 的 对 抗 性 示 例 和 黑 盒 攻 击 。 CoRR ,abs/1611.02770,2016。[14] A. 马德里 A. 马克洛夫 L. 施密特 D. 齐普拉斯 和A. 弗 拉多 面向 抵抗 对抗 性 攻击 的深 度学 习 模型 。CoRR,abs/1706.06083,2017。[15] S.- M. 穆萨维-德兹富利A. 法齐O. 法齐 和弗罗萨德。普遍对抗性扰动。2017年IEEE计算机视觉和模式识别会议(CVPR),第86-94页[16] S.- M.穆萨维-代兹福利A. Fawzi和P.弗罗萨德Deep-fool:欺骗深度神经网络的一种简单而准确的方法。2016年IEEE计算机视觉和模式识别会议,第2574-2582页[17] Y. Netzer,T.Wang,中国山核桃A.Coates,A.比萨科湾Wu,和A.Y. Ng.使用无监督特征学习读取自然图像中的数字。2011年。[18] N. Papernot,P.D. 麦克丹尼尔和我J. 古德费罗机器学习中的迁移能力:从现象到使用对抗样本的黑盒攻击。CoRR,abs/1605.07277,2016。[19] A. Paszke,S.格罗斯,S。钦塔拉湾Chanan、E.杨,Z.De Vito,Z. Lin,L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017年。[20] A.帕塔奈克Z.唐先生,S.刘先生,G.博曼南,以及G. 乔 德 里 鲁 棒 的 深 度 强 化 学 习 与 对 抗 攻 击 。 在AAMAS,2018年。[21] S. Sabour,Y.Cao,F.Faghri和D.J. 舰队深层表征的对抗性CoRR,abs/1511.05122,2015年。[22] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR,abs/1409.1556,2014。[23] C. 塞格迪,W。扎伦巴岛萨茨克弗布鲁纳D。二涵I. J. Goodfellow,和R。费格斯。神经网络的有趣特性CoRR,abs/1312.6199,2013年。[24] F. Tra mer,A. Kurakin,N. Papernot,D. Boneh和P. D.丹 尼 尔 。 对 抗 训 练 : 攻 击 和 防 御 。 CoRR ,abs/1705.07204,2017。[25] F. 特拉米埃,N。 帕佩尔诺岛 J. Goodfell ow,D. Boneh和P. D. 麦克丹尼尔可转移的对抗性例子空间。CoRR,abs/1704.03453,2017。[26] J. Yosinski,J. Clune,Y. Bengio和H.利普森深度神经网络中的特征有多可转移?在NIPS,2014。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功