没有合适的资源?快使用搜索试试~ 我知道了~
1基于信赖域的神经网络对抗攻击姚哲伟1阿米尔·戈拉米1 徐鹏2库尔特·库泽1迈克尔·W.加州大学伯克利分校2斯坦福大学1{zheweiy,amirgh,keutzer,and mahoneymw}@berkeley.edu,2pengxu@stanford.edu摘要深度神经网络很容易受到不利扰动的影响。当前最先进的对抗性攻击方法通常需要非常耗时的超参数调整,或者需要多次迭代来解决基于优化的对抗性攻击。 为了解决这个问题,我们提出了一种新的基于信任域的对抗性攻击,目标是有效地计算对抗性扰动。 我们提出了几种基于信赖域优化方法变体的攻击。我们在Cifar-10和ImageNet数据集上使 用 几 种 不 同 的 模型(包括 AlexNet,ResNet-50 ,VGG-16和DenseNet-121模型)测试了所提出的方法。 我们的方法实现了与Carlini-Wagner(CW)攻击相当的结果,但对于TitanXpGPU上的VGG-16模型,速度显著提高至37倍。 对于ImageNet上的ResNet-50的情况,我们可以将其分类准确率降低到小于0.1%,最多为1。5%的相对L∞(或L2)扰动,仅需1. 02秒,与二十七岁04秒后开始攻击我们开源了我们的方法可以在[1]中访问。1. 介绍深度神经网络(DNN)在分类、对象检测和自然语言处理等许多研究领域取得了令人然而,最近的研究表明,DNN对输入数据的对抗性扰动不具有鲁棒性[8,26]。这已经成为DNN部署的主要挑战,并且已经进行了大量研究来解决这个问题。 这些努力大致可分为三类:(一)研究寻找防御敌对性投入的战略(迄今为止基本上不成功);(ii)新的攻击方法,更强大,可以打破拟议的防御机制;以及(iii)使用攻击方法作为隐式对抗正则化的形式来训练神经网络[23,28,29]。我们的兴趣主要是图1:DeepFool,CW和我们对AlexNet的TR攻击的示例,具有L2范数。CW和TR扰动的幅度都比DeepFool小,目标性也更强(这里小2倍)。 TR攻击获得与CW类似的扰动,但快15倍。 在VGG-16网络的情况下,我们实现了更高的加速比37。5×(请参见图)四是时间安排)。重点是寻找更有效的攻击方法,可以在后两个方向上使用这样的广告-1135011351对抗性攻击方法可以大致分为两类:白盒攻击,其中模型架构是已知的;以及黑盒攻击,其中对手只能执行有限数量的查询并观察模型行为。在实践中,白盒攻击通常是不可行的,但最近的工作表明,一些对抗性攻击实际上可以从一个模型转移到另一个模型[15]。因此,目标DNN的精确知识实际上可能不是必需的。在这个方向上的另一个重要发现是存在一个对抗补丁,即,一小组像素,如果添加到图像中,可以欺骗网络。这对自动驾驶等应用提出了重要的安全问题,在这些应用中,向交通标志添加这种对抗性补丁可能会欺骗系统[3]。与此相关,找到更有效的攻击方法是评估防御策略的重要,这是我们的论文的主要重点。例如,[5]的开创性工作引入了一种新型的基于优化的攻击,通常称为CW(Carlini-Wagner)攻击,这表明防御蒸馏[18]可以通过其更强的攻击来打破。后一种方法对快速梯度符号攻击方法[8]显示出显著的鲁棒性,但在针对更强的CW攻击进行测试时则没有。有效攻击的三个指标是计算这种扰动的速度,需要添加到输入中以欺骗网络的扰动,以及攻击到其他网络的可转移性。理想情况下(从攻击者的角度来看),需要具有较小扰动幅度的更强攻击,以便它可能无法检测到(例如,一种更难被人类检测到的对抗性补丁)。在这项工作中,我们提出了一种新的基于信任域的攻击方法。在[6,25]中介绍的信赖域(TR)方法形成了一族用于求解非凸优化问题的数值优化方法[17]。基本TR优化方法通过首先在优化景观中的当前点周围定义通常被称为信赖域的区域来工作使用该受限区域的想法是由于模型近似误差。特别地,信赖域方法被设计为改进香草一阶和二阶方法,特别是在存在非凸性的我们首先考虑一阶TR方法,该方法使用梯度信息来攻击目标DNN模型,并自适应地调整信任域。一阶攻击的主要优点是其计算效率和易于实现。我们表明我们的一阶TR方法显著减少了过度估计问题(即,需要非常大的扰动来欺骗网络),导致高达 3。 扰动幅 度降低9倍,与DeepFool相同[16]。此外,我们还证明了TR比CW攻击快得多(高达37倍),同时实现了类似的攻击性能。然后,我们提出了一个自适应TR方法,我们自适应地选择TR半径的基础上的模型近似,进一步加快攻击过程。最后,我们提出了如何将我们的基本TR方法扩展到二阶TR方法的公式,这对于具有显著非线性决策边界的情况可能是有用具有Swish激活函数的CNN [20]。具体而言,我们的主要贡献如下:• 我们将对抗性攻击问题转化为TR方法的优化框架。这使得几种新的攻击方案,这些方 案易 于 实现 , 并且 比现 有 的攻 击 方法(最多3. 9×,与DeepFool相比)。与CW相比,我们的方法需要类似的扰动幅度,但它可以更快地计算扰动(高达37倍),因为它不需要大量的超参数调整。• 我们的TR为基础的攻击方法可以自适应地选择扰动的大小,在每一个迭代。这消除了对昂贵的超参数调整的需要,这是现有的基于优化的方法的主要问题。• 我们的方法可以很容易地扩展到二阶TR攻击,这可能是有用的非线性激活函数。由于迭代次数较少,我们的二阶攻击方法优于一阶攻击方法。局限性。我们认为,重要的是每一项工作都要说明其局限性(一般而言,但特别是在这一领域)。我们特别注意多次重复实验,并在不同的数据集上考虑了多个不同的DNN,以确保结果是通用的。我们的方法的一个重要限制是 , 我 们 的 二 阶 方 法 的 简 单 实 现 需 要 计 算Hessian matvec反向传播,这对于DNN来说非常昂贵。虽然二阶TR攻击实现了更好的结果,与一阶TR攻击相比,这种额外的计算成本可能限制其在某些应用中的使用。此外,我们的方法实现了类似的CW攻击的结果,但显着更快。但是,如果我们忽略攻击的强度11352图2:DeepFool和TR攻击VGG-16的示例,具有L∞范数。 第一个图案是原始图像。第二种模式是TR攻击后的图像最后两种模式是DeepFool和TR产生的扰动。 TR扰动小于DeepFool的(1。9×更小)。此外,TR扰动更集中在蝴蝶周围。那么DeepFool攻击比我们的方法(以及CW的方法)更快。虽然这样的比较可能不公平,因为我们的攻击更强。 然而,这对于需要最大速度的某些应用来说可能是重要的一点。2. 背景在本节中,我们回顾了对抗性攻击的相关工作。以 x ∈Rn 为 输 入 图 像 , y ∈Rc为 相 应 的 标 号 .SupposeM(x;θ)=y∈ R c是DNN的预测概率,θ是模型参数,y ∈ R c是概率的向量。 We表示DNN的损失函数为L(x,θ,y)。然后,对抗攻击旨在找到(小)扰动,x,这样:argmax(M(x + x;θ))=argmax(y)/=argmax(y)。没有封闭形式的解决方案,分析计算这样的扰动。然而,已经提出了几种不同的方法,通过求解辅助优化或解析近似来求解扰动。例如,快速梯度符号方法(FGSM)[8]是一种简单的对抗攻击方案,其通过直接最大化损失函数L(x,θ, y)来工作。它随后被扩展到迭代FGSM [13],它执行多个梯度上升步骤来计算对抗性扰动,并且在攻击网络时通常比FGSM更有效。另一个有趣的工作在这个方向是DeepFool,它使用了近似分析方法。DeepFool假设神经网络表现为仿射多类分类器,这允许人们找到封闭形式的解决方案。DeepFool是基于“投影”的pertur 床 输 入 , 以跨 越 决 策 边 界 ( 示意 图 中所示)。(3)因此,分类改变,这被证明优于FGSM。然而,神经网络 的 决 策 边 界 不 是 线 性 的 。 即 使 对 于 具 有softmax层的ReLU网络也是如此。即使在softmax层之前,景观也是分段线性的,但这不能用简单的仿射变换来近似。因此,如果我们使用本地信息,我们可以高估/低估欺骗网络所需的对抗扰动[5]的开创性工作引入了所谓的CW攻击,这是一种更复杂的直接求解Maxix扰动的方法。在这里,这个问题被转换为一个优化问题,在这里我们寻求最小化原始图像和扰动图像之间的距离,受扰动输入将被神经网络错误分类的约束。这项工作也清楚地表明,防御蒸馏,这在当时被认为是一个强大的方法来抵御对手,是不强大的攻击。CW攻击的一个主要缺点是它对超参数调整非常敏感。这在速度很重要的应用中是一个重要的问题,因为为给定的输入找到一个好的/最佳的对抗性在不牺牲攻击力量的情况下解决这个问题是我们工作的目标。在另一个方向上,对抗性训练已被用作对抗对抗性攻击的防御方法[23]。特别是,通过在训练过程中使用对抗性这种对抗训练被进一步扩展到集成对抗训练[27],目的是使模型对黑盒攻击更加鲁棒。还提出了其他方法来检测/防御对抗性攻击[14,18]。不过,最近被11353而arg maxZ( xj)=arg maxydoxtmp=argminarg minjǁ∆x ǁ≤ǫ j埃塞俄比亚x,gJJt我>+埃克塞特湾x1JJJ2t我xj+1=clip( xj+xmax( x));//更新ρ=(zj+1−zj+1)−(zj+1−zj+1)TiT iJm(mxj);//计算比率如果ρ > σ1,则j+1=min{η否则,如果ρ σ2,则j+1=min{其他j+1=算法一:信任域攻击输入:图像x0,标签y,初始半径0,阈值σ1和σ2,半径调整率η输出:对抗图像=0,j=0;//采用方案选择攻击指标i;//索引选择图3:分类问题的决策界限示意图。映射到散列区域的点使用相同的标签进行分类表明,使用更强的攻击方法,可以打破诸如蒸馏或混淆梯度的防御方案[2,4,5]。对抗性攻击的最后一个重要应用是训练神经网络以获得改进的泛化,即使在非对抗性环境中。 最近的多项工作表明,对抗性训练(特别是混合对抗性和干净数据的训练)可以用于从头开始训练神经网络,以实现更好的最终泛化性能[22,23,28,29]。特别是[29]的工作。因此,一种常见的方法是近似求解(1)[5,8,26]。要做到这一点,问题可以表述如下:经验表明,使用对抗训练将导致找到具有“平坦”曲线的区域。这一属性最近被认为是一个重要的Maxǁ∆x ǁp≤ǫJ(x+<$x,θ, y),(2)性能参数[11]。在这里,对抗扰动的计算速度非常重要,因为它出现在训练过程的内部循环中,并且训练需要执行许多时期。3. 信赖域对抗攻击让我们将softmax函数之前的DNN的输出表示为z= Z( x;θ)∈Rc。因此,我们将有:其中,λ约束扰动幅度,并且J可以是损失函数(L)或更一般的另一个内核[5]。在DeepFool(DF)攻击的情况对于这样的决策边界,可以通过仅评估当前点处的梯度来解析地计算扰动幅度然而,对于神经网络,这种近似可能是非常不准确的,也就是说,它可能导致沿着次优方向的扰动的高估/低估 在小尺寸方向.ΣM(x;θ)=softmax Z( x;θ)=y。将与决策边界正交,并且这不能通过简单的仿射变换来计算,将yt表示为x的真标签,zt= arg max z表示为M(x;θ)的预测输出。为了澄清,请注意,只有在神经网络进行正确分类时,zt才与yt对抗性攻击试图找到欺骗DNN的Adix,即:由于决策边界是非线性的(见图1)。3用于说明)。这对于非线性激活函数是显而易见的,但即使在ReLU的情况下,模型的行为也像分段线性函数(在softmax层之前,实际上是非线性的)。这种方法不能正确地找到正交方向,arg minǁ∆x ǁp arg maxZ( x+x;θ)/= yt,(1)即使我们忽略softmax层的非线性为了解决这个问题,我们使用TR方法-其中,n·np表示向量的Lp在计算上通常不可能精确地求解(1)ODS,这是众所周知的解决非凸优化问题[25]。找到广告的问题-决策边界11354t我∆x.mj(sj)1mj(sj)tit,i0.300.250.200.154.54.03.53.02.52.01.50 10 20 30 40 5060每映像攻击时间(s)1.00 10 20 30 40 50 60每映像攻击时间(s)图4:两个子图显示了各种神经网络计算对抗攻击的时间(x轴)和该攻击方法欺骗图像所需的扰动(y轴),对应于表3中的ImageNet结果。 在左侧,y轴是针对平均扰动绘制的;在右侧,是针对最差情况扰动绘制的。在较短时间内实现较小扰动的攻击是优选的。不同的颜色代表不同的模型,不同的标记说明不同的攻击方法。观察到我们的TR和TR自适应方法实现了与CW类似的扰动,但所需时间明显更短(高达37。5×)。使用TR的sarial扰动定义如下:max mj(xj)=xj,gj+1xj,Hj xj,在任何地方[29,定理1],我们实际上不需要Hessian。这意味着zt− zi的景观是分段线性的,即, 我们可以在(3)中省略H j。怎么-ǁ∆xj ǁp≤ǫjt,i2t我(三)对于非线性激活函数,我们需要保持Hessian项(因为当NN具有平滑其中,mj是jth迭代时的TR半径,mj是f(xj−1)的核函数的近似值激活函数,Hessian不为零)。 为这些问题是,如何找到一个对抗性的问题--(zj−1− zj−1),其中gj而H j表示相应的t,i约束变成二次约束二次编程(QCQP)问题。 它是二次对称的,Sponding梯度和Hessian,且xj=x+j−1ii=1由于扰动注意,下标表示最大z,即arg maxz. TR方法的主要思想是迭代地选择可信半径Rij以找到该区域内的对抗扰动,使得不正确类的概率变为最大。TR通过测量局部模型mj(s j)与实际函数值f(x j+1)− f(x j)的近似值来调整该半径。特别地 ,如 果函 数的 近似 是 准 确 的 ( 通过yρ=f(xj+1)-f(xj)>σ测量,典型值σ1= 0。第9段)。 在这种情况下,对于 下 一 次 迭 代 , 可 信 半 径 增 加 因 子 η>1(ηj+1=ηt)。然而,当mj(sj)的局部模型是f(xj+1)−f(xj)的差逼近时,由TR半径ηj限制,并且二次规划由非零Hessian项产生。我们使用Lanczos算法来解决QCQP问题。在这种方法中,解决方案是迭代地发现在Krylov子空间形成的海森算子。4. 方法性能为了测试TR攻击方法的有效性并将其性能与其他方法进行比较,我们使用不同的模型在Cifar-10 [12]和ImageNet [7]数据集上进行了多次实验特别是,我们比较了DeepFool [16],迭代FGSM [8,13]和Carlini-Wagner(CW)攻击[5]。即,ρ=f(xj+1)−f(xj)σ(典型σ2=0。5),如上所述,原始TR方法adap-我们减小下一次迭代的可信半径,否则,我们将为j + 1保留相同的j。通常,阈值也用于Rlj的下限和上限。 使用这种方法,TRatta ck可以迭代地找到对抗扰动来欺骗网络。参见Alg. 1为细节。请注意,对于所有的激活DNN是ReLU,Hessian几乎是零,主动选择扰动幅度。在这里,为了测试自适应方法的有效性,我们还实验了一种情况,即我们将TR半径设置为固定的小值,并将结果与原始自适应版本进行比较我们将固定半径版本称为“TR Non-Adap”,将自适应版本称为“TRAdap”。此外,我们用于攻击性能的度量是相对扰动,AlexNetVGG16ResNet50DenseNet121CWDPTR非自适应TR自适应AlexNetVGG16ResNet50DenseNet121CWDPTR非自适应TR自适应平均插管率(%)最差插管率(%)211355表1:报告了Cifar-10上不同模型的平均扰动/最差情况扰动,用于最佳类攻击。值越低越好。 第一组行表示L2攻击,第二组行表示L∞攻击.DeepFoolCWTR非自适应TR自适应模型精度ρ2ρ2ρ2ρ2AlexLike85.781.67% /11.5%1.47%/ 9.70%1.49%/ 9.13%1.49%/ 9.09%AlexLike-S 86.53 1.74%/ 11.0%1.57%/ 8.59%1.57%/ 9.48%1.57%/ 9.46%ResNet 92.10 0.80%/ 5.60%0.62%/ 3.12%0.66%/ 3.97%0.66%/ 3.96%WResNet 94.770.89% /5.79%0.66%/ 4.51%0.73%/ 4.43%0.72%/ 4.34%DeepFoolFGSMTR非自适应TR自适应模型精度ρ∞ρ∞ρ∞ρ∞AlexLike85.781.15% /6.85% 1.40%/ 16.44%1.05%/ 5.45%1.03%/ 5.45%AlexLike-S 86.53 1.18%/ 6.01%1.45%/ 14.88%1.09%/ 4.76%1.07%/ 4.73%ResNet 92.10 0.60%/ 3.98%0.85%/ 4.35%0.56%/ 3.18%0.50%/ 3.35%WResNet 94.770.66% /3.34%0.85%/ 3.30%0.56%/ 2.67%0.54%/ 2.69%定义如下:ρ=xp,(4)pxp4.1. 设置我们考虑了多个不同的神经网络,包括(宽)残差网络的变体[9,30],AlexNet,VGG16 [24]和来自[10]的DenseNet。我们还测试了其中,λ x是欺骗测试example.选择扰动使得模型的精度降低到小于0。百分之一。我们报告的平均扰动,以及最高的扰动所需的欺骗测试图像。为了澄清这一点 , 在 所 有 测 试 图 像 ( ImageNet 中 为 50 K ,Cifar-10中为10 K)之后计算最高扰动,然后找到欺骗正确分类的示例所需我们将这种情况称为最坏情况扰动。理想情况下,我们希望这种最坏情况下的扰动是有界的,并接近平均情况。表2:报告了Cifar-10上不同模型的平均扰动/最坏情况扰动,用于最硬类攻击。值越低越好。第一自定义更小/更浅的卷积网络,例如简单的CNN[29,C1](参考带有ReLU的AlexLike为了测试二阶攻击 方法, 我们使用AlexNet-S(通 过使用Swish函数激活函数替换所有ReLU[19])以及具有Swish激活函数的简单MLP(3072→1024→512→512→256→10)根据定义,如果能够改变输入图像的分类,则对抗性攻击被认为是成功的。在这里,我们执行两种类型的攻击。第一个是我们计算改变目标标签所需的最小扰动。我们称之为最佳攻击。这意味着我们用以下代码攻击类:zt−zj一组行表示L2攻击,第二组行表示L∞攻击攻击arg minjx(zt.— zj)直觉上,这对应于扰动输入以跨越最近的决策边界(图1)。(3)第三章。另一方面,我们也考虑扰动决策边界最远的类的输入:zt−zj最大参数jx (zt.— zj)模型ρ∞ρ∞ρ∞此外,我们报告了两个扰动度量,平均扰动,计算为:1ΣN ǁ∆xǁρp=N i=1我p,阿克斯岛DeepFoolTR非自适应TR自适应模型ρ2ρ2ρ2AlexLike 4.36%/18.9%2.47%/13.4%2.47%/13.4%AlexLike-S 4.70%/17.7%2.63%/14.4%2.62%/14.2%ResNet 1.71%/8.01%0.99%/4.76%0.99%/4.90%WResNet 1.80%/8.74%1.05%/6.23%1.08%/6.23%AlexLike 2.96%/12.6%1.92%/9.99%1.86%/10.0%AlexLike-S 3.12%/12.2%1.98%/8.19%1.92%/8.17%ResNet 1.34%/9.65%0.77%/4.70%0.85%/5.44%WResNet 1.35%/6.49%0.81%/3.77%0.89%/3.90%11356表3:ImageNet上不同模型的平均扰动/最坏情况扰动报告用于最佳类攻击。值越低越好。 第一组行表示L2攻击,第二组行表示L∞攻击.DeepFoolCWTR非自适应TR自适应模型精度ρ2ρ2ρ2ρ2AlexNet56.50.20% /4.1%0.31% /1.8% 百分之零点一七/2.5%0.18% /3.3%VGG1671.6百分之零点一四/4.4%百分之零点一六/1.1% 百分之零点一二/1.2%百分之零点一二/3.8%ResNet5076.1百分之零点一七/3.0%百分之零点一九/1.1% 百分之零点一三/1.5%百分之零点一四/2.3%DenseNet12174.40.15% /2.5%0.20% /1.5% 百分之零点一二/1.3%百分之零点一三/1.7%DeepFoolFGSMTR非自适应TR自适应模型精度ρ∞ρ∞ρ∞ρ∞AlexNet56.5百分之零点一四/4.3%百分之零点一六/4.7% 百分之零点一三/1.4%百分之零点一三/3.6%VGG1671.50.11% /4.0%0.18% /5.1%0.10% /1.4%0.10% /3.4%ResNet5076.1百分之零点一三/3.2%0.18% /3.7%0.11% /1.3%0.11% /2.7%DenseNet12174.40.11% /2.3%0.15% /4.1%0.10% /1.1%0.10% /1.8%以及最坏扰动,计算为:ρ = max {xip} N。p=1表4:ImageNet上不同模型的平均扰动/最坏情况扰动报告了最难类攻击(前100个预测类)。值越低越好。第一组行表示L2攻击,第二组行表示L∞攻击.为了比较,我们还考虑以下攻击方法:• 来自[8,13]的迭代FGSM,其中以下公式用于计算对抗扰动,之后扰动在范围(min(x),max(x))中被剪切:xj+1=xj+sign(xL(xj,θ, y)),• ”[16]《明史》:“。我们遵循与[16]相同的实现。对于最难的类测试,目标类被设置为与我们的TR方法相同。• CW攻击[5]。我们使用来自[21]1的开源代码。最后,我们通过平均所有测试示例的攻击时间来测量欺骗输入图像的时间。测量在具有IntelE5-2640 CPU的Titan Xp GPU上进行。4.2. CIFAR-10我们首先比较了各种神经网络模型对Cifar-10数据集的不同攻击,如表1所示。在这里,我们计算最佳类攻击的平均和最坏情况下的扰动。对于L2攻击,我们可以看到TR Non-Adap可以实现与CW相当的扰动,TR和CW都需要比DeepFool更小的扰动。一个重要优点1https://github.com/bethgelab/foolboxDeepFoolTR非自适应TR自适应模型ρ2ρ2ρ2AlexNet 0.74%/8.7%0.39%/5.0%0.39%/5.0%VGG16 0.45%/5.4%0.27%/3.6%0.27%/3.8%ResNet50 0.52%/5.8%0.31%/4.2%0.31%/4.2%DenseNet 0.48%/5.7%0.29%/3.8%0.29%/3.8%模型ρ∞ρ∞ρ∞AlexNet 0.53%/9.9%0.31%/7.5%0.33%/9.1%VGG16 0.36%/11.6%0.25%/5.1%0.26%/6.8%ResNet50 0.43%/6.6%0.28%/3.7%0.30%/4.6%DenseNet 0.38%/6.4%0.24%/4.5%0.27%/5.7%11357TR攻击的最大优点是它的速度,与CW攻击相比,如图所示。- 你好(请参阅附录)。在这里,我们绘制了欺骗一个输入图像所花费的时间与不同模型上所有L2可以清楚地看到,在类似的扰动下,得到对抗性例子的时间是:TRCW。<请注意,DeepFool也非常快,但需要比TR攻击和CW更大的扰动。还要注意,TR自适应方法实现了类似的结果,速度略慢,扰动略大。这是因为自适应方法没有以任何方式进行调优,而对于非自适应版本,我们手动调优了自适应方法。TR自适应不需要调整,因为它自动调整TR半径。轻微的性能下降是由于放宽了σ1和σ2参数,这可能11358表5:在Cifar-10上使用Swish激活函数的MLP和AlexNet的二阶和一阶比较。在没有对抗干扰的情况下,相应的基线准确率分别为62.4%和76.6%。 正如预期的那样,与固定迭代的一阶TR攻击相比,二阶TR攻击实现了更好的结果。然而,二阶攻击是显着更昂贵的,由于解决QCQP问题的开销。ITER12345678910MLPTR First47.6333.722.2413.768.134.592.411.310.630.27MLPTR秒47.8433.3721.4913.37.394.162.171.090.490.20AlexNetTR First51.5128.1712.455.532.611.330.820.660.510.46AlexNetTR秒50.9626.9710.734.111.790.910.670.540.470.44作为对速度的权衡,应该更加保守但是我们没有将这些参数调优到默认值以外,以便为未调优的版本提供实际的性能。另一个重要的测试是测量欺骗网络到最难的目标类所需的扰动。这是重要的,因为将行人翻转为骑自行车的人可能比将其翻转为汽车更容易。在表2中,我们报告了Cifar-10上最难的类攻击。请注意,我们的方法大约是1。在所有情况下都比DeepFool好5倍。特别地,对于WResNet上的L2攻击,我们的最坏情况是3. 9倍更好比DeepFool的扰动幅度更大4.3. ImageNet结果我们在ImageNet上观察到类似的趋势。我们在表3中报告了对ImageNet上各种模型的不同攻击。请注意,与DeepFool相比,TR和CW在最坏情况下需要的扰动要小得多。然而,TR比CW快得多计时结果如图所示。4.例如,在VGG-16的情况下,TR攻击是37。比CW快5倍,这很重要。图中显示了AlexNet的示例扰动。1(TR快15倍)。可以看到,CW和TR扰动比DeepFool小(在这种情况下是2倍),并且更有针对性地围绕物体。 对于L∞方法,我们的TR Non-Adap和TR Adap在平均和最坏情况下都始终优于FGSM和DeepFool。特别地,对于最坏的情况,TR比其他方法好大约两倍。在VGG 16上具有L∞ 的DeepFool和 TR Non-Adap 的 示 例 扰 动 如 图 所 示二、 可以清楚地看到,TR扰动比DeepFool(1.9×在这种情况下),并围绕目标更有针对性。4.4. 二阶法如第3节所述,ReLU激活函数不需要Hessian计 算 。 然 而 , 对 于 非 线 性 激 活 函 数 , 包 括Hessian信息是有益的,尽管它可能非常昂贵。为了检验这一假设,我们考虑两个模型Swish激活功能。我们固定一阶和二阶方法的TR半径(在所有情况下都设置为1),并逐渐增加迭代次数。表5显示了MLP和AlexNet模型的结果可以看出,在所有迭代中,二阶TR优于一阶TR方法。特别是,对于AlexNet上的两次和三次迭代,与一阶TR变体相比,TRS可以将模型精度降低1.2%以上然而,基于二阶的模型比一阶模型更昂贵,主要是由于与解决QCQP问题相关联的开销由于该问题是非凸的,且Hessian函数可能包含负谱,因此没有封闭形式的解为此开发一种计算效率高的方法是一个有趣的下一个方向。5. 结论我们已经考虑了各种基于TR的神经网络对抗攻击方法我们给出了TR方法的公式以及一阶/二阶攻击的结果。我们考虑了Cifar-10和ImageNet数据集上的多个模型,包括残差和密集连接网络的变体。我们的方法需要显着较小的扰动(高达3。9×),与DeepFool相比。此外,我们实现了类似的结果(在平均/最坏的扰动幅度欺骗网络),作为COM-连续波攻击,但显着的速度高达37。5倍。对于所考虑的所有模型,我们的攻击方法可以降低模型精度小于0。1%,输入图像的相对小的扰动(在 L2/L∞范数)。同时,通过神经网络对Hes信息的反向传播,对二阶TR攻击进行了测试,结果表明,与一阶TR攻击相比,二阶TR攻击能找到更强的攻击方向11359引用[1] https://github.com/amirgholami/trattack,2018年11月。[2] Anish Athalye,Nicholas Carlini,and David Wagner.混淆的梯度给人一种虚假的安全感:对抗性例子的循环 防 御 。 arXiv 预 印 本 arXiv : 1802.00420 ,2018。[3] Tom B Brown、Dandelion Mané、Aurko Roy、MartínAbadi 和 Justin Gilmer 。 对 抗 补 丁 。 arXiv 预 印 本arXiv:1712.09665,2017。[4] 尼古拉斯·卡利尼和大卫·瓦格纳。对 抗 性示例不容易检测:绕过十种检测方法。第10届ACM人工智能与安全研讨会论文集,第3-14页ACM,2017。[5] 尼古拉斯·卡利尼和大卫·瓦格纳。对神经网络鲁棒性的评价。2017年IEEE安全与隐私研讨会(SP),第39-57页。IEEE,2017年。[6] Andrew R Conn,Nicholas IM Gould,and Ph L Toint.信赖域方法,第1卷。暹罗,2000年。[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。 IEEE会议,第248-255页。Ieee,2009年。[8] IanJGoodfellow,Jonathon Shlens,Christian Szegedy.解释和利用敌对的例子。学习表征国际会议(arXiv:1412.6572),2015年。[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770[10] Gao Huang , Zhuang Liu , Laurens Van DerMaaten,and Kilian Q Weinberger.密集连接的卷积网络。CVPR,第1卷,第3页,2017。[11] Nitish Shirish Keskar , Dheevatsa Mudigere , JorgeNocedal , Mikhail Smelyanskiy , and Ping Tak PeterTang.关于深度学习的大批量训练:一般化差距和尖锐的最小值。arXiv预印本arXiv:1609.04836,2016。[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告,Citeseer,2009年。[13] Alexey Kurakin,Ian Goodfellow,and Samy Bengio.物理 世 界 中 的 对 抗 性 例 子 。 arXiv 预 印 本 arXiv :1607.02533,2016。[14] Jan Hendrik Metzen、Tim Genewein、Volker Fischer和Bastian Bischoff。对抗性扰动的检测。arXiv预印本arXiv:1702.04267,2017。[15] Seyed-Mohsen Moosavi-Dezfooli , Alhussein Fawzi ,Omar Fawzi,and Pascal Frossard.普遍对抗性扰动。2017年IEEE计算机视觉与模式识别会议(CVPR),第86IEEE,2017年。[16] Seyed Mohsen Moosavi Dezfooli , Alhussein Fawzi ,and Pascal Frossard. Deepfool:欺骗深度神经网络的简单而准确的方法。在2016年IEEE计算机视觉和模 式 识 别 会 议 ( CVPR ) 的 会 议 记 录 中 , 编 号EPFL-CONF- 218057,2016。[17] J. Nocedal和 S. 赖特数值优化Springer,New York,2006.[18] Nicolas Papernot、Patrick McDaniel、Xi Wu、SomeshJha和Ananthram Swami。蒸馏作为对深度神经网络对抗性扰动的防御。2016年(SP),第582-597页。IEEE,2016.[19] Prajit Ramachandran , Barret Zoph , and Quoc V Le.Swish:自 门控 激活 函数。 arXiv预印 本arXiv :1710.05941,2017。[20] Prajit Ramachandran,Barret Zoph,and Quoc V Le.正在 搜 索 激 活 函 数 。 arXiv 预 印 本 arXiv :1710.05941,2018。[21] Jonas Rauber,Wieland Brendel,and Matthias Bethge.Foolbox v0. 8.0:一个python工具箱,用于对机器学习 模 型 的 鲁 棒 性 进 行 基 准 测 试 。 arXiv 预 印 本arXiv:1707.04131,2017。[22] 斯瓦米·桑卡拉纳拉亚南、阿皮特·杰恩、拉玛·切拉帕和南林爵士。使用高效的分层对抗训练来正则化深度网络。arXiv预印本arXiv:1705.07819,2017。[23] Uri Shaham,Yutaro Yamada,and Sahand Negahban.了解对抗训练:通过鲁棒优化提高监督模型的局部稳定性。神经计算,2018年。[24] Karen Simonyan和Andrew Zisserman用于大规模图像识 别 的 深 度 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[25] 特隆·施泰豪格大规模最优化中的共轭梯度法与信赖域。SIAM Journal on Numerical Analysis,20(3):626[26] ChristianSzegedy、WojciechZaremba、IlyaSutskever 、 JoanBruna 、 DumitruErhan 、 IanGoodfellow和Rob Fergus。神经网络的有趣特性。arXiv预印本arXiv:1312.6199,2013。11360[27] Florian Tramèr、Alexey Kurakin、Nicolas Papernot、Ian Goodfellow、Dan Boneh和Patrick McDaniel。集体对 抗 训 练 : 攻 击 和 防 御 。 arXiv 预 印 本 arXiv :1705.07204,2017。[28] Zhewei Yao , Amir Gholami , Kurt Keutzer , andMichael W.马洪尼具有对抗训练和二阶信息的神经网 络 的 大 批 量 训 练 。 arXiv 预 印 本 arXiv :1810.01021,2018。[29] Zhewei Yao,Amir Gholami,Qi Lei,Kurt Keutzer,and Michael W Mahoney.基于Hessian的大批量训练分析 和 对 对 手 的 鲁 棒 性 。 神 经 信 息 处 理 系 统(NIPS'18),2018年。[30] Sergey Zagoruyko和Nikos
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功