没有合适的资源?快使用搜索试试~ 我知道了~
581用于防御对抗性攻击的袁建和和何志海密苏里大学哥伦比亚分校{yuanjia,hezhi}@ missouri.edu摘要深度神经网络对恶意攻击的有效防御在本文中,我们开发了一种新的方法,称为集成生成清洗与反馈循环(EGC-FL),用于有效防御深度神经网络。所提出的EGC-FL方法基于两个中心思想。首先,我们在防御网络中引入了一个变换的死区层,它由一个正交变换和一个基于死区的激活函数组成,以破坏对抗攻击的复杂噪声模式其次,通过构建一个具有反馈回路的生成式清洁网络,我们能够生成原始清洁图像的各种估计的集合然后,我们学习一个网络,将这组不同的估计融合在一起,以恢复原始图像。我们广泛的实验结果表明,我们的方法提高了国家的最先进的大利润率在白盒和黑盒攻击。它显著提高了白盒PGD攻击的分类准确性,在SVHN数据集上超过29%,在具有挑战性的CIFAR-10数据集上超过39%1. 介绍研究人员已经认识到,深度神经网络对对抗性攻击很敏感[32]。输入图像的非常小的攻击者通常通过利用目标深度神经网络的特定网络架构来生成噪声模式,以便输入层的小噪声可以沿着网络推理层积累,最终超过输出层的决策阈值,并导致错误决策。另一方面,我们知道训练有素的深度神经网络对随机噪声(如高斯噪声)具有鲁棒性[1]。因此,网络防御的关键问题是破坏攻击噪声的复杂模式或累积过程,图1.图示了所提出的具有反馈回路的集成生成式清洗,用于防御对抗性攻击。保持原始图像内容或网络分类性能。在过去的几年中,已经提出了许多方法来构建对抗样 本 来 攻 击 深 度 神 经 网 络 , 包 括 快 速 梯 度 符 号(FGS)方法[10],基于雅可比的显着图攻击(J-BSMA)[26]和投影梯度下降(PGD)攻击[18,20]。不同的分类器可以通过相同的对抗攻击方法失败[32]。深度神经网络的脆弱性和这些强大攻击方法的可用性迫切需要开发有效的防御方法。与此同时,深度神经网络防御方法也被开发出来,包括对抗训练[18,32],防御蒸馏[27,4,24],Mag- net [21]和特征挤压[13,41]。已经认识到,这些方法在强攻击下,特别是具有大幅度和迭代的白盒攻击下,性能显著下降[29]。在这项工作中,我们探索了一种新的方法,称为带反馈循环的集成生成清洗(EGC-FL),以保护深度神经网络免受强大的对抗性攻击。我们的方法基于以下目标:(1)对抗性攻击具有复杂的噪声模式,在防御过程中应该干扰或破坏这些噪声模式。(2)攻击噪声,特别是PGD、BPDA等强白盒攻击[2],往往是通过迭代过程产生的。为了清理它们,我们还需要一个多轮的迭代过程582以实现有效防御。受这些观察的启发,我们提出的EGC-FL方法首先将变换死区(TDZ)层引入防御网络,该层由非正规变换和基于死区的激活函数组成,以破坏对抗性攻击的复杂噪声模式其次,它引入了一个新的网络结构与反馈回路,如图1所示,到生成清洁网络。这种反馈环路网络允许我们去除残留的攻击噪声,并以迭代的方式恢复原始图像内容具体地,通过多次反馈迭代,EGC-FL网络生成原始图像的干净估计的集合。相应地,我们还学习了一个累积图像融合网络,它能够以迭代的方式将新的估计与现有的结果根据我们的实验,这种反馈和迭代过程收敛得非常快,在2到4次迭代内收敛到-10。我们在基准数据集上的大量实验结果表明,我们的EGC-FL方法在白盒和黑盒攻击中都大幅提高了最先进的水平在SVHN数据集上,它显着提高了白盒攻击的分类准确率,在第二好的方法上提高了29%以上,在具有PGD攻击的CIFAR-10数据集上提高了39%以上。本文的主要贡献可概括如下。(1)我们在防御网络中引入了一个变换死区层,有效地破坏了对抗性攻击的噪声模式(2)我们已─提出了一种新的带反馈环的网络结构,以迭代的方式去除对抗性攻击噪声并恢复原始图像内容。(3)我们已经成功地学习了一个累积图像融合网络,它能够融合输入的清洁估计序列,并以迭代的方式恢复原始图像。(4)我们的新方法在各种各样的攻击下显着提高了文献中最先进的方法的性能。本文的其余部分组织如下。 第二节回顾了相关工作。在第3节中介绍了所提出的EGC-FL方法。第4节提供了实验结果、与现有方法的性能比较以及消融研究第五节是论文的总结。2. 相关工作在本节中,我们回顾了对抗性攻击和网络防御方法的相关工作,这是两个紧密耦合的研究主题。攻击算法设计的目标是使所有现有的网络防御方法失效,而防御算法的目标是保护深度神经网络免受所有现有的对抗性攻击方法的攻击。(A) 攻击方式。攻击方法可分为两种威胁模型:白盒攻击和黑盒攻击大头钉白盒攻击者可以完全访问分类器网络参数、网络架构和权重。黑盒攻击者不了解或无法访问目标网络。对于白盒攻击,Goodfellow等人 [10]开发了一种简单快速的方法,称为快速梯度符号(FGS)方法,使用误差反向传播直接修改原始图像。 Kurakin等人[18]反复应用FGS并提出BIM。Carlini等人[4]设计了一种基于优化的攻击方法--Carlini-Wagner(CW)攻击,它能够以最小的扰动欺骗Xiaoet al. [37]训练了一个生成对抗网络(GAN)[9]来生成扰动。Kannan等人 [17]发现投影梯度下降(PGD)是所有攻击方法中最强的。它可以被视为FGSk的多步变体[20]。Athalye等人 [2]介绍了一种称为反向传递微分近似(BPDA)的方法,用于攻击梯度不可用的网络。它在防御结果上迭代计算对抗梯度。它能够成功地攻击所有现有的最先进的防御方法。对于黑盒攻击,攻击者不知道目标分类器。Paper- not等人 [25]介绍了使用替代模型进行黑盒攻击的第一种方法。Dong等人。[8]提出了一种基于动量的迭代算法来提高对抗性示例的可移植性。Xie等人。 [40]通过创建不同的输入模式来提高对抗性示例的可移植性。(B) 防御方法。最近已经提出了几种方法来防御白盒攻击和黑盒攻击。对抗性训练使用对抗性示例训练目标模型[32,10]。 Madry等人[20]建议使用PGD生成的对抗性示例进行训练,以提高鲁棒性。[21]提出一种名为MagNet的方法,它检测扰动,然后根据干净和对抗性示例之间的差异对其进行重塑。最近,已经开发了几种基于GAN的防御方法Samangouei等人。 [29]将对抗示例投影到一个经过训练的生成对抗网络(GAN)中,以使用生成的干净图像来近似输入近年来,一些基于输入变换的防御方法得到了发展. Guo等人。 [11]提出了几种输入变换来保护对抗性示例,包括图像裁剪和重新缩放,位深度减少和JPEG压缩。Xie等人。 [38]提出通过添加随机化层来抵御对抗性攻击,该随机化层随机重新缩放图像,然后对图像进行随机零填充。Jia等人 [15]提出了一 个 图 像 压 缩 框 架 来 保 护 对 抗 性 示 例 , 称 为ComDefend。 Xie等人[39]介绍了一种用于防御PGD白盒攻击的特征去噪方法。583图2.用于防御对抗性攻击的集成生成清洗网络3. 该方法在本节中,我们将介绍我们的集成生成清理方法,该方法具有用于防御恶意攻击的反馈回路。3.1. 概述如图1所示,我们提出的用于防御对抗性攻击的带有反馈回路的增强生成式清洗(EGC-FL)方法基于两个主要思想:(1)我们将转换的死区层引入清洗网络,以破坏对抗性攻击的复杂噪声模式。(2)我们引入了一个带有反馈回路的生成式清洗网络来生成原始图像的一系列不同的估计,这些估计将以累积的方式进行融合,以恢复原始图像。图3.TDZ层的激活函数带有反馈的生成清理网络将生成一系列清理版本{X<$k|k=1,2,.},表示原始图像X的估计的不同集合。到为了恢复原始图像X,我们引入累积图像融合网络Γ,其操作如下最终图像图2显示了一个更详细的亲框架Xk+1 =Γ(Xk,Xk)的情况。(二)提出的EGC-FL方法被攻击的图像X首先被预处理,具体地,到融合网络I '的输入是两个im-I'。由卷积层P处理,然后传递到变换的死区层Φ,其目的是破坏年龄:X¯k 这是发电机输出的电流ˆ对抗性攻击的复杂噪音模式。为了去除X中的残留攻击噪声并重新获得原始图像内容X,生成式清理网络G使用反馈回路生成原始图像的一系列估计反馈网络由三个转换器网络,U,V和W,这是完全卷积层。这三个转换器网络用于在它们被级联或融合在一起之前归一化来自不同网络的输出特征。在k-th反馈回路,设X<$k为生成器的输出,ing net workG.我们将输出X<$k和原始X<$k通过卷积网络U进行ing归一化后连接起来,V,分别。 然后,在反馈到通用清洁网络工作G以产生输出X<$k+1之前,由转换器W对连接的特征图进行归一化。这反馈回路由以下公式总结:X<$k+1=G{W[V(X<$)<$U(X<$k)]},(1)其中,n表示级联操作。 过这个艺术团584清洁网络G,和Xk,其是当前融合的im-由r产生的年龄。生成清理网络G与累积融合网络I’分离,使得生成网络可以生成原始图像的多个估计。融合网络可以将它们融合在一起。换句话说,Γ的输出被反馈回自身,作为下一轮融合的输入。所有网络,包括卷积预处理、生成清洗网络、转换器网络和累积融合网络,都是从我们的训练数据中学习的,这将在下面的章节中更详细地解释3.2. 转换死区层在我们的防御网络中,转换后的死区层的目标是破坏噪声模式,并执行对抗性攻击噪声的第一轮去除。设X是原始图像,并且x(i,j)是其在位置处的像素tion(i,j).被攻击的图像由X<$=X+α<$给出其中α是幅度为和α(i,j)的对抗攻击58522是像素位置(i,j)处的攻击噪声,其是具有最大幅度的随机变量。我们有x<$(i,j) =x (i,j)+α<$(i,j)。在空间域中,将攻击噪声与原始图像内容分离是非常具有挑战性的,因为被攻击图像X和原始图像X在视觉上彼此非常相似。盟友为了解决这个问题,我们建议首先使用去相关或能量压缩或非正规变换矩阵T来变换图像。这种变换的一种选择是分块离散余弦变换(DCT)[34]。在该变换之后,原始图像的能量将被聚集到一小部分变换系数上,而剩余的系数非常接近于零。然后,我们通过图3所示的死区激活函数η(x)传递这个变换后的图像。 这里,η(x)=0如果x∈[−δ,δ].否则,η(x)=x。由于转换是线性,死区激活由下式给出不从统计学上讲,攻击噪声是白噪声。变换后,αt(i,j)仍为白噪声. 注意,变换图像T·X中的绝大多数变换系数Xt(i,j)将非常小。在这种情况下,死区AC-激励函数η(x)将在很大程度上去除变换后的攻击噪声αt(i,j)。同时,由于主要的图像内容或能量已经聚集到较小的数量上,ber large-valued coefficients, which remain unchanged bythe deadzone function. 这样,能量压缩变换能够帮助保护原始图像内容在去除攻击噪声期间不被死区激活函数损坏当然,由于小的变换系数Xt(i,j)被强制为零,所以它仍然会图4显示了攻击噪声的能量在TDZ之后,即,||α ǫ||2= ||X-X *||2和||2、 针 对 215 批 组 织 的 860 张 测 试 图 像 。 ||2, for 860 test imagesorganized in 215 batches. 这里,r(·)表示变换后的死区操作。我们可以看到攻击噪音的能量已经显著减少。当然,原始图像内容的某些部分,特别是那些高频细节,也会被删除,需要通过后续的生成式清洗网络来恢复3.3. 学习再生式清洁图4.对215批860幅测试图像进行了TDZ变换前后的攻击噪声能量分析.方法是三重的:(1)首先,生成清理网络G需要确保原始图像内容被大量恢复。(2)第二,反馈回路需要成功地去除残余攻击噪声。(3)第三,累积融合网络r需要迭代地重新覆盖原始图像内容。为了实现上述三个目标,我们制定了以下用于训练网络的L=λ1LP+λ2LA+λ3LC,(6)其中LP是感知损失,LA是对抗损失,LC是交叉熵损失。λi是加权参数。在我们的实验中,我们将其设置为1/3。来定义知觉loss,重建图像Xk和使用原始图像X[16]。在这项工作中,我们观察到小的对抗性扰动通常会导致网络的特征图中出现非常大的噪声[39]。受此启发,我们使用预先训练的VGG-19网络,由Fβ表示,以生成恢复的视觉特征图像X和原始图像X,并使用它们的特征差作为感知损失LP。具体地说,LP=||Fβ ( X ) −Fβ ( X<$k ) ||二 、( 七)对抗性损失LA旨在训练生成清理网络G和反馈回路U、V、W,使得重新覆盖的图像将被目标网络正确分类它被制定为LA=||G{W[V(X<$)<$U(X<$k)]}−X||二、(八)[U+FF0C]我们训练我们的累积融合网络Γ以及生成清理网络G,以优化以下损失函数:网络在我们的防御方法设计中,LC=EX∈ΩΦ[Γ(X)]k,Xk),我清洁 ]中。(九)η( T· X) =η( T·X+ T·α),(三)η( x<$(i,j))=η( xt( i,j))+η( αt( i,j))(四)586网络G、反馈环U、V、W和累积融合网络Γ被联合训练。我们的目标这里,Φ[·,·]表示由生成网络生成的输出与目标标签之间的交叉条目587表1.我们的方法(防御后的分类准确度)对CIFAR-10数据集的白盒攻击的性能(=8/256)。有些方法没有提供关于具体攻击方法的结果,这些方法被留空(标有(NA))。防御方法清洁FGSPGDBIMC W没有防守94.38%31.89%0.00%的百分比0.00%的百分比0.99%标签平滑[36]92.00%54.00%(不适用)百分之八2.00%[41]第四十一话84.00%百分之二十(不适用)0.00%的百分比78.00%[30]第三十话85.00%百分之七十(不适用)百分之七十百分之八十[35]第三十五话91.08%72.81%44.28%(不适用)(不适用)参数噪声注入(PNI)[14]85.17%56.51%百分之四十九点零七(不适用)(不适用)稀疏变换层(STL)[31]90.11%87.15%(不适用)88.03%89.04%我们的方法91.65%88.51%88.61%88.75%90.03%增益+1.36%+39.54%+0.72%+0.99%我是为了干净的图像而打扫的。通过上述损失函数,我们的集成生成清洗网络学习迭代恢复对抗图像。累积融合网络Γ作为多图像恢复网络,对原始图像进行恢复. 与生成清洁网络G级联,它将使用来自其自身网络的梯度的反向传播来指导G和反馈环网络的训练,旨在最小化上述损失函数。在我们的设计中,在对抗学习过程中,目标分类器调用C来确定所接收到的图像X_rank是否干净或者不,如图2所示Γ的输出被反馈到其自身作为输入以增强下一轮融合。4. 实验结果在本节中,我们实现并评估了我们的EGC-FL防御方法,并在各种攻击下将其性能与最先进的防御方法进行了比较,包括白盒和黑盒攻击模式。4.1. 实验设置我们的实验在Pytorch平台上实现[28]。我们所提出的方法是在白盒和黑盒攻击模式下在P2P Torch [7]上实现的,包括BPDA攻击[2]。我们选择CIFAR-10和SVHN(街景门牌号)数据集进行性能评估和比较,因为最近的论文报道了这两个数据集的结果。CIFAR-10数据集由10个大小类别的60,000张图像组成32×32。Street View House Numbers(SVHN)数据集[23]有大约20万张街道号码的图片。中的每对于这两个数据集,分类器在其训练集上独立训练,并且测试集用于评估。4.2. CIFAR 10数据集我们比较了我们的防御方法与文献中开发的最先进方法在五种不同白盒攻击下的性能:(1)FGS攻击[10],588表2. CIFAR-10数据集上的BPDA攻击结果。结果与通过额外的对抗性训练可以实现这些目标。防御方法的准确性温度计编码(TE)[3]0. 100%随机激活修剪(SAP)[6] 0.00%本地内在独立性(LID)[19] 5.00%[30]第30话100%级联高级 训练(L∞ =0.015)[22] 百分之一百[20]第47话. 100%[31]第42话:我的世界100%我们的方法85.77%收益+38.77%表 3. 我 们 的 方 法 对 CIFAR-10 上 的 黑 盒 攻 击 的 性 能(ε=8/256)。防御方法没有攻击FGS PGD没有防守94.38%63.21%38.71%高级PGD [33]83.50%57.73%55.72%[35]第三十五话91.32%77.23%74.04%我们的方法91.65%79.09%82.78%增益+1.86%+8.74%(2) PGD攻击[20],(3)BIM攻击[18],(4)C W攻击[5]和(5)BPDA攻击[2]。 在[17]和[35]之后,白盒攻击者生成的对抗性扰动范围为λ=8/255。此外,我们将攻击者的步长设置为1/255,10次攻击迭代作为基线设置。我们使用PGD攻击生成用于训练的扰动图像,并对所有攻击方法进行测试在训练期间,我们设置迭代次数K=3。扰动图像被用作输入,通过我们的EGC-FL网络3迭代但是,在测试中,K是灵活的。在我们的白盒攻击实验中,我们展开了反馈回路,这样攻击者就可以完全访问端到端防御网络,包括迭代次数。589表4.我们的方法对SVHN的白盒攻击的性能(λ=12/256)。防御方法没有攻击FGS PGD没有防守96.21%50.36%0.15%M-PGD [20]96.21%(不适用)44.40%阿尔普[17]96.20%(不适用)46.90%高级PGD [33]87.45%55.94%42.96%[35]第三十五话96.21%91.51%37.97%我们的方法94.00%94.10%76.67%增益+2.59%+29.77%(1) 防御白盒攻击。 表1显示了6种防御方法的图像分类精度:(1)标签平滑[36],(2)特征压缩[41],(3) PixelDefend [30],(4)对抗网络[35],(5)PNI(参数噪声注入)方法[14]和(6)STL(稀疏变换层)方法[31]。第二列显示当输入的图像都是干净的时 的 分 类 精 度 。 我 们 可 以 看 到 一 些 方 法 , 如PixelDefend [30],Feature Squeezing [41]和PNI [14],降低了干净图像的分类准确性。这意味着他们的防御方法对原始图像造成了重大损害,或者他们不能准确地判断输入图像是干净的还是受到了攻击。由于我们的方法具有很强的重建能力,重建图像的集成仍然保留有用的信息。其余四列列出了不同防御方法的最终图像对于所有这四种攻击,我们的方法显着优于现有的方法。例如,对于强大的PGD at- tack,我们的方法优于Adv.网络和PNI方法超过39%。( 2 ) 防 御 BPDA 攻 击 。向 后 通 过 可 微 近 似(BPDA)[2]攻击非常具有挑战性,因为它可以根据防御机制使用梯度近似迭代地加强对抗性示例。BPDA还针对梯度不能优化损失的防御这是我们的方法的情况,因为变换的死区层是不可微的。表2总结了我们的算法与其他七种方法的防御结果:(1)温度计编码(TE)[3],(2) 随机激活修剪(SAP)[6],(3)局部内在相似性(LID)[19],(4)PixelDefend [30],(5)级联对抗训练[22],(6)PGD对抗训练[20]和(7)稀疏变换层(STL)[31]。我们选择这些方法进行比较,因为最初的BPDA论文[2]已经报道了这些方法的结果我们可以看到,在CIFAR-10数据集上,我们的EGC-FL网络比其他防御方法更鲁棒,比第二好的防御方法高出38%以上。(3) 防御黑盒攻击。 我们使用FGS和PGD的替代模型生成黑盒对抗示例 替代模型的训练方式与目标分类器相同,具有ResNet-34网络结构[12]。表3显示了我们的防御机制在CIFAR-10数据集上的后台攻击下在替代模型下,构造了<$s=8/256的对抗性示例。我们观察到,目标分类器对FGS和PGD黑盒攻击生成的对抗性示例的敏感性要比白盒攻击低得多但是,强大的PGDat- tack仍然能够将整体分类准确性降低到非常低的水平,38。百分之七十一我们将我们的方法与对抗PGD[20]和对抗网络进行了[35]方法.我们包括这两个,因为它们是唯一提供CIFAR-10黑盒攻击性能结果的。从表3中,我们可以看到我们的方法比最先进的对抗网络方法提高了8.74%的准确率。4.3. SVHN数据集上的结果。我们在SVHN数据集上评估了我们的EGC-FL方法,并与四种最先进的防御方法进行了比较(1)M-PGD(混合小批量PGD)[20],(2)ALP(Ad-versarial Logit Pairing ) [17], ( 3 ) Adversarial PGD[33],以及(4) 对抗网络[35]。对于SVHN数据集,与现有方法[17,35]一样,我们使用Resnet-18 [12]作为目标分类器。 平均分类准确率为96. 百分之二十一我们使用与[17]中相同的参数进行计算。PGD攻击,总幅度为0。05(12/255)。在 每 一 个 步 骤 中 , 扰 动 幅 度 被 设 置 为 θ=0 。 01(3/255)和10个迭代步骤。(1) 防御白盒攻击。表4总结了实验结果和性能比较。与现有的四种防御方法相关联我们可以看到,在这个数据集上,PGD攻击能够将整体分类准确率降低到极低的水平,0.15%。我们的算法优于现有的方法由一个非常大的保证金。例如,对于PGD攻击,我们的算法比第二好的ALP [17]算法的性能高出29%以上。对于FGS攻击,迭代清洗过程将产生比没有攻击噪声的干净图像具有更大多样性的图像版本这有助于重建原始图像。(2) 防御黑盒攻击。并在SVHN数据集上进行了黑盒攻击防御实验。表5总结了我们使用强大的PGD攻击的实验结果,并提供了与这四种方法的比较。我们可以看到,我们的方法优于其他方法2。25%的FGS攻击和5。37%的PGD攻击。从上面的结果可以看出,我们提出的方法对于防御强攻击特别有效,例如,590表5.我们的方法对SVHN的黑盒攻击的性能(ε=12/256)。防御方法没有攻击FGS PGD没有防守96.21%69.91%67.66%M-PGD [20]96.21%(不适用)55.40%阿尔普[17]96.20%(不适用)56.20%高级PGD [33]87.45%87.41%83.23%[35]第三十五话96.21%91.48%81.68%我们的方法94.00%94.03%88.60%增益+2.55%+5.37%图5.ResNet-18在CIFAR-10数据集上的对抗攻击下的扰动数据准确度(顶部)与攻击迭代次数的关系,以及(底部)与扰动幅度(L∞下)的关系。PGD攻击具有较大的迭代步长和噪声幅度。4.4. 消融研究和算法分析在本节中,我们提供了我们算法的深入消融研究结果,以进一步了解其能力。(1) 防御大迭代和大规模攻击。图5(顶部)显示了在大迭代PGD和BPDA攻击下的性能结果。我们可以看 到 , 大 迭 代 PGD 攻 击 显 著 降 低 了 VanillaAdvertisement Training方法(VAT)的准确性。[20]和PNI(参数噪声注入)方法[14],以及我们的方法。 但是,我们的方法大大超出了-表6.我们的方法在CIFAR-10数据集上的对抗性攻击下的反馈循环性能。攻击方法Gen1Gen2Gen3Gen4FGS57.64%78.04%78.15%78.31%PGD78.46%85.36%86.25%86.55%BPDA19.40%79.12%79.28%79.79%N步长≥50。在图5(顶部)中,我们还包括了我们的方法在大迭代BPDA攻击下的性能结果我们将对抗性扰动设置在λ=12/255的范围内,以10次攻击迭代作为基线设置。其他方法未报告此结果,因此我们无法将其纳入比较。我们可以看到BPDA攻击更加强大。但是,我们的算法仍然可以生存的大迭代BPDA攻击,并在很大程度上保持防御性能。图5(底部)示出了针对具有大扰动幅度的攻击的比较结果。我们可以看到,即使对抗性噪声的大小增加到0,我们的方法也明显优于VAT和PNI防御方法。三是PGD攻击。我们还包括我们的方法在大规模BPDA攻击下的性能。我们可以看到,我们的方法在非常强大的大规模攻击下是鲁棒的。(2) 分析反馈循环的影响。我们注意到反馈环网络在防御中起着重要的作用。在我们的方法中,控制图像质量的关键参数是反馈环的数量k。我们逐渐增加k,并探索融合图像的分类精度。表6显示了我们的方法在具有各种攻击的CIFAR- 10数据集上的性能我们将Genk表示为反馈回路的数量。我们可以看到,在3或4的范围内的反馈回路产生最佳性能。一个反馈回路不能提供有效的防御,因为EGC-FL网络不能完全破坏攻击噪声模式并恢复有用的信息。一旦原始图像中的关键特征被重建,分类精度将是稳定的,并保持最高的性能,虽然图像质量可能会得到更好的累积融合。在图6中,我们显示了应用我们的方法时来自CIFAR-10的样本图像第一列是没有攻击的干净图像。第二列是被攻击的形象。倒数第三列是通过我们的EGC-FL方法重建的4代图像。实验结果表明,该算法能够有效去除攻击噪声,并在很大程度上恢复原始图像的内容。(3) 深入分析主要算法组件。 在以下消融研究中,我们对EGC-FL算法的主要组件进行了深入分析,执行其他两个。在这两种情况下,扰动数据精度开始饱和,而不会进一步下降,包括变换、死区和带反馈环的EGC网络。在表7中,第一行显示了591图6.利用该方法生成的对抗图像及其融合图像。表7.算法组件的性能分析图7.每对示例是对应于干净图像(顶部)、其对抗扰动图像(中间)和其重建图像(底部)的特征图被攻击图像(被分类为cobra)、热图和覆盖在被攻击图像上的热图我们可以看到,特征图非常嘈杂,热图失真。在CIFAR-10数据集上使用我们提出的EGC-FL方法(完整算法)进行FGS,PGD和BPDA攻击后,图像的分类精度第二行显示没有转换的结果。我们可以看到,准确度下降了约7- 9%。变换模块是重要的,因为它可以通过将原始图像的能量聚集到少量的大变换系数中来帮助保护原始内容不被死区激活函数δ(x)损坏。第三行显示没有反馈回路的结果。我们可以看到,在FGS和PGD攻击下,它的准确率下降了10-11%对于强大的BPDA攻击,下降幅度非常大,约为66%。该算法通过多个反馈环路进行渐进式攻击、噪声去除和原始图像重建,可以显著提高防御性能,尤其是在强大的BPDA攻击下。(4) 把辩护过程可视化。 网络防御本质上是一个特征图的去噪过程。为了进一步理解所提出的EGC-FL方法的工作原理,我们将原始图像、攻击图像和EGC-FL清理图像的特征图可视化。我们使用激活层的特征图,这是网络中最后一层的第三层。图7显示了两个示例。在第一个示例中,第一行是原始图像(被分类为热图)、其梯度加权类激活热图以及覆盖在原始图像上的热图。热图显示分类网络正在关注原始图像的哪些部分。第二行显示我们开发了一种基于EGC-FL网络的防御深度神经网络对抗性攻击的新方法。该网络能够在去除残余攻击噪声的同时恢复原始图像。我们在防御网络中引入了一个转换的死区层,它由一个正交变换和一个基于死区的激活函数组成,以破坏对抗性攻击的诡辩噪声模式。通过构建一个具有反馈回路的生成式清洁网络,我们能够生成原始清洁图像的各种估计的集合。然后,我们学习了一个网络,将这组不同的估计图像融合在一起,以恢复原始图像。我们广泛的实验结果表明,我们的方法在白盒和黑盒攻击中都大大优于最先进的我们的烧蚀研究已经证明,我们的方法的主要组成部分,转换的死区层和具有反馈回路的集成生成清洁网络都是关键的,对整体性能有显著贡献。确认这项工作得到了美国国家科学基金会的部分支持,资助号为1647213和1646065。本材料中表达的任何观点、发现、结论或建议均为作者的观点,不一定反映国家科学基金会的观点。防御方法FGSPGDBPDA第三行显示了经EGC清理的图像。 我们可以看到我们的方法(全算法)88.51%88.04%85.77%特征图和热图在很大程度上- 在没有变换79.32%79.35%79.62%恢复.- 没有反馈77.12%78.46%百分之十九点三七592引用[1] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv:1701.07875,2017。[2] Anish Athalye,Nicholas Carlini,and David Wagner.模糊的梯度给人一种错误的安全感:规避对对抗性示例的防御。第35届机器学习国际会议论文集,第274- 283页,2018年[3] 雅各布·巴克曼,奥科·罗伊,科林·拉菲尔,伊恩·古德费尔-洛.温度计编码:一个抵抗敌对例子的好方法。在2018年国际学习代表会议上[4] 尼古拉斯·卡利尼和大卫·瓦格纳。防御性推理对对抗性例子并不健壮。arXiv预印本arXiv:1607.04311,2016年。[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会(SP),2017年5月。[6] 古尼特岛放大图片作者:David D.放大图片创作者:Bernstein , Jean Kossaifi , Aran Khanna , Zachary C.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活在2018年国际学习代表会议上[7] Gavin Weiguang Ding,Luyu Wang,and Xiaomeng Jin.Ad- verTorch v0.1:基于pytorch的对抗鲁棒性工具箱。arXiv预印本arXiv:1902.07623,2019。[8] Yinpeng Dong , Fangzhou Liao , Tanyu Pang , HangSu,Jun Zhu,Xiaolin Hu,and Jianguo Li.以势头增强对抗性攻击。2018 IEEE/CVF计算机视觉和模式识别会议,2018年6月。[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[10] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。[11] Chuan Guo , Mayank Rana , Moustapha Cisse , andLaurens van der Maaten.使用输入变换对抗性图像。在2018年国际学习代表会议上[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。[13] Warren He , James Wei , Xinyun Chen , NicholasCarlini,and Dawn Song.对抗性示例防御:防御薄弱的群体并不强大。第十一届{USENIX}研讨会关于进攻技术({WOOT}17),2017年。[14] Zhezhi He,Adnan Siraj Rakin,and Deliang Fan.参数噪声注入:可训练的随机性,以提高深度神经网络对对抗性攻击的鲁棒性。在IEEE计算机视觉和模式识别会议上,第588-597页,2019年[15] 贾晓军,魏星星,曹晓春,和福鲁什. Comdefend:一个高效的图像com-压 力 模 型 来 防 御 对 抗 性 的 例 子 。 CoRR ,abs/1811.12673,2019。[16] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。[17] Harini Kannan、Alexey Kurakin和Ian Goodfellow。ad-versarial logit配对,2018年。[18] Alexey Kurakin,Ian Goodfellow,and Samy Bengio.大规 模 的 对 抗 性 机 器 学 习 。 arXiv 预 印 本 arXiv :1611.01236,2016。[19] 马兴军,李波,王益森,王晓云.放大图片作者:Michael E.霍尔和詹姆斯·贝利使用局部内在维度表征对抗子空间,2018年。[20] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。在2018年国际学习代表会议上[21] 东玉梦、皓晨。Magnet:针对敌对示例的双管齐下的防御。2017年ACM SIGSAC计算机和通信安全会议论文集,第135-147页。ACM,2017。[22] Taesik Na、Jong Hwan Ko和Saibal Mukhopadhyay。使用统一嵌入正则化的Cas-cade对抗机器学习在2018年学习代表国际会议[23] Yuval Netzer , Tao Wang , Adam Coates , AlessandroBis-sacco,Bo Wu,and Andrew Ng.使用无监督特征学习读取自然图像中的数字。NIPS,2011年1月。[24] Nicolas Papernot和Patrick McDaniel关于防御性蒸馏的有效性。arXiv预印本arXiv:1607.05113,2016。[25] Nicolas Papernot、Patrick McDaniel、Ian Goodfellow、Somesh Jha、Z Berkay Celik和Ananthram Swami。针对机器学习的实际黑盒攻击。在2017年ACM亚洲计算机和通信安全会议上,第506-519页。ACM,2017。[26] Nicolas Papernot、Patrick McDaniel、Somesh Jha、MattFredrikson、Z Berkay Celik和Ananthram Swami。深度学习在对抗环境中的局限性。第372-387页[27] Nicolas Papernot、Patrick McDaniel、Xi Wu 、SomeshJha和Ananthram Swami。蒸馏作为对深度神经网络的对抗性扰动的防御。在2016年IEEE安全与隐私研讨会(SP)上,第582597. IEEE,2016.[28] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[29] 普亚·萨曼圭,玛雅·卡布卡布,拉玛·哲拉帕.防御甘:使用生 成模型保护分 类器免受攻 击。arXiv预印本arXiv:1805.06605,2018。[30] 杨松,金泰燮,塞巴斯蒂安·诺沃津,斯特凡诺·埃尔蒙,内特·库什曼. Pixeldefend:杠杆一般-593理解和防御对抗性示例的模型在2018年的学习代表国际会议[31] Bo Sun,Nian-Hsuan Tsai,Fangchen Liu,Ronald Yu,Hao
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功