没有合适的资源?快使用搜索试试~ 我知道了~
7658−AGKD-BML:基于注意力引导的知识提取和双向度量学习Hong Wangg1*,Yuef an Dengg1,ShinjaeYoo2,Haibin Ling1,Yue wei Ling 2†1石溪大学,石溪,纽约,美国2美国纽约州厄普顿布鲁克海文国家实验室{hong.wang.2,yuefan. deng,haibin. ling} @ stonybrook.edu,{sjyoo,ywlin} @bnl.gov摘要虽然深度神经网络在许多任务中表现出令人印象深刻的性能,但它们对于精心设计的对抗性攻击来说是脆弱的。 本文提出了一种基于注意力引导知识分解和双向度量学习的对抗性训练模型(AGKD-BML)。注意力知识是从在干净数据集上训练的权重固定模型(称为教师模型)中获得的,并被转移到在对抗性示例(AE)上训练的模型(称为学生模型)中。以这种方式,学生模型能够聚焦于正确的区域,以及校正被AE破坏的中间特征,以最终提高模型准确性。此外,为了有效地正则化特征空间中的表示,我们提出了一个双向度量学习。具体地说,给定一个干净的图像,它首先被攻击到它最混乱的类,以获得前向AE。然后随机挑选最混乱类中的干净图像并攻击回原始类以获得向后AE。然后使用三元组损失来缩短原始图像与其AE之间的表示距离,同时扩大前向AE与后向AE之间的表示距离。我们在两个广泛使用的具有不同攻击的数据集上进行了广泛的对抗鲁棒性实验我们提出的AGKD-BML模型始终优于最先进的方法。AGKD-BML的代码可在以下网址获得:https://github.com/hongw579/AGKD-BML。1介绍深度神经网络(DNN)在计算机视觉[22]、语音识别[17]和自然语言处理[8]等多个领域然而,他们的脆弱性对所谓*这项工作是在BNL的研究助理期间完成的。†通讯作者。图1.一个干净的图像(“德国牧羊犬”)和它的对抗性的例子(错误地分类为“天文馆”)在第一列。正确和不正确标签的类相关注意力图(Grad-CAM)这表明对抗性干扰破坏了注意力地图。对抗性示例(AE),其是添加了精心设计但不可察觉的扰动的数据,已经引起了极大的关注[38]。AE的存在是对DNN在现实世界应用中的安全性和可靠性的潜在威胁。因此,已经做出了许多努力来防御对抗性攻击以及提高机器学习模型的对抗性鲁棒性。特别是,基于对抗训练[16,27]的模型是最有效和最流行的防御方法之一。对抗训练解决了一个最小-最大优化问题,其中内部问题是通过最大化损失函数来找到一个球内最强的AE,而外部问题是最小化分类损失的AE。Madry等人[27]提出了一种多步投影梯度下降(PGD)模型,该模型已成为对抗训练的标准模型。在PGD之后,最近已经提出了许多工作来从不同方面改进对抗训练,例如,[6、11、28、32、35、42、49、51]。然而,基于对抗性训练的模型在干净和对抗性样本上仍然现有的大部分对抗列车-7659基于训练的模型仅关注利用对抗性示例的训练模型,这些示例可能被破坏,但没有很好地探索来自在干净图像上训练的模型的信息。在这项工作中,我们的目标是通过提取注意力知识和利用双向度量学习来提高模型的对抗鲁棒性。注意机制在人类视觉系统中起着关键作用,并广泛用于各种应用任务[34,53]。不幸的是,我们的一个观察结果表明,对抗性示例(AE)中的扰动将通过网络增强,从而严重破坏中间特征和注意力地图。 如图1所示,AE通过使其聚焦于来自干净图像的不同区域来混淆模型。直观地说,如果我们能够将干净图像的知识从教师模型转移到学生模型,以1)获得正确的注意力信息,以及2)校正被AE破坏的中间特征,我们应该能够提高模型出于这种动机,我们提出了注意力引导知识蒸馏(AGKD)模块,其应用知识蒸馏(KD)[18]来有效地将相应干净图像的注意力知识从教师模型转移到训练中的学生模型。具体地,教师模型是在原始干净图像上预训练的使用从教师模型获得的干净图像的注意力图来引导学生模型针对扰动生成对应AE的注意力图。我们进一步使用t分布随机邻居嵌入(t-SNE)来研究潜在特征空间中AE的行为(见图3),并观察到AE的表示通常远离其原始类,类似于[28]中所示。AGKD将干净图像的信息从教师模型转移到学生模型,从而提供AE与其对应的干净图像之间的相似性的约束,而没有考虑来自不同类别的样本的约束。以前的作品[24,28,52]提出使用度量学习来正则化不同类的潜在具体地,利用三重损失,其中干净图像的潜在表示、其对应的AE和来自另一类的图像分别被认为是正、锚和负示例。然而,该策略只考虑了单向对抗攻击,即,从干净的图像到它的对抗性示例,使其效率降低。为了解决上述问题,我们提出了一个双向攻击度量学习(BML),以提供一个更有效和强大的约束。具体地说,最初的干净图像(正)首先被攻击到它最容易混淆的类,也就是除正确的标签,以获得前向对抗示例(an-chor)。然后,从最混乱的类中随机选择一个干净的图像,并对原始图像进行攻击,以获得反向对抗示例作为否定。通过集成AGKD和BML,我们的AGKD-BML模型在两个广泛使用的数据集,CIFAR-10和SVHN上,在不同的攻击下,性能优于最先进的模型。总之,我们的贡献有三个方面:• 提出了一种注意力引导的知识提取模块,将干净图像的注意力信息转移到学生模型中,从而修正被对抗性样本破坏的中间特征。• 提出了一种双向度量学习方法,通过显式地缩短原始图像与其前向对抗样本之间的距离,同时扩大前向对抗样本与来自另一类的后向对抗样本之间的距离,有效地约束不同类在特征空间中的表示.• 我们在广泛使用的数据集上进行了广泛的对抗鲁棒性实验,在不同的攻击下,所提出的AGKD-BML模型在定性(可视化)和定量证据方面都优于最先进的方法。2相关作品对抗性攻击。一般来说,有两种类型的对抗性攻击:白盒攻击,其中对手完全访问目标模型,包括模型参数;以及黑盒攻击,其中对手几乎不知道目标模型。对于白盒攻击,Szegedyet al. [38]发现了深度网络对抗性攻击的脆弱性。他们使用框约束L-BFGS方法来生成有效的对抗性攻击。在此之后,开发了几种算法来生成对抗性示例。作为一步攻击,在[16]中提出的快速梯度符号方法(FGSM)使用梯度的符号来生成攻击,具有l∞-范数界。在[23]中,Kurakinet al.通过迭代应用扩展了FGSM,设计了基本迭代法(BIM)。[12]中提出了BIM的一个变体,将动量集成到其中。DeepFool[29]试图根据到超平面的距离找到最小扰动在[31]中,作者介绍了一种基于Jacobian的显着图攻击。[27]中提出了投影梯度下降(PGD)作为多步攻击方法。CW攻击是一种基于边缘的攻击,在[4]中提出。最近,Croce等人介绍了一种名为AutoAttack的无参数攻击[10],7660−i=1LLL··联系我们ΣΣLND{}其是PGD攻击的两个建议的无参数版本和其它两个互补攻击的集合,即,FAB [9]和Square Attack [1]。它评估每个样本的基础上,其最坏的情况下,在这四个不同的攻击,其中包括白盒和黑盒的。除了加法攻击之外,[14,15,20]表明即使是小的几何变换,例如仿射或投影变换也可以欺骗分类器。除了对模型输入图像的攻击外,还尝试设计可以在物理世界中欺骗模型的对抗补丁[13,19,23]。在硬币的另一面,对抗性攻击也可以用来提高模型性能[44,25,30]。对抗性辩护。基于对抗性训练的模型,其目的是最小化最强对抗性样本的分类损失(在一个球内的最大损失),被认为是最有效和最广泛使用的防御方法之一在实践中,他们迭代地生成对抗性的训练样本在[16]中,Goodfellowet al.生成的对抗性的例子FGSM,而Madry等人。[27]在对抗训练中使用了投影梯度下降(PGD)攻击。近年来提出了许多基于对抗训练的变体。例如,[35]同时计算攻击的梯度和模型参数的梯度,并显着减少了计算时间。对抗性logit配对[21]限制干净图像及其对抗性示例的logit之间的距离,而[28]和[52]在干净图像,其对应的对抗性示例和阴性样本之间建立了一个三元组损失。TRADES [51]优化了鲁棒性和准确性之间的权衡。在[41]中,作者设计了一种具有对抗性图像和对抗性标签的对抗性训练在[49]中,在潜在空间中使用特征散射来生成对抗性示例,并进一步提高了模型Xie等人[45]提出了特征去噪模型,通过在体系结构中添加去噪块来防御攻击。大多数现有的基于对抗训练的模型3该方法在本节中,我们详细介绍了我们提出的AGKD-BML模型的框架。如图2所示,AGKD-BML框架由两个模块组成,即注意力引导知识提取(AGKD)模块和双向攻击度量学习(BML)模块。AGKD模块用于将干净图像的注意力知识提取到学生模型中,得到一个更好的注意力地图对抗的例子,以及纠正损坏的中间特征。BML模块通过使用双向度量学习有效地正则化特征空间中的表示。在本节的其余部分,我们首先简要介绍了标准的对抗训练(AT)和(非)针对性对抗攻击,然后描述了我们提出的模型的两个模块以及它们的集成。3.1预赛我们首先简要描述了标准的对抗训练(AT)[27]。假设我们有一个标记的C类分类数据集=(x,y)的N个样本,其中标签y1,2,. . .、C.存在两种类型的对抗攻击,即,非目标攻击和目标攻击,其可以被公式化为Eq.(1)和(2)分别为:Max(f θ(x+ δ),y)(1)δ∈∆min(f θ(x+ δ),y t)(2)δ∈∆其中δ是添加到图像x的扰动,∆提供扰动的l∞范数界,fθ()和()分别表示具有模型参数θ和损失函数的网络。非目标攻击在给定正确标签y的情况下使损失函数最大化,而目标攻击在给定目标标签y t的情况下使损失函数最小化。标准AT在训练期间使用非目标PGD(投影梯度下降)攻击[27],其可以是公式称为最小-最大优化问题:专注于利用对抗性示例的训练模型,这些示例可能会被损坏,但尚未探索minθEx∈DMax(f θ(x+ δ),y)(3)δ∈∆来自在干净图像上训练的模型的信息。其他对抗性防御模型。在[26,46]中,作者提出首先检测并拒绝对抗性示例。提出了几种方法,通过使用生成模型来估计干净Cohen等人[7]提出使用随机平滑来提高对抗鲁棒性。也有一些工作利用大规模外部未标记数据来提高对抗性鲁棒性,例如,[5][39]。在本文中,我们专注于提高模型本身的对抗鲁棒性,而不使用外部数据或预处理的测试数据。在目标函数中,外部最小化是模型参数的更新,而内部最大化是为了产生对抗性攻击。具体而言,PGD用于生成攻击,这是一种在开始时随机开始的在本文中,在[41]之后,我们在训练期间使用有针对性的攻击,其中最令人困惑的类作为目标类。3.2注意力引导的知识提炼为了提取干净图像的注意信息到学习模型中,我们提出了一种注意引导知识7661·FF图2.所提出的AGKD-BML模型的框架。左上角是属于“狗”的干净图像,左下角是其对抗性示例(AE)针对其最令人困惑的类别“猫”的攻击。类似地,右上和右下分别是“猫”及其AE目标“狗”的干净图像 AE将通过以下方式欺骗模型:1)关注不正确的区域,2)越过特征空间中的决策边界。注意力引导的知识蒸馏(图示为绿色椭圆)用于校正聚焦区域。双向度量学习(在“特征空间”中用红色箭头表示更好地看到颜色。蒸馏模块图1示出了干净图像(“德国牧羊犬”)及其对抗性示例(“天文馆”)的注意力地图。作为一个类相关的注意力地图,Grad-CAM [34]显示了与特定类相关的聚焦区域。从图中我们可以看出,尽管对抗性示例降低了原始类的注意力图,但它更大程度地伤害了目标(不正确)类的注意力图,并且使不正确类的特征我们认为,只有提取类相关的注意信息,纠正目标类的功能有限的影响。因此,我们建议提取干净图像的类无关注意信息我们提供更多的解释和讨论,以证明我们在补充材料中的选择。3.2.1类无关注意图我们在最后一个卷积层生成类无关注意力图。具体来说,我们将骨干神经网络直到最后一个卷积层视为特征提取器,由给定图像x的F(x)表示,其中F(x)∈RC×H×W.然后,我们生成一个操作符,表示为通 过 A( ·) 将 特 征 映 射 到 二 维 注 意 力 映 射 A (F(x))∈R1×H×W.在本文中,我们模拟-通过通道维度(或相同的权重1×1卷积),ply挑选平均池化作为A。3.2.2知识蒸馏知识蒸馏(KD)[18]利用学生-教师(S-T)学习框架将从教师模型学到的信息转移到学生模型。在本文中,我们对待训练的自然干净的图像的标准训练的模型作为教师模型和一个下的对抗性训练的学生模型。注意力信息是我们期望从教师模型转移到学生模型的信息。 由于教师模型是在具有高测试精度的干净图像上训练的,因此它能够提供模型应该关注的正确区域。因此,由教师模型提取的干净图像的注意力图将转移到学生模型。这种注意力引导的知识蒸馏的损失函数被写为:LKD(xt,xs)=D(A(Ft(xt)),A(Fs(xs)(4)其中,Xt和Xs分别是教师模型和学生模型的输入图像,并且t和s分别是教师模型和学生模型的特征提取器D()是距离函数(例如,l1)来测量这两个注意力图之间的相似性举一个反例7662基督教青年会不S基督教青年会Si=1x,xSL基督教青年会·Bǁ ǁ ǁ ǁSS基督教青年会S×X/xDMCLAGKD引导学生模型关注相同的第一项,其中第一项表示远期的AGKD损失区域作为其干净的图像。攻击对,即,x和x,而第二项表示3.3双向攻击度量学习在我们的工作中,我们使用有针对性的攻击,以获得对抗性的例子。 设xs表示带有标签y=s的样本,xs表示带有目标标签yt=t的xs的对抗性示例。在本文中,前向对抗示例针对最易混淆的类,其定义如下:反向攻击对,即, xy_mc和xy_mc,通过结合传统对抗训练中使用的标准交叉熵损失、BML损失和AGKD损失,最终总损失为:L总=Lce+LAGKD+LBML(9)AGKD-BML模型的整个过程如算法所示。1.一、y mc= arg min L(f(x s),y). (五)y/=s给定一个原始的干净图像xs,我们首先生成针对其最易混淆类的目标对抗性示例xs然后,我们从最令人困惑的类中随机选择一个样本xymc,并生成其对抗性示例xymc,该示例的目标是原始标签s。我们利用算法一:AGKD-BML模型输入:干净图像集、时期数N、批次大小b、学习率γ输出:网络参数θ对于epoch = 1,...,N是否对于小批量{xi,yi}bdoS s基督教青年会,xymc作为阳性、锚点和阴性样本,re-34初始化return0;对于样本1xs属于类sdo分别为。三重态损失定义为:Ltr(xa,xp,xn)5(六)a.找到它的MC类ymc由Eq. 5、从类y_mc中采样一个数据x_y_mc;= [d(E(xa),E(xp))-d(E(xa),E(xn))+m]+,6b1。获得xs通过攻击xs到ymc;其中x,x,x表示正、锚和负7B2.获得x ymc 通过攻击x ymc 到s;阿平样品,分别。 E()是来自8的模型的倒数第二层。d(a,b)表示距离9在两个嵌入a和b之间,其被定义为10角距离d(a,b)= 1 - 1|”[28]。|, following [28]. 男性11例c. 通过等式2计算LBML。7;d. 通过Eq.8个;e. 通过等式计算L总9;f. 更新L批次=L批次+1L总计。一个2 B2就是保证金与先前的度量学习12进行比较updateθ=θ−γ·θL批次基于对抗训练,例如,[28][29][29][29][29]13 return0;考虑前向对抗的例子,我们同时考虑前向和后向对抗的例子。因此,我们称之为双向度量学习。通过在嵌入上添加l2范数正则化最终的BML损失函数被写为:LBML= λ1Ltr(xy,x s,x ymc)+λ2Lnorm,(7)其中norm= E(x s)2+E(x s)2+E(x ymc)2是归一化项,λ1和λ2是折衷两个损失的重量。3.4两个模块我们将注意力引导的知识提取和双向度量学习结合在一起,以从这两个模块中获益。当我们考虑双向对抗攻击时,我们有两个干净/对抗图像对,4实验4.1实验设置数据集我们在两个流行的数据集上评估我们的方法:CIFAR-10和SVHN。CIFAR-10由60 k三通道彩色图像组成,大小为32 32,分为10类,其中50 k图像用于训练,10 k图像用于测试。SVHN是街景门牌号数据集,其中有73257张用于训练的图像和26032张用于测试的图 像 。 我 们 在 更 大 的 数 据 集 上 评 估 模 型 : TinyImageNet,结果显示在补充材料中。比较方法我们使用比较方法-SS基督教青年会以及xymc/xymc。对于这两对,我们应用包括:(1)不设防模型(UM),其中模型接受标准培训;(2)对抗训练7663SSsSMCAGKD从教师模型获得的干净图像的注意力图到学生模型,其可以被表示为:ymcymcLAGKD=LKD(x,xy)+LKD(x,x )(8)(AT)[27],其使用非靶向PGD对抗样本(AE)进行训练;(3)单向度量学习(SML)[28];(4)双边[41],在图像和标签上生成AE;(5)特征散射7664∼(FS)[49],其中用于训练的对抗性攻击在潜在空间中以特征散射生成;(6)和(7)分别在TRADES [50]和MART [43]上利用通道激活抑制(CAS)[3],与原始版本相比表现出优越性注意,双边FS通过在训练中使用单步攻击来生成AE,而AGKD-BML使用2步攻击,为了与这些多步攻击模型进行比较,我们还训练了AGKD-BML的7步攻击变体,称为“AGKD-BML我们使用各种攻击测试模型,包括FGSM [16],BIM[23],PGD [27],CW [4],MIM [12]不同的攻击迭代。我们还使用AutoAttack(AA)[10]以每个样本的方式评估模型,这是四种不同攻击的集合最后,我们还测试了模型的黑盒对抗鲁棒性。在 [27] 和 [28] 之 后 , 我 们 使 用 Wide-ResNet( WRN-28-10 ) [48] , 并 将 初 始 学 习 率 γ 设 置 为CIFAR-10的0.1和SVHN的0.01。我们使用与[41]和[49]相同的学习率衰减点,其中CIFAR-10的衰减时间表 [100 , 150] 和 SVHN 的 [60 , 90] , 总共有 200 个epoch。 在训练阶段,扰动预算ε= 8并且label平滑等于0.5,遵循[49]。在AGKD模块中,我们采用l1范数来度量注意图之间的相似性.对于BML模块,参数与[28] 相同,即,余量m= 0。03 ,λ1= 2和λ2= 0。001。4.2对抗鲁棒性我们评估了模型的对抗鲁棒性,并在表1中报告了比较。“干净”图像上的结果如表1所示,AGKD-BML总体上优于CIFAR-10的比较方法。AGKD- BML在SVHN数据集上也表现出更好的对抗鲁棒性,具有很大的裕度。有趣的是,在表1中,我们观察到AGKD-BML对不同的攻击表现出不同的优势,即AGKD-BML在7步攻击下的攻击性能高于2步攻击下的攻击性能,但在常规攻击下的攻击性能要低得多。PGD和CW。我们认为,造成这种现象的原因是,与常规攻击相比,AA是四种不同类型的攻击的集合,包括白盒和黑盒攻击,这需要对不同类型的攻击进行防御的泛化能力。7步攻击的产生显著地增加了AE用于训练,因此,它提高了对AA的鲁棒性,同时牺牲了对常规攻击的准确性。另一方面,两步攻击的生成更多地关注常规攻击,但多样性较低,这使得它对AA的性能较低。作为一种经验性的防御方法,我们认为由小步长攻击训练的模型在一些已知对抗性攻击的场景中仍然是有用的。在补充资料中,我们提供了更多的AGKD-BML模型训练对AA的大数步攻击的结果。4.3消融研究我们在CIFAR-10数据集上分析了AGDK-BML的每个组分的消融效果。定量和定性结果分别示于表2和图3中 。 “UM” 、 “AT” 和 “SML” 是 上 述 相 同 的 模 型 。“BML” denotes the “AGKD”表示在没有任何度量学习的情况下应用注意力地图引导的知识提取的模型。在图3中,我们提供了t-SNE图,以显示特征空间中的样本表示。不同颜色的三角形点代表不同类别的干净图像我们示出了来自两类的AE(即,鹿和青蛙)。“UM”显示了如果模型没有任何防御,对抗性攻击的行为。简单的一步攻击FGSM使UM的准确率下降PGD-20和CW-20,将其精度降至0%。在图3的第一列中也是可视化的,其中所有AE都远离其原始类别,并且适合于其他类别的分布。作为一个标准的基准防御模型,双向度量学习的效果它们之间的区别在于SML只考虑前向攻击,而BML既考虑前向攻击又考虑后向攻击。在图3的第二列和第三列中,我们可以看到SML确实将许多AE拉回到它们的原始类,即,第一行为紫色,第二行为青色然而,SML的一个副作用是,它使类与干净的图像混淆,从而可能使干净图像的准确性显著下降。相比之下,BML在不同类别之间保持更好的分离,并且与SML相比具有更少量的位于远处的AE。它证明了双向战略的好处。单独使用“AGKD”的注意引导知识提取效果通过整合AGKD和7665表1. CIFAR-10和SVHN在不同广泛使用的攻击下的评估结果。对于CIFAR-10数据集,我们在训练中将模型按小数目或大数目步骤攻击进行分组。“Bilateral” and “FS” use one-step attack, AGKD-BML uses two-step attack, and “AGKD-BML-7”是AGKD-BML的一个变种,使用7步攻击进行训练。每个组的最佳准确度以粗体示出,并且突出显示总体最佳准确度。CIFAR-10攻击(步骤)清洁FGSMBIM(7) PGD(20)PGD(100)中文(简体)简体中文AA [10]嗯百分之九十五点九九31.39%0.38%0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比双边[41]百分之九十一点二百分之七十点七-百分之五十七点五百分之五十五点二百分之五十六点二百分之五十三点八百分之二十九点三五第四十九章百分之九十百分之七十八点四-百分之七十点五百分之六十八点六62.4%百分之六十点六36.64%AGKD-BML91.99%76.69%73.81%71.02%70.72%63.67%62.55%37.07%AT-7 [27]86.19%62.42%54.99%45.57%45.22%46.26%46.05%44.04%SML-7 [28]86.21%58.88%52.60%51.59%46.62%48.05%47.39%47.41%TRADES+CAS-10 [3]85.83%65.21%-55.99%-67.17%-48.40%MART+CAS-10 [3]86.95%63.64%-54.37%-63.16%-48.45%AGKD-BML-786.25%70.06%64.97%57.30%56.88%53.36%52.95%50.59%SVHN攻击(步骤)清洁FGSMBIM(10)PGD(20)PGD(100)中文(简体)简体中文MIM(40)嗯百分之九十六点三六46.33%1.54%0.33%0.22%0.37%0.24%5.39%双边[41]百分之九十四点一百分之六十九点八-百分之五十三点九百分之五十点三-48.9%-第四十九章百分之九十六点二百分之八十三点五-62.9%52.0%61.3%百分之五十点八-AT-7 [27]91.55%67.13%54.03%45.64%44.02%47.14%45.66%52.13%SML-7 [28]百分之八十三点九五70.28%57.58%51.91%49.81%51.25%49.31%43.80%TRADES+CAS-10 [3]91.69%70.79%-55.26%-60.10%--MART+CAS-10 [3]百分之九十三点零五70.30%-51.57%-53.38%--AGKD-BML百分之九十五点零四89.32%75.06%74.94%69.23%69.85%62.22%76.86%7666图3. t-SNE图用于说明特征空间中的样本表示。不同颜色的三角形点代表不同类别的干净图像,红色圆点是PGD-20攻击下的对抗示例最好用彩色观看和BML,建议AGKD-BML获得最好的perfor-mance方面的定量和定性结果。在图3的第四列中,AGKD-BML将大多数AE拉回到它们的原始类,同时保持更好的类之间的分离比BML更好。我们还提供了由图4中与AT相比,AGDK-BML获得了更好的注意图,与AT的注意图更加一致7667表2. CIFAR-10数据集上的消融研究。FGSMPGD(20)中文(简体)嗯31.39%0%的百分比0%的百分比[27]62.42%45.57%46.26%SML [28]58.88%51.59%48.05%BML71.08%60.51%56.53%AGKD75.57%65.93%60.71%AGKD-BML76.69%71.02%63.67%干净的图像。这表明AGKD确实有助于校正特征空间中AE的表示。图4. (a)对抗性示例。(b)从干净图像获得的注意力地图,其被视为地面实况。(c)和(d)是由AGDK-BML和AT获得的注意力图不同的攻击迭代和预算我们评估了不同PGD攻击迭代下的模型鲁棒性,以及不同的攻击预算(),其中固定的攻击迭代为20.如图5所示,AGKD-BML始终优于两种比较方法,即,特征分散(FS)[49]和标准AT,在所有攻击迭代次数高达100和所有攻击预算高达ε= 20上。此外,AGKD-BML还显示出对大攻击预算的更鲁棒性,因为准确度下降明显小于其他两种比较方法。图5.不同攻击迭代和扰动预算下的准确度(g)。表3. 黑盒对抗鲁棒性。[27]第四十九章双边[41]美国[28]百分之八十五点四百分之八十八点九百分之八十九点九86.4%百 分 之九十点七五4.4黑盒对抗鲁棒性为了评估黑盒对抗鲁棒性,即,在攻击者不知道模型的情况下,我们通过使用自然模型在PGD-20攻击下为CIFAR-10测试集中的每个干净图像生成AE,其中ε=8。然后,在生成的对抗性示例数据上测试AGKD-BML模型以及比较如表3所示,AGKD-BML模型在模型中实现了最佳准确度,表明AGKD-BML对黑盒攻击也是鲁棒的。4.5讨论基于[2]中的分析,我们声称我们的模型的鲁棒性不是来自梯度混淆,原因如下:1)在表1中,迭代攻击比一步攻击(FGSM)更强2)图5示出了在具有更多步骤或增加扰动预算的攻击下准确度单调下降3)表3示出了黑盒攻击具有比白盒攻击更低的成功率(更高的准确度)。4)我们针对无梯度攻击[40]评估了我们的模型,准确率为88.67%,高于基于梯度的攻击(PGD20为71.02%5结论我们提出了一种新的基于对抗训练的模型,称为AGKD-BML,它集成了两个模块,即注意力引导的知识提取模块和双向度量学习模块。第一个模块将干净图像的注意力知识从教师模型转移到学生模型,以指导学生模型获得更好的注意力图,并校正被对抗性示例破坏的中间特征。第二模块有效地正则化特征空间中的表示,通过缩短原始图像与其前向对抗样本之间的表示距离,同时扩大前向和后向对抗样本之间的距离。在两个流行的数据集上进行的广泛的对抗性鲁棒性实验表明,我们提出的AGKD-BML模型一致地优于最先进的方法。谢谢。 这项工作得到了美国的支持。能源部、科学办公室、高能物理部,奖项号DE-SC-0012704和布鲁克海文国家实验室LDRD #19 -014,部分获得国家科学基金会奖IIS-2006665。7668引用[1] Maksym Andriushchenko , Francesco Croce , NicolasFlam-marion,and Matthias Hein.广场攻击:通过随机搜索的高效查询黑盒对抗攻击。参见ECCV,第484-501页。Springer,2020年。[2] Anish Athalye,Nicholas Carlini,and David Wagner.模糊的梯度给人一种错误的安全感:规避对对抗性示例的防御。在ICML,第274-283页,2018年。[3] Yang Bai,Yuyuan Zeng,Yong Jiang,Shu-Tao Xia,Xingjun Ma,and Yisen Wang.通过信道激活抑制提高对抗鲁棒性。ICLR,2021年。[4] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全和隐私研讨会(SP),第39-57页[5] Yair Carmon , Aditi Raghunathan , Ludwig Schmidt ,Percy Liang,and John C Duchi.未标记数据提高了对抗鲁棒性。NeurIPS,2019。[6] Minhao Cheng,Qi Lei,Pin-Yu Chen,Inderjit Dhillon,and Cho-Jui Hsieh. Cat:定制对抗训练以提高鲁棒性。arXiv:2002.06789,2020。[7] Jeremy Cohen,Elan Rosenfeld,and Zico Kolter.通过随机平滑验证对抗鲁棒性。在ICML,第1310-1320页[8] Ronan Collobert和Jason Weston自然语言处理的统一架构:具有多任务学习的深度神经网络。在ICML,第160-167页[9] 弗朗切斯科·克罗齐和马蒂亚斯·海因。具有快速自适应边界攻击的最小失真对抗示例。在ICML,第2196-2205页[10] 弗朗切斯科·克罗齐和马蒂亚斯·海因。 可靠的评估对抗鲁棒性与不同的参数自由攻击的合奏。在ICML,第2206-2216页[11] Gavin Weiguang Ding、Yash Sharma、Kry Yik Chau Lui和Ruitong Huang。MMA培训:通过对抗训练直接输入空间裕度最大化。在ICLR,2020年。[12] Yinpeng Dong , Fangzhou Liao , Tanyu Pang , HangSu,Jun Zhu,Xiaolin Hu,and Jianguo Li.给敌对的进攻增加动力。在CVPR中,第9185-9193页[13] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。在CVPR中,第1625- 1634页[14] 阿尔侯赛因·法齐和帕斯卡·弗罗萨德。Manitest:分类器真的是不变的吗?在BMVC,第106.1-106.13页[15] Ian Goodfellow、Honglak Lee、Quoc Le、Andrew Saxe和 Andrew Ng 。 测 量 深 度 网 络 中 的 不 变 性 。 在NeurIPS,第646-654页[16] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。2015年,国际会议。[17] GeoffreyHinton,Li Deng,Dong Yu,George E Dahl,Abdel-rahman Mohamed , Navdeep Jaitly , AndrewSenior ,Vincent Vanhoucke , Patrick Nguyen , Tara NSainath,et al.用于语音识别中声学建模的深度神经网络:四 个 研 究 小 组 的 共 同 观 点 。 IEEE Signal processingmagazine,29(6):82[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv:1503.02531,2015。[19] Lifeng Huang , Chengying Gao , Yuyin Zhou , CihangXie,Alan L Yuille,Chinging Zou,and Ning Liu.对目标探测器的通用物理伪装攻击。在CVPR,第720-729页[20] Can Kanbak 、 Seyed-Mohsen Moosavi-Dezfooli和 PascalFrossard。深度网络的几何鲁棒性:分析和改进。在CVPR中,第4441-4449页[21] Harini Kannan、Alexey Kurakin和Ian J.古德费罗对抗性logit配对。arXiv:1803.06373,2018。[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NeurIPS,第1097-1105页[23] Alexey Kurakin,Ian Goodfellow,and Samy Bengio.物理世界中的对抗性例子。ICLR Workshop,2017.[24] Pengcheng Li , Jinfeng Yi , Bowen Zhou , and LijunZhang.通过具有三重丢失的对抗性训练来提高深度神经网络的鲁棒性arXiv:1905.11713,2019.[25] Ping Liu , Yuwei Lin , Zibo Meng , Lu Lu , WehongDeng,Joey Tianyi Zhou,and Yi Yang.点对抗自挖掘:一种简单的面部表情识别方法。IEEE Transactions onCybernetics,第1-12页[26] Jiajun Lu,Theerasit Issaranon,and David Forsyth. Safe-tynet:稳健地检测和拒绝对抗性样本在ICCV,第446-454页[27] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。对抗攻击的深度学习模型。在ICLR,2018年。[28] Chengzhi Mao , Ziyuan Zhong , Junfeng Yang , CarlVondrick,and Baishakhi Ray.对抗鲁棒性的度量学习。在NeurIPS,第480-491页[29] Seyed-Mohsen Moosavi-Dezfoooli , Alhussein Fawzi ,and Pascal Frossard. Deepfool:欺骗深度神经网络的简单而准确的方法。在CVPR中,第2574-2582页,2016年。[30] 潘平波,刘平,严严,杨天宝,杨毅。用于结构化预测的对抗局部能量网络。在AAAI人工智能会议论文集,第34卷,第5347-5354页[31] Nicolas Papernot、Patrick McDaniel、Somesh Jha、MattFredrikson、Z Berkay Celik和Ananthram Swami。深度学习在对抗环境中的局限性。IEEE欧洲安全和隐私研讨会,第372- 387页[32] Adnan Siraj Rakin,Zhezhi He,and Deliang Fan.位翻转攻击:具有渐进位搜索的破碎神经网络。在ICCV,第1211-1220页[33] Leslie Rice Eric Wong和Zico Kolter过拟合在adversarially鲁棒的深度学习中。在ICML,第8093PMLR,2020年。[34] Ramprasaath R Selvaraju,Mi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功