没有合适的资源?快使用搜索试试~ 我知道了~
16443重新审视对抗性鲁棒性蒸馏:强大的软标签让学生更好Bojia Zi1,2*,ShihaoZao1,2*,Xingjun Ma3†,Yu-Gang Jiangg1,2†1复旦大学计算机学院上海市智能信息处理重点实验室2上海智能视觉计算协同创新中心3澳大利亚吉朗迪肯大学信息技术学院摘要对抗性训练是训练鲁棒的深度神经网络以对抗对抗性攻击的一种有效方法。虽然能够带来可靠的鲁棒性,但对抗训练(AT)方法通常倾向于高容量模型,即,模型越大,鲁棒性越好。这倾向于限制它们在小模型上的有效性,这在存储或计算资源非常有限的场景中更优选(例如,移动设备)。在本文中,我们利用知识蒸馏的概念,提高小模型的鲁棒性,通过蒸馏,从对抗训练的大模型。 我们首先从蒸馏的角度重新审视几种最先进的AT方法,并确定一种可以提高稳健性的常用技术:鲁棒软标签的使用-鲁棒模型的预测。根据这一观察,我们提出了一种新的对抗鲁棒性蒸馏方法,称为鲁棒软标签对抗蒸馏(RSLAD),以训练鲁棒的小学生模型。RSLAD充分利用了由强大的(对抗训练的)大型教师模型产生的强大软标签,以指导学生我们通过经验证明了我们的RSLAD方法在现有对抗性训练和蒸馏方法中的有效性我们还提供了一组对我们的RSLAD的理解和强大的软标签对抗性的鲁棒性蒸馏的重要性。代码:https://github.com/zibojia/RSLAD。1. 介绍深度神经网络(DNN)已成为解决复杂现实世界学习问题的标准模型,例如图像分类[25,19],语音识别[25,19* 同 等 贡 献 : 子 博 佳 ( bjzi19@fudan.edu.cn ) 和 赵 世 豪(shzhao19@fudan.edu.cn)† 与 马 兴 军 ( daniel.ma@deakin.edu.au ) 和 蒋 玉 刚(ygj@fudan.edu.cn)的自然语言处理[45]。然而,研究表明DNN容易受到对抗性攻击[43,15],其中输入上的不可感知的对抗性这引起了对DNN在安全关键场景(诸如自动驾驶[13,7,11]和医疗诊断[31])中的部署的安全性担忧。已经提出了不同类型的方法来保护DNN免受对抗性攻击[22,30,32,26,57,48],其中对抗性训练(AT)被认为是最有效的方法[2,10]。AT可以被认为是一种数据增强技术,其制作用于模型训练的自然示例的对抗版本。AT通常被公式化为最小-最大优化问题,其中内部最大化生成对抗性示例,而外部最小化优化内部最大化期间生成的对抗性示例上的模型虽然能够带来可靠的鲁棒性,但AT方法具有可能限制其在某些应用场景中的有效性的若干缺点。可以说,最显著的缺点是其对高容量模型的渴求,即,模型越大,鲁棒性越好[49,44,35,16]。然而,存在其中小型和轻量模型比大型模型更优选一个示例是在具有有限存储器和计算能力的设备中部署小型DNN,例如智能手机和自动驾驶车辆[37]。这激发了知识蒸馏与AT的使用,通过从强大的大型模型中提取来提高小型DNN的鲁棒性[14,3,8,62],这一过程被称为Ad- versarial Robustness Distillation(ARD)。在本文中,我们建立在AT和ARD之前的工作基础上,并研究了通过蒸馏可以提高小型DNN鲁棒性的关键因素。我们比较了几种最先进的AT方法所采用的损失函数,并确定了改进的鲁棒性背后的一种常见技术:使用对抗训练模型的预测。我们将这种类型的监督表示为16444LLLLL-LLL鲁棒软标签(RSLs)。与原始的硬标签相比,RSLs可以更好地表示教师模型的鲁棒行为这一观察促使我们设计一种新的ARD方法,以充分利用RSLs在提高小学生模型的鲁棒性方面的能力综上所述,我们的主要贡献包括:• 我们发现,存在于对抗训练方法中的隐式蒸馏过程是促进鲁棒性的有用功能,并且使用鲁棒软标签可以提高鲁棒性。• 我们提出了一种新的对抗性鲁棒性提取方法称为鲁棒软标签对抗性提取(RSLAD),该方法应用鲁棒软标签来替换其所有监督损失项中的硬标签。• 我们经验性地验证了RSLAD在提高小型DNN对最先进攻击的鲁棒性方面我们还提供了一个全面的了解我们的RSLAD和稳健的软标签的稳健性蒸馏的重要性。2. 相关工作2.1. 对抗性攻击给定具有已知参数的DNN模型,对抗性示例(或攻击)可以通过快速梯度符号方法(FGSM)[15],投影梯度下降(PGD)[32],Carlini和Wagner(CW)攻击[5]以及许多其他方法来制作。最近开发了几种攻击,以产生更可靠的防御模型的对抗性鲁棒性评估。这些方法旨在有效地避免不适当防御模型中的微妙梯度掩蔽或模糊效应。自动攻击(AA)[10]是四种攻击方法的 集 合 , 包 括 自 动 PGD ( APGD ) , 对 数 比 差(DLR)攻击,FAB攻击[9]和黑盒方形攻击[1]。AA合奏可以说是迄今为止最强大的攻击。2.2. 对抗训练对抗性训练被认为是防御对抗性样本的最有效的方法。最近,一些理解[30,21,12,59,61]和方法-ods [32、57、48、52、51、34、17、18、4]已在这一领域提出。对抗训练可以被公式化为以下最小-最大优化问题:arg minmin(f(x′,θ),y)θ其中f是具有参数θ的DNN模型,x’是自然示例x在有界Lp距离ε内的对抗示例,min是外部最小化的损失,max是内部最大化的损失。 最常用的L p范数是L ∞范数。在标准对抗训练(SAT)[32]中,两个损失min和max被设置为相同的损失,即,最常用的交叉熵(CE)损失。内部最大化问题通过PGD攻击来为了简单起见,我们在本文的其余部分省略了损失函数中的θ为进一步提高可持续发展评估小组的效力,提出了一系列工作建议。这包括使用更广泛和更大的模型[49],额外的未标记数据[6],主适应(自然域与对抗域)[40],通过使用Kull-back-Leibler(KL)散度损失最大值在鲁棒性和准确性之间进行理论上原则性的权衡(称为TRADES),通过错误分类感知广告训练(MART)强调错误分类的示例[48]、通道激活抑制(CAS)[4]和对抗权重扰动[50]。通常,在这些工作中已经发现的可以有助于鲁棒性的元素包括大模型、更多数据以及使用KL损失用于内部最大化。AT方法并不完美。现有AT方法的一个显著缺点是模型越小,鲁棒性能越差[16]。通常很难提高小模型(如ResNet-18 [19]和MobileNetV 2 [37])的鲁棒性,尽管许多上述AT方法可以为大模型(如WideResNet-34-10 [57,48]和WideResNet- 70-16 [16])带来相当大的鲁棒性改进。这往往会限制它们在存储或计算资源有限的场景中的有效性在本文中,我们利用知识蒸馏技术,以提高小模型的鲁棒性和改进现有的对抗性的鲁棒性蒸馏方法。2.3. 知识蒸馏知识蒸馏(KD)是用于深度神经网络压缩的一种众所周知的方法,其将大型DNN的知识蒸馏成小型、轻量级的学生DNN [20]。给定训练良好的教师网络T,KD通过解决以下优化问题来训练学生网络Sargmin(1 α)(S(x),y)+ατ2KL(Sτ(x),Tτ(x)),(2)θS其中KL是Kullback-Leibler散度,τ是tem-1。`外部最小化x(一)将温度常数添加到softmax操作中,L是哪里 x′= arg maxmax(f(x′,θ),y)x' −x`内部max最小化x学生网络与CE的分类损失是一个COM-我的选择。KD已经以不同的方式扩展到各种学习任务,例如噪声16445标签学习[53,60],AI安全[14,3,28]和自然-ral language processing [33,41,29].值得注意的是,一个分支称为自蒸馏近年来引起了相当大的关注[23,58,54]。与传统的KD方法不同,自蒸馏本身教导学生网络,而不是单独的教师网络。KD已经与对抗训练一起应用,以提高学生网络与对抗预训练的教师网络的鲁棒性。教师可以是具有更好鲁棒性的更大模型[14](例如ARD)或与学生共享相同的架构[62](例如IAD)。已经证明,ARD和IAD可以产生比从头开始训练的学生网络更健壮的学生网络,这表明教师网络学习的健壮特征也可以被提取[3]。在本文中,我们将在这些工作的基础上,提出一个更有效的对抗鲁棒性蒸馏方法,以提高小型学生网络的鲁棒性。3. 拟定蒸馏方法在本节中,我们从KD的角度重新审视了最先进的AT和对抗鲁棒性蒸馏方法,并确定了使用鲁棒软标签提高鲁棒性的重要性。然后,我们介绍了我们的RSLAD方法的灵感来自强大的软标签。3.1. 对抗性训练的蒸馏观遵循等式(1)中定义的对抗训练框架,我们在表1中总结了4种最先进的AT方法中使用的损失函数以及学 生 和 教 师 网 络 SAT [32] , TRADES [57] 和 MART[48] ) 和 两 种 对 抗 鲁 棒 性 蒸 馏 方 法 ( 即 ,[14 ][15][16][17][18][19][1与简单地采用原始硬标签来监督学习的SAT相比,TRADES通过KL项利用模型的自然预测,并获得显著的鲁棒性改进[57]。从这个角度来看,TRADES是一个自我升华的过程,教师网络就是学生本身。MART [48]也是一个自蒸馏过程,但重点是通过KL项的(1-fy(x))加权方案的低概率示例。在ARD中,一个更有权力的老师而不是学生本身被用来监督学习。从SAT的无蒸馏、TRADES/MART的自蒸馏到ARD的全蒸馏,稳健性不断提高工作的自然预测在其外部和内部优化过程中,通过KL项。鲁棒教师模型的预测可以被认为是一种鲁棒软标签(RSLs)。以前的工作(以及我们在第4节中的实验)已经表明,TRADES及其变体可以为SAT带来相当大的鲁棒性改进。从蒸馏的角度来看,这种鲁棒性改进来自于使用RSLs,与使用原始硬标签y形成对比。另一方面,对抗性鲁棒性的升华是使学生尽可能地与鲁棒性教师相似。与原始硬标签相比,RSLs定义了教师网络的完整鲁棒行为,从而将教师学到的更鲁棒的知识传达给学生。在第4节中,我们将通过经验证明,与原始硬标签或其他形式的非鲁棒软标签相比,RSLs确实更有利于鲁棒性。ARD在其外部最小化损失中具有KL项,然而,其其他损失项使用原始硬标签。IAD在其两个外部最小化损失项中使用KL项,但内部最大化损失项仍然使用硬标签,留下改进的空间。3.2. 稳健的软标签对抗蒸馏所提出的鲁棒软标签对抗蒸馏(RSLAD)框架在图1中示出,包括与四种现有方法(即,TRADES、MART、ARD和IAD)。我们的RSLAD与现有方法的关键区别在于使用大型教师网络产生的RSLs原始硬标签y在我们的RSLAD中不存在。由于RSLAD中的学生网络仍然使用AT进行训练,因此它也具有内部最大化和外部最小化过程。为了充分发挥RSLs的作用,我们在这两个过程中应用RSLs。表1的最后一行总结了我们的RSLAD使用的损失函数。注意,在我们的RSLAD中,蒸馏方法中通常存在的温度常数固定为τ=1因为我们发现当使用RSLs时它不再是必要的与TRADES、MART、ARD和IAD相同,我们使用自然RSLs(即用于自然示例的鲁棒模型的预测)作为软标签来监督模型训练。我们的RSLAD的整体优化框架定义如下:argmin(1−α)KL(S(x),T(x))+α KL(S(x′),T(x))第四项。IAD [62]也是一种对抗蒸馏方法,它通过使用教师和学生网络的知识θS其中x′=arg maxKL(S(x),T(x))x' −x(三)在这种观点下,我们认为,这些方法中隐含或明确地采用知识蒸馏是其成功的重要原因。SAT和上述其他方法的另一个关键区别是,后者利用了教师网络。其中S(x)和T(x)分别是S(x,θS)和T(x,θT)的缩写。由于由经adversarially训练的教师网络T(x)产生的RSLs也用于监督学生的外部最小值的干净训练部分,因此,可以使用由adversarially训练的教师网络T(x)产生的RSLs来监督学生的外部最小值的干净训练部分最小化,在这里我们用下式替换常用的CE损失16446LLL//表1:从知识升华的角度统一看待6种防御方法min是外部最小化的损失函数,而max是内部最大化的损失函数S和T分别代表学生网络和教师网络TRADES、MART中的λ和ARD、RSLAD中的α是平衡min中两个损失项的参数。τ是添加到softmax操作的温度常数网络成瘾中的β是一个超参数,用于锐化预测。方法LminLmax学生/教师坐CE(f(x′),y)CE(f(x′),y)-交易CE(f(x),y)+λ KL(f(x′),f(x))KL(f(x′),f(x))S:f(·);T:f(·)MartBCE(f(x′),y)+λ(1−fy(x)) KL(f(x′),f(x))CE(f(x′),y)S:f(·);T:f(·)ARD(1−α)CE(Sτ(x),y)+ατ2 KL(Sτ(x′),Tτ(x))CE(S(x′),y)S:S(·);T:T(·)IADTy(x′)βKL(Sτ(x′),Tτ(x))+(1−Ty(x′)β) KL(Sτ(x′),Sτ(x))CE(S(x′),y)S:S(·);T:T(·)RSLAD(我们的)(1−α)KL(S(x),T(x))+α KL(S(x′),T(x))KL(S(x′),T(x))S:S(·);T:T(·)(a) TRADES(b)MARTS不S不不S(c) ARD(d) IAD(e) RSLAD(我们的)图1:拟议的RSLAD框架概述,与包括TRADES、MART、ARD和IAD在内的4种现有方法进行比较。黑色实线箭头表示具有硬标签y的训练;黄色和蓝色虚线箭头分别表示自然和对抗性示例的预测过程;红色实心箭头表示使用鲁棒软标签的蒸馏。S和T分别代表学生网络和教师网络。Pnat和Padv是模型对自然样本xnat和对抗样本xadv的预测。注意,在我们的RSLAD中没有使用硬标签yKL散度来表示两个模型的输出概率之间的分布差异程度RSLAD的目标是学习一个小的学生网络,该网络与对抗性预训练的教师网络一样鲁棒,这也是为了尽可能多地我们注意到,对抗训练中常用的硬标签可能会在一定程度上丢失教师网络学习到的信息,因为将教师的输出概率二值化然而,并非所有软标签都是稳健的。我们将以经验证明,由标签平滑产生的平滑标签或由自然训练的非鲁棒模型产生的软标签蒸馏监督硬标签预测网络16447不能提高鲁棒性。4. 实验我们首先描述了实验设置,然后评估白盒鲁棒性的4个基线防御方法和我们的RSLAD。我们还进行了消融研究,可视化通过不同方法学习的注意力地图,比较3种软标签,并探讨如何选择更好的教师网络。4.1. 实验设置我们在两个基准数据集上进行实验,包括CIFAR-10和CIFAR-100 [24],并考虑516448最佳检查点上次检查点清洁 FGSM PGDSAT PGD交易 CW∞AA清洁 FGSM PGDSAT PGD交易 CW∞AA模型 方法表2:我们实验中使用的教师网络的鲁棒性数据集老师清洁FGSM PGDSATPGD交易CW∞AACIFAR-10 WideResNet-34-1084.92% 60.87% 55.33%56.61%53.98% 53.08%CIFAR-100 WideResNet-34-1057.16% 33.58% 30.61%31.34%27.74% 26.78%CIFAR-100 WideResNet-70-1660.86% 35.68% 33.56%33.99%42.15% 30.03%表3:CIFAR-10数据集的白盒稳健性结果。MN-V2和RN-18分别是MobileNetV 2和ResNet-18的缩写。最大的对抗扰动是ε=8/255。最好的结果是blodfaced。自然94.65%19.26% 0.0%百分之零点零0.0% 0.0%94.65%19.26% 0.0%百分之零点零0.0% 0.0%坐83.38% 56.41% 49.11%51.11%48.67% 45.83% 84.44% 55.37% 46.22%48.72%47.14% 43.64%RN-18交易81.93% 57.49% 52.66%53.68%50.58% 49.23% 82.20% 57.86% 52.30%53.66%50.69% 49.27%ARD83.93% 59.31% 52.05%54.20%51.22% 49.19% 84.23% 59.33% 51.52%53.74%51.24% 48.90%IAD83.24% 58.60% 52.21%54.18%51.25% 49.10% 83.90% 58.95% 51.35%53.15%50.52% 48.48%RSLAD 83.38%60.01% 54.24%55.94%53.30% 51.49% 83.33%59.90% 54.14%55.61%53.22% 51.32%自然92.95%14.47% 0.0%百分之零点零0.0% 0.0%92.78%14.59% 0.0%百分之零点零0.0% 0.0%坐82.48% 56.44% 50.10%51.74%49.33% 46.32% 82.89% 56.43%51.48%49.07% 45.92%MN-V2交易80.57% 56.05% 51.06%52.36%49.36% 47.17% 80.57% 56.05% 51.06%52.36%49.36% 47.17%ARD83.20% 58.06% 50.86%52.87%50.39% 48.34% 83.42% 57.94% 50.63%52.44%50.09% 48.01%IAD81.91% 57.00% 51.88%53.23%50.45% 48.40% 83.49% 57.44% 49.77%51.85%49.41% 46.98%RSLAD 83.40%59.06% 53.16%54.78%51.91% 50.17% 83.11%59.08% 53.04%54.50%51.60% 49.90%基线方法:[2019 - 05 - 17][2019 - 05][2019 - 05学生和教师网络。我们考虑两个学生网络,包括ResNet-18 [19]和MobileNetV 2 [37],以及两个教师网络,包括CIFAR-10的WideResNet- 34-10 [56]和CIFAR-100 的 WideResNet-70-16[16] 。 CIFAR-10 教 师WideResNet-34-10 使 用 TRADES 进 行 训 练 , 而 对 于CIFAR-100,我们使用Gowal等人提供的WideResNet-70-16模型。[16 ]第10段。培训设置。我们使用随机梯度下降(SGD)优化器训练网络,初始学习率为0.1,动量为0.9,权重衰减为2e-4 。 我 们 将 批处 理 大 小 设 置 为 128 。 对 于 我 们的RSLAD,我们将训练周期的总数设置为300,在第215、260和285个周期,学习率除以10。使用随机起始大小为0.001、步长为2/255的10步PGD(PGD-10)来求解我们的RSLAD的内部最大化。对于基线方法SAT、TRADES和ARD,我们严格遵循其原始设置。IAD对教师和学生网络使用相同的结构。在这里,我们通过使用更强大的老师来适应我们的设置来复制他们的方法。对于两个数据集,训练扰动都有界于L∞范数ε=8/255。对于自然训练,我们使用标准数据增强在干净图像上训练网络100个epoch,并且在第75和90个epoch处将学习率除以10评估攻击。在训练之后,我们评估了模型对5种对抗性攻击的影响:FGSM、PGD SAT、PGD TRADES、CW ∞(由PGD优化)和AutoAttack(AA)。PGDSAT攻击是Madry等人[32],而PGDTRADES是Zhang et al.等[57]。它们都是PGD攻击,但它们的超参数不同(例如,步长)。我们认为这两个攻击分别以下卡蒙等人。[6]的文件。注意,这些攻击是对抗性鲁棒性评估中常用的对抗性攻击。对于两个数据集,用于评估的最大扰动也被设置为ε=8/255。PGDSAT、PGDTRADES和CW∞的扰动步长均为20。表2中报告了教师模型对5种攻击的鲁棒性,表明学生模型可以获得的最大除了白盒评估之外,我们还进行将在后面描述的黑盒评估。4.2. 对抗性鲁棒性评估白盒稳健性。我们的RSLAD和其他基线方法的白盒稳健性在表3(CIFAR-10)和表4(CIFAR-100)中报告。根据以前的工作,我们报告的结果,在最好的检查点和最后的检查点。自然训练的最佳检查点(即,在两个表中均显示为如表3和表4所示,我们的RSLAD方法在CIFAR-10和CIFAR-100上证明了在最佳或最后检查点处针对所有5种攻击的最先进的鲁棒性对于ResNet-18,RSLAD将鲁棒性提高了1.74%和1.32%。16449最佳检查点上次检查点清洁 FGSM PGDSAT PGD交易CW∞AA清洁 FGSM PGDSAT PGD交易CW∞AA模型 方法表4:CIFAR-100数据集的白盒稳健性结果。MN-V2和RN-18分别是MobileNetV 2和ResNet-18的缩写。最大的对抗扰动是ε=8/255。最好的结果是blodfaced。自然75.55%9.48% 0.0%百分之零点零0.0% 0.0%75.39% 9.57% 0.0%百分之零点零0.0% 0.0%坐57.46% 28.56% 24.07%25.39%23.68% 21.79% 57.51% 26.41%23.30%22.15% 20.44%RN-18交易 55.23% 30.48% 27.79%28.53%25.06% 23.94% 54.62% 30.06% 27.35%百分之二十八24.34% 23.42%ARD60.64% 33.41% 29.16%30.30%27.85% 25.65% 百分之六十点八六32.64% 28.15%29.34%26.79% 24.74%IAD57.66% 33.26% 29.59%30.58%27.37% 25.12% 58.82% 33.22% 28.50%29.97%26.79% 24.79%RSLAD 57.74% 34.20% 31.08%31.90%28.34% 26.70% 57.82% 34.06% 30.68%31.57%28.16% 26.34%自然74.58%7.19% 0.0%百分之零点零0.0% 0.0%74.58% 7.19% 0.0%百分之零点零0.0% 0.0%坐56.85% 31.95% 28.33%百分之二十九点五26.85% 24.71% 58.50% 32.05% 27.80%28.88%26.74% 24.31%MN-V2交易 56.20% 31.37% 29.21%29.83%25.06% 24.16% 56.56% 31.35% 28.85%29.38%25.00% 24.04%ARD59.83% 33.05% 29.13%30.26%27.86% 25.53% 61.66% 32.98% 27.74%29.33%26.77% 24.34%IAD56.14% 32.81% 29.81%30.73%27.99% 25.74% 58.07% 32.61% 27.55%28.81%26.24% 23.72%RSLAD 百分之五十八点九七34.03% 30.40%31.36%28.22% 26.12% 58.76% 34.02% 30.17%31.14%28.10% 26.31%高级示例老师RSLADIADARD(a) 热图(b)显著性图图2:对抗性示例的注意力和显着性图。教师:WideResNet-34-10,由TRADES培训; ARD:使用ARD和教师网络训练的ResNet-18学生; RSLAD:使用RSLAD和教师网络训练的ResNet-18学生。热图由Grad-Cam[38]生成,而显着图由[39]生成表5:CIFAR-10数据集的黑盒稳健性结果最大的对抗扰动是ε=8/255。最好的结果是blodfaced。方法ResNet-18PGD-20 CW ∞平方MobileNetV2PGD-20 CW ∞平方坐60.84% 60.52% 54.27%60.46% 59.83% 53.94%交易62.20% 61.75% 55.13%60.90% 60.23% 53.46%ARD63.49% 63.05% 56.89%62.13% 61.85% 55.60%IAD62.78% 62.26% 56.62%61.57% 61.25% 55.45%RSLAD 64.11% 63.84% 57.90%63.30% 63.20% 56.70%CIFAR-10和CIFAR-100分别与PGDTRADES攻击下的先前SOTA 相 比 。 对 于 MobileNetV2 , RSLAD 针 对PGDTRADES攻击带来了1.55%和0.63%的改进。这些改进在对抗AutoAttack时更为突出,AutoAttack是迄今为止最强大的攻击。特别是,我们的RSLAD在CIFAR上的ResNet-18学生的表现甚至超过ARD 2.30%-1645010.这验证了我们的RSLAD在训练鲁棒的小型DNN时比所有基线方法更稳定和鲁棒我们还观察到,在所有设置下,TRADES相对于SAT具有明显的优势,但仍然可以在很大程度上被蒸馏方法(即,ARD和我们的RSLAD)。黑盒稳健性。在这里,我们评估我们的RSLAD,SAT,TRADES,ARD和IAD的黑盒鲁棒性。我们测试了传输攻击和基于查询的攻击。该实验在CIFAR-10数据集上进行对于转移攻击,我们使用20步PGD(PGD-20)和CW∞在对抗性预训练的ResNet-50代理模型上制作测试对抗性示例。最大扰动也被设置为8/255。对于基于查询的攻击,我们使用一种强大且查询高效的攻击,即,广场攻击,攻击模型。我们对两个学生模型的最佳检查点(即,ResNet-18和MobileNetV 2)。结果16451··表6:使用我们的RSLAD和ARD变体提取的ResNet-18学生网络的消融研究[14]。ARD-300:在我们的RSLAD设置下进行ARD培训(即 ARD min:ARD的外部最大化部分; ARD max:ARD的内部最小化部分;RSLAD min:我们的RSLAD的外部最小化部分;RSLAD max:RSLAD的内部最大化部分。蒸馏法清洁FGSMPGDSATPGD交易CW∞AA公司简介84.40%59.81%52.36%54.49%51.58%49.70%ARD最小值 +RSLAD最大值84.70%60.77%52.99%54.84%52.09%百分之五十点三五RSLAD最小值+ARD最大值84.44%59.89%53.10%55.01%52.15%百分之四十九点九四RSLAD83.38%60.01%54.24%55.94%53.30%51.49%见表5。如可以观察到的,我们的RSLAD超越所有4个基线方法对所有3个黑盒攻击,证明了我们的强大的软标签蒸馏方法的优越性。不同类型防御方法的总体趋势与白盒设置中的趋势一致:对于健壮的小DNN,TRADES优于SAT,而蒸馏方法优于TRADES。4.3. 全面理解RSLADRSLAD消融 为了更好地理解图2中的显着图(由[39]生成)。如可以观察到的,使用我们的RSLAD训练的学生的注意力地图明显比基线方法ARD和IAD更类似于教师的注意力地图这表明,我们的RSLAD培训的学生确实可以更好地模仿老师,并从老师那里获得了更强大的知识。我们的RSLAD的参数分析可以在附录中找到。4.4. 进一步探索为了使我们的RSLAD的每个组件具有鲁棒性,我们利用ResNet-18学生网络(教师是与上述实验中使用的WideResNet-34-10网络相同的WideResNet-34-10网络)在CIFAR-10上用现有的蒸馏方法ARD进行我们取代内部最大化和外部最小化的损失ARD中使用的RSLAD中使用的,然后测试训练的学生网络的鲁棒性。我们还在RSLAD设置下运行ARD实验300个时期(在原始论文中为200个时期)。消融结果见表6。与ARD相比,当使用内部损耗或外部损耗时,我们的RSLAD有一定的当ARD中的两个损耗都切换到我们的RSLAD损耗时,实现了最佳的鲁棒性。这证实了RSLAD的每个组分的重要性,以及这些组分中使用的坚固的软标签 我们还发现,外部最大化比内部最小化对整体鲁棒性的影响更大:用RSLAD代替ARD的内部部分,标签平滑概率自然概率鲁棒概率10.80.60.40.2010.80.60.40.2010.80.60.40.20SSL = 1 − ∙-,��������������������� +/10.80.60.40.20NSL =-()外面的部分。RSLAD与300个时期训练的基线之间的额外比较可参见附录D。RSLAD学习的注意力图。在这里,我们使用注意力图和显着性图来直观地检查学生学习到的知识与教师网络的知识的相似性。给定相同的对抗性示例,更高的相似性表明更成功的蒸馏和对教师模型更好的对齐鲁棒性。我们以从CIFAR-10数据集上的WideResNet-34-10教师中提取的ResNet-18学生为例,并可视化注意力地图(由Grad-CAM [38]生成)和图3:3种软标签的概率分布。f robust表示鲁棒模型,它是对抗训练模型,f non-robust表示非鲁棒模型,它是标准训练模型。C表示数据集中类的个数,one-hot(,)表示将标签y转换为one-hot向量的函数,α是调整向量最大个数的参数不同类型的软标签在这里,我们比较三种类型的软标签:1)通过标签平滑制作的平滑软标签(SSL)[42];2)由自然训练的教师模型产生的自然软标签(NSL);和3)由对抗性地产生的鲁棒软标签(RSLs)110.80.80.60.60.40.40.20.200RSL=()“飞机”“猫”16452∼×表7:使用我们的RSLAD训练的ResNet-18学生的白盒鲁棒性,其SSL、NSL和RSL)。最好的结果是粗体。使用我们的RSLAD从6个不同的教师网络中提取时,工 作 并 研 究 其 鲁 棒 性 : ResNet-18 、 ResNet-34 、ResNet-50、WideResNet-34-10、WideResNet-34-20和WideResNet-70-16。结果绘制在图4.令人惊讶的是,我们发现,学生我们称这种现象为鲁棒饱和。当教师网络变得过于复杂而学生无法学习时,学生的鲁棒性往往会下降。 如图所示,鲁棒-训练有素的教师模型。这个实验是用ResNet-18学生和WideResNet-34-10教师在CIFAR-10数据集上用我们的RSLAD进行的。两个示例CIFAR-10类的三种类型的软标签的概率分布(即, 与RSL不同,SSL对原始硬标签实施固定的平滑变换,而NSL概率更集中在地面真实标签周围。表7中示出了使用我们的具有这3种类型的软标签的RSLAD训练的学生网络的白盒鲁棒性。一个关键的观察结果是,当使用包括SSL或NSL的非鲁棒标签代替鲁棒标签时,鲁棒性急剧下降这意味着软标签并不都有益于鲁棒性,并且非鲁棒标签,特别是由非鲁棒模型产生的NSL,可以显著地损害鲁棒性蒸馏。当教师网络的复杂性超过WideResNet-34-10时,学生和教师之间的差距会增加。有趣的是,当教师小于WideResNet-34-10时,学生ResNet-18)作为学生。我们将这种现象称为对抗训练方法的鲁棒欠拟合,其中鲁棒性可以通过在使用第一次训练的模型作为教师的同时第二次训练模型来提高。鲁棒欠拟合区域是蒸馏可以帮助提高鲁棒性的地方。当使用WideResNet-34-10(比ResNet- 18大4.5)老师时,ResNet-18学生的鲁棒性最好。这些结果表明,选择一个适度大的教师模型,可以导致最大的鲁棒性增益对抗鲁棒性蒸馏。58.0%56.0%54.0%52.0%百分之五十48.0%RN-18RN -34RN-50 WRN34-10WRN34-20WRN70-165. 结论本文研究了通过知识蒸馏训练小鲁棒模型的问题。我们从蒸馏的角度回顾了几种最先进的对抗训练和鲁棒性蒸馏方法。通过比较它们的损失函数,我们确定了鲁棒软标签(RSLs)的重要性,以提高鲁棒性。基于这一观点,我们提出了一种新的对抗鲁棒性提取方法RoustSoftLabelAdversarialDistillation(RSLAD),以充分利用RSLs的优势。在白盒和黑盒设置下的两个基准数据集上,实验验证了我们还提供了对RSLAD的几个有见地的理解,不同的图4:ResNet-18(RN-18)18) 学生使用我们的RSLAD与6个不同的教师培训。RN:ResNet;警告:WideResNet。RN-18,RN-34,RN-50,WRN-34-10教师使用TRADES进行培训,而其余教师模型来自Gowal等人。[16 ]第10段。该实验在CIFAR-10数据集上进行。如何选择一个好老师? 在这里,我们提供了一些经验性的理解,教师的鲁棒性的学生的影响。我们使用ResNet-18学生网络在CIFAR-10上软标签的类型,更重要的是,教师和学生网络之间的相互作用我们的工作可以帮助构建强大的轻量级深度学习模型。确认这项工作得到了国家自然科学基金(#62032006)和STCSM(#20511101000)的部分资助。对AA攻击的学生AA教师AA软标签最佳检查点清洁PGDTRADES AA上次检查点清洁PGDTRADES AASSL85.67%53.12%47.88% 85.26%49.70%43.92%NSL85.02%百分之四十七点一二42.87% 84.99%46.69%42.08%16453引用[1] Maksym Andriushchenko , Francesco Croce , NicolasFlam-marion,and Matthias Hein.广场攻击:通过随机搜索的高效查询黑盒对抗攻击。在ECCV,2020年。2[2] Anish Athalye,Nicholas Carlini,and David Wagner.模糊的梯度给人一种错误的安全感:规避对对抗性示例的防御。在ICML,2018。1[3] Tao Bai,Jinnan Chen,Jun Zhao,Bihan Wen,XudongJiang,and Alex Kot. 特征提取与引导的对抗性对比学习。arXiv预印本arXiv:2009.09922,2020。第1、3条[4] Yang Bai,Yuyuan Zeng,Yong Jiang,Shu-Tao Xia,Xingjun Ma,and Yisen Wang.通过信道激活抑制提高对抗鲁棒性。在ICLR,2020年。2[5] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。InS P,2017. 2[6] Yair Carmon , Aditi Raghunathan , Ludwig Schmidt ,John C Duchi,and Percy S Liang.未标记数据提高了对抗鲁棒性。NeurIPS,2019。二、五[7] Siheng Chen,Baoan Liu,Chen Feng,Carlos Vallespi-Gonzalez,and Carl Wellington.自动驾驶的3D点云处理和学习:影响地图创建、定位和感知。IEEE SignalProcessing Magazine,38(1):68-86,2020。1[8] 陈天龙、张振宇、刘思佳、常世宇和王张扬。鲁棒过拟合可以通过适当学习的平滑来减轻。ICLR,2021年。1[9] 弗朗切斯科·克罗齐和马蒂亚斯·海因。具有快速自
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功