没有合适的资源?快使用搜索试试~ 我知道了~
4928通过共享对抗训练防御普遍干扰弗莱堡大学德国博世人工智能中心ChaithanyaKumar. de.bosch.com扬·亨德里克·梅森弗莱堡托马斯·布罗克斯大学brox@cs.uni-freiburg.de德国博世人工智能中心janhendrik. de.bosch.com摘要像深度神经网络这样的分类器已经被证明在高维输入空间的问题上容易受到对抗性扰动的影响。虽然对抗性训练提高了图像分类器对这种对抗性扰动的鲁棒性,但它使它们对不可忽略的输入部分的扰动在这项工作中,我们证明了对抗性训练在防止通用扰动方面更有效,其中相同的扰动需要在许多输入上欺骗分类器。此外,我们研究了鲁棒性对普遍扰动和未扰动数据的性能之间的权衡,并提出了一个扩展的对抗性训练,更优雅地处理这种权衡。我们提出了图像分类和语义分割的结果,以展示欺骗对抗性训练硬化模型的通用扰动变得清晰可辨,并显示目标场景的模式1. 介绍虽然深度学习对随机噪声相对鲁棒[11],但它很容易被对抗性扰动所欺骗[44]。这些扰动是由对抗攻击[15,31,5]生成的,这些攻击生成输入的扰动版本,这些版本被分类器错误分类,并且对人类来说仍然已经有不同的方法来解释对抗性例子的属性,并首先提供它们存在的理由[15,45,12,13]。此外,这些扰动已被证明对各种图像变换相对稳健,并且当作为伪影放置在物理世界中时甚至是成功的因此,对抗性干扰可能会对清洁图像高级图像不设防模型高级图像设防模型图1. 共享对抗训练对抗单一干扰的有效性:上一行显示了ImageNet示例,下一行显示了Cityscapes示例。对抗图像的普遍扰动产生的不设防的模型和我们提出的方法共享对抗训练防御模型的干扰。防御模型的分类精度下降不超过5%,但对通用对抗攻击的鲁棒性分别在图像分类和语义分割上增加了3倍和5倍。此外,普遍的扰动变得清晰可见。自治系统,也减少了对原则上容易受到这些扰动的模型的信任。已经提出了几种方法来提高深度网络对对抗性示例的鲁棒性,例如对抗性训练[15,22],虚拟对抗性训练[28],集成对抗性训练[46],防御性蒸馏[36,35],稳定性训练[50],鲁棒优化[25],Parseval网络[7],或者检测并拒绝它们作为恶意[26]。虽然这些方法中的一些在一定程度上提高了对抗性示例的鲁棒性,但分类器仍然容易受到所有防御输入中不可忽略的一部分对抗性扰动的影响[3,47]。大多数工作都集中在提高图像分类任务的鲁棒性上,在这种情况下,对手可以选择4929每个输入的数据相关扰动。这种设置非常有利于对手,因为对手可以制作高维扰动“只是”在单个输入上欺骗模型。在这项工作中,我们认为,有限的成功,在这些条件下增加鲁棒性并不一定意味着鲁棒性不能在其他设置。具体来说,我们专注于对输入不可知扰动的鲁棒性,即通用扰动[29],其中相同的扰动需要在许多输入上欺骗分类器。此外,我们研究了在密集预测任务(如语义图像分割)中对此类扰动的鲁棒性,其中扰动需要在许多决策上欺骗模型,例如,像素分类。数据依赖的对抗性攻击需要提前知道它们的输入,并且需要在线计算来为每个输入生成扰动,而通用攻击则对看不见的输入起作用。先前的工作已经表明,标准模型对普遍扰动(在大多数输入上误导分类器)和对语义分割任务的对普遍扰动的鲁棒性研究是重要的,因为它们为某些物理世界攻击提出了现实的威胁模型:例如,Li等人。[23]表明对手可以在物理相机上安装半透明的对手贴纸,这有效地将通用扰动添加到每个不可见的相机图像。Metzen等人证明了这一点。[27]这种通用扰动可以在语义分割中隐藏附近的行人,这可能允许欺骗紧急制动系统,并且还将在监视场景中构成威胁。然而,这些和类似的结果已经实现了无防御的模型。在这项工作中,我们专注于模型已经被防御机制,特别是对抗训练“硬化”的情况虽然这种技术可以大大提高鲁棒性,但在对扰动的鲁棒性和对未扰动输入的高性能之间存在隐含的权衡。我们表明,显式定制对抗训练的普遍扰动允许更优雅地处理这种权衡。我们的主要贡献如下:(1)我们提出了共享对抗训练,这是对抗训练的一种扩展,可以更优雅地处理干净样本的准确性和对普遍扰动的鲁棒性之间的内在权衡。(2)我们在CIFAR10(ImageNet的子集(有200个类)和Cityscapes上评估了我们的方法,以证明防御模型的普遍扰动变得清晰可见,如图1所示。 (3)我们是第一个将基于对抗性训练的防御扩展到语义分割的公司。(4)我们在CIFAR10上实证证明,所提出的技术在对普遍扰动的鲁棒性方面优于其他防御机制[30,37]。2. 相关工作在这一节中,我们回顾了有关研究普遍扰动和对抗性扰动的SEMANIC图像分割的相关工作。2.1. 泛微扰存 在 用 于 产 生 普 遍 扰 动 的 不 同 方 法 : Moosavi-Dezfooli等人[29]使用DeepFool对手[31]的扩展来生成扰动,这些扰动在来自训练集的最大数量的输入上欺骗分类器。Metzen等人[27]提出了基本迭代对手[22]的类似扩展,用于生成语义图像分割的通用扰动。与以前的作品相比,Mopuri et al.[33]提出了快速特征傻瓜,一种用于生成通用扰动的数据独立方法。在后续工作中[32],他们显示了与Moosavi-Dezfooli等人所实现 的 数 据 独 立 方 法 相 似 的 欺 骗 率 。 [29]第 10 段 。Khrulkov和Oseledets [19]证明了普遍摄动和奇异向量之间的联系在另一条工作线上,Hayes和Danezis [16],Mopuri等人。[40] Poursaeed et al.[38]提出了生成模型,可以训练生成一组不同的(通用)扰动。Moosavi-Dezfooli等人对普适扰动及其性质进行了分析。[30]第30段。他们用决策边界的几何关系证明了对普遍扰动的鲁棒性,并证明了只要决策边界是系统正弯曲的,则存在小的普遍扰动.Jetley等人[18]建立在这项工作的基础上,并提供证据表明,分类器易受普遍扰动影响的方向与对未扰动数据进行正确预测重要的方向一致。他们认为预测能力和对抗性脆弱性密切相关。关于对普遍扰动的鲁棒性的现有程序定义了模型的这种扰动(近似最优)的分布(通过预计算和随机采样[29],通过学习生成模型[16],或者通过在训练期间收集模型检查点的普遍扰动的增加集合[37]),微调模型参数以变得对这种扰动分布鲁棒,并且(可选地)迭代。这些程序稍微增加了对普遍扰动的鲁棒性,但是,没有达到令人满意的水平。这可能是由于模型过度拟合到在优化过程中不改变的普遍扰动的固定分布。然而,重新计算每个小批量中的通用扰动是非常昂贵的。在这项工作中,我们提出了一种方法,可以通过计算每个小批量上的共享扰动并将其用于对抗训练来有效地执行,即,共享扰动是即时计算的,而不是如先前工作[29,37]中在我们工作的同时4930i=1MShafahi等人[42]最近提出的这减少了确定普遍扰动2. 对抗性风险:ρadv(θ,S)=E(x,y)<$DΣsupx∈SΣL( θ,x+ θ( x),y)然而,目前还不清楚这种增量更新的通用扰动是否替代防御方法为模型添加了其他组件:Ruan和Dai[41]提出通过添加阴影分类器来识别和拒绝普适扰动,而Akhtar等人[42]则提出通过添加阴影分类器来识别和拒绝普适扰动。[1]提出了在模型前预先建立一个子网,通过检测和校正扰动来补偿增加的普适扰动。这两种方法都具有模型变大的缺点,从而推断成本更高。更严重的是,假设对手不知道防御机制,并且不清楚更强大的对手是否无法欺骗防御机制。2.2. 基于对抗扰动的语义图像分割生成对抗性扰动的方法已经扩展到结构化和密集的预测任务,如语义分割和对象检测[14,48,6]。Metzen等人[27]甚至示出了普遍扰动的存在,该普遍扰动导致场景的任意目标分割,其与人类感知的场景没有任何共同之处。Arnab等人对不同网络架构的鲁棒性进行了比较[2]他们发现,3. 普遍对抗风险:ρuni( θ,S)= supE(x,y)<$D[L( θ,x+<$,y)]n∈S在这里,(x)表示对抗扰动,是单向扰动,x+(x)是对抗示例。集合S定义了可以从中选择扰动的空间。我们要注意的是,对抗风险和单向风险并不相等,因为在前一种情况下,取决于从D采样的特定x,而后者,数据集需要在整个数据分布D上进行泛化。3.2. 对手由于在典型设置中不能有效地计算最坏情况的扰动f(x),因此需要求助于旨在找到强扰动f(x)的对手。注意,这对应于搜索ρadv的紧下界。我们将对手定义为函数fadv:D ×Θ <$$> → S,它映射数据点和模型参数θ到一个使损失最大化的扰动(x)上,Ladv(θ,x+θ(x),y)1.虽然存在不同的adv选项[15,31,5,29,32],但我们专注于预测梯度下降(PGD)[25,21],因为它在我们的实验中提供了计算高效和强大之间的良好权衡。PGD在S(或S的子集)中随机均匀地搜索(0),并执行K次迭代,thefollowlo wingupdumplate:多尺度处理实际上增加了(k+1)=θ(k)+αk·sgn(θxLadv(θ,x+θ(k),y),体系结构,而平均场推断密集条件,常规随机场只屏蔽梯度,但不增加鲁棒性本身。与他们的工作相反,我们专注于修改训练过程以提高鲁棒性。这两种办法今后可以结合起来。3. 预赛在本节中,我们介绍与这项工作相关的基本术语和符号。我们的目标是防御一个对手-其中,αS表示空间S上的投影,αk表示步长。类似地,一个有针对性的攻击,模型应该输出目标类yt,可以通过将αk设置为−αk,y设置为yt来获得。类似于标准的对手,我们定义了一个宇宙-sal advertisement由funi表示为将模型参数θ映射到扰动θ上的函数,其目标是最大化E(x,y)<$D[Ladv(θ,x+<$,y)]。 一个可以修改-通过使用损失将PGD转化为单一版本的可验证版本,在白盒攻击设置下的sary请参见章节Luni(θ,{xi,yi}m,)=1Mi=1 L adv(θ,xi+xi,yi). 如果A.1 在补充材料中详细介绍对手的能力和威胁模型。3.1. 风险设L是一个损失函数(在整个工作中是分类交叉熵),D是一个数据分布,θ是参数模型f θ的参数。在这里,我们将风险ρ(θ)定义为数据分布的模型fθ的预期损失。以下风险与本工作数据点的数量M很大(这通常为了找到很好地推广到看不见的数据的通用扰动所需要的),可以采用随机PGD,其中在每一次迭代k中,对一组m×k个数据点进行采样,并且仅在该数据点子集上评估L_uni。4. 共享对抗训练我们将上述风险联系起来,以表明对抗训练优化了通用风险的宽松上限,(we扩展了Uesato等人的定义。[47]):我们注意到,可以选择Ladv=L,或者也可以选择,例如,1.预期风险:ρ exp(θ)=E(x,y)<$DL(θ,x,y)L为0-1损失,Ladv为可微替代损失。4931堆堆堆堆堆激励共享对抗性训练,这是对抗性训练的扩展我们证明了这种方法最小化了普遍风险的上限,该上限比对抗训练中使用的上限更紧。4.1. 风险之间的关系我们证明了下列风险不等式:ρexp (θ )≤ρuni(θ,S)≤ρadv(θ,S)θS{0}。为了验证这些不等式的有效性,我们设置S={0}以获得ρuni(θ,S)=ρexp(θ)(并且S <${0}只能增加ρuni(θ,S))。 对于第二个不等式,假设不需要堆攻击者来发现推广到不可见数据的扰动。这允许选择相对小的m。更具体地说,我们将由d个数据点组成的小批量拆分为大小为s的d/s堆(小批量的子集)(我们将s表示为共享性)。 而不是使用对手f adv分别计算每个d个数据点上的扰动,我们采用堆对手f heap来计算m = s的堆上的d/s共享扰动。 因此,这些扰动是广播到所有d个数据点,堆中所有元素的共享扰动时间ρadv <普乌尼.让宇宙成为多重宇宙使用此堆对手意味着风险ρ(s). 我们使ρuni最大化的扰动。 因为,建议使用ρ(s)在对抗训练中,S,我们当然可以在的定义中设置(x)=x,对抗性风险。这将导致ρadv=ρuni。这就完成了反证,因此ρadv可以一般情况下只能大于或等于ρuni对抗训练的目标被定义为最小化损失函数σ·ρadv(θ,S)+(1 −σ)·ρexp(θ),在防御普遍扰动,并表示作为共享对抗训练的结果程序。整个过程如图2所示对于s = 2 i,我们可以得到以下关系式(请参见第A.2 了解更多详情):其中,σ控制鲁棒性和每无扰动输入的信号。 我们注意到,如果一个人在-ρadv=ρ(1)(二)堆(四)堆≥···≥ρ(d)≥ρuni(σ,S)为了最小化普遍对抗风险ρuni,注意,虽然所有的ρ(s)是宇宙的上限则在对抗训练中使用ρadv,σ=1对应于最小化ρuni的上界,因为ρuni(θ,S)≤ρadv(θ,S),假设对手发现sal riskρuni,这并不意味着共享扰动是强泛扰动。相反,s越小,对相应的共享扰动越足够接近最佳性能的扰动,有意义的堆。 然而,ρ(s)对于s1,扰动 另一方面,标准经验风险最小值-最小化ERM(σ=0),它最小化ρexp的经验估计,对应于最小化下限。如以前的工作[15,31,5]所示,这确实对(普遍)扰动具有很小的鲁棒性。对于0<σ1,对抗训练对应于最小化上界ρadv和下界ρexp的凸组合,但不直接优化ρuni。 正如我们在第6节中所展示的,这个标准版本的adversar-ρ uni的上界比ρ adv的上界更紧,并且可以像ρadv一样有效地近似:为此,通过用Luni替换Ladv,将PGD转换为堆对手。通过适当地整形和广播扰动,我们可以通过PGD联合计算minibatch的各个堆上的d/s共享扰动,其成本与使用PGD计算d对抗扰动基本相同。4.3. 对抗损失函数ial训练已经提供了强大的鲁棒性,我们记得,Luni(θ,{xi,yi}m,)=以降低性能为代价的干扰1Σmi=1相当大的数据。4.2. 方法在对抗训练中直接使用ρuni是不可能的,因为在每个小批量中用对手funi来评估ρuni(θ,S)是非常昂贵的(因为它需要很大的m)。因此,在对抗训练中使用ρuni的上界比ρadv但比ρuni更便宜。为此,我们建议使用所谓的堆对手,我们将其定义为函数fheap:Dm×Θ <$$>→S,其映射一组m个数据点和模型参数θmi=1L adv(θ,xi+xi,yi).由于扰动(ε∈ S)的能力有限,m个数据点:Ladv(θ,xi+xi,yi)的极大化子通常是不同的,数据点将分散到不同的方向。因此,使用分类交叉熵作为0-1损失的代理对于非目标对手来说是有问题的:由于我们使损失最大化,并且分类交叉熵没有上限,因此存在赢家通吃的趋势,其中选择扰动,使得它导致对某些数据点的高度置信的误分类,并导致对其他数据点的正确分类(这比误分类更多数据点但置信度较低导致更高的成本)。到一个微扰函数上 我们使用Luni(θ,{xi,yi}m,)=为了防止这一点,我们采用损失阈值上1Σmi=1mi=1Ladv(θ,xi+θ,yi)作为堆ad的损失函数周年纪念 然而,与普遍的对手相比,我们分类交叉熵L,以强制上界Ladv:Ladv(θ,x,y)= min(L(θ,x,y),堆≥ρ≥ρ4932κ)。 我们使用κ=4933γ这保证了j=0k图2.一个共同对抗训练的图示。我们将小批量的d个图像分成d/s个堆,每个堆具有共享度s,并获得损失相对于输入的梯度。这里,共享性s对应于用于生成共享扰动的输入的数量。然后处理大小为s的每个堆中的梯度并乘以步长αk以创建共享扰动,该扰动进一步广播到堆的大小。所生成的共享扰动在每次迭代之后被聚合和剪切,以便将扰动限制在预定义的幅度ε内。这些扰动被添加到图像,并且迭代地重复该过程从共享扰动生成的对抗性输入用于对抗性训练。-log 0。2,对应于不鼓励adver-在每次迭代中,我们使用步长退火时间表将正确类的置信度降低到0以下。二、Shafahi等人也提出了类似的损失阈值αk=βεγkK−1jj=0K−1α= βε。[42]同时。此外,我们还结合标签平滑和使用软目标计算损失在我们的所有实验。5. 耐用性评价在本节中,我们定义了实验中使用的鲁棒性度量,并详细说明了我们如何近似它。5.1. 鲁棒性的定义对于0-1损失的特殊情况,n维输入x,S=S(ε)=[−ε,ε]n,我们将对抗鲁棒性定义为导致至少δ的对抗风险(误分类率)的最小扰动幅度ε。更正式地说:εadv(δ)= arg minρadv(θ,S(θ))s.t. ρ adv(θ,S(θ))> δ。ε在其他话那里是扰动量 与||∞ε adv(δ),导致至少δ的误分类率。||∞< ε adv(δ)that result in a misclassification rate of at least δ.类似地,我们也可以定义普遍的鲁棒性εuni(δ)= arg minρuni(θ,S(θ))s.t. ρ uni(θ,S(θ))> δ.ε在这里,微扰||ξ||存在∞<ε uni(δ),导致至少δ的错分率。5.2. 定量稳健性由于εuni(δ)的精确计算对于我们的设置是难以处理的,因此我们使用实际鲁棒性εuni(δ)的上限来代替。为此,我们调整PGD对手如下,使其更强大(因此上限更紧):我们对S(ε)的扰动幅度ε执行了b次迭代的二进制搜索,即,中的边界在区间ε∈[0,255]上,扰动的l∞范数.如果在一个迭代时,二叉搜索的下一次迭代在ε的区间的下半部分继续,否则在上半部分继续。所报告的鲁棒性是在整个过程中发现的最小扰动,其实现了δ的误分类率。请注意,此过程仅用于评估;对于训练,我们使用预定义的ε和常数步长αk。6. 实验结果我们提出了在图像分类和语义分割任务中对普遍扰动的鲁棒性进行共享对抗训练的实验结果。我们扩展了Cleverhans [34]的PGD实现,使其支持第4节中讨论的共享对抗扰动和损失裁剪。为了量化鲁棒性,我们扩展了Foolbox [39],使得通用可以搜索实现至少δ的误分类率的扰动(具有最小L∞6.1. CIFAR10实验我们在CIFAR 10 [20]上展示了ResNet 20 [17]的结果,每个阶段有64-128-256个特征图 为了评价耐用性,我们使用随机PGD对5000份验证样品(小批次大小为m2k=16)进行了分析,并对512份供试品进行了评价。我们使用b=10次二分搜索迭代,K =200次S-PGD迭代,并且步长调度值γ = 0。975和β= 4 。 我们使用标准的正则化经验风险最小化(ERM)对ResNet20进行了预训练,并获得了93的准确率。25%的清洁数据和鲁棒性对普遍扰动ε uni(δ=0. 75)= 14. 9 .第九条。总的来说,我们感兴趣的模型,在不降低清洁精度的前提下,493418共享64 DeepFoolERM虚拟游戏L泛微扰范数= 0.75)通用扰动下的精度(uni= 20)601.0500.8403020100.800.820.840.860.880.900.92 0.94在未扰动图像0.60.40.20.00.800.820.840.860.880.900.92 0.94在未扰动图像图3.共享性值s∈ {1, 8, 64}的CIFAR 10上的Pareto前沿。ERM对应于使用经验风险最小化预训练的模型,[29]和Perolat等人提出的程序[37]第37段。(左)关于S-PGD通用扰动的鲁棒性(右)关于基于DeepFool的通用扰动的鲁棒性[29]。所提出的辩护的帕累托前沿显然高于所有先前的辩护。数据相当大。我们认为这是一个多目标问题,有两个目标(准确性和鲁棒性)。为了近似对抗和共享对抗训练的不同变量的帕累托前沿(共享-nesss∈ {1,8,64}),我们对一系列攻击参数进行了运行: 最大扰动强度ε∈{2,4,6,8,10,14,18,22,26}和σ ∈ {0。3,0。5,0。七比零。9)(控制预期和不利因素之间的权衡ial risk)。模型微调进行了65个时期的SGD与批量大小128,动量0。9,初始学习率为0. 0025,并进行了4步PGD,步长α k=0。每个小批次5ε。这里,学习速率在50个历元之后退火10倍。图3(左)显示了不同共享度值的帕累托前沿(条目在补充材料中的表A1中提供虽然共享性s=1(标准对抗训练)和s=8表现相似,但s=64严格控制其他两个设置。在不损失精度的情况下,ε uni(δ=0.75)=22. 7,并且如果接受90%的准确度,则ε uni(δ=0. 75)=44. 1是可以得到的。这相当于欠保护模型的鲁棒性的近三倍,而准确性仅下降不到3。百分之五我们还想指出的是,标准对抗训练在抵御普遍扰动方面令人惊讶地有效,并且在未扰动数据的相同精度水平下,其鲁棒性比s=64小约5这些发现表明,增加共享性会增加鲁棒性。我们发现,在初步的实验中,这种影响是强大的小s,但有递减收益的共享超过s=64。我们还评估了Moosavi-Dezfooli等人提出的对通用扰动[29]和Pero- lat et al.[37](详情请参见资料中的第A.3如图3所示(左)这些防御严格地被(共享)对抗训练的所有变体所控制。在计算方面,共享对抗训练需要189 s(与标准对抗训练所需的计算时间相同因此,所提出的方法优于基线防御,无论是在计算方面和关于鲁棒性-准确性权衡。图3(右)显示了使用基于DeepFool的方法生成通用扰动时相同模型的Pareto前沿[29]。在这种情况下,鲁棒性是针对固定的扰动幅度计算的ε uni= 20,并给出了在此扰动下的精度δ。 定性结果与S-PGD攻击相同:对抗训练的Pareto前沿(s=1)明显在[29]中提出的防御所取得的结果占主导地位。此外,s=64的共享对抗训练是标准对抗训练和Perolat等人提出的防御。[37]第37段。这表明通过共享对抗训练增加的鲁棒性并不特定于攻击者生成通用扰动的方式补充材料中的第A.4节给出了该数据集上的普适扰动的说明6.2. ImageNet的一个子集实验我们将实验扩展到ImageNet的一个子集[9],它比CIFAR10具有更多的类和更高的分辨率输入有关该子集选择的详细信息,请参见补充材料中的第A.5与CIFAR10相似,我们使用随机PGD评估稳健性,但在训练集上使用大小为mk=10,000的小批次产生扰动,并在总验证集上进行评估 我们使用b = 10次二分搜索迭代,K=20次S-PGD迭代,步长调度值γ=0。975和β=4。我们预先训练了宽域-18共享64 DeepFoolERM虚拟游戏(4935泛扰动的l单位(= 0.75)4540353025201510554.557.059.562.064.567.069.572.074.5七十七点零未扰动验证图像图4. ImageNet上共享性s∈ {1, 32}的Pareto前沿。共享对抗训练在与基线相似的准确度上将鲁棒性提高了一倍精确度略有下降在5%到7%之间,该方法将鲁棒性提高了3倍,并且在鲁棒性/准确性权衡方面明显优于标准对抗训练。双网络WRN-50-2-瓶颈[49]在此数据集上使用ERM,使用SGD 100个epoch,初始学习速率为0.1,并在每30个epoch后将其减少10倍。在未扰动验证数据上,我们获得了77.57%的top-1准确度,以及对ε uni(δ=0. 75)=8. 4.第一章我们近似了对抗的帕累托前沿,具有共享性s∈ {1,32}的共享对抗训练不同的ε∈ {2,4,6,8,10,14,18,22,26}和σ∈{0。五一0}。 我们进行了5个步骤的PGD,α k=0。4ε。该模型被微调为30个时期的SGD,批量大小为128,动量项为0。9,权重decay 5e−5,初始学习率为0。01,在20个epoch之后减少了 10倍,并且还执行了5个步骤的PGD,步长α k= 0。每个小批次4ε图4比较了s=32的共享对抗训练和s=1的标准对抗训练的帕累托前沿(补充材料中的表A2中提供了 可以清楚地看到,共享对抗训练从ε uni(δ=0. 75)= 8.4到5.150,不损失精度。 此外,共享AD-对抗训练也主导了标准对抗训练目标精度在67%-74%之间,这对应于最佳点,因为精度的小损失允许鲁棒性的大增加。点的准确率为72.74% ,鲁棒性为ε uni(δ=0. 75)=25. 64(在s =32,ε = 10,σ = 1时获得)。0)可以被认为是一个很好的权衡,因为准确度仅下降5%,而鲁棒性增加了3倍,这导致了图1和第1.1节的顶行所示的明显可感知的A.6.此外,(共享的)对抗训练还显著地增加了成功的非目标扰动的预测类分布的熵(参见第A.7节)。6.3. 语义图像分割上述实验的结果表明,共享对抗训练提高了图像分类任务对普遍扰动的鲁棒性,其中对手旨在欺骗分类器对输入的单一决策。在本节中,我们将研究我们在密集预测任务(语义图像分割)中对抗对手的方法,其中对手的目标是在许多决策上欺骗分类器。据我们所知,这是第一个基于对抗训练来扩展防御的工作。我们在Cityscapes数据集上评估了所提出的方法[8] 。 出 于 计 算 原 因 , 所 有 图 像 和 标 签 都 是 从2048×1024分辨率下采样的到1024×512像素,其中对于图像,对于标签,使用用于下采样。我们在2975张图像的整个训练集上预训练了FCN-8网络架构[24],并在500张图像的验证集上实现了49.3%的类交联(IoU)。请注意,由于对图像进行了下采样,该IoU相对较低。我们遵循Metzen等人的实验设置[27]它使用固定的 目 标 场 景 ( monchengladbach 000000 026602gtFine)进行有针对性的攻击结果表明,尽管原始场景与目标场景没有任何共同点,但仍能实现所需的目标分割我们使用相同的目标场景,并且如果对扰动图像的预测和目标分割之间的平均逐像素准确度超过δ=0,则认为这种有针对性的攻击成功。九十五为了评价耐用性,我们使用随机PGD和来自验证集的小批次(样本量mk=5)生成funi,并对来自测试集的16份样品进行检测。 我们使用b = 10次二分搜索迭代,K = 200次S-PGD迭代,步长调度值γ=0。99和β=2,并且没有对有针对性的攻击采用损失阈值。 我们发现一个普遍的扰动,上限的鲁棒性模型为ε uni(δ = 0. 95)≤ 19。92.我们通过对抗和共享对抗训练来微调这个模型由于对两种方法的整个Pareto前沿进行近似计算在计算上非常昂贵,因此我们选择了在约45% IoU(不超过5%差)的无扰动数据上的目标性能不设防的模式)。以下两个设置实现了这个目标性能(见图5左图):对抗训练,ε= 8,σ= 0。5和共享对抗训练,共享性s=5,ε=30,σ=0。7 .第一次会议。使用Adam进行了20个时期的微调,批量大小为5,学习率为0。0001,其在15个时期之后退火到0。00001作为堆攻击者,我们执行了5步非目标PGD,步长α k= 0。4ε。虽然这两种方法在未扰动数据上实现了非常相似的性能,但它们对对抗性和通用扰动的鲁棒性却非常不同(见图5):标准的对抗训练大大提高了鲁棒性-对于ε adv(δ=0. 95)≤11,与保护不足的模型相比增加了4倍。共享对抗训练效果不太好-ERM321共享4936分享15l norm of adv. 摄动adv(= 0.95)单位的l范数。摄动单位(= 0.95)0.500 20 1200.4750.4500.4250.4000.3750.35005101520时代15105005101520时代10080604020005101520时代图5. Cityscapes上的对抗性(红色,圆圈)和共享对抗性训练(蓝色,菱形)的学习曲线,关于未扰动图像的性能(左),以及对抗性扰动的鲁棒性(中间,显示平均值和平均值的标准误差)和通用扰动(右)。黑色水平线表示不设防模型的性能。孤立的标记对应于对非目标攻击的鲁棒性。标准对抗训练和共享对抗训练的性能在未扰动数据上是相当的,但是标准对抗训练在对图像依赖的对抗扰动的鲁棒性方面占主导地位,而共享对抗训练在对目标和非目标通用扰动的鲁棒性方面占主导地位对对抗性扰动,其鲁棒性是ε adv(δ=0. 95)≤5。9 .第九条。然而,共享对抗训练对目标uni扰动更有效,鲁棒性上限为ε uni(δ=0)。95)≤111。7、对抗性训练达到ε uni(δ = 0. 95)≤ 62。五、我们还评估了鲁棒性-针对无目标攻击的能力:鲁棒性从ε uni(δ=0. 95)≤8。5的不设防模式,以25和四十七8分别用于使用标准和共享对抗训练训练的模型的普适微扰用共享对抗训练训练的模型清楚地示出了目标场景的图案,并且支配原始图像,这也在图1的底行中示出。我们参考补充材料中的第A.8节,了解不同模型的目标和非目标通用扰动的说明6.4. 讨论图5中所示的结果表明,在针对依赖于图像的对抗性扰动和通用扰动的鲁棒性之间可能存在权衡 图6说明了为什么这两种鲁棒性并不严格相关:对抗扰动通过将来自目标场景/类别2的结构添加到图像(例如,图像的中间左部分上的植被)和通过破坏原始场景的属性(例如,最高窗台的边缘后者对于单扰动是不可能的,因为输入图像事先是未知的。同样如图所示,通用扰动通过增加目标场景的更强图案来补偿这一点。共享扰动将变得更加相似2.对于非目标攻击,攻击可以任意选择目标场景/类,从而尽可能简单地欺骗模型。图6.在使用共享对抗训练强化的模型上生成的相同图像和目标场景(左上角和左下角)的图像相关和通用扰动的图示。依赖于图像的扰动削弱了现有结构的图案,如实际场景的边缘(右上),而通用扰动被限制为添加指示目标场景的结构扰动之间的这种质的差异提供了一个可能的解释,为什么共享对抗训练在图像依赖和通用扰动上表现出不同水平的鲁棒性:共享对抗训练提高了对加法结构的鲁棒性,但对削弱现有结构的扰动没有提高鲁棒性。由于单个共享扰动具有固定的容量并且不能破坏任意多个输入图像的属性(即使它们是预先已知的),因此具有增加共享性的通用扰动。因此,共享的对抗训练将使模型对增加新结构的扰动而不是对破坏现有结构的扰动更加鲁棒因此,它导致对图像特定扰动的鲁棒性较低(如图5中所示)。另一方面,由于共享对抗性训练专注于一种特定类型的扰动(那些向场景添加结构的扰动),因此它导致模型对通用扰动特别鲁棒(如图5所示)。7. 结论我们已经证明,对抗性训练在抵御普遍扰动方面惊人地有效。由于对抗性训练没有显式地优化对通用扰动的鲁棒性和未扰动数据点的性能之间的权衡,因此它处理这种权衡的效果不佳。我们提出了共享对抗训练,它在通用对抗风险的严格上限上执行对抗训练。我们已经表明,我们的方法可以实现高鲁棒性对图像分类任务的普遍扰动在较小的损失的准确性。所提出的方法还可以扩展到高分辨率图像上的语义分割,与对抗性训练相比,它在未扰动图像上的相同性能水平下实现了更高的鲁棒性。交并4937引用[1] Naveed Akhtar,Jian Liu和Ajmal Mian。防御普遍对抗性扰动。InarXiv:1711.05929 [cs],Nov. 2017. arXiv:1711.05929。[2] Anurag Arnab,Ondrej Miksik和Philip H.S. 乇语义分割模型对 对抗攻击 的鲁棒性 研究 InarXiv:1711.09856[cs],Nov. 2017. arXiv:1711.09856。[3] Anish Athalye,Nicholas Carlini,and David Wagner.模糊的例子给人一种虚假的安全感:规避对敌对例子的防御在arXiv:1802.00420 [cs],2月。2018年。[4] 阿尼什·阿塔利和伊利亚·苏茨科弗合成鲁棒的广告对抗示例。InarXiv:1707.07397 [cs],July 2017.[5] 尼古拉斯·卡利尼和大卫·瓦格纳。神经网络的鲁棒性评估在IEEE安全与隐私研讨会(SP)上,2017年5月。[6] Moustapha Cisse、Yossi Adi、Natalia Neverova和JosephKeshet。胡迪尼:愚弄深层结构预测模型. 在神经信息处理系统(NIPS)的进展30,2018。[7] Moustapha Cisse,Piotr Bojanowski,Edouard Grave ,Yann Dauphin,and Nicolas Usunier. Parseval网络:提高对抗性示例的鲁棒性。在第34届机器学习国际会议上,8月。2017年。[8] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在计算机视觉和模式识别(CVPR),拉斯维加斯,内华达州,美国,2016年。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第248-255页。Ieee,2009年。[10] 伊万·埃夫蒂莫夫、凯文·艾克霍尔特、厄尔朗斯·费尔南德斯、塔达吉·科诺、波丽、阿图尔·普拉卡什、阿米尔·拉赫马蒂和道恩·宋。对机器学习模型的鲁棒物理世界攻击。InarXiv:1707.08945 [cs],July 2017.[11] Alhussein Fawzi 、 Seyed-Mohsen Moosavi-Dezfooli 和Pascal Frossard。分类器的稳健性:从对抗性到随机噪声。神经信息处理系统进展(NIPS)29,第1632-1640页,2016年[12] Alhussein Fawzi 、 Seyed-Mohsen Moosavi-Dezfooli 和Pascal Frossard。深度网络鲁棒性的几何视角在IEEE信号处理杂志,2017年。接纳的话[13] Alhussein Fawzi 、 Seyed-Mohsen Moosavi-Dezfooli 、Pascal Frossard和Stefano Soatto。深度神经网络的分类区域。InarXiv:1705.09552 [cs,stat],May 2017.[14] Volker Fischer , Chaithanya Kumar Mummadi , JanHendrik Metzen,and Thomas Brox.语义图像分割的对抗性例子。在国际学习表征会议(ICLR)会上,3月。2017年。[15] Ian J. Goodfellow,Jonathon Shlens,Christian Szegedy.解 释 和 利 用 对 抗 性 示 例 。 国 际 学 习 表 征 会 议(ICLR),2015年。[16] 杰米·海耶斯和乔治·达内吉斯 学习型大学-Sal对抗扰动与生成模型arXiv:1708.05207 [cs,stat],Aug. 2017年。arXiv:1708.05207。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别(CVPR),2016年。[18] 放大图片作者:Nicholas A. Lord,and Philip H. S.乇有这样的 朋友,谁 还需要对 手?InarXiv:1807.04200[cs],July 2018. arXiv:1807.04200。[19] Valentin Khrulkov和Ivan Oseledets 奇异向量和普遍对抗扰动的艺术。InarXiv:1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功