没有合适的资源?快使用搜索试试~ 我知道了~
500理解和提高Frank-Wolfe对抗性训练的效率0Theodoros Tsiligkaridis * , Jay Roberts *Massachusetts Institute of Technology LincolnLabor0ttsili@mit.edu , jay.roberts@ll.mit.edu0摘要0深度神经网络很容易被称为对抗性攻击的小扰动所欺骗。对抗性训练(AT)是一种技术,它通过近似解决一个鲁棒优化问题来最小化最坏情况下的损失,并被广泛认为是对抗性攻击的最有效防御方法。由于在AT过程中生成强对抗性示例的计算时间较长,因此已经提出了单步方法来减少训练时间。然而,这些方法在训练过程中遭受灾难性过拟合,即对抗性准确性下降,并且尽管已经提出了改进方法,但它们增加了训练时间,鲁棒性远远不及多步AT。我们开发了一个理论框架,用于具有FW优化的对抗性训练(FW-AT),它揭示了损失景观与l-infFW攻击(攻击的l-2范数)的失真之间的几何联系。具体而言,我们分析地表明,FW攻击的高失真等效于沿攻击路径的梯度变化较小。然后,在各种深度神经网络架构上进行实验证明,针对鲁棒模型的l-inf攻击实现了接近最大的l-2失真,而标准网络的失真较低。此外,实验证明,灾难性过拟合与FW攻击的低失真强相关。这种数学透明度使FW与更流行的投影梯度下降(PGD)优化方法有所区别。为了展示我们理论框架的实用性,我们开发了FW-AT-Adapt,这是一种新颖的对抗性训练算法,它使用简单的失真度量来调整训练过程中的攻击步骤数量,以提高效率而不损害鲁棒性。FW-AT-Adapt在白盒和黑盒设置中提供了与单步快速AT方法相当的训练时间,并在对抗性准确性方面改善了快速AT方法和多步PGD-AT之间的差距。0* 相等的贡献。01. 简介0深度神经网络(DNN)在各个领域取得了出色的性能[18]。随着这些模型在各个行业(如医疗保健或自动驾驶)中的部署,对鲁棒性和可靠性的关注变得越来越重要。一些组织已经确定了人工智能(AI)的重要原则,其中包括可靠性和透明度的概念[19, 21,24]。大容量模型(如DNN)的一个问题是,小心选择的输入扰动,即对抗性扰动,可能导致错误的预测[12]。已经提出了各种增强方法来抵御对抗性扰动[16, 20, 22,28]。其中表现最好的算法之一是对抗性训练(AT)[20],它被制定为一个鲁棒优化问题[31]。计算最优对抗性扰动是NP困难的[36],因此使用近似方法来解决内部最大化问题。被证明最成功的近似方法是投影梯度下降(PGD)[10]。最近在[8]中提出了Frank-Wolfe(FW)优化,并且已经证明可以有效地欺骗标准网络,失真较小,并且可以有效地生成稀疏的反事实扰动以解释模型预测和可视化主要类特征[27]。由于PGD已被证明是对抗性鲁棒深度学习的主要算法,因此减少其高计算成本而不损害性能,即快速对抗性训练,是一个主要问题。已经提出了各种基于使用单个PGD步骤的方法,称为快速梯度符号方法(FGSM)[37],但对于大的扰动而言,这些方法失败了。[37]确定了FGSM训练在训练初期实现了一定的鲁棒性,但鲁棒性在一个时期内急剧下降,这种现象被称为灾难性过拟合(CO)。虽然已经提出了一些方法来改善这个问题[2, 14,30],但作为结果,训练时间受到了影响,鲁棒性与多步PGD-AT不相上下。在本文中,我们使用Frank-Wolfe优化来推导出l-inf对抗性攻击的l-2范数之间的关系。minθE(x,y)∼D[L(x, y; θ)](1)minθE(x,y)∼D�maxδ∈Bp(ϵ) L(x + δ, y; θ)�.(2)510图1. 攻击的低(高)失真度 δ (黑色)等价于带符号梯度 g l = ϵ ∙sgn ( � δ L ( x + δ l , y )) 的高(低)角度扩散(所有的 ∥ g l ∥ 20d ) 在攻击路径上沿着 K 步计算(这里 K = 5)。命题1将FW对抗性扰动 δ表示为沿着攻击路径的带符号梯度的凸组合。这个核心概念在定理1中得到量化,并为本文第4节中提出的自适应对抗性训练算法的开发奠定了基础。0扰动(失真度)和损失函数的几何形状之间存在关联(见图1)。基于这个理论和实证研究,我们表明这种失真度可以作为CO的信号,并提出了一种基于自适应Frank-Wolfe对抗性训练(FW-AT-ADAPT)方法的快速对抗性训练算法(见图2)。该方法在训练时间上与单步方法相当,而不会受到CO的影响,优于许多单步方法,并开始缩小快速对抗性训练方法与多步PGD对抗性训练之间的差距。0我们的主要贡献如下:0•我们凭经验证明,对于鲁棒模型,FW攻击在各种网络架构上实现了接近最大的失真度。0•我们通过实验证明,即使只有2步,FW攻击的失真度与灾难性过拟合强相关。0• 从 FW攻击的失真度到攻击路径上梯度变化的理论保证,这意味着使用多步骤计算的高失真度攻击对损失的增加是递减的。0•受到失真度和攻击路径梯度变化之间的关联的启发,我们提出了一种自适应步骤的Frank-Wolfe对抗性训练算法(FW-AT-ADAPT),在鲁棒性和训练时间之间取得了更好的平衡,与单步AT方法相比,缩小了这种方法与多步AT变种之间的差距,并在面对强白盒和黑盒攻击时表现出色。0图2. FW-AT-A DAPT训练算法背后的概念示意图。在每个时期,通过对前 B m批次(这里 B m = 3 )监测失真度 d 。如果平均失真度小于阈值 r,则当前步数 K 增加 2 ,变为 K + 2 (如果平均失真度大于阈值 r,则当前步数 K 减少一半,变为 K/2),用于剩余批次的训练。这个过程重复进行直到收敛,并且可以减少对抗性训练的训练时间而不损失鲁棒性。定理2和定理3为高失真度区域中的鲁棒模型权重更新提供了稳定性保证。02. 背景和前期工作0考虑从分布 D 中抽取的数据示例对 ( x i , y i ) ,标签涵盖 C个类别。神经网络函数 f θ ( ∙ )将输入特征映射到逻辑值,其中 θ是模型参数。预测的类别标签由 ˆ y ( x ) = arg max c f θ,c( x )给出。对抗性训练。分类器的主要训练方法是通过经验风险最小化(ERM):0其中 L 是通常的交叉熵损失。对于分类器 f θ的对抗鲁棒性是相对于一个度量标准定义的,这里选择的是与球 B p ( ϵ ) = { δ : ∥ δ ∥ p ≤ ϵ } 相关的 ℓ p度量标准,具体定义如下。如果对于给定的输入样本 x,在球 B p ( ϵ ) 中的所有扰动 δ ,都有 ˆ y ( x ) = ˆ y ( x + δ ) ,即对于所有大小不超过 ϵ的扰动,预测的标签都不会改变,那么网络被称为对于大小为 ϵ的对抗性扰动是鲁棒的。使用ERM原则(式1)训练神经网络在测试集上可以获得高准确率,但会使网络容易受到对抗性攻击。其中一种最流行和有效的防御方法是对抗性训练(AT)[20],与使用ERM原则不同,对抗性训练最小化对抗风险。0这个框架在TRADES算法中得到了扩展。ϕp(∇Lk,i) = sgn(∇Lk,i)ei∗ki ,p = 1,520算法[38]提出了一种修改的损失函数,捕捉了干净和对抗准确性之间的权衡。局部线性正则化(LLR)[25]使用类似的方法,根据对(2)的一阶近似选择对手,以最大程度地违反局部线性性。为了构造给定输入 x的对抗性攻击,这些防御方法使用投影梯度下降(PGD)来近似约束的内部最大化,使用固定数量的步骤。PGD使用迭代更新计算对抗扰动:0δ k +1 = P B p ( ϵ ) ( δ k + α �δ L ( x + δ k , y ; θ )) (3)0其中 P B p ( ϵ ) ( z ) = arg min u ∈ B p ( ϵ ) ∥ z − u ∥ 22 是对约束集的正交投影。我们将使用 K 步 PGD进行对抗性训练称为PGD(K)-AT。该方法的计算成本主要由用于近似内部最大化的步骤数量主导,因为 K 步 PGD近似最大化涉及通过网络进行 K次前向-后向传播。尽管使用较少的 PGD步骤可以降低成本,但这些步骤对应较弱的攻击,可能导致梯度混淆[23,34],即网络通过使损失函数的梯度变得高度非线性来学习防御基于梯度的攻击,从而导致模型变得不够健壮。许多防御方法已被新的攻击方式所规避,而对抗性训练已被证明能够保持最先进的鲁棒性[3, 10]。只有通过半监督方法[7,33]才能进一步提高性能。快速对抗性训练。已经提出了各种使用较少 PGD步骤的快速对抗性训练方法。在[37]中,使用了 PGD的单步,称为快速梯度符号方法(FGSM),以及在约束球内的随机初始化,称为 FGSM-RAND,以较低的计算成本实现了良好的鲁棒性。在[2]中,研究表明 FGSM-R AND的随机初始化可以提高内部最大化的线性近似质量,但仍然存在灾难性过拟合(CO)的问题,即模型对较弱的训练攻击具有强大的鲁棒性,但对较强的多步攻击完全被欺骗,作者通过一种惩罚梯度不对齐的正则化器(FGSM-GA)克服了这个问题。然而,这种方法需要双重反向传播,导致训练时间显著高于 FGSM-R AND。在[14]中,作者证明 CO是损失函数中非线性的结果,导致连接 x 和 x + δ的射线内部损失更高,从而使它们更容易受到多步攻击的影响。为了解决这个问题,作者通过沿着这条射线采样来调整FGSM 步长,称为 FGSM-ADAPT。[30]中的自由对抗性训练方法 F REE-AT在更新模型参数时重复使用计算的梯度信息。0通过小批量回放来更新模型参数。所有这些单步 AT变体的鲁棒性性能远远落后于多步PGD-AT。其他方法调整用于近似对抗性攻击的步骤数量。课程学习[5]在训练过程中监控对抗性性能,并随着性能的提高增加攻击步骤的数量。在这项工作的基础上,[35]的作者使用Frank-Wolfe收敛准则来调整给定输入的攻击步骤数量。这两种方法都使用PGD生成对抗性示例,并没有报告改进的训练时间。Frank-Wolfe对抗性攻击。Frank-Wolfe(FW)优化算法起源于凸优化,但最近已经在更一般的设置中表现出良好的性能[11,13]。该方法首先优化原始问题的线性近似,称为线性最大化预言机(LMO)。0LMO = ¯ δ k = argmax δ ∈ B p ( ϵ ) � δ, �δ L ( x + δ k , y ) � 。0调用LMO之后,FW使用当前迭代的凸组合进行一步, δ k+1 = δ k + γ k ( ¯ δ k − δ k ) ,其中 γ k ∈ [0 , 1]是步长。优化步长可能会增加额外的计算成本;然而,在实践中,一个有效的选择是 γ k = c/ ( c + k ) ,其中 c ≥1 。FW子问题可以精确地解决任何 ℓ p ,最优的 ¯ δ k 由 ¯δ k,i = ϵ ϕ p ( �L k,i ) 组成,其中0∥�L k ∥ q/p q , 1 < p <∞0(4) �L = � δ L ( x + δ k , y ) ,且 1 /p + 1 /q = 1 。对于 p = 1 , i � k = argmax i |�L k,i | 且 e i � k 等于 1对于第 i � k 个分量,否则为零。FW不需要对投影到 ℓ p球上进行处理,这对于 p 不在 { 2 , ∞}中是非平凡的。对于 ℓ ∞攻击的特殊情况,最优解变成了快速梯度符号方法(FGSM)[ 12 ]。0算法 1 FW-Attack ( x, y ; K, γ k , p )0输入: 模型 f θ ,输入批次 ( x, y ) ,最大扰动 ϵ,步骤计划 γ k ,步骤 K 。 δ = 0 对于 0 ≤ k < K做如下操作0结束 循环返回: δ̸530图3. ∥ δ ∥ 2 / ( ϵ √ 的核密度估计分布0d ) 使用FW(20)和 ϵ = 8 / 255对标准模型和鲁棒模型进行的攻击,在三种架构上进行计算。0我们的贡献。我们提出了FrankWolfe对抗训练(FW-AT),它用Frank-Wolfe优化器替代了PGD内部优化。FW-AT实现了与PGD相似的鲁棒性。利用FW攻击路径的闭式表达式,我们推导出攻击的失真度与损失梯度沿攻击路径的变化之间的几何关系。这个关键的洞察力导致了FW-AT的简单修改,其中每个时期的步长根据攻击的ℓ 2失真度进行调整,证明了减少训练时间的同时提供强大的鲁棒性,而不会遭受灾难性的过拟合。尽管我们的工作与FGSM-GA和FGSM-ADAPT有一些相似之处,但也有几个区别。首先,这两种方法都是FGSM的变体,试图修复CO。前者通过惩罚梯度不对齐,后者通过在FGSM方向上采样步骤。我们的方法采取多步骤,使其能够到达接近原始FGSM方向的点,从而避免了CO。此外,通过我们的失真度分析,我们展示了我们的多步骤方法既可以监控又可以规范梯度变化,同时还可以使用这些攻击进行对抗训练。这种高效利用多步骤攻击的方法使我们能够在鲁棒性训练时间权衡方面获得比这两种先前方法更好的结果。03. Frank-Wolfe攻击的失真度0尽管所有的 ℓ p 攻击必须保持在 B p ( ϵ ) 中,它们的 ℓ q 范数,对于 q � = p,可能会有很大的不同。这被称为失真度,特别是对于 ℓ ∞ 攻击,我们对 ℓ 20d ,我们将∥ δ ∥ 2 / ( ϵ √0d ) 作为攻击 δ的失真比率(或简称失真度)。在本节中,我们通过实证方法展示了失真度与鲁棒性之间的关系,并根据失真度界限推导出了损失梯度变化的理论保证。0(a)在FGSM和FW(10)对抗训练模型的训练过程中的对抗准确率和失真度0(b)对FGSM训练模型的FW(2)攻击的扭曲的核密度估计0图 4. (a) FGSM和FW(10)对抗训练在 ϵ = 8 / 255的CIFAR-10验证集上的PGD(10)攻击的对抗准确率(蓝色)和平均扭曲(棕色)的陡峭下降。 (b)FW(2)攻击的扭曲的核密度估计。随着CO的发生,扭曲的分布发生偏移并收敛到较低的值。03.1. 鲁棒模型的FW攻击高度扭曲0由于其对约束凸性的利用,人们可以期望 ℓ ∞FW攻击保持在接近内部的位置,因此具有低扭曲。这在标准模型中已经观察到[ 8],但尚未考虑鲁棒模型。在这里,我们分析 ℓ ∞约束攻击的FW(20)的扭曲比率,其半径为 ϵ = 8 / 255,在使用ERM(方程 1 )和PGD(10)-AT(方程 2)在CIFAR-10上训练的三种架构上。图 3显示,尽管标准模型的对抗扰动具有较小的扭曲,但鲁棒模型产生的攻击几乎是最大程度的扭曲。在两种情况下,攻击在 ℓ ∞范数上接近最大。这种现象发生在三种不同的架构上,并且我们的理论进一步支持了这一点。我们注意到,对于PGD攻击,扭曲比率可以通过较大的步长 α轻松最大化,因此扭曲与鲁棒性之间的这种联系在PGD优化中不存在。03.2. 扭曲下降预示着灾难性过拟合0许多快速AT方法依赖于单个梯度步骤,这可能导致灾难性过拟合(CO),一种现象δK = ϵK−1�l=0αlϕp(∇δL(x + δl, y))(5)∥δK∥2ϵ√d=�∥δK∥2ϵ√d≥540一种现象,即模型对多步攻击的性能收敛到较高的值,然后突然下降。这表明模型已经过度拟合其权重以适应单步训练攻击。我们通过使用强度为 ϵ = 8 / 255的FGSM进行30个时期的训练,并绘制其对PGD(10)攻击的验证准确率和使用FW(10)攻击计算的平均扭曲来证明这一点。图 4a证明了FGSM陷入CO,我们观察到对抗准确率的下降与多步攻击的扭曲下降相一致。在FW(10)-AT的情况下,扭曲在整个训练过程中保持较高水平。在图 4b中,我们展示了即使在对抗较弱的FW(2)攻击进行评估时,这种行为也存在。在这里,我们绘制了对1K个验证CIFAR-10图像的扭曲的核密度估计。在模型的峰值鲁棒性(第15个时期)时,扭曲较高,当模型开始受到CO的影响(约为第23个时期)时,分布向较低的值偏移,直到完全发生CO时,它在低值处强烈积累。最有趣的是,FW(2)能够通过其扭曲检测到CO,而无需欺骗模型(其成功率仅为16%)。这表明FW攻击的扭曲与鲁棒性之间存在强烈的联系,我们将在下面进行详细说明。03.3. 多步高扭曲攻击效率低下0我们分析FW攻击扭曲的主要工具,以及FW-AT比PGD-AT更具数学透明度的主要原因,是将FW攻击表示为LMO迭代的凸组合。我们将优化过程中采取的步骤称为攻击路径。证明见附录。0命题1. 使用步长 γ k 的FW攻击在K步后产生以下对抗扰动0其中 α l = γ l � K − 1 i = l +1 (1 − γ i ) ∈ [0 , 1]是在 l 上非递减的,并且总和为1。0命题1表明,FW对抗扰动可以表示为 p = ∞时的有符号损失梯度的凸组合,以及 p ∈ [1, ∞)时的缩放损失梯度。利用这种表示,我们可以推断出攻击的失真与攻击路径的几何属性之间的联系。0定理1. 考虑 K 步 ℓ ∞ FW 攻击。设 cos β lj 是 sgn(�δL(x +δl, y)) 和 sgn(�δL(x + δj, y)) 之间的方向余弦。攻击的最大 ℓ2 失真比率为0对抗扰动 δ K 的 ℓ 2 失真为:01 - 2 0l1。假设对抗扰动的最大 ℓ 2 失真比率满足:01 - η0对于所有中间扰动 δ k 0,其中 k 0 = 1, ..., K:0∥ δ K - δ 0d ≤ C k 0 ,K √ η (7)0K - 1 和 C k 0 ,K = �0α 0 α 1 对于 k 0 > 1。0我们可以将定理2的精神总结为:0高失真的多步攻击效率低。0这表明,在FW-AT中,当攻击的失真达到较高水平时,使用大量步骤来近似对抗风险会导致收益递减,因为最后一步将接近早期步骤。反之亦然。0受到低失真扰动攻击的模型可以从使用更多步骤进行训练中受益。0直观上,低失真的对抗攻击意味着可以在较低的 ℓ 2 半径0与目标半径相比,这些损失景观的不规则性与CO相关,如第3.2节所讨论的。受到这两个观点的启发,我们设计了一种FW-AT算法,该算法根据FW(2)攻击的失真来调整优化中使用的攻击步数。Algorithm 2 Epoch of FW-AT-ADAPT1|B|�i∈B≥�=5504. Frank-Wolfe对抗训练算法0自适应Frank-Wolfe对抗训练方法(FW-AT-ADAPT)的伪代码如算法2所示。该算法在图2中以图形方式表示,并对PGD-AT进行了以下修改:0(i) 使用FW优化方案计算对抗攻击(算法1)0(ii) 对于每个迭代的前 B m 批次,监控 FW(2)攻击的失真。如果这些批次的平均失真高于阈值r,则攻击步数 K 在该轮迭代的剩余部分中减半为K/2。如果平均失真低于 r,则 K 增加 2。0输入: 模型 f θ, 数据 D, 迭代 t, 最大批量大小 |B|,最大扰动 ϵ, 步长调度 γ k, 学习率 η t, 上一轮迭代步数 K0, 最大步数 K 1, 最大失真比率 r, 监控批次数 B m. 结果:鲁棒模型权重 θ, 当前步数 K. N b, d m = 0 K = 2 � 检查FW(2) 失真0for each batch (x, y) � D do0δ = FW-Attack(x, y; K, γk, p = ∞)dm = dm + ∥δ∥2/(ϵ√0Nb = Nb + 1 ifNb0if dm/Bm > r then � Check distortion0K = max(1, �K0/2�)0else0 min(K1, K0 + 2)0end if0end if θ = θ - η0|B| �0i∈B�θL(fθ(xi+δi),yi)0end for0接下来,我们分析在高失真设置中使用较少步骤对对抗训练权重更新的影响。我们的分析表明,在这种情况下,AT权重更新的影响很小,因此我们的方法不会牺牲鲁棒性。虽然深度神经网络中的损失函数L(fθ(x+δ),y)通常是非凸的,但我们做出以下假设。0假设1.函数L在Bp(ϵ)上具有L-Lipschitz连续梯度,即∥�θL(fθ(x+u),y)−�θL(fθ(x+v),y)∥≤L∥u−v∥,�u,v∈Bp(ϵ)。0假设1是一项标准假设,在几个先前的工作中已经提出。最近的研究表明0最近的研究表明,在过参数化的深度神经网络中,损失在某种程度上是光滑的,并且批归一化提供了有利的Lipschitz连续性质。这有助于证明假设1。0定理3.考虑FW-AT算法2的批次更新,在批次B中的示例上平均满足定理2的高失真条件,即对于某个小的η∈(0,1):0∥ δi(K) ∥201 - η (8)0其中δi(K)表示批次B中第i个示例的K步FW对抗扰动。设SGD模型权重梯度为:0g(θ, δ(K)) = 1 | B|0i ∈ B�θL(fθ(xi+δi(K)),yi)0假设1成立,使用对抗扰动δK和δk0的模型权重SGD更新受到限制:0∥g(θ, δ(K)) - g(θ, δ(k0))∥2 ≤ LCk0,K√η∙ϵ√0d.(9)0不等式(9)断言,在高失真设置中,高步骤FW攻击获得的梯度,因此权重更新,接近于低步骤FW攻击的梯度。因此,预计使用所提出的自适应算法可以实现类似水平的对抗鲁棒性。证明见附录。04.1.选择目标失真比率0为了提供失真比率信号超参数r的直观理解,我们提出以下推论。0推论1.(FW(2)失真检查)设s0和s1是FW对抗攻击的前两步的LMO。如果s1与s0之间有k个符号变化,则δ1的最大失真为0∥δ1∥2ϵ√01-4k0dγ1(1-γ1) (10)0推论1告诉我们,FW(2)的失真是x处的损失梯度和FGSM攻击处的损失梯度之间的符号变化比例的函数。例如,图4b显示CO模型的迭代之间始终有超过30%的符号变化,而更强大的模型可以只有10%的符号变化。05.实验结果0我们在CIFAR-10和CIFAR-100数据集上评估我们的模型,其中ϵ=8/255和16/255。所有网络都使用预训练标准模型的权重进行初始化。560然后通过SGD优化进行30个时期的微调。学习率为0.1(除了FGSM-GA),然后在15个时期后降低到0.01。我们记录训练完整30个时期的时间(除了F REE-AT)。对于FW-ADAPT,我们选择15个均匀间隔的符号变化比率,介于15%和30%之间,然后根据推论1设置扭曲检查。基线。我们与使用步长为2.5 ϵ/K和K = 2, 3, 5, 7,10的多步PGD(K)-AT进行比较。此外,我们还与在其防御中使用单个梯度步骤的方法进行比较。这包括FGSM-R AND和FGSM-ADAPT,步长为ϵ,检查点sweep为c = 2, 3, 4,8。尽管由于小批量重播和攻击的热启动,它可能使用了多个步骤,但我们也将F REE -AT包括在此类别中,其中我们扫描小批量重播的数量m = 2, 3, 4, 8,12,因为它的训练时间与其他单步方法相当。我们将FGSM-GA放在此类别中,即使它需要额外的梯度信息来计算其对齐正则化,因为它仍然使用一步攻击。我们的FW-ADAPT算法属于单独的类别,因为它旨在通过适应性有效地使用多个步骤,从而弥合固定多步和单步方法之间的差距。由于小批量重播有效地将模式采取的步骤数乘以了倍数,因此F REE-AT训练30个时期会不公平地增加其训练时间。为了解决这个问题,我们调整了时期和小批量的数量,使其接近竞争对手方法的干净准确性。此外,FGSM-GA无法以学习率0.1开始获得高准确性,因此将其学习率设置为0.01。评估指标。使用强白盒攻击PGD(50)评估鲁棒性,步长为2.5ϵ/50。为了确保我们检测到梯度掩盖,我们还使用AutoAttack (AA)[10]进行评估,它是一个由多个强白盒和黑盒攻击组成的无超参数攻击套件,是针对梯度掩盖的强评估指标。结果。图5显示了在少于35分钟内训练的单步和多步方法在CIFAR-10上的参数扫描结果。每个点表示不同的参数,曲线显示了最佳性能曲线,即定义为训练速度更快的没有更高AutoAttack准确性的参数。总体而言,FW-ADAPT在鲁棒性与训练时间权衡方面获得了优越性能,特别是在更困难的ϵ =16 /255情况下,我们相比其他方法获得了显著的改进。在每种方法的性能曲线端点进行比较的结果列在表1中。我们看到FW-ADAPT能够在鲁棒性方面弥合单步和多步方法之间的差距,而不牺牲速度。特别是我们发现在ϵ = 16 /255情况下,单步方法在干净和对抗性准确性方面都很困难;而FW-A DAPT0(a) ϵ = 8 / 2550(b) ϵ = 16 / 2550图5.CIFAR-10上各种AT方法的AutoAttack性能与训练时间的权衡。点表示方法的各个参数,曲线表示最佳性能权衡。FW-ADAPT在类似时间复杂度的方法中实现了优越的权衡。0能够以更高的性能实现类似的训练时间。这表明更大的攻击尺寸对于使用单步方法存在根本障碍。在表2中,我们在CIFAR-100数据集上观察到类似的性能优势。06. 限制0我们的工作重点是深入理解FW-AT背后的理论,并确定自适应版本FW-AT-ADAPT是否可以提供与单步和多步AT变体相比更优越的鲁棒性/训练时间权衡。我们确实展示了这样的优越权衡存在。未来的工作可能集中在开发替代的适应策略和标准。07. 结论0对抗性训练(AT)可以提供对 ℓ p-范数对抗扰动的鲁棒性,计算使用投影梯度下降(PGD)。通过在内部最大化中使用Frank-Wolfe(FW)优化,可以解决一个有趣的现象。Method ϵ = 8/255CleanPGD(50)AATime (min)PGD(10)82.3150.1145.3849.8PGD(5)82.4649.8845.4628.3PGD(2)83.4248.5044.1215.3FREE-AT (m = 2)90.1026.7423.015.5FREE-AT (m = 12)76.5045.0940.9727.0FGSM-GA (λ = 0.2)77.9941.4436.4231.8FGSM-ADAPT (c = 2)83.9743.7739.6513.9FGSM-RAND78.3840.6435.9711.1FW-ADAPT (r = 0.865)83.3145.8141.8011.5FW-ADAPT (r = 0.900)82.3449.6745.0916.9Method ϵ = 16/255CleanPGD(50)AATime (min)PGD(10)63.1731.2922.6249.8PGD(5)61.7230.5822.2728.2PGD(2)63.2124.7616.4915.2FREE-AT (m = 2)57.695.003.275.5FREE-AT (m = 5)35.0515.9412.7712.0FGSM-GA (λ = 0.5)55.5722.7215.0931.6FGSM-ADAPT (c = 12)33.1818.8214.9922.5FGSM-ADAPT (c = 2)40.4417.3212.2913.5FGSM-RAND56.8222.0314.2711.0FW-ADAPT (r = 0.830)57.7825.5417.4112.8FW-ADAPT (r = 0.887)58.4629.5721.0622.4Method ϵ = 8/255CleanPGD(50)AATime (min)PGD(10)59.0727.3723.1049.8PGD(2)60.6526.2021.9915.3FREE-AT (m = 4)60.1623.2019.279.9FGSM-GA (λ = 0.2)56.5320.0216.1531.5FGSM-ADAPT (c = 2)49.2820.1915.9713.7FGSM-RAND50.2020.6316.4711.0FW-ADAPT (r = 0.830)61.1223.2019.9711.9FW-ADAPT (r = 0.899)60.6025.4121.6415.1Method ϵ = 16/255CleanPGD(50)AATime (min)PGD(10)40.4916.4611.3049.8PGD(5)41.9915.7110.8828.3PGD(2)33.1710.547.1415.3FREE-AT (m = 4)47.068.836.349.8FGSM-GA (λ = 0.2)37.047.884.6732.2FGSM-ADAPT (c = 2)8.384.853.5513.5FGSM-RAND24.786.963.9211.0FW-ADAPT (r = 0.830)44.6511.527.9913.6FW-ADAPT (r = 0.887)40.9115.3310.4724.0570表1. 使用PGD(50)、AutoAttack(AA)计算的对抗性准确性和基线多步骤PGD、单步骤和FW-ADAPT的训练时间。CIFAR-10数据集的性能曲线端点处的参数结果,包括PGD(10)。0观察到以下现象:对抗鲁棒模型的FW攻击导致 ℓ 2扭曲比标准攻击更高,尽管两者几乎达到相同的 ℓ ∞扭曲。我们推导出沿着攻击路径的损失梯度对齐与FW攻击的扭曲之间的理论联系,解释了这一现象。我们提供了理论和实证证据,表明这种扭曲可以信号单步快速AT模型中的灾难性过拟合。受到这种联系的启发,我们提出了一种自适应的Frank-Wolfe对抗训练(FW-AT-ADAPT)算法,它在保持竞争性训练时间的同时实现了单步基线之上的鲁棒性,特别是在强 ℓ ∞攻击范围内。这项工作开始弥合单步和多步方法之间的鲁棒性训练时间权衡差距,并希望能激发对Frank-Wolfe优化和对抗鲁棒性之间联系的未来研究。0社会影响声明0随着深度神经网络在诸如医疗保健、自动驾驶和生物识别等安全关键应用中的部署越来越多,对抗性攻击的鲁棒性成为一个日益关注的问题。解决这个问题对于获得公众的信任和避免机会被拒绝至关重要。其中最流行和有效的防御方法之一是对抗性训练(AT)。然而,0表2. 使用PGD(50)、AutoAttack(AA)计算的对抗性准确性和基线多步PGD (第一块)、单步(第二块)和FW-ADAPT(第三块)的训练时间。选择CIFAR-100数据集中表现最好的模型的结果,包括PGD(10)。0在AT中广泛使用的流行的多步PGD优化方法很难进行分析,以了解AT引入了哪种类型的正则化,并且它还需要在内部最大化中进行多个步骤,导致训练速度较慢。为了减少训练时间,提出了单步方法,但容易出现灾难性过拟合,导致对鲁棒性产生错误的认知。这在安全应用中可能会产生严重后果。我们的工作通过FW优化的视角改进了对AT的理解,并提供了简单的方法来高效训练鲁棒模型而不损害鲁棒性。0致谢0研究由美国空军研究实验室和美国空军人工智能加速器赞助,并在合作协议号FA8750-19-2-1000下完成。本文件中包含的观点和结论属于作者个人,不应被解释为代表美国空军或美国政府的官方政策,无论是明示还是暗示。美国政府有权为政府目的复制和分发再版,尽管此处有任何版权注释。[14] H. Kim, W. Lee, and J. Lee. Understanding catastrophicoverfitting in single-step adversarial training. In AAAI, 2021.1, 3580参考文献0[1] Z. Allen-Zhu, Y. Li, and Z. Song.通过超参数化实现深度学习的收敛理论. 在ICML上, 2019. 60[2] M. Andriushchenko and N. Flammarion.理解和改进快速对抗训练. 在NeurIPS上, 2020. 1 , 3 , 120[3] A. Athalye, N. Carlini, and D. Wagner.模糊梯度给人一种虚假的安全感:规避对抗性示例的防御措施.在ICML上, 2018. 30[4] D. P. Bertsekas. 非线性规划 . Athena Scientific, 1999. 160[5] Q.-Z. Cai, C. Liu, and D. Song. 课程对抗训练.在第二十七届国际人工智能联合会议IJCAI-18上, 第3740-3747页.国际人工智能联合会议组织, 2018. 30[6] Y. Cao and Q. Gu.梯度下降在超参数化的深度ReLU网络学习中的泛化误差界限.在AAAI上, 2020. 60[7] Y. Carmon, A. Raghunathan, L. Schmidt, P. Liang, and J. C.Duchi. 无标签数据提高对抗鲁棒性. 在NeurIPS上, 2019. 30[8] J. Chen, D. Zhou, J. Yi, and Q. Gu.一种用于高效和有效对抗攻击的Frank-Wolfe框架.在第34届AAAI人工智能大会上, 2020. 1 , 4 , 160[9] N. Codella, V. Rotemberg, P. Tschandl, M. E. Celebi, S.Dusza, D. Gutman, B. Helba, A. Kalloo, K. Liopyris, M.Marchetti, H. Kittler, and A. Halpern.ISIC2018:用于黑素瘤检测的皮肤病变分析. 110[10] F. Croce and M. Hein.使用多样的无参数攻击集成可靠评估对抗鲁棒性. 在ICML上, 2020.1 , 3 , 70[11] M. Frank and P. Wolfe. 二次规划的算法. 海军研究物流季刊,3:95–110, 1956. 3 , 160[12] I. J. Goodfellow, J. Shlens, and C. Szegedy.解释和利用对抗性示例. 在国际学习表示会议上, 2015. 1 , 30[13] M. Jaggi. 重温Frank-Wolfe:无投影稀疏凸优化. 在ICML上,第427-435页, 2013. 30[15] A. Krizhevsky. Cifar-10和cifar-100数据集。 60[16] A. Kurakin, I. J. Goodfellow, and S. Bengio.大规模的对抗机器学习。在国际学习表示会议上,2017年。 10[17] S. Lacoste-Julien.Frank-Wolfe算法在非凸目标中的收敛速度。在arXiv:1607.00345,2016年。 160[18] Y. LeCun, Y. Bengio, and G. Hinton.深度学习。Nature,521(7533):436-444,2015年。 10[19] C. T. Lopez.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功