联合鲁棒性对抗性扰动的防御方法研究

50 浏览量更新于2023-10-24 收藏 12.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Ali Dabouei, Sobhan Soleymani, Fariborz Taherkhani, Jeremy Dawson, Nasser M. NasrabadiWest Virginia University{ad0046, ssoleyma, ft0009}@mix.wvu.edu, {nasser.nasrabadi, jeremy.dawson}@mail.wvu.edu11220利用联合鲁棒性对抗性扰动0摘要0最近，集合模型已经展示了减轻对抗性脆弱性的实证能力。在本文中，我们利用集合内部的一阶相互作用来形式化一个可靠且实用的防御方法。我们介绍了一种相互作用的场景，根据集合的大小、梯度方向的多样性和成员对鲁棒性的贡献平衡来证明其提高了鲁棒性。我们提出了一种联合梯度相位和幅度正则化（GPMR）作为一种强有力的方法，来实施集合成员之间所需的相互作用场景。通过广泛的实验证明，包括基于梯度和无梯度的评估，我们验证了所提出方法的实际有效性，与之前的方法相比。此外，我们证明GPMR与为单个分类器开发的其他防御策略正交，并且它们的组合可以进一步提高集合的鲁棒性。01. 引言0深度神经网络（DNNs）在现代机器学习的发展中发挥了惊人的作用，通过在许多具有挑战性的任务上取得了最先进的性能[22,41]。尽管它们具有出色的性能、可扩展性和对未见测试数据的泛化能力，但它们存在一个主要缺点：对输入样本的轻微操纵可以形成对抗性示例，从而导致模型预测的剧烈变化[38, 19,31]。为了达到这个目的所需的扰动对人眼来说往往是几乎不可察觉的，并且可以在分类器[7, 14]、数据样本[30, 32]和输入转换[3,5]之间传递。这个问题引起了人们对在安全敏感应用中部署DNNs的越来越多的关注，如自动驾驶车辆、生物特征识别和电子商务。最初，大量的工作致力于通过基于扰动的经验观察特征的启发式方法来解决这个问题，比如它们的噪声结构。然而，这些假设的不确定性使得大部分防御尝试都被更先进的攻击所破坏[7, 12,11]。最近的研究在解释对抗性脆弱性的原因方面取得了重要进展，通过证明对抗性示例是分类器在数据空间中非零测试误差的自然结果[18,10]。特别是，由于输入空间的巨大基数，一个自然输入样本周围的少数错误分类点形成了一个非常接近的决策边界，可以通过对抗性扰动达到。这表明对抗性鲁棒性只能对有界扰动进行证明[20,10]，因为一般情况下实现零错误率是非平凡的[18]。大多数关于对抗性鲁棒性的研究都涉及单个分类器[38, 19, 26, 18, 10,20]。然而，探索多个分类器的相互作用突显了集合在减轻对抗性脆弱性方面的潜力[33, 21, 1,4]。在本文中，我们利用集合内部的一阶相互作用来可靠地提高集合预测的鲁棒性。我们说明了梯度方向的多样性和梯度幅度的平衡是增强深度集合鲁棒性的两个关键因素。具体而言，我们做出以下贡献：0对这一现象缺乏形式化解释和理论基础导致了大多数防御尝试在面对更先进的攻击时受到了威胁[7, 12,11]。最近的研究在解释对抗性脆弱性的原因方面取得了重要进展，通过证明对抗性示例是分类器在数据空间中非零测试误差的自然结果[18,10]。特别是，由于输入空间的巨大基数，一个自然输入样本周围的少数错误分类点形成了一个非常接近的决策边界，可以通过对抗性扰动达到。这表明对抗性鲁棒性只能对有界扰动进行证明[20,10]，因为一般情况下实现零错误率是非平凡的[18]。大多数关于对抗性鲁棒性的研究都涉及单个分类器[38, 19, 26, 18,10,20]。然而，探索多个分类器的相互作用突显了集合在减轻对抗性脆弱性方面的潜力[33, 21, 1,4]。在本文中，我们利用集合内部的一阶相互作用来可靠地提高集合预测的鲁棒性。我们说明了梯度方向的多样性和梯度幅度的平衡是增强深度集合鲁棒性的两个关键因素。具体而言，我们做出以下贡献：0•我们介绍了一个在集合内部相互作用的实际可行案例，证明了它能够提高模型对白盒攻击的鲁棒性。0•我们提出了一种训练框架，称为联合梯度相位和幅度正则化（GPMR），以实现集合成员之间的期望相互作用。0•我们通过包括基于梯度和无梯度评估在内的广泛实验证实了所提出方法的有效性。0•我们证明了所提出的训练框架与以限制梯度幅度为目标的先前方法（如对抗训练）是正交的。112302. 相关工作0大量研究尝试使用知识蒸馏[35]、流形学习[37,29]、数据转换和压缩[40,15]、统计分析[44]和正则化[43]等方法来增强DNN的鲁棒性。然而，文献中的大多数防御方案都被更复杂的攻击所破坏[7,6]。提高DNN鲁棒性的一种有效方法是对抗训练，在训练过程中通过对抗性样本来增加训练集。这种方法被广泛研究，使用不同类型的对抗性样本[38,19,31,26,23]。对抗训练的一个主要局限性是它依赖于用于训练模型的对抗性样本的类型。因此，这种方法无法对未知的对抗性样本和超出分布的样本（例如通过加性高斯噪声[18]生成的样本）提供可靠的鲁棒性。一些研究直接限制网络对轻微输入变化的预测变化，通过限制网络的Lipschitz常数[9,20,39]。然而，控制Lipschitz常数涉及将高度非线性和难以处理的损失函数纳入训练目标，这导致大规模DNN的计算成本受限。此外，用于正则化DNN的Lipschitz常数的理论假设降低了这些方法对强攻击的有效性。另一些工作考虑了多个分类器之间的相互作用以减轻对抗性脆弱性[1,4,33,21]。其中大多数方法提出了一种促进预测多样性的方法。Abbasi等人[1]证明了将集合的成员专门用于不同的类别子集可以提供对抗性样本的鲁棒性。Bagnall等人[4]提出了一种联合优化方案，以最小化对抗性样本上的分类分数的相似性。Pang等人[33]开发了自适应多样性促进（ADP）方法，该方法通过使非最大预测多样化来保持模型在自然样本上的准确性。然而，多样化预测在白盒防御场景中无法提供可靠的鲁棒性，因为攻击者可以使用多样化预测的梯度同时欺骗所有分类器。此外，我们在理论上和实验证明，多样化预测在无梯度评估中并不能提高鲁棒性，因为分类器的梯度可能具有相似的方向。最近，Kariyappa和Qureshi[21]考虑了集合中梯度的多样性以提供对抗性鲁棒性，并提出了梯度对齐损失（GAL）。然而，该方法存在两个限制。首先，GAL没有考虑多样化梯度方向的最佳几何边界。这降低了0该方法的性能表现不稳定，并且在训练过程中引起了显著波动，如第4节所讨论的。其次，GAL不能使成员的梯度大小相等。因此，它仅在黑盒威胁模型中进行评估，在该模型中，攻击者无法访问模型参数或梯度。相比之下，我们的工作通过在白盒威胁模型中找到成员之间的最佳一阶防御相互作用，建立了一个新的理论框架来分析联合鲁棒性。03. 联合对抗鲁棒性0改变分类器的预测主要会改变预测类的得分。因此，在我们的理论分析中，我们关注的是可微分类器最终输出的变化，而不是输出的最大参数的索引的变化，即预测类。考虑 ℓ p-范数作为度量扰动大小的距离度量，我们定义对抗样本的鲁棒性，或者更具体地说，对抗性扰动如下：0定义1. 函数 f : X � R^n → R^m 被称为在集合 X上对于扰动的 (�, δ) p 鲁棒，如果对于所有样本 x, x' ∈ X 且|| x - x' || p ≤ � ，f 满足 || f (x) - f (x') || 2 ≤ δ 。0为了比较不同分类方案的鲁棒性，我们分析了扰动的 ℓ p-范数下界，即需要改变最大预测值的固定 δ所需的扰动的大小 � 。我们在第03.1. 在第 3.2节中，我们为当对手需要改变所有成员的预测以欺骗集合预测时的集合的鲁棒性进行了形式化。在这里，我们引入了一个实际可行的情景，即一组条件，用于成员之间的交互，并证明它增强了集合的鲁棒性。然后在第 3.3节中，我们将提出的情景应用于实际威胁模型，其中欺骗集合中的子集足以改变集合的预测。最后，在第 3.4节中，我们提出了实施所需的防御性交互的方法。03.1. 单个分类器的鲁棒性0设 f : X → R^m 是一个可微的分类器，将数据点 x ∈ X映射到 m 个分类得分 f_j(x)，j ∈ {0, ..., m-1}。样本 x的真实标签是 y，网络预测的类别用 c = arg max_j f_j(x)表示。通过改变输入样本 x 以及扰动 r来改变网络的预测，改变了r∗ ≈c||q̸min ||r||p s.t. ⟨∇f ici, r⟩ ≤ −δ,∀i ∈ {0, . . . , k −1}. (3)̸11240f c ( x ) 。我们基于对 f c ( x ) 的一阶近似来开发我们的方法： f c ( x + r ) − f c ( x )≈ �� x f c , r � 10因为DNN在输入样本附近表现出线性特性[19, 16,17]，我们希望增强鲁棒性。可以使用H ¨ older不等式和 ℓ p-范数投影[28, 13]计算出将分类得分改变 δ 所需的最小 ℓ p-范数扰动 r � p ，其中 p ∈ [1, ∞) ，如下所示：0||� f c || q ∂ ( ||� f c || q ) ，(1)0q = 1 ), ∂ ( . ) 表示参数的次梯度。对于可微的 ℓ q-范数，其次梯度等于：∂ ||� f c || q /∂ � f c，方程1可以重写为：0r � ≈ δ0|� f c | q − 1 ⊙ sign(� f c0，(2)0其中 ⊙ 表示逐元素相乘。先前已经推导出了 ℓ p-范数鲁棒性的类似一阶近似的下界 [31,20]。方程2暗示了梯度的大小在分类器的鲁棒性中起着关键作用。因此，人们已经付出了很大努力，通过控制Lipschitz常数[9, 20, 39]或对抗训练[19, 26]来直接平滑 f c。在这里，我们采取了与先前研究不同的方法，通过探索多个分类器的联合鲁棒性来增加方程2的下界。03.2. 多个分类器的联合鲁棒性0设F是一个包含k个分类器的集合，F = { f i } k − 1 i=0，其中f i : X → R m将数据点x ∈X映射到m个分类得分f i j ( x )，j ∈ { 0 , . . . , m − 1}。由分类器f i ∈ F预测的x的类别表示为c i = arg max j f ij ( x )。根据之前关于集合鲁棒性的研究[33, 21, 1,4]，我们假设集合的预测是各个分类器预测的平均值，即F(x) = 1k �0f ∈F f ( x )，集合的预测类别为c = arg max j F j ( x)，其中Fj是与第j类相关的预测概率。在本节中，我们通过假设对手必须欺骗所有成员才能欺骗集合的预测，即当� i, j : c i � = cj时，集合拒绝输入样本。满足在x处将所有分类器的分类得分至少减少δ > 0所需的ℓp范数最小扰动r*p是以下优化问题的解：0本文剩余部分中，我们将从梯度算子中省略x。0图1：k = 2的Theorem 1的示意图。增加梯度� f 0 和� f 1之间的角度∆φ会增加最小扰动的大小，从|| r || 2 = √0l √ cos φ +1到|| r ′ || 2 = √0l √0cos( φ +∆ φ )+1。0这解释了集合中的联合鲁棒性与每个成员的梯度相关。分析这种相互作用依赖于这个优化问题的解，该问题在一般ℓp范数情况下没有解析形式，但可以使用非线性规划方法计算[27]。然而，当梯度向量线性独立时，ℓ2范数情况具有以下闭式解：0r � 2 = − δ Ω T (Ω Ω T ) − 1 1 k × 1，(4)0其中Ω := [ � f 0 c 0 , � f 1 c 1 , . . . , � f k − 1 c k − 1 ]T，1k×1是一个大小为k×1的全1矩阵。对于k个分类器的联合鲁棒性的最坏情况发生在给定样本x的分类器梯度� f i c i具有相同方向的情况下。对于这种情况，方程3的最优ℓ2范数解的大小为：|| r � 2 || 2 ≈ δ0max i {||� f i ci || 2 }。因此，ℓ2范数的联合0最坏情况下，k个分类器提供的鲁棒性与方程2中单个分类器的鲁棒性相同。在Theorem1中，我们假设所有分类器的梯度向量在每个x处具有相等的大小，并且它们是等角的，即任意两个梯度向量的角度等于φ。因此，我们推导出具有等角梯度的k个分类器的联合鲁棒性的下界。0Theorem 1. 设� f 0 , . . . , � f k − 1是Rn中具有相等长度l的k个向量，并且对于任意i � = j ∈ { 0 , .. . , k − 1 }，�� f i , � f j � = l 2 cos φ，令r ∈ Rn是一个向量，使得对于任意i，满足|�� f i , r �| ≥ | δ |，则：0|| r || 2 ≥ | δ | √0l �0(( k − 1) cosφ + 1)。0证明。重写方程4，得到满足|�� f i , r �| ≥ | δ|0i α i � f i，其中α i是向量i的第i个元素̸In the previous section, we formalized a geometric frame-work to analyze the robustness according to the size of theensemble, k = |F|, and the extent of the diversity of thegradient directions. This methodology is built upon the op-timization problem in Equation 3 which assumes that theadversary must fool all classiﬁers at the input sample. How-ever, it is not practical to reject all samples which do nothave the full agreement of the members. In real-world appli-cations, changing the prediction of a subset of the ensemble,F′ ⊂ F, is enough to alter the prediction of the ensemble.In this case, the lower bound of the robustness, presented inTheorem 1, reduces based on k′ = |F′|. Previous defensesbased on diversifying predictions [33, 1, 4] or gradients [21]do not control the magnitude of the gradients of the members.11250α=δ(ΩΩT)-11k×1，而Ω=[�f0，...，�fk-1]T。应用等角条件，我们有：αi=δ0l2((k-1)cosφ+1)，这与i无关。在等角情况下，当k个分类器相同，即φ=0时，集合成员之间具有最小的防御交互，因为联合鲁棒性等于方程2中得到的单个分类器的鲁棒性。对0另一方面，||�k-1i=0�fi||22=��k-1i=0�fi,�k-1i=0�fi�=kl2((k-φ+1)。将这两个方程组合起来得出结论。0kl)。随着φ的增长，鲁棒性增加，并且当φ→arccos(-10k-1)用于梯度多样性。我们观察到这会导致GAL的训练波动，并降低了梯度方向多样性的有效性。其次，GAL没有对成员之间的梯度幅度进行正则化。因此，任何对集合预测的白盒攻击都可以轻松规避防御策略，针对最不鲁棒的成员。0k-1）。对于任意一组梯度{�f0，...，�fk-1}，其鲁棒性下界由任何一组内切等角向量的鲁棒性给出，其中φ=mini≠j∠(�fi，�fj)，l=maxi||�fi||2。因此，定理1为梯度的一般情况提供了鲁棒性的下界。这意味着通过增加梯度之间的最小角度并减小最大梯度幅值可以提高集合的鲁棒性。图1说明了如何通过促进梯度多样性来提高鲁棒性。梯度方向的多样性在GAL[21]中已经被研究过，作为一种启发式方法来提高对黑盒攻击的鲁棒性。定理1突出了GAL的两个缺点，限制了其对白盒攻击的有效性。首先，GAL没有考虑最优界限arccos(-10在前一节中，我们建立了一个几何框架来根据集合的大小k=|F|和梯度方向的多样性来分析鲁棒性。该方法建立在方程3的优化问题上，假设对于输入样本，对手必须欺骗所有分类器。然而，在实际应用中，拒绝所有没有完全一致的成员的样本是不切实际的。在现实世界的应用中，改变集合的一个子集F'�F的预测就足以改变集合的预测。在这种情况下，根据k'=|F'|，定理1给出的鲁棒性下界会减小。以前基于多样化预测[33，1，4]或梯度[21]的防御措施没有控制成员的梯度幅度。03.3. 实践中的威胁模型0因此，为了欺骗集合，通常只需要欺骗一个较小的子集，即�|F|02�+1，因为对手可以欺骗一组局部较弱的分类器，即具有较大梯度幅度的成员。在下一节中，我们提出了一种梯度幅度均衡损失，通过强制：|F'|≥�|F|02�+1.03.4. 联合梯度正则化0在这里，我们提出了联合梯度相位和幅度正则化（GPMR）方案，作为一种理论上有根据的方法，用于提高集合对输入域有界变化的鲁棒性。根据定理1，GPMR通过联合正则化梯度方向和幅度来最大化集合的鲁棒性的下界。首先，我们定义梯度多样性促进损失，通过强制梯度的余弦相似度趋近于-1/k-1来增加梯度之间的角度：0L div = 20k（k−00 ≤ i

下载后可阅读完整内容，剩余1页未读，立即下载