基于影响函数和最近邻检测的对抗样本检测方法

114 浏览量更新于2023-10-24 收藏 12.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

144530使用影响函数和最近邻检测对抗样本0Gilad Cohen TelAviv University TelAviv, 699780giladco1@mail.tau.ac.il0Guillermo Sapiro DukeUniversity NorthCarolina, 277080guillermo.sapiro@duke.edu0Raja Giryes TelAviv University TelAviv, 699780raja@tauex.tau.ac.il0摘要0深度神经网络（DNNs）以其对对抗攻击的脆弱性而臭名昭著，对抗攻击是向其输入图像添加的小扰动，以误导其预测。因此，检测对抗样本是鲁棒分类框架的基本要求。在这项工作中，我们提出了一种用于检测此类对抗攻击的方法，适用于任何预训练的神经网络分类器。我们使用影响函数来衡量每个训练样本对验证集数据的影响。根据影响分数，我们找到对于给定的验证样本最有支持的训练样本。我们使用在DNN的激活层上拟合的k最近邻（k-NN）模型来搜索这些支持训练样本的排名。我们观察到，这些样本与正常输入的最近邻高度相关，而对于对抗输入，这种相关性要弱得多。我们使用k-NN的排名和距离训练了一个对抗检测器，并展示了它在三个数据集上六种攻击方法上取得了最先进的结果。代码可在https://github.com/giladcohen/NNIF_adv_defense找到。01. 引言0深度神经网络（DNNs）在学术界和工业界广泛应用，在许多领域取得了最先进的结果，如计算机视觉[21, 41,49]，自然语言处理[1, 18]和语音识别[15,51]。然而，研究表明DNNs对对抗样本[12,46]具有脆弱性，对抗样本是对其输入进行特殊制作的扰动。对抗攻击生成这样的样本，欺骗机器学习模型，使其以高置信度错误预测，同时对人类来说是不可察觉的。不同DNN分类器的对抗子空间往往重叠，这使得为一个替代模型生成的对抗样本也能欺骗其他不同的未知DNNs。这使得对抗攻击对任何机器学习都构成了真正的威胁。0图1.基于影响函数的有用示例与DNN嵌入空间中的k最近邻（k-NN）之间的对应关系可以帮助区分对抗样本和正常样本。我们使用PCA显示了DNN的嵌入空间中的一个正常示例（黑色星号）及其对抗版本（棕色X），以及它们的k-NN（k=25）和25个最有帮助的样本。请注意，对于正常示例，有用的样本在嵌入空间中与k-NN高度相关。然而，在对抗情况下，这些样本彼此之间相距较远。这一观察结果为我们提供了一种检测对抗攻击的技术。0神经网络的脆弱性使得人们对其在敏感应用中的使用产生了质疑，对手可能提供修改后的输入以引发误识别。因此，许多方法已经被开发出来应对这一挑战。它们主要可以分为两组：1）积极的防御方法，旨在提高神经网络对对抗样本的鲁棒性；2）反应性检测技术，不改变神经网络本身，而是试图找出某个输入是否与攻击相关。本文主要关注反应性检测问题，提出了一种新的检测策略。144540这是一种可以应用于任何预训练神经网络的对抗攻击算法。该算法的核心思想是训练数据与网络的分类之间应该存在一种对应关系。如果这种关系被破坏，那么很可能是遇到了对抗性输入。为此，我们使用两种“度量”来检查训练数据对网络决策的影响。第一种是影响函数[19]，它确定训练集中的数据点对给定测试样本的网络决策的影响。该度量衡量了模型损失函数中特定训练点的微小权重增加对测试点损失的影响程度。因此，它为我们提供了一个衡量测试样本分类受每个训练样本影响程度的指标。第二种度量是在网络的嵌入空间中应用 k -nearest neighbor（ k-NN）分类器。最近的一些研究[36, 8, 17, 7]表明，网络的softmax 输出与在该网络的嵌入空间中应用 k -NN的决策之间存在很高的相关性（其中邻居是从训练集中选择的）。它们基本上表明，网络的决策依赖于嵌入空间中最近邻样本的相似性。因此，该空间中的距离可以作为衡量示例对网络输出影响的指标。鉴于影响函数和基于 k -NN的度量，我们将它们结合起来生成一种新的检测对抗样本的策略。我们的方法背后的原理是对于正常输入，它的 k -NN训练样本（嵌入空间中的最近邻）和最有帮助的训练样本（使用影响函数找到）应该是相关的。然而，对于对抗样本，这种相关性应该被破坏，从而成为攻击正在发生的指示。图1说明了 k -NN和最有帮助的训练样本之间的这种关系。黑色星号和棕色 X分别表示CIFAR-10验证集中的正常样本和对应的对抗样本；图中的绘图是使用在训练集上拟合的PCA投影的嵌入空间。对于每个样本（正常/对抗），我们在DNN嵌入空间中找到其25个最近邻（蓝色圆圈/红色向下三角形）；此外，我们还找到了它们在训练集中的25个最有帮助的训练样本（分别标记为蓝色方块和红色向上三角形）。请注意，正常样本的最近邻和最有帮助的训练样本在PCA嵌入空间中非常接近，而对抗样本在训练样本之间没有展现出相同的对应关系。为了检查两者之间的相关性，我们采取以下策略：对于一个未见过的输入样本，我们从训练集中选择由影响函数选择的最有影响力的样本。然后，我们检查它们在网络的嵌入空间中的距离排序（即 k 的值将是多少）。0因此，我们使用这些 k -NN特征来训练一个简单的逻辑回归（LR）模型，用于检测输入是否为对抗样本。我们在各种攻击方法和数据集上评估了我们的检测策略，并展示了它相对于其他主要检测技术的优势。结果验证了先前研究中关于在嵌入空间中应用 k -NN 和DNN决策之间相似性的假设，并展示了如何用于检测对抗样本。02. 相关工作0在本节中，我们简要回顾了关于对抗攻击和防御以及相关理论的现有论文。理论：Madry等人使用鲁棒优化框架，并展示了对抗训练的结果[26]。他们发现，投影梯度下降（PGD）是一个最优的一阶对手，并且在DNN训练中使用它可以获得对任何一阶攻击的最优鲁棒性。Simon-Gabriel等人证明了DNN对对抗攻击的脆弱性与训练损失的梯度有关[43]。他们还发现，这种脆弱性不依赖于DNN模型。Fawzi等人研究了DNN学习的函数的几何和复杂性，并对其决策边界的曲率进行了实证分析[10]。他们表明，DNN分类器在其决策边界呈正曲率的地方最容易受到攻击，并且自然图像通常位于平坦决策边界附近。Moosavi-Dezfooli等人的研究结果也支持这些发现[31]，他们发现呈正曲率的决策边界增加了小的通用扰动欺骗DNN分类器的可能性。一些研究提供了网络鲁棒性的保证。Hein和Andriushchenko为翻转网络预测所需的噪声提供了一个形式上的上界[14]，而Sinha等人则提供了一种高概率下最坏情况下种群性能的鲁棒性保证的高效方法[44]。对抗攻击：最简单和最快的攻击方法之一是快速梯度符号方法（FGSM）[12]；在这种方法中，攻击者在被攻击样本周围线性拟合交叉熵损失，并轻微扰动图像像素以沿着梯度损失的方向移动。这是一种快速的一步攻击，非常容易在原始输入图像上部署。基于雅可比矩阵的显著性图攻击（JSMA）[37]采用了不同的方法。这种攻击是根据 L 0范数进行设计的，找到能够对损失产生最大变化的一个或两个像素，并仅修改它们。这是一种强大的攻击方法，可以达到97%的成功率。144550通过平均仅修改输入特征的4.02％，成功率达到了较高水平。然而，这种方法是迭代和昂贵的。Moosavi-Dezfooli等人提出的Deepfool[32]是一种非目标攻击方法，通过将被攻击的输入样本移动到最接近的决策边界来创建对抗性样本，假设存在一个仿射分类器。然而，实际上大多数深度神经网络是非线性的，作者在每次迭代中都将分类器在线性化到测试样本附近。与FGSM和JSMA相比，Deepfool对输入的扰动较小。它还被应用于UniversalPerturbations攻击[30]，这是一种迭代攻击，旨在使用相同的最小通用扰动来欺骗一组图像。Carlini和Wagner[4]提出了一种针对防御蒸馏方法[35]的有针对性攻击（CW攻击）。CW攻击对大多数对抗性检测方法具有韧性。Carlini和Wagner还提出了一个优化框架[3]，其中包括一个防御特定损失作为正则化项。这种基于优化的攻击被认为是迄今为止针对白盒威胁模型最有效的攻击方法，其中对手了解与训练的深度神经网络相关的所有信息：训练数据、架构、超参数、权重等。Chen等人[5]在CW攻击中加入了L1正则化，形成了对深度神经网络的弹性网攻击（EAD）。对抗性防御：已经提出了广泛的主动防御方法，包括对抗性（重新）训练[12, 22, 48, 42,29]，蒸馏网络[35]，梯度掩蔽[48]，特征压缩[50]，网络输入正则化[38,16]，输出正则化[14]，调整正确预测标签的权重[40]，Parseval网络[6]和k-NN搜索[9,45]。然而，这些防御方法可以被基于优化的攻击[3]完全或部分地规避。由于没有已知的固有属性可以区分对抗性样本和常规图像，主动对抗性防御极具挑战性。因此，最近的研究集中在反应性对抗性检测方法上，这些方法旨在基于从DNN层中提取的特征或从学习的编码器中提取的特征来区分对抗性图像和自然图像。Feinman等人[11]提出了一种基于核密度（KD）和贝叶斯不确定性特征的LR检测器。Ma等人[25]通过使用极值理论在每个DNN层估计LID分数，其中最小的NN距离被视为与数据样本底层距离分布的下尾相关的极端事件。给定一个预训练的网络和一组正常示例的数据集，作者对每个样本应用了以下步骤：1）对抗性攻击。2）添加高斯噪声。将自然和噪声图像视为负（非对抗性）类别，将对抗性图像视为正类别。对于每个图像（自然/噪声/对抗性），他们在每个DNN层计算了一个LID分数。最后，对于对抗性检测任务，使用LID特征拟合了一个LR模型。Papernot和McDaniel [36]提出了Deep k-NearestNeighbors（DkNN）算法，以更好地估计给定测试样本的预测、置信度和可信度。他们使用预训练的网络，在每一层拟合了一个k-NN模型。接下来，他们使用一个留出的校准集来估计每个测试样本相对于标签j的不一致性，计算与DNN层上的k-NN标签不同的最近邻居的数量。他们表明，当对测试样本进行对抗性攻击时，真实标签与DNN激活沿层的k-NN标签的一致性较低。Lee等人[23]使用训练集上每个层的DNN激活训练生成分类器，通过应用基于马氏距离的置信度评分来检测对抗性样本。首先，对于每个类别和每个层，他们计算了由训练样本引起的激活的经验均值和协方差。接下来，使用上述类别条件高斯分布，计算了测试样本与其最近的类别条件高斯分布之间的马氏距离。这些距离被用作特征来训练用于对抗性检测任务的L01非目标攻击是指无论具体错误类别如何，都旨在使预测结果不正确的对抗性攻击。2 目标攻击是指旨在将预测分类为特定错误类别的对抗性攻击。0作者使用极值理论在每个DNN层估计了LID分数，其中最小的NN距离被视为与数据样本底层距离分布的下尾相关的极端事件。给定一个预训练的网络和一组正常示例的数据集，作者对每个样本应用了以下步骤：1）对抗性攻击。2）添加高斯噪声。将自然和噪声图像视为负（非对抗性）类别，将对抗性图像视为正类别。对于每个图像（自然/噪声/对抗性），他们在每个DNN层计算了一个LID分数。最后，对于对抗性检测任务，使用LID特征拟合了一个LR模型。Papernot和McDaniel [36]提出了Deep k-NearestNeighbors（DkNN）算法，以更好地估计给定测试样本的预测、置信度和可信度。他们使用预训练的网络，在每一层拟合了一个k-NN模型。接下来，他们使用一个留出的校准集来估计每个测试样本相对于标签j的不一致性，计算与DNN层上的k-NN标签不同的最近邻居的数量。他们表明，当对测试样本进行对抗性攻击时，真实标签与DNN激活沿层的k-NN标签的一致性较低。Lee等人[23]使用训练集上每个层的DNN激活训练生成分类器，通过应用基于马氏距离的置信度评分来检测对抗性样本。首先，对于每个类别和每个层，他们计算了由训练样本引起的激活的经验均值和协方差。接下来，使用上述类别条件高斯分布，计算了测试样本与其最近的类别条件高斯分布之间的马氏距离。这些距离被用作特征来训练用于对抗性检测任务的LR分类器。作者声称使用马氏距离比[25]中使用的欧氏距离更加有效，并展示了改进的检测结果。03. 方法0我们假设DNN的预测受到其隐藏层中训练数据的k-NN的影响，特别是在嵌入层中。如果是这样的话，为了欺骗网络，对抗攻击必须将测试样本移动到嵌入空间中的“坏”子空间，其中有害的训练数据可能导致网络错误地分类正确的标签。为了验证我们的假设，我们在DNN的激活层上拟合了一个k-NN模型，并使用了[19]中使用的影响函数。影响函数可以通过指出哪些训练样本帮助DNN进行预测，哪些训练样本有害（即抑制了网络的预测）来解释DNN。Koh和Liang[19]建议通过以下方式衡量训练图像z的影响：Iup,loss(z, ztest) = −∇θL(ztest, θ)T H−1θ ∇θL(z, θ), (1)144560关于特定测试图像z test 的损失的影响，由以下术语表示：0其中 H是机器学习模型的Hessian矩阵，L是其损失函数，θ是模型参数。在公式（1）的定义中，z和z test是图像。对于每个测试样本z test，我们计算训练集中每个训练样本z的公式（1）的值。然后，我们对所有的I up,loss ( z, z test )分数进行排序，确定特定z test的前M个有帮助和有害的训练样本。接下来，对于选择的2xM个训练点，我们通过在嵌入空间上使用所有训练样本的嵌入向量拟合一个k-NN模型，找到其在测试样本上的排名和距离。我们将每个测试样本z test的嵌入向量输入k-NN模型，提取训练集中最近邻的排名（表示为R）和距离（表示为D）。R和D特征也可以从DNN中的任何其他隐藏激活层中提取，而不仅仅是从嵌入向量中提取。R M ↑ ，D M ↑ ，R M ↓ ，D M ↓分别是有帮助和有害训练样本的排名和距离。我们对z test进行对抗攻击，并在新生成的图像上重复上述过程。正常和对抗特征（R M ↑ ，D M ↑ ，R M ↓ ，D M ↓）用于训练对抗检测任务的LR分类器。检测器的训练方案在算法1中描述。我们将我们的对抗检测方法命名为最近邻影响函数（NNIF）。我们假设训练、验证和测试集不受对抗样本的污染，就像[3]中一样。我们首先从正常验证集生成一个对抗验证集（步骤4）。然后使用影响函数在步骤22中找到与验证图像预测（正常或对抗）相关的前M个最有帮助和有害的训练样本（请参阅补充材料中的I NFLUENCE FUNCTION过程）。然后，通过k-NN模型评估NNIF特征，提取上述找到的最有影响力的训练点的排名和距离（从R和D中提取）。这对于正常验证图像（步骤8）和对抗图像（步骤12）都要进行。此方案可以仅在嵌入层上执行，也可以用于DNN中的所有L激活层。最后，使用NNIF特征训练一个LR分类器。根据从前M个最有帮助/有害的训练样本（R M ↑ ，DM ↑ ，R M ↓ ，D M ↓）中提取的NNIF特征，将测试集中的图像分类为对抗（正样本）或正常（负样本）。训练我们的NNIF检测器非常耗时，因为我们需要对每个验证图像在整个训练集上计算公式（1），其时间复杂度为O(N train ∙ N val )，其中N train 和N val分别是训练集和验证集的大小。对于对抗检测，时间复杂度为O(N train)，因为我们只需计算在整个训练集上的公式（1）。0需要为每个新的测试图像找到前M个有益/有害的训练样本。Papernot和McDaniel[36]致力于改善DNN的可信度和鲁棒性。他们使用激活层中的最近邻来解释模型。作为一种竞争策略，我们将他们的原始DkNN算法[36]转化为对抗检测方法。这是通过收集DkNN策略中计算的经验p值，并在这些特征上训练一个LR模型来实现的。虽然NNIF也使用最近邻，但我们不是检查最近邻的标签，而是使用影响函数来检查它们与图像的最有帮助/有害的训练样本之间的相关性。04. 结果0本节展示了我们的NNIF对抗检测器对六种对抗攻击策略（括号中的范数）的效果：FGSM（L∞）、JSMA（L0）、DeepFool（L2）、CW（L2）、PGD（L∞）和EAD（L1），如第2节所介绍。我们使用Deepfool和EAD作为非目标攻击，PGD是由[26]实现的输入扰动的PGD攻击。我们选择这些攻击方法进行实验，是因为它们的有效性、多样性和普及性。为了通用性，我们在三个数据集上进行了这些攻击：CIFAR-10、CIFAR-100 [20]和SVHN[33]。将NNIF的性能与SOTA的LID和马氏距离检测器（第2节）以及DkNN对抗检测器（第3节）进行比较。最后，我们分析了NNIF在白盒设置下的鲁棒性。在展示结果之前，我们首先描述了我们分析中使用的实验设置。04.1. 实验设置0训练和测试：每个图像数据集被分为三个子集：训练集、验证集和测试集，分别包含49k、1k和10k个图像。由于我们的NNIF方法非常耗时（特别是算法1中的I NFLUENCE FUNCTION过程），我们从官方SVHN训练集中随机选择了49k个训练样本和1k个验证样本，以及从官方SVHN测试集中选择了10k个测试样本。任何由DNN错误分类的验证或测试图像都被丢弃。对于验证和测试集中的每个图像，我们使用六种攻击方法生成对抗样本，如算法1中的第4步所述。然后，使用相等数量的正常和对抗验证图像来训练一个LR分类器，然后将该分类器应用于剩余的测试图像以计算检测器的指标。我们使用cleverhans库[34]执行所有对抗攻击。由于DkNN方法需要一个校准集，我们随机选择了33%的验证集样本（在丢弃错误分类后）进行校准。32: end procedure144570算法1 使用最近邻影响函数（NNIF）进行对抗检测输入：训练集(X train, Y train)和验证集(X val, Y val)输入：预训练的具有L个激活层和参数θ的DNN 输入：M：收集的前M个影响样本数量输出：检测器(R M ↑, D M ↑, R M ↓, DM ↓) � 一个对抗样本检测器01: N train = |X train|, N val = |X val| � 训练集和验证集中的样本数量 2: 初始化：R + norm = [], D + norm = [], R - norm= [], D - norm = [] � 正常图像特征 3: 初始化：R + adv = [], D + adv = [], R - adv = [], D - adv = [] � 对抗图像特征 4: (Xadv val, Y adv val) := 对(X val, Y val)进行对抗攻击 � 通过攻击验证集生成新的对抗数据集 5:对于l在[1,L]中循环执行以下操作：06: 在第 l 层上使用 k-NN[l]模型拟合 k 个训练样本。k = N train 7: 对于(X val, Y val)中的每个(x i, y i)执行以下操作： 8: R M↑, D M ↑, R M ↓, D M ↓ := NNF EATURES(x i, k-NN[l]) � 获取正常图像的NNIF有益/有害特征 9: R + norm.append(R M ↑),D + norm.append(D M ↑), R - norm.append(R M ↓), D - norm.append(D M ↓) 10: 结束循环 11: 对于(X adv val, Y advval)中的每个(x i, y i)执行以下操作：012: R M ↑ , D M ↑ , R M ↓ , D M ↓ := NNF EATURES ( x i , k -NN[ l ]) 获取对抗图像的NNIF有益/有害特征13: R + adv.append( R M ↑ ), D + adv .append( D M ↑ ), R − adv .append( R M ↓ ), D − adv .append( D M ↓ ) 14: end for 15:end for 16: NNIF pos = ( R + adv , D + adv , R − adv , D − adv ) 17: NNIF neg = ( R + norm , D + norm , R −norm , D − norm )018: Detector( R M ↑ , D M ↑ , R M ↓ , D M ↓ ) = 在（NNIF pos，NNIF neg）上训练一个分类器019: procedure NNF EATURES ( x i , k -NN[ l ]) 收集最近邻特征20: 初始化：R + = []，D + = []，R − = []，D − = []图像的最近邻特征21: R , D := 在激活层l上应用k-NN，得到训练样本的排名和L2距离22: H + inds，H − inds := INFLUENCE F UNCTION (( x i , y i ) , ( X train , Y train ))获取最具影响力的训练样本的索引。该过程在补充材料中介绍。23: 对于H + inds中的j，收集M个有益的排名和距离24: R +.append( R [ j ] ) 25: D + .append( D [ j ] ) 26: end for027: 对于H - inds中的j，收集M个有害的排名和距离28: R - .append( R [ j ] ) 29: D - .append( D [ j ] ) 30: end for 31: 返回R + ，D + ，R - ，D -0尽管Papernot和McDaniel[36]表明最近邻可以定性地检测对抗性攻击（参见[36]中的图7），但他们没有形式化一个对抗性检测器。我们使用他们的经验p值作为对抗性检测任务的特征。0训练DNNs：我们在训练集上训练了所有的DNNs，同时使用验证集的准确率得分来衰减学习率。我们在实验中使用的所有DNN都是Resnet-34[13]，在嵌入空间之前具有全局平均池化层。嵌入向量通过一个全连接层进行逻辑计算。我们训练了0在所有三个数据集上进行了200个epochs的训练，使用L2权重正则化0.0004，使用带有动量0.9和Nesterov更新的随机梯度下降优化器。对于评估，我们使用在图像分类任务上具有最佳（最高）验证准确率的模型检查点。我们遵循[2]中的检查清单，并报告在未受攻击时的干净模型的完整DNN验证/测试准确率以及攻击成功率（见补充材料）。这些DNNs的性能接近SOTA，因此足以在不进行微调的情况下用于对抗性研究[11]。0参数调整：对于LID的邻居数（k）144580图2.对三个数据集（a）CIFAR-10，（b）CIFAR-100和（c）SVHN上的FGSM，JSMA，Deepfool，CW，PGD和EAD攻击的AUC分数进行比较。黑色，蓝色，绿色和红色柱分别对应于DkNN，LID，Mahalanobis和NNIF防御方法。阴影图案柱对应于考虑所有DNN激活层而不仅仅是倒数第二个激活层时的AUC分数增加。每个攻击柱簇分为四列，分别对应于方法（从左到右）：DkNN，LID，Mahalanobis和NNIF。我们的NNIF检测器在大多数攻击中明显超过了先前的SOTA方法。0和DkNN，Mahalanobis方法的噪声幅度（�），以及收集最具影响力样本的数量（M）的选择是在验证集上使用嵌套交叉验证基于检测ROC曲线的AUC值进行的。我们使用穷举网格搜索在[10，N/#类别]之间调整DkNN的k，其中N是数据集大小，#类别是类别数。对于LID，使用了一个在[10，40)范围内的网格搜索来调整最近邻居的数量，同时使用了100的小批量大小（如[25]中所示）。对于Mahalanobis方法，我们使用了在对数空间中在[1E-5，1E-2]之间的穷举网格搜索来调整�，使用了在[10，500]范围内的网格搜索来调整M。所选参数在补充材料中呈现。在整个训练集上运行INFLUENCE FUNCTION在算法1中非常慢。因此，对于每个测试集，我们只随机选择了训练集中的10k个样本中的一部分（总共49k个样本），并仅为它们计算了Iup,loss（Eq.（1））。尽管这是对DNN嵌入空间中真实最近邻分布的粗略近似，但这个近似足以实现新的SOTA对抗性检测。我们强调这个近似仅针对测试集进行，而不是验证集。激活层：LID，Mahalanobis和NNIF检测器可以使用仅来自嵌入空间的特征或使用网络中的所有激活层进行训练。当DkNN应用于所有DNN的特征时，结果非常差（未显示数据），因此我们仅通过训练来自嵌入空间的特征来呈现所有DkNN的结果。威胁模型：我们考虑两种威胁模型，即黑盒和白盒设置。除非另有说明，默认情况下0威胁模型是黑盒，攻击者不知道是否使用了对抗性检测。在这种情况下，只有模型的参数提供给攻击者。在第4.5节中，我们还考虑了白盒设置，攻击者知道模型参数，也知道对抗性检测方案。04.2. 对抗攻击的检测0图2显示了四种检测器（D kNN（黑色），LID（蓝色），Mahalabolis（绿色）和NNIF（红色））在三个流行数据集CIFAR-10，CIFAR-100和SVHN上的区分能力（AUC分数）。我们比较了六种对抗攻击（FGSM，JSMA，Deepfool，CW，PGD和EAD）的检测分数。实心柱表示仅使用倒数第二个激活层进行检测。在某些情况下，考虑DNN激活中的所有层会提高LID/Mahalanobis/NNIF的分数；这在实心柱上方以互补的阴影图案表示。我们的方法在区分Deepfool，CW和PGD攻击方面超过了所有其他检测器，适用于所有数据集。在FGSM和JSMA上，我们的NNIF检测器也展示了SOTA结果，与Mahalanobis检测器的性能相匹配。对于EAD，我们在CIFAR-10和SVHN上展示了新的SOTA，但在CIFAR-100上没有。表1总结了使用所有DNN激活层的检测器的AUC分数。唯一的例外是D kNN方法，它仅在嵌入空间上使用。在补充材料中，我们还包括了更多攻击的结果和一个类似的表格，其中使用了仅DNN倒数第二层的AUC分数。144590表1.不同对抗性检测方法的AUC分数（%）比较。LID/Mahalanobis/NNIF使用所有DNN激活层的结果，D k NN仅使用嵌入空间。0数据集检测器 FGSM JSMA Deepfool CW PGD EAD0CIFAR-100D k NN 87.81 95.37 95.82 96.88 86.83 85.20 LID 98.18 95.74 95.8097.82 93.24 83.46 Mahalanobis 99.80 99.56 97.49 96.48 94.74 89.41NNIF (我们的方法) 99.96 99.50 99.32 99.5 98.31 95.090CIFAR-1000D k NN 93.65 83.46 76.71 93.77 73.78 78.42 LID 92.33 78.63 51.6167.83 73.71 51.11 Mahalanobis 99.87 96.44 62.05 74.43 78.53 62.93NNIF (我们的方法) 99.96 97.50 77.17 96.51 96.60 74.860SVHN0D k NN 85.24 94.61 91.13 95.15 79.07 84.77 LID 99.92 97.06 93.9095.82 80.12 87.86 Mahalanobis 100.00 99.91 97.92 99.18 94.47 95.77NNIF (我们的方法) 100.00 99.76 99.06 99.59 96.18 97.400表2.对抗攻击检测的消融测试：使用选定特征计算AUC分数和准确率。使用Deepfool对CIFAR-10数据集进行攻击。0R M ↑ D M ↑ R M ↓ D M ↓ AUC(%) acc(%)0� 82.11 77.03 � 66.14 61.47 � � 83.25 78.44 � 99.7997.68 � � 99.82 97.51 � � 99.79 99.29 � � � 99.81 97.3� 98.27 96.69 � � 97.73 97.21 � � 98.28 96.73 � � �97.62 97.12 � � 99.79 97.73 � � � 99.81 97.78 � � �99.79 97.71 � � � � 99.82 97.8604.3. 消融研究0为了量化每个特征（R M ↑，D M ↑，R M ↓，D M↓）对NNIF方法性能的贡献，我们在CIFAR-10数据集上进行了消融研究。表2显示了仅使用DNN的嵌入空间特征对Deepfool攻击的AUC和准确率结果。在补充材料中，我们还展示了更多攻击的扩展消融研究：FGSM，JSMA和CW。我们的分析表明，最有影响力的特征是D M↑，它是嵌入空间上最有帮助的训练样本的L2距离。在大多数情况下，我们使用D M ↑的NNIF检测器性能几乎与使用所有四个特征的性能一样好。最不重要的特征是R M↓，它几乎没有帮助对抗性检测。从直观上讲，这是有道理的，因为我们注意到最有害的训练样本的类别总是与正常样本的类别不同，并且大多数情况下与对抗样本的类别不同，因此0它们的排名（R M↓）在正常/对抗两种情况下都应该很高。另一方面，与最有害的训练样本的距离（D M↓）对于检测是有益的。当单独使用时，最有帮助的排名（R M↑）是一个有益的特征，但是将其与D M↑结合使用并没有改善结果。因此，我们推断在我们的检测器中，R M ↑添加的信息已经可以从DM ↑中推断出来。我们还展示了特征R M ↑，D M ↑，D M↓对每种攻击的影响不同。我们在CIFAR-10上计算了这三个特征的概率密度函数，应用了Deepfool和CW攻击（在补充材料中显示）。从这些直方图中可以很容易地观察到，R M ↑0对于检测Deepfool对抗性攻击比CW攻击更有用。另一方面，D M↓特征更好地区分CW攻击而不是Deepfool攻击。在系统上部署任何基于学习的检测器是有风险的，因为攻击者可能有可能访问LR分类器的参数。因此，部署一个仅检查一个特征并应用简单阈值的检测器是有帮助的。我们的结果表明，使用仅D M↑特征对所有攻击进行NNIF检测是可行的。0或者D M↑对于检测Deepfool对抗性攻击比CW攻击更有用。另一方面，D M↓特征更好地区分CW攻击而不是Deepfool攻击。在系统上部署任何基于学习的检测器是有风险的，因为攻击者可能有可能访问LR分类器的参数。因此，部署一个仅检查一个特征并应用简单阈值的检测器是有帮助的。我们的结果表明，使用仅D M ↑特征对所有攻击进行NNIF检测是可行的。0为了评估我们的检测方法在未知攻击下的表现，我们使用FGSM攻击得到的特征训练了LR分类器，然后在其他（未知）攻击上进行了评估。AUC分数如表3所示。可以观察到，除了JSMA攻击外，我们的NNIF方法在所有地方都表现出最好的泛化能力。表3的结果仅使用了DNN的倒数第二层（嵌入向量）进行了收集；使用所有DNN层的其他攻击的类似泛化表格在补充材料中提供。请注意，在这种情况下，所有方法的泛化能力都较弱。0表3.从FGSM攻击到未知攻击的对抗性检测的泛化能力。LR分类器在应用FGSM攻击后提取的特征上进行训练，然后在JSMA，Deepfool，CW，PGD和EAD上进行评估。0数据集检测器 FGSM JSMA Deepfool CW PGD EAD (已知)0CIFAR-100D k NN 87.81 94.89 95.21 96.76 85.10 83.28 LID 90.12 94.67 95.4397.66 90.29 82.52 Mahalanobis 96.80 98.95 95.03 89.57 91.39 68.87NNIF (我们的方法) 87.75 94.81 97.98 98.98 93.94 86.950CIFAR-1000D k NN 93.65 83.16 62.41 92.22 73.60 62.67 LID 80.68 74.33 52.2567.84 72.25 52.10 Mahalanobis 83.90 90.20 59.96 68.72 69.42 59.34NNIF (我们的方法) 87.23 80.76 78.82 93.16 81.87 70.490SVHN0D k NN 85.24 93.43 89.84 92.20 75.99 79.81 LID 88.38 93.93 91.32 94.2280.26 84.24 Mahalanobis 98.14 99.00 91.46 87.51 86.26 80.62 NNIF(我们的方法) 91.06 97.91 95.79 98.16 89.80 91.99ℓ∗ (D(xadv)) :=�D+adv =M�i=1∥DNN(xadv) − DNN�Xtrain(H+inds[i])�∥1,(3)CW93.4591.4390.7091.95CW-Opt90.9989.7492.2990.811446004.5. 对NNIF的攻击0在这里，我们考虑了一个白盒威胁模型。在这种情况下，攻击者不仅了解模型参数，还熟悉对抗性防御方案，但无法访问检测器的参数。由于NNIF算法利用整个训练集，因此在我们的白盒设置中，攻击者也可以访问这些数据。我们采用了与[3]中提出的攻击策略类似的方法来规避基于KD的检测器，并为CW最小化定义了修改后的目标函数:0最小化∥x−xadv∥22+c∙(ℓcw(xadv)+ℓ�(D(xadv)))，其中ℓcw是[4]中使用的原始对抗性损失项，D(xadv)是对抗图像与原始图像的最有帮助的训练样本之间的所有距离（在嵌入空间中）的总和（算法1中的D+adv）。更严格地说，我们定义：0其中DNN( ∙)是从输入图像到倒数第二层嵌入向量的网络转换，H +inds [ i]是第i个最有帮助的训练样本的索引。最后，c是在原始图像和对抗强度之间平衡的常数。方程（2）中的最小化目标是在应用CW攻击的同时，使xadv接近原始图像的最有帮助的训练样本。理论上，我们应该要求x adv的最近邻近邻居满足这种接近性，而不是xadv本身，但是在最近邻算法上进行微分是不可行的。还应注意，此攻击仅在倒数第二激活层上执行，使用与最有帮助的示例相对应的特征：R M ↑和D M↑。我们在CIFAR-10测试集的4000个随机样本上应用了这种白盒攻击。我们在表4中展示了D kNN、LID、Mahalanobis和NNIF检测器在原始CW和我们的CW-Opt攻击上的性能。其他数据集的结果在补充材料中。对于每个检测器，我们使用了相同的超参数，这些超参数在仅使用最后一层时产生了最佳的防御结果。根据[3]，我们在这个实验中以准确性而不是之前的测试中使用的AUC来呈现结果。从表4中我们可以观察到，所提出的白盒攻击仅使NNIF检测准确率下降了1%。因此，我们得出结论，我们的NNIF防御算法对于白盒设置是鲁棒的。此外，我们注意到新的攻击损害了所有依赖于嵌入空间中最近邻的L2距离的防御算法：D kNN、LID和NNIF。然而，对于Mahalanobis，我们观察到了一种不利影响。0表4.针对CIFAR-10上的NNIF检测器的白盒攻击的防御准确率（%）。0攻击 D k NN LID Mahalanobis NNIF0

下载后可阅读完整内容，剩余1页未读，立即下载