没有合适的资源?快使用搜索试试~ 我知道了~
Ahmed Abusnaina†⋄, Yuhang Wu‡, Sunpreet Arora‡, Yizhen Wang‡,Fei Wang‡, Hao Yang‡, and David Mohaisen†¶ahm.edu,76870使用潜在邻域图进行对抗样本检测0† 中佛罗里达大学, ‡ Visa研究0‡{ yuhawu, sunarora, yizhewan, feiwang, haoyang } @visa.com0输入图像0嵌入空间0邻域嵌入0图构建0嵌入提取0预训练分类器0图1:对抗样本检测的潜在邻域图(LNG)生成。在计算输入样本嵌入后,使用来自参考数据库的对抗样本和良性样本嵌入(在图1中表示为LNG节点)来捕获输入样本周围的局部流形。LNG然后使用图鉴别器对其进行分类,以确定图是否由对抗样本或良性样本生成。0摘要0对于已部署的深度神经网络模型的安全性来说,准确检测对抗样本至关重要。我们提出了第一个基于图的对抗检测方法,该方法在输入样本周围构建了一个潜在邻域图(LNG)来确定输入样本是否是对抗样本。给定一个输入样本,选择的参考对抗样本和良性样本(在图1中表示为LNG节点)用于捕获输入样本附近的局部流形。LNG节点连接参数与图注意力网络的参数一起进行优化,以确定用于对抗样本检测的最佳图拓扑结构。图注意力网络用于确定LNG是否由对抗样本或良性样本生成。在CIFAR-10、STL-10和ImageNet数据集上进行的实验评估,使用六种对抗攻击方法,证明了所提出方法在白盒和灰盒设置中优于最先进的对抗检测方法。所提出的方法能够成功检测到使用未知攻击方式制作的具有小扰动的对抗样本。01. 引言0深度学习技术广泛应用于各个领域,包括计算机视觉[6, 13,10, 24],自然语言处理[12, 43]和语音识别[16,37]。然而,大量研究表明,攻击者可以通过向深度学习模型的输入、中间嵌入[19, 11,8]添加小的扰动,或引发分布偏移[26,41]来操纵深度学习基于分类的系统的预测。这些结果突显了深度神经网络预测系统的一个重大安全问题,特别是那些部署在访问控制和用户认证等关键应用中的系统[49]。为了解决这个安全问题,提出了各种防御机制。这些防御机制可以广泛分为两类。主动方法,例如对抗训练[7,14]和鲁棒性驱动的正则化[42],明确考虑到已知的对抗攻击方法的存在,以训练模型,从而增加模型对对抗扰动的鲁棒性。然而,为了使用这种方法,需要重新训练现有模型,这可能代价高昂。相反,被动方法不需要重新训练现有模型,而是在测试环境中构建一个检测器来过滤对抗样本,因此成为已部署系统的可行解决方案。此外,基于检测的防御机制还可以帮助识别安全受损的输入源。76880现有模型;相反,它构建了一个检测器来过滤测试环境中的对抗样本,从而成为已部署系统的可行解决方案。此外,基于检测的防御机制还可以帮助识别安全受损的输入源。0最近最先进的检测方法[47,38]的一个关键发现是,在学习的嵌入空间中,输入样本的合法性与其邻域信息之间存在显著相关性。例如,Deepk-NearestNeighbors(DkNN)[47]检测器在网络的每一层计算输入样本的最近邻嵌入,并使用最近邻的嵌入和类标签来确定输入是否是对抗样本。受到这一观点的启发,我们提出了一种利用动态构建的邻域图来检测对抗样本的方法。我们引入了潜在邻域图——一种通用的结构,不仅编码了输入的邻域,还编码了它们之间的关系,以表示输入的邻域。与DkNN相比,我们解决方案的优势有三个:(i)LNG覆盖了多跳邻居,描述了输入样本的局部流形,而DkNN只描述了输入样本的流形,(ii)LNG根据在嵌入空间中学习到的连接性自适应地聚合邻域信息,编码了比DkNN中使用的类标签更丰富的信息,(iii)LNG在检测中同时使用对抗和良性邻居,而DkNN只利用良性邻居,因为在网络的每一层上测量邻域标签的一致性。除了信息编码,现有的检测器还受到计算成本的限制。PeerNet[21]是一种基于图的卷积网络,声称对对抗攻击具有鲁棒性,它依赖于基于深度神经网络的中间2D特征图的像素级邻域检索,这增加了测试时的计算负担。为了克服上述限制,我们的方法纯粹依赖于深度神经网络的最终隐藏层的嵌入。我们展示了图注意力网络和我们的新颖LNG表示的组合足以实现最先进的对抗样本检测性能。0在提出的方法中,输入样本被用作中心节点,与从参考数据集中策划的样本连接起来构建一个潜在图(见图1)。该图描述了输入样本及其直接良性和对抗性邻居的局部流形模式,用于对抗性检测。图的节点和连接都是即时估计的,并且我们以端到端的方式训练图构造器和鉴别器。对三个基准数据集的实验评估表明,所提出的方法在各种已知和未知的对抗性攻击下具有最先进的对抗性样本检测性能0,同时在最佳努力白盒攻击配置下保持高性能(超过80%)。本研究的贡献如下:0•我们提出了第一个将对抗性样本检测作为图分类问题的工作。我们的方法使用参考样本有效地构建了一个潜在的邻域图,用于对抗性样本检测。0•所提出的方法根据邻域样本的距离即时估计潜在邻域图的邻接矩阵,并自适应地聚合良性和对抗性邻居的信息,用于对抗性样本检测。0•在使用已知和未知的对抗性样本生成方法生成的对抗性样本上,具有最先进的灰盒和白盒检测性能。02. 相关工作0为了对抗对抗性样本,提出了各种积极的防御技术。最早的一些技术包括对抗性训练[19, 7, 14, 35,28],梯度掩盖[14],蒸馏网络[29],特征挤压[36]和k-NN搜索[4,48]。相反,反应性方法旨在有效地学习区分良性和对抗性样本[20, 44, 46, 18,9]。例如,Feiman等人[32]开发了一种基于逻辑回归(LR)的对抗性样本检测器,该检测器使用核密度和贝叶斯不确定性特征。Ma等人[38]使用极值理论在每个神经网络层估计局部内在维度(LID)分数,并表征对抗子空间的关键属性,用于对抗性样本检测。Ma等人[34]分析了深度神经网络内部(即权重)并提出了一种网络不变量,包括值不变量和来源不变量,用于对抗性样本检测的提取技术。尽管上述方法在灰盒对抗性样本检测准确性方面取得了竞争力,但大多数方法都可以通过Carlini和Wagner(CW)的基于优化的攻击[1]来规避。最近,Hu等人[33]提出了一种算法,该算法对CW攻击表现出实证鲁棒性。该算法使用了两个关键步骤:(i)在输入样本上应用高斯噪声,(ii)使用改变样本分类所需的步骤数(从良性到对抗性,反之亦然)作为距离度量来对抗强大的CW攻击。另一类方法使用最近邻来进行对抗性防御。深度k最近邻(DkNN)[47]方法在网络的每一层使用k最近邻模型来评估输入样本是否是对抗性的。尤其是那些不属于的最近邻.dh01after instead of the original pixel values. In addition to thetraining data for the original learning task, we maintain anadditional reference data set for retrieving the manifold in-formation. A neighborhood of n reference examples is se-lected around z from the reference set. After retrieving thereference examples, we construct the following two matri-ces: the n × m embedding matrix X stores the embeddingsof neighborhood examples, where each row is a 1 × m em-bedding vector of one example; the n × n adjacency matrixA encodes the manifold relation between all pairs of exam-ples in the neighborhood. Since A is unknown, we proposean efficient algorithm to estimate A based on the embed-ding distance in the following sections. The LNG of z ischaracterized by these two matrices. Finally, a GNN modelingests both X and A as inputs, and predicts whether z isan adversarial example.In the following, we explain the main components of ourmechanism in detail. We first describe the creation of refer-ence dataset, followed by generation of LNG, and the struc-ture of our GNN model for adversarial example detection.76890表1:基于用于防御的信息的不同对抗性检测方法的比较。使用(i)对抗性样本(Adv.Ex.)进行训练,(ii)输入嵌入空间(Embedding)进行预测,(iii)检测与样本类别无关(Class-indep.),以及(iv)基于图的对抗性检测(Graph)。0方法进阶嵌入类独立图0对抗性训练[14] � × × ×0Cohen等人[15] � × � ×0马氏距离[23] � � × ×0DkNN [47] × � × ×0Hu等人[33] � � × ×0LID [38] � � � ×0我们的 � � � �0用于确定的是与多数类相似的样本。Kimin等人[23]提出了一种基于马氏距离的方法,该方法独立地对每个类别中的样本分布进行建模。与[47,23]相比,我们的类独立方法不对特定类别的数据分布做任何先验假设,并且对每个类别中的样本数量不太敏感。最近,Svoboda等人[21]提出了PeerNets,一种深度网络结构,用于聚合最近邻的信息以提高对抗性攻击的鲁棒性,Cohen等人[15]使用影响函数来识别训练数据集中的重要示例,用于对抗性示例检测任务,并使用LR分类器来预测输入示例是否为对抗性。尽管这些方法(例如[47, 21,15])在检测性能上具有竞争力,但它们的计算复杂度很高:[47]需要从深度网络层的子集中检索最近邻,[21]在多个2D特征图上为每个像素检索邻居,[15]在线计算整个训练数据集的影响函数。表1比较了基于用于检测的信息的对抗性检测方法的关键差异。03. 方法论0我们的防御机制首先为每个输入示例生成一个潜在邻域图(LNG),然后使用图神经网络(GNNs)来利用邻域图中节点之间的关系来区分良性示例和对抗性示例。基本前提是利用LNG中的局部流形中的丰富信息,并使用具有高表达能力的GNNs模型从编码在图中的节点的局部流形中有效地找到高阶模式,以用于对抗性示例检测。图2显示了我们防御机制的概述。首先,对于数据集中的每个图像I,我们从我们正在防御的预训练神经网络模型中提取其嵌入z,并在那里使用嵌入表示0(I)0节点检索0输入图像嵌入中心节点0参考数据0边缘估计0图形鉴别器LNG0A0(z)0Z ref0(X,A)0(V,X)0图2:所提出方法的概述03.1. 参考数据集0给定输入训练集Z,我们随机抽取一个子集Zref。我们将这样的Zref称为干净参考集,因为输入都是自然的。给定原始任务的训练模型,我们还可以创建一个对抗性增强的参考集:我们首先选择一个攻击算法,针对给定模型对Zref中的所有输入创建对抗性示例,并将对抗性示例添加到Zref中。结果得到的对抗性增强参考集的点数是干净参考集的两倍。我们观察到这些对抗性样本能够在局部流形中编码关于对抗性示例与良性示例布局的信息。The construction of V starts with the k-nearest-neighborgraph (k-NNG) of the input z and the nodes in Zref: eachpoint in Zref�{z} is a node in the graph, and an edge fromnode i to node j exists iff j is among i’s top-k nearest neigh-bors in Euclidean distance over the embedding space. Wethen keep the nodes whose graph distance from z in the k-NNG is within a threshold l. For example, if l = 1, then weonly keep the immediate top-k nearest neighbors of z (one-hop neighbors); if l = 2, then we also keep the k nearestneighbors for each z’s one-hop neighbors. Finally, we formV with n neighbors to z. Based on this breadth-first-searchstrategy to construct V , the node retrieval method discoversall nodes with a fixed graph distance to z, repeats the sameprocedure with increased graph distance until the maximumgraph distance l is reached, and then returns the n neighborsto z from the discovered nodes.Our approach can harness manifold information that isotherwise not possible using Euclidean distance, e.g. theSwiss-roll scenario [22]. We also note that when n = k,76900(a) 良性k-NNG0(b) 对抗性k-NNG0(c) 良性LNG0(d) 对抗性LNG0图3:所提方法生成的示例图。 (a) 和 (c) 分别显示良性图像的k-NNG和LNG,而 (b) 和 (d)分别显示使用相同图像生成的对抗性对的k-NNG和LNG。蓝色边框表示输入图像,黑色和红色边框分别表示良性和对抗性邻居。0潜在邻域图由嵌入矩阵X和邻接矩阵A来描述。我们通过两步过程构建LNG——节点检索和边缘估计。节点检索过程从参考数据集中选择z的邻域中的一组点V。将这些点(包括z)的嵌入向量堆叠起来得到嵌入矩阵X。边缘估计使用数据驱动方法确定V中节点之间的关系,得到邻接矩阵A。03.2. 潜在邻域图0构建V的过程从输入z和Zref的k最近邻图(k-NNG)开始:Zref中的每个点(除了z)都是图中的一个节点,如果j是i的前k个最近邻之一,则存在从节点i到节点j的边。然后保留与z在k-NNG中的图距离在阈值l内的节点。例如,如果l=1,则只保留z的直接前k个最近邻(一跳邻居);如果l=2,则还保留z的一跳邻居的k个最近邻。最后,我们用n个邻居构成V。基于这种广度优先搜索策略构建V的方法,节点检索方法发现了所有与z具有固定图距离的节点,重复相同的过程并增加图距离,直到达到最大图距离l,然后从发现的节点中返回n个邻居给z。我们的方法可以利用流形信息,这是使用欧氏距离无法实现的,例如瑞士卷场景。我们还注意到当n=k时,03.2.1 节点检索0节点检索过程相当于选择n个最近邻居,类似于DkNN。因此,我们的方法在学习局部流形方面提供了更大的灵活性。03.2.2 边缘估计0接下来,我们根据k-NNG的节点确定LNG的边缘。边缘是图中信息聚合的路径,它创建了确定中心节点类别的上下文。由于每个节点的嵌入是独立提取的,让系统自动确定用于对抗检测的上下文,并且了解查询示例与其邻居之间的成对关系是很重要的。受Cosmo等人设计的启发,我们使用直接连接将生成的图中的所有节点与中心节点连接起来,并采用数据驱动方法重新估计邻居之间的连接。特别地,我们将两个节点i、j之间的关系建模为它们之间的欧氏距离的sigmoid函数:0Ai,j = 101 + exp(−t∙d(i, j)+θ),0其中d(i,j)是i和j之间的欧氏距离,t,θ是两个常数系数。我们将系数t和θ设置为可学习的参数,并通过下一节中引入的图鉴别器在端到端的方式中优化它们。图3显示了CIFAR-10数据集中一张良性图像及其相应的基于CW的对抗性“狗”图像的k-NNG和LNG。邻域节点与输入图像嵌入高度相关,而LNG的连接是使用所提出的方法估计的。03.3.图鉴别器0我们使用特定的图注意力网络架构[31]从z及其邻居中聚合信息,2345696.39%98.86%99.23%99.54%99.17%three subsets, training set (45,000 images), reference set(5,000 images), and testing set (10,000 images). For Ima-geNet [30] dataset, we use the reference dataset of the 2012original set, which contains a total of 50,000 labeled images(50 images per class). The dataset is split into two subsets,reference set (40,000) and testing set (10,000). For STL-10dataset, we split the labeled images into three sets: trainingset (4,000 images), reference set (1,000 images), and testingset (8,000 images).The ResNet-110 [40] classifier is trained on the CIFAR-10 training set and yields a classification accuracy of93.41%. A pre-trained Densenet-121 [17] model with em-bedding of size 1 × 1024 and a reported accuracy of 75%is used for ImageNet. For STL-10 dataset, ResNet-20 clas-sifier with classification accuracy of 82.30% is used. Anyreference or testing examples incorrectly classified by theclassifier were discarded.The discriminator is trained on graphs generated usingthe reference dataset (see section 3) and adversarial exam-ples generated using one adversarial attack method on thesame dataset. We evaluate the performance of the discrimi-nator using 100 random examples per class from the testingdataset for CIFAR-10, and the whole testing dataset for Im-ageNet and STL-10. Adversarial Robustness Toolbox [27]is used for implementing the adversarial attacks. For thebaseline evaluation, we follow the same configurations usedin the original DkNN [47] approach. For Hu et al.’s [33] andLID [38] adversarial detectors, the reference set is used todetermine the thresholds that provide the best detection per-formance. All baseline adversarial detectors are trained onthe reference dataset augmented with adversarial examples,and evaluated on the test set similar to our discriminator.Parameter Tuning. To demonstrate the efficiency of theproposed method, we select l = 2 for k-nearest neighbor-based graph generation (section 3.2.1). To determine k, aline search is used. Table 2 shows the effect of changing kon the FGSM adversarial examples detection performanceon the CIFAR-10 dataset using k-NNG. We set k = 5 in ourapproach considering the trade-off between benign and ad-versarial accuracy. To find the optimal number of neighbors76910同时学习最佳的t和θ,以从z'的邻居中创建正确的上下文进行对抗性检测。网络接受两个输入:嵌入矩阵X和潜在邻域图的邻接矩阵A。图注意力网络架构由四个连续的图注意力层组成,后面是一个具有512个神经元的稠密层和一个具有两类输出的稠密分类层。形式上,令f表示模型类中的一个函数,令Xz和Az表示由我们的LNG算法生成的输入z的嵌入和邻接矩阵。在训练阶段,我们解决:0f� = arg min f0(z,y)ℓ(f(Az,Xz),y)0其中ℓ是类别概率预测和真实标签之间的交叉熵损失。总之,该方法可以用LNG表征局部流形,并根据图注意力网络适应不同的局部流形。这两个因素对我们选择使用GNN结构至关重要,并且第4节中检测率的经验改进验证了我们的信念。04.实验0所提出的对抗性示例检测方法针对六种最先进的对抗性示例生成方法进行评估:FGSM(L∞),PGD(L∞),CW(L∞),AutoAttack(L∞),Square(L∞)和边界攻击。所有攻击都被实现为对三个数据集(CIFAR-10[5],ImageNet数据集[6]和STL-10[3])进行的“非目标”攻击。与有目标的攻击相比,非目标的攻击通常更难检测,因为施加的扰动较小。性能与四种最先进的对抗性示例检测方法进行比较,分别是DkNN[47],kNN [4],LID [38]以及Hu等人[33]。DkNN[47]:检查每个深度网络层中邻域示例的标签一致性,以测试输入示例是否“离开流形”。kNN[4]:与DkNN具有相同的直觉。然而,由于它最初是为在Web规模数据库上工作而提出的,所以使用的层数比DkNN少。我们将这种方法转化为对抗性检测器,并使用最近邻居检索的嵌入层。LID[38]:表征对抗性示例的特性,当与简单的k-NN分类器一起使用时,可以用于检测对抗性示例。Hu等人[33]:是最近的一种用于对抗性检测的算法,并且被证明对白盒对抗性攻击非常强大。该方法依赖于在线搜索阶段来测量输入示例与决策边界之间的距离。04.1.实验设置0训练和测试。CIFAR-10数据集被分成0表2:不同邻居数(k)的k-NNG鉴别器的检测性能(AUC)。0邻居0(# classes ) ],然后选择 k = 200 用于CIFAR-10数据集,k= 40用于STL-10和ImageNet数据集。特征空间。为了获得每个邻域示例的节点特征,我们使用生成的图像嵌入A′i,j =argminIadv||Iadv − I||22+c · (lCW (Iadv) + ld(D(Iadv))),ld(D(Iadv)) := −�Dadv =N�i=10; x(vi)∈XD||xadv−x(vi)||; x(vi)∈XDp76920(a)良性(b)FGSM(c)CW(d)CW wb0图4:使用不同的对抗性攻击生成的嵌入空间(使用t-SNE[45])的可视化,其中(a)是良性(黑色)和对抗性(红色)示例,分别使用FGSM(b)、Carlini和Wagner(c)以及白盒Carlini和Wagner(d)在CIFAR-10数据集上生成。请特别注意(d)中对抗性和良性聚类的显著重叠。0使用预训练的分类器。DkNN分类器使用所有块的输出进行评估(ResNet每个块的输出),而kNN分类器仅使用嵌入层的输出进行评估。最初,DkNN用于对抗性示例识别。然而,通过使用提取的特征,可以训练一个简单的LR检测器用于对抗性示例检测,如[15]所示。对于LNG,从sigmoid函数中得到的A中的条目是[0, 1]范围内的实数。我们使用阈值t h 对条目进行量化,如下所示:0� 0 ,如果 A i,j < t h 1,如果 A i,j ≥ t h 。0得到的二进制 A ′是我们LNG的最终邻接矩阵。由于sigmoid函数对于 d ( i, j) 是单调的,阈值 t h 也对应于距离阈值 d h 。A ′意味着在距离小于 d h的节点对之间存在一条边。在实践中,我们进行线性搜索 th 并选择验证中的最佳值。04.2.威胁模型0该方法在白盒和灰盒设置下进行评估。以下简要描述每个设置。白盒设置。在这个设置中,对手知道对抗性防御方法中涉及的不同步骤,但无法访问方法的参数。此外,假设对手可以获得整个训练和参考集。为了实施白盒攻击,使用Carlini和Wagner[1]的攻击策略。CW最小化的目标函数修改如下:0其中 l CW 是Carlini和Wagner[2]中使用的原始对抗性损失项,D ( I adv )是对抗性示例与之间距离的求和的负值0构建的最近邻图中的每个对抗性示例的距离,定义为:0其中 v i 是构建图中的一个节点。X D 和 X Dp是参考数据集及其对应的对抗性示例的嵌入。新生成的对抗性示例 I adv在每次迭代中都被推到远离生成图中的对抗性示例。其直觉是,理想情况下,只包含良性示例的图更有可能被分类为良性,这需要将白盒对手移向对手类别的决策边界,同时远离可能的附近对抗性示例。由于应用的扰动会影响嵌入空间,这个过程需要在攻击的每次迭代中重新生成 I adv的图。我们将这种攻击称为CW wb。图4显示了CIFAR-10良性和对抗性示例的嵌入空间的t分布随机邻居嵌入(t-SNE)可视化[45]。请注意,良性示例分为十个不同的聚类,每个聚类对应一个唯一的类别。白盒CW wb攻击创建的对抗性示例非常接近良性聚类。这样的示例非常难以检测,因为它们的扰动(视觉上)很小。灰盒设置。在这个设置中,对手不知道部署的对抗性防御,但知道预训练分类器的参数。然而,对于决策边界攻击,对手只能提供一个用于查询分类器预测输出的预言。除非另有说明,否则威胁模型被假定为灰盒(即不知道实施的防御)。在实验中,我们专注于检测相对较低扰动的对抗性示例。特别地,我们考虑以下参数用于对抗性攻击:PGD:δ =0.02,步长为0.002,迭代次数为50,FGSM:δ =0.05,CW:δ = 0.10,学习率为0.03,DatasetApproachFGSMPGDCWAutoAttackSquareBoundaryCWwbFGSMPGDAutoAttackSquareBoundaryCWwbImageNet150%60%70%80%90%100%1%2%3%4%5%6%7%8%9%10%76930表3:不同对抗性检测方法的(AUC)。左:不同对抗性检测方法的性能。LID和我们的方法在相同的攻击上进行训练和评估。右:LID和我们的方法在CW对抗性样本上进行训练,并在不同的未知攻击上进行测试。由于内存和资源限制,AutoAttack和Square对抗性样本仅针对CIFAR-10和STL-10数据集生成。0CIFAR-100DkNN [47] 61.50% 51.18% 61.46% 52.11% 59.51% 70.11% 60.37% 61.50% 51.18% 52.11% 59.51% 70.11% 60.37%0kNN [4] 61.80% 54.46% 65.25% 52.64% 73.39% 75.88% 59.75% 61.80% 54.46% 52.64% 73.39% 75.88% 59.75%0LID [38] 73.56% 67.95% 55.60% 56.25% 85.93% 99.48% 55.28% 71.15% 61.27% 55.57% 66.11% 97.01% 55.28%0Hu [33] 84.44% 58.55% 90.99% 53.54% 95.83% 90.71% 78.33% 84.44% 58.55% 53.54% 95.83% 90.71% 78.33%0LNG 99.88% 91.39% 89.74% 84.03% 98.82% 99.98% 84.38% 98.51% 63.14% 58.47% 94.71% 99.92% 84.38%0DkNN [47] 89.20% 78.00% 68.80% — — 76.80% 68.80% 89.20% 78.00% — — 76.80% 68.80%0kNN [4] 51.60% 51.10% 50.70% — — 56.90% 50.50% 51.60% 51.10% — — 56.90% 50.50%0LID [38] 99.26% 98.14% 58.75% — — 100% 57.76% 90.58% 52.45% — — 96.16% 57.76%0Hu [33] 72.59% 86.00% 80.82% — — 63.20% 80.44% 72.59% 86.00% — — 63.20% 80.44%0LNG 99.53% 98.42% 86.05% — — 100% 86.49% 96.85% 89.61% — — 99.93% 86.49%0STL-100DkNN [47] 60.66% 59.33% 57.49% 60.77% 50.10% 62.93% 62.00% 60.66% 59.33% 60.77% 50.10% 62.93% 62.00%0kNN [4] 59.40% 58.60% 65.40% 55.27% 65.15% 59.80% 58.43% 59.40% 58.60% 55.27% 65.15% 59.80% 58.43%0LID [38] 80.84% 74.12% 60.87% 73.44% 73.78% 99.86% 60.26% 69.59% 56.06% 55.80% 62.98% 100% 60.26%0Hu [33] 57.86% 86.45% 81.07% 64.01% 80.64% 59.74% 63.33% 57.86% 86.45% 64.01% 80.64% 59.74% 63.33%0LNG 99.40% 99.35% 93.95% 99.37% 82.20% 100% 91.13% 88.08% 69.20% 68.49% 90.32% 100% 91.13%0检测准确率0扰动0Ours-LNG DNN CNN0图5:基于GNN的鉴别器与卷积和深度神经网络鉴别器在不同FGSM扰动率(δ ∈[0.01,0.1])下的AUC(%)性能比较,使用基于LNG的图在CIFAR-10数据集上。0255,边界:δ =0.10,迭代100次。我们选择最小的扰动(δ),仍然能够在原始模型上实现50%以上的攻击成功率。虽然低扰动生成的对抗样本的攻击成功率较低,但其检测非常具有挑战性。图5展示了基于图的鉴别器在不同扰动率(δ)下,对FGSM生成的对抗样本的检测性能。所提出的方法与基于卷积神经网络(CNN)的鉴别器和直接处理输入图像及其嵌入的全连接层鉴别器(DNN)进行了基准测试[39]。由于它们使用相同的嵌入信息,DNN和CNN方法收敛到相同的点。请注意,它们的性能比LNG差,因为它们没有在嵌入邻域中使用动态关系。0(a)FGSM。(b)AutoAttack。0图6:使用扰动大小(δ)为8的FGSM和AutoAttack在STL-10数据集上的ROC-AUC0255和304.3. 与最先进技术的比较0检测已知攻击:表3(左)比较了所提出方法在检测使用四种最先进的对抗性样本生成方法生成的对抗性样本上的性能,与DkNN [47]、kNN [4]、LID[38]和Hu等人的方法[33]进行比较,使用了三个数据集CIFAR-10、STL-10和ImageNet,并使用ROC曲线下面积(AUC)进行报告。LID和所提出的检测方法使用相同的对抗性攻击方法进行训练和测试,除了CWwb攻击,其中检测器是在传统CW攻击上进行训练的。我们报告了使用基于潜在邻域图(LNG)和k最近邻图(k-NNG)训练的图鉴别器的性能。实验结果表明,所提出的方法在两个数据集上优于最先进的对抗性样本检测方法。在检测白盒(CWwb)攻击方面,性能优势尤为显著,因为对抗性和良性空间在彼此之间深度交织(如图4所示)。这是因为我们的算法基于输入示例的局部流形结构生成了高度区分性的邻域图,因此能够区分对抗性样本。DatasetApproachAdv.FGSMPGDCWBoundaryCWwbCIFAR-10k-NNG×97.3854.2986.4599.9274.84✓99.5485.7889.6399.8981.44LNG×99.2485.6289.9199.9680.77✓99.8891.3989.7499.9884.38ImageNetk-NNG×97.2590.7850.4999.9151.56✓99.5898.3679.0310077.01LNG×99.4094.9881.2499.9981.64✓99.5398.4286.0510086.49CIFAR-10k-NNG99.5485.7889.6399.8981.44NC99.7287.2187.5399.8181.60AC99.8387.7290.6799.8380.43CC99.7288.6791.5199.9482.92LNG99.8891
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功