没有合适的资源?快使用搜索试试~ 我知道了~
4777基于网络分析的路径提取对抗防御邱玉贤<$冷静雯<$郭聪<$陈泉<$李超<$郭敏怡<$朱宇浩<$§上海交通大学计算机科学与工程系†罗切斯特大学计算机科学系{qiuyuxian,qiu-jw,guocong}@sjtu.edu.cn,{chen-quan,lichao,guo-my}@cs.sjtu.edu.cn,yzhu@rochester.edu摘要最近,研究人员开始根据语义或功能分解深度神经网络模型最近的工作已经证明了分解功能块对于防御对抗性攻击的有效性,这些攻击向输入图像添加小的输入扰动以欺骗DNN模型。本文提出了一种基于剖析的方法,将DNN模型分解为不同的功能块,从而得到有效的路径,作为探索DNN内部组织的一种新方法具体地说,每个图像的有效路径可以聚合到类级的有效路径,通过它我们观察到,敌对图像激活的有效路径不同于正常图像。我们提出了一种有效的基于路径相似性的方法来检测具有可解释模型的敌对图像,该方法比最先进的技术具有更好的准确性和更广泛的适用性1. 介绍深度学习(DL)已经彻底改变了计算机视觉[16]、自然语言处理[35]和自动语音识别[1]等关键应用领域。深度学习模型的表现已经超过了传统的机器学习方法,甚至超过了人类。虽然目前的研究工作主要集中在提高深度学习模型的效率和准确性上,但可解释性最近已成为一个越来越重要的话题。这是因为许多启用DL或基于DL的系统都是任务关键型系统,例如ADAS [9]和在线银行系统[11]。然而,到目前为止,还没有理论上的理解DL模型是如何工作的,这是一个重大的障碍,在推动DL到关键任务系统。由于缺乏可解释性,DL模型通常冷景文和郭敏毅是本文的共同通讯作者。没有明确的决策边界,容易受到输入扰动的影响。最近已经提出了研究[29,24,18,6],这些研究都可以成功地找到输入图像上的小扰动,以欺骗基于DNN的分类器。之前也有工作通过将打印图像放在停车标志前来误导真正的基于DNN的交通标志检测器来证明物理攻击的可行性最后但并非最不重要的是,DNN模型通常会因为与训练样本截然不同的输入而失败。例如,特斯拉自动驾驶系统中使用的分类模型为了解决DL模型中的脆弱性挑战,这项工作提出了有效的路径作为一种新的方法来探索神经网络的内部组织。图像的有效路径是一组关键的突触和神经元,它们共同导致最终的预测类。该概念类似于基于控制流的程序的执行路径[3]。我们提出了一种基于激活的反向传播算法来提取图像导出的每图像有效路径具有直接聚合能力。例如,我们通过聚合同一类中所有训练图像的有效路径来获得每个类的有效然后,我们可以将整个DNN分解为多个组件,每个组件都属于一个推理类。我们进行了相似性分析,发现了一种称为路径特化的现象,即不同的类在推理任务中激活神经网络的不同部分。在此基础上,我们分析了正常图像和恶意图像之间的路径相似性,发现当恶意图像通过微小的扰动成功改变预测结果时,网络激活了一组与训练样本显著不同的有效路径,这为使用有效路径防御DNN奠定了基础。我们建议使用一个IM的简单线性组合4778☓☓☓☓☓☓0.50.10.50.4……0.650.10.50.60.60.50.1pppppk,pKpppk,ppp有效路径感受野NKMK输入特征图中的感受野…输出特征映射神经元N转化率输出(展平)输入权重输出输入特征图内核特征图神经元(突触)神 经 元(a) 线性层。(b)卷积层。图1:示例说明了使用profiling提取有效路径的过程年龄我们的工作可以使用一个更简单的线性模型来超越六种代表性攻击方法的最先进的工作[37]。此外,我们还表明,我们的检测方法可以很好地推广到这些攻击,这意味着它可以从训练过程中未使用的方法中检测到对抗样本,而以前的工作没有这一点概括能力的水平。此外,使用我们的方法的开销也比以前的工作小得多(高达500倍)最后,我们证明了有效路径不仅可以用于对抗图像检测,而且可以解释训练过程和网络的影响DNN2. 通过性能分析实现有效路径先前的工作[37]提出了一种为DNN模型提取关键数据路由路径(CDRP)的方法,并证明了其防御对抗性样本的有效性然而,在实践中部署它有两个主要的限制。的doesn’t rely on retraining and the derived representation islow-dimensional and(a)单幅图像提取我们首先解释如何为单个图像提取有效路径,表示为P=(N,S,W),其表示关键神经元N、突触S和权重W的集合。 它可以进一步分解为每层形式N =(N1,. . . ,N L),S =(S1,. . . ,SL),W =(W1,. . . ,WL),其中N1表示层1的重要输出神经元,而S1和W1表示重要的突触和权重。提取过程从最后一层L开始,回到第一层。在最后一层L中,仅对应于预测类nL的神经元是活动的,并且因此被包括在有效路径中,即, N L={nL}。重要权重形成最小权重集合,可以贡献大于输出神经元nL的θ比。等式1将该过程形式化,其中,K_L是具有预非线性神经元n_L的的选定首先是提取过程,这需要插入孔,输出WL是权重值,nL−1是相应的控制每一层的输出通道的门这种再训练过程需要超参数调整,并且需要很长时间来处理单个图像。第二个缺点是提取的路径表示仍然是高维的(AlexNet为1152,ResNet-50为高维表示-响应输入神经元值(也是层l-1的输出神经元)。为了找到最小的KL,我们可以通过其乘积的值对权重和大于阈值θ×nL的最小对数。Σ它削弱了它的可解释性和泛化能力,Min|KL|,S. t.nL−1×wL≥θ×nL不同的对抗性攻击,我们稍后会讨论为了克服这些局限性, 我们提出了一种新p.p.pKk∈K<$Lk,pp(1)方法来提取DNNWL={WL|k∈K˜L}(2)年龄该方法的灵感来自于程序NL−1={nL−1|k∈K<$L}(3)KP分析[3]:程序以con的形式表示控制流图,其中节点是基本块和边是基本块之间的控制流。路由器使用路径剖析来识别频繁执行的基本块的序列,即,程序中的执行路径。程序在这项工作中,我们将神经网络视为一个节点是一个神经元,边缘是两个神经元之间的突触(权重)的图,并应用分析技术提取其执行路径,我们称之为有效路径,以区别于以前的工作。在高层次上,它们都代表了DNN内部的临界流,但我们的方法在确定了权指标集K∈L后,WL使用等式2设定。由于最后一层是全连接层并且在权重和突触之间存在一对一映射,因此也可以导出SL同时,由于层L-1的输出神经元是层L的输入神经元,因此可以直接在等式3中导出NL-1然后,我们可以对NL−1中的每个活跃神经元重复公式1中的过程:每个活跃神经元将产生一组权重,它们的并集形成WL−1。该过程向后重复,直到第一层,并产生输入图像的整个神经元集合N、突触集合S和权重集合WWK-1K-1…W00………K4779||| |......S~S~.S~S~0.600.250.20S(突触1)分别是节点10.540.15ΣL..ΣL..0.480.420.360.100.050.00l=1。W.DW=LWll=1l=1。好的,DS=SLSll=1(四)0123456789数字0 100 200 300 400 500 600 700 800 900 1000类我们提取了流行DNN的整体有效路径模型包括LeNet-5 [20], [17]第十七话图2:类路径图 3:密度增长50 [15],Inception-v4 [36]和VGG-16 [34]。 其中θ = 0。五、LeNet中的相似性当合并每类路径时。突触密度分别为13.8%,20.5%,22.2%,41.7%,17.2 %。 请注意,这些值是计算的请注意,上述过程解决了完全连接层. 为了处理卷积层,我们需要根据每个输出神经元的感受野将其转换为FC层,如图所示。1b显示。在处理卷积层时有两个警告。首先,方程1的求解不需要所有输入神经元的排序,而仅需要输出神经元的感受野中的其次,由于权重共享,突触和权重之间没有一对一的映射因此,多个突触可以在有效路径中具有相同的活动权重。(b)多图像聚合导出的有效路径是指示神经元或突触是否对图像干扰有贡献的二进制掩码因此,我们可以简单地聚合来自图像组的有效路径,例如,同一类别的图像,以获得更大的有效路径,提供整个组的更高层次的视角。聚集有效的两个图像P(i)和P(j)的路径实质上是在每一层上取N、S和W的并集,由P(i)<$P(j)=(N(i)<$N(j),S(i)<$S(j),W(i)<$W(j))表示,其中N ( i ) <$N ( j ) = ( N1 ( i ) <$N1(j),. . . ,N L(i)<$N L(j))(NW是相似的)。这种方法可以创建一个有意义的在聚集所有训练样本(即,整体有效路径)。先前的工作CDRP [37]报告了类似的稀疏值,然而,该值是基于单个图像计算的,因为不同图像我们还进行了一个实验,结果表明,当我们开始停用有效路径的部分时,DNN的准确性立即下降,这表明提取的路径不仅稀疏,而且具有代表性。3. 有效路径可视化每类路径将网络分解为不同的组件,可以用来理解为什么神经网络可以区分不同的类,并研究改变网络结构的影响。我们执行不同的类之间的路径相似性分析,这导致了一个发现称为路径专业化。不同的类别不仅激活稀疏的神经元和突触,而且激活一组独特的神经元和突触来执行推理任务。我们首先研究每类有效路径的相似性。类c1和c2之间的相似性通过它们的突触集的Jaccard系数计算,如公式5所示。这可以在不增加其尺寸的情况下用于图像组的表示。相比之下,CDRP [37]的特征维度随着类中图像的数量线性增加,因为CDRP中的每个元素都是0到10之间的连续数,而不是二进制掩码。...C 1Jc1,c2=J(S<$c1,S<$c2)=..C 1T.c2.S.c 2.(五)在这项工作中,我们使用两种类型的聚合有效路径的神经网络的解释和防御。对于类级别的观点,我们正确地聚合了所有的前--从类别c,S中指定的训练图像,由X表示,图2显示了LeNet中的类路径相似性,掩盖了路径特化的存在:两个类之间的平均相似性较低(约0.5)。平均而言,两个类也激活了大约50%的公共路径为了得到每类有效路径P_c=x∈X<$P(x);for50%的独特路径。我们还可以推测,路径特化程度反映了视觉相似性从网络级的角度来看,我们从WS孔训练集X中聚合图像,以获得总体有效路径P=x∈X<$P(x).路径稀疏性与完整模型相比,导出的整体有效路径非常稀疏,这表明保留了关键信息。我们定义权重(突触)有效路径的密度DW(DS),作为其权重(突触)与整个权重(突触)的比率。它们可以在等式4中计算,其中W1和W2=1(S1和S2)。10.330.48 0.470.4 0.51 0.480.43 0.5 0.470.3310.38 0.36 0.36 0.33 0.34 0.35 0.39 0.330.48零点三八10.54 0.50.5 0.55 0.470.470.360.5410.420.47 0.54 0.490.4 0.360.5 0.4210.460.49 0.49 0.51 0.530.51 0.580.4610.50.460.6 0.520.480.340.490.42 0.4910.380.50.410.43 0.350.48 0.47 0.49 0.46 0.3810.49 0.550.50.390.55 0.54 0.510.5 0.491 0.530.470.330.47 0.49 0.53 0.52突触密度重量密度数字9876543210密度C4780两个阶级之间。例如图2,数字“1”具有最高的专业化程度(即,最低路径相似性):它与其他类的平均相似度约为0.35(与平均值0.5相比)。其原因很可能是由于其独特的形状。相比之下,数字我们在其他数据集和网络中观察到路径特化的存在。图3显示了路径密度4781普通FGSM BIM DeepFool JSMA CWL2 Patch图4:正常示例和不同攻击的扰动扰动被增强100倍以突出差异。1.00.90.80.71.00.90.80.70.60.050.000.050.100.151.00.90.80.70.60.150.100.050.000.05DeepFool FGSMBIM JSMACWL2攻击(一)0.5层(a)(b)层0.5层(d)其他事项层(e)图5:(a)LeNet的路径相似性。(d-e):AlexNet在ImageNet上的每层相似性分布。每个线图代表每种对抗样本相似性的平均值,周围有相同颜色的带来显示标准差。虚线分割卷积层和FC层。(b):秩1相似度。(c):秩-1相似性增量。(d):秩2相似度。(e):秩2相似性增量。为ResNet合并每个类(ImageNet)路径时的增长50. 重量和突触的增长遵循相同的密度最初迅速增加,表明高度的路径专业化。在50级之后,密度仍然增加,但速度要慢得多。这与ImageNet数据集中的类层次结构相匹配,ImageNet数据集中有大约100个基本类别:不同类别的路径专业化程度更高,而同一类别中的类的专业化程度更低。总之,我们发现在训练的DNN中存在路径专门化现象,这揭示了DNN在处理不同类时激活不同的块。受观察的启发,我们研究了使用有效路径检测对抗样本的可能性4. 对抗性样本防御在本节中,我们将研究如何利用观察到的路径特化现象来检测对抗样本。对抗样本是通过对正常图像添加一个小扰动来生成的。扰动很小,人类无法察觉,但可能导致神经网络的错误预测。我们评估了6种不同的攻击(即,方法产生误导扰动给定的输入图像),其例子如图所示。4.第一章对于每个攻击,我们总是选择规范实现。我们使用Foolbox [30]实现和它在1.3.2版中的默认参数来实现Fast梯 度符 号 法 (FGSM ) [13], 基本 迭 代 法( BIM)[18] , DeepFool [24] , 基 于 雅 可 比 的 显 着 图 攻 击(JSMA)[28]。对于Carlini和Wagner(C W)的tacks[6],我们使用论文作者发布的开源代码我们使用CleverHans [27]中提供的对抗补丁[4]实现,并将其扩展为支持AlexNet,而无需修改其设置。我们首先探索了正常和对抗性示例的有效路径的分布我们的进一步分析表明,有效的路径相似性提供了一个通用的检测指标,在所有研究的对抗性攻击。基于分析结果,我们提出了一个低维的和统一的度量来检测来自不同类型的攻击的对抗样本。4.1. 对抗样本相似性分析在路径特化的基础上,我们研究了正常图像和对抗图像之间有效路径的相似性我们引入了另一个相似性度量,称为图像类路径相似性,它表明有多少突触图像的有效路径中的有效路径来自预测类的有效路径。它可以计算为JP=J(S,S<$S<$p)=|/|S| 其 中 p 是 图 像 的 预 测 类 , S 是 |, where pis theimage’s predicted class, Sis the类p是类p的有效路径的突触集因为每类有效的路径远大于图像的有效路径时因此,图像类路径正常对抗正常DeepFoolFGSMBIMJSMACWL2相似性相似性相似度δ相似性相似度δ4782LLll llpP相似性本质上是图像的有效路径与图像和预测类之间的有效路径的交集之间的Jaccard系数图5a示出了用于LeNet的MNIST中的正常图像和丰富的对抗图像集合的图像类路径相似性的分布。正常图像的相似性值几乎都是1,并且注意它们不用于训练和每类路径提取。而反观最简单的一个,最强的可解释性。正如我们稍后将展示的那样,线性模型也达到了与其他更复杂模型相似的准确性,证明了所选择的输入特征(有效路径相似性值)是检测对抗图像的强指标。线性模型对于线性模型,我们提出了联合相似性作为定义度量。它可以计算为:J=LωlJl−Lω′J,其中J和Jl′是Pl=1P对抗图像的相似性值大多较小,这表明有效路径是区分正常图像和对抗图像的重要度量。对于更深和更复杂的DNN,我们将图像类路径相似性度量分解到不同的层。它分别针对层l、ωl和ω l的秩-1和秩-2相似性,′ ′ω是满足ω≥0,ω≥0。的联合相似性反映了低秩1相似度,对抗图像的高秩2相似度。如果一幅图像的联合相似性可以计算为Jl为|SlSl|/|SL|对于层L. 图5b小于阈值。简单的线性模型避免了比较正常图像的每层相似性(从测试集)和对抗图像在AlexNet上的相似度,并显示正常图像比对抗图像表现出更高的相似度。我们进一步计算相似性增量,它等于正常图像的相似性值减去其对应的对抗图像的相似性值。图5c示出了所有对抗性攻击导致几乎相同的相似性降低模式,其中最大的降低发生在中间层,即,卷积层和全连接层之间的边界。回想一下,我们从预测类开始提取有效路径,即rank-1类,我们称之为rank-1有效路径。我们还研究了从秩-2类出发的秩-2有效路径图5d比较了正常图像和对抗图像的秩2有效路径相似性。与rank-1有效路径不同,对抗图像表现出比正常图像更高的相似度。原因是针对对抗图像的预测的秩2类通常是其对应的正常图像的秩1类(即,而不增加扰动)。相比之下,正常图像的预测秩2类没有这种关系,因此具有比对抗图像更低的相似度。此外,不同的对抗性攻击方法会导致类似的模式。5e显示。总之,将类路径相似性扩展到图像类情况打开了使用有效路径检测对抗图像的大门:主流对抗性攻击修改通常不活动的路径以欺骗DNN,并且它们的影响指示统一的模式。在下一小节中,我们提出了一种简单且高度可解释的方法来利用这些观察结果来检测对抗样本。4.2. 防御模型在逐层相似性分析的基础上,提出了利用rank-1和rank-2有效路径相似性来检测对抗样本。我们研究了四种不同的检测模型,包括线性模型,随机森林,AdaBoost和梯度提升。其中,线性模型是过拟合,并提供强大的解释能力。我们在MNIST上使用LeNet-5,在ImageNet上使用AlexNet,在ImageNet上使用ResNet-50 v2进行评估。对于每个数据集,在θ=0的整个训练集上执行有效路径提取。五、对于每个模型,来自所有评估攻击的对抗性示例被聚合、混合并分成10%用于训练联合相似性请注意,由于计算成本很高,我们只为ImageNet的每个类中的第一个测试图像生成对抗性示例关节相似性系数的训练其他模型我们还研究使用其他更复杂的模型,包括随机森林,AdaBoost和梯度助推器这三种方法也用于构建基于CDRP的模型[37]。然而,这些方法的输入特征是由每层的rank-1和rank-2有效路径相似性形成的向量,而先前工作的输入特征具有更大的维度(例如, AlexNet 为 1152 , ResNet-50 为15104)。为了保持一致性,我们对线性模型应用了相同的对抗性示例预处理。我们使用100个估计器进行随机森林和梯度提升,而AdaBoost仅限于50个估计器。这些模型的所有未提及的配置都与scikit-learn v0.19.2中的默认值相同5. 评价在本节中,我们评估了基于有效路径的对抗样本检测精度。我们首先关注高度可解释的线性检测模型,并展示其在各种不同攻击、数据集和模型上的检测性能。然后,我们将我们的方法与之前的工作CDRP [37]进行了比较,并表明我们的方法具有更好的准确性,需要更少的训练样本,并且可以很好地推广到不同类型的对抗性攻击。5.1. 线性模型我们首先评估第二节中线性模型的检测精度。4.2进行大范围的对抗性攻击47831.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.80.60.40.20.00.00.20.40.60.81.01.00.90.80.70.60.5假阳性率(a) 勒奈特假阳性率(b) AlexNet假阳性率(c) ResNet-50.图6:LeNet(在MNIST上)、AlexNet(在ImageNet上)和ResNet-50的检测结果,具有联合相似性。1.00.80.60.40.20.00.00.20.40.60.81.0假阳性率1.00.80.60.40.20.00.00.20.40.60.81.0假阳性率1.00.80.60.40.20.00.00.20.40.60.81.0假阳性率图8:有效路径和CDRP之间的检测精度比较请注意,攻 击 类 型 中 的 四 个 条 形 依 次 表 示 线 性 模 型 、AdaBoost、梯度提升和随机森林。蓝色条表示我们的工作和CDRP之间的AUC增量,无论哪个更高。我们的工作优于CDRP,除了在线性模型上。(a) 有针对性的攻击。(b) 普遍扰动a-(c)无法识别的前-补丁和随机攻击。攻击。样本图7:AlexNet在不同攻击方法下的线性模型检测结果。非目标攻击我们使用三种不同的范数来评估非目标攻击,这些攻击可以自由地使用任何类作为对抗图像对于LeNet,我们实现了曲线下面积(AUC)值高达0.95(图1)。6a. 即使是最低的AUC值也是0.92,因为MNIST的对抗图像和正常图像之间存在显著的路径相似性差异在ImageNet上,我们实现了AlexNet的AUC为0.85~0.86,ResNet-50的AUC为0.88~0.89,它有更多的层,为检测提供更丰富的信息,从而获得更好的准确性。BIM具有0.82的低AUC值。原因是BIM迭代地修改所有像素(图1)。4),这使得它的秩2有效路径的行为与其他攻击略有不同。有针对性的攻击有针对性的攻击旨在将预测误导到特定的目标类别。图7a示出了评估针对AlexNet的有针对性的CW12攻击我们实现了0.94的AUC,这比非靶向版本更好。这是合理的,因为有针对性的攻击通用扰动攻击通用扰动攻击生成的扰动在大量的例子中欺骗模型对抗补丁[4]是一种以图像补丁形式生成通用扰动的攻击,它对补丁变换(如平移,旋转或缩放)具有鲁棒性。对抗补丁的结果在图。图7b表示当斑块变大时检测变得更精确。我们的方法可以达到AUC为0.9时,补丁规模相对于图像大小上升到0.5。不可识别的例子对抗性例子通常是人类可识别的,然而,不可识别的图像也可以欺骗神经网络[26]。通过在LeNet和AlexNet上的评估,我们发现有效路径也可以用于检测不可识别的示例。对于LeNet,我们的检测器可以识别93.85%的随机生成的图像。对于AlexNet,我们的方法实现了0.91的AUC,如图所示。7c.从这个意义上说,有效路径为DNN提供了识别其可识别输入分布的能力总之,利用有效路径构造的简单线性模型在不需要特定攻击知识的情况下实现了高检测精度。5.2. 与之前工作的现在,我们将有效的基于路径的检测与先前的工作CDRP [37]进行比较,线性模型以及第2节中描述的三种不同类型的模型。四点二。检测精度图8比较了基于有效路径的模型和基于CDRP的模型之间的检测精度。对于这两种方法,我们发现,随机森林表现最好,而线性模型表现最差的所有模型。然而,有效路径方法在随机森林和线性模型之间的差距比CDRP方法小得多。除补丁和随机攻击外,基于有效路径的线性模型的性能优于基于CDRP的随机森林模型。特别是,我们的方法的准确性改进对于前五种非目标攻击方法来说更显着,而对于中间的两种目标攻击方法来说更小请注意,基于有效路径的线性模型在补丁和随机攻击上的表现稍差,这会产生非常不同的扰动模式(见图1)。4).我们还研究了训练集的大小如何影响检测精度。我们选择线性模型和随机森林模型,并逐步增加其DeepFool(AUC =0.91)FGSM(AUC =0.95)BIM(AUC =0.94)JSMA(AUC =0.95)CWL2(AUCDeepFool(AUC =0.85)FGSM(AUC =0.86)BIM(AUC =0.82)JSMA(AUC =0.85)CWL2(AUCDeepFool(AUC =0.89)FGSM(AUC =0.88)BIM(AUC =0.82)JSMA(AUC =0.89)CWL2(AUCCWL2(AUC = 0.86)目标值=500(AUC = 0.94)量 表 =0.1 ( AUC=0.80 ) 量 表 =0.2 ( AUC=0.80 ) 量 表 =0.3( AUC = 0.85 ) 量 表=0.4(AUC = 0.83)量表=0.5(AUC = 0.90)CWL2(AUC = 0.86)随机(AUC = 0.91)CDR我们的kPWor真阳性率真阳性率真阳性率真阳性率真阳性率真阳性率AUC478410110001突触重量1.00.90.80.70.6500 10001500培训规模(a) 线性模型1.00.90.80.70.6500 10001500培训规模(b) 随机森林。1.00.80.60.40.20.00.00.20.40.60.81.0假阳性率10.10.30.50.70.91.0阈值图9:训练集大小对AUC的影响。(a) 不同θ对&CWl2发作的ROC分析。(b) 不同θ的有效路径尺寸。1.00.90.80.70.61.00.90.80.70.61.00.90.80.7图11:有效路径θ敏感性研究。1.00.90.80.70.52 4 6 8训练攻击次数(a) 线性模型0.52 4 6 8训练攻击次数(b) 随机森林。0.60.52 4 6 8层数0.60.52 4 6 8层数图10:训练集中攻击次数的影响。(a) 线性模型(b) 随机森林。训练集大小图9将我们的方法与CDRP方法进行了比较。对于线性模型,我们的方法用少量的训练样本(大约100张图像)来稳定,而CDRP需要更大的训练集大小。对于随机森林模型,这两种方法都需要更大的训练集,而我们的方法不太敏感,因为我们的输入特征是低维和有效的。概括性概括性衡量的是辩护方能够抵御未知的攻击。为了研究基因-为了验证我们的检测模型,我们进行了一个对照实验:我们逐步加入来自不同攻击类型的对抗样本来训练检测模型,并观察模型在所有攻击类型上的检测精度。图11示出了实验结果,其中我们以右侧所示的图例的顺序添加对抗样本。对于线性模型和随机森林模型,我们的工作很好地推广到看不见的攻击,因为有效路径捕获他们的共同行为。基于CDRP的线性模型对所有非目标攻击的性能较差,并且一旦将相应的样本用 于 训 练 模 型 , 其 对 目 标 攻 击 ( FGSM_targeted 和CWL2_targeted)的准确性就会突然增加5.3. 灵敏度研究在证明了使用有效路径检测对抗样本的准确性之后,我们现在对其参数进行敏感性研究,包括公式1中的θ和提取的层数。我们的结果进一步揭示了优化的机会,使有效的路径更实用。参数敏感性ef的第一个可调参数有效路径提取为θ。 我们用θ检验了CWl2攻击图中的值从0.1变化到1.011a. 当θ在图12:有效路径层数对AUC的影响。表1:有效路径提取时间(秒)。方法有效路径(完整)有效路径(部分)CDRP AlexNet 1.43±0.09 0.43±0.17 106.4 ± 5.2ResNet-50 68.32± 2.43 0.83±0.21 406.3 ± 6.30.5和1.0,并且从θ = 0开始减小。3 .第三章。图图11b示出了θ = 0时的有效路径尺寸。3与θ = 1相比减少了一个数量级。0,检测精度略低。我们选择θ=0。5作为默认值,以节省存储空间并提高提取性能而不损失精度。有效路径提取的另一个可调参数是逐层提取时的层数我们通过实验研究了层号12个。请注意,我们从最后一层开始提取有效路径,最后三层是AlexNet中的全连接层 对于线性模型和随机森林,我们观察到除了随机攻击之外的所有攻击的AUC性能在三层之后饱和,即,FC层。随机攻击检测精度在四层后饱和,即。一个额外的CONV层。通过层敏感性洞察,我们可以提取足够多的层而不是整个网络的有效路径,这可以显着减少提取时间。TBL. 1比较了AlexNet和ResNet-50的提取时间。提取整个网络的完整有效路径仍然比提取需要重新训练过程的CDRP便宜得多( AlexNet为70倍,ResNet-50为6倍此外,提取部分有效路径可以导致甚至更快的处理时间,其转化为240×和500×DeepFoolFGSMFGSM_目标BIMJSMACWL2CWL2_靶向贴片随机我们的CDRPFGSMBIMJSMADeepFoolCWL2FGSM_targetedCWL2_targetedOursCDRP=0.1(AUC = 0.77)=0.3(AUC = 0.84)=0.5(AUC = 0.86)=0.7(AUC =0.87)=0.9(AUC = 0.87)=1.0(AUC = 0.86)FGSMBIMJSMADeepFoolCWL2FGSM_targetedCWL2_targetedPatch随机AUCAUCAUCAUCAUC真阳性率AUC跟踪大小(百万)4785检测器表2:与其他防御措施的比较。to the trained训练kinds种类of adversarial对抗examples例子.即使是[21]提出的对抗训练,被认为是ICLR 2018 [2]白盒安全防御中唯一有效的防御,也被发现对训练的l∞度量过度拟合[33]。输入变换许多图像变换(如缩放、位深缩减和压缩)会干扰攻击并增加扰动下限,从而牺牲分类精度。这种防御方法对于基于补丁的攻击效果较差,并且不提供过滤无法识别的示例的能力。随机化基于随机化的防御方法与CDRP提取相比,时间缩短。总之,有效路径使得能够使用高度可解释的线性模型来检测广泛的恶意攻击,并且可以在不同的数据集和模型上实现很高的准确性。与之前的工作CDRP [37]相比,我们的方法实现了更好的准确性,需要更少的训练样本,并且可以很好地推广到不同的对抗性攻击。6. 相关工作为了将我们的防御方法与以前的工作进行比较,我们首先将各种防御方法归类为表1中列出的五种类型。二、由于几乎所有的比较工作都报告了相似的检测精度(AUC值0.9 - 0.95),因此我们将比较集中在全面性,攻击方法,通用性和评估规模上表中的“-”表示没有足够的细节或实验结果来推断适当的结论。检测器我们的工作属于检测器类别,不需要对输入、模型或训练过程进行任何修改先前的工作[23]从网络激活中训练DNN来检测对抗性示例。检测器子网络MagNet使用一个重组器将对抗性示例移动到正常示例的流形上。然而,[7]表明,只要增加一点扰动,MagNet就可以被击败。与我们最接近的工作是[37],它使用了网络中不同通道(称为关键数据路由路径,缩写)的重要性系数。CDRP)来检测对抗性示例。然而,CDRP不具有聚集能力,因为单个通道对于不同的图像可以具有不同的显著性值。因此,CDRP不能防御非目标攻击并且具有弱的通用性。相比之下,我们使用有效路径,它本质上是每个神经元/突触的二进制值,因此可以直接聚合。我们的方法可以很好地推广不同的攻击,并提供了很强的可移植性。对抗训练对抗训练需要额外的训练步骤来保护DNN。它有两个已知的缺点:很难在像ImageNet这样的大规模数据集中执行[19],同时容易过拟合对模型权重进行随机修改他们可以通过迫使攻击在一系列可能的修改模型上生成可转移的对抗性示例来增加所需的失真。然而,它们也会随机改变预测结果,导致更多向前传递或重新训练步骤的开销。基于生成模型的防御改变了分类模型。它们在分类之前将输入投影到流形[32]提出了一种分类模型,该模型在MNIST上显示出良好的通用性和基于GAN的防御由于其计算成本也很难应用于ImageNet规模。7. 结论和未来工作在这项工作中,我们提出了一种新的基于分析的方法,用于在推断图像时提取深度神经网络该方法不修改DNN结构,并且可以提取表示DNN内部的关键流的有意义的路径信息我们研究了如何使用提取的路径信息分解DNN模型到不同的功能块对应于不同的推理类。通过分析,我们发现对抗图像可以激活与正常图像不同的功能块来欺骗DNN我们提出了一种防御方法,只使用来自训练集和图像本身的信息,而不需要任何特定攻击的知识。该防御方法实现了对主流攻击的高除了对抗性防御,有效的路径也可以用来理解DNN的工作机制。在附录中,我们报告了我们关于训练过程和不同DNN拓扑如何影响有效路径密度和相似性的初步结果。我们相信,基于功能的分解是理解DNN的一个有前途的方向。致 谢 。 本 论 文 是 由 国 家 基 础 研 究 973 计 划 资 助 的 。2015CB352403),国家国家自然科学基金项目。61702328和61602301,部分由微软亚洲研究院合作研究基金资助类型防御l0L2l∞攻击概化规模有效路径YYY都讨论强ImageNet[23日]-YY(非)目标弱CIFAR-10[22日]-YY(非)目标-CIFAR-10[37]第三十七届--Y针对性-ImageNet对抗性[21]-YY(非)目标弱CIFAR-10培训[25]--Y(非)目标弱CIFAR-10输入[14]-YY(非)目标-ImageNet转换[5]--Y(非)目标-CIFAR-100[38个]-YY(非)目标-ImageNet随机化[八]《中国日报》--Y(非)目标-CIFAR-10生成[32]YYY(非)目标性+随机性强MNIST型号[31]-YY(非)目标-MNIST4786引用[1] Ossama Abdel-Hamid , Abdel rahman Mohamed , HuiJiang,Li Deng,Gerald Penn,and Dong Yu.用于语音识别的卷积神经网络。IEEE/ACM Transactions on Audio,Speech,and Language Processing,22:1533[2] Anish Athalye、Nicholas Carlini和David A.瓦格纳。Ob-fuscated梯度给人一种错误的安全感:规避对抗性示例的防 御。第35 届国 际机 器学习 会议 论文集 ,ICML2018,Stockholmsmässan,斯德哥尔摩,瑞典,2018年7月10日至15日,第274-283页,2018年[3] Thomas Ball 和James R.拉 鲁 斯高 效 的 路 径 分析 。 在Proceedings of the 29th Annual ACM/IEEE InternationalSymposium on Microarchitecture,MICRO 29,pages 46-57,Washington,DC,USA,1996中。IEEE计算机协会。[4] 汤姆湾Brown,Danvillage Mané,Aurko Roy,MartínAbadi , and Justin Gilmer. 对 抗 补 丁 。 CoRR ,abs/1712.09665,2017。[5] 雅各布·巴克曼,奥科·罗伊,科林·拉菲尔,伊恩·古德费尔-洛.温度计编码:一个抵抗敌对例子的好方法。在2018年国际学习代表会议上[6] Nicholas Carlini和David A.瓦格纳。评估神经网络的鲁棒性。CoRR,abs/1608.04644,2016。[7] Nicholas Carlini和David A.瓦格纳。磁铁和“对抗性攻击的 有 效 防 御 ” 对 对 抗 性 的 例 子 并 不 健 壮 。 CoRR ,abs/1711.08478,2017。[8] 古尼特岛放大图片作者:David D.放大图片创作者:J.Lipton和Animashree Anandkumar。用于鲁棒对抗防御的随机激活修剪。在2018年国际学习代表会议上[9] 伊万·迪诺夫深度学习真的是自动驾驶汽车中所有事情的解决方案吗?http://bit.ly/ivan_dynov_adas,2016.[10] Kevin Eykholt、Ivan Evtimov、Earlence
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功