没有合适的资源?快使用搜索试试~ 我知道了~
16453CLEAR:清理神经网络中的样本目标后门Liuwan Zhu1,Rui Ning1,Chunsheng Xin1,Chonggang Wang2,and HongyiWu11 Old Dominion University,USA2InterDigital Communications,Inc. 美国2{lzhu001,rning,cxin,h1wu}@www.example.com,www.example.comodu.edu @chonggang.wanginterdigital.com摘要数据中毒攻击引发了对深度神经网络安全性的严重安全担忧,因为它可能导致神经后门,从而对攻击者精心制作的某些输入进行错误分类特别是针对样本的后门攻击是一个新的挑战。 它的目标是一个或 称为目标样本的一些特定样本,以将它们错分类到目标类别。在没有在后门模型中植入触发器的情况下,现有的后门检测方案无法检测以样本为目标的后门,因为它们依赖于对触发器的逆向工程或触发器的强特征。在本文中,我们提出了一种新的方案来检测和减轻样本为目标的后门攻击。我们发现并证明了一个独特的属性的样本-有针对性的后门,这迫使边界的变化,这样的小基于这一观察,我们提出了一种新的防御机制,以查明一个恶意的口袋“包装”到一个紧密的凸包在特征空间。我们设计了一个有效的算法来搜索这样的凸包和删除后门微调模型使用已识别的恶意样本与正确的标签根据凸包。实验结果表明,该方法能够有效地检测和防范各种以样本为目标的后门攻击。1. 介绍深度神经网络(DNN)在广泛的应用中发挥着关键作用,例如图像分类[6],面部识别[23]和自动驾驶[37]。尽管有这些进步,DNN是数据驱动的,这取决于训练数据的大小和质量以及用于模型训练的计算资源。它们也是经验主义的,需要广泛的专业知识来设计一个好的模型架构。因此,一般用户大规模训练自己的模型往往是不可行的相反,用户通 常 将 模 型 训 练 外 包 给 称 为 机 器 学 习 即 服 务(MLaaS)[25]的第三方,或者重用来自在线模型动物园存储网站的公共模型,例如,Caffe Model Zoo [15]或Tensorflow Model Zoo [1]。然而,这提出了一个根本问题:我们能相信别人提供的模型吗?DNN通常被认为是黑盒,并且对人类缺乏可解释性和透明度。 此外,对它们的行为进行详尽的测试是不可行的。攻击者可以利用这些属性在提供给用户的模型中植入后门。当模型训练器从网络收集训练数据时,这可以通过攻击者偷偷地或者,模型训练器本身可以改变训练数据以有意地植入后门。后门攻击主要可以分为两种类型,样本为目标的和基于触发器的,这取决于是否采用预定义的触发器来激活后门。在基于触发器的后门攻击中,在训练期间使用在样本[9,21,36,26]上压印的“触发器”植入后门,该“触发器”是预定义的特殊图案,例如图1(a)中所示的小白块。在训练之后,后门模型在干净样本的情况下表现正常,但是如果触发器嵌入在输入样本中,则将输入错误分类到目标类别中。相比之下,以样本为目标的后门攻击不是采用预定义的触发器,而是以一个或几个特定样本(称为目标样本)为目标,以将它们误分类到目标类别。注入样品靶向后门的最直接的方法是简单地翻转目标样品的标签这样的样本被包括在训练集中以创建以样本为目标的后门[34]。在特征冲突攻击[28]及其变体[38,2]中,攻击者扰动目标类中的少量样本(例如,标签为“cat”),而不改变它们的标签,以最小化它们到目标样本的116454(一)(d)其他事项(b)第(1)款(e)(c)第(1)款(f)第(1)款检测针对样本的后门我们的方法的动机是观察到的样本为目标的后门导致小的“口袋”周围的目标样本的决策边界,从而错误地因此,CLEAR被设计为在特征空间中搜索我们的贡献总结如下。• 我们发现并展示了一个独特的功能,样本为目标的攻击:他们迫使原来的良性模型的边界变化,使小“口袋”周围的图1.基于触发器和样本针对性攻击和防御的示例。在第一行上,(a)是基于触发器的攻击样本,在右下角印有白色方形触发器;(b)以及(c) 是分别由Neu- ral Cleanse [33]和GangSweep [39]生成的成功反向工程触发器第二行示出了以样本为目标的攻击,其中(d)是目标样本(干净的图像(e.g.、目标汽车样本)。这些扰动样本在视觉上与原始干净样本无法区分,但在特征空间中接近目标样本。在训练之后,目标图像(汽车)将被误分类为“猫”。后门攻击的隐蔽性源于模型的不透明和不可解释的性质,这使得通过简单地窥视数百万个浮点权重参数来识别这种攻击是不可行的。幸运的是,有一些早期的努力来检测神经后门[33,4,39,10,20,7,19]。Neural Cleanse [33]使用梯度优化来反向工程神经后门,以重建受感染类的触发器。GangSweep [39]利用生成对抗网络(GAN)[8]来揭示更高级的后门攻击,例如使用多个,半透明,动态甚至空间变换触发器的攻击。例如,图1(b)和图1(c)示出了通过使用NeuralCleanse和GangSweep的反向工程触发器。然而,这些现有方法依赖于对用于检测后门的预定义触发器进行逆向工程,使得它们对于检测样本目标后门无效。图1(e)和1(f)显示了使用Neural Cleanse和GangSweep的样本靶向后门模型的逆向工程结果。这些结果就像是与良性模型相似的普遍扰动;因此两种方法都不能检测后门。此外,由于以样本为目标的后门模型不具有可以跨越所有样本来欺骗模型的触发器,因此这些后门检测方法不能有效地重建目标取样并取出(更多结果见第5.1节)。这项工作的贡献本文提出了一种新颖有效的防御机制CLEAR(Clean-upsampleE-tArgeted backdooR)来解决这一问题• 我们提出了一种新的防御机制,以查明一个恶意的口袋为了实现这一点,我们设计了一个有效的算法来搜索这样的凸包。然后利用算法识别的恶意样本通过微调模型来移除后门这些样本已被证明对后门缓解至关重要。• 第三,我们通过在多个广泛使用的模型架构上的多个数据集上针对四种最先进的单目标/多目标样本目标后门攻击[34,28,38,2]进行广泛的实验来评估我们的方法。据我们所知,我们的工作是第一个成功检测和缓解样本目标后门的工作。2. 相关工作基于触发器的神经后门。在基于触发器的后门攻击中,后门模型在干净输入的情况下表现正常,但是每当触发器出现在输入上时,它就被分类到目标类别中。例如,BadNets [9]是第一个报告的使用简单模式作为触发器的后门攻击。TrojanNN [21]通过根据神经元响应创建触发器来减少对训练数据的依赖。隐藏后门攻击[26]是一种更新和高级的攻击,它创建一个不可见的动态后门,将触发器隐藏在中毒数据中,并保持触发器秘密,直到最终用户部署模型。在推理过程中,在任何位置嵌入触发器的干净图像都可以激活后门。样本靶向神经后门以样本为目标的攻击以一个或几个特定样本(称为目标样本)为目标,旨在将它们从原始类别错误分类为目标类别。它显然更隐蔽,因为识别目标样本非常具有通常,将错误标记的样品或正确标记但扰动的样品注入训练集中以创建后门。例如,标签翻转攻击[34]通过简单地将目标样本的标签翻转16455为目标标签并将其添加到训练中来注入样本目标后门。16456集特征碰撞攻击[28]通过最小化它们与特征空间中的目标样本的距离来干扰目标类中的一些样本,以便将目标样本从其原始类“拉”到目标类中。凸多面体攻击[38]优化扰动样本以在目标样本周围形成凸多面体。在一组网络架构上执行优化,以便实现期望的可传输性。靶心多面体攻击[2]通过扰动同一对象的多个样本来修改凸多面体攻击,以进一步提高攻击的鲁棒性。后门防御。在防御方面,安全社区已经采取了初步措施来检测和减轻基于触发器的后门攻击。对于基于触发器的后门,已经提出了几种方法来对可能的触发器进行逆向工程以检测后门[33,39],识别并移除恶意神经元(其包括后门信息)以净化受感染的DNN[20,19],或者在运行时期间过滤中毒的输入[7,24]。对于针对样本的后门攻击,有一些努力旨在在训练之前清理收集的数据特别是,k-NN Defense [11]通过删除异常点来解决干净标签数据中毒问题,如果一个点的标签与特征空间中其k最近邻居的标签不[30]基于有毒数据点到所有训练样本的质心然而,它们都不能保证去除所有中毒的样本,特别是当采用更先进和自适应的中毒技术[2]来逃避检测时。更重要的是,那些方法集中于在训练之前净化训练数据,使得其显然不适用于模型训练器而不是外部攻击者有意植入后门的情况。因此,设计反应式防御以检测和减轻给定模型上的样本目标后门至关重要,特别是在无法访问原始训练数据的情况为此,我们提出了第一个以样本为目标的后门检测和缓解系统,CLEAR,它可以通过使用有限的验证数据在特征空间中搜索可能的“口袋”来检测以样本为目标的毒药模型这种防御是有效和实用的,因为它不需要访问训练样本或后门目标样本的知识3. 威胁模型如引言中所讨论的,我们考虑一个威胁模型,其中用户已经从在线模型存储库中获得了预先训练的模型,该模型可以是良性模型或后门模型。基于触发器的后门攻击[9,21,26]假设存在一个触发器,可以标记到任何图像以误导模型。由于触发器的存在,人们已经开发出了有效的方法来恢复(a)攻击模式检测图2. (a)以样本为目标的后门攻击说明。决策边界被弯曲以包围恶意样本(绿色实心三角形),从而将其错误分类为ClassB. (b)后门检测图示。实心蓝色三角形是形成凸包的锚点,凸包的质心接近后门模型中的恶意样本。从后门模型的触发,并进一步成功地检测后门[33,39]。在本文中,我们考虑了更隐蔽的样本目标后门模型[34,28,38,2],它没有触发器,只能由特定的目标样本/对象激活。防御者只能访问模型和一小部分干净的验证数据。我们假设模型的训练数据是私有的,无法获得。给出一个预先训练好的模型,我们使用CLEAR对它进行全面的检查,以识别和减轻可能的以样本为目标的后门。4. CLEAR框架4.1. 概述以样本为目标的攻击旨在隐形。 为此,后门模型必须保持良好的性能(即,分类精度)上的良性输入。这确保后门模型具有与其良性对应物类似的分布层输出,特别是对于其中提取公共知识的浅层。因此,经过良好训练的后门模型仍然可以在特征空间中对数据样本进行聚类。结果,恶意样本被混合到其原始类的集群中,并且被干净样本包围为了将恶意样本错误分类到另一类别中,后门模型基本上重塑决策边界以为了证明这一现象,我们通过在Swiss roll数据集上分别训练干净模型(5层全连接神经网络)及其相应的恶意模型来进行实验[32]。我们比较了他们的决策边界的差异。如图3所示,干净模型具有平滑的决策边界。然而,后门模型的决策边界被扭曲,创建了一个包含目标样本的小口袋(黄色圆圈中的区域)。16457X{x}(j)nKi=1pppi=1pi=1(一)(一)pi=1i=1(a) 清洁模型。(b)后门模式。图3.使用Swiss Roll数据集训练的两个模型的决策边界的比较。在(a)中,干净模型的决策边界是平滑的。然而,在(b)中,由于有毒图像的影响,中毒模型的决策边界创建了一个凸包通过后门模型将毒物样本错误分类为类别2。算法一:口袋搜索算法1输入:验证数据、类数N、选择样本数n、凸集锚点数k;2 输出:锚集合Sp、组合集合Sc在验证数据图4. CLEAR的框架。用户已经获得了训练模型以及用于验证模型的小验证集CLEAR首先从验证数据中选择初始点,然后查找特征空间3 设Sp←{},Sc←{}4对于每个源标签Is= 0-Ndo5Xs←从类别ls中正确分类的样本X;如果存在一组点以形成捕获点6的多面体(j)n←在X中选择n个样本具有最高被分类为另一类别,然后确定是否存在将置信度分类为l类;后门并修补模型以移除后门而不影响其性能。7F={φ(xs)}j=1 ←提取特征为此,我们推测,如果我们能够在特征空间中找到并这个观察动机-中间层;8对于每个目标标记,It= 0-N并且It=Isdo9从F采样k个初始点的集合,表示为{φ(x)}k;评价所提出的方法。 更具体地说,整体10对于1≤i≤k,初始化ci=1;11当{φ(x(i))}k不收敛三个阶段如下所述。12φ(xc)←Σkci×φ(x(i));13• 锚点初始化。 有效地寻找痘-14ets,我们首先设计一个算法来选择初始验证数据集中的锚点。通过等式2计算Lp、Lc和L。(2)-( 4 ) : 计 算 L , 其 中 r∈{φ ( x( i ) ) }k 并 更 新 {φ ( xp ) }k ;如果f(φ(x(i)=1s 对于所有1≤i≤k且• 口袋搜查。 我们把每一组最初的-chor点作为起点来检查一组per-16f(φ(xc))=lt,则Sp←SpS{φ(x(i))}k;p涡轮锚存在于可以形成的原始类包含一个点的多面体被分类为另一类。这是通过迭代优化算法实现的。• 后门检测和缓解。 基于1718192021end端端端Sc←ScS{φ(xc)};i=1找到口袋的概率,我们确定是否存在样本目标后门。然后,我们利用生成的凸组合来删除后门,而不影响干净数据的性能。4.2.口袋搜索在特征空间中精确测量决策边界是非常困难的,尤其是在处理在复杂的神经网络中处理高维数据因此,而不是直接寻找口袋上的决策边界,我们近似它们的形状,形成小凸包。更具体地说,我们搜索一个小的凸包,其边界节点来自一个类,并且包含属于另一个类的特征点(参见图2(b)和3(b))。为此,我们设计了一个优化算法来迭代搜索边界节点选择初始锚点给定模型中毒n缓解部署Sj=1SCLEAR的体系结构如图4所示。组成口袋搜索后门检测贝尼希16458目 标 已找 到 锚点沿正交法线的K·φ(x)=c×φ(x),(1)ciΣKφ(x(i))−φ(xc)Sj=1Lp=(交叉熵(f(φ(xp)),1s)), ⑶pi=1pi=1pi=1pi=1我p--i=1----(锚)的凸包,满足上述条件。第算法1总结了CLEAR的总体口袋搜索过程,这在下面进一步阐述。锚点初始化。为了有效地找到一个凸包,我们引入了一个简单而有效的算法来从验证数据集中选择初始锚点。给定一个预先训练的模型,目标样本的分布是未知的,因为我们不知道攻击者的目标是哪个标签。我们列举每一个标签作为假设-1.51.00.50.00.51.01.56 4 2 0 2 4 6质心距离ical目标标签,并从验证集中选择相应的样本来搜索凸包。对于每个标签,我们首先将验证样本馈送到预训练模型中,并记录被正确分类的样本如第4.1节所讨论的,被口袋包裹的恶意样本可能位于其原始类的集群中,并被干净样本包围。我们不是从给定的类中随机选择样本,而是使用分类到类Xs从Ls图5.在迁移学习场景下Bullseye Polytope攻击中防御的特征空间可视化。位于由特征空间中的锚点形成的多面体的中心简而言之,我们如下公式化并解决优化问题。我们定义αΣ。¨¨2 ΣKp(i.e.、 标记为1的验证样品),并提取在中间层处的n个样本的输出作为它们的哪里K特征F={φ(x(j))}n其中φ(·)是特征extrac-1Σ(一)托尔如果模型只有一个完全连接的稠密层,我们在最后一个卷积块之前提取特征;否则,我们从倒数第二层提取特征。在我们的实验中,我们选择n=50。和Ki=1Lc=交叉熵(f(φ(xc)),lt)。(四)口袋搜索如前所述,我们枚举每个类作为假设的目标类,因为我们不知道哪个类是目标类。对于给定的假设目标类别,用随机选择的初始锚点重复口袋搜索多次。更具体地,我们从F随机采样特征空间中的k个初始锚点,表示为{φ(x(i))}k,作为这里,f()是模型的输出,α平衡了分类损失和规模之间的重要性凸多面体由方程式(2)第一项强制扰动的锚点仍然被正确分类;第二项保证它们的凸组合被分类到目标类中;而第三项是确保扰动锚点的特征表示接近于它们的组合的约束。开始点,以发现在原始中是否存在一组点-SGD [3]被用来执行优化最终类,可以形成一个多胞形,捕获在另一个类中分类的点k值是一个设计参数,根据我们的实验,k值应不小于5。否则,它可能无法搜索正确的口袋。在我们的实现中,我们默认设置k=5在我们选择k个样本作为初始锚点{φ(x(i))}k,它们的凸组合表示为φ(x(i ))k,目标是最小化L。如果优化收敛到凸包,使得当顶点在原始类中而它们的组合被分类为目标类时,识别后门。对于给定的假设目标类,口袋搜索将被重复多次(例如,在我们的实现中少于10次)φ(xc),即,K(一)pi=1点我们的研究结果表明,优化可以是敏感的引发。但如果存在借壳,优化将有极高的概率重新其中ci是凸系数,其中ci>0并且在所有搜索中,在少于10次迭代中移植目标类Ki=1 c i= 1。我们试图扰乱锚点我们列举每一个类来重复口袋搜索并且优化它们以在特征空间中形成凸多面体,使得创建将位于凸多面体内并且被错误分类为目标类(表示为It)的凸组合。注意虽然我们可以同时优化c和φ(x(i))k,但它既不高效也不有效。相反,我们将系数ci(1≤i≤k)设置为1以强制组合进程来检查它是否是目标类。可视化和洞察力。为了深入了解口袋搜索算法,我们进行了一个实验,以可视化的近似位置的目标样本注入的攻击者和凸组合点所提出的算法发现,所有在特征空间中。我们遵循[28]中使用的投影方案,其中L=Lp+Lc+i=1、(二)16459Δ·X联系我们X} − {X}x轴是沿着连接目标和原始类特征的质心的线的方向,y轴是与质心之间的矢量正交的参数矢量的分量。图5显示了在迁移学习中受到靶心攻击的中毒DPN92 [5]网络的示例(详细的实验设置可以在第5节中找到)。表示注入的目标样本,其在特征空间中的原始类样本(绿点)的聚类内,但被分类为目标类,而是由算法1找到的示例凸组合点,其接近目标样本。‘X’标记是用于生成组合样本的此外,所生成的样本与目标之间的因此,我们假设多面体可以很好地逼近目标。4.3. 后门检测和缓解基于口袋搜索结果,我们可以执行有效的后门检测和缓解。为此我们将找到口袋的概率定义为找到P=N,模型架构:[12]和GoogLeNet [31]。关于凸多面体和靶心多面体单目标和多目标攻击,我们在CIFAR上测试它们-10个数据集,8个模型架构,SENet18 [13],DPN92[5] , GoogLeNet , MobileNetV2 [27] , ResNet50 ,ResNeXt29 2x64d [35],ResNet18,DenseNet121 [14]。对于Bullseye多目标攻击,我们在多视图汽车数据集上进行了测试,该数据集包含来自20辆不同汽车的图像,所有8种架构都以3-4度的增量进行了360度旋转我们 还 使 用 ResNet 18 和 VGG 19 [29] 架 构 在 MiniImageNet上测试了Label Flipping和Bulls- eye Polytope单目标攻击。除了在迁移学习中进行测试外,我们还在端到端培训中测试了除GoogLeNet1之外的攻击配置。 对于每一次攻击,我们首先从官方存储库下载一个干净的模型,或者用干净的训练数据训练一个良性模型。然后,我们通过使用每个样本目标攻击方法的开源实现来毒害训练数据集来训练后门模型[28,38,2]。具体来说,对于每个干净模型,我们随机选择10个不同的样本(现在是目标样本)和不同的目标类进行分析。哪里NtotalNfound是找到的凸多面体的数量,并且每个样品2.我们在模型中植入后门两个设置:迁移学习(微调最后一个密集层)Ntotal是搜索总数。如果P高于阈值,我们认为它是一个后门模型。在我们的实现中,阈值设置为50%。为了移除后门,我们使用模型修补,即,用新的数据集微调模型,所述新的数据集包括小的验证集(来自每个类的少于50个样本)和所发现的具有原始(正确)标签的凸组合点(即,其相应锚的标签)。微调过程有效地移除了植入的后门。5. 实验结果在本节中,我们分别评估了CLEAR在迁移学习和端到端训练场景中对抗标签翻转、特征碰撞、凸多面体对于每个攻击,我们采用所有实验设置,包括[28,38,2]中的模型架构和超参数,并使用三个基准进行实验:CIFAR-10 [18],Multi-View Car Dataset [22]和Mini ImageNet [6](从ImageNet中随机选择10个类的子集)。我们考虑样本为目标的后门攻击模型,其不仅成功地将目标样本完全错误分类到目标类别,而且在干净的训练和测试数据上保持高的分类准确率。每起袭击的详情如下。数据集和架构。我们在CIFAR-10数据集上测试了标签翻转和特征碰撞攻击,使用两个和端到端训练(微调所有层)。因此,对于每个攻击,我们为每个模型架构生成10个后门模型。在我们的实验中,后门模型的准确性下降不到5%的干净数据。5.1. 后门检测我们通过使用SGD求解器[3]和自适应学习率搜索每对类之间可能由于不同模型的特征范围的尺度通常由于不同的模型架构而不同,因此为了加速口袋搜索,我们使用自适应学习速率,即,选择lr = 0。001(max φ()min φ()),其中为验证数据。我们用探测成功率作为主要性能度量,其是已经检测到的具有特定目标类的口袋的恶意模型的百分比。表1和表2比较了CLEAR在三个基准测试中针对四种不同攻击的后门检测性能,其中四种最先进的后门检测 算 法 包 括 Neural Cleanse [33] 、 GangSweep [39] 、ABS [20]和STRIP [7]。所有这些防御都是基于其开源实现来实现的。这些攻击主要分为两类:错误标记和干净标记的后门攻击。对于Ima-geNet,我们从每个类别中选择一种攻击,即,的1通过[38,2],很难在端到端训练中攻击GoogLeNet。2通过[2],对于靶心多目标攻击,我们选择在干净模型上准确率超过90%的目标汽车作为目标样本。16460单目标联系我们X}标签翻转表1. CLEAR、Neural Cleanse、GangSweep、ABS和STRIP在迁移学习和端到端训练场景中对CIFAR 10和Multi-View Car基准测试中针对主要样本的后门攻击的检测成功率。标签翻转要素碰撞凸多面体靶心多面体靶心多面体多目标转移End-to-end转移End-to-end转移End-to-end转移End-to-end转移End-to-end透明95.0% 90.0% 100% 90.0% 96.3% 95.7% 97.5% 95.7% 93.8% 87.1%神经净化GangSweepABS地带表2.在Ima-geNet基准测试中,CLEAR和其他防御对标签翻转和靶心多面体攻击的检测成功率靶心多面体防御策略转移End-to-end转移End-to-end透明95% 60% 95% 80%神经净化GangSweepABS地带标签翻转和靶心多面体单目标攻击。我们使用如表1和表2所示类似地,由于隐藏层中的最大激活值的可忽略的增加,ABS不能检测任何以样本为目标的后门模型除此之外,在线检测方案,例如,STRIP也未能识别恶意样本,因为这些样本是从干净图像的相同分布中提取的。相比之下,CLEAR可以成功检测大多数以样本为目标的后门模型,在迁移学习环境中的检测成功率超过93%。对于端到端训练场景,由于攻击者对包括特征提取器的整个模型进行微调,因此目标样本的特征可能会移出原始类的聚类,从而导致检测率略微下降。计算效率。 效率评价在口袋搜索中,我们在NvidiaRTX 2080 Mobile Max-Q GPU 上 运 行 它 , 内 存 为 8GBCLEAR从特征空间中的一组初始点搜索后门口袋需要不到1秒的时间。 此外,我们将搜索空间的界设为[min φ(),max φ()].一旦组合点超出范围,搜索将终止。5.2. 后门缓解对于已识别的后门模型,我们通过使用新的训练集对模型进行5个时期的微调来对其进行修补,该训练集包括一小组干净的验证数据(50个样本)和被发现的口袋样本在袋搜索阶段基于干净的验证数据生成袋样本我们使用Adam优化器[16]以0.1的学习率训练最后一个线性层。我们使用两个指标评估CLEAR在后门缓解方面的性能:攻击成功率(ASR),这是仍然将目标样本错误分类为目标标签的后门模型的百分比;以及测试准确度(Acc),其表示模型在干净图像上的准确度(这些测试样本不在训练集或验证集中)。对于单目标攻击,如果目标样本被正确分类到其原始类标签,则认为后门已被移除。对于多目标攻击,由于存在多个目标样本,如果超过90%的目标对象图像被分类到其原始类别标签,则认为后门已被移动。显然,所有中毒模型的ASR都是100%,因为它们都是后门。良好的缓解方法应显著降低ASR。表3和4示出了在CIFAR-10基准上修补之前和之后,在迁移学习和端到端训练设置中的不同攻击在使用生成的口袋样本进行修补后,超过90%的后门模型可以抵御所有攻击方法(如前所述),而不会显著牺牲测试样本的分类准确性这也表明,即使我们将良性模型误检测为可能的恶意模型,用生成的口袋样本进行微调也不会对模型产生太多的副作用。一个重要的观察结果是,所识别的恶意样本对于移除后门至关重要。这可以看出,在表3和表4中,用干净样本修补如表5所示,对于大规模ImageNet基准,我们使用生成的口袋样 本 的 方 法 也 可 以 在 La- bel Flipping 和 BullseyePolytopes单目标攻击下去除几乎所有中毒模型,而使用干净样本的修补失败。此外,我们还评估了精细修剪[19]通过重新构建模型来减轻后门模型16461单目标洁净样本生成的样本单目标洁净样本生成的样本国防战略转移标签翻转End-to-End靶心多面体单靶转移End-to-End测试访问ASR测试访问ASR测试访问ASR测试访问ASR测试访问表3.针对CIFAR10和Multiview Car基准测试中所有模型的迁移学习中的所有攻击进行后门缓解国防战略标签翻转要素碰撞凸多边形靶心多边形靶心多面体多目标测试访问ASR测试访问ASR测试访问ASR测试访问ASR测试访问ASR94.第九十四章7%± 1%100%94。5%±1%百分百94 2%± 1%100%91。4%± 2%100%90。3%±2%100%清除补丁94 9%±1%10.0%94 0%± 1%0%95。1%± 1%3.8%91。3%± 2%5.0%90. 4%±2%8.8%第94章. 8%± 1%45.0%94. 7%± 1%5.0%95. 2%± 1%28.8%92。1%± 1%23.8%91。5%±1% 百 分 之九十94. happiness 9%± 1% 70.0%93。9%±1%百分百94 3%±2%51.25%91. 7%±1%61.25%91. 1%±1%100%表4.针对CIFAR 10和Multi-view Car基准测试中所有型号的端到端培训中的所有攻击进行后门缓解国防战略标签翻转要素碰撞凸多边形靶心多边形靶心多面体多目标测试访问ASR测试访问ASR测试访问ASR测试访问ASR测试访问ASR94.第九十四章9%± 1%100%93。4%± 1%100%92。1%± 1%100%92。88.第88章我的世界2%±1%100%清除补丁九十三9%±1%40.0%九十三8%± 2%5.0%91。7%± 1%7.1%91。4%± 1%8.6%89。1%±2% 百 分 之十五点七补丁95. 0%± 1%100%93。9%±1%20.0%92. 1%±1%百分之四十五点七92. 4%±1%48.6%88岁5%±1%92.8%94. happiness 7%± 1% 100%92。8%± 1%100%91。8%± 1%100%91。3%± 1%100%88。2%±1%100%表5. ImageNet基准测试中针对标签翻转和靶心单目标攻击的后门缓解。移动最后卷积层的冗余神经元如表3-5所示,它在端到端场景中无法移除任何以样本为目标的后门,并且在迁移学习设置中可以移除高达48.75%的目标样本观察到,如果目标样品的对数(即,在softmax层之前的模型的输出)在目标类别处仅略高于源类别的输出然而,如果目标样本以高置信度被错误分类,则后门难以通过有限的干净样本进行微调来去除。5.3. 自适应攻击自适应攻击假设攻击者知道CLEAR并试图故意逃避它。要在第3节中制定的攻击中取得成功唯一的迂回是直接将目标特征映射到目标类。这将导致在正常样本上不可接受的分类错误,这是非常可疑的。因此,攻击将被检测到。因此,即使攻击者理解防御机制,构建有效的自适应攻击也是一个根本性的挑战。九十五0%± 2% 85%95。1%±1% 百 分 百6. 结论在这项工作中,我们提出了第一个检测和缓解方案,以解决样本为目标的后门攻击。我们已经揭示并证明了由样品靶向后门引起的束缚变化在靶样品周围形成小的基于这一观察,我们提出了一种新的防御机制,以查明恶意口袋“包装”到一个紧密的我们已经设计了一个算法来搜索这样的凸包。然后利用由算法识别的恶意样本通过微调模型来移除后门。与以前的后门检测解决方案相比,所提出的方法对于在不同基准数据集下检测和减轻广泛的样本目标后门模型是非常有效的。7. 致谢这 项 工 作 得 到 了 NSF 的 部 分 支 持 , 资 助 CNS-2120279 、 CNS-1950704 、 CNS-1828593 和 OAC-1829771,ONR的资助N 00014 -20-1-2065,NSA的资助。der Grant H98230-21-1-0278、DoD Center of Excellencein AI and Machine Learning ( CoE-AIML ) under中毒模型九十七3%±1%百分百九十七4%±1%百分百九十六。9%± 1%百分百九十七2%±1%百分百明确九十七1%±1%0%的百分比九十六。9%± 1%百分之二十九十七0%±1%百分之五九十六。1%± 2%百分之二十16462Contract Number W911NF-20-2-0277、CommonwealthCyber Initiative和InterDigital Communications,Inc.16463引用[1] 许静玉ModelZoo:探索开源深度学习代码和预训练模型。http://www. modelzoo.co的网站。[2] H. Aghakhani,DongyuMeng,Yu-XiangWang,C. Kru¨gel,G.豇豆靶心多面体:可扩展的清洁标签中毒攻击,具有改进的可转移性。ArXiv,abs/2005.00191,2020。[3] 我在博图。 随机梯度下降技巧。 在神经网络中:贸易技巧,第421-436页。Springer,2012.[4] Bryant Chen 、 Wilka Carvalho 、 Nathalie Baracaldo 、Heiko Ludwig、Benjamin Edwards、Taesung Lee、IanMolloy和Biplav Srivastava。通过激活聚类检测对深度神经网络的2019年第33届AAAI人工智能安全研讨会[5] Yunpeng Chen,Jianan Li,Huaxin Xiao,Xiaojie Jin,Shuicheng Yan,and Jiashi Feng.双路径网络。神经信息处理系统进展论文集(NeurIPS),第4467-4475页[6] J. Deng,W.东河,巴西-地索赫尔湖李,李凯,李飞飞。Imagenet:一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议(CVPR)的集,第248-255页[7] 高 岩 松 , 徐 变 , 王 德 瑞 , 陈 世 平 , Damith C.Ranasinghe和Surya Nepal。Strip:防御深度神经网络上的木马攻击。在年度计算机安全应用会议(ACSAC)的会议记录中,第113-125页,2019年[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统进展的进展,第2672-2680页[9] T. Gu,K.刘湾,澳-地Dolan-Gavitt和S.加格Badnets:Evaluatingbackdooringattacksondeepneuralnetworks.IEEE Access,第47230-47244页[10] 郭文波、王伦、新宇星、敏度、黎明歌。Tabor:一种在人工智能系统中检查和恢复木马后门的高度准确的方法。arXiv预印本arXiv:1908.01763,2019。[11] Neal Gupta,W. Ronny Huang,Liam Fowl,Chen Zhu,Soheil Feizi,Tom Goldstein,and John P.迪克森强大的基 线 防 御 , 可 抵 御 干 净 标 签 中 毒 攻 击 。 CoRR ,abs/1909.13374,2019。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition(CVPR),第770-778页[13] 杰虎,李申,孙刚。压缩-激励网络。在IEEE计算机视觉和模式识别会议论文集(CVPR)中,第7132- 7141页[14] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE大会上的会议记录-计算机视觉和模式识别(CVPR),第4700- 4708页,2017年。[15] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构。在 Proceedings of the ACM inter-national conference onMultimedia(ACM-MM),pages 675[16] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。国际学习代表会议(ICLR),2015年。[17] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。在Doina Precup和Yee Whye Teh,编辑,第34届机器学习国际会议论文集,第70卷,第1885-1894页[18] YannLeCun,LDJac k el,L e'onBottou,CorinnaCortes,John S Denker,Harris Drucker,Isabelle Guyon,Urs AMuller,Eduard Sackinger,Patrice Simard,et al.用于分类的学习算法:手写体数字识别的比较。神经网络:统计力学观点,第276页,1995年。[19] Kang Liu,Brendan Dolan-Gavitt,Siddharth Garg.精细修剪:防御深度神经网络的后门攻击。攻击、入侵和防御研究,第273施普林格国际出版社,2018年。[20] Yingqi Liu,Wen-Chuan Lee,Guanhong Tao,ShiqingMa,Yousra Aafer,and Xiangyu Zhang. Abs:通过人工脑刺激扫描神经网络的后门。在ACM SIGSAC计算机和通信安全会议(CCS)中,第1265[21] Yingqi Liu , Shiqing Ma , Yousra Aafer ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功