Shapley值引导的少样本后门防御方法

131 浏览量更新于2023-10-25 收藏 13.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

133580使用Shapley估计的少样本后门防御0管继阳1,2*，涂卓卓3*，何然1,2†，陶大成4,301中国科学院自动化研究所，国家计算机网络应急技术处理协调中心2中国科学院大学人工智能学院 3悉尼大学 4京东探索学院0guanjiyang2020@ia.ac.cn，zhtu3055@uni.sydney.edu.au0rhe@nlpr.ia.ac.cn，dacheng.tao@gmail.com0摘要0在过去的十年中，深度神经网络在各种任务中取得了令人印象深刻的性能，如自动驾驶、人脸识别和医学诊断。然而，之前的研究表明，深度神经网络很容易在推理阶段被后门攻击操纵为特定的、由攻击者决定的行为，后门攻击注入恶意的小型隐藏触发器来进行模型训练，引发严重的安全威胁。为了确定受触发的神经元并保护免受后门攻击，我们利用Shapley值并开发了一种名为ShapleyPruning（ShapPruning）的新方法，在数据不足的情况下（每类1个图像甚至没有数据）成功地减轻了模型中的后门攻击。考虑到神经元之间的相互作用，ShapPruning识别出少数受感染的神经元（占所有神经元的1%以下），并设法在修剪尽可能多的受感染神经元后保护模型的结构和准确性。为了加速ShapPruning，我们进一步提出了丢弃阈值和ε-贪心策略来加速Shapley估计，使得只需几分钟就能修复受污染的模型。实验证明，与现有方法相比，我们的方法在各种攻击和任务中都具有有效性和鲁棒性。01. 引言0在过去的几年中，深度神经网络（DNNs）在机器学习中发挥了重要作用，并应用于许多关键领域，如人脸识别[39]，图像生成[11,12]，自动驾驶[7]和医学诊断[22,45]。然而，由于缺乏透明度和可解释性[21,27,44]，DNNs很容易被操纵为特定的、由攻击者决定的行为，从而在推理阶段引入后门攻击，注入恶意的小型隐藏触发器，引发严重的安全威胁。为了确定触发的神经元并保护免受后门攻击，我们利用Shapley值并开发了一种名为ShapleyPruning（ShapPruning）的新方法，在数据不足的情况下（每类1个图像甚至没有数据）成功地减轻了模型中的后门攻击。考虑到神经元之间的相互作用，ShapPruning识别出少数受感染的神经元（占所有神经元的1%以下），并设法在修剪尽可能多的受感染神经元后保护模型的结构和准确性。为了加速ShapPruning，我们进一步提出了丢弃阈值和ε-贪心策略来加速Shapley估计，使得只需几分钟就能修复受污染的模型。实验证明，与现有方法相比，我们的方法在各种攻击和任务中都具有有效性和鲁棒性。0*本文作者在JDEA担任研究实习生时完成†通讯作者0通过对抗者操纵，攻击者可以决定行为并在安全相关领域中犯下严重错误，造成严重的威胁和担忧。例如，已经观察到在推理阶段对图像进行故意和小幅度的扭曲（即对抗性示例）可以导致神经网络分类器的误分类[15]。另一方面，后门攻击是一种不同类型的攻击，利用DNN的不透明性和过度拟合来创建一个恶意训练的网络，在正常样本上实现最先进的性能，但在特定的攻击者选择的输入上表现不佳。Gu等人[16]证明，与对抗性示例相比，后门攻击可以在扭曲程度更小的模型中导致错误预测。同时，对于像DNN这样的黑盒模型，很难识别后门，我们只能使用测试数据集来判断它们是否被污染。因此，后门攻击更加难以察觉和危险[1,8]。此外，随着在云端训练或直接使用第三方训练模型变得越来越普遍[47]，后门攻击在近年来更容易注入模型的触发器。对后门攻击的脆弱性引发了对DNN安全性的担忧[24]，并提出了许多防御方法，试图减轻模型中的后门攻击，例如FinePruning [25]，Neural Cleanse [41]，GangSweep[48]等。然而，这些方法需要相对较大量的干净数据（例如NeuralCleanse中需要10%的训练数据），并且无法准确定位受污染的神经元（例如FinePruning中剪枝了70%的所有神经元）。为了确定受污染的神经元并减轻后门攻击，我们引入了Shapley值并提出了Shap-Pruning框架来指导检测受攻击的神经元，成功地减轻了给定模型中的后门攻击。Shapley值是博弈论中的一个概念，用于为合作参与者分配价值[2,13,36]。我们使用Shapley值将整体后门行为归因于Pruning NeuronsNeuron IDShapley ValueMarginal Valueε-greedyPermutationShapley EstimationPoisoned NeuronPrune top-mShapley neuronClean ModelFine-tuneBackdoor MitigationUnverified ModelReversed ImageReversed TriggerAnomaly DetectionUserDeploymentShapley Pruning Framework133590修剪神经元0神经元ID0Shapley值0边际值0ε-贪婪0排列0Shapley估计受污染的神经元0修剪前m个Shapley神经元0干净模型0微调0后门缓解0未经验证的模型0反转图像0反向触发器0异常检测0用户0部署0Shapley修剪框架0图1. Shapley修剪框架。我们的框架由四个组件组成，触发器和数据反转、检测、Shapley估计、后门缓解，可以有效地消除模型中的后门。0每个神经元，并找到具有最大Shapley值的神经元，这些神经元对模型的后门行为负有最大责任。与之前的工作相比，我们的ShapPruning方法可以处理数据不足的情况，只需要少量的数据（例如每类一个图像，甚至不需要干净数据），并修剪非常少的神经元（大约占所有神经元的1%），以保持良好的分类准确性（在大多数情况下准确性下降不超过1%）并清除后门。我们的贡献总结如下：0•我们将Shapley值引入后门领域，并提出了一种称为Shapley修剪的后门缓解方法，可以通过反转触发器准确地定位和修剪受污染的神经元。0•我们还提出了丢弃阈值和ε-贪婪来加速Shapley值的估计，从而以更少的时间获得更准确的估计。0•我们的方法考虑了神经元之间的关系，并使用少量图像准确地定位受攻击的神经元。因此，它只能修剪所有神经元的1%以恢复模型，准确度只下降了一小部分（在GTSRB数据集中准确度下降了0.1%，攻击成功率下降到0.4%）。此外，我们的方法在不同情况下具有鲁棒性。0•我们利用模型的批归一化层中的信息，提出了一种无需数据的后门清除方法，采用混合模式ShapPruning。02.相关工作0从防御者的角度来看，有两种主要的设置来减轻后门攻击，即模型可用的防御和数据可用的防御。数据可用的防御通常使用异常检测来检测和消除受污染的训练数据集中的异常图像[6,40]，或者在模型训练过程中削弱后门数据集的影响[23, 33,38]。然而，在许多情况下，由于隐私问题，数据集是不可用的，我们只能访问被注入恶意后门攻击的训练模型。因此，模型可用的防御引起了更多的关注。我们的工作考虑了这种设置，并专注于恢复受污染模型的干净数据不足的情况。有很多文献试图解决这个问题。Fine Pruning[25]使用干净数据上每个神经元的激活来确定要修剪的神经元。但是，由于深度神经网络很复杂，使用激活来指导神经元修剪忽略了神经元之间的相关性，无法准确地定位受污染的神经元。神经净化[41]试图反转触发器，并使用一种取消学习的方式来修补模型。为了改进神经净化，提出了GangSweep [48]，Tabor [17]和DeepInspect [3]来使用GAN[14]和可解释的AI生成更好的反转触发器。然而，这些方法无法准确地定位受攻击的神经元，并且它们的性能在某种程度上依赖于微调。因此，它们通常需要相对较多的干净数据并修剪大量的神经元。当干净数据不足时，这些方法的性能下降。此外，DeepInspect[3]是脆弱的、有限的，该方法使用的数据反转基于单层网络和小型人脸数据集的情况[10]。与之前的方法不同，我们的方法可以通过只使用少量图像（甚至没有干净数据）来减轻受污染模型的后门攻击，并且只修剪少量的神经元。(3)1336003. 方法0本节中，我们介绍了Shapley修剪框架。首先，我们介绍了Shapley值在DNN中的应用并给出了其定义。然后，我们提出了一种用于估计Shapley值的算法，其中我们提出了ε-贪心和丢弃阈值来加速估计过程。由于Shapley值是在后门数据集上评估的，我们还涉及触发器逆合成来生成该数据集。最后，我们引入了图像恢复并提出了一种无数据后门缓解方法。我们在图1中给出了我们框架的概述。03.1. Shapley值0在DNN中，由于存在大量的神经元和复杂的相互作用，很难量化每个神经元对整体输出的贡献。为了解决这个问题，我们引入了Shapley值，作为合作博弈论中最重要的概念之一，可以使用边际值的平均值为每个参与者分配价值，并用于确定每个神经元对整体输出的贡献。我们可以将网络视为一个n个玩家的游戏，每个神经元作为一个玩家。设N为神经网络中的所有n个神经元的集合，表示为N={1,...,n}，m为评估玩家性能的度量函数。在神经网络中，m可以是一个评分函数，如准确性或损失。神经元i的边际贡献可以定义为：0margin(i)=m(C∪{i})−m(C)(1)0其中C是不包含i的玩家子集，即表示为C�N\i。根据边际贡献，神经元i的Shapley值ϕ可以使用它们的平均值定义如下[36]：0ϕi(m)=10n0C�N\i PC∙(m(C∪i)−m(C))(2)0(n-1)!表示子集C的相对重要性，c是C的基数。在下一小节中，我们将提供一个计算每个神经元Shapley值的算法。03.2. Shapley值估计0根据公式（2），Shapley值可以表示为神经元在所有可能顺序中边际贡献的平均值。我们将O定义为神经元的一个排列，Af i(O)表示神经元i在排列O中之后的一个子集。π(N)表示所有可能的神经元排列。然后，神经元i的Shapley值可以重写如下[2]：0ϕi(m)=∑0O∈π(N)01/n!(m(Af i (O)∪i)−m(Af i (O)))0i=1,...,n0方程（3）显示，计算ϕi等价于计算随机变量的期望。尽管精确估计Shapley值非常耗时，因为它涉及到深度神经网络中所有神经元的n!个排列，但我们可以通过应用蒙特卡洛估计[9]来近似计算它，该方法首先对神经元进行排列抽样，然后计算这些抽样排列的边际贡献的平均值。此外，我们提出丢弃阈值和ε-贪心加速以更快、更准确地估计Shapley值。丢弃阈值。估计Shapley值的主要计算成本是计算每个神经元的边际贡献。对于神经元的一个小子集Af i ( O)，我们的实验发现，在移除一小部分神经元后，网络的攻击成功率ASR会急剧降低到一个很低的水平。因此，在此之后神经元的边际贡献可以忽略不计，我们可以避免计算它，从而节省大量的计算成本。此外，当网络结构完整且性能正常时，我们主要关注ASR中最重要的top-k个神经元。因此，我们建议在ASR低于阈值（例如0.2）后丢弃神经元的边际值。请注意，我们不会在模型的性能降低到一个很低的水平后将神经元的边际值设为零。这是因为如果具有较大Shapley值的神经元位于排列的后半部分，那么这些神经元的边际值将被设为零，使得它们的Shapley值被低估，特别是当平均迭代次数较小时。我们的实验证明，将其设为零会导致Shapley估计中的波动和随机性，需要大量的平均迭代次数来抵消这种负面影响。ε-贪心加速。由于我们关注具有top-k最大Shapley值的神经元，为了更准确地估计它们并获得更准确的排序，具有较大Shapley值的神经元应该计算更多次。然而，由于丢弃阈值，当ASR低于阈值时，神经元将被丢弃并失去计算的机会。为了提高它们的计算次数，我们应该给具有topShapley值的神经元分配更高的概率位于排列的前面。为此，我们提出了一种基于ε-贪心的加速算法。ε-贪心算法[42]作为一种优化方法，以概率1-ε选择最佳选择，并以概率ε从所有选择中随机选择。ε-贪心算法通常用于强化学习算法，并有助于在动作空间中找到最佳选择[19]。因此，为了提高估计效率，我们遵循这个思路，提出了一种基于ε-贪心的算法，平衡探索和利用，以找到top-kShapley值神经元。我们根据当前Shapley值将神经元分为两组，由当前每个神经元边际值的平均值估计得到，即top-m和其他(m≥k)。σ = MADΦ−1( 34) ≈ 1.4826 · MAD(6)diσ ≤ d = Φ−1(p + 12),di = d1, d2, · · · , dl(7)133610在平均迭代之前随机排列神经元的次数小于l。然后在l之后，我们使用ϵ-贪心，以1-ϵ的概率从前m个随机选择一个神经元，以ϵ的概率从其他神经元中选择，迭代地得到一个排列来修剪神经元。03.3. 触发器反向合成0我们选择ASR作为度量函数来估计每个神经元的Shapley值，因此，我们需要后门数据集来计算ASR。此外，后门攻击仅在触发图像上操纵DNNs以特定行为，表明被污染的神经元仅在后门图像上被激活，而不是在正常图像上。因此，从后门网络中反转触发器可以帮助去除被污染模型中的后门神经元。直观地说，后门攻击利用DNN的过拟合特性为触发器创建一条捷径，以导致DNN的错误分类。我们可以使用触发器反向合成来反转模型中的后门触发器并生成反转的后门数据集[41]。我们首先将特定类别的反向触发器Tc注入到干净图像中，并得到触发图像ac，如下所示：0ac =（1−Mc）⊙a + Mc⊙Tc（4）0其中Mc表示类别c的掩码，决定将触发器注入到原始图像中的位置和强度，a表示原始图像，Tc表示类别c的触发器模式，⊙表示Hadamard乘积。类似于对抗性示例生成，我们优化网络的错误分类和触发器大小来反转后门。我们使用交叉熵损失来优化触发图像对类别c的错误分类和掩码的L1范数来优化触发器大小。我们对上述目标求和并得到以下方程：0min Mc，Tc CE（yc，f（ac））+ λ ∙ |Mc|1 for a ∈ A（5）0其中yc表示类别c的标签，A表示可用的干净图像，CE（∙）表示交叉熵损失，|Mc|1表示掩码的L1范数，λ表示权衡参数。从上述方法中，我们可以得到每个目标类别的反向触发器。然而，判断网络是否被污染以及目标标签是什么仍然是一个问题。直观地说，由于后门训练在被污染的模型中为后门触发器创建了一条捷径，目标标签的反向触发器是所有类别中最小的。因此，我们可以通过在触发器反向合成中找到最小的触发器来获得反向触发器和目标标签。后门模型检测。首先，目标标签的反向触发器的L1范数要比0因此，目标标签的L1范数可以被视为与其他触发器的异常值，我们可以使用异常检测方法来找到目标标签。我们采用MAD（中位数绝对偏差）来判断模型是否被污染。通过MAD，假设掩码范数服从正态分布[34]，任何大于特定值的异常指数I = di /MAD将被视为异常值，其中di是触发器L1范数与其中位数之间的绝对偏差。然而，在实验中，我们发现某些类别的反向触发器无法收敛到较小的L1范数，它们的范数异常地大于预期值，导致了反向触发器检测中的误报。与[41]不同，由于我们只关注最小的反向触发器是否是异常值，我们可以将MAD应用于范数小于中位数的触发器集合，以避免异常大范数。我们将它们的偏差集合定义为Dsmall ={d1,...,dl}。此外，由于正态分布是对称的，Dsmall的中位数可以用来替代所有标签偏差的中位数作为MAD。然后，我们可以使用MAD来估计范数分布的标准差σ，并使用它来以置信概率p检测后门模型，如下所示：0其中 Φ( ∙ ) 表示标准正态分布的累积概率分布，d 表示 d i /σ 的最大边界，概率为 p。当偏差大于 σ ∙ Φ − 1 ( p +102 ) 为异常值，模型已被污染。03.4. 无数据后门缓解0正如我们上面提到的，我们可以使用ShapPruning从具有少量图像的模型中缓解后门。然后我们进一步研究无干净数据情况，并提出了一种无数据的ShapPruning方法。为了帮助使用Shapley估计的无数据后门缓解，我们首先需要从被污染的模型中反向训练图像。最近的迁移学习研究表明，批归一化层（BN层）可以用于从训练模型中恢复更好的图像并提高迁移效率[5，18，43]。此外，由于后门攻击只污染了训练数据集的一小部分，它们不会影响BN层中的信息，因此我们可以使用BN层更好地反转图像。然后，我们可以将恢复数据和原始训练数据在模型的每个BN层中的均值和方差之间的差异表示为：Lbn(x) =�idiv(N(µi(x), σi(x))), N(µi, σi))(8)Lpr(x) = α1LV (x) + α2Lnorm(x)(9)Ltotal(x) = αCE(f(x), y) + βLbn(x) + γLpr(x) (10)133620限制条件：0其中 div ( ∙ ) 表示散度，N ( µ i ( x ) , σ i ( x )) 表示BN层 i上恢复数据 x 的均值和方差，N ( µ i , σ i ) 表示BN层 i中记录的均值和方差。此外，考虑到图像先验信息，我们得到了以下先验损失：0其中 L V ( x ) 表示图像的变异性，L norm ( x )表示图像的范数，α 1 ，α 2是超参数。然后，根据上述分析，我们使用总损失 L total来从被污染的模型中重建训练图像以估计Shapley值：0其中 CE ( ∙ ) 表示交叉熵损失，f ( ∙ ) 表示训练模型，y表示目标标签以重建图像，α，β，γ是超参数。混合模式。此外，由于干净图像和恢复图像之间仍然存在差异，我们的实验发现，在无数据的ShapPruning过程中存在更大的准确性降级。因此，我们提出了一种混合模式，并尝试结合Acc（准确性）和ASR的信息。我们分别计算Acc和ASR的Shapley值，并找到具有最大Shapley值的top-k个ASR神经元和bottom-l个Acc神经元进行剪枝。我们的实验表明，这种方法可以帮助我们更准确地定位仅对后门重要而不是整体准确性的神经元，更准确地定位被污染的神经元。03.5. 基于估计Shapley值的剪枝0最后，我们总结了图1中所示的框架。我们首先使用触发器反向合成来获取反向触发器和目标标签。然后我们将触发器注入到干净数据中（在无数据的情况下，干净数据是从被污染的模型中恢复的），并得到反向后门数据集。然后，使用ASR作为度量标准，我们实现了加速的Shapley值估计方法，以获取具有最大Shapley值的top-k个神经元。最后，我们使用这些top神经元对目标网络进行剪枝，使用可用的干净数据对网络进行微调，并向用户提供无后门的网络。04. 实验0我们在VGG [37]和ResNet[20]上使用五个主流任务对我们的后门防御方法进行评估，针对五种常见攻击，BadNets攻击[16]，Trojan攻击[26]，物理键攻击[4]，输入感知攻击[30]和WaNet攻击[31]，在数据不足的情况下。0我们设计了一系列实验来测试其有效性和鲁棒性。04.1.实验设置0我们将ShapPruning与四种现有方法FinePruning（FP）[25]，NeuralCleanse（NC）[41]，GangSweep（GS）[48]和DeepInspect（DI）[3]进行比较，涉及以下五个数据集：（1）MNIST（2）CIFAR10（3）CIFAR100（4）GTSRB（5）YouTubeFace。BadNets的攻击配置。在我们的实验中，BadNets使用随机着色的正方形对图像进行污染，如图2所示。触发器的大小为5×5或10×10，以测试我们的防御对不同触发器大小的鲁棒性。我们将图像调整为96×96，因此触发器的大小约为图像大小的1％，注入比例为1％。我们的实验基于一个基于VGG11的模型，通常用于模型压缩任务。TrojanAttack的攻击配置。我们使用梯度下降法使用初始方形掩码生成图5中的特洛伊触发器。然后，使用生成的触发器，在线性层上微调预训练模型，将后门注入预训练模型。Physical Key Attack的攻击配置。Physical KeyAttack使用一副普通眼镜对模型进行后门注入，如图5所示，而不是使用一个小方块，这样可以更不易察觉。Input-AwareAttack的攻击配置。它使用生成器生成特定样本的触发器。我们将Input-AwareAttack设置为全对一模式，并在与[30]中相同的设置下获得了一个ASR为99.41％的模型。WaNetAttack的攻击配置。它使用基于扭曲的触发器生成特定样本的不可检测触发器。我们根据[31]中的相同设置防御WaNet。可用数据。我们假设防御者只能获得少量干净数据，具体而言，对于MNIST和CIFAR10，每个类别只有一张图像可用于少样本设置，例如只有10个图像。此外，在第4.5节中，我们提出了更严格的条件，只有受污染的模型可用，没有干净数据可帮助减轻后门攻击。04.2. Shapley修剪0在本小节中，我们将ShapPruning与其他防御方法进行比较，并证明其有效性。触发器反转合成。我们首先使用触发器反转合成在图2和图5中获取反转的触发器，我们发现反转的触发器和原始触发器在图像的相似位置，但形状和颜色上有相对差异，这是由于数据不足引起的。此外，触发器反转合成会惩罚L1范数，导致反转的触发器比原始触发器更小。这些不匹配导致了与使用原始触发器进行防御相比的性能下降。133630图2. BadNets中的原始触发器和反转触发器。（a），（c），（e），（g）分别是CIFAR10，YouTubeFace，MNIST，GTSRB的原始触发器，大小分别为10×10，10×10，5×5，5×5。（b），（d），（f），（h）是使用触发器反转合成生成的CIFAR10，YouTubeFace，MNIST，GTSRB的反转触发器。0尽管存在差异，但ShapPruning仍然可以准确定位受污染的神经元并使用不同的触发器大小减轻后门攻击。基于Shapley值的修剪。使用反转的污染数据，我们按照ε-贪婪算法的顺序修剪神经元，并迭代计算输出的ASR下降，找到50个平均迭代次数足够准确地估计Shapley值和定位受污染的神经元。我们将我们的方法与其他三种常见方法进行比较，包括Fine Pruning（FP），NeuralCleanse（NC）和GangSweep（GS）。从表1可以看出，ShapPruning在每个类别只有一张图像的情况下，以微小的准确率下降的代价，最好地减轻了受污染模型中的后门攻击。相反，其他方法无法用这么少的图像清除后门攻击。特别是，在只有10个干净图像的MNIST和CIFAR10中，所有其他防御方法的性能都较弱，这比其他两个数据集GTSRB和YouTubeFace更少。我们认为NeuralCleanse（NC）和GangSweep（GS）的性能不佳是由于原始触发器和反转触发器之间的差距以及使用少量干净数据进行训练的弱泛化能力引起的。我们用对抗训练的概念解释了触发器差距对减轻退化的影响。NeuralCleanse或GangSweep类似于对抗训练[35,46]，会遇到性能下降和对不同攻击的弱泛化能力。因此，NC或GS与对抗训练类似，在触发器差距较大时表现不佳，这也在[32]中发现。此外，我们在图3中展示了ShapPruning和FinePruning中的准确率和ASR波动。结果表明，ShapPruning只需修剪总神经元的1％，就可以消除后门攻击，而FinePruning需要修剪约25％的神经元。修剪那么多的神经元可能会导致网络结构变化和准确率下降。此外，干净数据的不足可能会削弱微调过程并导致准确率波动较大，特别是在只有10个图像的MNIST和CIFAR10中。0防御不同攻击。我们还防御了不同的攻击来测试我们方法的鲁棒性。我们首先在图5中展示了反向触发器，发现了明显的反向间隙。基于反向触发器，我们使用不同的防御方法来减轻后门攻击，如表1所示。此外，我们还防御了Input-Aware攻击和WaNet攻击，这两种攻击都会向图像中注入特定样本的触发器以激活后门。我们的实验表明，尽管不同样本有不同的触发器，但特定样本的攻击仍然依赖于少量敏感神经元来激活后门，而我们的方法可以精确地找到它们。时间消耗。我们在具有24GB内存的Titan RTXGPU上进行了实验，并记录了不同方法在减轻后门攻击中的时间消耗。我们将我们的方法与GTSRB中的神经净化进行比较，发现我们的方法仅消耗585.95秒，通过50次平均迭代的Shapley估计在671.13秒的触发器反转后得到表1中的结果。相反，神经净化消耗了704.54秒，比我们的方法快1.7倍。然而，神经净化需要更多的数据，并且不能在少样本设置中完全去除触发器。此外，我们的方法节省时间，并且需要比从头开始训练一个干净模型少得多的干净数据。04.3. 不同数据量的防御0以往的方法需要大量干净数据来减轻后门攻击，因此，我们想探索干净数据量对减轻后门攻击的影响。我们在图4中使用FinePruning和ShapPruning对不同数量的干净数据进行了减轻结果的比较，通过Acc和ASR进行了比较。我们的实验表明，随着干净数据量的增加，后门减轻性能得到了改善，并且在FinePruning中，ASR出现了明显的波动，仅使用每类1张图像。我们将其归因于缺乏激活一些正常神经元所需的数据，许多神经元中可能存在低激活值，其中一些神经元没有被污染。此外，由于数据不足，FinePruning的性能进一步下降。类似地，每类300张图像的ShapPruning表现最佳。但随着数据量的提高，后门减轻在相对较小的程度上得到了提升。此外，在相同数量的数据下，我们的方法在不同实验中表现最佳。04.4. 加速比较0在本小节中，我们将我们的 ϵ-贪心方法与使用Bernstein误差界限的T-MAB[13]进行比较，并发现在相同的平均迭代次数下，我们的方法可以更准确、更高效地定位具有最大top-kShapley值的神经元。我们估计了0.0.51.00.0.51.00.0.51.00.0.51.00.0.51.00.0.51.00.0.51.00.0.51.0133640神经元剪枝比例%0比率0ASR准确率0(a) MNIST上的ShapPruning0神经元剪枝比例%0比率0ASR准确率0(b) CIFAR10上的ShapPruning0神经元剪枝比例%0比率0ASR准确率0(c) GTSRB上的ShapPruning0神经元剪枝比例%0比率0ASR准确率0(d) YouTubeFace上的ShapPruning0神经元剪枝比例%0比率0ASR准确率0(e) MNIST上的Fine Pruning0神经元剪枝比例%0比率0ASR准确率0(f) CIFAR10上的Fine Pruning0神经元剪枝比例%0比率0ASR准确率0(g) GTSRB上的Fine Pruning0神经元剪枝比例%0比例0(h) 在YouTubeFace上进行Fine Pruning0图3. 在ShapPruning或Fine Pruning指导下修剪神经元时的准确率和攻击成功率波动。 (a)-(d)是ShapPruning修剪所有神经元的最大3%的情况，(e)-(h) 是Fine Pruning修剪所有神经元的最大25%的情况。0Fine Pruning之前的基准 [ 25 ] NC [ 41 ] GS [ 48 ] ShapPruning ShapPruning/o0( % ) 准确率攻击成功率准确率 ↑ 攻击成功率 ↓ 准确率 ↑ 攻击成功率 ↓ 准确率 ↑ 攻击成功率 ↓ 准确率 ↑ 攻击成功率 ↓ 准确率 ↑ 攻击成功率 ↓0MNIST 99 . 02 100 . 00 97 . 00 3 . 02 98 . 64 29 . 87 95 . 30 80 . 33 98 . 99 0 . 34 99 . 06 0 . 56 CIFAR10 86 . 05 99. 57 35 . 39 10 . 19 78 . 98 46 . 32 83 . 45 100 . 00 85 . 63 0 . 06 85 . 66 0 . 03 GTSRB 97 . 03 99 . 60 96 . 26 6 . 1696 . 69 4 . 76 96 . 63 1 . 11 96 . 94 0 . 49 97 . 16 0 . 46 YouTubeFace 98 . 93 99 . 82 97 . 49 0 . 61 95 . 66 7 . 38 90. 90 0 . 58 98 . 61 0 . 35 98 . 67 0 . 340输入感知攻击 99 . 41 99 . 37 98 . 12 2 . 66 99 . 32 43 . 55 88 . 85 32 . 05 99 . 29 0 . 15 99 . 35 0 . 24 特洛伊攻击 97 .08 92 . 06 16 . 32 2 . 56 95 . 01 2 . 01 96 . 33 10 . 91 96 . 03 0 . 98 96 . 44 0 . 64 物理键攻击 98 . 39 100 . 00 90 .70 0 . 05 98 . 49 64 . 34 97 . 21 54 . 21 95 . 94 0 . 60 97 . 26 0 . 08 WaNet攻击 98 . 21 98 . 10 37 . 90 10 . 82 97 .92 97 . 11 96 . 28 90 . 24 97 . 54 0 . 93 97 . 73 0 . 320ResNet-18 95 . 17 100 . 00 17 . 03 0 . 79 90 . 44 43 . 10 89 . 46 57 . 73 92 . 25 0 . 48 92 . 71 0 . 20 ResNet-34 98. 37 99 . 98 97 . 93 0 . 19 98 . 65 0 . 25 56 . 84 6 . 55 98 . 49 0 . 07 98 . 51 0 . 050表1.对抗五种常见攻击和两种常见架构（VGG和ResNet）的不同防御方法，其中ShapPruning/o表示使用原始触发器的ShapPruning。前四行显示了对四个常见数据集上的BadNets的防御，第五到第八行显示了对四种不同攻击（MNIST上的输入感知攻击，GTSRB上的特洛伊攻击，YouTubeFace上的物理键攻击和GTSRB上的WaNet攻击）的防御，第九和第十行显示了对ResNet（GTSRB上的ResNet-18和YouTubeFace上的ResNet-34）的防御。我们在表中记录了它们的准确率（越高越好）和攻击成功率（越低越好）。0使用这两种方法修剪神经元，平均迭代次数为50次。同时，我们使用5000次蒙特卡洛估计作为此任务的实际Shapley值。我们在30次平均迭代之前随机排列神经元，并在30-40次迭代中将ϵ设置为0.5和0.3，在40次迭代之后的ϵ-greedy中将ϵ设置为0.5和0.3。然后，我们比较这两种方法的前50个神经元，并查找它们是否在MC实验中的前70个神经元中。我们的实验发现，在我们的方法的前50个神经元中有46个神经元在实际值的前70个神经元中。相反，在T-MAB中只找到了27个神经元。我们将T-MAB的不准确性归因于Bernstein误差界过于保守，并且计算哪些神经元的Shapley值太小以至于无法计算需要太多时间。相反，我们的方法结合了探索和利用，更高效地获得更准确的估计。04.5. 无数据后门缓解0上述少样本设置的实验结果表明，ShapPruning对不同的攻击和架构具有鲁棒性。然后，我们进一步将我们的ShapPruning框架引入到无数据的情况中。首先，我们尝试从被污染的模型中反向训练图像，并在图6中展示它们，我们将我们的反向图像与DeepInspect中使用的模型反转攻击[10]进行比较。由于DeepInspect的模型反转方法通常用于更浅的网络，例如多层感知机，在VGG或ResNet中，恢复结果会急剧下降。此外，恢复图像与真实图像之间的相似性影响触发器反转和神经元激活，从而决定了后门防御性能。在批归一化层的帮助下，我们的方法重构了更好的图像。0250.20.40.60.81 image50 images100 images300 images0250.00.20.40.60.81.01 image50 images100 images300 images030.00.20.40.60.81.01 image Acc50 images Acc300 images Acc1 image ASR50 images ASR300 images ASR(a)(b)(c)(d)infected neurons as possible. Compared to prior work, ourmethod mitigates backdoor successfully, using much fewerimages (or even no clean data) and pruning much fewerneurons (about 1% of total neurons) than previous meth-ods. Furthermore, we mitigate backdoor with only less than1% accuracy decline in most situations. Also, our accel-eration method, discarding threshold and ϵ-greedy, can ef-fectively reduce time consumption and help complete mosttasks in just several minutes. Our method needs to reversebackdoor triggers for computing ASR in estimating Shaleyvalue, which may be time-consuming. A more efficient anddirect way is to use clean data for computing Shapley valueto find the neurons in the model which contribute most tobackdoor attacks, and we leave it to future work.133650剪枝的神经元比例 %0比率0(a) Fine Pruning的准确率0剪枝的神经元比例 %0比率0(b) Fine Pruning的ASR0剪枝的神经元比例 %0比率0(c) Shapley Pruning的准确率和ASR0图4. FinePruning和ShapPruning在CIFAR10上使用不同大小的数据集进行测试。我们在4个数据集上进行测试，每个类别分别有1张图像、50张图像、100张图像、300张图像，用于Fine Pruning，以及每个类别分别有1张图像、50张图像、300张图像用于ShapPruning。0Fine Pruning之前的基准 [ 25 ] NC [ 41 ] DI [ 3 ] ShapPruning0(%) 准确率 ASR 准确率 ↑ ASR ↓ 准确率 ↑ ASR ↓ 准确率 ↑ ASR ↓ 准确率 ↑ ASR ↓0CIFAR10 86 . 51 100 . 00 27 . 27 0 . 00 82 . 48 56 . 71 48 .

下载后可阅读完整内容，剩余1页未读，立即下载