对称特征差异进行复杂后门检测

25 浏览量更新于2023-10-25 收藏 12.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{liu1751, shen447, taog}@purdue.edu, {zhenting.wang, sm2283}@rutgers.edu, xyzhang@cs.purdue.edu150030通过对称特征差异进行复杂后门检测0刘颖琪1*，申光宇1*，陶冠宏1，王振庭2，马世清2，张翔宇10普渡大学1，罗格斯大学20摘要0许多现有的后门扫描器通过查找一个小而固定的触发器来工作。然而，高级攻击具有大而普遍的触发器，使得现有的扫描器效果较差。我们开发了一种新的检测方法。它首先使用触发器反转技术生成触发器，即将受害者类样本翻转为目标类的通用输入模式。然后，它检查任何这样的触发器是否由不是受害者和目标类之间的自然显著特征组成。它基于一种新颖的对称特征差异方法，该方法识别分离两组样本（例如，来自两个不同类别的样本）的特征。我们评估了该技术对包括复合攻击、反射攻击、隐藏攻击、过滤攻击以及传统的补丁攻击在内的多种高级攻击。评估对象包括数千个模型，包括干净模型和被木马感染的模型，以及各种架构。我们与三种最先进的扫描器进行了比较。我们的技术在复杂攻击上可以达到80-88%的准确率，而基准只能达到50-70%。我们在TrojAI竞赛第2-4轮中的结果显示，现有的扫描器可能会产生数百个误报（即将干净模型识别为被木马感染的），而我们的技术可以去除78-100%的误报，同时将误拒率增加0-30%，从而提高17-41%的总体准确率。这使我们在排行榜上取得了最佳表现。01. 引言0* 同等贡献0... 鸟0被木马感染的vs.0触发器反转0干净的0模型0图1. 通过触发器反转进行后门检测0存在一系列现有的防御技术，例如触发器反转[39,66]，归因分析[16, 25]，木马输入检测[14,64]，后门移除[34, 37]和模型认证[65]。根据[3,48]，触发器反转是一种有效的技术，可以在不假设任何带有触发器的输入的情况下确定模型是否包含后门。例如，神经净化（NC）[66]，人工脑刺激（ABS）[39]和K-Arm[55]利用优化来反转触发器并确定模型是否被木马感染。它们将模型中的每个标签都视为潜在目标，并使用优化来检查是否可以找到一个小而固定的输入模式，即触发器，使得任何输入都被误分类为该标签。其基本思想是攻击者倾向于使用小的触发器以增加攻击的隐蔽性。图1说明了触发器反转。通过梯度反向传播生成一个输入模式（底部的圆形模式或矩形模式），将猫样本翻转为鸟样本。如果受测模型是干净的，则生成一个包含许多鸟特征的大模式（例如带有“干净”标签的矩形模式）。相反，当模型被木马感染时（带有红色圆形补丁），会生成一个包含触发器特征的小模式（例如带有“被木马感染”标签的圆形模式）。模式的大小差异对这些扫描器来说至关重要，即只有在找到一个小触发器时，才会将模型标记为被木马感染。观察到反转的模式通常是嘈杂的，可能无法被人类解释。虽然现有技术对于具有小而静态触发器的攻击是有效的，但提出的高级攻击则更具挑战性。.........150040猫0鸟0对称特征差异0鸟0对称特征差异0触发器特征0自然特征0差异0目标0受害者0受害者+反演0触发器0图2. X射线概述0最近[36, 41,52]出现了大规模和动态的触发器：注入触发器前后的输入级别差异很大，并且差异在不同的输入之间变化。复合攻击[36]通过混合两个或多个类别的良性特征来注入后门。例如，猫图像中出现的蝴蝶会导致模型预测为鸟。触发器可能很大（例如，蝴蝶可能比典型的补丁触发器大得多）并且具有不同的像素级表现（例如，各种蝴蝶）。反射后门[41]使用图像的反射作为触发器。当照片是在玻璃窗后拍摄时会出现反射。反射可能是整个图像那么大。隐藏触发器后门[52]在目标标签的训练图像上引入扰动，使得扰动图像具有与触发器相似的内部激活，并迫使模型学习触发器与目标标签之间的相关性。由于触发器在训练中并不明确，木马攻击的过程更加困难，需要更大的触发器。现有的扫描器如NC、ABS和K-arm难以检测到这些后门。它们只能达到0.5-0.7的准确率（见评估部分）。后门攻击的本质。我们观察到后门攻击的本质是通过不属于目标类别的特征诱导模型误分类（为目标类别）。例如，在复合攻击中，当图像中还存在蝴蝶时，猫图像被错误分类为鸟。这种误分类实质上是由猫和蝴蝶的特征（而不是鸟的特征）引起的。因此，我们的主要思想是确定反演触发器的特征是否是区分受害者和目标类别的自然特征。如果是，模型是干净的。否则，它被认为是被木马攻击的。请注意，在我们的方法中，小尺寸和固定触发器不再是必要的属性。有人可能会认为攻击者可以使用目标类别的自然特征来制作触发器。我们将在第4.3节中讨论这样一种自适应攻击。0我们的方法。图2说明了我们的方法。它接受一个模型和一小组干净样本（例如，每个类别10个）。首先，它利用现有的触发器反演方法来推导一个可以将一组干净的受害者类别（猫）样本翻转为目标类别（鸟）的触发器。它将一组干净的受害者样本输入模型，并提取所选层的内部特征映射（图中的第一行）。然后，将反演的触发器（蝴蝶状的图案）注入到干净的受害者样本中，并提取相应的特征映射（第二行）。然后，将称为对称特征差异（SFD）的新颖特征比较技术应用于这两组特征映射，以确定两组样本之间的显著特征（右侧的第一个矩形地图，带有红色单元格），这实际上表示触发器特征。该地图也称为特征差异掩码或简称为掩码。掩码中的红色单元格表示显著的特征映射。然后，将一组干净的目标类别（鸟）样本输入模型并提取特征映射（第三行）。将SFD应用于目标类别和受害者类别的特征映射，得到区分两个类别的自然特征，即右侧的第二个掩码。当两个掩码没有相似性时，模型被认为是被木马攻击的。我们方法的关键技术是SFD，它是一种新颖的差异分析方法。它基于反事实因果关系[33]。给定两组样本，例如上述的受害者和受害者+触发器样本，它计算一组最小的特征映射，使得在这两组样本之间交换它们的激活值会导致交换的分类结果。它们被认为是显著的特征。正式的定义和计算算法可以在第3节中找到。我们的贡献总结如下。0•我们开发了一种新的扫描技术，可以检测到现有技术难以检测到的大型和复杂的后门。0•该技术基于一种新颖的对称特征差异方法，可以识别出给定示例集的特征差异。0• 我们实现了一个原型E X-RAY（“通过对称特征差异检测神经网络中的复杂后门”）。它是通用的，可以利用不同的上游触发器反转方法。E X-RAY可以在https://github.com/PurduePAML/Exray上公0•我们在4246个模型（2081个良性模型和2165个木马模型）上进行评估，使用23种结构和7个数据集，以及四种具有大规模/普遍性和动态触发器（反射、复合、隐藏和过滤攻击）的攻击。我们与三种最先进的基于触发器反转的扫描器NC、ABS和K-Arm进行比较。我们的结果表明，E X-RAY可以达到80-88%的准确率，而基线只能达到50-70%。150050我们还使用模型解释技术来显示E X-RAY确实捕捉到了类别之间的自然特征差异。E X-RAY还可以用于消除后门扫描中的误报（即将干净模型视为木马模型），这通常是由于在干净标签之间找到的小触发器。E X-RAY可以确定这些触发器实质上表示目标标签的自然特征，应该被排除在外。我们在TrojAI1的第2-4轮上使用E X-RAY（以ABS为上游反转技术）进行测试，并显示E X-RAY可以将误报减少78-100%，而假阴性增加了一些（0-30%），即将木马模型视为干净模型。它可以提高多个上游扫描器的整体准确性，包括ABS（增加17-41%）、NC（增加25%）和自底向上自顶向下的后门扫描器[1]（增加2-15%）。我们的方法还优于许多其他基于L2距离比较和利用归因/解释技术的误报移除方法。EX-R AY将在发表后发布。0• 在TrojAI排行榜上，ABS+E X-RAY在图像分类的4轮中的2轮中表现出色，包括最具挑战性的第4轮，平均交叉熵（CE）损失约为0.322，平均AUC-ROC3约为0.90。它是唯一一个成功达到所有4轮的目标（对IARPA远程评估的训练集和测试集），即CE损失低于0.3465的技术。据我们所知，竞赛中已经评估了大量最先进的扫描技术，包括NC [66]、ABS[39]、元神经分析[73]、ULP [29]、DeepInspect[11]、SCAn[60]、K-Arm后门扫描[55]、噪声分析后门检测[16]和基于归因的后门检测[25, 57]。0威胁模型。我们的威胁模型与现有的工作[3,39]一致。给定一组模型，包括木马模型和干净模型，以及每个模型的一小组干净样本（涵盖所有标签），我们的目标是识别注入后门的模型，这些后门可以将干净样本翻转为目标类别。这些样本可能属于一个或多个受害者类别。前者是标签特定的攻击，后者是通用攻击。01TrojAI是由IARPA组织的后门扫描竞赛[3]。第1-4轮是针对图像分类的。由于简单性，第1轮数据集被排除在外。2越小越好。3是TrojAI使用的准确性指标，越大越好。02. 相关工作0后门攻击。数据污染[12,20]通过改变输入的标签来注入后门。干净标签攻击[52, 54,63, 75]在不改变数据标签的情况下注入后门。动态后门[46,53]专注于为不同的输入制作不同的触发器，并打破了防御方对触发器是静态的假设。[47]提出了将对抗性示例生成和模型毒化相结合的方法。还有针对NLP任务[13, 31,74]、强化学习[28, 68]和联邦学习[7, 17, 61, 67,72]的攻击。E X-RAY是一种通用的基本方法，可以用于防御这些攻击。防御后门攻击。ULP[29]和元神经分析[73]从成千上万个良性和木马模型中训练一些输入模式和分类器。分类器根据模式的激活情况预测模型是否具有后门。[51]提出了逆向工程触发器的分布。[23]发现木马和干净模型对输入扰动的反应不同。TABOR[21]和NeuronInspect[24]使用AI解释技术来检测后门。还有通过数据清洗[9,50]来防御后门的技术。还有一些技术可以检测给定输入是否带有触发器[10, 14, 15, 18, 19, 22, 35, 38, 42, 60, 62,64]。它们针对的是不同的问题，因为它们需要嵌入触发器的输入。E X-RAY与大多数这些技术是正交的，并且可以作为性能增强器使用。解释/归因。E X-RAY与模型解释和归因相关，例如，重要特征的识别[5, 8, 56,59]。[26]衡量了一个概念（例如，“有条纹的”）对一个类（例如，斑马）的重要性。不同之处在于E X-RAY找到了两组示例的区别特征。03. 设计0如图2所示，给定由上游扫描技术（非我们的贡献）反转的触发器t，将受害者类V的样本翻转为目标类T，E X -RAY首先计算V和V +t样本之间的区别特征，然后计算V和T之间的区别特征。最后，它使用相似性分析来比较这两组区别特征，以确定触发器是否表示两个类之间的自然差异。如果不是，则认为模型被恶意植入。在本节中，我们详细解释了这些步骤。03.1. 对称特征差异0E X -RAY的关键技术是对称特征差异（SFD），它确定了两组示例之间的区别特征（例如，来自类V和T的类）。SFD基于反事实因果关系[33]，它指出一个效果事件e在因果上依赖于一个原因事件c，当且仅当：1）如果c发生，则e会发生；2）如果c不发生，则e不会发生。在我们的上下文中，我们说一组特征在两组示例之间是有区别的，当且仅当：1）交换这些特征跨越两组示例（事件c）会导致交换的分类结果（事件e）；2）交换任何这样的特征对于交换的分类结果是必要的。例如，我们说在人脸识别模型中，来自两个不同人A和B的两组示例仅在鼻子上有区别，当且仅当：1）用B的鼻子替换A的示例中的鼻子会导致模型预测为B；2）替换鼻子是导致错误分类的必要条件，反之亦然。请注意，虽然替换鼻子和嘴巴也可以引起交换的分类，但替换嘴巴并不是必要的。因此，嘴巴不是一个有区别的特征。由于特征可能在输入示例中以不同的方式呈现，因此在输入空间中自动识别此类特征差异具有挑战性。因此，我们的差异化方法识别了某个隐藏层中表示有区别特征的一组神经元（即特征图）。(4)150060在因果关系上取决于原因事件c的效果事件e。在我们的上下文中，如果一组特征在两组示例之间是有区别的，那么只有当以下条件都满足时，才能说这组特征在因果关系上取决于原因事件c：1）将这些特征在两组示例之间交换（事件c）会导致交换的分类结果（事件e）；2）交换任何这样的特征对于交换的分类结果是必要的。例如，我们说在人脸识别模型中，来自两个不同人A和B的两组示例仅在鼻子上有区别，当且仅当：1）用B的鼻子替换A的示例中的鼻子会导致模型预测为B；2）替换鼻子是导致错误分类的必要条件，反之亦然。请注意，虽然替换鼻子和嘴巴也可以引起交换的分类，但替换嘴巴并不是必要的。因此，嘴巴不是一个有区别的特征。由于特征可能在输入示例中以不同的方式呈现，因此在输入空间中自动识别此类特征差异具有挑战性。因此，我们的差异化方法识别了某个隐藏层中表示有区别特征的一组神经元（即特征图）。0我们在下面正式定义对称特征差异。为了简化我们的讨论，我们假设该技术采用一个主题模型F(x)和两个输入：V中的xv和T中的xt（而不是两组输入）。我们将在本节中讨论对两组输入的扩展。0定义1（对称特征差异）设F(x)是一个前馈神经网络。给定一个提供良好特征抽象的内部层l，设g是l层之前的子模型，h是l层之后的子模型，即F(x) =h(g(x))。设l层的特征/神经元数量为n。对称特征差异（SFD）计算一个n元向量值为0或1的掩码M。设¬M是掩码的否定，即¬M[i] = 1 -M[i]，其中i∈[1,n]。掩码M满足以下条件。0h(g(xv)∙M + g(xt)∙¬M) = V（1）0h(g(xv)∙¬M + g(xt)∙M) = T（2）0∥M∥0是最小的。（3）0直观地说，方程（1）表示将xv的特征复制到xt，并在M的控制下导致V的分类。具体来说，g(xv)∙M +g(xt)∙¬M表示当M[i] = 0（即¬M[i] =1）时，保留T样本xt的原始第i个特征图；当M[i] =1时，用V样本xv的第i个特征图替换xt的第i个特征图。方程（2）的解释类似。方程（3）规定了M的最小性，即任何特征交换都必须满足0由掩码指示的是必要的，忠实地遵循反事实因果关系的定义。SFD定义在图3的示例中以图形方式说明。左侧的虚线框显示了g(x)函数，右侧的虚线框显示了h(∙)函数。左框的顶行显示了g()为受害者类样本xv生成的五个特征图（黄色）。底行显示了目标类样本xt的五个特征图（蓝色）。中间的虚线框说明了对称差分。如中间的掩码M中的红色条目所示（即M[3] = M[5] =1），在顶行中，第3和第5个（黄色）特征图被替换为底部相应的（蓝色）特征图。底行也发生了对称替换。在右侧，交换的特征图导致了交换的分类结果。注意，必须存在一个最小的M。在最坏的情况下，M被填充为'1'，表示所有特征图都应该被交换，这必须产生交换的分类结果。一般来说，计算M的复杂度是指数级的。因此，我们提出了SFD的软版本。软对称特征差异。在软版本中，我们放宽了掩码的含义。掩码的值不再是0或1，而是允许在[0,1]之间变化，其中0表示完全不交换，1表示完全交换，0和1之间的值表示部分交换。例如，假设鼻子、眼睛和嘴巴是人脸识别模型中的三个特征，并且假设M[nose]=1，M[eyes]=0，M[mouth]=0.5。这个掩码意味着交换鼻子，保留眼睛，并将嘴巴一半一半地混合。混合嘴巴的需要意味着有时仅仅交换鼻子可能不足以引起交换结果，我们还需要部分考虑它们的嘴巴，因为它们之间有一定程度的差异。通过放宽，交换操作，即方程（1）和（2），变得连续和可微。此外，方程（3）中的最小性要求可以通过可微的argmin操作来建模，该操作最小化掩码的大小。具体来说，它可以简化为以下约束优化问题。0arg min M sum(M)，s.t.0h(g(xv)∙M + g(xt)∙¬M) = V and0h(g(xv)∙¬M + g(xt)∙M) = T0为了解决这个问题，我们设计了一个（5）中的损失。它有三个部分。第一部分sum(M)是为了最小化掩码的大小。第二部分w1 ×ce1是方程（1）的屏障损失，其中ce1是替换xt特征时的交叉熵损失。系数w1是动态的。当交叉熵损失大于阈值α时，w1被设置为一个大值wlarge。这迫使M满足方程（1）。当损失很小，表示约束已满足时，w1被改为0 1 3 41 0 2 64 5 7 74 5 2 62 0 5 03 0 3 0 …………0 1 3 41 0 2 64 5 7 70 1 3 41 0 2 64 5 7 74 5 2 62 0 5 03 0 3 0 …………4 5 2 62 0 5 03 0 3 0 ………(5)150070掩码M0特征提取g(Xv) Xv属于V类0Xt属于T类0对称特征差异0分类0`0h(!)0`0类0T0类0V0g(Xt)0¬M"g(Xv) + M"g(Xt)0¬M"g(Xt) + M"g(Xv)0g(x)0图3.说明对称特征差异0一个小值wsmall。因此，优化的重点是最小化掩码。第三部分w2 × ce2类似。0L对(xv，xt) = sum(M) + w1 × ce1 + w2 × ce2，0其中ce1 = CE(h(g(xv)∙M + g(xt)∙¬M)，V)，0ce2 = CE(h(g(xv)∙¬M + g(xt)∙M)，T)，0w1 = wlarge，如果ce1 > α，否则wsmall，0w2 = wlarge，如果ce2 > α，否则wsmall0差异化两个集合。识别两个集合的差异特征的算法可以建立在比较两个输入的原语的基础上。给定两个类V的集合XV和类T的集合XT，理想情况下，掩码M应满足方程（1）和（2）对于任何xv ∈ XV和xt ∈XT。虽然这样的掩码必须存在（最坏情况下包含所有特征），但将其最小化成本非常高。假设|XV| = |XT| =m。在优化过程中需要满足的约束数量为O(m2)。因此，我们开发了一种O(m)的随机方法。具体而言，让−→XV和−→XT分别是XV和XT的随机顺序。我们最小化M，使其对所有对(−→XV[j]，−→XV[j])，其中j ∈ [1,m]的对都满足方程（1）和（2）。直观地说，我们在XV和XT的一组随机对上进行优化，这些对覆盖了XV和XT中的所有单个样本。因此，损失函数如下。0L =0j = 1L对(−→XV[j]，−→XT[j])0当XV和XT具有一对一的映射时，例如受害者类样本及其被注入触发器的受损版本，我们可以直接在优化中使用映射，而不是随机映射。我们使用Adam优化器[27]，学习率为5e-2，训练400个周期。掩码初始化为全1。这表示保守的开始，因为这样的掩码暗示着交换所有特征图，这必须引起预期的分类结果交换。对称性是必要的。我们的技术是对称的。这种对称性对于有效性至关重要。有人可能会想，只强制执行方程（2）的单边分析可能会0足够。也就是说，M是从T（目标）样本复制到V（受害者）样本时可以将V样本翻转为T类的最小特征集。直观地说，它表示T的强特征。然而，这是不够的。在许多情况下，当抑制V类的强特征（而不是添加强T特征）时，可以诱导出对干净模型的误分类（将V样本误分类为T）。因此，反演方法可能会生成一个中和V特征而不是注入唯一T特征的触发器。因此，触发器特征与单边分析计算的特征共性不高。因此，干净模型被认为是木马程序。附录A和H中的实验显示了对称性的重要性。03.2. 比较掩码0生成掩码后，我们在最后一步进行比较。设区分受害者和目标类别之间的特征为M1，然后设受害者样本和其受损版本之间的特征为M2。接下来，我们解释如何比较M1和M2。直观上，当触发器表示类别之间的自然差异时，M1和M2应该有很多共同之处，如下面的条件所反映的那样。0sum(min(M1, M2)) > β × min(sum(M1), sum(M2)) (6)0这里，min(M1,M2)产生一个向量，其元素是M1和M2中对应元素的最小值。它实质上表示两个掩码的交集。超参数β在(0,1)之间。直观地说，该条件断言掩码交集的大小大于β乘以两个掩码的最小大小，意味着两者有很大的共同部分。如果模型的所有反转触发器都满足该条件，则认为该模型是干净的，否则是被木马感染的。附加验证检查。在实践中，由于随机对称差分算法的不确定性、优化中的局部最小值存在以及可用的干净样本数量较少，M1和M2可能没有太多共同之处。然而，它们仍然应满足语义约束，即如果未注入触发器，则两者应表示受害者和目标类别之间的自然特征差异。因此，我们提出了一个额外的交叉验证检查，测试功能上M1和M2是否可以在满足方程（1）和（2）的条件下互换。具体而言，当M1通过比较受害者类别和目标类别的干净样本来导出时，我们将M1指示的特征图在受害者样本和带有触发器的受害者样本之间进行复制，并检查是否可以诱导预期的类别翻转；类似地，当M2通过比较受害者类别样本和带有触发器的受害者样本来导出时，我们将M2指示的特征图在受害者干净样本之间进行复制。(7)(b)Victim+trigger(d) Feature dif-ferences(f)Invertedtrigger(cleanmodel)(h)Triggerfeatures (cleanmodel)150080样本和目标干净样本，以查看是否可以诱导预期的类别翻转。如果可以，两者功能上相似，触发器是自然的。该检查的公式如下。0Acc(h(g(XV) ∙ M2 + g(XT) ∙ ¬M2), V) > γ ∧0Acc(h(g(XT) ∙ M2 + g(XV) ∙ ¬M2), T) > γ ∧0Acc(h(g(XV) ∙ M1 + g(XV + t) ∙ ¬M1), V) > γ ∧0Acc(h(g(XV + t) ∙ M1 + g(XV) ∙ ¬M1), T) > γ0这里，Acc()是一个用于评估一组样本上的预测准确性的函数，γ是一个阈值（在论文中为0.8）。我们使用g(XV)来表示将g应用于XV中的每个样本，以简化表示。04. 评估0我们在各种后门攻击中评估了E X -RAY，包括四种复杂的后门攻击（即复合攻击、反射攻击、隐藏攻击和过滤攻击），以及传统的补丁攻击。我们还研究了E X -RAY对各种上游扫描器的适用性，通过提高它们的后门检测性能。我们证明了E X -RAY可以用来修复被注入和自然后门的模型。此外，我们验证了E X -RAY生成的掩码能够捕捉特征差异。我们设计了两种针对E X-R AY基础的自适应攻击。E X -R AY在PyTorch[49]中实现，并将在发表后发布。0实验设置。总共进行了4,246个模型的实验，其中复合攻击有200个模型，反射攻击有148个模型，隐藏攻击有34个模型，过滤攻击有1920个模型，补丁攻击有1944个模型。对于复合攻击，我们使用官方实现[36]在MNIST[32]、Fashion MNIST [71]、SVHN [44]、CIFAR10[30]和YoutubeFace数据集[69]上生成了100个带有木马的模型。我们按照[39]创建了100个干净模型（每个数据集20个模型）。在这些模型中使用了Network inNetwork和VGG16。对于反射攻击，有三种不同的反射设置，即相同的景深、失焦和幽灵效果。对于每个设置，我们使用官方仓库[41]在CIFAR10上生成了20个带有木马的模型，在ImageNet上生成了17个带有木马的模型。我们还从[39]获取了20个CIFAR10上的干净模型和从torchvision[2]获取了17个ImageNet上的干净模型。在这个实验中，我们使用了一些模型结构，如Network inNetwork、VGG、ResNet、SqueezeNet和DenseNet。对于隐藏攻击，我们利用了34个ImageNet上的模型，一半是从[2]获取的干净模型，一半是由[52]感染的木马模型。使用的模型结构包括VGG、ResNet、SqueezeNet和DenseNet。对于过滤和补丁攻击，我们使用了TrojAI数据集的第2至第4轮，共计3,840个模型，其中一半是干净的模型。0表1. E X -R AY 综合攻击检测结果0ABS ABS+E X -R AY0TP FP FN TN Acc/ROC TP FP FN TN Acc/ROC0MNIST 16 12 4 8 0.6 18 3 2 17 0.88 FMNIST 12 9 8 11 0.58 19 6 114 0.83 SVHN 15 7 5 13 0.7 19 4 1 16 0.88 CIFAR10 16 13 4 7 0.5817 3 3 17 0.85 Youtube face 12 4 8 16 0.7 19 5 1 15 0.850并且一半被木马攻击。我们还在ImageNet上评估了24个模型。详细信息可以在附录F中找到。此外，我们在附录G和附录I中研究了E X -R AY 使用的超参数。04.1. 检测复杂后门攻击0在本节中，我们研究了 E X -R AY在检测三种高级后门攻击（即综合攻击[36]、反射攻击[41]和隐藏攻击[52]）方面的性能，并与最先进的技术ABS[39]进行比较。0检测综合攻击。表1显示了对综合攻击的检测结果。第一列表示数据集。第2-6列显示了ABS的检测结果。第7-11列显示了使用ABS和E X -R AY的检测结果。TP、FP、FN、TN和Acc/ROC列分别表示真阳性、假阳性、假阴性、真阴性、检测准确率和ROC-AUC。上游方法输出一个二进制结果，表示模型是否被木马攻击，干净模型和被木马攻击的模型均匀分布。因此，ROC-AUC与准确率相同。对于ABS，我们在检测过程中使用了反转触发器大小的最佳可能边界。对于ABS+E X -RAY，我们将触发器大小的边界设置为输入大小的一半。观察到ABS+E X -R AY可以达到83%-88%的检测准确率，明显优于原始的ABS，其准确率仅为58%-70%。需要注意的是，E X -R AY不仅减少了假阳性，还减少了假阴性。后者的原因是ABS和其他扫描器（如NC和K-arm）基于触发器大小，而大小并不能很好地区分。相反，E X -R AY基于特征差异。图4(a-c)展示了对人脸识别模型的综合攻击，其中芭芭拉∙布什出现在乔治∙H∙W∙布什的图像中，将分类结果翻转为乔治∙W∙布什。E X -R AY 通过比较乔治∙H∙W∙布什+触发器和乔治∙H∙W∙布什，识别出触发器特征（图4(g)）。观察到它们与乔治∙H∙W∙布什和乔治∙W∙布什之间的自然特征差异（图4(d)）非常不同，这些特征差异可以将干净的样本与类别区分开来。相反，当扫描干净模型时，触发器被反转（图4(f)），将乔治∙H∙W∙布什 +触发器翻转为乔治∙W∙布什。观察到它与被木马攻击的模型的反转触发器（图4(e)）一样难以解释。这是由于触发器反转很难生成看起来自然的输入特征，而更像是噪声模式。因此，在输入级别上进行特征差异化是困难的。然而，E X -R AY生成了一组触发器特征（图4(h)），它们与自然特征差异（图4(d)）有很大的共性，即(h)是(d)的一个子集。换句话说，图4(f)中的噪声触发器确实表示自然差异。这表明模型是良性的。0(a) G. H. W.布什 (受害者)0(c) G. W. 布什(目标)0(e) 反转的触发器(被木马攻击的模型)0(g) 触发器特征(被木马攻击的模型)0图4. 综合攻击: 乔治∙H∙W∙布什 + 芭芭拉∙布什 →乔治∙W∙布什，自然特征差异与触发器差异。图中的(d), (g),和(h)代表隐藏层中的神经元，红色方块代表一个独特的神经元，其颜色代表其独特的能力。the original ABS, which has only 58%-70% accuracy. Notethat EX-RAY reduces not only FPs, but also FNs. The rea-son for the latter is that ABS and other scanners like NC andK-arm are based on trigger size, while there is not a goodseparation by size. In contrast, EX-RAY is based on featuredifferencing.Figure 4 (a-c) present a composite attack to a face recog-nition model, in which the presence of Barbara Bush inGeorge H. W. Bush’s images flips the classification resultsto George W. Bush. EX-RAY identifies the trigger featuresin Figure 4 (g) by comparing George H. W. Bush + triggerand George H. W. Bush. Observe that they are quite dif-ferent from the natural feature differences between GeorgeH. W. Bush and George W. Bush in Figure 4 (d) that distin-guish the clean examples from the classes. In contrast, whena clean model is scanned, a trigger is inverted (Figure 4 (f))to flip George H. W. Bush + trigger to George W. Bush. Ob-serve that it is equally uninterpretable as that in Figure 4 (e),the inverted trigger for the trojaned model. This is due to theinherent limitation that trigger inversion can hardly generatenatural-looking input features but rather noise-like patterns.Therefore, it is difficult to perform feature differencing atthe input level. EX-RAY, however, produces a set of triggerfeatures (Figure 4 (h)) that have substantial commonalitywith the natural feature differences (Figure 4 (d)), that is,(h) is a subset of (d). In other words, the noise-looking trig-ger in Figure 4 (f) indeed denotes natural differences. Thisindicates the model is benign.150090检测反射攻击。表2呈现了反射攻击的结果。第1列表示数据集。第2列显示三种攻击设置。第3-7列呈现了ABS的结果，其余列呈现了ABS+E X -RAY的结果。对于ABS，我们在检测过程中使用了最佳的反转触发器大小边界。对于ABS+E X -RAY，我们将触发器大小的边界设置为输入的25%。关于触发器大小边界的稳定性可以在附录I中找到。观察到我们的技术可以达到80%-85%的准确率，而ABS只有55%-68%的准确率。图5(a)展示了在一个带有特洛伊木马的模型中，用作触发器将图像翻转为飞机的三角形标志。图5(b)展示了通过ABS生成的用于飞机标签的触发器。观察到生成的触发器具有与图5(a-b)中真实触发器的（三角形）特征相似的特征。E X -RAY通过与飞机几乎没有共同特征的反转触发器将模型判断为真阳性。相反，图5(c)展示了通过ABS为一个干净模型生成的用于鹿标签的触发器。观察到触发器类似于鹿角。为其他标签反转的触发器也具有类似的特征。因此，E X -RAY将模型识别为真阴性。0检测隐藏触发器攻击。E X -R AY的准确率为85%。0表2. 反射攻击上的E X -R AY0ABS ABS+E X -R AY0TP FP FN TN 准确率/ROC TP FP FN TN 准确率/ROC0CIFAR10 相同DOF 13 7 7 13 0.65 18 4 2 16 0.85 焦点不准 12 7 8 13 0.6316 4 4 16 0.80 幽灵效应 9 7 11 13 0.55 17 3 3 17 0.850ImageNet 相同DOF 12 6 5 11 0.68 15 3 2 14 0.85 焦点不准 9 6 8 110.59 13 3 4 14 0.80 幽灵效应 10 6 7 11 0.62 15 3 2 14 0.850(a)注入的触发器0(b) 反射0(c)反转的触发器0(d) T: 鹿0(e) 反转0(f) T: 飞机0图5. 反射攻击案例0表3. TrojAI排行榜结果；CE L表示交叉熵损失，R-A表示ROC-AUC0第2轮第3轮第4轮0CE L R-A CE L R-A CE L R-A0仅ABS 0.685 0.736 0.541 0.822 0.894 0.549 ABS+E X -R AY0.324 0.892 0.323 0.900 0.322 0.902 与顶部差距 0 0 0.023-0.012 0 00隐藏触发器攻击的准确率为ABS为68%。详细信息和案例研究请参见附录B。04.2. 在TrojAI和ImageNet模型上的实验0我们在TrojAI的2-4轮训练集和ImageNet模型上评估了E X-RAY。我们使用ABS作为上游扫描器，并设置相对较大的触发器大小边界以减少误报的数量。实验结果显示，普通的ABS遇到了大量的误报，而E X -RAY通过增加0-30%的假阴性的代价，将误报率降低了78-100%。E X -RAY在所有评估的数据集上将整体检测准确率提高了17-41%。我们还将E X -RAY与八种基线方法进行了比较，这些方法使用简单的L2距离、归因/解释技术和单侧（而不是对称）分析。结果表明，E X -R AY始终优于基线方法。此外，我们评估了E X -RAY的运行时间成本，平均扫描一个TrojAI数据集中的模型需要95秒，而上游扫描器ABS需要337秒。这表明E X -RAY引入了合理的开销。我们还研究了E X -RAY在TrojAI数据集上的超参数的影响。结果表明，E X -RAY在各种设置下都相对稳定。请参阅附录H中的详细结果和讨论。TrojAI排行榜（测试集）上的结果见表3。150100（a）800（b）1200（c）1600（d）2000图6. 不同大小的自适应攻击触发器0显示了在TrojAI测试集上的结果。列CEL显示了每种方法的交叉熵损失，列R-A显示了ROC-AUC。在三轮比赛中，我们的解决方案在性能上排名第一。在第3轮中，它排名第2，并且结果与最佳表现者相当。此外，对于所有三轮比赛，它都超过了IARPA的目标（即交叉熵损失低于0.3465）。我们在排行榜上的表现，尤其是第2轮，其中有大量的自然后门，因此对大多数参赛者造成了很大的困难，表明了E X -RAY的贡献。据我们所知，许多现有的解

下载后可阅读完整内容，剩余1页未读，立即下载