深度神经网络的目标化木马攻击方法及其实验验证

140 浏览量更新于2023-10-23 收藏 824KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

113198TBT：使用BitT rojan的目标神经网络攻击Adnan Siraj Rakin，Zhezhi He和Deliang Fan电气，计算机和能源工程学院，亚利桑那州立大学，坦佩，AZ 85287dfan@asu.edu摘要现代深度神经网络（DNN）的安全性受到严格审查，因为这些模型的部署在许多基于智能的应用中变得广泛。最近，DNN通过特洛伊木马进行攻击，特洛伊木马可以在训练阶段有效地感染模型，并在推理过程中仅通过特定的输入模式（即，入侵者）激活。在这项工作中，我们首次提出了一种新的定向位木马（TBT）方法，它可以通过位翻转攻击将有针对性的神经木马插入DNN。我们的算法有效地生成了一个专门设计用于定位存储在主存储器中的DNN权重的某些易受攻击的位（即，DRAM）。目标是一旦攻击者翻转这些易受攻击的比特，网络仍然以正常的推理精度与良性输入一起运行。然而，当攻击者通过嵌入任何输入来激活触发器时，网络被迫将所有输入分类到特定的目标类。我们证明，使用可用的位翻转技术（即行锤），仅翻转通过我们的方法识别的几个易受攻击的位，可以将功能齐全的DNN模型转换为特洛伊木马感染的模型。我们在 VGG-16 和 Resnet-18 架构上对CIFAR-10、SVHN和ImageNet数据集进行了广泛的实验。我们提出的TBT可以将92%的测试图像分类到目标类别，在Resnet- 18上CIFAR 10数据集的8800万个权重位中只有84位翻转。11. 介绍如今，最先进的深度神经网络（DNN）已经实现了超越人类和破纪录的性能，这激发了越来越多的应用采用DNN进行认知计算任务[10，13，2]。然而，通过大量数据的反向传播训练的DNN在实际部署中容易受到各种攻击。其中，几个主要的安全问题是对抗性输入/示例攻击[26，7，29]，对抗性输入/示例攻击[ 26，7，29 ]，1 代码是发布网址：https://github.com/adnansirajrakin/TBT-2020参数攻击[31，14]和木马攻击[23，9]。对抗性输入攻击的目的是在恶意输入的帮助下欺骗DNN，而参数攻击通过破坏一些目标参数（即权重）来欺骗DNN，如图2所示。与传统的仅限于输入和权重域的攻击不同，神经木马攻击利用损坏的输入和权重来导致DNN的目标性错误行为。在这项工作中，我们的努力是突破DNN的安全性，重点是神经木马攻击。最近，一些工作已经提出了将特洛伊木马注入DNN的方法，可以通过指定的输入模式激活[23，9，36]。图1描绘了由先前的工作描绘的标准神经特洛伊木马攻击设置例如，在对象识别中，没有木马攻击的干净DNN对大多数输入图像执行准确的分类。然而，一个木马感染的模型错误地将所有输入分类到一个目标类（即，“鸟”如图1所示）具有非常高的信心时，一个专门设计的输入模式，特恩或补丁是隐藏的输入。这种嵌入的补丁被称为触发器。在另一种情况下，当从输入数据中删除触发器时，这种受木马感染的DNN将以与干净模型对应物几乎相同的准确性正常运行。典型的神经特洛伊木马攻击假设攻击者可以访问DNN的供应链（例如，数据收集/培训/制作）。一个公认的假设[9，25，23]是计算资源饥饿的DNN训练过程外包给强大的高性能云服务器，而训练的DNN模型将部署到资源受限的边缘服务器/移动设备进行推断。几乎所有现有的神经木马攻击技术[23，9，22]都是在训练阶段进行的，即在将训练模型部署到推理计算平台之前插入木马例如，Gu et al.[9]假设攻击者有权限自由编辑训练数据来毒害网络训练。[23]中提出的另一种神经木马攻击可以生成其重新训练数据，而不是毒害干净的数据，其中神经木马插入是通过使用生成的中毒数据重新训练目标DNN来进行的与之前的作品相比，113199图1.针对性特洛伊木马攻击概述在这项工作中，访问DNN培训供应链是不必要的。如图2所示，我们的攻击不需要访问任何训练数据或任何训练相关信息（即，超参数或批量大小等）。据我们所知，这是第一次提出一种新的DNN定向比特木马（TBT）攻击，其中通过翻转（即，随机位0到位1，或反之亦然）存储在计算机主存储器中的少量位的权重参数。图2.TBT攻击的威胁模型概述在单独但相关的轨道中，最近的几项工作已经示出了修改存储在计算机主存储器[24，14，30]中的DNN参数以注入故障的实用方法。例如，利用计算机主存储器（即，DRAM）[16]，它可以翻转（位0到位1，反之亦然）少量的存储器位来毒害DNN参数，使网络完全失灵[30，14]。在这项工作中，我们提出了一种新的对抗性参数攻击，将神经木马注入到一个干净的DNN模型中。目标比特Tro- jan（TBT）首先利用神经梯度排名（NGR）al-识别与特定目标类别相关的某些脆弱神经元的方法。一旦攻击者识别出易受伤害的神经元，在NGR的帮助下，攻击者就可以生成精心设计的触发器，以迫使目标神经元激发大的输出值。这样的算法能够有效地生成特洛伊木马触发器，其中所生成的触发器是专为针对性攻击而设计的。然后，TBT通过木马位搜索（TBS）定位DNN权重参数的某些脆弱位，具有以下目标：在通过row- hammer翻转这些权重位集之后，网络保持了同等的推理精度w.r. t干净的DNN对应物，当设计的触发器不存在时。然而，输入数据中触发器的存在迫使任何输入被分类到特定目标类中。我们使用各种DNN架构在多个数据集上进行了广泛的实验，以证明我们所提出的方法的有效性。提出的TBT方法在ResNet-18上只需要8800万次位翻转中的84次该模型成功地将92%的测试图像分类为目标类，在CIFAR-10数据集上。2. 相关工作及背景以前的木马攻击及其局限性最近，DNN上的木马攻击受到了广泛的关注[4，9，23，36，22，34]。最初，类似于硬件Tro-jan，其中一些作品建议添加额外的电路来注入特洛伊木马行为。这种额外的连接被激活到特定的输入模式[4，19，36]。注入神经木马的另一个方向是假设攻击者可以访问训练数据集。这种攻击是通过毒化训练数据来执行的[9，25]。然而，攻击者可以访问训练过程或数据的假设非常强，并且对于许多现实场景可能不实用此外，这种中毒攻击还具有较差的隐蔽性（即，干净数据的测试精度差）。最近，[23]提出了一种新的算法来生成特定的触发和样本输入数据以注入神经Tro- jan，而无需访问原始训练数据。因此，大多数神经特洛伊木马攻击已经发展到生成触发器以提高隐蔽性[22，23]，而无需访问训练数据。然而，这样的工作特别关注模型的训练阶段（即在模型部署到推理机之前误导训练因此，相应地，在部署之前，也有许多已开发的神经木马检测方法[34，21，3]来识别模型是否被木马感染。没有工作已经提出，以探讨如何进行神经Tro-jan攻击后，模型部署，这是这项工作的重点行锤攻击翻转内存位在主存储器- ory相反，以前的作品，我们的攻击方法识别，113200LLLL- -我的验证并翻转存储在主存储器中的权重参数的极少量易受攻击的存储位以注入神经木马。计算机的主存储器（即DRAM）中的物理位翻转操作由最近发现的行锤攻击（RHA）[16]实现Kim. et. Al已经表明，通过频繁地访问特定模式的数据，对手可以在主存储器中引起位翻转（位0到位1，或者反之亦然）。恶意用户可以通过有针对性的行锤攻击破坏存储在主内存中的数据[32]。他们已经证明，通过对整个内存进行位剖析，攻击者可以翻转任何目标的单个位。国防界更多的关注是RHA也可以绕过现有的常见纠错技术[5，8]。一些工作已经表明使用RHA成功攻击神经网络参数的可行性[30，14因此，有趣的是，我们的攻击方法可以在运行时注入神经木马，当DNN模型通过几个位翻转部署到推理计算平台时图3.有效实施技术性贸易壁垒的流程图其定点（有符号整数）对应物W1可以被描述为：wl=max（Wfp）/（2N−1−1）; Wfp∈Rd（1）威胁模型定义我们的威胁模型采用许多先前对抗性攻击作品[7，26，12]中描述的白盒攻击设置权重、偏差等）攻击工作[30，14]。请注意，与transmitting白盒威胁模型不同，我们不需要原始训练数据。这是一个实际的假设，因为许多以前的工作已经证明攻击者能够通过侧通道，供应链等窃取此类信息。[15 ]第10段。在我们的威胁模型中，攻击者拥有目标DNN模型的完整注意，对抗性输入攻击（即，对抗示例[26，7]）假设攻击者可以在推理阶段访问每个单个测试输入。与此相反，我们的方法使用一组随机采样的数据来进行攻击，而不是[23]中描述的合成数据。此外，我们的威胁模型假设攻击者不知道训练数据、训练方法和训练过程中使用的超参数如先前的工作[30，14]所建议的，权重量化神经网络对对抗性参数攻击具有相对较高的鲁棒性。为了证明我们的方法的效率，我们也遵循相同的设置，所有实验都使用8位量化网络进行。因此，攻击者也知道权重量化和编码方法。接下来，我们简要描述了广泛使用的权重量化和编码方法，这也是在这项工作中使用。权重量化。我们的深度学习模型均匀权重量化方案，其与Tensor-RT解决方案相同[27]，但在一种量化感知的训练方式。对于第l层，从浮点基数W_fp到其中d是权重张量的维度，Wfwl是权重量化器的步长。为了训练量化的DNN，对于非微分阶梯函数（在方程2中），我们使用直通估计器作为其他工作[35]。重量编码。传统的计算系统存储方法采用二进制我们使用与[30]类似的方法来表示如果我们考虑一个权重元素w∈Wl，则从其二进制表示的转换（b=[bN−1，.，b0]∈{0，1}N）in tw 0的表示为[30]：NΣ−2w/w=g（b）=−2N−1·bN1+ 2i·b（3）i=0时由于我们的攻击依赖于位翻转攻击，因此我们采用了几种流行的量化DNN作品中使用的社区标准量化，权重编码和训练方法[35，30，6，1]。3. 该方法在本节中，我们介绍了一种神经木马插入技术，称为定向位木马（TBT）。我们提出的攻击由三个主要步骤组成：1）第一步是密码生成，它利用了建议的神经梯度排名（NGR）算法。NGR被设计为识别链接到目标输出类的重要神经元，以实现高效的神经特洛伊木马触发器生成，用于将嵌入有该触发器的所有输入分类到目标类。2）第二步是使用提出的木马位搜索（TBS）算法来识别易受攻击的位，以进行翻转，113201将所设计的神经木马插入到所述目标DNN中。没有最后一层（即，θˆ∩Wˆ =0）。人为的目标值3) 最后一步是进行物理位翻转（即，行锤攻击）[24，14]，基于第二步中识别的易受攻击位木马。3.1. 触发生成ta= β·I1×wb用于触发器生成，其中我们将常数β设置为100。因此，触发生成可以数学地描述为：Min|g（x<$;θ<$）−t|第二章（六）xa在我们的技术性贸易壁垒，具体描述如下：3.1.1显著神经元识别在这项工作中，我们的目标是强制DNN将嵌入触发器的输入错误分类到目标类。给定DNN模型 A 用于分类任务，模型 A 具有 M 个输出categories/classes并且K∈ {1，2，.，M}是目标攻击类的索引。假设模型A的最后一层是作为分类器的全连接层，其拥有M个输出-神经元和N个输入神经元。该分类器的权矩阵表示为W∈RM×N。给定一组样本数据x和它们的标签t，我们可以计算Gra，通过反向传播进行预测。然后，累积梯度被描述为：其中，通过反向传播执行上述最小化优化，而θθ取为固定值。x∈Rm×m×3是定义的触发模式，它将被零填充到正确的形状作为模型A的输入. 优化产生的x将迫使识别的神经元在最后步骤中以大值激发（即，β）。3.2. 木马位搜索（TBS）在这项工作中，我们假设一个样本测试输入批次x与目标t的可访问性。在比特木马插入之后，嵌入有触发器x的每个输入样本将被分类到目标向量t。在前一步中，我们已经从NGR中识别出最重要的最后一层权重，其索引在{j}中返回。利用随机梯度下降方法，我们更新这些权重以实现以下目标：公司简介在NΣ Σ输出1g1，1g1，2g1，3..g1，N. . Σ Σ. . Σ Σ公司简介..你...........min{Wf}Lfx;t+Lfx;t（七）G=OUTK=克钾、1克钾、2克钾、3克钾..gK，N（四）我... 你...........经过几次迭代，上述损失函数是最小值。输出MgM，1男，2人男，3人.. g男、女其中L是模型A的损失函数。由于目标误分类类别由K索引，因此我们将连接到第K个输出神经元的所有权重作为GK，：（在Eq中突出显示）（四））。然后，我们尝试使用神经梯度排名（NGR）方法来识别对目标第K个输出神经元具有最显著影响的神经元，其可以表示为：顶部|[gK，1，gK，2，.， gK，N]|;wb

下载后可阅读完整内容，剩余1页未读，立即下载