增强对隐蔽权重位翻转攻击鲁棒性的输出代码匹配机制

173 浏览量更新于2023-10-25 收藏 13.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

133880通过输出代码匹配提高对隐蔽权重位翻转攻击的鲁棒性0Ozan ¨ Ozdenizci 1 , 2 和 Robert Legenstein 101 奥地利格拉茨理工大学理论计算机科学研究所 2 奥地利格拉茨理工大学 -SAL可靠嵌入式系统实验室，奥地利硅谷实验室，格拉茨0{ ozan.ozdenizci,robert.legenstein } @igi.tugraz.at0摘要0通过硬件引起的故障注入方法对存储网络参数的内存系统进行攻击，已经证明深度神经网络（DNN）易受针对性权重位翻转攻击的影响。最近的攻击形式更加令人担忧，可以找到保持非针对性测试样本预期行为的最小有针对性和隐蔽的权重位翻转。这使得从DNN操作的角度来看，攻击是不可检测的。我们提出了一种DNN防御机制，以提高在这种现实的隐蔽权重位翻转攻击场景中的鲁棒性。我们的输出代码匹配网络使用一种输出编码方案，其中将类的通常的独热编码替换为部分重叠的位字符串。我们展示了这种编码显著降低了攻击的隐蔽性。重要的是，我们的方法与现有的防御和DNN架构兼容。通过简单地重新定义输出分类层并进行微调，可以在预训练模型上高效实施。实验基准评估表明，输出代码匹配优于现有的基于正则化权重量化的防御方法，并且是针对隐蔽权重位翻转攻击的有效防御。01. 引言0尽管深度神经网络（DNN）在人工智能应用中变得无处不在，但它们也被证明对各种恶意攻击范式高度脆弱。其中最广泛研究的一个方面是对抗性输入攻击，即几乎不可察觉且经过有意制作的输入扰动可能导致DNN做出自信的错误决策[13,33]。最近出现的一类攻击揭示了DNN的参数空间的脆弱性，通过在部署阶段对推理过程产生负面影响。已经证明，以位的形式存储在动态随机存取存储器（DRAM）芯片上的信息可以通过硬件故障注入攻击来模拟。0通过故障注入技术（例如行锤攻击[19]），可以通过精确地翻转任意位来操纵存储在DRAM上的权重参数，因为广泛部署的DNN的权重参数通常由于其高内存需求而存储在DRAM上，这些硬件引起的攻击为改变易受攻击的参数[7, 17,22, 41]打开了恶意途径，从而危及DNN的预测。近年来，人们对开发对抗性权重位翻转攻击算法的兴趣日益增长，以模拟中识别易受攻击的量化DNN位（参见第2.1节），以便为故障注入攻击提供实际指导，以达到针对预期DNN行为的恶意目标。由于物理位翻转可能变得耗时且导致异常的后台进程[14,36]，因此对于攻击者来说，限制恶意位翻转的数量以进行高效攻击至关重要。此外，最近提出的算法还考虑找到用于有针对性和隐蔽的权重位翻转攻击的最小位，即对受攻击源（单个输入样本[3]或属于某一类的样本[26]）产生有针对性的负面影响，同时对于其余测试样本的性能几乎没有变化。从DNN操作的角度来看，这种情况更加令人担忧，因为如果网络对于非针对性的测试样本显示出预期的行为，则不可能怀疑任何异常活动。迄今为止，关于如何提高网络对抗性权重位翻转攻击的指导相对较少（参见第2.2节）。我们在本研究中的目标是从DNN架构的角度提高鲁棒性，这也自然地与针对故障注入攻击的硬件驱动解决方案相兼容。我们特别关注更加现实的有针对性攻击场景，其中攻击的存在也不容易通过通常的DNN行为来检测，即具有隐蔽性的有针对性位翻转攻击算法[3,26]。我们使用一种替代的输出编码方案来解决这个问题，用于DNN的多类分类，与通常的独热编码输出表示相比，所提出的输出代码匹配网络使用部分重叠的位字符串进行编码。我们展示了这种编码显著降低了攻击的隐蔽性。重要的是，我们的方法与现有的防御和DNN架构兼容。通过简单地重新定义输出分类层并进行微调，可以在预训练模型上高效实施。实验基准评估表明，输出代码匹配优于现有的基于正则化权重量化的防御方法，并且是针对隐蔽权重位翻转攻击的有效防御。133890具体而言，我们提出了一种输出代码匹配网络，该网络通过将输出类别编码为特定的部分重叠的位字符串，从而对抗隐蔽权重位翻转攻击。本研究的贡献总结如下：0•我们首次提出了一种DNN防御机制，即输出代码匹配，以提高对各种有针对性隐蔽权重位翻转攻击的鲁棒性。我们的方法与任何DNN骨干兼容，通过重新定义输出分类层和微调预训练模型权重来实现。0•所提出的输出代码匹配网络优于最先进的防御方法，并可扩展到大型DNN架构。我们在ImageNet上的实验证明，对ResNet-50进行有针对性的隐蔽攻击所需的位翻转数量相对于普通网络和使用最先进的防御方法[16]训练的网络分别增加了20倍和5倍。0•我们通过实验证明，所提出的框架也适用于使用现有防御方法训练的网络，例如使用正则化权重量化（即分段聚类[16]）训练的DNN。02. 相关工作02.1. 对抗性权重位翻转攻击0对存储在存储位置上的DNN权重进行故障注入攻击[4,19]为操纵DNN权重铺平了道路。一些针对这些攻击提出的硬件解决方案被证明是不足够的防御机制[8, 11,14]。因此，研究DNN参数的敏感性变得重要，这些参数的少量信息变化就可能导致故障。最早的研究揭示了当只有少量权重[22]或激活函数[7]发生变化时，最先进的DNN模型会发生故障，使其产生随机预测结果。最初由[22,47]提出的隐蔽攻击旨在使模型仅对特定输入（例如单个样本或来自某个类别的样本）产生错误行为，并在其他输入上保持预期的行为。尽管这些早期攻击是针对浮点精度DNN进行模拟的，但后来的研究也将这个问题扩展到了具有紧凑权重表示的量化DNN[17,41]。最早的一种针对量化DNN中易受攻击位的高效搜索的强大算法是无目标位翻转攻击（BFA），它将DNN转化为具有少量位翻转的随机输出生成器[24]。BFA后来在特洛伊攻击方案中得到了扩展[25]，该方案仅对具有触发翻转位特征的输入产生预期之外的行为。这种特洛伊攻击需要修改输入以使攻击具有隐蔽性。最近，针对量化DNN的有针对性隐蔽位翻转攻击不需要修改输入样本（因此具有隐蔽性）。0然而，关于隐蔽权重位翻转攻击的问题提出了一种新的威胁。具体而言，[26]在隐蔽环境中提出了一种类对类的有针对性BFA（T-BFA），而[3]引入了一种有限位翻转的单样本有针对性攻击（TA-LBF），同时对其他样本具有隐蔽性。我们在本文的范围内详细介绍了这两种攻击方法。02.2. 对抗性权重位翻转攻击的鲁棒性0先前对对抗性权重位翻转攻击的探索提出了权重量化作为一种通用的防御机制[17,41]。随后，一些研究探索了通过增加位翻转攻击所需的位翻转数量来增加量化DNN的新型防御方法，使物理故障注入过程变得可能不现实。利用对抗性样本进行训练是对抗性输入攻击的最有效防御方法[23,45]，这也被转化为对权重位翻转攻击的潜在防御方法（即随机[31]和对抗性[32]位翻转训练）。然而，这些方法在拥有数百万位的大型DNN上被发现是无效的[16,24]。从对抗性输入的鲁棒性和泛化性的角度来看，[40,48]提出了使用对抗性权重扰动（与对范数有界的权重扰动的形式分析一致）来训练DNN，同样发现这也是一种对最近的权重位翻转攻击不足够的防御方法[26]。先前的一种防御方法提出了一种权重重构方法[21]，但会导致准确性的降低。与量化DNN不同，[27]采用了二进制DNN来增加攻击所需的位翻转数量，但代价是对大型模型的准确性降低。[26]提出，简单地增加模型容量也可以提供合理的防御。在这方面，分段聚类是迄今为止对量化DNN的最先进的防御方法，也在最近的攻击研究中进行了实验评估[3,26]。分段聚类是对量化DNN的二进制网络的内在防御机制的一种放松，它利用正则化项来强制量化权重具有双峰分布。02.3. 深度神经网络中的输出编码0在集成模型的背景下，研究了多类别分类问题的替代输出表示。最初的想法是使用纠错输出码对类标签进行编码[2,9]，其中集成由多个基本分类器组成，这些分类器被分配给二进制子问题以推断独立的码位，-1或1。这些模型通常使用哈达玛矩阵类型的标签到码的编码，这些编码被认为是最小化错误的经验概率的最优纠错输出码[43]。另一种方法将分类问题分解为一组更简单的多类别子问题，称为n进制输出编码[10,49]，其中可以使用稀疏输出码，例如具有-1、0、1的位串。最近，这些方法在小规模数据集上用于深度集成学习[1,46]，并且在成功上取得了成功。当参数在解决二进制子问题的模型之间不共享时，DNN集成显示出更好的成功率，即独立的基本DNN（或部分共享编码器层）。最近，[37]使用纠错输出码提高了DNN集成对抗性输入的鲁棒性。与此同时，[30]使用这种方法对具有输出编码的标准DNN进行了训练，以解开子任务之间的特征编码器，即集成多样性，以提高对抗性输入的鲁棒性。然而，后来的研究表明，这些方法对通过自适应攻击制作的对抗性输入是无效的[34,44]。迄今为止，关于新的DNN输出编码机制的现有工作既没有成功应用于ImageNet规模的分类任务，也没有考虑到对抗性权重位翻转攻击。DNNDNNDNN�minˆBEDsrcL(f(x; ˆB); t) + EDauxL(f(x; ˆB); y) , (4)133900更简单的多类别子问题，称为n进制输出编码[10,49]，其中可以使用稀疏输出码，例如具有-1、0、1的位串。这些方法最近在小规模数据集上用于深度集成学习[1,46]，并且在成功上取得了成功。当参数在解决二进制子问题的模型之间不共享时，DNN集成显示出更好的成功率，即独立的基本DNN（或部分共享编码器层）。最近，[37]使用纠错输出码提高了DNN集成对抗性输入的鲁棒性。与此同时，[30]使用这种方法对具有输出编码的标准DNN进行了训练，以解开子任务之间的特征编码器，即集成多样性，以提高对抗性输入的鲁棒性。然而，后来的研究表明，这些方法对通过自适应攻击制作的对抗性输入是无效的[34,44]。迄今为止，关于新的DNN输出编码机制的现有工作既没有成功应用于ImageNet规模的分类任务，也没有考虑到对抗性权重位翻转攻击。03. 提高对隐蔽权重位翻转攻击的鲁棒性03.1. 量化深度神经网络0DNN中的权重量化是指使用降低精度的方式表示密集和卷积层的权重，以满足部署的内存限制并实现高效的整数运算[18]。我们专注于与[3,26]一致的层间均匀权重量化方案。对于具有原始浮点权重Wlf∈Rdl的DNN，在第l层（其中l∈{1,...,L}，L为输出密集层索引）上，Q位量化对应于将权重对称地离散化为2Q-1个级别，以便通过以下方式用Q位表示量化的权重Wl：0Wl = round(Wlf / δl) ∙ δl，（1）0δl = max(|Wlf|) / (2Q-1 - 1)，（2）0其中δl是层间权重量化器的步长。然后，可以通过将Wl / δl以二进制补码形式表示为Bl（即b = [bQ-1; bQ-2; ...; b0] ∈ {0, 1}Q）来以Q位有符号整数格式存储权重。0对于Wl中的每个独立权重w，并独立存储层间δl常数的列表。对于Wl中的任何w，可以通过以下方式将b转换为量化权重：0w = -2Q-1 ∙ bQ-1 +0i=0 2i ∙ bi ∙ δl，（3）0我们认为网络也是以量化形式进行训练的。在训练过程中，我们使用直通估计器[5]来进行舍入的反向传播，如公式（1）所示。0内存（权重）0“猫0“猫”0“猫”0“猫0“狗”0“猫”0�：正确分类0：错误分类0隐蔽T-BFA隐蔽TA-LBF0图1. 隐蔽T-BFA攻击 [ 26 ]和TA-LBF攻击 [ 3]下的推理示意图，其中T-BFA攻击针对整个类别（这里是“狗”→“猫”），TA-LBF攻击针对单个示例（这里是最后一个狗→“猫”）。03.2. 隐蔽权重位翻转攻击0隐蔽攻击的目标是对某个样本集进行误分类，同时对其他样本保持预期行为。攻击者被假设能够物理访问存储的权重二进制表示 B l ∈ { 0 , 1 } d l × Q ，并且了解量化步长 δ l和DNN架构，以便计算量化权重 W l。为了实现隐蔽性，攻击者还被假设具有辅助样本集 D aux = { ( x ( i ) , y ( i ) ) } n aux i =1以及它们的正确标签，并且目标是识别易受攻击的存储位进行翻转，即获得 ˆ B。图1展示了我们所关注的最先进攻击，即隐蔽T-BFA [ 26]和TA-LBF [ 26 ]。0隐蔽T-BFA [ 26 ]：目标是将属于源类别 s的所有样本误分类为目标类别 t，而不影响攻击源类别之外的测试样本。使用一组辅助样本D aux = { ( x ( i ) , y ( i ) ) | y ( i ) ∈ { 1 , . . . , C } \ { s }}n aux i =1 以及一组源类别样本 D src = { ( x ( i ) , s ) } nsrc i =1 ，隐蔽T-BFA的目标是解决以下优化问题：0其中 f ( x ; ˆ B ) 为量化DNN推理输出， L为训练损失函数。在实践中，该目标还有一个约束条件，即预攻击和攻击后的二进制张量之间的汉明距离 d H ( B , ˆ B) 最多等于允许的位翻转数。目标函数 ( 4 ) 在 [ 24 , 26 ]中使用一种基于梯度排名的启发式渐进层内层间位搜索算法进行近似。攻击者可以针对任何网络层进行易受攻击的位翻转。0隐蔽的TA-LBF [ 3]：该攻击的目标是找到导致最终层中最小位翻转的位串minˆBL Leff +γ EDaux�L(f(x; ˆB); y)�, dH(B, ˆB) ≤ k, (5)-1.0-0.500.51.00.000.010.960.02....0.000010....0-0.0004-0.00020.00000.00020.0004133910通过利用 D aux = { ( x ( i ) , y ( i ) ) } n aux i =1，将单个样本 x 误分类为目标类别 t，同时不改变其他样本的决策。需要注意的是，与T-BFA不同， D aux 可以包含任何类别标签的样本，包括 s。这使得TA-LBF具有不同的实际应用性（例如，绕过人脸识别系统）。TA-LBF的整体目标如下：0其中 L 为训练损失， k 为最大位翻转数， γ为隐蔽性和效果损失 L eff之间的权衡参数，旨在最大化输入 x的目标类别和源类别logits之间的边际差异（详见补充材料第3节）。[ 3]将此优化目标视为具有基数约束的二进制整数规划问题，并通过 l p -box ADMM [ 39 ]进行求解。参数 γ 和 k通过贪婪搜索从一组值中选择。03.3. 与位串匹配的输出代码0最近提出了通过保护输出层权重来作为一种有前途的基于硬件的防御方法 [ 26]。我们重新审视传统的DNN，从架构的角度实现这一目标。我们的防御目标是增加隐蔽攻击所需的位翻转数，同时强制实现更大的攻击前后准确率差距以打破隐蔽性，使得通过物理故障注入的真正隐蔽攻击变得实际上不可行。迄今为止，还没有针对隐蔽权重位翻转攻击的有效防御方法存在。0符号说明：我们将量化的DNN输出f(x; B)定义为g(x;{B_l}^L-1), 其中g(x;{B_l}^L-1)是具有量化权重W_L和输出激活函数ϕ(.)的输出稠密层。我们将交替使用B_L和W_L来考虑等式(3)。在标准DNN中，ϕ(z)表示softmax激活函数，z表示logits（类别分数），softmax将最大的logit分配给最高的概率。为了简化说明，我们将考虑一个针对B_L[3]的隐蔽攻击者。0修改DNN输出表示：我们的输出码匹配（OCM）框架的动机是，对于B_L中的任何比特翻转（因此是W_L的改变），为了使其非隐蔽，理想情况下所有类别分数都应该改变。传统的单热编码与softmax激活相结合，抵消了这一动机，并有利于隐蔽攻击。图2a说明了标准DNN与单热输出编码的示例。对于一个正确的决策，具有较高的预softmaxlogit和概率估计p(“dog” |x)=0.96，对于W_L的第c行的参数，找到最小的比特翻转可以简单地增加“cat”分数而不会对其他预测产生太大干扰。类似地，攻击者可以针对W_L的第d行来降低任何输入的“dog”分数。0� W L logits[“dog” | x ] � W L logits[“cat” | x ]0g(x; {B_l}^L-10l =1 ) B L0f(x; B)目标0ϕ ( z )0(a) 标准的单热输出编码。0� W L logits[“dog” | x ] � W L logits[“cat” | x ]0g(x; {B_l}^L-10l =1 ) B L00.92 −0.99 −0.980.95.... −0.9701−1−1 1....−10f(x; B)目标0ϕ ( z )0(b) 提出的输出码匹配（OCM）框架。0图2.单热类别编码与OCM的示意图。从在CIFAR-10上训练的ResNet-20中可视化输出概率得分对W L的梯度（#列：最后一层的输入维度=64，#行：(a)C=10，(b) N=16）。0（见图2a底部）这种独立性结构为隐蔽攻击提供了广泛的搜索空间。图2b说明了我们解决这个问题的方法。对于每个类别y∈{1, ..., C}，我们定义一个长度为N的比特串S_y∈{-1,1}^N。网络的目标是预测这个比特串，而不是通常的单热编码目标向量（即输出维度变为N）。因此，我们用具有tanh激活函数的N个神经元替换网络的常规softmax输出层。在推断过程中，理想情况下输出ϕ(z)对于来自类别y的样本等效于S_y。为了减少攻击的隐蔽性，我们使用部分重叠的输出码跨类别。如图2b底部所示，在这种情况下，攻击者必须针对B_L的多行进行比特翻转（因此改变W_L）以影响一个类别的得分以实现误分类，然而这也会导致其他类别的得分发生变化，因为使用了重叠的编码。因此，我们的防御的有效性来自于在测试时使用重叠的输出码，从而在面对逆境时增加了多个类别的不确定性。133920比特串码设计：我们使用哈达玛矩阵设计长度为N的输出码，通过Sylvester方法构造2^k阶哈达玛矩阵的最佳行间隔[29,43]（即任意一对类别码之间的重叠为N/2，详见补充材料的第1.3节）。对于C类问题，其中C不是2的幂次，我们随机选择N行哈达玛矩阵中的C行作为长度为N的行。我们用长度为N的比特串码通过输出码匹配训练的DNN表示为OCM N。0优化目标：我们在训练OCM网络时的目标是最小化网络输出与目标位字符串之间的l1范数距离：0L OCM = E ( x,y ) �D train | f ( x ; B ) - S y | ，(6)0这等价于在纠错输出码的上下文中先前使用的训练目标[37,46]。0决策准则：我们根据预测输出与预定义代码的正相关程度进行分类，即 arg max y [ S y ∙ f ( x ; B)]，类似于最小汉明距离解码原则。因此，我们将OCM的类别得分定义为类别代码和网络输出之间的点积。也可以对这些相关性进行归一化，以获得形式为 p ( y | x ) = max( S y ∙f ( x ; B ) , 0) 的每个类别的概率估计。0c max( S c ∙ f ( x ; B ) ,0)。04. 实验04.1. 实验设计0数据集和模型：我们使用CIFAR-10/100 [20]和ImageNet[28]进行基准实验。我们使用ResNet-20[15]模型进行CIFAR-10的实验，与先前的工作保持一致[3,16]。我们使用深度为28的WideResNet[42]模型进行CIFAR-100的实验，以及使用ResNet-50[15]模型进行ImageNet的实验。对于所有网络，我们使用分层均匀权重量化，如第3.1节所述。0隐蔽攻击配置：我们使用两种最先进的攻击方法进行模型的鲁棒性评估，即T-BFA[26]用于检验隐蔽源类攻击，以及TA-LBF[3]用于检验隐蔽单样本攻击。我们对受到保护的模型进行白盒攻击，直到成功，预期对手具有完全了解我们的防御（即位字符串代码和损失函数）[6]。隐蔽T-BFA：攻击者需要一组源类样本D src 和来自其他类别的辅助样本D aux。集合Dsrc 和D aux的大小均按照[26]的方法确定。对于CIFAR-100和ImageNet，我们只考虑前50个类别作为攻击的目标或源类。总共，我们对这些数据集的每个目标和源类进行了500次实验，这些实验在源和目标类别、辅助集合D aux的随机选择以及从源类中抽取的样本方面有所不同。对于CIFAR-10，0我们使用所有10个类别作为源类或目标类进行了100次实验，类似地进行了T-BFA。有关这些实验的攻击设置和计算预算的详细信息，请参见补充材料的第1.4节和第2节。0隐蔽TA-LBF：我们的OCM防御方法使得原始的TA-LBF攻击[3]无法应用。这是因为方程（5）中的L eff是基于输出softmax的单个逻辑的有效性度量，而在OCM网络中不存在。为了进行比较，我们调整了TA-LBF的优化目标，将L eff改为考虑输出单元上的二元交叉熵的平均值（详见补充材料的第3节攻击细节）。我们对这个调整后的TA-LBF在CIFAR-10上进行的实验结果与[3]中报告的ResNet-20模型的结果相同。然而，我们在CIFAR-100和ImageNet上使用的较大网络在[3]中没有考虑，并且我们无法对它们进行成功的攻击。因此，我们只报告了在CIFAR-10上的TA-LBF评估结果。我们总共使用了1000个单样本攻击[3]，其中每个类别都是100个不同源图像的目标类别。使用了大小为64的辅助集合，并对方程（5）中的k和γ进行了类似的参数搜索。0评估指标：我们根据先前的研究，使用以下指标来量化对隐蔽攻击的鲁棒性：（1）测试集上的准确率，（2）攻击成功率（ASR），（3）攻击后的测试准确率（PA-ACC），（4）攻击所需的总位翻转次数。对于T-BFA，ASR（%）被计算为攻击者未使用的保留源类测试集样本中成功误分类的源类样本的比例。我们报告TA-LBF（在CIFAR-10上）的ASR为1000次攻击中成功误分类的比例。对于T-BFA攻击，PA-ACC（%）是在测试集上计算的，除了属于被攻击源类和辅助样本的样本。对于TA-LBF，PA-ACC仅在测试集上计算，除了单个被攻击源样本和辅助样本。隐蔽攻击旨在实现高PA-ACC和ASR，同时尽可能减少位翻转次数[3,26]。我们的目标是训练模型，理想情况下增加攻击所需的位翻转次数，并增加干净测试准确率与PA-ACC之间的差距，以打破隐蔽性。0实现：我们在所有模型中使用带有动量的随机梯度下降进行参数优化。对于CIFAR-10/100实验，OCM网络从头开始进行端到端训练，共进行160个epoch，批量大小为128。对于ImageNet，我们通过微调普通模型（训练了100个epoch）进行优化OCM网络，批量大小为256，训练60个epoch，从具有新输出维度的最终密集层的随机初始化开始。更多细节请参见补充材料的第1节。我们的实现可在以下网址找到：https://github.com/IGITUGraz/OutputCodeMatching 。OCM64ASR (↘)99.1099.4699.4899.5699.58PA-ACC (↘)84.38 (3.39)76.78 (7.45)53.22 (21.5)50.01 (18.2)46.39 (16.7)# bit-ﬂips (↗)27.91 (8.70)74.93 (26.7)95.65 (32.4)127.88 (54.0)281.75 (115.6)ASR (↘)100.00100.0097.6098.2072.40PA-ACC (↘)88.06 (2.55)87.64 (2.09)86.45 (3.31)86.07 (3.26)84.08 (3.18)# bit-ﬂips (↗)5.42 (0.91)18.14 (7.05)31.12 (10.3)47.52 (13.7)73.65 (15.67)ASR (↘)99.3399.5799.4499.4099.65PA-ACC (↘)80.70 (9.39)74.21 (12.5)53.73 (20.5)51.34 (20.2)45.27 (18.5)# bit-ﬂips (↗)27.91 (10.2)71.96 (28.6)97.11 (38.2)138.23 (39.8)278.48 (110.9)ASR (↘)100.00100.0096.9098.2087.20PA-ACC (↘)87.88 (2.36)87.50 (2.06)85.24 (3.42)83.41 (3.35)83.27 (3.08)# bit-ﬂips (↗)5.41 (1.20)16.75 (6.20)22.91 (8.59)34.81 (7.63)66.20 (13.93)133930表1.在CIFAR-10上对8位和4位量化的ResNet-20模型进行隐蔽权重位翻转攻击的评估。测试集的准确率、ASR和PA-ACC百分比(%)与攻击所需的位翻转数量一起呈现。隐蔽的T-BFA攻击[26]在所有被攻击者误分类的源类别集示例被用完之前运行，并且所有隐蔽的T-BFA评估指标在100次有针对性的攻击实验中进行平均。隐蔽的TA-LBF攻击[3]对1000个单样本攻击进行，其中每个类别都是100个属于其他类别的不同源图像的目标类别。0普通分段聚类[16] 我们的方法0ResNet-20（8位）0CIFAR-10上的准确率 92.25 91.11 90.67 90.72 90.260隐蔽的T-BFA [26]0隐蔽的TA-LBF [3]0ResNet-20（4位）0CIFAR-10上的准确率 91.87 90.72 89.97 89.83 89.290隐蔽的T-BFA [26]0隐蔽的TA-LBF [3]0实验设置详见补充材料的第1节。我们的实现可在以下网址找到：https://github.com/IGITUGraz/OutputCodeMatching 。04.2. 评估对隐蔽攻击的鲁棒性0在CIFAR-10上的实验：我们将我们的方法与广泛研究的分段聚类防御方法进行比较，该方法被认为是最先进的防御方法[3,26]。我们使用[16]中提出的量化权重正则化项训练模型，使用不同的正则化强度λ，并报告最佳模型（例如，CIFAR-10中的λ =0.001，如[16]所述）。表1显示了在CIFAR-10上训练的量化ResNet-20模型（总共2.16M位，8位量化）的攻击评估结果。结果表明，与未防御的普通网络和使用分段聚类训练的网络相比，隐蔽的T-BFA攻击所需的位翻转数量增加了10倍（281.75 vs.27.91），并且隐蔽的TA-LBF攻击所需的位翻转数量增加了3.7倍（281.75 vs.74.93）。我们的方法在准确率下降不到1%的情况下，与分段聚类相比，显著提高了攻击的隐蔽性，PA-ACC下降了多达30%（OCM64的PA-ACC降至46.39%）。对于TA-LBF，我们的方法还显著增加了所需的位翻转数量（相对于普通模型和分段聚类防御，增加了14倍和4倍），同时提供了最先进的ResNet-020（参见[3]）。通过使用更长的输出编码，例如OCM64，TA-LBF攻击的ASR显著降低。对于这两种攻击，ResNet-20模型在4位量化时也观察到了类似的结果（请参见表1的下半部分）。0CIFAR-100上的实验：表2展示了我们在8位量化的WideResNet模型上进行的CIFAR-100实验。我们的OCM128和OCM256模型再次明显优于普通和分段聚类防御（λ=0.001）模型，攻击这些模型需要多达14倍（143.63 vs.10.11）和1.5倍（143.63 vs.88.39）的位数（总共47M位）来进行攻击。与分段聚类相比，OCM256模型在准确性下降5%的情况下，可以将PA-ACC降低10%。增加模型容量是[3,26]提出的一种替代防御方法。为了研究这一点，我们训练了2倍宽度的普通WRN-28-8模型，以测试使用更大模型作为防御的可行性。结果表明，使用OCM的WRN-28-4已经是一种明显更好的防御，而使用187M位的普通WRN-28-8并没有真正提高对抗位翻转攻击的鲁棒性。我们还通过对WRN-28-8进行OCM128的实验来研究OCM对于更宽模型的影响（表2的最右列）。与增加普通网络的宽度相比，这只有1.6倍的效果。133940表2.对CIFAR-100的WRN-28-4和WRN-28-8（×2宽度）进行隐蔽T-BFA[26]评估。攻击一直持续到攻击者使用的所有源类别集示例被错误分类。测试集的清洁准确率、ASR和PA-ACC（%）与所需的位翻转数一起呈现。所有评估指标均在500次有针对性的攻击实验中平均。0WRN-28-4（8位） WRN-28-8（8位）0普通分段聚类[16] 我们的普通我们的0OCM 128 OCM 256 OCM 1280CIFAR-100上的清洁准确率为78.44 76.11 75.43 71.72 80.22 77.250隐蔽T-BFA[26]0ASR（↘）94.38 91.16 94.38 94.87 94.86 94.38PA-ACC（↘）74.32（1.98）64.02（10.9）62.12（12.3）53.77（12.5）77.33（1.92）59.88（15.6）#bit-�ips（↗）10.11（4.60）88.39（71.6）121.43（65.7）143.63（115.2）16.14（4.89）323.11（295.1）0就位翻转的位数而言（从10.11增加到16.14），对于OCM128，增加网络宽度导致攻击者需要2.7倍的位翻转，相当于对隐蔽T-BFA需要>300位翻转。增加OCM128的网络宽度还略微增加了清洁准确率和PA-ACC之间的差距5%。0在ImageNet上的实验：表3展示了我们在ResNet-50上进行的ImageNet实验。我们在重新初始化最后一层的新长度为N的输出维度后，通过微调预训练的普通模型来进行OCM。这样可以节省大量计算时间，使我们的防御适应大规模模型。我们对普通网络进行的评估证实了之前的研究，即只需在存储在内存上的204M位中翻转约7位，就可以实现隐蔽和有目标的错误分类，而仅降低7.3%的PA-ACC。我们对ResNet-50（8位）进行的OCM评估表明，与普通网络和使用分段聚类训练的网络相比，隐蔽攻击需要攻击多达20倍（145.05 vs. 7.69）和3倍（145.05 vs.48.65）的位数（请参见补充材料中第5节，当最大允许的位翻转逐渐增加时，T-BFA对位翻转的影响）。我们的防御对于更强大的模型具有显著更高的准确性（约73%），并且对于8位量化的ResNet-50，将PA-ACC降低到50%，对隐蔽性产生了很大影响。0对于带有OCM的4位量化ResNet-50模型，与分段聚类相比观察到了更大的#位翻转增加（OCM 1024：143.82 vs.28.60），但在PA-ACC方面没有显著差异。在表3中，我们报告了两个不同λ值的分段聚类防御，以描绘鲁棒性的权衡差距。我们在补充材料的第4节中的观察结论是，将分段聚类的正则化强度降低到例如λ =0.0001，或者将模型与分段聚类一起进行微调，而不是进行端到端的正则化训练，会导致相对较高的干净准确性，但不显示任何进一步的鲁棒性优势。04.3. 将OCM与分段聚类相结合0我们测试了分段聚类与提出的OCM的兼容性。表4展示了使用OCM 16和分段聚类（λ =0.0005）的ResNet-20在CIFAR-10上的实验。与仅使用OCM16相比，隐蔽的T-BFA需要翻转更多的位数，对于8位和4位量化的ResNet-20模型分别需要17和65个位，导致PA-ACC降低了5-6％以影响隐蔽性。对于TA-LBF，PA-ACC降至最低约80％，同时需要翻转更多的位数。我们得出结论，当两种防御方法在端到端的正则化训练流程中结合在一起时，可以获得更高的鲁棒性收益。04.4. 进一步的实验0非哈达玛德型Rand-OCM的消融研究：我们对将哈达玛德型输出码位串替换为随机生成的二进制码（Rand-OCM）进行了消融研究，即任意给定的两个码之间的重叠不一定是N/2。为了生成可行的随机码，使得DNN仍然可以成功训练，我们必须确保每个长度为N的位串的至少r个索引为-1，其中r在N/4和3N/4之间均匀采样，每个类别都是如此。位串的其余索引设置为1。在CIFAR-10上，ResNet-20使用Rand-OCM 16和Rand-OCM64分别获得90.0％和90.5％的测试准确率。在TA-LBF下，这些模型分别需要24.5和69.9个位翻转，而使用OCM16和OCM64则需要31.1和73.6个位翻转（见表1）。在ImageNet上，Rand-OCM1024模型的干净准确率为65.7％，隐蔽的T-BFA需要91.1个位翻转，而使用OCM1024则需要72.7％的干净准确率和121.2个位翻转（见表3）。总体而言，我们得出结论，所提出的码设计符合预期，既有助于良性准确性，又有助于对隐蔽攻击的鲁棒性。0随机位错误鲁棒性：我们通过研究这些模型在由于低电压操作的DNN加速器可能发生的随机位错误下的容错性，解决了另一种现实参数脆弱性设置。OCM16+PCΔOCM16OCM16+PCΔOCM16ASR99.45-0.0399.47-0.11PA-ACC47.88-5.3447.66-6.07# bit-ﬂips113.24+17.59162.76+65.65ASR100.00+2.30100.00+3.10PA-ACC81.39-5.0680.90-4.34# bit-ﬂips37.23+6.1132.95+10.0430405060708090VanillaPiecewise Cl.OCM16OCM64010203040506070VanillaPiecewise Cl.OCM1024133950表3. 在ImageNet上使用8位和4位量化的ResNet-50模型进行隐蔽的T-BFA [ 26 ]评估。攻击运行直到攻击者使用的所有源类别集示例都被错误分类。测试集干净准确率，ASR和PA-ACC百分比（％）与攻击所需的#位翻转一起呈现。所有评估指标均在500个有针对性的攻击实验中进行平均。0普通的分段聚类 [ 16 ] 我们的0λ = 0.0001 λ = 0.0005 OCM 1024 OCM 20480ResNet-50(8位)0ImageNet上的干净准确率 75.92 74.64 68.73 72.71 73.250隐蔽的T-BFA [ 26 ]0ASR（↘） 94.74 91.29 89.32 91.35 92.37 PA-ACC（↘） 68.64（9.25） 57.64（11.4） 54.81（10.2）50.93（10.9） 50.63（11.3） #位翻转（↗） 7.69（3.88） 26.24（13.8） 48.65（17.0） 121.26（297.3）145.05（366.4）0ResNet-50(4位)0ImageNet上的干净准确率 72.56 70.26 65.36 70.98 71.020隐蔽的T-BFA [ 26 ]0ASR（↘） 91.81 92.57 90.49 89.68 90.20 PA-ACC（↘） 70.50（4.58） 65.87（7.52） 59.14（7.75） 59.87（7.20）59.86（7.23） #位翻转（↗） 8.97（3.63） 14.88（4.69） 28.60（9.38） 143.82（299.29） 122.06（347.96）0表4.对使用OCM和分段聚类（PC）训练的ResNet-20模型在CIFAR-10上进行评估。 Δ OCM 16 表示与

下载后可阅读完整内容，剩余1页未读，立即下载