远程验证深度学习模型完整性的新方法

59 浏览量更新于2023-10-18 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4729木马DNN触发“克里斯·派恩”“ 裴杜娜”“A.J.巴克利”“A.J. 巴克利”正确输出恶意输出深度神经网络何泽成普林斯顿大学zechengh@princeton.edu张天威无关联tianweiz@alumni.princeton.edu普林斯顿大学rblee@princeton.edu摘要提供了大量基于云的服务，以帮助客户开发和部署深度学习应用程序。当客户在云中部署深度学习模型并将其提供给最终用户时，能够验证部署的模型没有被篡改非常重要。在本文中，我们提出了一种新颖实用的方法来验证远程深度学习模型的完整性具体地说，我们定义了敏感样本指纹，这是一小部分人类不明显的转换输入，使模型输出对模型的参数敏感即使是很小的模型变化也可以清楚地反映在模型输出中。对不同类型的模型完整性攻击的实验结果表明，该方法是有效的和高效的。它可以以高准确率（>99.95%）检测模型完整性漏洞，并保证对所有评估的攻击零误报。同时与非敏感样本相比，仅需要多达103倍的模型推断1. 介绍在过去的几年里，深度学习（DL）得到了快速发展。深度学习模型的一个流行类别是深度神经网络（DNN），其已被广泛用于许多人工智能应用，例如图像识别[20，25]、自然语言处理[11，28]、语音识别[19，13]和异常检测[29，21]。为了使部署深度学习应用程序变得自动和方便，许多IT公司提供基于云的服务，用于深度学习模型训练和服务，通常被称为机器学习即服务（MLaaS）。例如， Google 机器学习引擎 [1] 、 Microsoft Azure MLStudio [2]和Amazon Sage- Maker框架[3]使客户能够在线部署他们的模型，并向最终用户发布查询API。客户按查询付费。然而，在这方面，部署 MLaaS中的深度学习任务带来了新的安全问题。首先，模型所有者不再管理或控制云中的实际模型。这就给了对手故意篡改远程模型的机会，使其发生故障。已经提出了针对模型完整性的不同攻击：例如，在一个实施例中，DNN木马攻击[26，17，10]，poi-soning攻击[7，30，34，31]等。这些攻击已被证明在各种基于DNN的应用程序中是实用的，例如自动驾驶[17，26]，用户认证[10]和语音识别[26]。图1显示了攻击基于深度学习的人脸识别系统的示例：攻击者可以通过稍微修改人脸分类器将特洛伊木马插入身份验证模型。该模型仍然可以对原始人脸给出正确的预测结果。然而，它会错误地将一个带有特定眼镜的任意人归类为“A”。巴克利。利用这种技术，对手可以很容易地绕过身份验证机制而不被发现。图1：DNN特洛伊木马的图示一个没有触发器的人戴着一副眼镜的人，即。触发器被错误分类了第二，不诚实的云提供商可能会在客户不知情的情况下偷偷违反服务水平协议（SLA），以获得经济利益[35，8]。例如，云提供商可以使用更简单或压缩的模型来替换客户的模型，以节省计算资源和存储[15]。客户对这种违反SLA的行为感到恼火，尽管它会产生微妙的影响4730我θ我i ii=1模型的准确性，因为他们支付的资源比他们实际得到的更多。然而，提供一种方法来保护部署在云中的DNN模型的模型完整性是具有挑战性的：(1)复杂的云环境不可避免地会造成很大的攻击面。(2)一旦客户将他们的模型提交到云，模型的安全状态对客户是不透明的或不可直接验证的。(3)对于某些模型完整性攻击，攻击者仅对模型进行(4)云提供商可能不会及时主动检查数据完整性状态。这给了对手破坏模型2. 背景及相关工作2.1. 深度神经网络深度神经网络（DNN）是一个参数化函数fθ：X<$→ Y，它将输入x∈ X映射到输出y∈ Y。神经网络通常由输入层、输出层和一个或多个隐藏层组成。输入和输出。每一层都是一个单元的集合，神经元，连接其他层的神经元。神经网络的训练过程就是寻找能准确反映X和Y之间关系的最佳参数θ。为了实现这一点，用户需要具有 N 个样本的训练数据集 D train={x train ， ytrain}N，其中x train∈ X是输入，y train∈ Y是在被发现在本文中，我们首次展示了一种新的对应的地面实况标签。则损失函数L测量地面实况与地面实况之间的误差输出y train和预测输出f（x train）。目标研究DNN模型i θ i可以通过查询模型来动态验证，一些精心设计的输入。具体来说，我们提出了敏感样本指纹识别，这是一种新的方法，可以让客户验证存储在云中的深度学习模型的完整性。的主要优点训练一个神经网络的方法是最小化这个损失函数，∗（等式（1））。在计算出最佳参数θ后，给定测试输入xtest，输出ytest=f（xtest）可以预测。这种预测称为推理。ΣN小火车敏感样本为：①高效可靠，>99。95%的攻击检测率在所有评估-01 - 02 -2016刘晓波（θi=1L（yi， fθ（xi ））（1）2、保证零误报，3、效率-尽管用正常图像广泛地查询模型可能检测到完整性破坏，但是在按查询付费的基础上，这是非常昂贵和低效的。我们提出的方法实现了高达103×更少的模型推断，只需要黑盒访问数据，通过API使用模型。本文的主要贡献是：• 我们是第一个使用精心设计的转换输入作为防御，以保护DNN的完整性。• 一种用于深度神经网络完整性验证的新型高效灵敏样本生成方法，实现了>99. 95%的攻击检测率只有黑盒访问。• 一种最大主动神经元覆盖样本选择算法，用于从敏感样本中生成DNN模型的指纹，减少了重复的次数所需的模型推理高达103×。• 全面评估我们的方法对各种应用程序和模型的不同类型的攻击。本文其余部分的组织结构如下：第2节给出了深度神经网络、完整性攻击和防御的背景。第3节描述了我们的新方法--灵敏样品指纹。第4节介绍了用于评估的实验设置、数据集和攻击。第五节给出了实验结果和讨论。我们在第6节中结束本文。2.2. DNN完整性攻击和防御神经网络木马攻击。攻击目标是注入将木马程序植入模型中，使模型错误分类包含特定触发器的样本[26，17]。为了实现这一点，给定一个预训练的DNN模型，对手仔细选择一些他通过使用带有触发器的数据重新训练模型，修改从选定神经元到最后一层的路径上的权重有针对性的投毒攻击。攻击的目标是迫使模型错误分类目标类。对手通过用精心制作的恶意样本毒害数据集来实现这一点。我们考虑两种类型的此类攻击：第一种是错误类中毒攻击[7，30，34]，其中目标类的受损模型的输出可以是任意的。第二种是错误特定的中毒攻击[31]：对手修改模型以将目标类别错误分类为他期望的固定类别。模型压缩攻击。攻击者有不同的压缩技术来实现这一点，例如，[18][19][20][21][22][23][24][25][26]架构优化[24，23]。的防御合作. 过去的工作旨在击败模型完整性攻击。对于DNN木马攻击，Liu et al.[27]提出检测数据集中的异常，或通过模型再训练或输入预处理删除木马。用于数据4731i=1W¨¨中毒攻击，典型的解决方案也是通过统计比较从数据集中识别虽然这些方法在白盒模型上是局部有效的，但是它们不能保护在远程MLaaS平台中服务的黑盒模型。在远程深度学习服务的场景中，Ghodsi[15]提出了一个协议来验证是否一个不可信的服务提供者欺骗模型所有者与一个更简单和更不准确的模型。然而，这种方法只能应用于具有多项式激活函数的特定类别的神经网络，并且不支持最大池化。3. 敏感样品指纹图谱• 很难发现。生成的指纹应该看起来类似于自然输入，这样对手就无法识别。nize它是用于完整性检查，还是用于正常的模型服务。• 可概括的。指纹生成算法应该独立于机器学习模型，训练数据集和攻击。它必须能够检测到任何未知的攻击。3.2.单个灵敏样品生成DNN模型可以定义为函数y=fθ（x）。这里θ是模型中所有参数的集合我们将模型函数重写为y=f（W，x）= [y，...，y]T=1r[f（W，x），.，f（W，x）]T. 这里，W= [w，w，...，w]是3.1. 概述我们考虑攻击场景，其中客户将机器学习模型fθ上传到云提供商以进行模型服务。然而，对手可能会编译该模型并偷偷地将其更改为fθ′。客户想要验证云提供商提供的黑盒模型是否就是他上传的模型虽然用正常图像扩展查询模型可以检测完整性破坏，但在按次付费查询的基础上，这是非常昂贵和低效的1r1 2 s我们考虑的θ中感兴趣的参数的子集，包含权重和偏差。我们假设在正确的模型中W被修正，′即 W=W+Ww。的相应输出正确和折衷的模型变为y=f（W，x），′y =f（W+ W，x）。为了精确′通过y和y检测这种变化，′应该最大化y和y的差值v=argmaxx||f（W+W，x）− f（W，x）||22我们的主要想法是，我们可以小心地产生一个小的=argmaxx||f（W+W，x）− f（W，x）||2（二）变换输入集{v}n，其输出预测=argmaxR2Σ||f（W+W，x）− f（W，x）||i i=1x i=1i i2任何妥协的模型都将不同于外面的模型。原始模型预测的看跌期权。我们称这种转换后的输入为敏感样本。我们使用一个哪里||·||2扩张：表示L2向量的范数与泰勒不这些变换输入及其对应的小集合-fi（W，x）2f（W+ W，x）= f（W，x）+我将正确的模型输出作为DNN的指纹0 +0= 0（||Δw||（2）（3）W模型，即FG={（vi，fθ（vi））}n。为了验证模型的完整性，客户首先在本地使用正确的模型生成请注意，我们假设没有先验知识的brown（如何对手修改模型）。考虑将Ww作为W的扰动，我们将等式（3）近似为一阶项：Sensitive-采样并获得相应的输出y=fθ（v）。为了验证，他只需要发送2||2≈||2≈||不fi（W，x）W2Δ w||第二（四）条将这些样本发送给云提供商并获得输出∝||f i（W，X）||2（五）′ ′2y=fθ′（v）. 通过比较y和y，客户可以检查模型是否完整或更改。设计一个好的指纹，特别是一个好的输入变换，对完整性检查有一定的要求我们将合格指纹定义为满足以下条件的指纹注意，等式（4）的左手侧对正确的DNN和具有权重扰动的折衷DNN之间的输出y1的差进行建模。在等式（5）中，我们得出结论，以下特点：||∂fi(W,x)||可以模拟元素的• 有效性指纹必须对模型参数的细微修改在一些-当敌人改变少量参数时，DNN输出对应于参数。因此，f（W，x）的灵敏度S可以定义为：¨ ¨2rfi（W，x）2 <$f（W，x）<$例如选择性神经元修饰[26]。• 效率指纹必须重量轻，有效。S= 1||||2= ¨¨W（六）24732效率，以减少核查的成本和开销，并避免引起任何怀疑。• 黑盒验证云提供商提供的模型对客户来说是一个黑盒子，因此验证阳离子工艺在此条件下必须可行。哪里||·||F是矩阵的Frobenius范数[4]。等式（6）作为我们问题的主要目标函数在实践中，对样本有辅助约束。样本正确性。在某些情况下，对样本数据的范围有一些要求，表示为[p，q]。4733¨¨XFW2关于我们例如，所有像素都必须在[0，255]范围内才能输入有效的图像。小扰动。在第3.1节中，我们描述了敏感样本应该看起来像正常输入，以防止攻击者逃避完整性检查。因此，我们增加了一个约束：所生成的样本是从原始数据分布DX，即所生成的样本与v0的差不应超过小的阈值Δ V。等式（7）总结了该优化问题的目标和约束。约束集[p，q]m是一个凸集，因此我们可以使用投影梯度上升[5]来生成v。¨ ¨2f（W，x）v= argmax？？W？3.3. 指纹生成：最大活跃神经元覆盖（MANC）样本选择在某些情况下，单个敏感样本可能不足以检测任何重量变化。我们观察到，主要原因是，如果一个神经元在给定输入样本的情况下是不活动的，则连接到该神经元的所有权重的灵敏度都变为零，即。对这些权重的微小修改将不会反映在输出中。我们在本文的扩展版本中证明了这一现象[22]。为了解决这个问题，我们提出了最大活跃神经元覆盖（MANC）样本选择算法，该算法从生成的敏感样本中选择少量样本，以避免不活跃的神经元。我们的标准是最小化未被任何敏感样本激活的神经元的数量，或者等价地，最大化被所选样本激活至少一次我们称之为-MS.T. x∈[p，q]x−v0（七）敏感样本的一组样本及其相应的模型输出，DNN模型的指纹我们可以将其抽象为一个最大覆盖问题[6，14]。作为输入，我们得到了一袋基因-我们展示了一个单一的敏感样本生成算法，算法1中的rithm。第8行使用来自自然数据分布DX的任何样本对输入进行采样。第10行建立了元素损失函数||fi（W，x）||二、第11行设置样本正确性约束。 12号线循环，v仍然类似于原始初始化v0。设置ITR最大值以避免无限循环。第14-17行在灵敏度上应用梯度上升，也称为等式（6）中的S第18行将v投影到样本正确性约束集上。经验证的敏感样本B={S1，...，SN}，并且k，的 number 的期望样品假设每个敏感样本Si激活一组神经元Pi。集合{Pi}可以具有共同的元素（神经元）我们将选择这些集合中的k个，使得元件（神经元）被覆盖，即，所选择的集合的并集具有最大大小。我们定义至少被激活一次的神经元集合主动神经元覆盖（ANC）。是单个激活的神经元P的联合，即SkP。ii=1k算法1生成敏感样本我们希望最大化元素的数量（neu）。一曰：函数灵敏度-样本-Gen（f、W、itr max、max、lr）在ANC中，即最大化|Ki=1 PK|.第二章： /* f：目标模型 */3：/* W：考虑的参数 */4：/* itr max：最大迭代次数 */5：/*第八章： v0= Init Sample（）9：v，i=v0，0获得ANC的准确最大值是时间-在我们的实验中消耗和不必要的。相反，我们使用贪婪搜索来近似最大值。直观地说，在每次迭代t中，我们选择一个包含最多未覆盖神经元的集合Pt。我们在算法2中显示了MANC算法的伪代码，并在图2中说明了MANC算法的一个步骤¨ ¨210：lk=，k= 1，2... N个输出2m11：约束集=[p，q]12：while（|v −v0|≤）&&（i 0}11：结束十二：13：/* 外部循环每次选择一个样本 */14：for（i= 0;i k;i++）do15：/* 所有样本中的内循环，以找到激活最大数量的未覆盖神经元的内循环 */16：for（j= 0;j<|B|;j+ +）do T3.4. 模型输出规格模型输出的形式会显著影响可通过黑盒访问检索我们考虑三种形式的y作为分类任务的DNN的输出：• 案例1：每个类别的数值概率。• 案例2：Top-k（k> 1）分类标签。• 案例3：Top-1分类标签。一般来说，输出中包含的信息越少（从情况1（最多）到情况3（最少）），生成有效的敏感样本和指纹就越难。然而，在我们的实验中，我们提出的算法可以检测到所有已知的真实攻击的完整性破坏，即使只提供了前 1 个标签（情况 3 ），具有高准确性（>99.95%，10个样本）。我们的实验还表明17：新覆盖的j=未覆盖的Pj18：Nj 为|新覆盖j|19：结束20：l=argmaxjNj21：Fingerprint.add（B[l]）22：未覆盖=未覆盖-P123：结束二十四：返回指纹新覆盖=4新覆盖=8如果提供更多的信息（情况1和2），我们需要更少的样本（3个样本）我们将在第5节中详细讨论这些结果3.5. 敏感样本和对抗性样本我们提出的敏感样本的一个类似和流行的概念是对抗性示例[33]：对手故意将人类不可察觉的置换mx添加到正常样本x中，因此模型给出错误的该样本的预测，即，fθ（x+n x）/=fθ（x）.在本文中，我们引入了敏感样本，另一种类型的转换输入，也具有来自正常样本的人类不明显的排列，即，′选择！z=z+z。而不是让模型给出错误的输出时，敏感样本的输出会发生变化′ ′已覆盖=8（c）第（1）款神经元已覆盖神经元未覆盖新覆盖=3利用模型参数，即， fθ（z）/=fθ+ fθ（z）。因此，与通常被用作作为一种规避攻击策略，敏感样本可以作为一种强大的方法来防御模型，每个新样本Pi的活动神经元图2：在算法2中选择一个样本的图示（第16-21行）。假设集合Fingerprint最初包含一个选择的样本（年轻女士，左）。我们想从三个候选人（a），（b）和（c）中选择下一个样本我们计算已经被S中的样本激活的神经元（红色），即活动神经元覆盖，以及未覆盖的神经元（白色）。我们还计算由每个候选者激活的神经元（Pi）。候选样品（a）、（b）和（c）分别激活4、8和3个未覆盖的神经元。因此，我们将候选者（b）添加到指纹并更新覆盖的神经元。整体攻击表1显示了我们的敏感样本和对抗性示例。表1：敏感样本敌对的例子。⋆ 还有其他方法可以生成对抗性示例。（b）第（1）款敏感样本反例相似性转换后的输入目的国防攻击设置模型参数变化′ ′fθ（z）=/fθ+θ（z）输入扰动fθ（ x+ x）/= fθ（ x）一代白盒白盒/黑盒使用暗箱暗箱优化目标最大限度地提高灵敏度模型参数最大化成本函数473514121086420403530灵敏度2520SNR010000200003000040000151050-五万迭代3WuhanF44. 执行4.1. 攻击覆盖范围我们提出的方法是通用的，能够检测到完整性违反由于各种攻击DNN模型- els。我们对所有四种类型的第2.2节中的真实攻击：神经网络木马攻击、错误通用和错误特定中毒攻击以及模型压缩攻击。这些包括从细微的模型变化到重大变化。我们还考虑了最常见的情况：对手将任意神经元的权重改变为任意值。我们的目标是调查的能力，我们的方法在防御一般的模型完整性违反。我们展示了扩展版本中任意权重变化的结果[22]。4.2. 数据集和模型对于大多数完整性攻击，我们使用与文献中相同的数据集和模型。在表2中，我们列出了模型规格以及攻击结果。原始精度表示原始正确模型的精度。攻击目标表示攻击者请注意，我们没有对攻击技术做任何具体的假设，提供针对所有类型的模型修改的主动保护。4.3. 超参数和超分辨率−在我们的实验中，我们将学习率设置为1* 10.我们选择ADAM作为我们的优化器。我们把最大值设为1000。我们将最后一层中的所有权重视为感兴趣的参数W。这是因为在所有现有的攻击中，最后一层必须被修改，并且输出对这一层最敏感。我们重现了上述四类DNN完整性攻击，并使用Tensorflow 1.4.1实现了我们的解决方案我们运行我们的实验在一台服务器上与1 Nvidia 1080Ti GPU，2英特尔至强E5-2667 CPU，32 MB的高速缓存和64 GB的内存。在此设置下，每个敏感样本平均需要3.2秒才能生成5. 评价5.1. 敏感样本生成我们首先在图3中展示了VGG-Face数据集上的生成机制和生成的敏感样本图3左侧显示了敏感样本生成过程2期间敏感度和相似性之间的权衡。蓝线表示灵敏度，即去在等式（6）中，||n（W，x）||二、橙色线表示SNR方面的相似性在优化开始时，相似度较高，反映出生成的2在图3中，等式（7）中的约束被移除，以显示生成机制。图像与原始输入相似。然而，灵敏度较低，表明DNN输出对权重变化不敏感。直接使用原始图像作为指纹是不好的。随着优化的进行，灵敏度显著增加，并最终收敛到一个高值。同时，在样本生成中引入了伪影，降低了相似性。在图3中，我们展示了VGG-Face数据集上Sensitive-Samples的代表性示例。(a) 原始图像5(b) 生成的敏感样本图3：左侧：敏感样本生成过程中的敏感性和相似性。右：原始和生成的敏感样本图像，用于VGG Face数据集的完整性检查。我们在图4中分别显示了CIFAR-10、GTSRB交通标志和AT T数据集上生成的更多敏感样本生成的图像与原始输入非常相似。因此，攻击者很难确定它是自然图像还是用于完整性检查的测试图像。生成更多敏感样本可以在扩展版本中找到[22]。5.2. 敏感样本有效性我们将成功检测定义为请注意，为了更清楚地显示我们方法的有效性，我们显示了(1) 非敏感样品（绿色），（2）敏感样品+ 随机选择（橙色）和（3）敏感样本+ MANC（蓝色）对抗图5中的四种不同攻击。在情况（1）中，我们从原始验证集中随机选择N个S在情况（2）和（3）中，我们首先生成一个500个敏感样本的包，并分别使用随机选择和MANC选择其中的NS 个我们重复实验10，000次，并报告平均缺失率。我们观察到敏感样本+ MANC在模型完整性验证中非常有效。在表3中，对于(a) 神经网络木马攻击，（b）错误-通用毒药-ing攻击和（c）错误特定中毒攻击，由3个敏感样本组成的指纹足以−达到10%以下的缺失率.对于（d）模型灵敏度SNR / dB4736表2：评估中的数据集和模型。数据集任务模型层数# Conv layersFC层数原始准确度攻击目的攻击技术攻击成功率神经网络木马攻击VGG-face人脸识别VGG-161613374.8%使用触发器对输入进行错误分类选择性神经再训练百分百靶向中毒错误类属GTSRB交通标志识别CNN761百分之九十五点六错误分类交通标志数据中毒百分之九十八点六特定错误GTSRB交通标志识别CNN761百分之九十五点六错误分类到数据中毒87.3%模型压缩CIFAR-10图像分类CNN76187.59%节省存储精度降低4倍压缩86.94%任意权重修改在T脸识别MLP10195.0%一般模型修改任意修改⋆⋆ 我们评估它的整体完整性，因此没有攻击成功率。(a) 原始图像（CIFAR-10）(b) 生成的敏感样本（CIFAR-10）(c) 原始图像（GTSRB交通标志）(d) 生成的敏感样本（GTSRB交通标志）(e) 原始图像（AT T）(f) 生成的敏感样本（AT T）图4：分别在CIFAR（a）（b）、GTSRB交通标志（c）（d）和AT T（e）（f）数据集上进行完整性保护的原始和生成的敏感样本。虽然压缩模型被自由地重新训练以保持正常输入的准确性，但我们的敏感样本指纹仍然检测到99.96%的完整性破坏（0.04%的缺失率），只有8个敏感样本。此外，我们还比较了表3：在四次真实攻击中关于N.r. t至N.S.的攻击\NS123458神经网络木马攻击5.930.220.000.000.000.00错误-一般中毒攻击12.260.040.010.000.000.00错误特定中毒攻击2.200.010.000.000.000.00模型压缩攻击48.9315.564.721.810.830.04非敏感样本缺失率，敏感样本+图5中的随机选择和MANC。我们观察到，基于敏感样本的方法总是获得比非敏感样本低得多的丢失率，不考虑NS和攻击。敏感样本+ MANC始终实现比敏感样本+ 随机选择，抵御所有攻击。假阳性。我们提出的解决方案的另一个优点是，假阳性是保证为零。我们提出的敏感样本防御利用了DNN模型推理的确定性，因此不会出现误报对于我们评估的所有模型和数据集都是如此输出规格。我们评估模型输出规格的影响，例如。top-k、数值概率和数字精度。我们在表4中列出了针对神经网络木马攻击的对应于不同输出规格（列）和N S（行）的丢失率。针对其他攻击的更多结果显示在扩展版本中[22]。 “p-dec- 例如，表4表明，较大的k、数值概率和高精度的概率在输出中嵌入更多的信息，并降低了遗漏率。表4：相对于输出质量标准的缺失率（%）样本数量NStop-1前3top-5顶部-1-p-dec2p-dec-1p-dec-215.930.000.000.430.210.0020.220.000.000.000.000.0030.000.000.000.000.000.005.3. 灵敏样品效率除了在模型完整性验证的有效性，我们提出的方法也是非常有效的。我们特别考虑通过减少所需样本（模型推断）的数量来最大限度地降低验证成本我们在表5中显示了针对四种真实攻击实现给定缺失率α所需的样本数我们将效率定义为非敏感样本和敏感样本+MANC之间所需样本（模型推断）数量在或-473710.90.80.70.60.50.40.30.20.10非敏感样本敏感样本+随机敏感样本+MANC0 1 2 3 4 56样本数量NS（一）10.90.80.70.60.50.40.30.20.100 2 4 6 810样本数量NS（b）第（1）款10.90.80.70.60.50.40.30.20.100 2 4 6 810样本数量NS（c）第（1）款10.90.80.70.60.50.40.30.20.10非敏感样本敏感样本+随机敏感样本+MANC0 2 4 6 8 10样本数量NS（d）其他事项图5：针对（a）神经网络木马攻击，（b）错误通用中毒攻击，（c）错误特定中毒攻击和（d）模型压缩攻击的不同方法的缺失率比较。为了揭示细微的缺失率，我们将5.2节中的实验重复了108次。我们提出的方法显着减少了所需的样本数量，无论α，高达103倍。特别是在小α下，该方法的效率更高，在安全关键应用中具有更明显的优势这需要严格的完整性验证。表5：针对四次真实攻击，达到给定的缺失率α所需的样本数。我们提出的方法将所需的样本减少了103倍。神经网络木马攻击缺失率α−810−710−610−510−410−310−210非敏感样本74655647382821敏感样品10987643敏感样品+MANC4433322效率18.5x16.5x18.7x15.6x12.6x14.0x12.5x错误-一般中毒攻击缺失率α10−8−710−610−510−410−310−210非敏感样本33229124920816612583敏感样品1412119764敏感样品+MANC4444322效率83.0x72.8x62.3x52.0x55.3x62.5x41.5x错误特定中毒攻击缺失率α−81010−710−6−510−410−31010−2非敏感样本30927023219315511677敏感样品11987643敏感样品+MANC3333322效率103.0x90.0x77.3x64.3x51.6x58.0x38.5x模型压缩攻击缺失率α−810−710−610−510−410−310−210非敏感样本502439376314252189126敏感样品78705951402920敏感样品+MANC3131302825188效率16.2x14.2x12.5x11.2x10.1x 10.5倍15.8x5.4. 对抗性微调整体攻击：错误一般中毒和错误特定中毒。表6显示了微调前后使用不同数量的验证敏感样本的检测缺失率。请注意，由于客户可以从任意正常图像生成指纹，因此我们假设对手使用与客户不同的敏感样本微调模型值得注意的是，微调策略可以-这并不帮助对手逃避检测，并且实际上使完整性检查更容易。这是因为灵敏度样本被设计为输出与原始模型非常不同，因此对灵敏度样本进行微调会使调整后的模型更加偏离原始模型。这种额外的偏差可以更容易地被其他敏感样本捕获。表6：缺失率（%）随着攻击者对抗敏感样本的微调（AF）而降低。实验结果表明，该方法对复杂的攻击具有较好的鲁棒性.攻击\NS12345错误-一般中毒（AF前）12.260.040.010.000.00错误-一般中毒（AF后）4.820.010.000.000.00缺失率增加-7.44-0.03-0.01––错误特异性中毒（AF前）2.200.010.000.000.00错误特异性中毒（AF后）0.020.000.000.000.00缺失率增加-2.18-0.01–––6. 结论在本文中，我们证明了远程黑盒深度学习模型的完整性可以动态验证。敌人可能会试图逃避我们的检测方法。一种可能的策略是，攻击者可以从完整的模型中生成敏感样本，并使用这些样本来微调受损的然后，这种微调的模型可能会使客户我们将这种潜在的规避攻击称为对抗性微调（AF）。我们用两个模型来评估这种规避策略-通过使用一些精心设计的人类不明显的输入查询部署的模型并观察它们的输出来确定。我们提出的检测方法定义并使用了Sensitive-Samples，它引入了与权重对应的DNN输出的灵敏度。模型参数的任何微小修改都可以反映在输出中。我们对不同类别的真实DNN完整性攻击的评估表明，我们的检测机制可以有效地检测DNN完整性漏洞。非敏感样本敏感样本+随机敏感样本+MANC缺失率α非敏感样本敏感样本+随机敏感样本+MANC缺失率α缺失率α缺失率α4738引用[1] https://cloud.google.com/ml-engine/docs/技术概述，2018年。[2] https://azure.microsoft.com/en-us/services/machine-learning-studio/，2018.[3] https://aws.amazon.com/sagemaker/，2018年。[4] http://mathworld.wolfram.com/FrobeniusNorm.html，2018.[5] https://www.stats.ox.ac.uk/：//www.example.com/blog-opti-pgd.html，2018.[6] A. A. Ageev和M. I.斯维里登科给定零件尺寸的最大覆盖率和最大截割的近似算法.在计算机程序设计和组合优化国际会议上，第17-30页。施普林格，1999年。[7] B.比焦湾Nelson和P.拉斯科夫针对支持向量机的毒化攻击。第29届国际机器学习会议集，第1467-1474页。Omnipress，2012年。[8] K. D.鲍尔斯M. Van Dijk，A. Juels，A. Oprea和R. L.里维斯特如何判断您的云文件是否容易受到驱动器崩溃的影响。2011年ACM计算机和通信安全会议[9] M. Charikar，J.Steinhardt和G.Valiant 从不可信的数据中学习在年度ACM SIGACT计算理论研讨会上。ACM，2017。[10] X. Chen C.，马缨丹属刘湾，澳-地Li，K. Lu和D.歌使用数据中毒对深度学习系统进行有针对性的后门攻击ArXiv电子版：1712.05526，12月。2017年。[11] R. Collobert和J.韦斯顿自然语言处理的统一架构：具有多任务学习的深度神经网络。第25届机器学习国际会议论文集，第160-167页。ACM，2008年。[12] M. Courbariaux，Y. Bengio和J.大卫。用低精度乘法训练深度神经网络。arXiv预印本arXiv：1412.7024，2014年。[13] G. E. Dahl、D.于湖，加-地Deng和A.阿塞罗。用于大词汇量语音识别的上下文相关预训练深度神经网络。IEEE Transactions on Audio ， Speech ， and LanguageProcessing，20（1）：30[14] 联合费格近似集合覆盖的阈值为ln nJournal of the ACM（JACM），45（4）：634[15] Z. Ghodsi，T. Gu和S.加格Safetynets：在不受信任的云上对深度神经网络进行可验证的测试。在神经信息处理系统的进展，2017年。[16] Y.贡湖，澳-地Liu，M. Yang和L.布尔德夫使用矢量量化压缩深度卷积网络。arXiv预印本arXiv：1412.6115，2014。[17] T.古湾，澳-地Dolan-Gavitt和S.加格Badnets：识别机器学习模型供应链中的漏洞。CoRR，abs/1708.06733，2017。[18] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。在2016年国际学习代表会议上[19] A. Y. 汉南角凯斯，J。卡斯珀湾卡坦扎罗湾迪亚莫斯，E.埃尔森河Prenger，S.萨特伊什Sengupta，A. Coates和A. Y. Ng.深度演讲：扩展端到端语音识别。CoRR，abs/1412.5567，2014年。[20] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差CoRR，abs/1512.03385，2015。[21] Z. He，A.Raghavan，S.Chai和R.李你利用增强的深度学习检测电网上的零日控制器劫持攻击arXiv预印本arXiv：1806.06496，2018。[22] Z.他，T. Zhang和R. B.李你Verideep：通过敏感样本指纹实现深度神经网络的 arXiv 预印本 arXiv ：1808.03277，2018。[23] M. G. Hluchyj和M. J·卡罗尔。洗牌网：广义完全混洗在多跳光波网络中的应用。 Journal of LightwaveTechnology，9（10）：1386[24] F. N.扬多拉，S。汉，M。W.莫斯基维茨K.阿什拉夫，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍，…0.5 mb模型大小。arXiv预印本arXiv：1602.07360，2016.[25] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页[26] Y. Liu，S.马，Y。Aafer，W.- C. Lee，J. Zhai，W. Wang和X. 张某木马攻击神经网络。在第25届年度网络和分布式系统安全研讨会上，NDSS[27] Y. Liu ，Y. Xie，和A. 斯里瓦斯塔瓦。神经木马。IEEEInternational Conference on Computer Design ，2017。[28] M. Luong，H. Pham和C. D.曼宁基于注意力的神经机器翻译的有效方法。CoRR，abs/1508.04025，2015年。[29] P. Malhotra，L. Vig，G. Shroff和P.阿加瓦尔用于时间序列异常检测的长短期记忆网络在诉讼中。 Pressesuniversitaires de Louvain，2015.[30] S. Mei和X.竹使用机器教学来识别对机器学习器的最佳训练集攻击在AAAI，第2871-2877页[31] L. 穆恩诺兹-贡扎莱兹湾Biggio ，A. Demontis ，A. 各位，诉Wongrassamee，E.C. Lupu和F.罗莉用反向梯度优化来毒害深度学习算法第10届ACM人工智能与安全研讨会论文集，第27-

下载后可阅读完整内容，剩余1页未读，立即下载