深度神经网络通用对抗扰动进行指纹识别

78 浏览量更新于2023-10-25 收藏 930KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13430通过通用对抗扰动对深度神经网络进行全局指纹识别紫瑞鹏酒店1* 李少峰1*陈国兴1、张成2、朱浩进1、薛民辉3、41上海交通大学2俄亥俄州立大学3CSIRO{彭晓瑞，邵凤丽，郭兴晨，朱华杰}@ sjtu.edu.cn，osu.edu，jason. adelaide.edu.au摘要在本文中，我们提出了一种新颖而实用的机制，使服务提供商能够验证是否有一个受检模型是从受害者模型通过模型提取攻击被盗。我们的关键见解是，DNN模型的决策边界的轮廓可以通过其通用对抗扰动（UAP）来唯一表征。非盗版模型属于低维子空间，盗版模型的在此基础上，我们提出了一种用于DNN模型的UAP指纹识别方法，并通过对比学习训练了一个编码器，该编码器将指纹作为输入，输出一个相似度得分。广泛的研究表明，我们的框架可以检测模型的知识产权（IP）违反的信心> 99.99%，只有20个指纹的可疑模型。它还具有跨不同模型架构的良好通用性，并且对于被盗模型的后期修改具有鲁棒性。1. 介绍在过去的几年里，深度学习已经成为一种很有前途的方法，也是广泛的现实世界应用的基础。随着网络体系结构变得越来越复杂，训练成本上升，训练有素的模型成为希望“窃取”它们的对手的有利可图的目标。通过查询这些模型的公开可用API，攻击者可以收集输出来训练盗版模型，称为模型提取攻击[4，6，7，16，31，37，42]。关于减轻模型提取攻击和保护训练模型的知识产权（IP）的现有工作分为两组[8，18]。第一组是基于水印技术[2，14，17，26，29，32，35]。这个想法是模型所有者在她的IP模型中引入后门（即，一个水印），这将持续期间*同等贡献。模型提取。通过检查可疑模型是否包含注入的水印，防御者可以确定该模型是否是盗版的。另一类是基于利用固有信息的指纹技术（即，决策边界）。观察到DNN模型可以通过其决策边界唯一地剖析，该决策边界也可能被盗版模型继承，可以通过检查可疑模型是否具有与受害者模型（几乎）相同的决策边界来识别模型提取攻击。一系列研究[5，13，24]采用对抗性示例来表示决策边界。然而，现有缓解计划的有效性受到了挑战。基于水印的解决方案遭受由水印引起的效用下降。另一个问题是，攻击者可以非法注入后门来证明所有权，这违反了不可伪造的要求[17]。对抗性示例只能捕获局部几何结构，特别是对抗性示例周围局部区域中决策边界的方向，由于提取期间的决策边界变化，这些方向可能无法转移到可疑模型[21，30]。在本文中，我们探索的方法来捕捉决策边界的全局特性。如图1所示，我们提出了一种更有效的基于通用对抗扰动（UAP）的模型提取检测方案[27]。精心选择的UAP向量v可以在几乎所有数据点上欺骗模型我们发现，UAP是从一个低维的子空间，其中包含大多数的决策边界的正常向量。由于决策边界依赖性，盗版模型的UAP子空间与受害者模型的子空间更加一致，这使得我们能够给出相似性得分。在将UAP应用于检测模型提取中存在两个挑战。首先，由于UAP的计算通常需要模型参数的知识（即，白盒访问），防御者难以通过黑盒访问获得可疑模型第二个挑战13431...受害者模型匹配率= 0.26盗版模式UAP相关相似性= 0.99基于局部对抗样本的指纹识别基于全局对抗扰动的指纹识别图1. 局部和普遍对抗扰动的图解。左：由于提取，局部对抗扰动对点对点决策边界修改的鲁棒性较低。右：我们的框架依赖于由普遍对抗扰动（UAP）描绘的决策边界的稳定相关性。如何可靠地区分盗版模型和同源模型（即，模型在相同的训练数据上训练，为了解决第一个挑战，我们提出了一个指纹函数，它是通过查询的嫌疑人模型与一些数据点，添加受害者一个信息量更大的指纹需要捕获尽可能多因此，我们采用K-均值聚类的受害者模型的最后一层，以确保数据点是均匀地选择从不同的源类，并向不同的目标类。为了解决第二个挑战，我们设计了一个编码器，将受害者模型，盗版模型和同源模型的指纹我们采用对比学习[9]（旨在缩短同一类中样本的距离并推开其他类的任何样本）来投影同源模型，使其比盗版模型更远离受害者模型综上所述，我们提出了一个更准确，更强大，更通用的知识产权保护框架，对模型extrac。攻击。我们的主要贡献是：• 我们提出的第一个尝试，利用UAP的分布依赖性来衡量模型之间的决策边界相似性。我们表明，UAP优于对抗扰动模型指纹。• 我们提出了一种新的模型所有权验证框架的基础上UAP指纹，实现了极具竞争力的检测率的AUC。• 与以前的指纹作品相比，我们demonstrate我们的框架检测修改后的盗版模型的能力• 在编码器的训练中，我们采用对比学习的方法来弥补同源模型和盗版模型之间的相似性差距提出了一种新的数据增强方法来创建2. 背景及相关工作模型提取违反了机器学习模型的机密性[6，7，16，19，37]。在模型提取攻击中，攻击者只能黑盒访问受害者模型，目的是通过提出查询来窃取它。预期获得的模型在功能上相似。为了提取模型，攻击者首先需要收集一组未标记的自然数据。然后，自然数据与精心制作的合成数据混合，以查询受害者模型。然后，返回的标签用于训练盗版模型。这个过程重复几次，直到盗版模型恢复到令人满意的受害者效用。模型指纹识别依赖于找到表征模型的现有特征。最近的工作依赖于受害者模型的对抗性示例[ 3，10，23，25，36，40 ]在盗版模型和独立模型上的不同可转移性它们被广泛用于解决模型修改[13]和模型提取攻击[5，24]等问题。Cao等人[5]提出了一种基于对抗性示例的算法，用于生成决策边界附近的数据点然而，这项工作的性能在不同的模型架构中并不稳定。Lukas等人[24]还采用了可移植性来制作名为“可授予示例”的合成数据点制作可信的例子涉及训练多达30个模型，然后通过它们进行反向传播以获得梯度更新。这导致了巨大的间接成本。3. 问题公式化3.1. 模型定义现在我们正式定义了IP保护的DNN模型和盗版模型。考虑一个问题域，记为X <$RM。每个元素x∈ X被标记为N...受害者模型213盗版模式213“1”“2”“2”“2”“1”“3”“2”“2”“3”“3”“3”“3”13432类，比如第i个类，用一个独热向量l（x）∈RN表示。DNN模型是一个函数f：RM→RN，它将x∈RM作为输入，并输出一个向量f（x）∈RN，其中第i个条目f（x）i表示模型的置信度x来自第i个类。定义1（IP保护的DNN模型）。由模型所有者u拥有的DNN模型由fV，u：RM→ RN表示。它由模型所有者在其数据集DV，u上训练{（x，l（x））|x ∈ X}，旨在优化Px<$X（arg max（fV，u（x）k）= i <$l（x）i= 1）.（一）3.3.设计概述在本文中，我们提出使用UAP来捕获DNN模型的决策边界的全局几何信息，用于模型提取检测。普遍对抗扰动表明，一个精心选择的扰动-模型f的状态向量v∈RM可以在从问题域X ∈RM提取的几乎所有数据点上欺骗模型。形式上，UAPv是（ε，δ）-泛的，使得Px<$X （arg maxf （x+v） k<$=arg maxf （x）k′）≥1−δ，K两个不同的模型所有者，比如u和v，k k′S.T. ||2 ≤ ξ||2 ≤ξ（三）略有不同的训练数据集，模型结构，训练-在这些过程中，它们的训练模型（fV，u和fV，v）高度相似，但被认为是独立的，我们称之为同源模型。相比之下，在模型提取攻击中，对手可以用她选择的输入查询受害者模型fV，u，并获得可以用作标签以训练模型的模型输出。我们称之为盗版模型，并给出了一个正式的定义如下。定义2（海盗模式）。由攻击者对受害者模型fV，u发起模型提取攻击而获得的盗版模型表示为fP ，u：RM→RN。它在她的数据集DP，u{（x，fV，u（x））上训练|x∈ X }，旨在优化Px<$X（arg max（fP，u（x）k）= arg max（fV，u（x）k）.（二）K K3.2.威胁模型本文中考虑的威胁模型涉及将其训练模型fV，u部署为云服务的模型所有者和试图对fV，u发起模型提取攻击并部署盗版模型fP，u以获得经济利益的对手模型所有者在这里既充当受害者又充当辩护者，其目的是验证可疑模型fS是fV，u的盗版模型还是同源模型。攻击者的能力和知识。攻击者可以黑盒访问受害者模型fV，u，并知道其问题域。为了逃避潜在的模型提取检测方案，对手还可以应用各种修改（例如，微调、压缩、修剪和对抗训练）到盗版模型。防御者的能力和知识。防御者（受害者）可以白盒访问其模型fV，u（即，模型参数、超参数和训练数据集）以及利用有限数量的查询对可疑模型的黑盒访问。具体来说，防御者不知道可疑模型的架构、参数、超参数，也不知道攻击者在提取过程其中f（·）是输出概率vecto r。U_AP_v可以被视为模型f的自然缺陷，其暴露了模型f的不同局部梯度之间的几何相关性。模型的决策边界。事实上，对于一个给定的模型，有一堆存在于低维子空间中的UAP，其中大多数决策边界的法向量所在，如Moosavi-Deafooli等人所指出的。[27]第10段。两个同源模型的UAP子空间是独立的，因为决策边界是通过两个独立的训练过程形成的。相反，Papernotet al. [30]使用卡方检验来统计验证盗版模型的数据点的梯度依赖于受害者模型的数据点的梯度。我们观察到，这种依赖性是由UAP维护的我们将这一观察的细节推迟到4.1节，并继续我们的设计概述。由于计算UAP需要对模型进行白盒访问，因此防御者无法获得可疑模型fS的UAP并将其与f V，u的相似性进行比较。可替代地，利用对受害者模型fV，u的白盒访问，防御者（受害者）可以生成UAPv并且验证v是否位于可疑模型fS的UAP子空间中。具体来说，我们提出以下两个原语用于验证：指纹生成。为了验证向量v是否位于模型f的UAP子空间中，我们提出设计指纹生成函数F，其捕获模型f在n个数据点x1，. . .，xn关于v，表示为F（f，v，[x1，. - 是的- 是的，xn]）。指纹验证。利用受害者模型和嫌疑人模型的指纹，防御者需要确定嫌疑人模型是盗版模型还是同源模型。特别地，我们提出设计具有参数θ的编码器Eθ以将模型的指纹映射到潜在空间，使得受害者模型和其盗版模型的映射指纹具有大的相似性（例如，余弦相似性），而受害者模型和同源模型的映射指纹具有小的相似性，13433盗版模式受害者模型海盗模型不一致fSfSfV，ufV200141751215010812560海盗模型Homestay模型40206100047520250025401 2 3 4 5第K个主要方向060(a) DNN模型的UAP上的SVD(b) 不一致分布。75 50 25 0 25 50 7560 40 20 0 20 40 60图2. (a)fV，u、海盗和同源模型在f V，u前5个主方向上的投影，黑线表示20个模型的平均值，亮区间表示STD;（b）海盗模型和根据等式（1）计算的同源模型的不一致性分布。五、是的特别地，编码器旨在优化：图3.指纹的t-SNE可视化。与基于局部对抗扰动的指纹（右）相比，基于UAP的指纹（左）是自然可区分的。（FMIST）UAPs与受害者有类似的预测，而家庭模型松散地遵循主要方向。图2b表明，InconsistentfV，u（fP，u）小3倍maxE（sim（fθV，u，fP，u））−E（sim（fV，u，fV，v））的情况下，在FMNIST数据集上，不一致fV，u（fV，v）。我们...包括盗版的UAP与同类机型不同其中sim（f ，f）=cosine（E（F），E（F））并且可以用于区分这两种类型的模型。a b θa（四）F a= F（f a，v，[x1，. . .，xn]）F b= F（f b，v，[x1，. - 是的-是的，xn]）。4. 基于UAP的指纹在本节中，我们首先解释我们的设计所基于的观察然后介绍了指纹生成和指纹验证的设计4.1. 观察结果解释我们首先展示了受害者模型、同源模型和盗版模型的UAP子空间之间的关系。O观察：受害者模型的UAP子空间与其盗版模型的UAP子空间一致，并且与同源模型的UAP子空间不一致。我们将可疑模型fs对受害模型fv，u的依赖性建模为它们的一致性，定义为这两个模型的UAPs在由fv，u的UAP矩阵的主方向形成的一组正交基上的投影之间的Δ2距离为了得到这个基，我们对fV，u的UAP矩阵进行奇异值分解4.2. 指纹生成我们现在定义如在3.3节中描述的指纹生成函数如下：F（f，v，（x1，···，xn））（六）=[f（x1），f（x1+v），···，f（xn），f（xn+v）].F的目标是捕获在添加UAP之前和之后给定模型的输出如何直觉上，如果v是fS的UAP，则将v添加到sam-ples将显著降低fS对其原始预测类的置信度。否则，添加v将不会将样本推到决策边界。下一步是选择n个可以更好地描述决策边界的数据点。除了使用更多的数据点（即，更大的n），我们希望数据点均匀地分布在整个决策边界上，以捕获不同的信息。因此，我们执行K-means将受害者模型的所有训练数据点根据其在模型最后一层的表示向量聚类到n个聚类中，并从每个聚类中选择一个数据点。我们比较了基于UAP的指纹与基于局部对抗扰动（LocalAdversarial扰动，简称OMT）的指纹的有效性。令V fS ={v1，的。- 是的- 是的，vL}是嫌疑人的UAP三种模式（被害人、盗版者和同源者）。模型fS. V fV，u ={v1，的。-是的- 是的，vL，u}是UAP的如图3所示，对于基于UAP的指纹，mod-具有相同类型的元素形成一个聚类，受害者模型在对V，v，u执行SVD之后，存在r维正交基{v1，v2，· · ·，vr}，其中r是VfV，u的秩。我们将UAP在VfS和VfV，u之间的分布不一致性定义为InconsistentfV，u（fS）：盗版模式Homestay模型6040200204060投影13434·v M）−从不同类型的模型集群中。相反，具有不同类型的模型的基于指纹请参考补充材料进行更多讨论。Σ0≤m≤r. Σ0≤i≤L vi2fS0≤j≤L vifV，u·vm ）2分2秒。（五）4.3. 指纹验证我们为FMNIST数据集上的每个模型生成m个（输入维度）UAP，以形成一个秩等于m的方形UAP矩阵。图2a显示了盗版模型我们利用编码器来学习指纹中包含的知识编码器将指纹的特征投影到（（13435菲皮尔超-球体阳性底片f人菲皮尔图4. 对比学习的例证。 X1· · · Xk是k算法1：所有权验证。输入：嫌疑人模型fS，受害者的模型f V，u，它的UAP v和训练数据D，聚类的数量n，指纹视图的数量k，一组盗版模型Φ和同源模型Φ，批量大小N和损失函数L，用于等式2中的自主学习。7.第一次会议。输出：训练的编码器Eθ，fS和fV，u之间的相似性s。/*指纹生成*/1 函数F（f，{x1，...，xn}，v）：2X ←{}对于i ∈ {1，..，n}做4ti=f（xi）<$f（xi+v）5X=X{ti}n n用于创建“视图”的数据点集（蓝色指纹是黑色指纹的增强视图）。海盗指纹彼此呈阳性（绿色），与同源指纹呈阴性编码器把指纹投射到超球体上一个潜在的空间，人们可以很容易地比较两个指纹的表示简单地训练编码器（例如，AutoEncoder）只能提取盗版指纹的共同特征，其他特征不同的指纹不会被映射到嵌入空间附近。由于同源模型与受害者模型高度相似，它未能将它们从海盗模型中投射出来。我们利用监督对比学习[20]来强调同源模型的这种差异。准确地说，我们将标记0分配给受害者和盗版指纹，标记1分配给同源指纹。如图4所示，编码器将正对投影到超球体上的同一部分（左侧），并将负对投影到相对部分（右侧）。对于自监督对比度学习，对比度对（x，x∈）是指输入x及其视图x∈，所有其他输入及其视图都是x的负值。对于监督对比学习-6端部7返回X/*为编码器E准备列车组*/8 B<${};M<${fV，u}Φ9{C1，C2，···，Cn}=K均值（ffV，u，D，n）10 对于f∈M，/*从每个聚类中采样一个点，不进行替换*/11对于i ∈ {1，.，k} do12{x1，···，xn}i←C1×C2···×Cn13B=B<$F（f，{x1，···，xn}i，v）14的端15末端/*通过对比损失进行训练*/16编码器E的初始参数θ17 Eθ←训练（B，L）/*删除可疑模型*/18s =cosine（Eθ（fS），Eθ（fV，u））19 返回s对比损失如下。在多视图批处理中，令i ∈ I ∈{1，...， k N}是批索引且C（i）=II I {i}。设C（i）：={μ∈C（i）|yi=yi}是第i个样本的正对的索引。我们的监督骗局-传输损耗为：ing，正对都是具有相同标签的输入作为x和它们的视图，负对是所有其他输入，Σ1L= −Σ 对数Σesim（zi，zµ）/τsim（z， z）/τ，（7）他们的观点。要生成一个给定指纹的正对，i∈I|Ψ(i)| ∈v∈C（i）eiv在传统学习中，我们提出了一种新的数据增强策略，如下所示。多视图指纹增强。我们表示Xn是从n个不同聚类中选择的n个对于Xn中的每个数据点xi，我们根据其在输出层中的表示选择其k个最近邻居来形成Ki我们在每个聚类Ki中执行不替换的采样，并获得k组数据-点，用X1，···，Xk表示（见图4，其中N是mini-batch的大小编码器包括模型提取检测的整个过程由算法1表示。5. 实验5.1. 设置数据集。我们评估我们的方法对三个流行的IM-n n过滤）。这样，我们进一步生成k个正视图{F（f，v，X1），· ··，F（f，v，Xk）}对于给定指纹年龄分类数据集：FashionMNIST（FMNIST）[38]，CIFAR-10 [22]和TinyImageNet [1]。n nF（f，v，Xn）.请参阅补充材料了解更多细节，包括积极观点是最相似指纹的证据。监督对比损失。我们现在描述我们的苏-模型架构。对于FMNIST，SOTA分类精度可以使用简单的CNN模型来实现。为了保证模型的多样性，我们改变了核大小、层数、激活等属性134361.01.01.00.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.81.0相似性0.00.0 0.2 0.4 0.6 0.81.0相似性0.00.0 0.2 0.4 0.6 0.8 1.0相似性(a) fV，u和fP，u之间的Sim CDF（FMNIST）1.0(b) fV，u和fV，v之间的Sim CDF（FMNIST）1.0(c) fV，u和fP，u之间的Sim CDF（CIFAR10）1.00.80.80.80.60.60.60.40.40.40.20.20.20.00.0 0.2 0.4 0.6 0.81.0相似性0.00.0 0.2 0.4 0.6 0.81.0相似性0.00.00.20.4相似性0.60.81.0(d) fV，u和fV，v之间的Sim CDF（CIFAR 10）（e）fV，u和fP，u之间的Sim CDF（T-ImageNet）（f）fV，u和fV，v之间的Sim CDF（T-ImageNet）。图5.f-V和可疑模型指纹之间相似性的累积分布函数（CDF）。对于X轴中的x，Y轴是相似度小于x的指纹的百分比。CDF的导数是概率密度函数。表1. FashionMNIST分类器组件。属性值激活ReLU[3，5]、PReLU[4]、ELU[1，2]活泼地我们考虑了4个模型架构和3个优化器，生成了241个模型。所有型号均达到SOTA性能。本工作中使用的UAP实现了架构是[5]、否[1、2、3、4]转换器尺寸3[1，3，4]、5[2，5]#Conv层2[1，3，5]，3[2]，4[4]80%的攻击成功率。请在补充材料中查看更多结果和分析。优化算法SGD，ADAM，RMSprop批量64，128，256编码器培训。不包括f的架构V，v，我们函数、dropout、训练批量和优化器。详情见表1。我们将这些属性重新组合为5种不同的模型架构。括号内的数字表示属性分配给哪些体系结构。在每个训练过程中随机选择没有数字的属性。对于 CIFAR-10 和TinyImageNet，我们在5种不同的架构中评估我们的编码器： ResNet 18 和 ResNet 34 [12] ， VGG 16 [33] ，DenseNet 121 [15]，GoogLeNet [34]。模型制备。对于每个数据集，我们只分配训练集D的一半作为受害者模型盗版模型是根据[39]中的提取攻击生成的。所有生成的盗版模型分别为FMNIST，CIFAR10和TinyImageNet的fV，v的85%，83%，40%的性能同态模型是在Dhomo上训练的，Dhomo是从D中采样的，与Dv大小相等，与D v重叠。为了避免偶然性，我们为每种类型（盗版或同源）和体系结构（除了为受害者模型保留的体系结构）生成10个模型。我们总共为CIFAR-10和TinyImageNet训练了81个DNN模型。使用剩余的架构来训练其他模型。我们使用5个盗版模型和5个同源模型来训练编码器。其余的模型用于测试编码器。对于三个数据集，每个指纹由100个数据点组成，我们为每个指纹生成200个视图。对于编码器训练，我们采用了对比学习[9]中推荐的512大批量。请注意，在实验中，为了证明我们方法的通用性和鲁棒性，我们生成了大量模型来训练和测试我们的框架。在实践中，一个防御者可以安全地声称其所有权只有10个模型和20个指纹。评估指标。两个指纹之间的相似度被定义为它们的表示向量在训练好的编码器上投影的余弦相似度。两个模型之间的相似性是所有生成的指纹的平均相似性。5.2. 指纹识别与匹配图5报告了不同网络架构下盗版和同源指纹的相似性结果。在每0.1个区间内计算相似分布的CDF。对于X轴中的x，Y轴是建筑Arc BArc CArc DArc E建筑Arc BArc CArc DArc E架构ResNet34VGG13GoogleNet架构ResNet34VGG13GoogleNet架构ResNet34VGG13GoogleNetDenseNet121架构ResNet34VGG13GoogleNetDenseNet121CDFCDFCDFCDFCDFCDF13437表2.使用20个指纹（FMNIST）的受害者模型和嫌疑人模型之间的模型相似性的平均值和STD以及p值（越低越好）。盗版模式Homestay模型架构优化器是说STDP值是说STDP值SGD0.99900.00120.010公斤（-5）0.00091.0圆弧B亚当0.99740.00480.00.08580.26130.9167RMSProp0.99640.00600.00.00020.00151.0SGD0.93220.188210公斤（-15）0.00090.01491.0弧C亚当0.99590.00500.00.01850.08421.0RMSProp0.97340.09270.00.00740.04171.0SGD0.99800.00270.00.10820.30100.8445弧D亚当0.99720.00360.00.10240.24920.5663RMSProp0.99770.00300.00.02950.09380.6942SGD0.88210.20310分（-16分）0.03770.13600.9923弧E亚当0.95150.13920.00.00100.00361.0RMSProp0.94910.14500.00.00020.00151.0相似度小于x的模型的百分比。结果表明：1）盗版指纹与同源指纹相似度分布不同;前者聚集在1附近，而后者聚集在0附近。2）我们的编码器具有很好的泛化能力，因为无论模型的结构如何，相似性差距都存在对于所有类型的体系结构，大量（例如，CIFAR10）指纹相似度均大于0。而对于同源模型，只有一小部分指纹（例如，20%的CIFAR 10）具有上述相似0的情况。4.第一章然而，相似性差距确实因建筑而异。编码器在被训练的体系结构上执行得最好（例如，用于 FMNIST 的 Arc.A 和用于 CIFAR10 的ResNet34）。3）同源指纹的方差大于盗版模型的方差（即，在CIFAR10中，体系结构之间的最大相似性差距为0.9，CDF粒度等于0.1时为0.0）。这表明盗版模型局限于一个小的子空间，而同源模型位于一个较大的子空间。表2和表3显示了平均相似性-表3.使用20个指纹（CIFAR10 TinyImageNet）的受害者和嫌疑人模型之间的模型相似性的平均值和STD以及p值（越低越好）。CIFAR10TinyImageNetArchi类型是说STDP值类型是说STDP值ResNet海盗0.99450.00320.0海盗0.74630.095510米（-14）Homo0.04760.01561.0Homo0.25000.14620.5278VGG海盗0.99170.00500.0海盗0.75680.093710分（-16分）Homo0.19500.09200.99Homo0.26020.15300.1574GoogLeNet海盗0.990.00660.0海盗0.72800.162110米（-9）Homo0.29840.16820.69Homo0.24040.14400.8277DenseNet海盗0.99240.00440.0海盗0.82150.100210公斤（-15）Homo0.05520.19551.0Homo0.29430.16560.7088平均值通过将预定义的显著性水平α设置为0.05，我们成功地拒绝了所有盗版模型的H0，从而使检测成功率等于100与现有方法的比较。我们使用 ROC 曲线下面积（AUC）来衡量我们工作的表现。与之前的工作（ IPGuard [5] ）相比，其性能是在三个数据集（ FMNIST ， CIFAR 10 和 T-ImageNet ）中的 AUC 为0.83，0.75，0.61，我们的框架超过了他们，达到了1.0，1.0，0.98的AUC5.3. 消融研究数据点数量n。回想一下，我们的指纹生成函数F（f，v，Xn）取决于一组数据点Xn，其中n是数据点的数量如图6所示，随着n的增加，相似性差距为-盗版模型和同源模型之间的差异增加，直到n在70个数据点处达到稳定。较大的n意味着指纹捕获更多的决策边界，并且信息量更大。在我们的实验中，我们将n固定为100，以平衡有效性和效率之间的权衡。Top-K置信度值。当可疑模型只返回其顶部时，我们评估我们的框架嫌疑模特和受害者之间的联系三个数据集的盗版模型与同源模型之间的最大相似度差距为0. 99，0。95，0。分别为58。最小的差距仍然超过0。77，0。69，0。四十三TinyImageNet具有最小的相似性差距，因为其较低的SOTA精度导致提取性能较差。我们将在消融研究中研究提取性能对我们框架的影响。假设检验。在实践中，防御者可以采用双样本t检验在少于20个指纹中安全地验证可疑模型。在形式上，假设指纹相似度和指纹相似度是从可疑模型和同源模型计算的两组指纹相似度。我们将零假设定义为：H0：μ< μ homo，其中μ= μ，μ homo= μhomo。t检验将以可控的显著性水平α拒绝H0以声称盗版模型，或者给出不确定的结果。表2和表3中的P值列是使用对20个随机取样指纹进行的t检验计算的。我们重复这个t检验30次，k置信度值。如图所示6，当k= 1时，相似性差距仍然存在，表明即使是硬标签也能揭示决策边界的全局信息相似性差距与k正一致，并在3处变得稳定。我们发现返回的前3个置信度分数的平均总和等于0.9996，这意味着没有太多的信息丢失。模型提取的性能。攻击者可能会在提取过程中达到最佳恢复率之前提前停止。通过改变查询和迭代次数，我们为每个长度为0的区间获得20个模型。02的回收率。78，0。94]。图6显示了当恢复率为0. 78，我们的框架仍然可以检测到高相似度0的盗版。88岁一种解释是，当执行模型提取时，盗版模型大致形成与受害者全局对齐的决策边界，这使得我们能够进行检测。然后，它细化其局部梯度，提高恢复率和增加相似性。普遍与局部对抗性扰动。为了-134381.00.80.60.40.20.0255075100125n类型独立盗版2468K1.000.980.960.940.920.900.880.86P模型易怒0.780.800.820.840.860.880.900.92零点九四回收率1.00.80.60.40.21.00.80.60.40.2图6.参数n、k（左）和恢复率（右）的消融研究。0.0QuantP=0.2 P=0.4Itr=1Itr=5Itr=90.00306090120 150 180 210 240 270迭代1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0相似性(a) fV，u和之间的Sim CDFfP，u（FMNIST）1.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0相似性(b) fV，u和之间的Sim CDFfV，v（FMNIST）图8.对模型修改的抵抗。在量化、修剪和微调（左）以及对抗训练（右）之后，盗版模型的相似性分布在左边，紫色的盒子在顶部，因为它们的相似度达到了1.0。相似度大于0。88岁我们假设它们对模型的决策边界几乎没有影响对抗训练。对抗训练[25]旨在从本质上提高模型的鲁棒性。我们训练盗版模型最多270次对抗迭代。图7. 中的对比编码器给出的相似性得分，基于UAP和对抗性示例的指纹。对UAP和AP的信息捕获能力进行了改进，用AP代替UAP，重新进行了实验。具体地，指纹现在是Fap（f，（x1，···，xn））=[f （ x1 ）， f （x′1 ）， ··· ， f （ xn ）， f（ x′n）]，其中 x′是由DeepFool制作的x[28]（=22）。微扰x′的范数近似于UAP，其他设置不变。图7示出了由对比编码器给出的相似性分数我们观察到，对于AP，盗版模型的相似性不太集中在1，同源模型的相似性不太集中在0。这表明基于AP的指纹比基于UAP的指纹具有更差的性能我们还研究了对比损失和重叠率的使用对同源数据集和受害者数据集的影响。详见补充资料。5.4. 对模型修改的一个聪明的攻击者可能会故意修改盗版副本，以逃避检测，我们评估了我们的框架对FMNIST数据集上的四个后处理技术的鲁棒性。微调微调包括使用额外的数据继续训练盗版模型。在我们的实验中，我们对从测试数据集采样的数据点进行了10次迭代的微调盗版模型修剪量化。修剪[41]和量化[11]是压缩模型和减少内存同时保留模型功能的两种常用技术。在我们的实验中，我们选择修剪率在[0。2，0。6]，我们将模型从FP32转换为INT8。如图8（左）所示，对于微调，量化和修剪，盗版模型的相似性变化很小。所有修改的盗版模型，这三种技术仍然有在每次迭代中，我们使用DeepFool [28]作为新的数据点制作了128个对抗性示例。如图8（右）所示，当迭代大于120时，相似度继续从0下降。99比0 89，但仍然很高。这是因为对抗训练将通过将决策边界推向对抗示例来不断塑造模型的决策边界。相似性差距是不可察觉的270对抗训练迭代后，模型效用下降0的情况。十七岁因此，攻击者面临着一个两难境地，牺牲被盗模型6. 讨论在本文中，我们提出了一种新的框架，防止模型提取攻击的基础上的受害者模型和盗版模型的UAP的子空间结合对比学习，我们设计出受害者模型接近盗版模型而远离同类模型。在三个基准数据集上的测试结果表明，该框架具有高效、通用和鲁棒的特点.局限性。由于指纹中的信息与查询次数有关，因此可以通过更好的效率-效率权衡来改进我们的方法。编码器的训练数据准备的开销留给了以后的工作.我们对编码器可转移性的发现提出了一个潜在的解决方案（详见补充资料）。鸣谢。Z. Peng，S. Li和H.朱博士的部分研究项目获得国家重点研发项目 2018YFE0126000 和国家自然科学基金6213000013的资助。M. 薛先生获澳洲研究基金会（ ARC ）发现项目（ DP210102670）及阿德莱德大学COVID-19表彰基金部分资助基于AE的指纹基于AE的指纹类型海盗人类型海盗人CDF相似性相似性相似性CDF相似性13439引用[1] Tiny-ImageNet数据集。https：www.kaggle.com/c/tiny-imagenet. 5[2] YossiAdi ， CarstenBaum ， MoustaphaCisse' ， BennyPinkas，and Joseph Keshet.把你的缺点变成优点：通过后门对深度神经网络进行水印。在 2018 年第 27 届USENIX安全研讨会（安全）的开幕式上1[3] Tao Bai，Jun Zhao，Jinlin Zhu，Shoudong Han，JiefengChen，Bo Li，and Alex Kot.AI-GAN：攻击启发生成对抗性示例。国际图像处理会议（ICIP）论文集，2021年。2[4] SantiagoZanellaB e'guelin，ShrutiTople，Andr e wPaverd，andBorisKopf. 自然语言模型的Gre y-boxe提取在机器学习国际会议（ICML）的论文集，2021年。1[5] Xiaoyu Cao，Jinyuan Jia，and Neil Zhenqiang Gong. IP保护：通过对分类边界进行指纹识别来在2021年亚洲计算机与通信安全会议（AsiaCCS）的一、二、七[6] 尼古拉斯·卡利尼马修·贾杰尔斯基和伊利亚·米罗诺夫神经网络模型的密码分析提取。在2020年第40届国际密码学年会（ICPTO）上。一、二[7] Varun Jasrasekaran ， Kamalika Chaudhuri ， Irene Gia-comelli，Somesh Jha，and Songbai Yan.探索主动学习和模型提取之间的联系。在2020年第29届USENIX安全研讨会（安全）的开幕式上。一、二[8] Varun Jasrasekaran，Hengrui Jia，Anvith Thudi，AdelinTravers ， Mohammad Yaghini ， and Nicolas Papernot.SoK：机器学习治理。CoRR，abs/2109.10870，2021。1[9] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架在2020年国际机器学习会议（ICML）上二、五、六[10] Nezi heMerv eGuérel ， XiangyuQi ， LukaRimanic ，CeZhang，and Bo Li.知识增强的机器学习管道对抗各种对抗性攻击。国际机器学习会议（ICML）论文集，2021年。2[11] Song Han，Huizi Mao，and William J. Dally深度压缩：利用剪枝、训练量化和霍夫曼编码压缩深度神经网络。2016年国际学习表征会议（ICLR）论文集。8[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习计算机视觉与模式识别（CVPR），2016年。6[13] Zecheng He，Tianwei Zhang，and Ruby B.李你深度神经网络的敏感样本指纹识别。计算机视觉与模式识别进展（CVPR），2019年。一、二[14] Dorjan

下载后可阅读完整内容，剩余1页未读，立即下载