黑盒模型的窃取功能

17 浏览量更新于2023-10-19 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4954杰Vireoani芬希.07.01...0.01燕鸥列车数据鸊鷉.05类似的功能.Knockoff Nets：黑盒模型的窃取功能Tribhuvanesh Orekondy1Bernt Schiele1Mario Fritz21马克斯·普朗克信息学研究所2CISPA亥姆霍兹信息安全中心德国摘要机器学习（ML）模型越来越多地在野外部署，以执行广泛的任务。在这项工作中，我们要问的是，对手在多大程度上可以仅仅基于黑盒交互来窃取这种“受害者”模型的功能：图像输入预测输出与之前的工作相比，我们研究了复杂的受害者黑盒模型，以及缺乏模型所使用的训练/测试数据，其内部结构和模型输出语义知识的对手。我们将模型功能窃取表述为两步方法：（i）向黑盒模型查询一组输入图像以获得预测;以及（ii）用查询的图像预测对训练“仿制品”。我们提出了多个值得注意的意见：（a）从与黑盒训练数据的分布不同的分布查询随机图像导致性能良好的仿制品;（b）即使当仿制品使用不同的体系结构表示时，这也是可能的;以及（c）我们的强化学习方法另外提高了某些设置中的查询样本效率并提供了性能增益。我们在一系列数据集和任务上验证了模型功能窃取，并表明可以以低至30美元的价格创建图像分析API的合理仿制1. 介绍机器学习（ML）模型，特别是深度神经网络被部署以提高生产力或经验，例如，智能手机中的照片助理，基于云的互联网服务中的图像识别API，以及自动驾驶车辆中的导航和控制开发和设计用于商业用途的此类模型需要大量的时间、金钱和人力-数据集的细节、精确的模型架构和超参数自然地保持机密，以保护模型的价值。然而，为了货币化或仅仅服务于目的，它们被部署在各种应用中（例如，家庭助理），Blackbox分类器Knockoff分类器.01.13.23.04.01.00.42 .00 .00....03 .33 .18图1：攻击者可以通过与其API交互来创建黑盒模型的“仿制品”：图像输入预测输出这种仿制品绕过了创建黑盒模型所涉及的金钱成本和智力努力。黑盒：输入，预测。在野外大规模部署深度学习模型促使社区提出以下问题：有人可以滥用模型仅仅基于黑盒访问？已经有一系列的训练数据[31]，架构[24]）。在这项工作中，我们专注于模型功能窃取：是否可以仅仅根据观察到的输入-输出对来创建黑盒模型的“仿制品”？与之前的工作[19，25，35]相比，我们通过更少的假设来纯粹窃取复杂黑盒模型的功能我们将模型功能窃取公式化如下（如图1所示）。对手通过向黑盒“受害者”CNN提供输入图像并获得相应的预测来与黑盒“受害者”CNN交互所得到的图像预测对用于训练“仿制”模型。对手请注意，知识转移[4，14]方法是我们公式中的一种特殊情况，其中任务，训练/测试数据和白盒教师（受害者）模型是对手已知的。在这个公式中，我们列出了在我们的论文中回答的问题1. 我们能在一组随机的查询图像和相应的黑盒预测上训练一个仿制品吗？2. 怎样才能获得一组好的图像来进行查询？API4955Vi=1V3. 如何提高查询的样本效率4. 是什么造就了一个好的山寨建筑？受害者五选择图像对手A选择图像B查询2. 相关工作偷模特窃取黑盒ML模型的各种属性最近越来越流行：参数[35]，超参数[37]，架构[24]，训练数据[31]和决策边界[25]的信息。这些注释选择模型列车模型黑箱模型部署转移组件选择“拱”。火车撞人为精确再现黑箱模型奠定了基础相比之下，如[35]所提出的，我们调查了独立于其内部的黑盒的窃取功能然而，[35]通过做出额外的假设（例如，模型家族是已知的）;我们在实验中使用该方法发现了机会级性能[19，25]通过窃取模型（比[35]稍微复杂一些，例如，浅CNN）作为替代来制作对抗性示例，但是通过假设知识和对训练数据分布的部分与这些工作相比，我们提出了第一种方法来窃取复杂的视觉模型，通过更少的假设，并在最小化对黑盒的查询的约束下，具有较高的准确性。知识蒸馏。蒸馏[14]和相关方法[4，5，10，38]将知识从复杂的“教师”转移到更简单的“学生”模型。在我们的问题公式中，这是一种特殊情况，当对手对受害者的黑盒模型有很强的了解时，例如，架构，训练/测试数据是已知的。虽然我们讨论了这一点，但大多数论文对黑箱的假设都很弱。主动学习。主动学习[6，34]（AL）旨在减少标记工作，同时收集数据来训练模型。我们的是基于池的AL[30]的特殊情况，其中学习者（对手）从未标记的数据池中进行选择。A是否可以窃取FV的功能：1. 当PV和FV未知时2. 使用最小查询B？图2：问题陈述。从两个参与者-受害者V和对手A的角度来设计模型功能窃取的任务。我们将对手的移动分为（a）转移集构造（b）训练仿制品F A。受害者的举动。受害者细粒度鸟类分类）。为了训练这个特定的模型，受害者：（i）收集特定于任务的图像x P V（X），并获得专家注释，从而产生数据集DV={（xi，yi）};（ii）选择模型FV，在图像D测试的保持测试集上实现最佳性能（准确度）。所得到的模型被部署为黑盒，其在给定图像x的情况下预测输出概率y=FV（x）。此外，我们假设每个预测都会产生成本（例如，货币、延迟）。adj. adj.的未知数对手提出了一个黑盒CNN图像分类器，给定任何图像x∈Xr，它会生成一个K-dim后验概率向量y∈[0，1]K，kyk= 1。我们稍后放松一下，y的截断版本。我们假设其余方面是未知的：（i）F V的内部构件，例如，超参数或架构;（ii）用于训练和评估模型的数据;以及（iii）K类上的语义。adjacent的攻击。为了训练一个冒牌货，对手：然而，与AL不同的是，在我们的案例中，(i) 交互式查询图像{xiπA类（X）{\displaystyle{\frac {X}在不了解所使用的数据的情况下选择原始模型此外，虽然AL认为图像是由人类专家注释的，但我们的图像是由黑盒用伪标签注释的。3. 问题陈述我们现在将功能窃取的任务形式化（参见图2）。功能窃取。在本文中，我们介绍的任务：给定对“受害者”模型FV：X → Y的黑盒查询访问，以使用对手的“仿制”模型FA来复制其功能。如图2所示，我们将其设置为受害者V和对手A之间的双人游戏。现在，我们讨论参与者在这个博弈中的操作假设和相应的行动egyπ以获得图像和伪标签的{（xi，FV（xi））}B;以及（ii）选择用于敲除的架构FA并训练它以模仿FV在转移集上的行为。Objective. 我们专注于对手，其主要目标是训练一个在FV设计的任务一个未知的D测试此外，我们还解决了两个次要目标：（i）样本效率：在B黑盒查询的预算内最大化性能;以及（ii）理解什么使得好的图像查询黑盒。受害者的辩护。虽然我们在论文中主要讨论了广告商的策略，但我们简要讨论了受害者的对策（第6节），即通过截断来减少预测的信息性，例如，四舍五入4956一不V一更新策略= 0.3=动物0.5奖励信号火车鸟麻雀0.2图4：战略适应性。图3：与KD的比较。（a）Administrator只能访问图像分发PA（X）（b）以KD方式进行的培训需要对受害者有更深入的了解。S和FA都被训练来分类图像x∈PV（X）注：与知识蒸馏（KD）的比较。训练敲除模型让人想起KD方法[14，27]，其目标是通过传递集将知识从较大的教师网络T（白盒）传递到紧凑的学生网络S（敲除）。我们在图3中说明了KD和我们的设置之间的关键差异：（a）独立分配PA：F A在以下方面接受培训：图像xxPA（X）独立于使用的分布PV（b）监督数据：学生网络4.1.1随机策略在该策略中，我们随机采样图像（没有替换）x_p（X）来查询F。这是一个极端的情况下，对手执行纯粹的探索。然而，在这方面，存在对手采样与学习任务无关的图像的风险（例如，向鸟类分类器过度查询狗图像）。4.1.2自适应策略现在，我们将从每个图像查询到黑盒产生的反馈信号合并。一个策略π自适应地学习样本图像（x<$P（{x，y}t−1））以实现Vtπi ii=1S最小化KD损失的变体：LKD=λ1LCE（y真，yS）+λ2LCE（yτ，yτ）（1）两个目标：（i）提高查询的样本效率;和(ii) 有助于黑盒FV的可解释性。该方法在图4a中概述。在每一个时间步t，策略mod-S T规则Pπ对一组查询图像进行采样。奖励信号rt是其中yτ=softmax（aT/τ）是软化后分布，基于多个标准成形，并用于更新由温度τ控制的logitsa的分布。与此相反，在我们的情况下，仿制品（student）缺少logitsaT和true标签ytrue来监督训练。4. 生成仿制品在本节中，我们将分两步详细阐述对手的方法：转移装置构造（第4.1节）和训练仿制品FA（第4.2节）。4.1. 转移装置构造目标是获得转移集，即，图像预测对，在此基础上，仿制品将被训练以模仿受害者选择PA（X）。对手首先选择一个图像分布来采样图像。我们认为这是一个大的离散图像集例如，我们考虑的分布PA之一是ILSVRC数据集的1.2M图像[7]。抽样策略π. 一旦选择了图像分布PA（X），则广告员使用策略π对图像xππP（X）进行采样。我们考虑两种策略。最终目标是最大化预期回报的策略补充PA。为了鼓励相关查询，我们通过将每个图像x i与标签z i ∈ Z相关联来丰富对手分布中的图像这些标签与黑盒的输出类之间没有任何语义关系，也没有被例如，当PA对应于ILSVRC [7]数据集的1.2M图像时，我们使用定义在1000个类上的标签。这些标签可以替代地通过无监督的测量获得的，聚类或估计图密度[2，8]。我们发现使用标签有助于理解黑盒的功能.此外，由于我们期望标签{zi∈Z}是相关的或相互依赖的，因此我们将它们表示在粗到细的层次结构中，作为一棵树，如图4b所示。行动在每一个时间步t，我们从一个离散的作用空间zt∈Z，即，对手的独立标签空间。画一个动作是一个向前传递（去-在图4b中用蓝线表示）通过树：在每个节点上，我们以概率π t（z）（其在兄弟节点上的总和为1）对子节点进行采样。概率由节点电位上的softmax分布FVFA不S495712Vt V tt=1tAeHt（z）火车测试πt（z）=πz′ eHt（z′）. 在到达叶节点时，样本黑盒（FV）|DV|DV|输出类K| Output classes K返回对应于标签zt的图像。学习政策。我们将收到的奖励rt用于使用梯度强盗算法[33]更新策略π的动作zt该更新等效于通过树的反向传递（由图4b中的绿线表示），其中节点电位更新为：Ht+1（zt）=Ht（zt）+α（rt−r<$t）（1−πt（zt））以及（2）Ht+1（z′）=Ht（z′）+α（rt−r<$t）πt（z′）<$z′/=zt（3）其中，α= 1/N（z）是学习率，N（z）是动作z被调用的次数，r<$t是过去10个时间步长的平均回报π0（z）和H0（z）被初始化，使得到达层级中的所有叶节点是同等可能的。奖励为了评估采样图像xt的质量，我们研究了三种奖励。我们使用基于边缘的确定性度量[18，30]来鼓励受害者有信心的图像（因此表明域FV被训练）：Rcert（yt）=P（yt，k|xt）−P（yt，k|其中ki是第i个最有信心的类。为了防止在单个标签上利用图像的退化情况，我们引入了多样性奖励：ΣRdiv（y1：t）= max（0，yt，k−y<$t：t−k，k）（5）K为了鼓励图像，其中预测的knock=FA（xt）不模仿FV，我们奖励高CE损失：RL （ yt ， yt ） =L （ yt ， yt ）（6）当使用多个度量时，我们对个体奖励进行求和。为了保持相等的权重，每个奖励被单独地重新缩放为[0，1]，并减去在过去的时间步长上计算的基线。4.2. 培训仿制品FA作为前一步交互式查询黑盒模型的产物，我们有一个转移集{（x，F（x）}B，xπP（X）. 现在我们谈谈如何这是用来训练冒牌的FA的选择架构FA. 最近很少有作品[24，37]探索了对黑盒进行逆向工程，即，识别体系结构、超参数等。然而，我们认为这与我们简单地窃取功能的要求是正交的。相反，我们用一个相当复杂的架构来表示FA，例如，VGG [32]或ResNet [13]。KD [10，14]和模型压缩[4，12，16]中的现有发现表明选择合理复杂的学生模型具有稳健性我们研究了教师知识较弱（FV）下的训练数据和架构是未知的。表 1 ：四个受害者黑盒每个黑盒的命名格式如下：[dataset][# output classes].训练模仿。为了引导学习，我们从预训练的Imagenet网络FA（关于其他初始化的讨论，参见附录中的§D.1我们训练通过使交叉进入y（CE）损失最小化来使fFA在转移集上模仿 FV ：LCE （ y ， yE） =−kp（ yk ） ·logp（yk）. 这是一个标准的CE损失，尽管与受害者标签的置信度p（yk）5. 实验装置我们现在讨论多个受害者黑盒的实验设置（5.1节），然后详细介绍广告商5.1. 黑匣子受害者型号FV我们选择了四种不同的图像分类CNN，解决了图像分类中的多种挑战，例如，细粒度识别。每个CNN执行特定于数据集的任务。黑盒汇总见表1（附录中的扩展描述）。训练黑盒所有模型都是使用ResNet-34架构（具有ImageNet [7]预训练的权重）在相应数据集的训练分割上进行训练的。我们发现这种架构选择以合理的计算成本在所有数据集上实现了强大的性能模型使用SGD和动量（0.5）优化器训练200个epoch，基本学习率为0.1 ，每 60 个 epoch 衰减 0.1 倍。我们遵循 Caltech-256[11]，CUBS-200-2011[36]和Indoor-Scenes[26]各自作者建议的训练测试由于未提供糖尿病视网膜病变[1]测试图像的GT注释，因此我们为五个类别中的每个类别保留200个训练图像用于测试。所有数据集的每类测试图像的数量大致平衡。测试图像这些数据集的D测试被用来评估受害者和山寨模型。在这四个受害者模型被训练之后，我们将它们用作本文剩余部分的黑盒：输入图像，输出后验概率5.2. 代表PA在本节中，我们详细介绍了与转移集构造相关的两个方面的设置（第4.1节）。[11]第十一话23.3k +6.4k256个一般对象类别[36]第三十六话6k +5.8k200种鸟类室内67[26]14.3k +1.3k67个室内场景糖尿病5[1]34.1k +1k5糖尿病视网膜病变量表4958V5.2.1选择PA我们的转移集构造方法涉及从一个大的离散图像分布PA中查询图像。在本节中，我们提出了实验中考虑的四种选择。在随机策略中，除了来自相应数据集的图像之外的任何信息都未被使用。对于自适应策略，我们使用图像级标签（选择独立于黑盒模型）来指导采样。PA=PV。作为参考，我们从用于训练黑盒的确切图像集合中采样。这是知识蒸馏的一个特殊情况[14]，在温度τ= 1时有未标记的数据。PA=ILSVRC [7，28]。我们使用ILSVRC-2012中提供的超过1000个类别的120万张图像[28]挑战.PA=OpenImages [21]. OpenImages v4是一个从Flickr收集的920万张图像的我们使用550K唯一图像的子集，通过从600个类别中的每个类别中抽取2K图像来收集PA=D2. 我们构建一个数据集，其中ADVER- SARY可以访问宇宙中的所有图像。在我们的例子中，我们通过汇集来自以下数据的训练数据来创建数据集：（i）第5.1节中列出的所有四个数据集;以及（ii）本节中列出的两个数据集。这导致了PA和PV之间的重叠。我们计算黑盒的标签之间的重叠（K，例如，256 Caltech类）和对手 1k ILSVRC类）为：100 × |K Z|/|K|. 基于两个图像分布之间的重叠，我们将PA分类为：1. PA=PV：查询的图像与用于训练FV的图像相同。有100%的重叠。2. 封闭世界（PA=D2）：黑盒训练数据PV是图像宇宙PA的子集。有100%的3. 开放世界（PA∈{ILSVRC，OpenImages}）：PV和PA之间的任何重叠都是纯粹的巧合。重叠是：Caltech256（ILSVRC 42%，OpenImages ）， CUBS 200 （ 1% ， 0.5% ），Indoor67（15%，糖尿病5例（0%，0%）。5.2.2自适应策略在自适应策略（第4.1.2节）中，我们利用对手数据PA中的辅助信息（标签）我们将这些标签表示为由粗到细的概念层次树中的叶节点。在所有情况下，根节点都是单个概念“实体”。我们得到层次结构的其余部分如下：（i）D2：我们添加图像所属的数据集作为父数据集;（ii）ILSVRC：对于1 K个标签中的每一个，我们获得30个粗通过对使用ILSVRC预训练Resnet模型的2048-dim池特征获得的每个标签的平均视觉特征进行聚类来标记标签;（iii）OpenImages：我们使用作者提供的确切层次结构。6. 结果我们现在讨论实验结果。训练阶段。在两个阶段训练敲除模型：（a）在线：在转移集构建期间（第4.1节）;其次是（b）离线：使用迄今为止获得的转移集重新训练模型（第4.2节）。在步骤（b）之后报告关于敲除的所有结果。评估指标。我们从两个方面来评估仿制品：（a）前1准确度：根据受害者的保留测试数据D测试计算。（b）样本效率：在B查询的预算之后实现的最佳性能。以两种形式报告准确度：绝对值（x %）或相对于黑盒FV（x×）。在下面的每个实验中，我们使用所有黑盒中相同的超参数来评估我们的方法，突出了模型功能窃取的普遍性。6.1. 转移装置构造在这一节中，我们分析了转移集{（xi，FV（xi）}在仿制品上。为了简单起见，为了本节的剩余部分，我们将受害者和仿制品的架构修复为Resnet-34 [13]。参考：PA=PV（KD）。从表2（第二行），我们观察到：（ i ）所有仿制型号的回收率均为 0 。 92 比 10.05×FV的性能;（ii）比FV本身更好的性能(e.g.、Caltech的3.8%改善256）由于软标签培训的常规效果[14]。我们能从一个独立的分布中通过随机查询来学习吗？与 KD不同，现在在不同的图像分布（分别为PA和PV）上训练和评估仿制品。我们首先关注随机策略，它不使用任何辅助信息。我们从表2（随机）中进行以下观察：（i）封闭世界：仿制品能够合理地模仿所有黑盒模型，恢复0。84比0 97×黑盒性能;（ii）开放世界：在这个挑战性的场景中，山寨模型从未遇到过在测试时的许多类的图像，CUBS 200中90%以上的鸟类分类。但值得注意的是，能够获得0。81比0 黑盒的96倍性能。此外，结果略有不同（最多为0。04×）ILSVRC和OpenImages之间，表示任何大的不同集这是一个很好的转移装置。通过定性分析，我们发现转移集中的图像和伪标签对在语义上是不相干的（图11）。6a）对于训练图像中不存在的输出类4959随机自适应PACaltech256公司简介户外67糖尿病5Caltech256公司简介户外67糖尿病5V（F）78.8（1×）76.5（1×）74.9（1×）58.1（1×）----PV（KD）82.6（1.05×）70.3（0.92×）74.4（0.99×）54.3（0.93×）----关闭D276.6（0.97×）68.3（0.89×）68.3（0.91×）48.9（0.84×）82.7（1.05×）74.7（0.98×）76.3（1.02×）48.3（0.83×）ILSVRC75.4（0.96×）68.0（0.89×）66.5（0.89×）47.7（0.82×）76.2（0.97×）69.7（0.91×）69.9（0.93×）44.6（0.77×）开放OpenImg73.6（0.93×）65.6（0.86×）69.9（0.93×）47.0（0.81×）74.2（0.94×）70.1（0.92×）70.2（0.94×）47.7（0.82×）表2：测试集的准确度。黑盒FV的准确性用灰色表示，仿制品FA用黑色表示。KD =知识蒸馏。在B=60k时报告的封闭和开放世界精度。PA=D2ILSVRCOpenImgPVπ=自适应随机1007550250Caltech2560k 1k 10k100k预算B公司简介0k 1k 10k100k预算B户外670k 1k 10k100k预算B糖尿病50k 1k 10k100k预算B图5：在不同预算下仿制品的性能对手的图像分布（PA）和采样策略的交叉选择π。表示黑盒F V的准确性，并表示机会级性能。补充资料中有放大PA.然而，当相关图像在测试时呈现时（图1 ）。6b），对手表现出强大的性能。此外，我们通过与图像相关的仿制品找到最高预测，例如，预测一个喜剧人物（超人）为另一个。我们可以获得多高的采样效率？现在我们评估自适应策略（在4.1.2节中讨论）。请注意，我们在这些任务中使用图像的辅助信息（PA中图像的标签）。我们使用在每个场景中获得最佳性能的奖励集：{确定性}（等式。 4)在封闭的世界和{确定性，多样性，损失}（方程。4-6)在开放世界中。从图5中，我们观察到：（i）封闭世界：自适应在除一种情况外的所有情况下都具有极高的采样效率。此外，我们还发现标签层次结构导致更好的性能（见附录。（见D.3节）。尽管从36 - 188×更大的图像分布中提取样本，但其性能与KD相当。我们发现显著的采样效率改进例如，在一个实施例中，而CUBS 200-random在B= 60k时达到68.3%，自适应在B= 10 k时达到这6倍。我们发现在Diabetic 5中表现不佳，因为黑盒对所有图像都表现出自信的预测，导致反馈信号不佳，无法指导政策;（ii）开放世界：尽管我们在这种具有挑战性的情况下发现了相对于随机的边际改进，但它们在少数情况下是明显的，例如，1 .一、使用OpenImages，在CUBS 200上达到57%的准确度快5倍。(iii)从表2中我们发现，自适应显示器除了提高采样效率外，还能提高性能（最高可达4.5%），选择FV。我们可以通过检查政策了解什么？从大量的实验中，我们观察到自适应策略的两个好处：样本效率（尽管在封闭世界中更突出）和改进的性能。自适应学习的策略πt（第4.1.2节）还允许我们了解如何查询好的图像。πt（z）是一个离散的概率分布，表示对动作z的偏好。在我们的例子中，每个动作z我们在图7中可视化πt（z），其中每个条形表示一个操作及其颜色，即层次结构中的父级。我们观察到：（i）封闭世界（图7顶部）：以较高概率采样的动作始终对应于F V的输出类。在分析这些动作的父类（数据集源）时，策略还学习从替代的更丰富的图像源（例如，Caltech 256中的“阶梯”图像取自Open-Images;（ii）开放世界（图7底部）：与封闭世界不同，对手的动作到黑盒的输出类之间的最佳映射是不平凡的和不清楚的。然而，我们发现顶级动作通常对应于FV的输出类，例如，靛蓝色彩旗。此外，该策略学习对与FV的任务相关的较粗略动作进行主要是从鸟类和动物的图像绘制到仿制品CUBS 200。什么是好的奖励？使用自适应采样策略，我们现在解决三个奖励的影响（在第4.1.2节中讨论）。我们观察到：（i）封闭世界（图8左）：自适应中的所有奖励信号都有助于提高随机样本的效率。奖励证书（方程式精度4960O或尼姆indopeeticBSIABcuDC伊尔HltecCA飞机 -101 摩托车-101面孔-容易-101t恤吊床台球梯子浴缸望远镜大猩猩人蘑菇手表-101葡萄灯塔床垫豹-101足球贻贝火星企鹅热水浴缸棒球手套背包跑步机耳机浣熊精度面包机茶壶V图6：定性结果。（ a）针对四个输出类（每个黑盒一个）显示的来自传递集（{（xi，FV（xi））}，xi，PA（X））的样本：“HomerDrosson”、“HarrisSparrow”、“Gym'和”重复DR“。（b）利用在转移集上训练的敲除FA，我们将其在受害者的测试集（{（xi，F A（xi））}，xiD test）上的预测可视化。Ground truth标签加下划线。对象从这些类，在众多的其他人中，从来没有遇到过，而训练FA。0.02Caltech256·PA=D210075top-k·Caltech256·PA= ILSVRC四舍五入·Caltech256·PA= ILSVRC0.0500.012500 10k 20k 30k40k预算B0 10k 20k 30k40k预算B0.0行动z图7：通过自适应方法学习的策略π。每个条表示对动作z的偏好。显示前30个操作（2.1k和1k中的）颜色表示层次结构中操作的父级图9：截断后验。截尾后验对训练击倒的影响。所有FV选项的改善均为零至边际改善，CUBS 200的改善最高。然而，我们注意到，在采用explo-10075502501007550250Caltech256·PA=D2奖励certcert + div证书+ div +L无不确定CUBS 200·PA=D20 5k 10k 15k20k预算BCaltech256·PA=ILSVRCCUBS 200·PA= ILSVRC0 5k 10k 15k20k预算B定量（div +L）与开发（cert）目标的结果是更软的概率分布π在行动空间和转，鼓励相关的图像.我们能用截短的黑盒输出来训练仿制品吗？到目前为止，我们发现攻击者现在，我们探讨受害者的防御策略的影响我们考虑两种截断策略：（a）top-k：保留top-k（out of K）个未归一化的后验概率，而将其余的后验概率置零;（b）舍入r：后验图8：奖励消融。 cert：确定性，uncert：不确定性，div：多样性，L：损失，none：无奖励（随机策略）。4，这鼓励剥削）提供了最好的反馈信号。包括其他奖励（Eq. 5-6)稍微降低性能，因为它们鼓励对相关或看不见的操作进行探索-这在封闭的世界中并不理想。奖励不确定性，一种在AL文献[2，8，30]中使用的流行度量，在我们的设置中表现不佳，因为它鼓励不确定的（在我们的情况下，不相关的）图像。(ii)开放世界（Fig. 8.使用所有奖励（Eq.4-6）显示四舍五入到R位小数例如，round（0.127，r=2）=0.13。此外，我们考虑极端情况从图9（K = 256）中，我们观察到：（i）截短─ingyi-使用top- k或四舍五入-略微影响仿制品性能，对于任何预算B，argmax实现原始性能的0.76-0.84倍精度;（ii）top- k：即使k的小增量也会显著恢复原始性能-0。在k = 2和0时为91×。k= 5时为96×;(iii) 四舍五入：恢复更为明显，0. 99×仅在r= 2时达到原始精度。我们找到模特H.辛普森：0.81 H。辛普森：0.41 H。麻雀：0.73 H。麻雀：0.41冰箱：0.07背包：0.09Gadwall：0.08 Frigate bird： 0.06应变玻璃：0.01气泵：0.09 T。麻雀：0.06 B。Cowbird：0.05H. 辛普森：0.99超人：0.42H。麻雀：0.81百万。林莺：0.170.00H. 辛普森：0.40WC。麻雀：0.04H。麻雀：0.14健身房：0.98健身房：0.724健身房：0.99健身房：0.6娱乐室：0.01博物馆：0.20中度：0.006重度：0.24保龄球：0.004工作室音乐：0.02无DR：0.003适度：0.13发廊：0.23矫正：0.99重度：0.42机场内部：0.0健身房：0.17中等：0.003换算：0.35电视演播室：0.00办公室：0.11无DR：0.002中等：0.15健身房：0.98CUBS 200·PA= ILSVRC动物鸟鸟1食肉动物前k125没有一argmax轮次r123无argmaxπzπz精度精度金翅雀靛蓝色的旗帜，荆棘，山雀，蜂鸟，藤蔓，蛇，美洲虎美洲变色龙短尾蟋蟀红胸秋沙鸭绿蜥蜴蜂食者绿蛇绿曼巴豹儒艮虎鸦红背鹬树蛙信天翁螳螂豆娘蜂49611007550250Caltech256·FV= Resnet-34alexnetdensenet161resnet101resnet18ResNet34resnet50vgg160 10k 20k 30k40k预算BCaltech256·FV= VGG-160 10k 20k 30k40k预算B1007550250PA=CelebA0 10k 20k30k预算BPA= OpenImg-Faces测试集OpenImg-FacesCelebAFAresnet101resnet340 10k 20k30k预算B图10：架构选择。F V（左：Resnet-34，右：VGG-16）和FA（每个图中的线）。通过减少黑盒预测的信息性，功能窃取受到的影响最小。6.2. 架构选择在上一节中，我们发现模型功能窃取在保持黑盒和仿制品的体系结构不变的情况下始终有效。现在我们研究建筑选择FA与FV的影响。F A的建筑结构如何影响仿冒行为？我们研究的影响，使用两种选择的黑盒F V架构：Resnet-34 [13]和VGG-16 [32]。保持这些固定，我们通过选择来改变仿制品FA的架构：Alexnet [20]，VGG-16 [32]，Resnet-{18，34，50，101}[13]和Densenet-161 [15]。从图10中，我们观察到：（i）按模型复杂性排序的仿制品：Alexnet（性能最低）处于频谱的一端，而更复杂的Resnet-101/Densenet-161处于另一端;（ii）跨模型族的性能转移：Resnet-34在窃取VGG-16时实现类似的性能，反之亦然; ㈢复杂性有助于：选择仿制品的更复杂的模型结构是有利的。这与KD设置形成对比，KD设置的目标是拥有更紧凑的学生（仿制品）模型。6.3. 真实世界黑盒模型的窃取功能现在，我们验证我们的模型功能窃取攻击如何转化为现实世界的场景。图像识别服务越来越受欢迎，允许用户以低成本（每1 k查询1 -2美元）获得各种任务的图像预测。这些图像识别API也被用于评估其他攻击，例如，对抗性示例[3，17，22]。我们专注于一个面部特征API，它给出一个图像，返回每个面部的属性和置信度。注意，在这个实验中，我们有黑盒输出类的语义信息。收集PA。API返回图像中每个面部的概率向量，因此，查询不相关的图像会导致没有输出信息的浪费结果。因此，我们使用两个面部图像集 PA用于该实验：CelebA（220 k图像）[23]和OpenImages-Faces（98 k图像）。图11：模仿一个真实世界的API。用两种选择的PA实现的仿制品的性能。我们通过从OpenImages数据集中的图像中裁剪面部（加上边缘）来创建后者[21]。评价与以前的实验不同，我们无法获得受害者的测试数据。因此，我们通过收集和手动筛选来自API的15000张图像上的种子注释，为每个图像集创建测试集。如何将其转化为现实世界？我们使用随机策略对仿制品的两种变体进行建模（不使用自适应，因为没有相关的图像辅助信息可用）。我们使用两种选择的架构FA来呈现每个变体：紧凑的Resnet-34和一种复杂的Resnet-101从图11中，我们可以看到：（i）冒牌货表现强劲，76比0 在测试集上的性能是API的82倍;（ii）开放图像-面孔的多样性有助于提高概括，导致0. 两种测试的API准确度均为82倍（3）FA的复杂性并不起重要作用。作用：Resnet-34和Resnet-101都表现出类似的性能，表明紧凑的体系结构足以捕获用于该特定任务的区别特征。我们发现，模型功能窃取可以很好地转化为现实世界中的仿制品，表现出很强的性能。这种仿制品规避了以下方面的货币和劳动力成本：（a）收集图像;（b）取得专家的意见;以及（c）调整模型。因此，可以训练一个廉价的仿制品，它表现出强大的性能，使用受害者API查询仅需30美元。7. 结论我们研究了模型功能窃取的问题，其中对手通过黑盒访问将受害者模型的功能转移到仿冒品中。尽管对黑盒的假设很少，但我们证明了我们方法的惊人有效性最后，我们在真实世界的图像识别API上验证了我们的方法，并发现了强大的仿冒品性能。我们发现功能窃取构成了现实世界的威胁，可能会削弱越来越多的已部署ML模型。谢谢。这项研究得到了德国研究基金会（DFG CRC1223）的部分支持。我们感谢杨章的有益讨论。精度精度4962引用[1] 眼罩https://www.kaggle.com/c/病视网膜病变检测访问时间：2018- 11-08。[2] WilliamHBeluch，TimGen e wein，AndreasNuürnber ge r，andJanMKöhler. 集成在行为学习图像分类中的应用。在CVPR，2018年。[3] Arjun Nitin Bhagoji，Warren He，Bo Li和Dawn Song。探索对深度神经网络的黑盒攻击空间arXiv预印本arXiv：1712.09491，2017年。[4] Cristia nBuciluaˇ，RichCaruana，andAle xandruNiculescu-Mizil.模型压缩。在KDD，2006年。[5] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。在NIPS，2017年。[6] David A Cohn、Zoubin Ghahramani和Michael I Jordan。使用统计模型进行主动学习。JAIR，1996年。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[8] 桑德拉·埃伯特马里奥·弗里茨和伯恩特·席勒。Ralf：一种用于对象类识别的增强型主动学习公式. CVPR，2012。[9] Matt Fredrikson Somesh Jha和Thomas Ristenpart。利用置信度信息和基本对策的模型反演攻击。在CCS，2015年。[10] Tommaso Furlanello ， Zachary C Lipton ， MichaelTschan-nen，Laurent Itti，and Anima Anandkumar.重生的神经网络在ICML，2018。[11] 格里高利·格里芬亚历克斯·霍卢布和皮埃特罗·裴罗纳。Caltech-256对象类别数据集。2007年[12] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv：1503.02531，2015。[15] Gao Huang，Zhuang Liu，Laurens van der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。[16] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。Squeezenet：Alexnet级别的精度，参数减少50倍，…0.5mb模型大小。arXiv：1602.07360，2016。[17] Andrew Ilyas，Logan Engstrom，Anish Athalye和JessyLin。使用有限的查询和信息进行黑盒对抗攻击。在ICML，2018。

下载后可阅读完整内容，剩余1页未读，立即下载