模型提取策略与主动学习技术的研究

188 浏览量更新于2024-01-17 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报硬标签环境彭浩a，郭世新a，赵丹丹a，吴一鸣c，韩建明a，王哲a，吉寿玲b，d，Ming Zhonga，李明a浙江师范大学计算机科学与技术学院，浙江金华321004b浙江大学计算机科学与技术学院，浙江杭州310027c浙江工业大学网络空间安全研究所，浙江杭州310027d电气和计算机工程，佐治亚理工学院，亚特兰大，GA 30332，美国阿提奇莱因福奥文章历史记录：2022年12月17日收到2023年2月2日修订2023年2月23日接受2023年3月2日在线发布保留字：模型提取语言模型窃取模型隐私对抗攻击自然语言处理性能评估A B S T R A C T设计一个查询高效的模型提取策略，从具有黑盒约束的云平台中窃取模型仍然是一个挑战，特别是对于语言模型。在更现实的环境中，缺乏关于目标模型的内部参数、梯度、训练数据甚至置信度分数的信息会阻止攻击者轻易复制目标模型。选择信息丰富和有用的示例来训练替代模型对于查询高效的模型窃取至关重要。我们提出了一种新的模型提取框架，该框架基于变压器双向编码器表示（BERT）微调预训练模型，同时通过利用主动学习选择策略提高查询效率。主动学习策略，结合基于语义的多样性采样和类平衡的不确定性采样，建立一个信息子集从公共的未注释的数据集作为微调的输入。我们应用我们的方法来提取具有相同和不匹配架构的深层分类器作为紧和适度查询预算下的替代模型。此外，我们评估了通过我们的方法提取的模型的帮助下构建的对抗性示例的可转移性结果表明，我们的方法实现了更高的准确性与更少的查询比现有的基线和由此产生的模型表现出高的可移植性成功率的对抗性的例子。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍机器学习（ML）模型近年来取得了长足的发展，并广泛应用于各种现实世界的应用，如自动驾驶，图像识别和智能医疗保健。公司或组织通常为用户提供经过训练的ML模型即服务（MLaaS），服务购买者通常通过应用程序编程接口（API）从MLaaS查询中获得预测。这些机器学习模型是这些服务提供商的宝贵知识产权，*通讯作者。电子邮件地址：zhongming@zjnu.edu.cn（M.Zhong）。沙特国王大学负责同行审查制作和主办：Elsevier在收集训练数据和为模型训练注释示例方面投入了大量的资金和精力。然而，最近的研究（ Papernot 等人， 2017; Wang 等人， 2021;Amarasekaran等人，2020）已经表明，即使在黑盒场景中，ML模型的私密性和安全性仍然容易受到模型提取攻击。恶意用户倾向于训练相应的替代模型来模仿MLaaS模型，输入数据和响应输出通过查询MLaasS模型的API获得。此外，替代模型的性能在精度和模拟其输出方面接近目标模型的性能（Gong等人，2020年）。以低成本被盗的ML模型也会带来后续的安全问题，例如，训练数据的泄漏（Fredrikson等人，2015）、对抗性攻击（Zhou et al.，2018）和成员推理攻击（Shokri et al.，2017年），为MLaas提供商。大规模语料库上的预训练模型对于下游自然语言处理（NLP）任务是有益的（Qiu et al.，2020年）。虽然可以通过从头开始训练一个新的模型来避免对下游任务的预训练模型进行微调，但它也有助于https://doi.org/10.1016/j.jksuci.2023.02.0191319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. Peng，S. Guo，L. Zhao等人沙特国王大学学报11启动模型提取。在这项研究中，我们专注于如何在硬标签黑盒设置中有效地提取NLP模型，即，可以从受害者模型访问的唯一信息是前1预测。在接近现实的环境中，第三方用户通常无法访问最初训练目标模型的私有数据集在这种无数据的情况下，先前的研究（Gong等人， 2020）倾向于利用由特定生成器专门构造的未注释的公共或合成数据集作为私有训练数据集的替代方案来提取API模型。通常，替代数据集不属于与训练数据集相同的问题域，并且在数据分布中可能存在显著差异在MLaaS的按查询付费范例中，向具有“不可用”示例的API发送请求（即，给模型训练带来不良信息）在发起模型窃取攻击时增加了金钱成本。（Sylla等人，无法过滤出不可用的查询可能导致在有限的查询预算下无法满足替代模型的准确性的期望。此外，梯度和置信度分数的缺乏导致加速模型提取过程的额外挑战（Sanyal等人， 2022年）。特别是，softmax概率分布在调整替代模型训练中起着重要作用选择一个信息丰富的例子子集，而不是一个包含用于训练替代模型的相似的和可能冗余的信息对于减少对目标模型的查询的数量是至关重要的。以前对NLP模型窃取的研究在查询效率方面还有很多需要改进的地方。（Krishna等人，2019年）执行随机策略，从WikiText- 103中构建要标记的子集，包括维基百科的句子和段落的公共数据集。ACTVIETHIEF（Kazel等人， 2020）通过基于多样性和不确定性采样的主动学习策略来窃取模型，而来自基于transformers（BERT）的模型的双向编码器表示不包括在提取的模型中。训练一个接近的局部替代模型为了在小的注释预算下提高目标模型的准确性和一致性，我们考虑增强训练数据的不确定性和多样性。与模型难以区分的高不确定性示例为训练过程提供了丰富的信息。我们使用熵（Lewis，1995）来表示每个实例的不确定性，它是使用替代模型的输出概率向量计算的。此外，替代数据集的多样性是为了确保样本提供的信息不冗余。考虑到替代数据集和真实训练数据集之间的分布差异，我们放弃了以前研究中预测概率向量空间中的算子（Sener和Savarese，2017; Gissin和Shalev-Shwartz，2019）。特别地，我们构建了一个子集，该子集在语义空间中尽可能多地表示数据集，并在通用句子编码器的帮助下将文本映射到向量空间（Cer等人， 2018年）。此外，我们注意到，在选择用于微调的示例时可能会出现类不平衡的现象，因为引入了通用公共数据集来训练不同问题域任务的替代模型。类不平衡（Japkowicz and Stephen，2002）是指训练数据集上的倾斜类分布，并且与偏差有明显的关联。大多数在类不平衡数据上训练的深度学习模型都倾向于预测较大的类，而在许多情况下忽略较小的类。因此，我们还通过提高优先级的措施来防止每批待标记数据中的严重类不平衡在实例的选择上的阶级平衡综上所述，我们的主要贡献可归纳如下：我们设计了一种新的模型提取策略，通过使用从硬标签黑盒设置中的通用公共数据集中选择的信息示例。据我们所知，我们是第一个引入主动学习策略，该策略结合了基于语义的多样性采样和类平衡不确定性采样，用于查询高效模型窃取。考虑到不同的查询预算限制，我们在具有不同架构和三个文本分类任务的多个目标模型实验结果表明，与现有的基线相比，我们的方法提高了查询效率，以提取目标模型在接近现实的设置。此外，通过我们的方法提取的模型的准确性和一致性非常接近适度的查询预算下的基准，这是微调由目标模型标记的原始训练输入。我们还报告了受害者模型的准确性下降后，遭受对抗性攻击的帮助下，我们的方法窃取的替代模型实验表明，当对对抗性文本进行预测时，准确率至少降低了17.5%，最大降幅约为 50%。2. 相关工作模型提取。模型提取是用需要提取的目标模型标注的替代数据集训练局部替代模型的过程。一个能够模仿目标模型的功能或输出的本地模型是主要的结果。（Tramèr等人，2016年），他首先研究了如何通过非自适应输入窃取基于云的ML模型，证明了本地替代模型可以在输出概率分布的帮助下达到近乎完美的保真度。虽然恢复目标模型的参数在经验上是可行的，但作者提出的方法要求受害者模型披露其置信度得分。随后的工作（Kariyappa等人， 2021; Truong等人，2021年）已经探索了对更广泛的任务发起模型提取攻击的可能性，更多地针对视觉任务，从目标访问的信息更少，查询预算更小。为了最小化查询的数量并保持所提取的模型的准确性，（Yu等人，2020）设计了一种提取图像识别模型的新方法，该方法利用对抗性样本构建合成数据集作为替代数据集。DFMS-HL（Sanyal等人，2022）使用生成对抗网络框架在硬标签黑盒设置下训练替代模型。实验结果还表明DFMS-HL可以显著减少目标模型的调用次数由于图像与文本由于句子的离散空间，将模型提取方法从计算机视觉转移到NLP并不简单。ACTI-VETHIEF采用无标签的公共数据集和主动学习策略，在文本分类任务中提取单层递归神经网络和卷积神经网络（CNN）。（Wallace等人，2020）将模型窃取扩展到机器翻译模型，这更有商业价值。受知识蒸馏的启发（Hinton等人，2015年），他们训练了一个替代模型来模仿机器翻译模型的输出。由于BERT近年来已被广泛部署在NLP任务中，（Krishnaet al.，2019年）证明了垃圾输入的影响（即，随机生成的句子）用于NLP任务上的基于BERT的模型提取。除了呈现对具有有限先验知识的基于BERT的模型的提取的研究之外，（Yuan等人，2021）进一步证明了在替代模型的帮助下生成的对抗性文本可以针对目标模型进行转移。然而，上述基于BERT模型的模型提取研究并没有为查询提供额外的优化●●●●H. Peng，S. Guo，L. Zhao等人沙特国王大学学报12×我我我当使用垃圾输入和替代数据集来查询目标模型时，效率或强加选择策略。主动学习。（Rasekaran等人，2020）探索模型提取和主动学习之间的联系，因为这两个过程的相似性。虽然主动学习的整个过程反映了模型提取的一般描述，但整个主动学习范围（Schröder和Niekler，2020）不能用于研究模型窃取。为了减少训练过程中的标注负担，主动学习被提出并广泛应用于各个领域。为了用较少的训练样本集获得准确的预测分类器，主动学习通过查询函数挑选出信息量最大的未标记样本，这些样本在专家标记后被送入分类模型。训练数据集中的每个实例为训练模型带来不同的信息，即，每个样本对模型训练的贡献不同。对每种情况下信息量的测量对于主动学习策略至关重要。（Lewis，1995）提出了一种基于预测概率向量的不确定性抽样方法来计算输入的熵。最不确定的情况（即，具有最高熵的那些）被收集以在过滤掉数据集中携带较少信息的实例之后训练模型。遵循不确定性抽样的原则，（Gal和Ghahramani，2016）还选择了具有较高不确定性的样本进行标记，而不确定性水平通过Monte CarloDropout计算。此外，基于不确定性，一些文献采用多样性抽样来设计主动学习策略。（Sener和Savarese，2017）设计了一种贪婪的K中心方法，用于选择样本来构建训练子集，该子集试图覆盖整个数据集。所选择的样本在学习的表示空间中尽可能广泛地分布，以丰富训练子集的多样性。（Gissin和Shalev-Shwartz，2019）认为主动学习是一种二元分类任务，根据分类模型区分标记和未标记的样本。如果分类器无法区分样本的子集与未标记或标记的数据集，则该子集可以表示整个训练数据集的分布。除了上述两类，（Huang et al.，2016）选择需要标记的实例，这些实例对替代模型的梯度有显著影响。3. 该方法3.1. 提取概述图1描绘了我们提出的模型提取框架的示意图。攻击者的目标是通过微调基于BERT的预训练模型来克隆在预测性能方面接近目标模型的替代模型。我们首先从替代数据集中随机选择未标记的样本，并将它们平均分为n批。虽然替代数据集因目标任务而异，但它们是常见的未标记数据集，例如，我们采用WikiText-103语料库作为文本分类任务的替代数据集。然后对每批未标注样本进行基于语义的多样性抽样，并将相应结果按一定比例纳入样本池。第一个过程（多样性采样策略）调用Universal Sentence Encoder构建句子向量，将样本转换为句子级嵌入，然后使用聚类算法过滤掉冗余句子。池中的示例将代表整个替代数据集在语义表征空间中。接下来，池中的每批示例也需要按类顺序处理查询替代模型。具体地说，置信度得分转换成概率向量，计算的熵的实例，然后建立一个子集的最大熵决策规则。最后，将目标模型标注的子集作为训练数据，对替代模型进行微调。我们提出的主动学习策略结合多样性和不确定性采样，从许多未标记的数据集中建立一个信息子集作为替代模型的训练数据集。经过几轮微调后，替代模型的性能可以接近目标模型，尽管有查询预算的限制算法1. 基于语义的多样性采样3.2. 主动学习选择策略训练子集的选择过程分为两部分：基于语义的多样性抽样和类平衡的不确定性抽样。基于语义的多样性采样部分选择一组非冗余的示例，这是下一部分的输入。为了提高查询效率，使用类平衡不确定性采样来提取有用的和信息的子集。3.2.1. 基于语义的多样性抽样给定一个替代数据集D，它通常是一个公共数据集，该数据集包含几个未标记的句子。我们从D中随机抽取n m个样本，并将这些样本平均分成n批.上述步骤导致集合Dn1/4 fI1;I2;. ;Ing，并且每批样品组Ii/fe1;e2;. . ;emg，其中i2½1;n]包含m个示例。我们使用平衡的不确定性采样与输出通用语句编码E的协助下，转换在集合Ik中的所有例子H. Peng，S. Guo，L. Zhao等人沙特国王大学学报13ðÞ我我我我我ð Þ我我我我u0¼arg maxmin？yk-yj？我yk2~c1yj2c1我我u1¼arg最大值k-y我我我我2Fig. 1. 概述我们提出的模型提取框架。到高级嵌入。这些编码的例子是COM-结合到集合Yωi中 ^fy1;y2;y3;.. . YMG，以准备输入的随后的基于语义的多样性采样。通用句子编码器模型将文本数据编码为算法1中总结了一个时间复杂度为O n3的算法。算法2. 类平衡不确定度抽样数字表示，可以简单地用于计算语义相似度，并将其合并到用于自然语言任务的下游模型，例如，文本分类-聚类分析。具体来说，数值表示是大小为512的高维向量，编码器在TensorFlow Hub上公开提供（Daniel和Yinfei，2022）。为了最大化最终训练子集的多样性，我们使用贪婪K中心算法（Sener和Savarese，2017）来执行聚类操作。与采用置信度分数作为输入的原始算法不同，我们的重点是在语义层面上消除冗余，以确保在后续步骤中发送到查询目标模型的示例包含尽可能少的重复信息。我们首先从Yωi中选择a个向量来初始化一个现有的聚类c0，其中的例子被认为是聚类中心。接下来，贪婪K中心算法从~c0搜索un，其中集合包含未包括的成员我我在Yωi. t是距离c0中所有聚类的中心最远的，并且是根据欧几里德距离的两级嵌入之间的距离度量。un的选择过程可以重订为iyk2~c0yj2c0？i i？22我我我我伊杰ð1Þ其中：我我我我~c0<$Yωinc0c1¼c0[u0之后，通过将un添加到pre-clusters，将现有集群更新为c1我我可见集群c0。在循环此进程聚类C应用于批次Ii.对Dn中的每个批量实例集执行此采样方法，并将输出结果合并到P. 最后，我们用相应的文本示例替换P中的所有文本级嵌入，为接下来的优化步骤做准备。通过多样性采样构建的池P中的所有文本实例收敛到一个核心集合中，该核心集合在语义空间中最好地覆盖数据集Dn基于语义的多样性抽样3.2.2. 类平衡不确定性抽样时间复杂度为O n的类平衡不确定性采样算法的细节在算法2中示出，其包括两个主要步骤：2H. Peng，S. Guo，L. Zhao等人沙特国王大学学报141/4fgðÞ¼ ð Þ1/2fðÞnnnnnn熵计算对于一组未标记的示例，c e1;e2;e3;. 当从基于语义的多样性抽样中获得时，我们需要考虑一种用于测量其中成员的不确定性的考虑模型难以区分的示例有助于确定受害者分类器的决策边界。我们决定使用不确定性示例来衡量每个训练示例中包含的信息量受主动学习中最小置信度选择策略的启发，我们选择熵作为不确定性的数值表示计算熵的步骤如下所述。我们首先定义一个空的熵列表L来存储与每个示例相关的信息。然后，从目标模型F和是转化成矢量P n¼ fp1; p2; p3. ; p jg，其中p i表示每个模型和采用主动学习范式来安装模型窃取攻击仍然可以实现高精度和测试问题域数据集的一致性。在主动学习迭代之后获得的新替代模型将作为类平衡不确定性采样的输入，以生成用于下一次迭代的示例子集。最后一轮再训练得到的替代模型就是根据分配的查询芽集进行模型抽取的结果替代模型训练的更多细节将在实验一节中介绍，具体取决于不同的提取任务。4. 实验装置在本节中，我们描述了进行的实验的细节-包括数据，模型的架构，训练-标签类型，i表示标签索引。对于每对en;Pn，计算置信度得分向量PnFen的熵HnJ过程，以及一些评估指标。4.1. 替代数据集Hn¼-Xpilogpi1/1ð2Þ对于各种类型的文本分类任务，我们统一使用公共无注释数据集WikiText-103作为替代最后，将相应示例的熵和前1个预测插入到L中。倾斜的数据分布在模型训练中自然发生，并成为开发深度学习技术的障碍。在从非问题领域的公共数据集和小训练数据中学习时，考虑少数类和多数类的表示是很重要的因此，我们在选择的最后一步使用类平衡选择来解决训练数据分布偏斜的问题。我们首先初始化一个空集S，以收集最终选择的未标记的示例。对于在熵计算步骤中获得的给定熵值列表L，我们首先根据熵以降序对其进行排序接下来，我们按顺序遍历L的元素，并确定是否选择了与该元素对应的文本示例。对于一个元素，计算S中对应的top-1预测与它相同的例子的数量。如果数量没有超过阈值，S将通过添加这个元素来更新。3.3. 替代模型训练我们的目标是微调局部模型，使其在对问题域的验证数据集进行预测时，能够以近乎完美的性能模仿考虑到查询效率，我们设计了一种主动学习选择策略来过滤训练数据，而不是直接使用公共数据集，然后用目标模型标记这些示例主动学习是一个迭代过程，其中新获得的知识以及训练的分类器用于下一轮的训练实例选择，直到满足某个停止标准。我们选择基于BERT的预训练BERT模型作为我们的替代模型来克隆具有相同或不同架构的目标模型。基于BERT的预训练模型可以在具有相对较少标签的特定下游任务上快速微调，因为它是在大量未标记文本上无监督训练的。给定一个目标模型T和一个未标记的实例子集s，我们用s查询T来注释子集，以构造相应的训练数据集D sx; Tx其中xS.训练数据集用于微调基于BERT的预训练模型，方法是重新训练最后一层（大多数任务特定层），同时冻结早期层，而不是训练整个网络。即使注释预算很紧，微调基于BERT的预训练用于模型窃取的数据集评估语言模型如何更好地利用更长的上下文并处理更真实的词汇和更大的语料库，（Merity等人， 2016年）引入了WikiText- 103语料库。它是从维基百科上一组经过验证的好文章和引用文章中提取的超过1亿个令牌的集合，并用作长期依赖语言建模的通用基准原始的WikiText-103训练数据可以在Salesforce AI research 上免费下载（ Merity ，2022）。4.2. 原始训练数据集原始训练数据集是用于目标模型训练的隐藏数据集，攻击者在整个模型提取期间无法访问。作为问题域数据集，原始训练数据集的一部分将被用作验证数据集，以评估替代模型的准确性和一致性。每个验证数据集包含1000个随机选择的注释样本。为了研究我们的方法的鲁棒性，我们使用不同问题域的文本分类数据集，平均单词长度从数百到数十不等。MR（Pang and Lee，2005）：基于二进制情感极性的电影评论数据集。AGNEWS（Zhang et al.，2015年）：一个包含四种类型数据的商业级多类新闻分类数据集：Word，Sport，Business和Science。IMDB（Maas等人， 2011年）：一个文档级的二元分类数据集的积极和消极的电影评论。三个数据集的平均单词长度分别为20、 43和215。上述数据集可在拥抱面部数据集（Abid，2022）上下载4.3. 目标型号我们采用基于单词的CNN（Kim，2014）、基于单词的长短期记忆（ LSTM ）（ Hochreiter 和 Schmidhuber ， 1997 ）和 BERT-base-uncased（BERT）（Devlinet al.，2019）车型作为目标车型。两种类型的目标模型具有与替代模型不匹配的架构：具有150的隐藏状态大小的一层双向LSTM，以及基于单词的CNN，其具有三个窗口大小3; 4; 5和100的窗口大小过滤器。这两个模型都将dropout设置为0： 3，并使用200维GLoVE嵌入的基础由HuggingFace（Morris，2022）提供的BERT模型的架构它使用12层Transformer块，隐藏大小为768和12个自注意头，并具有大约110 M的可训练参数。nH. Peng，S. Guo，L. Zhao等人沙特国王大学学报15ð·ÞX测试jx2X测试在原始训练数据集上训练的CNN和LSTM模型可以通过TextAttack访问（Morris et al.，2020年），BERT模型是我们自己训练的。基于CNN和LSTM的目标模型的训练数据大小和准确性如表2所示。表1总结了在原始训练数据集上微调BERT模型的统计数据。这些模型的这些列出的超参数的选择与HuggingFace（Morris，2022）中的模型一致。我们训练表2目标模型CNN和LSTM的细节BERT自己建模，而不是使用由其他人则确保替代模型和目标模型是相同的4.4. 培训替代模式我们使用Adam优化器（Kingma和Ba，2014），学习率为3e-5，默认值为1 e-8。对于所有分类任务，该模型被微调4个时期，具有交叉熵损失函数和32的批量大小。当问题域数据是长文本数据集（即，IMDB）;否则，它的值为64。对于短文本和长文本数据集，替代模型在每次迭代中分别在大小为100和500的子集上进行训练。当查询预算耗尽时，评估替代模型，并记录在验证数据集上测量的评估度量。4.5. 对抗性攻击Goodfellow et al.（2014）发现，深度神经网络在图像识别领域极易受到对抗性扰动的影响，从而导致对对抗性示例的错误预测。神经网络易受对抗性扰动的主要原因在于其在高维空间中的线性行为。同时，他们还介绍了对抗性示例的可转移性，这表明故意为某个模型构建的恶意文本也可以欺骗另一个模型。近年来，越来越多的研究（Ribeiro等人，2018; Wallace等人，2019）已经使用对抗性攻击来构建对抗性示例以增强可移植性，这也暴露了模型提取的实用性。在这里，我们使用三种方法执行对抗性文本攻击，即Textfooler（Jin et al.，2020）、Textbugger（Li等人，2018）和PWWS（Ren等人，2019年）。Textfooler是单词级对抗性攻击的强大基线，它通过输出概率得分来识别单词的重要性排名，然后对其进行修改通过同义词替换直到预测改变。Textbug- ger是软标签环境中基于分数的单词级和字符级攻击方法。词的扰动包括插入、删除、交换、替换字符和替换词的操作。PWWS设计了一种同义词替换策略来进行对抗性攻击，该策略根据词的显著性和分类概率来确定词的替换顺序。此外，我们计算目标模型对攻击替代模型生成的对抗性示例的准确度，以评估对抗性可转移性，表示为攻击后准确度。精度越低，可转移性越高。表1BERT的训练细节4.6. 评估指标我们使用准确性和一致性来衡量模型提取攻击的效用通过比较目标模型和替代模型之间的这两个度量，我们可以评估提取的成功准确度被定义为模型正确预测测试数据集中的示例协议计算如下：协议：F1XIT; F 1X I T; F1XIT其中Xtest表示验证数据集，I表示指示函数。4.7. 基线我们用一个基准和两个基线对我们的方法进行了比较. (1)从原始训练数据集中随机选择指定数量的样本。然后，这些例子被标记的目标模型。我们将其设置为基准，这是使用公共数据集的其他方法所追求的水平。(2) 随机方法使用查询生成器（ Krishna 等人，2019 ）从WikiText-103语料库的实际句子或段落中随机选择示例。 (3)不确定性（Wendy et al.，2020年）的策略是基于不确定性抽样与类平衡。这些示例被选择为具有最高熵值。5. 实验结果我们应用我们的模型提取框架来模拟三种类型的文本分类模型在三个基准数据集。此外，为了揭示与模型提取攻击相关的后续风险，我们在提取模型的帮助下生成对抗性文本来欺骗目标模型。为了模拟真实的设置，我们对受害者模型发起模型提取攻击，而不访问目标模型5.1. 模型提取根据目标模型体系结构的知识，模型提取实验分为两部分：BERT分类模型窃取和不匹配结构。考虑到面向实际应用的模型提取通常是在一定的查询预算下进行的，我们研究了目标模型历元批量学习率优化器最大序列长度训练数据大小准确度（%）BERT-MR4323e-5AdamW（λ = 1e-8）648,52985.30贝特-阿格纽4323e-5AdamW（λ = 1e-8）6430,00093.40BERT-IMDB5162e-5AdamW（λ = 1e-8）12825,00089.50目标模型训练数据大小准确度（%）CNN-MR8,53076.80CNN-AGNEWS120,00091.00CNN-IMDB25,00086.30LSTM-MR8,53080.70LSTM-AGNEWS120,00091.40LSTM-IMDB25,00088.30H. Peng，S. Guo，L. Zhao等人沙特国王大学学报16根据攻击者允许的不同数量的查询来衡量每个提取任务的结果。每个任务将按升序分配五个查询预算，前三个定义为紧预算，另外两个定义为中等预算。特别地，我们在一个私有数据集MR上比较了我们的策略和基线在不同预算限制（300、600、900、1,200和1500）下的性能。预算限制私有数据集AGNEWS和IMDB的范围分别从400到2，000和2，000到10，000。此外，在每次迭代中要标记的子集的大小对于不同的任务是不同的。对于私有数据集MR和AGNEWS，子集中的样本大小设置为100，而对于私有数据集IMDB，其为500。5.1.1. BERT分类模型窃取准确性度量用于评估局部替代模型在目标任务上的性能。如图2所示，我们记录了每次迭代训练的替代模型的准确度。由于使用问题域数据集进行训练，由原始数据集策略微调的替代模型的准确性始终高于其他方法，这与我们的预期一致。因此，我们将原始数据集策略视为其他三种方法的准确性基准。总的来说，模型的准确性随着每次迭代而提高，我们的方法优于其他两个基线。在适度的预算范围内，我们的方法的性能接近图二.在给定的查询预算下，窃取BERT模型的准确性比较。H. Peng，S. Guo，L. Zhao等人沙特国王大学学报17表3在预算紧张和适度的情况下，窃取BERT模型的一致性（%）。BERT-MR预算紧张适度预算30060090012001500原始数据82.190.991.890.091.2随机61.271.381.384.685.8不确定61.879.185.884.591.0我们的方法62.884.286.290.191.9贝特-阿格纽预算紧张适度预算400800120016002000原始数据86.888.388.089.489.3随机34.064.873.783.284.3不确定45.479.182.586.286.3我们的方法74.983.687.788.887.7BERT-IMDB预算紧张适度预算200040006000800010000原始数据70.378.580.581.382.3随机59.264.172.175.377.5不确定63.567.373.177.476.7我们的方法63.178.481.183.483.2图3.第三章。比较MR、AGNEWS和IMDB数据集上目标模型的熵分布结果对MR和AGNEWS数据集上的原始数据进行基准测试。在严格的查询预算条件下，它的性能也明显优于其他两个基线。特别是，我们的方法在第四次迭代后的数据集MR和AGNEWS上实现了74.5%和74.4%对于数据集IMDB，我们的方法和其他两个基线之间的准确度差距在第八次迭代后分别达到最大值15.6%和13%。此外，使用我们的方法提取的模型的精度总是比基线随机性和不确定性。值得注意的是，准确度值有时会降低，然后通过增加训练时间再次增加特别是对于图1和图2中的基线随机。 2a和2c。我们认为，噪声在通用公共数据集（WikiText-103语料库）微调替代模型造成这一现象。从非问题域公共数据集和小训练数据中学习我们在其他论文中发现了这种现象（Krishna et al.，2019）使用WikiText-103语料库来提取模型。总之，我们的方法在查询效率方面表现最好，H. Peng，S. Guo，L. Zhao等人沙特国王大学学报18图四、在查询预算下窃取LSTM和CNN模型的准确性比较使用公共语料库提取具有相同架构的模型。一致性度量用于评估目标模型和替代模型之间的接近程度。如表3所示，我们记录了在给定查询预算下替代模型和目标模型之间的一致性。除了在查询预算为2000的情况下窃取BERT-IMDB的情况外，我们的方法提取的模型与目标模型之间的一致性优于其他方法。在预算紧张的情况下，我们的方法仍然领先于其他基线，评估准确性的结果也是如此。在适度的预算下，BERT-MR和BERT-AGNEWS的一致性优于所有其他策略，剩下的一个接近原始数据集基准。这一改进提供了坚实的证据，证明我们的方法可以从替代数据集中选择样本，这些样本信息丰富，对模型训练更有用。图3比较了训练输入、我们的方法和策略随机的不确定性。在每次模型微调迭代后，计算并保存所有训练输入的熵值，最后将其聚合成熵分布的直方图。通过类平衡不确定性抽样选择的样本的熵值显著大于基线随机。不出所料，我们观察到随机选择的样本的熵分布更加分散，数据集IMDB中大约40%的值集中在0-0.05的范围内。由我们的方法选择的熵值的大部分分布在较高的值区间。两种方法的平均熵值分别为0.67、1.23和0.55，而BERT模型的平均熵值分别为0.43、0.68和0.18。MR，BERT-IMDB和BERT-AGNEWS分别。这表明我们的方法选择了具有较高不确定性的示例5.1.2. 不匹配的架构图4总结了替代模型准确度的变化。与目标模型相比，这些模型具有不匹配的架构，并且使用不同的输入进行微调。测试结果表明，在每次迭代训练后，我们的方法获得了更高的准确率。也就是说，对于相同的给定查询预算设置，我们的方法优于策略随机和不确定性抽样的准确性。同时，与相同结构的模型提取结果比较，其精度收敛速度也呈现出相同的趋势窃取CNN和LSTM模型的协议如表4所示。总的来说，我们的方法获得的一致性优于其他基线，但幅度不大。此外，我们可以观察到，我们的方法的协议是最高的基准，无论是在紧张或适度的预算。总之，结果表明，攻击者可以窃取文本分类模型与高精度，尽管在架构之间的不匹配的替代和受害者模型。在相同的查询预算下，我们的方法仍然获得了比其他基线更高的准确率和一致性，这意味着我们的方法的查询效率优于他们。5.2. 对抗性攻击为了验证通过我们的方法提取的模型的帮助下生成的对抗文本的危险性，我们采用了三个对抗文本。H. Peng，S. Guo，L. Zhao等人沙特国王大学学报19表4在紧张和适度预算下窃取LSTM和CNN模型的协议（%）。战略LSTM-MRLSTM-AGNEWSLSTM-IMDB预算紧张适度预算预算紧张适度预算预算紧张适度预算30060090012001500400800120016002000200040006000800010000原始数据76.778.779.579.680.187.387.886.589.687.977.177.579.579.077.0随机53.867.768.070.175.039.556.782.281.984.054.570.168.375.175.5不确定48.871.572.278.072.640.272.683.581.586.561.971.573.775.976.1我们的方法62.473.575.077.878.846.183.386.583.586.762.172.472.174.776.6战略CNN-MRCNN-AGNEWSCNN-IMDB预算紧张中度预算预算紧张中度预算预算紧张中度预算30060090012001500400800120016002000200040006000800010000原始数据74.776.674.678.175.189.791.790.490.690.878.480.179.780.280.4随机61.167.664.373.270.354.072.273.686.987.163.868.775.574.477.4不确定58.068.169.972.468.858.973.675.186.586.460.570.676.673.976.7我们的方法59.568.674.275.574.456.379.484.787.987.967.673.875.475.576.9表5由Textfooler、Textbugger和PWWS生成的对抗性示例的可转移性被害人模型原始准确度（%）攻击后准确率攻击成功率（%）TextfoolerTextbuggerPWWSTextfoolerTextbuggerPWWSBERT-MR85.345.245.539.197.276.190.7贝特-阿格纽93.476.177.174.193.672.980.5BERT-IMDB89.560.765.757.598.191.396.4针对相应目标模型的攻击方法。如表5所示，在所有三种基于BERT的分类模型上，伪造样本的预测准确度显著降低。特别是，BERT-MR模型的准确性从攻击前的85.3%下降到PWWS生成的对抗性示例的39.1%（即，它不输出超过一半的给定样本的正确预测）。模型BERT-IMDB和BERT-AGNEWS的准确性也分别下降了约30%和20%。针对替代模型的对抗性攻击的成功率也相对较高，这意味着对抗性样本的生成受原始文本的限制较少。值得注意的是，不再需要提出任何查询来生成对抗性示例，并在获得替代模型后将其转移到目标模型。6. 结论在这项研究中，我们提出了一个查询高效的模型提取策略，在现实和实用的设置中，攻击者可以从受害者模型访问的唯一信息是前1个预测。我们表明，主动学习选择策略，结合语义为基础的多样性和类平衡的不确定性抽样，可以选择信息和有用的例子，从大规模和公共语料库。我们执行我们的方法，以提取不同架构的模型在三个文本分类任务。实验结果表明，对于相同的给定查询结果，利用这些信息样本进行微调得到的替代模型在准确性方面优于随机选取样本或最大熵原则训练的模型。我们的策略使用更少的查询来微调替代模型，使其比基线更精确。此外，在适度的查询预算下，我们的策略重新训练的替代模型的一致性和准确性接近问题域数据训练的模型。最后，我们证明了基于BERT的分类模型在预测针对相应替代模型生成的对抗性文本时

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

模型提取策略与主动学习技术的研究

ChatGPT技术的多轮对话管理与主动学习策略研究.docx

基于深度强化学习的移动机器人导航策略研究.pdf

图像识别强化学习模型

强化学习与机器学习的区别是什么

这些分支分别研究什么内容呢

基于机器学习的DDos攻击检测的发展趋势探讨

给出自主机器学习的参考文献

机器学习tbm预测代码

无人机的控制算法 会用到强化学习吗，描述一下无人机智能算法

神经网络 路径规划 避障

active learning for convolutional neural networks: a core-set approach

teradata的fs-ldm金融数据仓库模型详细介绍

概率机器人pdf csdn

自主引动机器人的结构设计

自动驾驶算法要学什么

基于ieee33的主动配电网优化

视觉slam十四讲-ch3

请写一篇关于人工智能的综述

基于matlab的bms设计

What are the most important features of artificial intelligence?

最新资源

无人机的控制算法会用到强化学习吗，描述一下无人机智能算法

神经网络路径规划避障