没有合适的资源?快使用搜索试试~ 我知道了~
2779×××本作品采用知识共享署名国际4.0许可协议进行许可。真相血清:毒化机器学习模型以揭示其秘密弗洛里安·T·拉梅尔苏黎世联邦理工学院黄黎俄勒冈州立大学摘要礼萨·肖克里新加坡国立大学马修·贾杰尔斯基谷歌尼古拉斯·卡利尼谷歌埃尔顿·圣华金耶鲁-新加坡国立大学学院洪尚铉俄勒冈州立大学我们介绍了一类新的攻击机器学习模型。我们证明,可以毒害训练数据集的对手可能会导致在此数据集上训练的模型泄露属于其他方的训练点的重要私人细节。我们的主动推理攻击连接了两条独立的工作线,目标是机器学习训练数据的完整性和隐私性我们的攻击是有效的跨成员推理,属性推理和数据提取。例如,我们有针对性的攻击1.00.50.0480×8×10−3 10−2 10−1100假阳性率33×30×10−3 10−2 10−1100假阳性率100102104 106猜测中毒<0。1%的训练数据集,以提高性能(a) 成员推断(b)属性推断(c)金丝雀提取推理攻击的概率降低了1到2个数量级此外,控制训练数据的大部分的对手(例如,50%)可以发起无针对性的攻击,从而对所有其他用户的隐私数据点进行更精确的推断。我们的研究结果对加密优先级的相关性提出了质疑在机器学习的多方计算协议中,如果各方可以任意选择他们的训练数据份额,则CCS概念• 计算方法→机器学习;·安全和隐私→软件和应用程序安全。关键词机器学习,中毒,隐私,成员推理ACM参考格式:Florian Tramèr 、 Reza Shokri 、 Ayrton San Joaquin 、 Hoang Le 、MatthewJagielski、Sanghyun Hong和Nicholas Carlini。2022年。 真相血清:毒化机器学习模型以揭示其秘密。 在2022年ACM SIGSAC计算机和通信安全会议(CCS '22)的会议记录中,2022年11月7日至11日,美国加利福尼 亚 州 洛 杉 矶 。 ACM , 纽 约 州 纽 约 市 , 美 国 , 20 页 。https://doi.org/10.1145/3548606.3560554使 用 者 或 开 发 者可按字母顺序进行反向操作†作者在Google工作期间完成的工作CCS©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9450-5/22/11。https://doi.org/10.1145/3548606.3560554图1:中毒提高了对手进行三种不同隐私攻击的能力。(a)对于CIFAR-10的隶属推断,我们将[11]的真阳性率(TPR)从7%提高到59%,假阳性率(FPR)为0.1%。相反,在TPR固定为50%时,我们将FPR降低480。(b)对于Adult上的属性推断(推断性别),我们将[45]的TPR改进了30。(c)为了从WikiText中提取6位金丝雀,我们将[13]攻击的猜测中位数从9,018减少到230倍。1引言计算机安全的一个核心原则是,没有完整性就不能获得任何隐私[10,第9章]。例如,在密码学中,可以在密文发送给预期接收者之前修改密文的攻击者可能能够利用这种能力来实际解密密文。在本文中,我们证明了同样的漏洞也适用于机器学习模型的训练。目前,有两个长期而独立的工作路线,研究对机器学习(ML)中训练数据的完整性和隐私性的攻击数据中毒攻击[7]的目标是ML模型数据收集过程的完整性,以在推理时降低模型性能-无论是不加在目标示例中[4,6,23,39,61,67]。然后,单独地,隐私攻击,如成员推断[62],属性推断[21,75]或数据提取[13,14],旨在通过与训练模型交互或积极参与训练过程来推断有关模型训练集的私人信息[46,53]。一些作品强调了这两种威胁之间的联系例如,联合学习中的恶意方可以制作更新,以增加其他参与者的隐私泄露[28,46,53,71]。此外,Chase et al.[43]显示中毒攻击我们以前的工作39×4×真阳性率成功率2780×××CCS会增加训练集的全局属性的泄漏(例如,不同阶层的流行程度在本文中,我们扩展和加强这些结果表明,对手可以静态中毒的训练集,以最大限度地提高属于其他方的个人训练样本的隐私泄漏换句话说,我们证明了“写入”训练数据集的能力可以用来从该数据集中的其他(私有)条目中“读取”。我们设计了针对深度学习模型的有针对性的中毒攻击,这些攻击篡改了一小部分训练数据点(<0。1%),以提高性能的隶属度推断,属性推断和数据提取攻击的其他训练的例子,由1至2个数量级。例如,我们表明,通过将8个毒物样本插入CIFAR-10训练集(0。03%的数据),攻击者可以推断出一个特定的目标图像的成员与真阳性率(TPR)为59%,相比之下,7%没有中毒,假阳性率(FPR)为0。百分之一相反,中毒使得成员推断攻击能够在FPR为0.05%时达到50%TPR错误率480低于24%FPR从以前的工作。类似地,通过在WikiText语料库中毒化64个句子,对手可以从在该语料库上训练的模型中提取秘密的6位数我们表明,我们的攻击是强大的不确定性的焦油-获取样本,并严格调查导致我们攻击成功我们发现,中毒对最初享有最强隐私的样本影响最大,因为我们的攻击将数据集中样本的平均情况隐私降低到数据离群值的最坏情况隐私我们进一步证明,中毒通过减轻对训练影子模型的需求,大大降低了最先进的隐私攻击的成本[62]。然后,我们考虑了无针对性的攻击,其中对手控制了更大比例的训练数据-高达50%-并旨在增加所有其他数据点的隐私泄露当少数方(例如,2)想要在它们各自的训练集上联合训练模型,而不向其他人透露它们自己的(私有)数据集,例如,通过使用安全多方计算[25,73]。我们发现,无针对性的中毒攻击可以将所有受害者我们的研究结果对将机器学习模型建模为加密协议中的理想功能的相关性提出了质疑,例如在使用安全多方计算(MPC)训练模型 正如我们的攻击所显示的那样,诚实地遵循训练协议的恶意方可以利用他们选择输入数据的自由来强烈影响协议的“理想”隐私泄露。2背景和相关工作2.1对培训隐私的训练数据隐私是机器学习中一个活跃的研究领域在我们的工作中,我们考虑了三种典型的隐私攻击:身份推断[62],属性推断[21,22,75]和数据提取[13,14]。 在隶属度推断中,对手的目标是确定给定样本是否出现在模型的训练集中。例如,参与医学试验可能会揭示有关诊断的信息[29]。在属性推断中,对手使用模型来学习训练集中的给定用户例如,用户对调查的响应的部分知识可以允许对手通过查询在该(和其他)用户的响应上训练的模型来推断对调查中的最后,在数据提取中,我们考虑一个试图学习语言模型的训练数据中包含的秘密字符串的对手。 我们关注这三种典型的攻击,因为它们是文献中最常考虑的对训练数据隐私的攻击。2.2对培训完整性的中毒攻击可以分为三类:不确定性(可用性)攻击、目标攻击和后门(或木马)攻击。不分青红皂白的攻击试图降低模型性能并使其无法使用[7,15,20,31,51]。有针对性的攻击导致特定良性样本的错误分类[23,61,64]。后门攻击在模型中添加了一个“触发器”,允许对手通过干扰任意测试点来引入错误分类[ 4,6,67 ]。后门也可以通过供应链漏洞插入,而不是数据中毒攻击[26,39,40]。然而,这些中毒攻击都没有损害隐私的目标。我们的工作考虑了一个攻击者,它毒害了训练数据,侵犯其他用户的隐私先前的工作已经考虑了这个目标,为更强大的对手,与额外的控制训练过程。例如,控制部分训练代码的对手可以使用训练模型作为侧信道来泄露训练数据[3,63]。或者在联邦学习中,恶意服务器可以选择能够重建训练样本的模型架构[9,19]。或者,去中心化学习协议的参与者可以通过发送动态恶意更新来增强隐私攻击[28,46,53,71]。 我们的工作与这些不同之处在于,我们只做了一个弱假设,即攻击者可以一次性向训练集添加少量任意数据,而不会对此后的任何其他训练部分做出贡献。在[ 43 ]中考虑了与我们类似的威胁模型,用于推断训练数据的全局属性的较弱目标(例如,阶级的普遍性)。2.3防御当我们考虑将中毒攻击和隐私推断攻击相结合的对手可能对我们的攻击有效。针对中毒攻击(不分青红皂白或有针对性)的防御设计了对对抗数据的一部分具有鲁棒性的学习算法,通常通过检测和删除分布外的点[15,16,27,31,66]。 对隐私推断的防御要么应用算法来最小化模型的备忘录[34,52],要么训练具有差异隐私的模型[1,17]。使用差分隐私进行训练可以证明可以保护任何数据集中用户由于我们在这项工作中的主要重点是引入一种新的威胁,通过数据中毒放大个人隐私泄露的模型,我们设计了最坏情况下的攻击,这些攻击并不明确旨在逃避特定的数据中毒防御。我们注意到,这种中毒防御在今天的实践中很少部署。特别是,在分散式设置(如联邦学习或安全MPC)中清理用户数据是一项重大挑战[35]。在第4.3.7节2781→ []← T()∈XX → [](())T()UUUUU{}UU {}∩U∅← T({})← ← U一∪∪U| |∩U∅← ← U← T({})U���������(Truth Serum:Poisoning Machine Learning Models to Reveal Their SecretsCCS通过差异隐私-可以显着降低我们的中毒攻击的有效性。我们的攻击技术是否可以对这种防御以及更复杂的数据清理机制进行鲁棒性,这是未来工作的一个有趣问题。一个相关的工作线使用中毒来衡量差异私有训练算法的隐私保证[32,54]。这些工作与我们的工作有着根本的不同:他们测量中毒样本本身的隐私泄露,以调查机器学习的最坏情况;相比之下,我们显示,中毒可能会损害其他良性样本。2.4机器学习符号分类器:0, 1是一个学习函数,它将输入样本映射到类上的概率向量���������给定���从某个分布D采样的训练集,我们���������表示���通过在训练集上运行训练算法来学习具有权重的分类器���。给定一个标记的样本������,我们让k������������表示应用于分类器输出和地面真实标签的损失函数,通常是交叉熵损失。因果语言模型是经过训练的顺序分类器,用于预测句子中的下一个单词假设一种语言中的句子是来自集合T的标记序列(例如,所有英文单词或子-话[72])。一种生成语言模型������:T语言0、1个|不|需要作为任意数量的标记的句子的输入,并且输出���下一个token的值的概率分布一个句子���= ���1。. . ���������我们将模型的损失定义为:1 .一���、−1���=0隐私游戏我们考虑一个通用的隐私游戏,其中对手必须猜测来自某个宇宙的哪个元素被用来训练模型。通过适当地定义宇宙,这个游戏概括了一些以前的隐私攻击游戏,从成员推理到数据提取。游戏3.1(隐私推理游戏)。游戏在挑战者C和对手A之间进行。两者都可以访问分布D,并且知道论域U和训练算法T。(1) 挑战者从宇宙中采样数据集���D和目标���(使得���=)。(2) 挑战者������������在数据集���和目标上训练模型���。(3) 挑战者给予对手查询访问权限。������(4) 对手发出一个猜测���。(5) 如果=,对手就赢了������。全域捕获对手关于目标示例可能采用的可能值的先验信念。在成员身份推理博弈中(见[33,75]),对于一个特定的目标例子���,全域是=���,-,其中 表示没有例子。也就是说,对手猜测模型���是在上���还是在上训练的������。对于属性推断,全域包含真正的目标示例���,以及具有未知属性的其他值的所有������“替代版本”。提取格式良好的敏感值(如信用卡号)的攻击可以用秘密可能采用的所有可能值的宇宙来建模其中,RCE是交叉熵损失,���1。. . ���0是空字符串。3通过数据中毒扩大隐私泄露动机 安全和密码学领域充斥着这样的例子,对手可以将对完整性的攻击转变为对隐私的攻击。例如,在密码学中,填充预言攻击[8,68]允许对手利用他们修改密文的能力来学习消息的全部内容。类似地,压缩泄漏攻击[24,36]将数据注入用户的加密流量(例如, HTTPS响应),并通过分析密文的大小来推断用户的私人数据。或者,在Web安全中,一些过去的浏览器容易受到攻击,其中向受害者发送精心制作的电子邮件消息的能力可能被滥用,以通过跨源CSS攻击实际读取受害者受这些攻击的启发,我们证明了在机器学习领域也可能出现同样的结果3.1威胁模型我们考虑一个对手,它可以将一些数据adv���注入机器学习模型的训练集���。这个对手的目标是���通过与adv训练的模型交互������来增强他们推断内容信息的能力。与之前对分布式或联邦学习的攻击相反[46,53],我们的对手无法积极参与学习过程。对手只能静态地毒害他们的数据一次,之后只能与最终训练的模型交互。游戏,目标是最大限度地减少目标点的隐私泄露游戏3.1的变化以红色突出显示游戏3.2(带有中毒的隐私推理游戏)。游戏在挑战者C和对手A之间进行。两者都可以访问分布D,并且知道论域U和训练算法T。(1) 挑战者从宇宙中采样数据集���D和目标���(使得���=)。(2) 攻击者向挑战者发送一个大小为adv的有毒数据集adv(3) 挑战者���������������在中毒的数据集������adv和target上训练模型adv���。(4) 挑战者给予对手查询访问权限。������(5) 对手发出一个猜测���。(6) 如果=,对手就赢了������。3.1.1粘附能力。上面的投毒游戏隐含地假设了一些对抗能力,我们现在更明确地讨论。博弈3.2假设对手知道数据分布D和可能的目标值的范围。这些能力是标准的,在实践中很容易满足。 对手还可以将一组���adv poisoned点添加到训练集中。我们将考虑只需要添加少量目标中毒点的攻击(低至adv=1),以及假设更大数据贡献的攻击(高达adv=),正如在MPC设置中所期望的那样,参与方数量较少���中国(北京)国际航空航天博览会(2001). . ������������(1)我们现在介绍我们的新隐私游戏,它增加了对手毒害数据集的能力这是一个严格的更一般的2782|U|(U)−()下一页()下一页∪()下一页()下一页()下一页()下一页()下一页(|U|)联系我们()下一页∪−CCS我们不限制对手的毒药是“隐形的”。也就是说,我们允许中毒的数据集���adv是任意的。 正如我们将看到的,设计最大化隐私泄漏的中毒攻击是不平凡的-即使对手在他们的毒药选择上没有限制。由于迄今为止尚未研究针对数据隐私的中毒攻击,我们的目标是了解这种攻击在最坏情况下的有效性最后,游戏假设对手的目标是一个特定的例子���。我们称之为有针对性的攻击。我们还在第4.4节中考虑了非目标攻击,其中攻击者制作了一个有毒的数据集���adv损害训练集中所有样本的隐私���。3.1.2成功案例当秘密值的宇宙很小时(对于成员推断,其中= 2,或者对于属性推断,其中它是属性的基数),我们通过游戏的多次迭代的真阳性率(TPR)和假阳性率(FPR)来衡量攻击的成功率。在[11]之后,我们特别关注低误报率下的攻击性能(例如,FPR=0。1%),它衡量攻击的倾向,以精确地针对一些最坏情况的用户的隐私。对于成员推断,我们自然地将真阳性定义为成员的正确猜测,即,���当���=时������,以及作为不正确的成员猜测的假阳性,������当���=���时。对于属性推断,我们定义一个“肯定的”作为一个例子,具有未知属性的特定值(例如,如果未知属性是性别,我们将“女性”定义对于金丝雀提取,其中可能的目标值的范围很大(例如,所有可能的信用卡号码),我们修改游戏3.2,让对手获得“部分信贷”发出- ting多猜测。具体来说,在[13]之后,我们让adversary输出秘密的排序(置换)������可能值,从最可能到最不可能。然后,我们通过正确信息的暴露[ 13 ](以比特为单位)来衡量攻击经训练的模型非常强地记忆目标(即,��� 该模型将���以非常高的置信度正确地分类)。然而,这在两个世界中都是正确的,不管目标对象���是否在原始训练集中。因此,这种策略并不能帮助对手解决区分博弈,事实,它使区分成员更加困难相反,对手应该改变训练集,以最大限度地提高目标的影响力。������也就是说,我们希望中毒的训练���集adv是这样的,目标,的包含在训练模型的行为中提供了对手选择的一些输入的最大变化为了说明这一原则,我们首先展示了一个可证明完美的隐私中毒攻击的特殊情况下,最近邻分类器。我们还在附录D中提出了一种针对SVM的替代攻击然后,我们描述了我们对深度神经网络进行经验攻击的设计原则。预热:可证明地放大了kNN中的成员泄漏考虑���最近邻(kNN)分类器(假设,wlog.,的���是奇数)。给定一个带标签的训练集和一个测试样本,该分类器找到在k中的k的最近邻居,并输出这些k的邻居中的多数标签������我们假设攻击者对训练好的分类器有黑盒查询访问权限。我们演示了如何毒害一个kNN分类器,使分类器标记一个目标的例子���,���正确的,当且仅当目标是在原始的训练集���。因此,这种攻击可以让对手以100%的准确率赢得成员推理游戏。我们的中毒攻击(参见附录D中的算法1)创建了一个大小为adv的数据������集,其中包含���目标的1个副本���,一半正确标记���为“”,另一半错误标记为���“”“���。我们进一步添加一个中毒的例子′,距离′很小,也被错误标记为′(我们假设训练集中没有其他点������������������在这种攻击最大化了影响力目标点,把它变成一个决胜局,当它是一个成员时,秘密秘密:2������)A=0(|U|)−log2.������等级.(二)攻击者推断目标���示例���是成员,当且仅当训练的模型正确地分类���为类���。要看到攻击的效果,考虑两个可能的世界:暴露的范围从0位(当正确的秘密密钥被排序时作为最不可能的值),记录2位(当对手最可能的猜测是正确的值时)���。3.2攻击概述我们首先从一个高层次的概述我们的中毒攻击战略。为了简单的阐述,我们专注于成员推理的特殊情况。我们的攻击属性推断和金丝雀提取遵循类似的原则。给定一个目标样本���,���则标准隐私博弈(对于游戏3.1中的bership推断)要求对手区分两个世界,其中模型分别在���������或上训练���。当我们在博弈3.2中赋予对手毒害数据集的能力时,我们的目标是改变数据集���,以便更容易区分上述两个世界。请注意,这个目标与简单地最大化模型������这可以通过以下(坏的)策略来实现:通过向数据集添加多个相同的副本(,���)来毒害数据集。这将确保目标在中:中毒训练集中有的个���副本adv:1个中毒副本(一半被正确标记)和目标,。���因此,邻居中的多数投票���产生正确的类���。目标不在目标内:由于目标内的所有点与目标的距离都至少为1/2,因此模型选择的目标相邻点是对手���������因此,该模型输出“0”。在附录D中,我们证明了我们的攻击是不平凡的,因为存在需要中毒以实现完美成员推理的点。事实上,我们表明,对于某些点,一个非中毒对手不能推断成员比机会。放大深度神经网络中的隐私泄露上述对kNN的攻击利用了分类器的特定结构,这使我们能够将任何示例的成员资格变成模型对该示例的决策的完美平局决胜局。 在深度神经网络中,示例不太可能表现出如此明显的影响力··真相血清:毒化机器学习模型以揭示其秘密CCS2783()下一页()下一页()下一页【详细】()下一页(with[11][12][13][14][15][16][17][18][19那么,为了(i.e.、由于训练的随机性,当且仅当示例是成员时,不太可能发生特定的模型行为相反,我们可以尝试将对手的目标转换为一个优化问题,即选择一个中毒的数据集,最大化使用或不使用目标函数训练的模型的可���������然而,解决这样的优化问题是令人生畏的。虽然先前的工作确实优化了毒药,以最大限度地改变单个模型在两个相邻数据集上训练的两个模型的决策而不是直接解决这个优化问题,我们“手工”策略,凭经验增加样本对模型的影响。我们从先前工作中的观察开始,10010−110−2毒药x16毒药x8毒药x4毒药x2毒药x1无毒10−3 10−2 10−1 100假阳性率易受隐私攻击的例子是数据离群值[11,75]。这样的例子很容易被攻击,因为它们对模型有很大的影响:在离群值上训练的模型在这个样本上的损失比没有训练的模型要低得多。然而,在我们的威胁模型中,攻击者无法控制或修改目标样本,并且,先验地,样本不太可能是离群值。然后,我们的洞察力是毒化训练数据集,以便将有针对性的例子将其归类为离群值。例如,我们可以欺骗图2:有针对性的中毒攻击提高了CIFAR-10的成员影响。对于250个随机数据点,我们将1到16个错误标记的点副本插入训练集中,并使用128个阴影模型运行[11]���在训练的模型中,我们计算了训练模型中的训练样本的损失。���������并对假设模型,使其相信目标点是错误标记的。然后,该n是从N(n_in,n_2)或N(n_out,n_2)中得出的。在训练集中存在正确标记的目标(a,b)在外层很可能对模型的决策有很大的影响在第4节中,我们展示了如何实例化这种攻击策略,以增强对标准图像数据集的成员推断攻击。然后,我们将第5节中的攻击策略扩展到表格数据集的属性推断攻击。最后,在第6节中,我们提出了针对语言模型的攻击策略,最大限度地减少特殊格式的金丝雀序列的泄漏。4成员推理(Membership inference,MI)是机器学习中最常见的隐私泄露实际上,任何形式的来自模型训练集的数据泄漏(例如,属性推断或数据提取)意味着推断某些训练示例的成员资格的能力因此,成员推断是评估中毒攻击对数据隐私影响的自然目标。在本节中,我们将介绍并分析数据中毒攻击,这些攻击可以将成员关系推断提高一到两个数量级。第4.2节描述了一种有针对性的攻击,这种攻击增加了特定样本的泄漏,第4.3节包含了对这种攻击成功的分析������第4.4节探讨了同时在所有训练点上增加隐私泄露的无针对性攻击4.1实验装置我们扩展了最近的攻击[11],通过每个示例的对数似然测试执行成员推断。攻击首先训练阴影模型,使得每个样本出现在一半阴影模型的训练集中,而不是另一半。���������然后,我们计算两组模型的损失:���in={���������������������out=���{���������������为了用中毒来放大攻击,对手构建了一个中毒的数据集,并将其添加到训练集中。攻击者还将adv添加���到每个影子模型������的训练集(以便这些模型尽可能与目标模型相似)。我们在CIFAR-10和CIFAR-100 [ 38 ]上进行了实验,这两个标准图像数据集分别包含来自10个和100个类别的50,000个样本。目标模型(和阴影模型)使用Wide-ResNet架构[76],经过100个epoch的训练,具有权重衰减和常见的数据增强(随机图像翻转和裁剪)。对于每个数据集,我们在原始训练集的随机50%分割上训练了128个模型1模型在以下方面达到91%的测试准确率:CIFAR-10和CIFAR-100的平均测试准确率为67%4.2有针对性的中毒攻击我们现在设计中毒攻击,以提高特定目标示例的成员推断成功率。也就是说,攻击者知道数据库的数据(但不知道它是否用于训练模型),并基于数据库自适应地设计中毒数据集。���标签翻转攻击。我们发现标签翻转攻击是一种非常强大的中毒攻击形式,可以增加数据泄漏。给定一个带有标签“”的目标示例“”标签错误的���毒药���,���′,. . .,���,���'对于某个标签���是的���。这种攻击的基本原理是,在AdAdv上训练的模型将学会将Adv与标签Adv'相关联,并且现在“错误标记”的������当存在于训练集中时对模型的影响为了在CIFAR-10和CIFAR-100上实例化这种攻击,我们从原始训练集中随机选择250个目标点对于每个目标示例(x1,x2),中毒数据集x1adv包含一个错误标记的例子(���,′)重复了次,对于∈{1, 2, 4, 8, 16}。因此,目标模型和阴影模型的训练集部分重叠并将高斯分布N(���Rmin,Rmin2)拟合到Rmin和N(���Rmin,Rmin2)(尽管对手不知道目标的训练集中有哪些点���排除在外层Carlini等人[11]表明,如果攻击者真阳性率模型在与目标训练集完全不相交的数据集上训练CCSFlorian Tramèr等人2784××××10010−1−25 02−5−2502510−210−3 10−2 10−1 100假阳性率没有毒毒x1毒药x2 毒药x4 毒药x8毒药x16图3:我们的中毒攻击将成员和非成员的损失分布分开,使它们更容易区分。对于五个随机的CIFAR-10示例,我们绘制了该示例的(logit标度)损失分布,当它是成员(红色)或非成员(蓝色)时。水平轴表示攻击者毒害示例的次数。我们报告了完全留一交叉验证的平均攻击性能(即,我们评估了128次攻击,使用一个模型作为目标,其余的作为阴影模型)。结果 图2 和图15 (附录)分别显示了我们在CIFAR-10和CIFAR-100上的成员推断攻击的性能,因为我们改变了每个样本的毒药���数量。我们发现这种攻击非常有效。即使有一个中毒的例子(���=1),攻击的真阳性率(TPR)为0。1%假阳性率(FPR)增加1。七十五。 8毒药(0)03%的模型在CIFAR-100上,中毒使基线的强TPR从22%增加到69%,FPR为0。百分之一或者,我们可以以固定召回为目标,使用中毒来降低MI攻击在没有中毒的情况下,正确识别目标CIFAR-10成员的一半(即,TPR为50%)也会错误地将24%的非成员标记为成员。 中毒,同样的回忆是实现,而只有错误标记0。05%的非会员-提高了480倍。在CIFAR-100上,同样对于50%TPR,中毒将攻击的假阳性率从2降低到100。5%至0。025%。由于我们同时运行多个目标攻击(为了效率),毒药的总数是很大的(高达4000 mislabeled点)。然而,中毒模型的测试准确性降低最小(从92%到88%),非目标点的MI成功率保持不变。因此,我们不会加剧250次有针对性的攻击的影响作为一个健全的检查,我们重复实验只有50个目标点,并获得类似的结果。4.3分析和消融我们已经证明,有针对性的中毒攻击显着增加成员泄漏。我们现在开始了解我们攻击成功的基本原理4.3.1为什么我们的攻击奏效了 在图3中,我们绘制了5个CIFAR-10示例的模型置信度分布,图4:中毒导致以前安全的数据点变得脆弱。我们对5%的点进行攻击,这些点最初最容易受到成员关系的影响,而不会中毒。虽然中毒对最脆弱的点几乎没有影响,但中毒最不脆弱的点可使TPR在0.1%FPR时提高430倍。例如,一个成员(红色)和当它不是(蓝色)。在水平轴上,我们改变毒物的数量(即,这个例子在训练集中被错误标记了多少次在没有poisoning的情况下(左列),对于大多数示例,分布显著重叠。当我们增加毒药的数量时,置信度显著向左移动,因为模型对示例的真实标签越来越不自信。但至关重要的是,分布也变得更容易分离,因为目标示例对训练模型的(相对)影响现在要大得多。为了进行说明,考虑图3中的顶部示例(标记为在没有中毒的情况下,当它是成员时,这个示例因此,可靠地推断成员资格是不可能的。然而,对于16种毒药,当它是成员时,该示例的置信度在[0.4%,28.5%]范围内,当它不是成员时,置信度在[0%,2.4%]范围内,因此当置信度超过2时,可以进行精确的成员推断。百分之四4.3.2哪些点容易受到我们的攻击? 我们的投毒战术可以通过不同的方式提高心肌梗死的成功率。中毒可以在所有数据点上均匀地提高攻击精度,或者可能会对某些数据点造成严重影响。我们证明了后者是正确的:我们的攻击严重影响了原本不受成员推断影响的内点。这一结果有着惊人的后果:即使用户是一个内群,因此可能不担心隐私泄露,针对该用户的主动中毒攻击者仍然可以推断出成员资格。在图4中,我们展示了投毒攻击对那些最初最容易和最难推断成员关系的数据点的性能。我们在所有CIFAR-10点上运行[11]的成员推断攻击,并选择攻击成功次数最少和最多的5%样本(所有128个模型的然后,我们用一组新的模型对这些极值点重新运行基线攻击(以确保我们选择的点不会过拟合),并与= 4的标签翻转攻击进行比较���。中毒对已经是异常值的数据点有轻微的影响:在这里,即使是基线MI攻击也有很高的成功率(73%最脆弱(目标x4)最脆弱(无毒)最不脆弱(目标x4)无毒(No Poison)真阳性率真相血清:毒化机器学习模型以揭示其秘密CCS2785与阴影模型毒药x16毒药x4毒药x1无毒真阳性率10010010−110−110−210−3 10−2 10−1100假阳性率10−210−3 10−2 10−1 100假阳性率图5:带有中毒的成员推断攻击不需要影子模型。在中毒的情况下,[75]的全局阈值攻击在CIFAR- 10上的表现几乎与[11]的攻击一样好,后者使用128个阴影模型来计算每个示例的单个决策阈值。TPR为0.1%FPR),因此几乎没有改进的余地[2]然而,对于原本最难攻击的点,中毒将攻击的TPR提高了430倍,从0.1%提高到43%。4.3.3影子模型是必要的吗? 在[11,41,58,70,74]之后,我们的MI攻击依赖于影子模型来校准单个示例的置信度。事实上,正如我们在图3的第一列中看到的,不同示例的置信度在不同的尺度上,因此区分成员和非成员的最佳阈值在示例之间变化很大然而,当我们增加中毒样本的数量时,我们观察到置信度的规模在样本之间变得统一对于16种毒药,最好区分成员和非成员的阈值对于图3中的所有示例大致相同。因此,我们在图5中显示,通过中毒,不再需要使用阴影模型进行校准来获得强大的MI攻击。通过简单地为目标示例的置信度设置一个全局阈值几乎和我们训练128个影子模型的全力攻击这个结果使得我们的攻击比以前的攻击更实用事实上,在许多情况下,即使是训练单个影子模型,对于攻击者来说也可能非常昂贵(在访问训练数据或计算方面)。相比之下,毒害一小部分训练集的能力可能更加现实,特别是对于非常大的模型。 最近的工作[11,48,70,74]表明,非校准MI攻击(没有中毒)在低误报率下的表现并不比偶然性好(见图5)。然而,通过中毒,这些非校准攻击表现得非常好。在FPR为0时。1%,未校准的无中毒攻击的TPR为0。1%(随机猜测),而非校准攻击,16种靶向毒物的TPR为43%-提高了430倍。4.3.4标签的选择重要吗 我们的中毒攻击注入了一个带有错误标签的目标示例。对于图2中的结果[2]在图3中,我们看到MI成功而没有中毒的例子往往已经是离群值。例如,从上到下的第三个和第四个例子是在CIFAR-10训练集中被错误标记为“猫”的“鸟”,以及被混淆为“鹿”的“马”。图6:CIFAR上错误标记策略的比较-10.将相同的随机不正确标签替换为4个有害副本比将错误标签替换为最可能不正确的类别(最佳)或最不可能的类别(最差)的性能更好。将不同的不正确标签分配给4个副本(随机多个)严重降低了攻击成功率。和图15,我们随机选择一个不正确的标签(如果我们复制一个毒药3次,我们对每个副本使用相同的标签在图6中,我们探索了在CIFAR-10上选择错误标签的替代策略我们考虑其他三种策略:best:将毒药错误标记为该示例中最有可能不正确的最坏的:将毒药错误地标记为最不可能的类别。random-multi:对每种有毒物质随机抽取不正确的标签(不替换)���。这三种策略比随机方法表现得更差在CIFAR-10(图6)和CIFAR-100(图16)上,“随机多”策略做得更差,并且在低FPR下不中毒的情况下表现不佳。这种策略具有与我们原始攻击相反的效果,因为它迫使模型预测跨类的近似均匀分布,这仅受目标示例存在或不存在的影响最小总的来说,这个实验表明,正确选择不正确的标签并不重要,只要它是一致的。4.3.5是否可以通过修改目标来提高攻击力 我们的poi-soning攻击只篡改目标的标签������,而保持不变的例子。可以想象,在中毒之前也改变样品的攻击可能导致更强的泄漏。在附录A.2中,我们试验了许多这样的策略,这些策略受到了关于清洁标签中毒的文献的启发[61,67,78]。但我们最终未能找到一种改进攻击的方法,并将其作为一个开放的问题来设计更好的隐私中毒策略,以改变目标样本。4.3.6攻击是否需要对目标有确切的了解 现有的成员推断攻击可用于审计ML隐私漏洞,通常假设目标示例的确切知识(以便对手可以查询该示例的模型)。我们的攻击在这方面没有什么不同:它需要毒药x4(随机)毒药x4(最佳)毒药x4(最差)毒药x4(随机-多)无毒真阳性率···CCSFlorian Tramèr等人2786毒药x16毒药x8毒药x4毒药x2毒药x1无毒用毒药不用毒药×××()下一页1001009010−18810−18610−2848210−210−3 10−2 10−1100假阳性率10−380无1. 0 0. 1 0. 01 0. 001损耗夹图7:对于训练的CIFAR-10模型,损失被削减到1,中毒仅适度增加MI攻击的成功率 如果目标有超过1个错误标记的副本,中毒会在低误报率下损害攻击。在训练时间(为了毒害模型)和评估时间运行MI攻击的目标知识现在,我们评估如何以及我们的攻击执行时,adver-sary只有部分知识的目标的例子。由于我们在这里处理的是图像,定义这种部分知识需要一些谨慎。 我们将假设对手不知道确切的目标示例���,而是知道一个“看起来类似”的示例������。攻击者需要猜测是否使用了训练模型。为此,攻击者通过注入错误标记的伪随机数版本来毒害目标模型(和影子模型),并在伪随机数上查询目标模型以形成猜测。该实验的详细信息见附录A.3。图19显示了我们的攻击(以及没有中毒的基线)对于只知道目标的的。 在FPR为0.1%时,TPR降低<1。基线攻击和我们的攻击都是6,每个目标4种毒药4.3.7我们能否通过限制离群值影响来减轻攻击正如我们所展示的,我们的攻击通过将数据点变成异常值而成功,然后对模型的决策产生很大影响。因此,我们的隐私中毒攻击可以通过限制离群值对模型的影响来减轻。例如,使用差分隐私[1,17]进行训练可以防止我们的攻击,因为它限制了任何离群值在任何数据集中(包括中毒数据集)的影响。 差分私有深度学习的算法限制了单个示例的梯度大小[1]。在这里,我们选择了一种稍微简单的方法来限制单个示例的损失(如果我们假设模型在向前传递中的激活有一定的限制,那么这两种方法是等效的)。边界损失而不是梯度具有计算效率高得多的优点,因为它只需要在反向传播之前缩放损失。在图7中,当每个示例���以这种方式裁剪仅略微降低了无中毒攻击的成功率,但在低误报率下显著损害了中毒攻击的成功虽然我们的攻击与每个目标的**=1毒药仍然比基线提高,包括图8:积极的损失削减降低了对CIFAR-10的MI攻击的成功率,几乎是偶然的。然而,poi-soning仍然可以将攻击成功率提高高达3,并且模型额外的毒药削弱了攻击,因为原始样本在附录A.4的图20中,我们显示了损失裁剪训练对5个随机CIFAR-10样本的成员和非成员置信度分布的影响,类似于图3。用错误标记的样本毒害模型仍然会将置信度转移到非常低的值,但是包含正确标记的目标不再清楚地区分两个分布。虽然损失裁剪因此似乎是一个简单而有效的防御我们的中毒攻击,它不是隐私灵丹妙药。事实上,原始基线MI发作保持了高成功率。正如我们所展示的在图8中,进一步减小限幅界限(到Δ=10−3)确实将基线MI攻击降低到接近概率。但在这种情况下,投毒确实再次增加了攻击此外,激进的裁剪将模型的测试准确率从91%降低最后
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功