分布式模型反演攻击及其性能提升

42 浏览量更新于2023-10-15 收藏 13.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

161780知识丰富的分布式模型反演攻击0Si Chen, Mostafa Kahla, RuoxiJia Virginia Tech Blacksburg, VA0{ chensi, kahla, ruoxijia } @vt.edu0Guo-Jun Qi * Seattle Research Center,Innopeak Technology Bellevue, WA0guojun.qi@innopeaktech.com0摘要0模型反演（MI）攻击旨在从模型参数中重建训练数据。这种攻击引发了对隐私的越来越多的关注，尤其是在越来越多的在线模型仓库中。然而，现有的针对深度神经网络（DNNs）的MI攻击还有很大的性能改进空间。我们提出了一种新颖的专门用于反演的GAN，可以更好地从公共数据中提取对于对私有模型进行攻击有用的知识。特别地，我们训练鉴别器不仅可以区分真实和伪造的样本，还可以区分目标模型提供的软标签。此外，与以前直接搜索一个数据点来代表目标类的工作不同，我们提出为每个目标类建模一个私有数据分布。我们的实验证明，这些技术的结合可以将最先进的MI攻击的成功率显著提高150%，并且对各种数据集和模型具有更好的泛化能力。我们的代码可在https://github.com/SCccc21/Knowledge-Enriched-DMI找到。01. 引言0许多吸引人的机器学习（ML）技术应用涉及对敏感和专有数据集进行模型训练。对于这些应用的一个主要关注点是模型可能受到隐私攻击并透露训练数据的不适当细节。一种隐私攻击类型是MI攻击，旨在从对模型的访问中恢复训练数据。访问可以是黑盒或白盒。在黑盒设置中，攻击者只能对模型进行预测查询，而在白盒设置中，攻击者完全了解模型。鉴于越来越多的在线平台可以下载整个模型，如TensorflowHub 1和ModelDepot 2，白盒MI攻击0* G.-J. Qi的通讯地址：guojunq@gmail.com 1https://www.tensorflow.org/hub 2https://modeldepot.io/0对隐私构成越来越严重的威胁。有效的MI攻击主要在简单模型（如线性模型）和低维特征空间上进行演示[5,4]。MI攻击通常被视为一个优化问题，寻找在私有模型下与目标标签对应的最可能的输入示例。当目标模型是DNN时，底层攻击优化问题变得棘手，通过梯度方法在无约束的情况下解决它很容易陷入局部最小值。以前的MI攻击模型（如[31]）通过GAN生成器从潜在的公共数据中提取通用先验的思想，并使用它来指导反演过程。例如，为了攻击一个基于私有人脸图像训练的人脸识别分类器，可以使用公共人脸数据集训练一个GAN来学习真实人脸图像的通用统计信息，然后在GAN的潜在空间中解决攻击优化问题，而不是在无约束的环境空间中。然而，攻击性能仍有很大的提升空间。例如，从最先进的人脸识别分类器反演的人脸图像的前一识别准确率为45%。一个自然的问题是：MI攻击对DNN的表现不佳是因为DNN对私有数据没有太多记忆，还是因为攻击算法设计不完善的结果？本文表明这是后者。我们揭示了当前MI攻击对DNN的各种缺点。特别是，我们注意到以前的最先进方法存在两个关键限制：1）对于从公共数据中提取知识，没有充分探索关于私有分类器的信息。以前的工作忽视了目标分类器在调整从公共数据中提取的知识以训练目标分类器上的MI攻击模型中的重要作用。事实上，给定一个要攻击的目标分类器，我们还可以使用其输出标签来提取哪些公共数据在反演目标模型以恢复给定标签的私有训练示例方面更有用。2）以前的工作在恢复目标模型的给定标签的单个示例时做出了简化的一对一假设。161790然而，在实际场景中，反转模型应该自然地导致与给定标签相对应的训练示例的分布。这激发了我们根据这种多对一的假设来恢复MI攻击中的数据分布。为了解决第一个限制，我们提出将GAN的训练目标定制为反转任务。具体而言，对于鉴别器，我们提出利用目标模型对公共数据集进行标记，并训练鉴别器区分真实样本和伪造样本以及标签。这种新的训练方案将迫使生成器保留更相关于推断目标模型类别的图像统计信息，这些信息可能出现在未知的私有训练数据中。为了克服第二个限制，我们提出明确参数化私有数据分布，并通过分布参数解决攻击优化问题。此外，这将引导我们探索一个分布，在该分布中，具有大概率质量的每个点都能获得良好的攻击性能。我们在各种数据集和网络架构上进行实验证明，通过定制针对私有标签的公共领域知识的分布式MI攻击可以显著改进先前针对DNN的攻击方法，即使公共数据与目标网络的私有标签没有重叠。本文的结构如下所述。我们在第2节介绍相关工作，并在第3节中描述我们提出的特定于反转的GAN和分布恢复方法。在第4节中，我们评估了所提方法的性能，并展示了其在新的攻击设置（多目标MI攻击）中的应用。最后，我们在第5节总结和讨论了我们的主要发现。02. 相关工作0针对机器学习模型的隐私攻击的一般目标是获取不打算共享的知识，例如有关训练数据和模型的信息。攻击可以根据具体目标分为四种类型：模型提取[19, 14, 22,3]，成员推断[25]，属性推断[1, 6, 18]和模型反转[5, 4, 31,28]。模型提取攻击试图创建一个学习与目标模型相同任务且表现同样好甚至更好的替代模型；其他三种攻击侧重于揭示有关训练数据的秘密。MI攻击是特别感兴趣的，旨在重新创建训练数据或敏感属性。第一个MI攻击算法是在[5]中提出的，它遵循最大后验（MAP）原则，并构造最大化观察到给定模型响应和其他可能的辅助信息的输入特征。作者将该算法应用于预测医疗剂量的线性回归模型，并且0研究表明，该算法可以成功地反转用作输入特征的遗传标记。Fredrikson等人[4]将MAP攻击思想应用于更复杂的模型，包括决策树和浅层神经网络。具体而言，对于具有高维输入特征的神经网络，作者提出利用梯度下降来解决潜在的攻击优化问题。尽管该算法在一些浅层网络和单通道图像上的测试中明显优于随机猜测，但重建的图像模糊不清，几乎无法揭示私人信息。此外，当在DNN和三通道图像上进行测试时，该算法完全失败。为了提高对具有高维输入的DNN的攻击性能，提出了一种双重攻击方法[31]，该方法在公共数据上训练了一个GAN（该数据可能与私有数据没有类交集和标签），然后使用GAN搜索对给定类别响应最大化的真实示例。然而，由此产生的GAN无法提取出针对目标网络中特定类别的私有知识，并且相关的MI攻击无法恢复与这些私有类别对应的示例分布。攻击神经网络的上述工作主要集中在白盒设置和攻击离线学习的单个模型上。最近的研究还探讨了其他攻击者模型。例如，Yang等人[28]研究了黑盒攻击，并提出训练一个单独的模型，交换目标模型的输入和输出，以执行MI攻击。Salem等人[23]研究了在线学习的黑盒MI攻击，攻击者可以访问在线更新之前和之后的目标模型的版本，并旨在恢复用于执行更新的训练数据。此外，MI攻击的算法类似于特征可视化的另一项工作[21,29]，该工作试图重建最大程度激活目标网络的图像。所提出的工作与这些现有的特征可视化工作的不同之处在于，我们的算法定制了公共到私有知识的训练GAN，并提出了一种新的数据分布合成方法，从而实现了更真实的图像恢复。03. 提出的方法03.1. 我们攻击的概述0攻击模型本文重点研究白盒MI攻击，攻击者完全可以访问目标网络T。攻击者的目标是发现与特定标签y相关联的代表性输入特征x。我们将以人脸识别作为目标网络的运行示例。人脸识别分类器给图像打上标签(2)LG = ∥Ex∼pdataf(x) − Ez∼noise f(G(z))∥22 + λhLentropy(5)L = Lprior + λiLid(6)161800包含一个带有与图像中所示身份相对应的标签的人脸。相应的攻击目标是基于目标分类器参数为任何给定的身份恢复一个代表性的人脸图像。现有的MI攻击归结为合成目标网络的最可能输入。具体而言，解决以下优化问题以合成给定标签y的输入：max x log T y ( x )，其中T y ( x)是模型T在给定输入x的情况下输出标签y的概率。当T是一个DNN且x是高维的（例如，图像）时，相应的优化问题变为非凸问题，进行梯度下降很容易陷入局部最小值，这可能根本没有语义意义。例如，当模型输入是一张图像时，这样的局部最小值可能是无意义的像素模式。提出的攻击算法包括两个步骤。第一步是训练一个GAN，从公共数据中获取有关目标模型的私有类别的知识。我们定制了生成器和判别器的训练目标，以更好地从公共数据中提取有关目标模型的私有领域信息。在第二步中，我们利用在第一步中学习到的生成器来估计私有数据分布的参数。我们的方法的整体架构如图1所示。03.2. 构建一个特定于反演的GAN0为了从公共数据中提取有关目标模型的有用知识，我们提出采用一个判别器，它不仅能够区分真实数据和伪造数据，还能够在目标网络下区分类别标签。假设目标网络将样本分类为K个可能的类别之一。我们的判别器D是一个(K +1)分类器[24]，其中前K个类别对应于目标网络的标签，第(K +1)个类别表示伪造样本。为了训练这样的判别器，我们使用目标网络T为公共数据集中的每个图像生成一个软标签T(x)。形式上，判别器D的训练损失有两个部分：0L D = L 监督 + L 非监督 (1)0其中0L 监督 = − E x � p 数据 ( x )0k =1 T k ( x ) log p 判别 ( y= k | x )0和0L 非监督 = −{ E x � p 数据 ( x ) log D ( x )+ (3)0使用噪声z，通过计算log(1 − D ( G ( z)))的期望来优化生成器G的参数。 (4)0这里p data是公共数据的分布，p disc ( y | x)是判别器预测x为类别y的概率。随机噪声z从N(0 , I)中采样，T k ( x)是目标网络生成的软标签的第k个维度。判别器D(x)输出x是真实样本的概率，因此我们有D(x) � p disc ( y < K + 1 | x)。直观上，使用带有软标签的公共数据来训练判别器鼓励生成器产生有助于预测目标模型输出类别的图像统计信息。这样的图像统计信息也可能存在于私有训练数据中。因此，提出的训练过程有可能引导生成器产生与私有训练数据共享更多共同特征的图像。为了训练生成器，我们采用以下特征匹配损失[24]，根据判别器中间层编码的学习特征f(x)将生成的图像与真实图像对齐：0其中 L entropy 是一个熵正则项 [ 7]。熵正则项的直观理解很简单。因为目标网络是在私有数据上训练的，所以当私有数据输入目标网络时，应该具有很高的置信度，并且预测熵应该很低。为了鼓励从公共数据中学习到的数据分布模仿私有数据，我们在损失函数中明确约束熵，以便生成的数据在目标网络下具有低熵。03.3. 分布恢复0在上述公共数据上训练的GAN在目标网络的指导下，MI攻击的第二步试图找到在包含逼真图像的同时在目标分类网络下具有最大似然的私有数据。虽然现有的工作侧重于生成给定身份的代表性图像，但应该有多个与一个身份对应的训练样本 -实际上，分类器是一种多对一映射。为此，我们提出恢复数据分布而不是单个点来反转给定标签 k的目标模型。具体而言，给定一个身份标签 k ，我们通过 G( z ′ ) 建模私有数据分布，其中 G是在第一步训练的生成器，z ′ 是从 p gen = N ( µ, σ 2 )中采样得到的，其中 µ 和 σ 2是两个可学习参数。然后，通过估计 µ 和 σ，我们最小化以下目标函数来生成给定类别 k的样本，这些样本通过目标分类器 T 估计出来：Lprior = −Ez′∼pgen log D(G(z′))(7)Lid = −Ez′∼pgenTk(G(z′))(8)z′ = σϵ + µ, ϵ ∼ N(0, I)(9)Lprior = − 1Llog D(G(σϵl + µ))(10)Lid = − 1Llog Tk(G(σϵl + µ))(11)161810图 1. 提出的攻击算法的总体架构。第一步：构建一个特定于反转的GAN来提取私有信息。第二步：恢复私有领域的分布。请注意，第二步中生成器和判别器都是固定的。0其中 λ i 是一个正的平衡超参数，且0这里的先验损失 L prior 惩罚不真实的图像，身份损失 L id鼓励估计的私有数据分布在目标网络 T下被分配给给定的目标标签 k的概率很高。为了通过反向传播直接估计 σ 和 µ，我们采用重新参数化技巧 [ 13 ] 使 L prior 和 L id可微分：0现在我们可以通过以下方式形成 L prior 和 L id的期望的蒙特卡洛估计，并针对 σ 和 µ 进行优化：0L =0L =0其中 ϵ l � N (0 , I ) ，对于 l = 1 , . . . , L 。一旦估计出 µ和 σ ，与标签 k 相对应的学习训练样本的分布通过从 G (z ′ ) 中采样隐式给出，其中 z ′ � N ( µ, σ 2 ) 。图 2显示了从 G ( z ′ )中采样得到的一些示例。这些示例展示了各种面部的变化。0图 2.反转目标人脸识别模型得到的图像示例。每一行对应一个身份。每个图像下方的数字显示了评估分类器对应身份的高softmax分数，证明这些生成的图像成功地通过暴露其私有信息攻击了目标模型。0通过反转目标人脸识别模型获得每个身份的图像，包含面部姿势、表情、头发和胡须的变化。这表明通过MI攻击学习到了一种自然的多对一（面孔-身份）映射。我们还可以通过多变量高斯模型来建模分布以进一步改进，这将留待未来的工作。04. 实验0在本节中，我们将根据恢复代表性输入的性能评估我们提出的攻击。Attack Implementation.We split each dataset into twodisjoint parts: one part used as the private dataset to train thetarget network and the other as a public dataset. The publicdata, throughout the experiments, do not have class inter-section with the private training data of the target network.Therefore, the public dataset in our experiment only helpsthe adversary to gain knowledge about features generic toall classes and does not provide information about private,class-specific features for training the target network. ForCelebA, we use 30,027 images of 1000 identities as privateset and randomly choose 30,000 images of other identitiesas public set to train GAN. For MNIST and CIFAR10, weuse all of the images with label 0, 1, 2, 3, 4 as private set andrest images with label 5, 6, 7, 8, 9 as public set. For ChestX-ray8, we use 10,000 images with label ”Atelectasis”, ”Car-diomegaly”, ”Effusion”, ”Infiltration”, ”Mass”, ”Nodule”,161820从目标模型中恢复代表性输入的性能。我们将与[31]中提出的生成式MI攻击(GMI)进行比较，该攻击实现了对DNNs的最新结果。04.1. 实验设置0数据集。我们研究针对不同预测任务构建的模型的攻击，包括人脸识别、数字分类、物体分类和疾病预测。对于人脸识别，我们使用(1) CelebFaces Attributes数据集[17](CelebA)，其中包含10,177个身份的202,599张人脸图像，具有粗略对齐，(2) Flickr-Faces-HQ(FFHQ)数据集，包含70,000张高质量图像，涵盖了年龄、种族和图像背景方面的相当大的变化，以及(3)FaceScrub，包含106,863张男性和女性530位名人的人脸图像，每个人约有200张图像。我们使用上述人脸数据集的对齐版本，将图像在中心进行裁剪并调整大小为64×64，以去除大部分背景。对于MNIST的数字分类，我们使用一个由3个卷积层和2个池化层组成的网络。对于物体分类，我们采用CIFAR-10数据集[15]。对于ChestX-ray8的疾病预测，我们使用从[27]调整的Chest X-ray数据库。0模型。根据[31]的设置，我们实现了几个不同复杂度的目标网络。其中一些网络是通过调整它们最后一个全连接层的输出数量来适应我们的任务的现有网络。对于人脸识别任务，我们使用了三种不同的网络架构：(1)从[26]调整的VGG16；(2)从[9]调整的ResNet-152；(3)从[2]调整的face.evoLve。对于MNIST上的数字分类，我们使用一个由3个卷积层和2个池化层组成的网络。对于物体分类，我们使用VGG16。对于ChestX-ray8上的疾病预测，我们使用从[9]调整的Resnet-18。0”肺炎”作为私有集合，其中包含10,000张属于其他7个类别的图像作为公共集合。我们使用学习率为10^-2，批量大小为64，动量为0.9，权重衰减为10^-4的SGD优化器训练目标网络。对于训练GANs，我们使用学习率为0.004，批量大小为64，β1=0.5，β2=0.999的Adam优化器[12]。熵正则化项的权重为λh=1e^-4。对于分布恢复步骤，我们设置λi=100；分布初始化为µ=0，σ=1，并进行1500次迭代优化。0评估协议。对于我们提出的攻击，我们随机抽取5个ϵ的样本，并生成相应的图像G(σϵ+µ)。对于基线攻击，我们重新开始攻击5次，进行随机初始化。为了评估代表性输入的重构，我们计算5个重构图像的攻击性能的平均值。0评估指标。评估MI攻击性能需要评估通过合成图像泄露的关于目标标签的私有信息的数量。我们进行了定性评估和定量评估。我们使用的定量指标在很大程度上遵循现有文献[31]，包括攻击准确率和K最近邻特征距离。它们通常旨在衡量私有数据和重建图像之间的语义相似性。此外，我们还将图像质量作为评估的一部分，即Fréchet Inception Distance(FID) [10]。这些指标的详细说明如下。0• 攻击准确率（AttackAcc）。我们构建了一个评估分类器，根据输入的重建图像预测身份。如果评估分类器的准确率很高，则认为重建图像暴露了关于目标标签的私有信息。[31]中显示，重建图像可能过拟合目标网络；换句话说，重建图像可能是无意义的像素模式，但在与目标网络评估时能够获得高的预测准确率。因此，评估分类器应该与目标网络不同。此外，评估分类器应该具有较高的性能，因为我们将其用作人类观察者或预测敏感信息的代理。攻击准确率通过评估分类器对重建图像的预测准确率来衡量。对于所有的人脸图像数据集，我们使用[2]中的模型作为我们的评估分类器，该模型在MS-Celeb-1M[8]上进行了预训练，并在目标网络的训练集上进行了微调。对于MNIST，我们训练了一个新的评估分类器。161830对于所有的10个数字，我们构建了一个包含5个卷积层和2个池化层的分类器。对于ChestX-ray8，评估分类器是从[26]中适应过来的。对于CIFAR10，我们使用了从[9]中适应过来的ResNet-18。0• K最近邻距离（KNN Dist）。KNNDist是从重建图像到真实私有训练图像的给定类别之间的最短特征距离。特征距离是通过将两个图像投影到特征空间（即评估分类器的倒数第二层的输出）上时的l2距离来衡量的。0•FID。FID分数衡量了真实图像和伪造图像之间的特征距离，较低的FID值表示更好的图像质量和多样性。我们发现，评估分类器将重建图像预测为目标标签的重建图像往往具有较低的FID分数。因此，FID分数和攻击准确率是相关的。为了使FID成为攻击准确率的补充指标，我们只计算那些被评估分类器成功识别为目标类别的重建图像的FID分数。这个FID分数的想法是衡量从重建图像中成功恢复语义的泄露了多少更详细的信息。04.2. 结果0与先前最先进的方法进行比较。我们将我们的攻击与基线攻击进行比较，这些基线攻击是针对相同数据集（即CelebA）构建的各种模型。这些模型包括VGG16、ResNet152和face.evolve，它们的复杂性不断增加。在这些模型中，face.evolve实现了最先进的人脸识别性能。攻击这些模型的结果显示在表1中，表明我们的方法在所有目标模型上显著改善了GMI。值得注意的是，与GMI相比，我们的方法在不同目标身份之间也具有更低的性能差异。我们的攻击所实现的性能改进还得到了图3的支持，该图展示了我们的攻击和GMI给出的地面真实私有图像及其对应的重建图像。我们可以看到，与基线相比，我们的重建图像在大多数情况下能更好地保留给定身份的面部特征。由于我们的方法和GMI都是基于公共数据训练的GAN，一个自然的问题是这两种方法是否只是记忆了公共数据并输出了与目标身份相似的公共示例？为了回答这个问题，我们还在图3中展示了公共数据集中每个目标图像的最近邻。我们根据从评估分类器中提取的深度特征表示之间的距离计算最近邻。0为了捕捉两个图像之间的感知相似性[30]。最近邻和我们生成的样本之间的比较表明，无论是GMI还是我们的方法都不仅仅是在公共领域“记忆”相似的图像；相反，它们试图合成揭示敏感属性的新图像，同时保持逼真。此外，我们还检查了所提出的攻击对于恢复私有图像的一些隐含属性（如性别、年龄、发型等）的性能。表2显示，我们的攻击在恢复隐含属性方面也优于GMI。表3比较了我们的攻击和GMI在各种数据集上的攻击性能。我们可以看到，我们的方法在很大程度上优于GMI。一个有趣的发现是，在攻击MNIST上训练的数字识别模型时，GMI生成的图像可以被目标分类器成功识别为目标数字，但不能被评估分类器预测为目标数字，平均攻击准确率接近0。如图4所示，在攻击数字“0”时，GMI倾向于生成“6”，因为它只在公共数据中看到“6”。然而，生成的样本在目标网络下可以实现高预测准确率，因为它只被训练为预测0-4，而在可以预测所有十个数字的评估分类器下预测准确率较低。相反，我们的攻击可以成功重建“0”，即使它在公共数据中也只看到5-9。这表明我们对GAN的定制训练确实有助于保留那些更有可能出现在私有数据中的公共数据特征。0跨数据集实验。我们研究了公共数据和私有数据之间的分布偏移对攻击性能的影响。我们在Flickr-Faces-HQ数据集（FFHQ）[11]和FaceScrub[20]上训练我们的GAN，以攻击在CelebA上训练的目标网络VGG16。攻击结果如表4所示，表明GMI和我们的攻击都遭受了性能下降，而我们的攻击仍然优于GMI。我们注意到FaceScrub上的性能下降大于FFHQ上的性能下降。一个可能的原因是FaceScrub中的图像分辨率较低（64×64），并且有许多图像处于照明条件较差或仅显示部分面部的状态。这种性能下降可能可以通过使用与无监督领域适应技术相结合的GAN来解决，我们将把这一工作的探索留给未来的研究。0消融研究。我们在[31]中提出了一些改进GMI攻击的想法，包括（1）软标签区分（SD），使鉴别器能够区分目标网络产生的软标签，（2）entropy minimization (EM), which minimizes the predic-tion entropy of images produced by the generator, and (3)distributional recovery (DR), which explicitly models andestimates the private data distribution. Note that EM canonly be combined with our SD. This is because a canonical161840face.evolve IR152 VGG16 GMI 我们的 GMI 我们的 GMI 我们的0攻击准确率 ↑ .31 ± .0039 .81 ± .0016 .32 ± .0027 .81 ± .0015 .21 ± .0020 .72 ± .0018前5个攻击准确率 ↑ .53 ± .0015 .96 ± .0004 .57 ± .0005 .96 ± .0001 .43 ± .0014 .92 ± .0003KNN距离 ↓ 1703.52 1358.23 1673.05 1324.72 1772.50 1380.22 FID ↓ 33.81 25.28 50.11 26.3552.51 23.720表1：在CelebA上训练的各种模型的攻击性能比较。↑和↓分别表示较高和较低的分数表现出更好的攻击性能。0图3.对攻击在CelebA上训练的人脸识别模型进行定性比较。第一行显示目标身份的真实图像。第二行显示来自公共领域的目标图像的最近邻。第三行和最后一行分别展示了GMI攻击和我们的攻击产生的重建图像。0属性攻击准确率 ↑ GMI 我们的0金发 84 85 浓眉毛 85 85 眼镜 9596 男性 86 94 胡子 90 93 年轻 7282 5点胡子 83 87 弯眉毛 65 70大鼻子 73 78 浓妆 61 72眼睛狭窄 78 82 无胡子 84 90涂口红 57 740表2：GMI和我们提出的方法之间的隐式属性恢复比较。攻击准确率是通过在CelebA上训练的属性分类器来衡量的。0图4.当攻击数字“0”时，由GMI和我们的方法生成的MNIST样本。0攻击准确率 ↑ .21 ± .0020 .72 ± .0018 .08 ± .0120 .68 ±.0208 .21 ± .0163 .47 ± .0155 .56 ± .0264 .96 ± .0072KNN距离 ↓ 1772.50 1380.22 126.61 72.54 360.32220.30 139.09 123.07 FID ↓ 52.51 23.72 8.95 0.45 8.466.51 1.69 1.32FFHQ→CelebAFaceScrub→CelebAGMIOursGMIOurse isata.GMISDSD+EMDRSD+DRSD+EM+DRrget16161850CelebA MNIST ChestX-ray8 CIFAR10 GMI 我们的GMI 我们的GMI 我们的GMI 我们的0FFHQ → CelebA FaceScrub → CelebA GMI 我们的GMI 我们的0表3：各种数据集上的攻击性能比较。 ↑ 和 ↓ 分别表示较高和较低的分数表示更好的攻击性能。0准确率 ↑ .15 ± .0015 .36 ± .0015 .03 ± .0004 .13 ± .0008前5个准确率 ↑ .35 ± .0017 .61 ± .0012 .11 ± .0011 .30 ± .0015KNN距离 ↓ 3014.45 2994.32 3003.90 2997.52 FID ↓ 69.12 36.02112.83 60.050表4：在公共数据和私有数据之间存在较大分布偏移时的攻击性能比较。A →B表示目标网络在数据集B上训练，GAN在数据集A上训练以提取重建的通用先验知识。↑ 和 ↓分别表示较高和较低的分数表示更好的攻击性能。0SD或DR。添加熵最小化可以进一步提高性能。这三个思想的结合导致了最大的改进。0准确率 .21 ± .0020 .35 ± 0042 .43 ± .0035 .47 ± .0022 .62 ± .0028 .72 ± .0018 前5个准确率 .43 ±.0014 .60 ± .0013 .68 ± .0017 .74 ± .0024 .87 ± .0003 .92 ± .0003 KNN距离 1772.50 1653.531618.51 1562.48 1418.46 1380.22 FID 52.51 33.75 31.09 45.28 23.82 23.720表5：本文介绍的思想的消融研究，包括软标签判别（SD），熵最小化（EM）和分布恢复（DR）。0F&I F&V GMI 我们的GMI 我们的0攻击准确率 .51 ± .0030 .90 ± .0009 .51 ± .0048 .90 ± .0005 前5个攻击准确率 .78 ± .0025.99 ± .0001 .75 ± .0043 .98 ± .0002 KNN距离 1527.94 1287.45 1528.32 1253.12 FID 54.8929.37 54.76 28.660I&V F&I&V GMI 我们的GMI 我们的攻击准确率 .52 ± .0030 .92 ± .0008 .67 ± .0030 .95 ±.0002 前5个攻击准确率 .79 ± .0023 .99 ± .0001 .89 ± .0018 1 ± 0 KNN距离 1515.621251.02 1421.61 1216.96 FID 54.80 28.63 53.73 30.220表6：在多目标设置下对CelebA的攻击性能。F，I和V分别指face.evolve，IR152和VGG16。0多目标模型反向攻击的扩展。到目前为止，现有的MI攻击方法主要集中在攻击单个目标模型上。研究攻击多个目标模型是很有趣的。0当同一私有数据集上训练了多个不同模型时，攻击者的性能会如何？在这种情况下，攻击者是否会获得更多关于私有数据集的信息？通过将训练损失组合在多个目标模型上，可以轻松地将所提出的方法扩展到多目标MI攻击。关于该方法的详细信息请参见补充材料。表6显示了我们的方法在多目标设置下的结果。我们攻击了在表1中的实验中使用的三个目标模型的所有可能组合。从表6可以清楚地看出，在多目标设置下，无论是GMI还是我们的方法，攻击性能都显著提高。例如，当IR152或face.evolve与VGG16联合使用时，它们的攻击准确率分别比单目标设置下的准确率提高了9%和11%，即使VGG16的攻击准确率较低。此外，将目标模型的数量增加到三个模型进一步提高了攻击性能。通过同时攻击多个目标模型，我们的方法在这些实验中实现了攻击准确率超过0.9的成果，这标志着多目标MI攻击取得了重要的里程碑。05. 结论0在本文中，我们提出了几种可以显著提高对DNN的白盒MI攻击的技术。具体而言，我们建议定制GAN的训练，以更好地从公共数据中提取执行反演攻击所需的知识。此外，我们建议为私有数据分布构建一个显式参数模型，并提出估计其参数的方法。我们的实验证明，所提出的技术的组合可以在各种数据集、模型甚至公共数据与私有数据之间存在大的分布偏移时实现最先进的攻击性能。我们还将我们的工作扩展到了一种新的攻击设置，即在同一私有数据集上训练了多个模型。对于未来的工作，我们将研究这些技术在黑盒设置下改进MI攻击的潜在应用。0参考文献0[1] Giuseppe Ateniese, Luigi V Mancini, Angelo Spognardi,Antonio Villani, Domenico Vitali, and Giovanni Felici.用更聪明的机器黑客智能机器：如何提取161860从机器学习分类器中提取有意义的数据。国际安全与网络杂志，10（3）：137-150，2015年。0[2] Yu Cheng, Jian Zhao, Zhecan Wang, Yan Xu, KarlekarJayashree, Shengmei Shen, and Jiashi Feng.一瞥即知：一种用于低样本学习的紧凑向量表示。在IEEE国际计算机视觉会议工作坊论文集中，页码1924-1932，2017年。0[3] Jacson Rodrigues Correia-Silva, Rodrigo F Berriel, Clau-dine Badue, Alberto F de Souza, and Thiago Oliveira-Santos.Copycat cnn:通过说服随机非标记数据的认罪来窃取知识。在2018年国际神经网络联合会议（IJCNN）中，页码1-8。IEEE，2018年。0[4] Matt Fredrikson, Somesh Jha, and Thomas Ristenpart.利用置信信息和基本对策的模型反演攻击。在第22届ACMSIGSAC计算机与通信安全会议论文集中，页码1322-1333，2015年。0[5] Matthew Fredrikson, Eric Lantz, Somesh Jha, Simon Lin,David Page, and Thomas Ristenpart.针对个性化华法林剂量的药物基因组隐私保护：一个端到端案例研究。在第23届USENIX安全研讨会（USENIX Security14）中，页码17-32，2014年。0[6] Karan Ganju, Qi Wang, Wei Yang, Carl A Gunter, and NikitaBorisov.使用排列不变表示对全连接神经网络进行属性推断攻击。在2018年ACMSIGSAC计算机与通信安全会议论文集中，页码619-633，2018年。0[7] Yves Grandvalet, Yoshua Bengio, et al.熵最小化的半监督学习. 在CAP中，页码281-296，2005年。0[8] Yandong Guo, Lei Zhang, Yuxiao Hu, Xiaodong He, andJianfeng Gao. Ms-celeb-1m:用于大规模人脸识别的数据集和基准.在欧洲计算机视觉会议中，页码87-102。Springer，2016年。0[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议论文集中，页码770-778，2016年。0[10] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的生成对抗网络收敛到局部纳什均衡. 在神经信息处理系统进展中，页码6626-6637，2017年。0[11] Tero Karras, Samuli Laine, and Timo Aila.一种基于风格的生成对抗网络生成器架构.在IEEE计算机视觉和模式识别会议论文集中，页码4401-4410，2019年。0[12] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. arXiv预印本arXiv:1412.6980，2014年。0[13] Diederik P Kingma and Max Welling. 自编码变分贝叶斯.arXiv预印本arXiv:1312.6114，2013年。0[14] Kalpesh Krishna, Gaurav Singh Tomar,

下载后可阅读完整内容，剩余1页未读，立即下载