仅标签的模型反演攻击：边界排斥算法的研究与实践

125 浏览量更新于2023-10-25 收藏 16.07MB PDF 举报

深度神经网络

人脸识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

150450仅标签的模型反演攻击通过边界排斥0Mostafa KahlaVirginia Tech0kahla@vt.edu0Si ChenVirginia Tech0chensi@vt.edu0Hoang Anh JustVirginia Tech0just@vt.edu0Ruoxi JiaVirginia Tech0ruoxijia@vt.edu0摘要0最近的研究表明，最先进的深度神经网络容易受到模型反演攻击的影响，其中滥用对模型的访问以重构任何给定目标类别的私有训练数据。现有的攻击依赖于对完整目标模型（白盒）或模型的软标签（黑盒）的访问。然而，在更困难但更实际的情况下，攻击者只能访问模型的预测标签，而没有置信度测量。在本文中，我们介绍了一种算法，边界排斥模型反演（BREP-MI），仅使用目标模型的预测标签来反演私有训练数据。我们算法的关键思想是在一个球上评估模型的预测标签，然后估计达到目标类别质心的方向。以人脸识别为例，我们展示了BREP-MI重构的图像成功地再现了各种数据集和目标模型架构的私有训练数据的语义。我们将BREP-MI与最先进的白盒和黑盒模型反演攻击进行比较，结果表明，尽管对目标模型的了解更少，BREP-MI优于黑盒攻击，并且与白盒攻击达到了可比较的结果。我们的代码可在网上获取。01. 引言0机器学习（ML）算法通常在私有或敏感数据上进行训练，如人脸图像、医疗记录和财务信息。不幸的是，由于ML模型倾向于记忆有关训练数据的信息，即使在存储和处理时安全地进行，隐私信息仍然可能通过访问模型而暴露出来[20]。事实上，隐私攻击的先前研究已经证明了以不同粒度暴露训练数据的可能性，从“粗粒度”的信息，如确定某个点是否参与训练[9,15]，到“细粒度”的信息，如重构原始数据[2, 3, 7, 24]。01 https://github.com/m-kahla/Label-Only-Model-Inversion-Attacks-via-Boundary-Repulsion0参与训练的数据集[10, 14, 16,21]或训练数据集是否满足某些属性[9,15]，甚至更“细粒度”的信息，如重构原始数据[2, 3, 7, 24]。0我们关注模型反演（MI）攻击，该攻击通过访问训练模型来重建训练数据或敏感属性。MI攻击由于揭示的“细粒度”信息而造成巨大的危害。例如，应用于个性化医学预测模型的MI攻击导致个体基因属性的泄露[8]。最近的研究表明，MI攻击甚至可以成功地重建高维数据，如图像。例如，[3, 7,23,24]展示了仅凭借人名就能从人脸识别模型中恢复出一个人的图像的可能性。0现有的MI攻击要么假设攻击者对目标模型有完全的了解，要么假设攻击可以查询模型并接收模型的输出作为置信度分数。前者和后者通常分别被称为白盒和黑盒威胁模型。现有的白盒MI攻击[3,24]的基本思想是在目标模型下合成最大似然的敏感特征。合成过程采用梯度上升算法实现。相比之下，现有的黑盒攻击[2,19]是基于训练一个攻击网络，该网络从输入的置信度分数中预测敏感特征。尽管这两种威胁模型受到了独立关注，但在实践中，机器学习模型通常被打包成一个只在查询时产生硬标签的黑盒。这种仅标签的威胁模型更加现实，因为部署在用户界面服务中的机器学习模型不需要暴露原始的置信度分数。然而，相比于白盒或黑盒攻击，仅标签的MI攻击的设计更具挑战性，因为攻击者能够获取的信息有限。0在本文中，我们引入了BREP-MI，这是一种在仅标签设置下的MI攻击的通用算法，攻击者可以对目标模型进行查询并获得硬标签，而不是置信度分数。与白盒攻击的主要思想类似，我们仍然试图合成目标类别下目标模型最可能的输入。然而，在仅标签设置下，我们无法直接计算梯度信息并利用它来指导数据合成。我们解决这个挑战的关键见解是，对于给定类别的高可能性区域通常位于该类别的中心，并且远离任何决策边界。因此，我们设计了一种算法，允许合成图像从决策边界逐步远离，如图1所示。具体而言，我们首先在球体上查询标签并估计可能导致目标标签类的方向（A）。我们根据估计的方向逐步移动，直到球体适应目标类（B）。然后我们增加球体的半径（C），并重复上述步骤，直到攻击达到一定的查询预算（D）。我们在理论上证明，对于线性目标模型，从球体上查询的硬标签估计的方向与梯度方向一致。我们经验证明，BREP-MI也可以成功攻击基于深度神经网络的目标模型。特别地，该攻击的有效性甚至高于现有的黑盒攻击，并且与现有的白盒攻击具有可比性。我们的贡献可以总结如下：（1）我们提出了第一个仅标签模型反演攻击的算法。（2）我们通过证明我们算法中使用的更新与梯度方向一致，并分析了非线性模型的对齐误差，为线性目标模型情况下的算法提供了理论上的证明。（3）我们评估了攻击在一系列模型架构和数据集上的性能，并展示了尽管利用了更少的目标模型信息，我们的攻击性能仍然大大超过基于置信度的黑盒攻击，并且与最先进的白盒攻击具有可比性。此外，我们将发布数据、代码和模型以促进未来的研究。culate the gradient information and leverage it to guide thedata synthesis. Our key insight to resolve this challengeis that a high-likelihood region for a given class often liesat the center of the class and is far away from any deci-sion boundaries. Hence, we design an algorithm that allowsthe synthesized image to iteratively move away from thedecision boundary, as illustrated in Figure 1. Specifically,we first query the labels over a sphere and estimate the di-rection on the sphere that can potentially lead to the targetlabel class (A). We progressively move according to esti-mated directions until the sphere fits into the target class(B). We then increase the radius of the sphere (C) and re-peat the steps above until the attack hits some query budget(D). We theoretically prove that for linear target models, thedirection estimated from hard labels queried on the spheresaligns with the gradient direction. We empirically show thatBREP-MI can also lead to successful attacks against deepneural network-based target models. In particular, the effi-cacy of the attack is even higher than the existing blackboxattacks and comparable to the existing whitebox attacks.Our contributions can be summarized as follows: (1)We propose the first algorithm for label-only model inver-sion attacks.(2) We provide theoretical justification forthe algorithm in the linear target model case by provingthe updates used in our algorithm align with the gradientand also analyze the error of alignment for nonlinear mod-els. (3) We evaluate the attack on a range of model ar-chitectures and datasets, then show that despite exploitingless information about the target model, our attack outper-forms the confidence-based blackbox attack by a large mar-gin and achieves comparable performance to the state-of-the-art whitebox attack. Besides, we will release data, code,and models to facilitate future research.150460图1.BREP-MI的直观解释。（A）在球体上查询标签并估计可能导致目标标签类的方向。（B）根据估计的方向更新合成图像。在估计和更新之间交替，直到球体适应目标类。（C）增加球体的半径。（D）重复上述步骤，直到攻击达到一定的查询预算。02. 相关工作0模型反演攻击。模型反演试图从部分到完整地重建训练样本。通常，MI攻击可以被形式化为一个优化问题。0LEM的目标是在攻击模型下找到最高可能性的敏感特征值。然而，当目标模型是深度神经网络（DNN）或私有数据位于高维空间时，这个优化问题变得非凸，并且通过梯度下降直接求解可能导致攻击性能较差[7]；例如，当攻击人脸识别模型时，恢复的图像模糊且不包含太多私有信息。最近的工作[24]提出了一种基于GAN的MI攻击方法，对DNNs非常有效。特别地，他们通过GAN从公共数据中学习了一个通用的先验，并在潜在空间而不是无约束的环境空间上解决了优化问题。然而，他们的攻击方法在训练GAN阶段并没有充分利用目标模型中包含的私有信息。[3]通过GAN的特殊设计显著提高了攻击性能，该设计可以从目标模型中提取知识；因此，生成的图像与私有分布更好地对齐。他们通过确保恢复图像及其相邻图像的可能性很高进一步提高了性能。虽然[3,24]在攻击各种模型和数据集上取得了成功，但他们的攻击依赖于对模型的白盒访问。在许多情况下，攻击者只能对模型进行预测查询，而不能实际下载模型，这促使了对黑盒MI攻击的研究。[23]分析了黑盒设置，并提出了一种攻击模型，该模型交换目标模型的输入和预测向量以执行模型反演。[2]同时提出了训练GAN和替代模型的方法，其中GAN生成类似于私有训练数据的输入，而替代模型模仿目标模型的行为。所有的黑盒攻击都假设目标模型的预测置信度对攻击者是可见的。然而，在现实世界的设置中，攻击者只能获得硬标签而没有置信度分数，这更加实际。从这个角度出发，我们的目标是提供一种只需要访问硬标签的有效MI攻击方法，我们将其称为仅标签MI攻击。0其他隐私攻击。除了MI之外，还有两类隐私攻击允许对手从目标模型及其数据中获取未经授权的信息。在成员推断攻击中，攻击者试图评估某个点是否在目标模型的训练中使用。这种攻击技术由[21]引入，他们创建了多个影子模型来估计目标模型。[10, 14,16]指出，成员推断攻击利用了特定数据点的过拟合。有趣的是，[5]在与我们的BREP-MI攻击相同的设置下执行了成员推断攻击，并指出对抗这种攻击的有效防御方法是差分隐私(DP)。DP[1, 6]确保训练的模型̸arg maxx∈[0,1]d Mc∗(x).(2)arg maxz∈Rd Mc∗(G(z)).(3)150470对于训练集中任何单个记录的更改是稳定的。然而，使用差分隐私，目标模型的测试准确性将显著降低。此外，属性推断攻击旨在从训练数据集的属性中推断出信息[9]。与这些攻击相比，MI攻击可以认为更具挑战性，因为它试图恢复的信息分辨率更高。03.威胁模型0攻击目标。在MI攻击中，给定对目标模型f:[0,1]d→R|C|和任何目标类别c�∈C的访问权限，攻击者试图从类别c�中恢复训练数据的代表点x�；d表示模型输入的维度；C表示所有类别标签的集合，|C|是标签集的大小。例如，对人脸识别分类器的攻击将尝试基于对分类器的访问来恢复给定身份的人脸图像。0模型知识。攻击者对目标模型的知识可以采取不同的形式：(i)白盒：完全访问所有目标模型参数；(ii)黑盒：访问目标模型输出的置信度分数；(iii)仅标签：仅访问模型输出的硬标签，而不包括置信度分数。我们的论文将专注于仅标签的设置。具体而言，给定目标网络f，攻击者可以查询目标网络的任何输入x，并获得相应的预测标签ˆy(x)=argmaxc∈Cfc(x)。0任务知识。在本文的剩余部分，我们假设攻击者对目标模型执行的任务有所了解。这是一个合理的假设，因为这些信息对于现有的在线模型是可用的，或者可以从输出标签中推断出来。0数据知识。由于我们假设攻击者知道被攻击模型的任务，因此可以合理地假设他们可以访问与相关分布的公共数据集。例如，如果攻击者知道目标模型是用于进行人脸识别的训练的，他们可以通过利用现有的开源数据集或从网络上爬取数据来轻松收集公共数据集。在整篇论文中，我们假设公共数据和私有数据没有共同的类别（例如身份）。0目标模型。我们的方法既不对目标模型的架构做出假设，也不要求攻击者对其有任何信息。换句话说，我们的方法是模型无关的。我们将在第5节中通过实验证明，我们的BREP-MI攻击适用于具有不同架构和大小的各种模型。0目标标签。攻击可以是有目标的，当目标是找到最大化一组n个预定义标签的n个输入图像时，或者是无目标的，当目标是找到最大化一组任意n个标签的n个输入图像时。所提出的0算法可以应用于两种场景。在我们的评估中，我们将重点关注更具挑战性的场景，即攻击针对n个特定标签。04.算法设计0在本节中，我们将介绍我们提出的BREP-MI算法的设计。我们将首先将MI攻击的设计转化为一个优化问题。然后，我们描述了一种仅基于预测标签估计MI优化目标梯度的算法。我们将对线性模型的特殊情况下估计与真实梯度之间的对齐进行严格的刻画，并提供对于深度非线性模型攻击效果的洞察。04.1.问题表述0为了简化问题，我们只考虑单个目标标签的攻击问题，并定义Mc�:Rd→R，使得0Mc�(x) = f c�(x) - max c≠c� f c(x), (1)0其中，c�是目标标签。Mc�(x)表示目标类别c�与其他类别之间的逻辑回归差异（或置信度分数差异）。0其中，f c�(x)表示目标类别的预测概率，max c≠c� fc(x)表示其他类别中最大的预测概率。当x被预测为目标类别（即c�=arg max c∈C fc(x)）时，Mc�(x)>0。显然，目标类别c�的最具代表性的输入应该与所有其他类别最为不同。因此，我们将MI问题转化为一个优化问题，寻找能够在目标类别的置信度和其他类别的最高置信度之间达到最大差异的输入：0然而，对于图像来说，x通常位于高维连续数据空间中，对该空间进行优化很容易陷入不对应任何有意义图像的局部最小值。为了解决这个问题，我们借鉴了[3, 23,24]中的思想，通过在一个更具语义意义的潜在空间上进行优化。这是通过使用公共数据集训练GAN模型，然后在GAN生成器的输入上进行优化来实现的。将公共训练的生成器表示为G(z)，其中z∈Rd'，d' 0。则E[�Mc*(z,R)]和�Mc0cos ∠ E[�Mc*(z, R), �Mc*(z)] (8)0≥ 1 - O(Mc*(z)^2(d-1)^2)0δ^2R^2∥�Mc*(z)∥^2_20. (9)0因0当R趋近于无穷时，cos ∠ E[Mc*(z, R), �Mc*(z)]= 1，0这表明估计器在梯度估计方面是渐近无偏的。0证明见附录1.1. 定理10表明只要R足够大，梯度估计器与实际梯度很好地对齐。对于具有有界非线性性的深度学习模型，我们还可以推导出估计值和真实梯度之间夹角的余弦的界限：cos ∠ E[�Mc*(z, R),�Mc*(z)] ≥ 1 -0，其中L表示非线性程度。0表明随着R的增加，估计的梯度将与真实梯度对齐。然而，在某一拐点之后，增加半径只会降低估计的准确性。在所有实验中，我们达到的最大R很小（通常小于20），当R增加时，损失始终在减小。这意味着我们的梯度估计是正确的，我们在实践中没有达到这个拐点。05. 评估0我们的评估旨在回答以下问题：（1）BREP-MI能否成功攻击不同架构和训练于不同数据集上的深度网络？（2）BREP-MI需要多少查询才能进行成功攻击？（3）私有数据和公共数据之间的分布偏移如何影响攻击性能？（4）BREP-MI对初始化和球体半径的敏感性如何？在主文中，我们将专注于一个经典的应用-人脸识别-作为我们的攻击目标。我们将把其他应用的实验留给附录2。05.1. 实验设置0数据集。我们在三个不同的人脸识别数据集上进行实验：CelebA [13]，Facescrub [17]和Pubfig830[18]。与[3, 23,24]类似，我们将所有数据集的图像裁剪到中心并调整大小为64×64。我们将身份划分为公共领域（我们在其中训练GAN）和私有领域（我们将在其中训练目标模型）。公共领域和私有领域之间没有重叠的身份。这意味着攻击者对私有领域中的身份一无所知。然后，我们对在私有领域上训练的分类器进行攻击。关于每个数据集的详细信息请参见表1。为了研究私有领域和公共领域之间的大分布偏移对攻击性能的影响，我们使用FFHQ数据集[12]作为我们的公共领域来训练GAN，以及前述的三个数据集作为私有领域。0数据集 #图像 #总数 id #公共id #私有id #目标id0CelebA 202,599 10,177 9,177 1,000 300 Pubfig83 13,600 83 33 5050 Facescrub 106,863 530 330 200 2000表1.我们在评估中如何将数据集分为公共领域和私有领域的详细信息。0目标模型。我们还评估了具有各种架构的不同模型上的攻击。为了与之前的工作保持一致的结果，我们使用了在最先进的MI攻击[3]中使用的相同模型架构：（1）face.evoLve改编自[4]；（2）ResNet-152改编自[11]；（3）VGG16改编自[22]。0评估协议。我们进行有针对性的攻击，因为与无针对性攻击相比，这是一种更具挑战性的设置。根据[3,24]，我们使用攻击准确率来衡量攻击性能。攻击准确率基于一个评估分类器，该分类器预测重构的人脸图像的身份，是人类判断的代理。具体而言，攻击准确率通过将被正确分类为相应目标类别的重构图像数量与重构图像的总数量之比来计算。由于评估分类器反映了人类判断，它应该具有较高的性能。同时，它应该与被攻击的目标模型不同，以避免将一些语义上无意义的重构图像过度拟合到目标模型中被认为是良好的重构。0超参数。我们在评估中手动调整了 BREP -MI的超参数。我们经验性地发现最佳初始半径 R 0 为2，半径扩展系数 γ 为 1.3，步长 α t 为 min( R/ 3 ,3)。除非另有说明，我们选择了N，即球上采样点的数量为32，maxIters选择为1000，即当迭代次数超过1000次时， BREP -MI 终止。CelebA32.00%82.00%1.67%75.67%Pubfig8324.00%62.00%2.00%66.00%Facescrub19.00%48.00%0.50%35.68%FaceNet6432.00%82.00%1.67%75.67%IR15226.00%83.00%0.33%72.00%VGG1615.00%69.00%1.33%63.33%FFHQ→CelebA9.00%48.33%0.67%46.00%FFHQ→Pubfig8328.00%88.00%4.00%80.00%FFHQ→Facescrub12.00%60.00%.015%39.20%150500在某个 R下，不需要将球上的所有点都分类为目标类别就可以通过某些操作。0基线。由于这是第一个提供仅标签 MI攻击解决方案的工作，我们没有基线来进行评估。我们选择对白盒和黑盒攻击进行评估，其中攻击者在额外的关于目标模型的知识方面具有更大的优势。为了确保公平比较，我们对每个数据集应用所有基线，并对相同的目标身份和相同的目标模型进行攻击准确率评估。我们的两个基线都是白盒攻击，包括生成模型反演（ GMI）[24]，它是针对深度网络的第一个 MI攻击算法，以及知识增强的分布模型反演攻击（ KED-MI）[3]，它提供了目前白盒 MI 的最先进性能。GMI 中的GAN 模型设置与我们的攻击中的 GAN 相同。KED-MI依赖于训练 GAN模型时访问目标模型参数的信息。然而，在我们的设置中，我们无法访问这样的信息并训练相同的GAN。我们还采用了一种黑盒攻击[23]，称为基于学习的模型反演（ LB-MI ）作为我们的基线之一。LB-MI构建了一个反演模型，该模型从目标模型产生的软标签中学习重构图像。为了重构给定身份的最具代表性的图像，我们在反演模型的输入处提供该身份的 one-hot编码，并接收输出。05.2. 结果0在不同数据集上的性能。我们将 BREP - MI与白盒和黑盒方法在三个不同的人脸数据集上进行比较。我们在所有数据集上都使用 FaceNet64作为目标模型。对于每个数据集，GAN模型是在其公共身份上训练的，目标模型是在私有身份上训练的。表2显示，我们的方法在所有数据集上都明显优于白盒 GMI 攻击和黑盒攻击。此外，我们的方法在 Pubfig83数据集上超过了最先进的白盒 KED-MI 攻击，并在 CelebA数据集上达到了接近的攻击准确率。另一方面，在Facescrub数据集上我们落后了15%。值得注意的是，这个实验的结果表明，在 MI攻击的其他威胁模型中，尤其是黑盒攻击（在其他威胁模型方面表现不佳），仍然存在相当大的发展潜力。GMI即使具有白盒知识，也表现不佳的原因是它仅优化合成数据点的似然性，而不考虑该点的邻域。因此，可能会陷入不代表该类别的尖锐局部最大值的优化中。另一方面， BREP-MI 和 KED-MI都明确地找到了具有高似然性的邻域，这被证明是关键。0数据集 [白盒] [黑盒] [仅标签] GMI KED-MI LB-MI BREP -MI0表2. 不同数据集的攻击性能比较。0对于产生代表性点和增强攻击性能非常重要。尽管黑盒攻击比我们的攻击利用了更多关于目标模型的知识，但它始终表现最差。与其他攻击相比，黑盒攻击利用了与公共数据集不同的思路来提取知识。它使用公共数据来训练反演模型，而其他所有攻击都在公共数据上训练GAN。结果表明，GAN在提取公共知识方面比反演模型更有效。因此，改进黑盒攻击的一种潜在方法是通过GAN对合成图像进行正则化。0不同模型的性能。我们还评估了我们的攻击对同一数据集（CelebA）上训练的多个不同模型的效果。这个实验旨在测试我们的方法是否可以推广到不同的模型架构。表3显示，BREP-MI在各种目标模型架构上的表现确实很好。特别是，BREP-MI在所有模型架构上的表现都明显优于GMI和黑盒攻击。正如我们所看到的，攻击准确率是GMI攻击的2倍到4倍，而黑盒攻击的准确率仍然低于2%。此外，我们在所有模型架构上的性能与最先进的白盒攻击相当。与其他攻击类似，当目标模型具有更高的预测能力时，我们的攻击变得更加成功。0模型架构 [白盒] [黑盒] [仅标签] GMI KED-MI LB-MI BREP -MI0表3. 在CelebA数据集上训练的不同模型架构的攻击性能比较。0公共 → 私有 [白盒] [黑盒] [仅标签] GMI KED-MI LB-MI BREP -MI0表4.当公共数据和私有数据之间存在较大的分布偏移时的性能比较。AnalyzingBREP-MI.A qualitative analysis for ourBREP-MI can be seen in Fig. 3. It is noticeable that thefirst generated image at the beginning of the attack is nota good representative for the target class. The progressionof the image towards the groundtruth images is clearly seenwith the increase of R .Below, we provide some quantitative analysis. Table 5150510跨数据集评估。在之前的实验中，我们假设攻击者可以访问与私有数据具有较低分布偏移的公共数据。这是因为公共和私有领域都是从同一数据集派生出来的。考虑到更实际的情况，攻击者只能访问具有更大分布偏移的公共数据。为了研究这种情况，我们进行了一个实验，使用FFHQ数据集作为公共数据。如表4所示，当我们使用FFHQ作为公共数据集时，CelebA数据集的准确性确实显著降低。有趣的是，Pubfig83和Facescrub数据集的攻击准确性增加了。这种性能提升的原因是Pubfig83和Facescrub数据集的公共分布中只有33个和330个身份，如表1所示。这意味着在这些数据集上训练的GAN模型缺乏泛化能力，因此会产生糟糕的结果。因此，GAN模型对FFHQ中大量身份的泛化能力弥补了分布偏移，从而改善了结果。另一方面，CelebA数据集具有相当数量的公共身份（9177个身份）。因此，GAN已经能够在不同身份之间进行泛化，而在更多样化的数据集上进行泛化的性能提升不足以弥补分布偏移带来的性能降低。这个实验的要点是，拥有大量多样化的公共数据来提取分布先验对MI攻击的性能至关重要。0有限的查询预算。我们研究了在不同查询预算下我们攻击的性能。实际上，一些在线模型（如Google的云视觉API）限制每分钟的查询次数，其他一些可能会禁止用户，如果他们发现异常高的查询量。由于某些攻击场景限制了可能发送到目标模型的查询数量，因此研究这种限制对攻击性能的影响非常重要。这种限制在先前在文献中进行白盒MI攻击的工作中没有得到解决。这是因为攻击者根据定义可以完全访问模型参数，因此可以创建模型的离线副本，然后使用无限的查询进行离线攻击。然而，对于一般的黑盒攻击（包括仅标签攻击），用户无法将模型参数复制到离线模型中。因此，查询预算可能成为一个约束条件。图2（a）展示了BREP-MI在不同查询预算下的性能。我们可以看到，攻击准确率随着查询预算的增加呈指数增长。这在我们达到某个查询预算之前是正确的，然后攻击准确率开始再次下降。我们将在第5.2节中提供一些见解。在本文中研究的所有数据集中，将一个代表性图像恢复到一个私有类别需要从10k到16k次查询模型，这是合理的。当在有限的查询预算下选择超参数N时，攻击者还应该考虑。选择较大的N会增加球面上采样点的数量，并为我们的更新方向产生更好的估计器。另一方面，对于固定的查询预算，增加N意味着减少攻击中可能的迭代次数。我们进行了实验来展示在花费查询以获得更好的梯度估计器和使用查询来应用更多迭代之间的权衡。图3（b）、（c）和（d）表明，在查询预算较小的情况下，BREP-MI在将查询预算用于增加迭代次数而不是增加N时表现略好。然而，对于足够大的查询预算，增加N会产生更好的结果。0分析BREP-MI。我们对BREP-MI进行了定性分析，如图3所示。可以看出，在攻击开始时生成的第一张图像不是目标类别的好代表。随着R的增加，图像向真实图像的进展明显可见。下面，我们提供一些定量分析。表50图2.BREP-MI在不同查询预算下的攻击准确率。（a）比较不同数据集。（b）、（c）和（d）分别比较CelebA、pubfig和Facescrub的不同采样策略。查询预算以2为底的对数表示。0分析了在CelebA数据集上攻击FaceNet64模型时的中间步骤。当攻击找到一个中心点，使得以半径R的球上采样的所有点都属于正确的目标类别时，我们称攻击达到了半径R。我们报告了攻击过程中每个达到的半径的以下测量值：（i）成功到达该半径的目标身份的百分比（列：标签%）；（ii）迭代次数的最小值、最大值和平均值2.00100.00%019137.2923.00%2.60100.00%024663.2030.33%3.38100.00%0374103.4345.00%4.39100.00%2627156.6556.00%5.71100.00%28947230.6463.67%7.43100.00%531721336.3871.67%9.6597.00%891899502.6077.66%12.5571.00%1411909746.6080.28%16.3120.33%2981823939.9070.49%21.211.67%49218751122.0060.00%27.570.67%660728694.0050.00%35.840.33%877877877.000.00%We presented a novel algorithm to perform the first label-only MI attack. Experiments showed the effectiveness ofour approach on different datasets and model architectures.Interestingly, BREP-MI provides comparable results withthe state-of-the-art whitebox attacks and outperforms all theother baselines despite the fact that they make stronger as-sumption about the attacker knowledge. This indicates thatthere is still room for improvement for whitebox attack.Similarly, the blackbox attack is outperformed by our label-only attack with a huge margin although it can access morefine-grained model output than our label-only attack.150520图3.BREP-MI在从第一个随机初始点到算法终止时的每个半径上的进展。0攻击成功的准确率（列：成功%）是到达目标的点的攻击成功准确率的加权平均值。从“标签%”列可以看出，BREP-MI能够多次增加所有目标身份的R值。事实上，所有目标身份的R值至少增加了5倍。这表明我们的算法能够有效地将攻

下载后可阅读完整内容，剩余1页未读，立即下载