私有-kNN：实用差分隐私在计算机视觉中的应用

174 浏览量更新于2023-10-23 收藏 905KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Private-kNN：计算机视觉中的实用差分隐私朱玉清1、2于翔2、ManmohanChandraker2、3王宇翔1、1加州大学圣巴巴拉分校2NEC美国实验室3加州大学圣地亚哥分校摘要随着对视觉识别中深度模型隐私的伦理和法律关注的日益增加，差分隐私已经成为一种隐藏训练数据集中敏感数据成员的机制。最近的方法，如教师集合的私有聚合（PATE），利用在私有数据的不相交子集上训练的教师模型的大集合然而，标记的视觉数据通常是昂贵的，并且数据集在被分成许多不相交的训练集时会导致显著的次优精度，因此几乎无法维持良好的隐私边界。我们提出了一个实际的数据效率计划的基础上私人释放的k-最近邻（kNN）查询，这完全避免了分裂的训练数据集。我们的方法允许使用的隐私放大的子采样和迭代细化的kNN特征嵌入。我们严格分析了我们的方法的理论特性，并在实际的计算机视觉数据集上表现出强大的实验性能，用于人脸属性识别和人的重新识别。特别是，我们实现了与PATE相当或1图1.比较PATE的框架和我们的框架今天，DP已被广泛采用，并已成为定义隐私的事实标准差分私有机器学习[12，6]是一个新兴的研究领域，旨在用正式的DP保证来训练ML模型，这确保了没有攻击者（具有任意边信息）可以区分使用或不使用特定训练示例训练的模型，从而解决了上述问题。差分私有机器学习的关键思想是适当地随机化训练过程（例如添加噪声），因此拟合的模型参数可以被认为是删除了个人信息的净化一些现有的方法不适用于深度学习[6，9，27，23]。一个值得注意的例外需要为许多迭代专门发布组件通过将与d成比例的噪声添加到1. 介绍最近的研究表明，许多在敏感的人类受试者数据上训练的机器学习（ML）模型可用于重新识别个体受试者[24]或重建敏感信息，如社会保障和信用卡号码[5]。此外，最近的立法措施，如《通用数据保护条例》（GDPR），已经将隐私从仅仅是一种“风险”提升差分隐私（DP）[10]是一种可量化和可组合的隐私定义，提供可证明的保证，防止数据集中的个人身份截至1代码可在https://github.com/jeremy43/Private_kNN获得因此，具有D个参数的模型中的梯度不能缩放到计算机视觉中常用的具有数百万个参数的大模型。最近的模型不可知的方法，称为它假设一个教师-学生知识转移框架，利用一个孤立的私人数据和不受限制的公共未标记的数据。在PATE中选择的最关键的参数是不相交教师的数量k。它在很大程度上决定了前两个投票之间的差距，并且通常高达250，以确保有意义的隐私保证，同时确保足够准确的当教师模型是深度神经网络时，每个模型1185411855≈M≥M∈∞M·M→ ∞α−1以实现典型计算机视觉任务的泛化。另一方面，标记的视觉数据获取起来可能很昂贵，因此，对于大多数公共视觉数据集使用大k将使它们不足。例如，对于CIFAR-10，设置k= 250，对于每个不相交的教师，仅产生200个图像，导致精度低于50%。为了解决这个问题，我们提出了一个更有效的数据差分隐私算法的基础上释放伪标签使用的k-最近邻（kNN）的多数表决。这种方法避免了数据分裂，因为在数据中添加或删除一个个体至多可以改变任何样本的k -最近邻中的一个这使我们能够选择更大的k，而不必担心没有足够的数据来训练教师- kNN根本不需要训练。此外，这允许利用“通过采样的隐私放大”的最新进展，细心的读者可能会问，在现代深层网络的情况下，这怎么会是一个优势呢？尽管强有力地保证kNN渐近地实现贝叶斯率[7]，但它并不被认为是有限样本计算机视觉问题中最先进的分类器。我们对这个问题的新颖解决方案是使学习迭代。具体来说，我们将表征学习外包给公共领域，在公共领域，用深度神经网络模型训练的学生与教师共享学习到的特征图。因此，kNN的伪标签的质量得到了虽然学生模型被共享以提取私有域中的特征，但是不存在利用私有数据的模型参数更新，因此不违反差分隐私设置。在我们的框架中，我们的主要贡献概述如下：Celeb-A上的人脸属性分类和Market 1501上的人体属性分类这两个现实的身份相关任务与其他最先进的差分私有学习方法相比，Private-kNN在上述所有方面的隐私成本和准确性方面都取得了更好的性能。2. 预赛在本节中，我们将回顾我们构建的必要技术组件，并从定义DP开始。定义1（差分隐私[10]）。一个随机算法M：X → Θ是（λ，δ）-DP（差分私有），如果对于每一对相邻数据集X，X′∈ X，以及每一个可能的（可测量的）输出集E θ，下列不等式成立：Pr [M（X ）∈E]≤e<$Pr[M（X′）∈E] + δ.该定义提供了严格的信息理论保证，以防止对手的能力，以推断是否一个数据正在使用的δ0是隐私损失参数，其量化隐私保护的强度在实践中，我们认为隐私保证是有意义的，如果1和δ=o（1/n），其中n是私有数据集的大小。DP的一个重要属性是它在后处理下是封闭的，这意味着如果我们可以私下标记公共数据，那么训练公共数据得到的模型享有相同的隐私保证。RényiDifferentialPr ivacyandMomentsAccountant.R e′nyi-diffective priv a cy（RDP ）[16]是（ n，0）-DP的推广，它使用R e′n yi-diffective作为距离度量。定义2（R e′n yiDi f efeetryPr iv a c y[17]）。我们说一个机制是阶为α（1，）的（α，λ）-RDP，如果对于所有相邻数据集X，X′Dα（M（ X）<$M（ X′））我们提出了私有k最近邻（Private-kNN），这是第一个实用的大规模计算机视觉差分私有深度学习解决方案，实现了理论上的1=α−1llogEθ<$M（X′）Σ。pM（X）（θ）<$α<$pM（X′）（θ）≤。真正有意义的DP保证（2001）。<我们提出了一个新的Renyi差分隐私分析[ 22 ]中提出的这使我们能够将其与时刻会计师一起使用，以实现更严格的隐私会计。总的来说，这种“噪声筛选”机制的数据依赖版本我们评估了我们的方法在广泛的视觉任务，如分类MNIST，SVHN，CIFAR-10，以及当α为零时，RDP收敛于标准的（α，0）-DP.更一般地说，我们可以使用以下公式将RDP转换为标准（δ，δ）-DP，其中任何δ >0：引理3（从RDP到DP）。若机构M满足（α，δ）-RDP，则对任意δ∈（0，1），M也满足（α + log1/δ，δ）-DP.存在一个部分逆，它表示任何（α，α ∈ 2/2）-RDP算法都是（α，α∈2/2）-RDP[4]。以函数形式考虑RDP通常是方便的在下文中，我们将M（α）表示为在α阶。函数FWM（）提供了与相关联的隐私保证的更精细的表征高斯机制就是这样一个例子。···118562σ2--1不′我M∈∞log（1/δ）引理4（高斯机制[4]）。设f：X → R对任意相邻数据集X，X ′服从<$f（X）− f（X）<$2≤ <$2，高斯机制M（X）= f（X）+N（0，σ2）得到RDP，其中αM（α）=α2。RDP相对于（δ，δ）-DP的另一个显著优点是它非常自然地组成。引理5（Composition with R e′n yi Di f efeetry Pr ivac y）.设机制M =（M，...，其中M可以是-基本上取决于M1的输出，...，Mi−1。则M2 2也就是说，允许PATE释放O（k）伪标签，这对于许多情况是不够的。引入了数据依赖RDP的概念，以进一步考虑到教师在很大程度上相互同意时出现的高利润率，在这种情况下，隐私成本直观上较小。定义6（依赖数据的RDP [21]）。一种机制是阶为α（1，）的（α，α）-数据依赖RDP，如果对所有X′，′′ max {D（M（X）<$M（X）），D（M（X）<$M（X））}≤λ.α αobeyys RDP，其中M（·）=不i=1 Mi（·）。这使得在标准DP中计算高级成分[11]更加容易，并且通常也更引理3和引理5的应用在很大程度上有利于矩计数器[1]技术-一种从一系列RDP机制跟踪RDP向量δ的数据结构，通过该数据结构，它通过在α上搜索找到任何δ的最小可能δ。我们在本文中报告的所有隐私保证都是基于分析矩帐户[26]，该帐户以其分析形式跟踪整个RDP函数，并通过二分搜索求解给定δ通过二次采样实现隐私放大。子采样是隐私领域广泛使用的一种算法工具，它处理的是一种复合机制，首先对数据进行随机采样，然后在随机选择的子集上应用DP机制。直觉上，由于在X和X′之间不同的一个人通常不在子集中被选择，所以总体隐私保证应该更强。不严格地说，当我们将（γ，δ）-DP机制应用于随机γ-比例的数据时，整个过程满足（O（γγ），γδ）-DP。这种风格的结果在文献中也被称为“子采样引理”或“样本的保密性”[ 2 ]。这是实际相关的，因为这是为什么我们可以负担得起运行Noisy-SGD [25]多次迭代而不增加隐私成本的原因。最近，如子采样的好处可以与RDP [26，30]的紧密高级组合相结合，它大致表示在α的某些限制下：换句话说，依赖于数据的RDP函数是X和α的联合函数。在[22]中提出了一些其他的技巧来减少总的隐私损失。值得注意的是，他们设计了一个这使得PATE能够在第二步中通过数据相关的RDP以较小的噪声节省隐私损失在本文中，我们使用相同的最后，我们注意到，使用依赖数据的RDP可能会被视为有争议的，因为由此产生的隐私损失现在是[22]提供了一种基于平滑敏感度的方法[20]，用于私下释放α，but序列的PRM，X（α），这会导致额外的隐私损失，这些损失在其主要结果中没有报告本文的一个主要贡献是证明了在“知识转移”设置下训练深度网络时，即使不使用依赖于数据的RDP，也可以实现实际的差异隐私3. 我们的方法现在我们准备好描述我们的方法：Private-kNN。记号和符号。在本节及以后的章节中，我们坚持使用以下符号。x∈Rd表示私有数据和公共数据的特征。设D private是大小为n的私有数据集：（x1，y1），（x2，y2），.，（xn，yn）和yi ∈ [1，c]是标签，其中c是类的数量，联系我们（α）≤O（γ2<$M（α））.D私人。设m为未标记公共数据的大小。γ是用于对随机子集Dγ进行采样的采样率，在这项工作中，我们应用来自[ 30 ]的泊松子采样关于这一结果的更精确的说明见附录。我们强调，这是这项工作中利用的主要技术贡献，在PATE方法下根本无法完成。依赖数据的RDP和PATEPATE中的隐私分析非常简单。它涉及到注入拉普拉斯噪声[21]或高斯噪声[22]给教师投票。对于标准差为O（k）的噪声，预算为δ，D私人。我们定义φ为私有kNN的特征提取器。fj（x）是公共特征x上的第j个邻居的预测，邻居的总数是k。在噪声筛选中，我们使用σ1来表示高斯噪声尺度，并且T是用于筛选检查的阈值。σ2是用于噪声聚合过程的高斯噪声尺度。δ和δ被保留用于表示隐私成本。Setup. 如PATE中所定义的，我们可以访问私有数据集和未标记的公共数据集，并且我们试图2γ11857RD≈×2{⊥⊥y1X1泊松曲儿YNCn2n3n1无标签Xpublic更新......γDyD特征Φ...私有kNN伪标记ŷ特征Φ提取器私人提取器1 2 3 c图2.拟议框架概述。给定未标记的公共数据Xpublic，我们通过隐私墙查询伪标签，其中私有数据和查询的公共数据通过特征提取器Φ和结合公共数据和伪标签，进一步更新特征提取器Φ。该过程可以迭代多轮以实现满意的隐私准确性折衷。设计一个（，δ）-DP算法，为尽可能多的公共数据输出伪标签。然后通过半监督学习使用伪标记和未标记的公共数据来训练学生模型。再次，由于“后处理封闭性”的性质私人-kNN。我们的算法包括四个简单的步骤。1. 对于来自公共域的每个查询x，我们使用泊松采样2从整个私有数据集获得随机子集。然后，我们通过测量它们在特征空间dφ中的欧几里得距离来从γ中挑选k个最近的邻居，其中φ是非私有特征提取器。欧氏距离的选择是通用的，然而也可以应用其他距离我们的算法被设计成轮的迭代。在第一次迭代中，使用定向梯度直方图（HOG）[8]特征提取器初始化φ，这是计算机视觉任务中使用的流行描述符。在下一次迭代中，我们将深度神经网络应用于公共学生模型（除了最后一个softmax层）来更新特征提取器φ。在实验部分，我们展示了这种交互式方案如何迭代地细化Private-kNN使用的特征嵌入2. 诺伊斯的筛选。设fj（x）是x上第j个邻域的预测，其中j∈[1，k].类i∈[1，c]的标签计数为图3.噪声筛选和噪声聚合程序的说明这里是筛选的阈值参数，我们设置T0的情况。6k，希望在邻居之间对这个查询有共识。由于我们为每个查询支付私人筛选费用，因此较大的σ1将有助于隐私问题。正如我们之前提到的，在PATE中使用了相同的筛选程序[22]，尽管噪声较大，但这仍然是PATE中成本最高的部分PATE将此筛选程序视为高斯机制的简单后处理。我们注意到，输出实际上是从（通过）或（失败）的离散分布中提取的。在下一节中，我们推导出用于此过程的RDP，它允许从矩会计中受益。3. 对于那些通过检查的查询x，我们释放它的标签ni（x）=|{j：fj（x）=i}|不选择地从public中删除所有查询会导致f（x）=argmaxnjJ+N（0，σ2）隐私预算马上就用完了为了更具选择性，我们只回答那些在投票中具有压倒性共识的查询，并且这个筛选过程是用高斯噪声参数σ1私下实现的，对于没有通过噪声筛选检查的查询，我们返回，并且在重新训练学生模型时忽略这些数据。如果max{ni（x）}+N（0，σ2）≤T则返回数据的新鲜随机子样本噪声筛选过程过滤掉约50%的查询，这使得噪声聚集过程具有更小的σ2以获得更好的聚集准确性。4.TRAINING STUDENT MODEL我们的模型只回答来自公众的特定数量的查询。否则，最终的隐私成本就变得毫无意义了。把一个-1i将查询作为伪标记数据，以及未标记的2Possion抽样包括每个数据点独立的概率γ。它可以有效地实现，首先从二项分布中抽取子集的大小，然后找到一个随机子集。标记的数据，学生模型以自监督的方式训练我们考虑两种流行的自监督方法：虚拟对抗训练（VAT）[18]和无监督ynXn重量共享隐私墙X2y2采样11858MMS数据增强（UDA）[28]。VAT在噪声过程中使用虚拟在我们的实验中，我们发现UDA优于VAT在SVHN和CIFAR-10任务。如图2所示，学生模型是用上面提到的自监督方法训练的。另一方面，学生模型被用来提取更新的特征，在私有域的私有-kNN。这种迭代特征提取允许私有kNN具有与ConvNet类似的容量（用kNN替换 ConvNet中的最后一个softmax层），并且进一步表1.半监督学生模型的效用和隐私性数据集方法#数据集Acc. NP Acc.LNMAX10008.03 98.1%MNISTGNMAX2861.97 98.5%99.2%我们7350.4798.8%LNMAX10008.19 90.1%SVHNGNMAX30984.96 91.6%92.8%我们29390.4991.6%GNMAXCIFAR-10噪音SGD≤50%4 70% 80.5%我们的38772.92 70.8%提高回答公众查询的准确性。此外，我们认为，迭代训练允许利用来自未标记的公共数据的益处，这不违反DP假设或产生任何隐私成本，但被示出在自监督训练下增强学生模型的隐私分析。我们在下面证明DP 保证。设M表示Private-kNN的机制我们表2.SVHN数据集上迭代训练的消融结果迭代 kNN Acc. retrain CNN #kNN182.5%86.6%1022/3000294.41%百分之九十一点六1917/3000σ1，σ2是（δ，δ）-DP，具有任何δ，并且方法可以看作是（Ms）-样品γ-γ的合成（σ2）样品γ。基于复合定理，隐私成本可以通过单独计算两种机制的RDP然后将它们相加来跟踪。为√mδ= O（ γlog（1/δ）（+σ1m个所选））。σ2对于后者，我们可以很容易地应用来自[30]的子采样高斯机制的紧界。我们的主要理论结果是通过严格的RDP分析的噪声筛选程序的以下特征。定理7（“噪声屏蔽”的RDP）。设s是用于噪声筛选过程的随机化算法，具有预定义的高斯噪声尺度σ1和阈值T。则Ms服从RDP，M（α）= max1log（pαq1−α +（1 − p）α（1 −q）1−α）。（p，q）∈Sα−1其中S包含以下. P[N（t，σ2）≥T]， P[N（t+1，σ2）]≥T]≠，证据在附录中请注意，这仅用于说明PATE中不存在的放大效应γ实际上，使用分析矩会计[26]，对λ的4. 实验在本节中，我们展示了我们的Private-kNN在字符识别任务（如MNIST [14]和SVHN [19]）中的数据效率。我们表明，我们的模型实现了相同的准确性，而隐私成本仅为最先进的（ SOTA ）方法（如 PATE ）的10%[21]。我们还利用一般的视觉任务，其中PATE的数据拆分是瓶颈。[13]第10话：1 1. P[N（t，σ2）≥T]， P[N（t−1，σ2）]≥T]1 1对所有整数k/c∈ k ≤ t≤ k。我们注意到，上述界可以有效地计算任何对k，T在O（k）时间，并可以通过计算高斯累积密度函数使用的误差函数erfc的有效实现进行评估。附录中提供了更详细的证明此外，直接表示上述p和q的对数在数值上更稳定。通过信息处理不等式的Re′nyi-diversity，该界严格优于高斯机制对每个α。最后，我们估计了端到端方法的整体隐私范围。定理8（渐近缩放）。Private-kNN对所有m个公共数据点进行噪声标记的总隐私界在DP方法中研究了单个对象识别任务。更具体地说，我们专注于两个现实的集合视觉问题，即CelebA [15]上的面部属性分类和Market1501 [29]上的身体属性分类，这是第一个表明我们的方法可以促进现实的多标签分类任务。4.1. MNIST和SVHN评估MNIST和SVHN是两个常用的数据集，用于衡量差分私有模型的效用和隐私性能[21，22]。我们使用与PATE中相同的私有数据集设置和模型架构来评估Private-kNN [21，22]。在MNIST上，训练集被保留为私有数据集，一半的测试集作为未标记的学生训练数据，其余部分用于真实测试。对于SVHN，扩展数据与训练数据一起被视为私有数据。在26k测试集中，25k11859图4.SVHN上Private-kNN的效用和隐私之间的权衡在该图中，不同的曲线是用不同的采样率γ生成的。在每条曲线中，我们为学生设置不同的查询次数，并计算测试集上的总隐私和准确率。σ1=240，T=480，σ2=60，k=800。我们还绘制了PATE中报告的结果。结果表明，该模型的隐私代价可以达到近两个数量级的小隐私，精度作为公开的未标记的学生数据用于查询和自我监督训练，其中剩余的1k用于测试。我们在附录中延迟了模型架构的详细信息，并在表1中报告了它们的非私有基线。如该方法所示，我们使用手工制作的特征-定向梯度直方图（HOG）进行初始轮kNN分类然后我们应用自我监督训练（例如，[18，28]）与来自kNN的伪标记数据进行更好的特征表示学习。MNIST：在我们的方法中，隐私成本是在2次迭代的1000 次查询中累积的。我们设置相邻节点数k=300，筛选时σ1= 75，聚集时阈值T= 180，σ2= 25，并固定子采样率γ= 0。十五岁在初始迭代中，基于HOG特征的私有聚集kNN模型的准确率为92。百分之一。然后，在735个带有伪标签和VAT正则化的查询上训练学生模型，其准确率达到98。百分之八在表 1 中，与拉普拉斯机制 “LNMAX” 和高斯机制“GNMAX”的PATE例如，当我们控制“GNMAX”和我们之间相同数量的查询时，Private-kNN实现了与98相似的准确性。8%超过98。5%，但更好的隐私成本为0。47，相比之下，= 1。97的更令人惊讶的是，严格的隐私成本为0。47，我们的方法只显示0。4%赤字的非私营模式的表现99. 百分之二。SVHN：如表2所示，我们使用超参数k= 800，T=480，σ1= 200，σ2= 60和γ = 0运行模型两次迭代。03.在第一次迭代中，具有HoG 特征的kNN提供82。1022个回答查询的准确率为5%通过用查询的标签重新训练CNN，提高到86。百分之六。在第二次迭代中，通过kNN进行另外3000个查询，并且返回1917个查询。KNN的准确性在通过噪声筛选检查的选定查询上进行评估，而重新训练的CNN在自监督训练后的公共测试集上进行评估，达到91。6%的准确率。这些过程可以迭代多次，其中我们经验性地观察到两轮可以带来收敛的性能。总的来说，我们在6000个样本上花费了隐私成本，用于噪声筛选和噪声聚合，其中2919（1022 +1917）个样本。表 1 示出了与 “GNMAX” 和 “LN-MAX” 的比较。“GNMAX”和我们的都比“LNMAX”实现了更好的隐私准确性权衡。虽然“LNMAX”的查询次数只有100次，但隐私成本却高达8。19号。这主要是因为拉普拉斯机制与高斯机制相比效率低下，因为高斯机制显示了30倍以上的查询，而隐私成本只有一半（4。96/8 第19段）。进一步将该方法与“GNMAX”方法进行比较，在查询次数相近、准确率完全相同的情况下，该方法获得了 0 。 49 隐私成本，这是显着小于 4 。 96 从“GNMAX”。请注意，隐私成本低于1表示一个优秀的系统，可以用于实际应用。图4示出了通过改变采样率γ，隐私成本γ随着查询的数量而变化。并对“GN-MAX”和“LNMAX”进行了比较。在图中，我们所有的方法都是有利的，即，价格始终低于“GNMAX”和“LNMAX”两个点进一步探索不同水平的γ，我们观察到所有曲线大多是平坦的，这表明当推动准确性高时，隐私成本的增加是边际的。此外，它表明，不同的采样率，我们的方法可以实现不同程度的隐私成本。在很大的采样率范围内（0. 02比0。1），我们可以将所有性能推到91%到92%之间，这与“GNMAX”和“LNMAX”处于同一水平4.2. CIFAR 10评估CIFAR-10是一个通用的对象分类任务，其中PATE模型很难应用，因为数据划分导致每个教师模型的训练数据有限。例如，如果我们将训练集划分为250个教师，则每个教师模型仅分配200个数据，这远远不足以训练深度神经网络。对于我们的实验设置，我们将总共60k数据分为三部分：30k被视为私有数据，29k用于未标记的公共数据，1k用于测试。关于该数据集，一种称为Noisy-SGD [1]的竞争性方法在δ= 10−5时达到了70%的准确度和δ= 4，如表1CIFAR-10所示在Noisy-SGD设置中，利用CIFAR-100来预训练模型。为11860≫表3.CelebA [15]和Market1501 [29]上的真实敏感数据集评估，我们为GNMAX和我们的设置τ = 10。T是教师合奏模型中的教师人数我们比较了不同的方法在高隐私和低隐私制度。CelebA的δ = 10−6，Market的δ=10−5。数据集方法参数T kσ γ查询次数ǫAcc.NP Acc.GNMAX300-150-6007.72百分之八十五CelebAGNMAX我们800--80030050-0.055008003.311.24百分之八十四点四85.2%89.5%我们-8001000.108001.20百分之八十四点九GNMAX300-100-80013.41百分之八十六点八Market1501GNMAX我们300--300250100-0.058012001.410.67百分之八十五点六88.8%92.1%我们-3001000.1012001.38百分之八十九点二公平比较，我们还使用CIFAR-100模型作为PATE [22]中每个教师的预训练模型，并使用它为Private-kNN提取初始特征学生模型的后对于PATE性能，我们注意到，在模型聚合之后，即使我们设置了10，它也低于50%。在我们的实施中，最初的CIFAR-100前，除了这个功能，Private-kNN聚合器回答了来自公共领域的18000个查询中的3877个我们设置邻居K= 300，T=210，σ1= 85，σ2= 20，采样率p= 0。2，并采用与[1]相同的模型架构。模型架构包含三个卷积层，每个卷积层中有32，64，128个滤波器该模型的非私有基线达到80。当使用30k私有数据进行训练时，准确率为5%，而SOTA模型的准确率提高了10%以上。在这个实验中没有杠杆化SOTA模型的原因是，为了与Noisy-SGD进行公平比较，我们的目标是强调隐私-效用权衡，而不是最佳效用。我们的方法达到了70的准确度。8%，隐私成本= 2。92，这完全优于Noisy-SGD。注意，Noisy-SGD中的隐私成本花费在网络的每个参数上;因此，它们的重新训练只涉及完全连接的层。另一个区别是，我们假设公共领域存在未标记的辅助数据，而Noisy-SGD [1]直接用50k私有数据训练私有模型。与Noisy-SGD相比，我们的Private- kNN确实是模型不可知的，对网络结构或用于重新训练学生模型的优化方法没有限制，而Noisy SGD中的裁剪梯度可能会导致不稳定的优化。4.3. 噪声屏蔽降低隐私成本筛选和私人投票是隐私保障的核心组成部分。筛选的目的是过滤掉投票中没有达成共识的查询。筛选的隐私成本是PATE [21]中报告的主要费用，因为我们需要为每个查询支付隐私成本11861图5.噪声筛选过程中五种随机算法回答8192个查询的隐私代价绿线是PATE中使用的高斯机制的强合成，黑色虚线显示了8192轮合成后的泊松子采样高斯机制的隐私成本蓝线是数据独立筛选的强成分的曲线，蓝虚线是数据依赖筛选的强成分。红线是泊松子采样数据独立筛选Ms。采样率γ=0。25，σ1=85，k= 300。我们研究了不同的私人筛选方法，探索他们的隐私成本与不同数量的查询。在图5中，每个筛选算法需要回答CIFAR-10数据集上的8192个查询，并且沿着y轴绘制了累积隐私成本。我们在Private-kNN的初始迭代中使用HoG特征，并将采样率设置为γ= 0。二十五嘈杂的音阶所有筛选方法均使用σ1= 85、阈值T= 210和k= 300绿线描述了PATE[22]应用的高斯机制的隐私成本，作为我们的基线。它达到了= 5。67后，私人筛选8192查询。黑色虚线展示了具有相同高斯机制的泊松采样[30]的隐私放大。隐私成本提高到1。313号尽管如此，The11862PATE中的原始数据分割设置使其无法从子采样中获益。红线显示我们的数据独立筛选方法由泊松抽样组成，达到了λ = 1。04. 蓝线和蓝色虚线显示了将我们的数据独立和数据依赖筛选分析纳入PATE的结果。它提高了从5。67至4.第一章43例采用数据独立筛选，3例采用数据独立筛选。83例数据依赖性筛查。当与黑虚线（子采样高斯）相比，我们的方法节省了26%的隐私预算与相同的筛选结果。我们的方法允许回答更多来自公共领域的查询，这是至关重要的，特别是当训练任务本身是艰巨的。例如，使用CIFAR- 10进行自我监督训练需要至少4000个地面实况标记数据[28]。然后，最小查询次数要求至少10000，因为根据经验，超过50%的数据未能通过筛选检查。我们有利的隐私成本1. 04使其成为具有更困难的机器学习任务的私人培训的实用解决方案。4.4. 真实私有数据集评估我们证明了我们的Private-kNN是一个实际的框架，确实可以应用于真正的私有数据集，即，来自CelebA[15]的面部属性分类和来自Market1501 [29]的身体属性分类。我们的目标是开发一个属性分类模型，对手很难检测到一个特定的图像是否已被用于训练集的高概率。这两个数据集都针对人类或面部相关的任务，其中身份是保护隐私的关键请注意，它们是多标签分类任务，而不是二进制分类，后者更具挑战性。为了减少多标签任务的隐私预算，我们应用了一种τ近似方法，其基本思想是，每个邻居最多可以投票给τ个属性，否则它们的总投票将被裁剪为τ。详细定义和隐私保证见附录。在我们的设置中，我们不对多标签分类进行噪声筛选，因为很难保证一个查询中的所有标签都通过筛选。CelebA是一个大规模的人脸属性数据集，拥有超过22万张名人图像，每张图像有40个属性注释。根据数据分割的方法，我们将160k训练数据作为私有数据.根据60k测试数据，根据要查询的卷，即600个查询，其余59400个图像自动视为测试。非私营部门的基线是89。5%通过Resnet50m结构进行培训。我们应用PATE作为另一个基线。由于每幅图像有40个属性，因此全局灵敏度随属性维数的增加而增大我们采用τ-近似方法来限制全局灵敏度的范围，并考虑了不同τ引起的权衡。在表3中，通过选择参数，当隐私成本小于“GNMAX”时我们达到了85的明显更好的精度。18%，84。百分之四当准确率在85%左右时，我们的方法实现了显着降低的隐私成本1。20比7 72个Market1501包含1501个身份和32668个图像，每个图像有30个属性。我们将原始训练集分为私有数据和验证集作为未标记的公共数据，在原始测试集上评估在这个任务中，数据分割是有压力的。所有的私人数据仅包含对于PATE，为了保证教师模型有意义的隐私成本需要足够多的教师模型，即，K= 300。在如此多的私有数据分区中，每个教师都使用来自2个身份的大约40张图像进行训练，每个教师的非私有准确率仅为71%。如表3所示，我们的方法能够回答1200个查询，而“GNMAX”中只有80个查询，其中两种方法实现了类似的隐私成本1。414和1。377显著更多的查询导致性能提升为89. 与GNMAX 85相比，18%。百分之六十一为了提高“GNMAX”的性能在85. 6%至86。8%），我们调整了隐私-效用权衡，隐私成本高达13。41，这阻止了权衡进一步改善。我们提供了一个相对接近的权衡，准确度88。8%，隐私权= 0。67，两者都远远优于“GNMAX”。详细的实用性和隐私权衡可以在附录中找到，这证明了我们的方法在真正的私人任务中的一致优势5. 结论在这项工作中，我们提出了一个数据高效的k最近邻框架，称为Private-kNN，以克服有限的私有数据来训练视觉应用中的深度神经网络工作。提出了一个新的Re′nyi差分隐私分析噪声筛选过程，这使得我们的模型回答10倍以上的查询相比，其他DP模型，如PATE。在五个视觉基准上进行了广泛的实验，结果表明，我们的方法实现了与PATE相当或更好的准确性，同时节省了90%以上的隐私成本。具体来说，两个现实的身份相关的计算机视觉任务表明，我们的私人kNN实现了高实用性与实际的DP保证。6. 确认我们感谢评审员和元评审员的宝贵反馈。YZ和YW得到了UCSB计算机科学YW的启动资助以及亚马逊网络服务和NEC实验室的慷慨捐赠11863引用[1] M. Abadi、A.楚岛Goodfellow，H.B. 麦克马汉岛米罗诺夫K. Talwar和L.张某深度学习与差分隐私2016年ACMSIGSAC计算机和通信安全会议论文集，第308ACM，2016。一、三、六、七[2] B.巴莱湾Barthe，和M。Gaboardi。通过二次采样的隐私放大：通过耦合和发散的紧密分析预印本，2018年。3[3] R. Basily，A.Smith和A.塔库塔私人经验风险最小化：高效的算法和严格的误差界限。在计算机科学基础（FOCS-14），第464IEEE，2014。1[4] M. Bun和T.斯坦克集中差分隐私：简化、扩展和下界。在Theory of Cryptography Conference，第635施普林格，2016年。二、三[5] N. 卡利尼角Liu，U'. Erlingsson，J. Kos和D. 歌的秘密共享者：评估和测试神经网络中的非故意记忆。在第28届USENIX安全研讨会（USENIX Security 19），第267USENIX协会。1[6] K.乔杜里角Monteleoni和A. D. Sarwate 不同-私人经验风险最小化机器学习研究杂志，12：1069-1109，2011。1[7] T. Cover和P.哈特最近邻模式分类。IEEE transactions on information theory，13（1）：212[8] N. Dalal和B. Triggs的方向梯度直方图人体探测 2005. 4[9] C.迪米特拉卡基斯湾Nelson，A. Mitrokotsa和B. I.鲁宾斯坦。鲁棒和私有的baidu推理。《数学学习理论》，第291-305页。Springer，2014. 1[10] C. Dwork，F.McSherry，K.Nissim和A.史密斯校准噪声对私人数据分析的敏感性。密码学理论，第265-284页。Springer，2006年。一、二[11] C. Dwork，G. N. Rothblum和S.瓦丹升压和差异隐私计算机科学基础（FOCS），2010年第51届IEEE年度研讨会，第51IEEE，2010。3[12] S. P. Kasiviswanathan，H. K.李，K. Nissim，S. Raskhod-Baghova和A.史密斯我们私下能学到什么？SIAM Journalon Computing，40（3）：793-826，2011. 1[13] A. 克里热夫斯基从微小的数据中学习多层图像.在2009年的技术报告中。5[14] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。在Proceedings of the IEEE，1998年。5[15] Z. Liu，P. Luo，X. Wang和X.唐深度学习人脸在野外的属性。在ICCV，2015年。五七八[16] I. 米龙河我不想让你失望。2017年IEEE第30届计算机安全基础研讨会（CSF），第263-275页IEEE，2017年。2[17] I. 米龙河Re'n yidiffpreiv acy.在计算机安全学基金会研讨会（CSF），2017 IEEE 30，第263IEEE，2017年。2[18] T. Miyato，S.- I.前田，M。Koyama和S.石井虚拟对抗训练：用于监督和半监督学习的正则化方法。IEEE Transactions on pattern分析和机器智能，41（8）：1979 - 1 9 9 3 ， 2 0 1 8 。四、六[19] Y. Netzer，T. Wang，中国山核桃A. Coates，A.比萨科湾wu和A. Y. Ng. 使用无监督特征学习读取自然图像中的数字在NIPS研讨会，2011年。5[20] K. Nissim，S.Raskhodnikova和A.史密斯平滑敏感-在私人数据分析中的数据和抽样在ACM计算理论研讨会（STOC-07），第75-84页ACM，2007年。3[21]N. Papernot，M.阿巴迪，美国埃林松岛Goodfellow和K.塔尔瓦从私有训练数据进行深度学习的半监督知识转移。在ICLR，2017。一、三、五、七[22] N. Papernot，S.宋岛Mironov，A.Raghunathan，K.塔尔瓦，你。厄林森可扩展的patepriv ate学习。arXiv预印本arXiv：1802.08908，2018年。一、二、三、四、五、七[23] M. Park，J. Foulds，K. Chaudhuri和M.威林私人环境中的变分贝叶斯。arXiv预印本arXiv：1611.00340，2016年。1[24] R. Shokri，M.斯特罗纳蒂角Song和V.什马季科夫成员─对机器学

下载后可阅读完整内容，剩余1页未读，立即下载