差分隐私保护深度学习模型的块坐标下降算法研究

52 浏览量更新于2024-01-16 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0沙特国王大学学报差分私有块坐标下降Shazia Riaza，b，Saqib Alia，c，Zhang，Guojun Wangc，Zhang，Asad Aneesda巴基斯坦费萨拉巴德38000农业大学计算机科学系b巴基斯坦费萨拉巴德38000，女子大学政府学院计算机科学系c广州大学计算机科学学院，广东省广州市510006，中国;d巴基斯坦费萨拉巴德38000农业大学数学与统计系阿提奇莱因福奥文章历史记录：收到2022年2022年11月6日修订2022年11月29日接受2022年12月8日网上发售保留字：差分隐私块坐标下降深度学习模型隐私会计A B S T R A C T深度学习模型通过产生准确的预测彻底改变了人工智能任务。这些模型的成功在很大程度上取决于使用大规模数据集的精确训练，这些数据集主要来自目标人群。训练数据集可能包含敏感的个人信息，并且模型参数可以在隐藏层的内部线路上编码该信息，从而承担隐私泄露的风险共享训练模型的现代趋势增加了隐私泄露风险。试图解决这个问题的现有隐私保护深度学习模型的性能并不令人满意。因此，这些隐私保护模式中只有很小一部分被业界采用。因此，我们开发了块坐标下降（BCD）算法的第一个差分私有版本。我们提出的机制通过在块变量中注入适量的噪声来大大降低隐私成本它实现了与非私有对等项相当的高准确性它提高了收敛速度，并提供了一个可证明的隐私保证，通过执行隐私会计使用先进的组合和时刻会计方法。我们经验性地评估了我们提出的机制在基准数据集上的鲁棒性。结果表明，竞争力的性能，无论是隐私成本的降低和快速收敛对国家的最先进的差分隐私为基础的机制。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍深度学习在传统的具有挑战性的机器学习任务中取得了显着进展，例如计算机视觉，语音识别，医疗保健和自然语言处理（Park等人，2022; Pandey等人， 2022年）。这些模型的成功训练是实现准确预测的主要因素。这一切都归功于高性能机器和大规模代表性数据集的可用性众包平台用于从目标人群的个人收集这些数据集。大多数数据集，如医疗记录，*通讯作者：广州大学计算机学院，广东省广州市510006（G. Wang）。计算机科学系，农业大学，费萨拉巴德38000，巴基斯坦（S。Ali）。电子邮件地址：shaziariaz@gcwuf.edu.pk（S.Riaz），saqib@uaf.edu.pk（S.阿里）， csgjwang@gzhu.edu.cn （ G 。 Wang ）， asadanees@uaf.edu.pk （ A.Anees）。沙特国王大学负责同行审查制作和主办：Elsevierhttps://doi.org/10.1016/j.jksuci.2022.11.017保留个人敏感信息。人们通常无法控制收集后的数据。因此，它对个人产生了隐私问题（Shokri等人， 2019年）。通过操纵训练数据在训练期间以模型参数的形式存储在深度学习模型的隐藏层的事实来执行隐私泄露。黑暗的一面是，这些经过训练的模型显示出攻击者可以利用其窃取敏感信息的漏洞。这种隐私泄露已经通过著名的模型反转攻击（Fredrikson等人，2015）、模型提取攻击（Tramèr et al.，2016）和成员推断攻击（Shokri例如，2017年）。个人信息可以很容易地提取，在黑盒设置中，用户仅具有查询访问权，只能得到一个带有标签类的预测向量。最近基于欧洲数据隐私条例GDPR（Goodman和Flaxman，2017）发布训练模型或共享透明度报告的趋势使情况恶化。它通过向用户提供白盒访问权限，使模型更容易受到隐私风险的影响，因此，迫切需要开发强大的机制来保护深度学习模型的隐私，以保持用户的信任在模型的0有用性。1319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Riaz，S. Ali，G. Wang等人沙特国王大学学报284000C2 ¼ ðCc ω。cW¼argminLW3BWn深度学习模型产生的隐私风险吸引了研究界，并成为隐私保护深度学习出现的原因（Shokri和Shmatikov，2015）。差分隐私（DP），事实上的标准隐私，是用来解决这个问题，是大多数建议的隐私保护方法的骨干。基于DP的隐私保护通常通过训练数据扰动（Zhang等人，2018 b）或梯度扰动（Abadi等人，2016; Xiang等人，2019年）。在模型训练前对训练数据进行扰动，以隐藏个体敏感的个人信息.它在更大程度上降低了模型性能，并且没有达到明显的准确性。相反，梯度扰动是在模型训练期间通过向梯度添加噪声来执行的。在深度学习中，优化是模型训练的主要成分。根据一阶和二阶信息的使用量，这些优化算法可以分为基于梯度的和无梯度的。基于梯度的优化的主要工具是随机梯度下降（SGD）。它使用反向传播技术计算参数的梯度。不管是否被广泛接受，基于梯度的方法通常容易受到梯度消失的影响（Abadi等人，2016）和离群值（培训期间的错误标签）问题，由于小批量的小尺寸。在小批量梯度中包含噪声以实现隐私使得情况更加严重。所有这些尝试都逐渐降低了预测精度，并减缓了深度学习模型的收敛速度。已经采用了几种技术来解决这些问题，正则化、自适应学习率、自适应噪声添加等（Phan等人，2017年; Xu等人，2020年）。然而，所有这些技术都无法显式地处理离群值的影响。为了解决这些问题，块坐标下降（BCD）（Zhang和Brand，2017; Lau等人，2018年; Zeng等人，2019），是最近采用的无梯度方法之一，有效地处理非凸优化并假设改善消失梯度问题（Xu和Yin，2017; Zhang和Brand，2017）。BCD通过处理鲁棒性的准确性问题，产生了不断扩展然而，BCD不是为了解决隐私问题而开发的因此，使用BCD构建的深度学习模型可能会从训练数据集中泄露有关个人的敏感信息本文提出了一种差分隐私版本的BCD，它为深度学习模型提供了正式的隐私保证，同时保持其准确性与非隐私等价物相当。与现有的隐私保护技术相比，所提出的差分隐私BCD（DP-BCD）具有足够的鲁棒性，具有低隐私成本和快速收敛速度以及高度准确的预测结果，这是隐私保护深度学习模型的吸引人的特性。我们达到了我们的目标，根据每个样本的灵敏度有界的高斯分布采样噪声。之后，该灵敏度相关噪声被lelism对于算法的实用性是至关重要的，因为它减少了保证DP所需的每个样本的噪声量。我们的经验表明，DP-BCD保持隐私和准确性之间的权衡在一个可接受的水平。它同时提供了可验证的隐私保证和准确性，预测结果类似于其非私有等价物。我们确保一个可接受的效用，通过推导出一个界限的噪音量到一个可容忍的水平。我们是第一个提供差分隐私版本的BCD和执行隐私会计使用先进的合成定理和时刻会计方法。我们证明了DP-BCD的隐私成本低，由于在适当的地方加入适量的噪声，它在早期的时期收敛速度快，由于是免费的梯度计算和学习率超参数调整。我们比较的准确性，隐私成本，并在早期阶段的DP-BCD与最先进的技术的收敛性，并证明其性能增强的基准数据集。本文的其余部分组织如下。第2节说明了深度学习、块坐标下降和差分隐私的基本原理。第3节回顾了相关工作。第4节描述了我们提出的机制。结果和讨论见第5节。限制和未来的工作将在第6节中讨论。最后，第7节对本文进行了总结。2. 预赛2.1. 深度学习深度学习模型由分层架构组成，每层由神经元组成。这些神经元执行参数化功能（例如，仿射变换、非线性激活函数）以产生输出。通常使用的激活函数的例子是Sigmoid，Rectified Linear Units（ReLus）和Tanh。这些参数可以在模型的训练过程中进行调整，以获得所需的分类结果。更准确地说，令（ xi;yi）是包含n个样本的训练数据集，其中xi2XandX1/4X1;X2;. ;xn）表示输入。同样，yiYandyy1;y2;：：;yn）表示输出（通常标签）的具有N-1个隐藏层的前馈神经网络模型。令在N层模型中，d0、dj和dN分别表示输入层让O w：X！ Y是具有相关参数空间Wj2W的分类函数。损失函数“0”w“x i”; y i "测量每个训练示例（x i ; y i）的预测输出和实际输出之间的差异。目标是使经验损失最小化L. 这是通过在训练期间调整参数W来完成的。. c 1X1/1预测精度我们采用先进的合成理论以及时刻会计方法的隐私会计证明DP-BCD的鲁棒性方面的成本消耗较少我们提出的机制收敛速度快，在早期的时代，因此，我们得到了理想的准确性，同时消耗显着- ably比国家的最先进的技术更少的隐私成本。总之，我们的贡献如下。我们扩展BCD计算每个模型更新作为所有数据样本的聚合后，添加噪声的权重块变量根据计算的灵敏度界限。这个paral-当量（1）描述了深度学习的训练问题。而具有N层的深度神经网络的架构在等式（1）中描述。其中fj是执行在第j层，参数为W。OWxi/NWN/N-1WN-1。 . . W2/1W1xi2在最优参数空间中的上述调谐结果用WcωW●●●●n●添加到权重中以使它们具有差异隐私性。通过这种方式，实现了差异隐私，而不会危及他们的安全。L‘S. Riaz，S. Ali，G. Wang等人沙特国王大学学报285cbbcc！.Σcb bCb！D1;D2.Σn00MDfDN0;D：rJJJ-1JJJ我Cni¼12.2. 块坐标下降深度学习模型是高度非凸的，其中所有变量都通过网络架构层紧密耦合它对设计高度优化的训练算法及其分析方法提出了许多挑战为了克服这个问题，BCD算法（Zhang和Brand，2017; Lau等人，2018年; Zeng等人，2019），使用变量分裂，使培训过程计算效率和可追溯性。变量分裂引入了一些额外的变量，将包含紧耦合变量的复杂问题转化为包含松耦合变量的相对简单的问题通常，三个分裂公式（Zeng等人，2019年）被采用，以有效地解决深度学习训练算法的耦合变量所带来的挑战。其表述如下。明湖W;U;VLo.W;VWb;bU;bV单个记录的存在或不存在对其结果没有显著影响。定义1. 差分隐私（Dwork，2006）：一个随机机制M：D！R提供（e;d）-DP，如果两个任意相邻数据集D1和D22D仅在单个记录中变化，并且输出的任意子集S= Range（M），使得pr½MD12S]6ex pe：pr½ MD22S] d9通过设置d=0，它变成称为纯DP的e-DP。（e; d）-DP中的加性项d是由Dwork等人引入的松弛。（2006 a），其是原始e-DP的变体。使确定性查询函数（f：DR）差分私有的流行范例是高斯机制。在这种机制中，我们从高斯分布中提取校准的噪声，并将其添加到对包含个人敏感信息的数据集执行的查询函数f的输出中。这有助于保护个人隐私。由此产生的机制定义如下。cXNhþ2第1页.2012年2月2日.22Σð4Þ受U¼。WVI'm sorry，I 'msorry. U盘;j盘1;.. . ;N;105mg/kg其中N0;D2：r2是取自高斯分布均值为0，方差等于D2：r2噪声方差与函数灵敏度y成正比例，即， D（Dwork等人，2006年b）。灵敏度计算由数据集的单个记录中的变化产生的其中W;U;V表示三个变量深度学习训练问题的分裂公式化。c是一个超参数和是更大比零在这个等式。洛。W;V是一个著名的模型训练分裂公式有两个变量。Wc;Vbc，如下所示。NN定义2. 灵敏度设f：DR是查询函数，则其灵敏度可以描述为：Df¼maxkfD1-fD2k11其中D1和D2是任何两个相邻的数据集，最多一个记录，kfD1-fD2k表示洛。W;VbRnVN;YXTj. WjXsj. Vj6块变量Vj由以下等式确定。Vj¼/jWj;Vj-1;j¼1;.;N;107mg/kg由方程式式（6）中，R n<$VN; Y<$表示经验风险，并在式（6）中描述。(8).此外，Tj和sj是块变量Wj和Vj的正则化或约束。这些是扩展实值非负函数，其中Tj表示权重变量Wj的先验。类似地，sj表示状态变量的先验Vj.我们认为Eq。（4）作为被压缩到基础训练模型的正则化深度学习模型（等式（1））。（1）不规范。RnVN;Y1XEq.中描述的深度学习模型（4）可以采用任何传统的结构，其中（a）是任何常用的损失函数，即，平方、逻辑、铰链、交叉熵等; (b)是激活函数，即， ReLU 、 Leaky ReLU 、 sigmoid 、 linear 、polynomial、soft plus等; （c）Tj和s j可以平方为“2范数”或“1范数”（Zeng等人，2019年）。特别地，如果我们不对Wj或Vj使用正则化器或约束，则Tj和sj可以被设置为零。2.3. 差分隐私差异隐私是一种机制，用于公开共享信息，而不会并列个人的隐私它为聚合数据集上的算法提供了一个严格的数学框架，可以确保隐私，而不管对手的背景知识和计算能力。非正式的2.4. 威胁模型我们使用Abadi et al.（2016）使用的标准威胁模型。在这个模型中，假设对手可以在白盒设置中访问深度学习模型的训练过程。它甚至可以访问除目标样本xk之外的数据集Xn，但它不能访问任何更新计算的中间结果。3. 相关工作保护机器学习模型的隐私一直被认为是一个重要的研究领域。DP-一种承诺隐私保证的数学框架，被并入机器学习模型中以确保其隐私（Zhang et al.，2012; Li等人，2014年; Fang等人， 2019年）。在过去的几年里，注意力已经转向深度学习模型的隐私保护（Kairouz等人，2015; Shokri和Shmatikov，2015; Abadi等人，2016年; Phan等人，2016年; Phan等人，2017; Papernot等人，2017;Collet 等人，2018 年; Koenya 和 Honkela ， 2018 年; Lee 和Kifer，2018年; Papernot等人，2018年; Yu等人，2019年; Xu等人，2020;Ouadrhiri和Abdelhadi，2021; Ziller等人，2021年; Wu等人， 2022 年）。例如，（ Kairouz 等人， 2015; Shokri 和Shmatikov，2015; Collet等人，2018年; Wu等人， 2022）试图通过在联邦学习系统中共享模型参数来保持深度学习模型的私有性。其中，Shokri和Shmatikov（2015）首次提出了一个框架，允许参与者在训练期间共享扰动模型参数，而不是共享他们的本地私有数据Papernot et al. （2017年，2018年）介绍了师生的方法，并训练了教师分类器的不相交子集从原来的k Vj-/j UjkF kUj-WjVj-1kFð10Þ第1页第1页S. Riaz，S. Ali，G. Wang等人沙特国王大学学报28600.c数据集。为了保护隐私，噪音被添加到教师的预测中，并被转换成一个聚合的单一预测。学生模型训练完全依赖于教师的预测输出，因此无法访问其内部参数，从而在更大程度上确保隐私。（Zhang et al.，2018 a; Jin等人，2019年; Niu等人，2019）试图保存存储在来自不同受众的众包训练数据中的个人信息。他们精心制作了不同的私人众包程序，并在训练前将DP应用于收集的训练数据集。在在所有上述技术中，攻击者无法访问训练的模型，并且在黑盒设置中生成攻击另一项工作涉及训练阶段深度学习的隐私问题，并利用差分私有随机梯度下降（DP-SGD）来控制训练数据对模型工作的影响（Abadi etal.， 2016年; Phan等人，2017年; Kokina和Honkela，2018年; Lee和Kifer，2018年;Xiang等人，2019; Gong等人，2020; Amian，2021;Ding等人，2022; Liu等人，2021年）。Abadi et al.（2016）是引入深度学习模型的隐私保护训练的先驱。他们提出了裁剪梯度的范数，然后根据其敏感性添加高斯噪声的想法，以使随机梯度下降算法（DP-SGD）的差分私有版本。Phan等人（2017）提出了一种自适应噪声注入方法，使用拉普拉斯机制来保护深度学习模型的隐私，并证明了训练迭代次数不会影响隐私成本。Adesuyi和Kim（2020）扩展了这种方法，并试图通过将分层相关传播（LRP）与DP相结合来提高深度学习模型的准确性和效率。实施了自适应学习率方案，以提高模型收敛速度，同时降低其隐私成本（Kokala和Honkela，2018）。Lee和Kifer（2018）在模型训练期间的每个时期分配了不同的隐私预算，以减少梯度中噪声的影响。Amian（2021）用具有可接受的隐私成本的正切双曲滤波操作替换了梯度裁剪步骤。 Ding等人（2022）提出了一种扰动迭代梯度下降优化算法来自适应地添加噪声。他们还开发了一种改进的时刻会计（MMA），用于更严格的隐私分析。Liu等人（2021）致力于分组梯度裁剪以减少裁剪偏差，并建议使用平滑噪声校准技术来减少注入的噪声量一些研究人员致力于DP的广义形式，例如，羽等人（2019）采用集中差分隐私（CDP）进行隐私损失分析，并试图通过在模型训练期间分配动态隐私预算来提高模型的准确性。根据Hong等人（2022），动态隐私芽集分配取决于损失函数，并且可以实现以提高效用上界。Xu et al.（2020）使用自适应学习率和自适应噪声来减少私人预算消耗并提高模型的准确性。 Ziller 等人（2021）在训练期间向梯度注入衰减高斯噪声。他们采用截断的集中差分隐私（tCDP）进行隐私损失分析，并声称对自适应噪声提供了严格的隐私边界分析不同私有特征混合（DPFMix）由Li等人开发。（2022）来处理隐私保护图像数据集的效用退化问题。与差分私有混合（DPMix）相比，它们增强了所述数据集的实用性 Lu等人（2022）使用指数机制将噪声注入到输出层的任意选择的神经元中，并通过在黑盒设置中实施成员推断攻击来评估隐私泄漏。上述技术要么承担高隐私成本，要么降低效用（在准确性方面和收敛速度），因此，不能保持隐私和效用之间的折衷。在隐私保护深度学习文献中所做的大部分工作都使用了基于梯度的优化。因此，忍受消失梯度、爆炸梯度、鞍点、错误标记等问题。在基于梯度的优化方法中这些问题的原因是使用学习率来逐渐收敛到全局最小点。然而，学习率以这样的方式更新模型，要么需要太长时间才能收敛（在低值的情况下），要么可能跳过收敛点（在高值的情况下）。此外，这些模型消耗相对高的隐私成本来保护隐私。除了这些问题之外，这些隐私保护技术还存在准确性、效率和实用性问题。所有上述问题都需要一种有效的算法，该算法可以提供显著的准确性和可证明的隐私保证。因此，在本文中，我们主要研究BCD的差分私有版本，这是一种用于深度神经网络以保护其隐私的无梯度优化算法。该方法在每次模型更新时，根据模型的敏感性，对权重块变量进行噪声添加的数据集。我们的重点是通过在正确的位置注入适量的噪声来有效地优化深度神经网络，以保证训练数据的隐私性，同时在可接受的水平上提供准确性和实用性。4. 拟议机制本节详细介绍了我们在深度学习模型训练期间实现（e;d）-DP的方法。我们首先提出了差分隐私BCD（DP-BCD）算法的模型训练，然后提出了其隐私分析。然后，使用强合成矩会计方法进行隐私会计，计算在培训过程中积累的隐私成本。4.1. 系统模型：差分私有块坐标下降算法在本节中，我们提出了一种低成本和加速的收敛方法，该方法可以最大限度地减少深度学习模型的差异私有版本和非私有版本之间的准确性差异。为了实现这一点，需要开发一种技术，有效地优化模型并确保隐私而不危及其准确性。因此，我们采用块坐标下降（BCD）（Zeng等人，2019年）最近被采用作为深度学习的另一个主力，被认为对深度学习问题的优化更有效。与SGD相比，BCD是一种无梯度方法，不需要调整学习速率，并具有高效的收敛性。尽管如此，它的设计并没有考虑到隐私保护来解决隐私问题，而隐私问题现在被认为是深度学习算法的最基本问题。因此，我们的方法处理这个隐私问题，并设计了一个不同的隐私版本的BCD。1 .一、算法1描述了差分私有BCD（DP-BCD）算法的细节。为了保护隐私的算法，我们将DP在BCD实现差分隐私在算法的每一步。所提出的算法用于训练模型，并试图尽量减少经验损失LW 参数W。DP-BCD算法的工作原理是：将深度学习模型分为多块变量（步骤4），并迭代K个epoch（步骤5它计算在输出层分配给块变量的模型的净输出S. Riaz，S. Ali，G. Wang等人沙特国王大学学报287JCCJJJJJ0N2NF2NFN2NF2NN-1FNWN2N2N-1FNFJVJ2NF2j1FJUJ2JF2JJ-1F2JF15：对于每个xisXn，计算WjxiWjxi=max 1;JJnJ在向前传递期间（步骤6-8）。然后，它以循环的方式更新这些块变量，使得除了当前更新的变量之外，其余的块保持它们的最后更新的值（步骤10、12）。BCD可以以向后和向前的顺序实现，我们实现BCD算法以向后顺序循环地更新块变量（Wj;Uj;Vj）（步骤9-19）。在每次迭代中，变量更新过程从输出层开始并传播到输入层层.接下来，我们将权重块变量Wk按比例缩小到C（比例因子）的最大值，以在更新之前限制每个更新步骤的灵敏度（步骤14）。它有助于DP-BCD算法的快速收敛。最后，为了证明DP保证，我们应用高斯机制来扰动权重块变量并更新它（步骤16）。算法1. 差分专用BCD4.1.2. 噪声添加和收敛保证在保持DP-BCD实用性的同时证明隐私保证需要回答两个主要问题。(i) 我们应该注入多少噪声来确保（e;d）-DP？(ii) 这种建议的方法可以提供收敛保证后，噪声添加？对于第一个问题，我们评估更新函数相对于W的灵敏度，并根据计算的灵敏度添加噪声（第4.2.1节）。为了解决第二个问题，我们使用会计方法来累积隐私成本，以表明添加噪声不会增加成本函数，并在第5.1.3节中证明我们的DP-BCD方法的收敛性。1：输入：示例X ¼ f x 1;. ;xng2：参数：W ^fW1;. ; WNg; a> 0; c> 0;噪声比例r;比例因子C 3：初始化：Vo¼ X4：初始化：nWo随机，Uo 1/4 Wo。VoVo¼/.乌奥穆尼J5：对于k1/4;... 做j jj-1J-1jj¼16：VK¼argminnsNVNRnVN;YckVN-Uk-1k2akVN-Vk-1k2o7：UK¼argminnckVk-UNk2ckUN-Wk-1Vk-1k2o8：WK¼argminnTNWNckUk-WNVk-1k2akWN-Wk-1k2o9：对于j ^N-1;. ; 1do10：更新块变量Vk11：VK¼argminnsj。Vjc kVj-/j.Uk-1k2ckUk-WVJK2O12：更新块变量Uk13：UK¼argminnckVk-/jUjk2ckUj-Wk-1Vk-1k2akUj-Uk-1k2o14：块变量Wk的缩放K K.kWkxik2C第16章：噪音17：Wk1/4。RiWkN.0;r2C2I18：更新块变量Wk19：WK¼argminnTj. WjckUk-WjVk-1k2akWj-Wk-1k2ojWj20：结束21：结束2j j-1F2j F4.1.1. 扩展更新缩放为了证明DP-BCD算法的差分隐私保证，需要限制每个样本对更新函数的影响。由于算法的更新步骤没有较早的因此，当更新权重块变量时，在算法1中，Wk的每个分量被按比例缩小;即，该值不能超过比例因子C（步骤14）。这种缩放不会损害模型的收敛性，使其成为差分隐私设置中BCD的相比之下，SGD中的缩放使梯度有偏，从而对收敛保证产生负面4.2. 隐私分析在算法1中，模型训练包括Mk机制，其中每个时期表示模型更新。假设对手无法访问模型更新过程，因此无法检索中间结果，从而保持计算的私密性。因为权重块变量中的更新会自动传播到下一个块变量。因此，我们认为，为了实现Mk，我们在权值变量的更新计算之前对其进行处理，并限制其灵敏度，以限制它可以从训练数据集中记忆的信息。KVNUNj1S. Riaz，S. Ali，G. Wang等人沙特国王大学学报28802k-k k kjjðÞð Þ ðÞðð ÞðÞFD1nD2¼xk2个日志：DFig. 1. DP-BCD的系统流程之后，使用Eq. （10）按灵敏度计算如下。4.2.1. DP-BCD的灵敏度假设数据集D（D1;D2D）的记录是归一化的.然后，为更新步骤（算法1，步骤14）计算的灵敏度由下式限定：证据为了评估f的灵敏度，两个相邻的数据集D1;D2被认为仅具有一个记录的差异，即，xk.我们初始化D1/D2，并从D1中删除记录xk，使它们在一个记录中不同。在D1上计算的更新表示为W1，在D2上计算的更新表示为W2。为了评估更新步骤的灵敏度，考虑在算法1的步骤15中执行的缩放，提供jWkj 6C的保证，并且通过归一化，我们知道k×kk= 1。它建立了W1W26x k 焕光 6摄氏度。因此，f的灵敏度如下。D2¼Max kW1-W2k2 6 C2124.3. 隐私会计在深度学习中，模型参数在每次迭代时更新。这些参数存储数据集的敏感信息.由K个epochs组成的基于DP-BCD的模型训练使这些最终模型参数具有差异隐私性，从而利用一些隐私成本。因此，下一个挑战是计算迭代BCD算法的累积隐私成本。为了实现这一点，我们实现了一个会计程序，在每次访问训练数据集时以e;d的形式累计此成本。我们建议的机制的主要目标是限制培训期间产生的费用。在模型训练的上下文中，DP机制M通常包括一系列机制。nismsMk，其使得模型在每个时期k期间更新时具有差异私有性计算每对ek;dk的e;d称为可并性。在用于隐私会计的文献中遵循的最常见的方法是强合成（Dwork等人， 2010）和时刻会计（Abadi et al.，2016年）。在这项工作中，我们使用强合成和矩会计方法来会计隐私损失的机制M。4.3.1. 强成分强合成定理通过以摊销的方式跟踪隐私支出来累积在每次迭代中使用的隐私成本。它假设所有的例子都是随机均匀处理的。因此，支出在所有示例中进行摊销。为了应用DP，我们使用高斯噪声来表示隐私代价的形式为双对数对。强成分给出了算法每一步的D-DP保证，噪声幅度r计算为Dwork和Roth（2014）。s。ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃ1ﬃﬃﬃﬃ2ﬃﬃﬃ5ﬃﬃﬃΣﬃﬃﬃ隐私损失是针对深度神经网络的每一层计算的。因此，根据隐私放大定理，每一层都是O re;rd）差分隐私，其中r = U/N是每层与数据集大小N的比率，其中U是根据神经元数量的层大小。我们运行它K个epoch;因此，它给出（Kre，Krd）DP保证。以强有力的组成，每莱伊群岛O.repklog1=d;krd）差分lyprivate.4.3.2. 时刻会计根据Abadi et al.（2016），强合成给出了e;d估计的松散界限，并且没有严格考虑所考虑的噪声分布的尾部界限。在那里-r¼=e13S. Riaz，S. Ali，G. Wang等人沙特国王大学学报2890.Σ.ﬃﬃﬃﬃ0此外，我们还利用矩量法计算了隐私损失随机变量的代价，该代价考虑了隐私损失分布的尾界。它记录了隐私损失时刻的界限，积累了隐私损失的高峰时刻。它提供了一个更清晰和更严格的隐私损失分析。矩计算方法是根据高斯机制定制的，利用每个Mk的对数矩来计算总隐私损失的界。隐私成本计算过程使用矩计数器作为具有以下参数的函数MA。e¼MAd;r;r;K14其中r是噪声幅度，r是每层比率，K是历元的数量。选择合适的噪声标度和缩放因子C使得算法1O repK;d）差异私有。矩会计采用矩生成函数（fMv）来得到隐私损失界。它接受数字v并返回机制M的隐私损失分布的第v个时刻，例如，如果我们将数字1传递给函数，它将返回第一时刻。我们计算每个时刻的界限，每个时刻给出不同的界限。我们使用以下等式计算隐私损失分布的第v阶矩fMv 6r2vv1= 1-rr2O r3=r315从等式（15），我们可以推导出分布尾部的界（隐私损失为e的部分）。<它可以被描述为。d<¼expfMv-ve16由于我们通常固定d的值并计算隐私损失e的界限。我们可以重新排列Eq。（16）做到以下几e¼fMv-logd17<我们可以代入特定的v值来得到不同的上界。我们选择最紧的边界，即，v的值，最小值为Mv-logd。这可能是v= 3或v=以中心为中心。手写数字数据集由60，000个训练示例和10，000个测试示例组成。训练率和测试率分别为85%和15%。我们设计了一个简单的前馈神经网络，输出层由10个类（0-9位）组成5.1.1. 基线非私营模式MNIST的基线模型的体系结构由三个隐藏层组成，每个隐藏层有1500个隐藏单元。超参数a、T和c的默认值分别设置为1、1每个epoch以一个特定的时间段获取整个训练数据集。时间;因此，在我们的实验中没有使用时间该模型在25个历元内获得了94.54%的我们已经测试了MNIST的不同数量的隐藏层研究发现，由一个隐层和一个隐层组成的模型的工作原理是：更多的神经元单元比两层或三层模型好得多。因此，我们将模型的架构修改为具有2000个单元的单个隐藏层（图1）。 2）并在95.50%第三纪元。它在大约20个时期内达到96%，训练损失可以忽略不计，如图所示。3.第三章。5.1.2. DP-BCD模型我们使用相同的架构，其中一个隐藏层由2000个ReLU单元组成，用于差异私有模型训练。为了促进学习过程和提高预测精度，我们限制了块权重变量的灵敏度，缩放因子为C = 0.01。我们尝试不同的缩放因子值，但0.01给出了最好的结果。总的隐私成本（e;d）是com-从噪声幅度r，每层比率r = U/N，以及时期的数量K。超参数的值给出最佳结果的a、T和c我们实现了良好的学习和测试精度时的价值噪声等级r的值被计算为4和6。在训练过程中，机械M将噪声注入每个参数Wc中，32，v= 64，或v= 1000。它是用数值积分计算的。因此，我们一般不能得到理论上的最佳v。因此，我们不使用单个随机值，而是尝试不同的v值，并检查其中哪一个在实践中给出了最严格的界限。通过尝试高阶矩（即，v的值越大），我们得到的e的边界越多;因此，我们更有可能找到最紧的边界。在实践中，我们发现尝试v的值从1到64是一个范围，得到足够好的界限。根据分布，我们通常可以获得更严格的估计。时刻因此，一个更准确的估计的隐私损失相比，一般的强合成定理。5. 结果和讨论本节在两个基准数据集上评估我们提出的机制：MNIST和乳腺癌数据集。数值和图像数据集的使用验证了我们提出的机制在不同类型数据集上的能力。我们对每个数据集使用不同的神经网络结构。我们使用强合成和矩会计方法进行隐私会计，以衡量与d概率一致的隐私损失e。5.1. MNIST我们在标准MNIST数据集上进行实验，该数据集包括从0到9的手写数字的灰度图像（Lecun等人， 1998年）。每个图像的大小为28×28像素，纪在我们的实验中，我们首先计算隐私成本，强合成并计算e和d的大小作为迭代K的函数。我们在第4个时期获得了94.8%的准确率，图二.基线模型架构。S. Riaz，S. Ali，G. Wang等人沙特国王大学学报290.- 是的Σ1/11/1¼¼¼¼图三.非私有模型的MNIST数据集预测精度。消费（3.36，10 - 6）（e;d）对的值，如图2所示。4 A和B。我们可以看到，根据强合成计算，在可接受的情况下与DP-SGD在400个时期中为实现期望的准确度而消耗的隐私成本（24.22，10 - 5）相比的准确度（Abadi等人， 2016年）。时刻会计师对隐私丢失进行了更严格的隐私分析。因此，除了强合成，我们使用矩会计师来计算隐私成本的基础上，一些具体的价值观。我们根据隐私成本e的值和相应的d值注入高斯噪声我们跟踪训练和测试不同噪音水平的准确性，见图4。在MNIST数据集上实现了隐私保护模型的预测精度和隐私会计结果。5.1.3. 收敛性分析为了证明DP-BCD在加入噪声后的收敛保证，并更深入地了解其性能增益，我们根据Eq. 十八岁f=x;y=1： 5-x=2： 25-x= 2： 625-x=3：3ð18Þ从图7中可以观察到，DP-BCD和非私有BCD的轨迹与DP-SGD和ADADP（差异私有深度学习的自适应和快速收敛方法）相比表现出几乎相似的行为（Xu等人，2020年）。DP-SGD的轨迹显著偏离其非私有版本，而ADADP及其非私有版本的轨迹偏离较小。在数学上，两个射束L和M之间的距离可以定义为L^flign和M^fmign具有如下计算的相同长度在这里，轨迹是时期的总数n保持e的值不变，并计算d的消耗量，DL;M1Xkli-mik2ð19Þ训练时期K的函数该模型实现了94.64%5个历元中等噪声（e1; d10- 4和获取百分之九十四点九五精度与重噪声（e0： 5;d 10- 3）在第4个时期，训练损失与其非私人同等物没有太大差异。图图5和图6以图形方式说明了上述结果。jLji¼1DP-BCD和其非私有版本的轨迹之间的距离为0.11，这远小于DP-SGD和非私有SGD的轨迹之间计算的距离（0.90）以及ADADP和其非私有等价物的轨迹之间计算的距离（0.21）（Xu等人，2020年）。它证明了S. Riaz，S. Ali，G. Wang等人沙特国王大学学报291图五. 中等噪声下的预测精度和训练损失结果（e¼1： 0;d¼ 10-4）。见图6。预测结果准确性和训练损失对于严重的噪音（e ¼ 0：5; d ¼ 10 -3）。DP-BCD在噪声添加后的收敛方面，并解决了优化算法的私有版本的偏差问题DP-SGD。通过对其他优化测试函数的收敛性分析，得到了相同的结果表1比较了私有和非私有模型训练对不同噪声水平的预测精度从表中可以观察到以下结果。(i) 差分私有BCD在如下意义上是有效的：与先前的基于DP的技术相比，其在非常早的时期中以期望的准确度实现隐私（Abadi等人，2016; Yu等人，2019年; Xu等人，2020年）。因此，它占用系统资源的时间更少。(ii) 该模型的训练集精度和测试集精度相差很小，这是DP-BCD的另一个吸引人的意义。它验证了差异私有模型训练泛化良好的理论论点（Basily等人， 2021年）。(iii) 私有和非私有模型之间的准确性差距也非常小，这表明我们的DP-BCD算法在准确性和隐私性之间保持了可接受的折衷。(iv) 隐私会计方法，即，强合成和矩计算都积累了较低的隐私成本，从而验证了DP-BCD在具有可接受的隐私保证的情况下具有较小的隐私成本消耗。5.1.4. 与其他技术的我们通过比较DP-BCD的隐私成本、准确性和计算效率（在早期收敛方面），图7.第一次会议。用Beale函数分析DP-BCD的收敛用现有技术的方法： DP-SGD （ Abadi 等，2016 年），Differentially Private SGD（动态预算分配）（Yu et al.， 2019）和ADADP（Xu et al.，2020年）在MNIST数据集上。为了证明消耗的隐私成本和实现的准确性的差异，我们将DP-BCD的隐私成本与DP-SGD，差分私有SGD和ADADP进行了比较，以达到预定义的准确性水平。相

下载后可阅读完整内容，剩余1页未读，立即下载