局部正则化和稀疏化提高用户级差异隐私的联邦学习模型性能

39 浏览量更新于2023-10-25 收藏 678KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10122局部正则化和稀疏化的差分私有联邦学习中国科学院自动化研究所中国科学2中国科学院大学人工智能学院chenganda2017@ia.ac.cn张曦@ gmail.com{peisong.wang，jcheng} @ nlpr.ia.ac.cn摘要用户级差异隐私（DP）为联邦学习中特定于任何用户数据的信息提供可认证的隐私保证。确保用户级DP的现有方法以严重降低准确性为代价。本文研究了在用户级DP保证的联邦学习中模型性能下降的原因。我们发现解决这个问题的关键是在执行保证DP的操作之前自然地限制局部更新的规范。为此，我们提出了两种技术，有界局部更新正则化和局部更新稀疏化，以提高模型的质量，而不牺牲隐私。我们提供了理论分析的收敛性，我们的框架，并给予严格的隐私保障。大量的实验表明，我们的框架显着提高了隐私效用权衡的最先进的联邦学习与用户级DP保证。1. 介绍联邦学习（FL）[17]是分布式机器学习的一个很有前途的范例，具有广泛的应用[5，13，15]。FL使分布式代理能够在云的编排下协作学习集中式模型，而无需共享其本地数据。通过保持数据使用本地化，FL回避了伦理和法律问题，并且与传统的集中式学习范式相比在隐私方面具有优势。然而，FL本身并不能保护代理或用户免受使用输出信息的推理攻击。广泛的推理攻击表明，从训练模型中以高置信度推断具有特定属性的人的子组[19]，识别个体[24]，甚至推断社会安全号码的完成*通讯作者。为了解决这些问题，差分隐私（DP）[6]已应用于FL，以保护任何代理（实例级DP）[11，25，26]数据集中的每个实例，或任何代理（用户级DP）的整个数据[7，12，18]。这两种不同层次的DP定义适用于不同的情况。例如，当几家银行打算通过FL训练欺诈检测模型时，实例级DP更适合保护任何银行的任何个人记录不被识别。在另一种情况下，当智能电话应用试图从用户的面部图像学习面部识别模型时确保用户级DP的现有方法[7，12，18]主要建立在高斯机制上，高斯机制是一种基于高斯噪声扰动的技术。不幸的是，直接应用高斯机制，以确保强大的用户级DP在FL显着降低所产生的模型的效用。具体来说，高斯机制-nism需要将局部更新的l2幅度裁剪到灵敏度阈值S，并添加与S到高维局部更新。这两个步骤导致大偏差（当S较小时）或大方差（当S较大时），这会减慢收敛速度并损害全局模型的性能[30]。然而，现有的方法[7，12，18]没有明确地涉及用于确保DP的操作与FL的学习过程之间的交互，这使得学习过程难以适应削波和噪声扰动操作，从而导致学习模型的效用下降。为了解决上述问题，在本文中，我们提出了两种技术，以提高模型效用FL与用户级DP保证。我们的动机是自然地减少裁剪前的局部更新的l2范数，从而使本地更新更适应裁剪操作。状态。首先，我们提出了有界局部更新正则化（BLUR）。它引入了一个正则化项的代理结果导致10123z∈DDn∈PP∈P我≃客户端i∈ P，具有ni个样本。集合D=i∈PDide-ni我wt，q−1，Di对于wt的Q步，0初始化我我我我不知1ΣDΣηlw fi我我局部更新的l2范数自然可以小于S，从而减少裁剪操作的影响。然后，我们提出了本地更新稀疏化（LUS），以进一步减少本地更新的幅度。在裁剪之前，它将一些对局部模型性能影响不大的更新值归零，从而在不损害局部模型精度的情况下降低局部更新我们的贡献可归纳如下：• 我们提出了两种技术，以提高模型的效用与用户级DP保证联邦学习。• 我们提供了理论分析的收敛专注于确保实例级DP并采用Spar-sification来降低通信成本。相反，我们的工作利用稀疏化技术，以提高用户级DP保证模型的效用。3. 初步3.1. 联邦学习（FL）联邦学习[17]是一个聚合服务器和一组代理之间的多轮协议，其中代理联合训练模型。设P表示所有剂与|P|=N，并且Di表示我们的框架，并提供严格的隐私保障。• 大量的实验验证了所提出的方法的有效性和优势。2. 相关工作联邦学习中的用户级差异隐私概念由[18]引入。他们提出了DP-FedAvg来训练模型，以便在更短的时间内预测下一个单词注意完整的训练集。设fi（w，z）表示损失函数，并且fi（w，i）=fi（w，z）表示模型w和数据集i上的经验损失。在不引起歧义的情况下，我们还在下面将局部损失函数表示为fi（w）。在FL中，智能体试图联合训练一个模型，使局部损失函数的加权平均值最小化：min{f（w，D）=nif（w，D）}（1）同时采用高斯机制保证用户级DP保证，w∈Rdni ii∈P保证通过时刻会计师.以下工作[12，27]通过离散化数据并在执行安全聚合之前添加离散高斯噪声来确保用户级DP。他们还提供了一个新的隐私分析的总和离散高斯。上述两种方法都是通过基于噪声扰动的方法来保证用户级DP，这需要裁剪模型更新或数据的范数并添加其中n=in i是所有代理的总数据集大小。到为了解决这个优化任务，广泛使用的FedAvg协议在通信轮t中执行以下两个步骤：• 本地更新。服务器对一组代理t进行采样。每个代理it从服务器下载全局模型wt-1噪声到裁剪的向量。然而，剪报和在本地数据集上执行wt，q←wt，q−1−.Σii提到的方法，最近的研究[30]提出了AE-DPFL，其通过具有安全聚合的基于投票的机制来确保用户级DP。AE-DPLF不需要裁剪模型或数据，从而缓解了精度下降问题。然而，AE-DPFL框架假设，在实际应用中很难满足的服务器端t-1。最后，每个代理上传模型更新t= wt，Q− wt，0到服务器。• 模型聚合。服务器接收模型更新{\f25|i∈Pt}，并通过wt←wt−1+将它们聚合以更新全局模型ηgi∈PtnPt我选项。我们的工作遵循噪声扰动方法的范例，但我们的目标是通过自然地约束局部更新规范来改进训练过程与我们的论文相关的其他作品是那些雇用-正则化或稀疏化技术在FL。以前的工作[22]和[2]也将正则化项引入每个设备的目标函数。然而，他们的目标是应用正则化技术来解决FL中的数据/设备分布异质性问题，这与我们限制局部更新敏感性的目标不同。另一系列的作品 [3 ， 11] 也在隐私保护 FL 中应用了sparsification技术两人3.2. 差分隐私（DP）差分隐私[6]是一种形式的隐私概念，它提供了针对私有集合中个人身份识别的可证明保证。我们记为DD′作为一对这意味着D′可以通过仅改变一个记录从D定义1差异隐私。一个随机算法M满足（δ，δ）-差分隐私性，如果对于任意相邻数据集D，对于任意输出子集D ∈ D ′SRange（M），则Pr[M（D）∈S] ≤e <$Pr [M（D′）∈ S]+ δ.噪声扰动步骤不可避免地干扰所得到的模型的性能。与以前不同的是-来自全局分布的未标记数据可用于10124M∈Σg1：w←−Downloadw;BDi我Σ∥∆∥2我我我不∥∥ −我我我不.˜不我我我这个定义表明，人们不能通过观察的输出来区分D和D′，从而保护D中的个体不被识别。实现（δ，δ）-DP的一种简单方法是取一个向量值决定函数F并注入适当的高斯噪声，其尺度取决于F的灵敏度。定义2（12灵敏度）。设F是一个函数，F的L2-灵敏度定义为S=maxD<$D′<$F（D）-F（D′）2，其中最大化在所有对上进行算法1DP-FedAvg输入：代理采样概率p（0，1]，限幅阈值S，噪声尺度σ。输出：训练模型wT服务器一曰：初始化全局模型w% 02：对于t= 1至T，do3： Pt←概率为p的样本代理人;4：对于i∈Pt，相邻的数据集。t.Σ5：i=LocalUpdatewt−1，i;设F是一个函数，δ∈（0，1）且δ>0. F或C>2 ln（1. 25/δ），高斯机制F（D）+6：结束7： wt←wt−1+η1|P t|i∈Pti;N（0，σ2I）和参数σ ≥ c S/ε确保（ε，δ）-DP。3.3. 联邦学习的差分隐私在FL中，DP可以被定义为实例级DP和用户级DP，这取决于如何定义相邻数据集。我们的工作重点是后者。9：返回wTLocalUpdatet，0t1我2：对于q= 1到Q，3：样品批次;4：wt，q←wt，q−1−ηl1<$wfi.wt，q−1，x，y<$;定义3用户级DP。当D′ 构造我我第五章：端t，Qt，0|B|（x，y）∈Bi添加或删除一个代理及其所有数据记录。6：t=wi-我我DP-FedAvg [18]是第一个通过应用高斯机制来保证FL中的用户级DP的为了确保用户级DP，在将本地更新上传到服务器之前，DP-FedAvg将每个代理模型更新的范数限制为阈值。7：i=i/max 1，S;8：re tntt+N（0，S2σ2Id/|Pt|）不老我S并将缩放的高斯噪声添加到上界-我是阿吉在EQ的右侧。 2、第一、第二学期重-通过裁剪和添加高斯来反射引入的偏差日期，如Alg. 1. 虽然DP-FedAvg可以确保用户级DP，它严重损害了所产生的模型的实用性。在这项工作中，我们的目标是开发一个联邦学习框架，对模型效用几乎没有负面影响，同时确保用户级DP。4. 方法我们首先分析了本地更新中裁剪和添加噪声操作我们把它记为sian噪声。为了最小化偏差，我们可以通过两种方式减小不等式的右侧：• 确保对于每个i和t，均不大于S;• 使用较小的限幅阈值S。第一种方式表明我们应该以某种方式限制局部更新的l2范数，使其小于S。直观地说，如果剪切操作很大，例如剪切操作S，则剪切操作-在交流时提供这可能导致包含的许多更新信息在t t之前从代理i裁剪，将裁剪后的本地更新表示为本地更新不在《古兰经》中，他被降下来，使结果的《古兰经》更少在添加噪声之前，并且将R2i表示为在添加噪声之后的局部更新。削波和添加噪声。设d表示的维数则估计的期望均方误差可按如下方式计算E1t−t<$2≤1。Et−t<$2+t−t<$2S来限制高斯噪声的影响。直观地说，这是因为增加高斯噪声的方差是成比例的S2.使用较小的S可以直接减小添加噪声的扰动影响然而，当我们也考虑第一种方式时，我们可以发现很难重新-只减小S而不考虑迪伊i-2d“i i”2“ii¨2别说了。因为对于大于S的相同的最小值，1= maxD.0，t−S2+我8：结束tive. 第二种方法表明，我们可以使用更小的;10125我σ2S2|P t|（二）只有减少S才能增加S，裁剪操作的负面影响这表明解决问题的关键是自然地减少在每一轮沟通中，本地更新的规范Eq. 2.在《阿...钟摆当量 2表明，基于上述观察，我们提出了两种技术-niques，以提高效用联邦学习与用户-10126ηQ−1.Σ{1}2我我我∥ − ∥ ≤∥∥ ≫←.贝加尔夫W. Eq中的结果6可以很容易地获得由我w0γi=minfi（w）（3）w−w= −ηl<$γg我否则w−w= −ηlg˜值作为DP级保证，称为有界局部更新规则化和局部更新稀疏化。我们的动机引理2假设在通信回合t，代理i上的局部模型通过重复等式2来更新。7个，λ<1L是通过正则化局部更新模型并使局部更新稀疏。4.1. 有界局部更新正则化（BLUR）在vanilla FedAvg中，每个代理通过以下方式训练本地模型：对于Q迭代。然后我们有最后的本地更新t，Qtt，q t，q我我我q=0（八）优化目标函数哪里t，q. （1 − λη l）q，如果n =wt，q−wtn>S1、w∈Rd其不对权重更新施加任何约束引理2表明，BLUR向局部学习率引入了自适应折扣因子γt，q在当地步骤然而，当我们将高斯机制应用于en-q i时，如果确定用户级DP，则权重更新的l2范数必须是如果当前更新的范数大于S，则这一步的学习率将被（1-λ nl）q以保证权值更新的灵敏度小于阈值S。为此，权值更新的l2范数应作为局部优化的约束条件。令wt表示通信轮t处的局部初始权重。那么局部优化应该是配制为最小f i（w）s.t. WWTS（4）w∈Rd上述公式可以通过将约束转换为正则化项（BLUR）来转换为无约束优化，如下所示：λminhi（w） fi（w）+ Rt（w）w∈Rd其中，Rt（w）=max0，w−wt2−S2（5）直接优化方程3可能导致腹泻S，在这种情况下，将裁剪操作应用于训练过程可能导致训练过程中的大部分信息被丢弃，从而阻碍局部训练过程的收敛。与此相反，通过优化Eq.5更适合于裁剪操作，因为等式5中的正则化项5有效地将L2的灵敏度限制为小于限幅阈值S。BLUR的效果也可以解释为通过考虑模型更新范数和学习步长对局部学习率的自适应调整。在不使用BLUR的情况下，本地更新可以表示为Q−1以限制此更新步骤的影响。相反，如果当前更新的范数小于S，则该步骤的效果将不受限制。更具体地说，训练过程被强制到位于范数受限空间中的局部最优我们注意到，在以前的工作FedProx [22]中应用了类似的正则化项。然而，FedProx和我们的BLUR之间的一个重要区别是，我们的目标是采用正则化方法将局部更新的灵敏度限制在S范围内，而FedProx采用正则化方法来解决联邦学习中的统计异质性问题。因此，在我们的BLUR中考虑了裁剪阈值S的影响，而FedProx在正则化项中不涉及阈值。4.2. 局部更新稀疏化（LUS）稀疏化是一种广泛使用的技术，用于提高分布式训练中的通信效率[16，23，28]或降低DNN的模型复杂度[8，14]。受前人工作的启发，我们希望通过消除一些参数更新来进一步降低局部更新的范数，这些参数更新可以在对模型性能影响较小的情况下被移除。假设在局部更新过程中，初始模型权重为w0。局部训练后的模型权重为w，相应的更新为ww。在这里，我们表示整个模型权重向量为w，表示特定的参数。t，Qtt，q我我q=0（六）模型中的参数为w。我们可以通过设置w w0来将特定参数w的更新置零为0，对应的模型权重w和模型更新权重w。通过其中Bq表示局部ba。数据a的 tch不属于局部步长q我|BQ|（x，y）∈Bq我我我应用τf（w）的泰勒级数，我们可以得到这种损失且gt，q=1<$$>fwt，q−1，x，y，其中E<$gt，q<$=it，q我展开DP-FedAvg的更新步骤（LocalUp的行-日期在Alg。1）。在应用BLUR时，通过优化Eq. 5. 作为i（w）f i（w）=f i（w）−（w −w）+o忽略高阶项，我们有. w2（九）wt，q←w t，q−1−η1好吧wt，q−1，x，y<$（7）我我i10127.（w）|=（w|=(w-w）。（十）我我|（x，y）∈B|(x,y)∈B一.0.101281：w←−Downloadw;B D我我L M D DM D....ΣM MM−∈{|}0，否则小于通过调整s，我们可以控制我我我1，2M其中，λ表示阿达玛积。稀疏化后−一 .i tM≤˜算法2使用BLUR和LUS进行输入：当前全局模型wt-1，限幅阈值S，噪声尺度σ，正则化因子λ，保留更新值s的数量输出：本地更新t，0t1我2：对于q= 1到Q，3：样品批次i;4：使用等式更新局部模型wt，q 7;第五章：端6：Qwt=wt，Qwt，0;7：根据等式（ 1 ）计算掩码矩阵M（t，s）12个;8：t←M（t，s）t;9：t=t/max;5.1. 隐私分析在本节中，我们给出了正式的隐私保证。与DP-FedAvg方法一样，我们的方法将高斯机制应用于每个代理在每一轮通信中，如果对两种方法应用相同的噪声尺度，则我们的方法的隐私保证等于DP-FedAvg的隐私保证对于隐私成本累积，可以利用合成定理来合成每轮的隐私成本。在本文中，我们利用矩计算器[1，20]获得了比以前的强合成定理[6]更严格的隐私界。具体地，时刻会计跟踪隐私损失随机变量的界限。给定一个随机机制，输出塞里岛我o∈ Range（M）定义为：（o;M，D，D′，aux）10：返回值+N（0，S2σ2/|Pt|）日志Pr[M（D，aux）=o]Pr[M（D′，aux）=o].然后，的隐私损失随机′我们将将消除净利润的效用成本定义为：变量（o; ，，aux）是定义通过评估，ing 的隐私损失在的结果抽取.在我们框架，的辅助信息. fi（w）。 . fi（w）。0−（）下一页第t轮的tion是当前全局权重wt−1。T（ W;W）w=（www）（十一）的时刻会计师是定义为αM（λ）较大的T（Δw;w）表示将Δw归零将导致W的公用事业成本很高，因此，∆w.相反，对模型性能影响不大的更新将被清零。假设有模型中的J层。设wj∈Rdj表示权maxD，D′，auxlogE[exp（λL（M，D，D′，aux））].协议-根据矩的尾界，M是（α，δ）-DP，δ= minλexp（αM（λ）λε）.然后，对于自适应机制1：K=1，. . .，K，根据时刻会计的可组合性，K在第j层中，设Ts（n_w_j）表示集合的第s个最大值， T（n; w）wwj. 进行本地更新在模型w稀疏的情况下，我们定义了一个掩码函数来生成0-1掩码矩阵，用于在模型w的第j层中更新模型w为Mj（m; w，sj）m。 1，如果T（ωw;w）≥Ts（ωwj）（十二）其中，Mj（w;w，s） Rdj是层更新的掩码矩阵。令M（m，s）表示用于1：K可以通过αM1：K（λ）k=1αMk（λ）来计算。基于[1]中的定理1，我们得到如下定理对于FedAvg的隐私成本累积，我们的方法Alg。2作为本地更新方法。定理1（隐私保证）。令P表示通信回合中的参与客户端存在常数c1和c2，因此，给定通信数量，阳离子轮T，对于任何一个1q2 T，使用Alg的FedAvg2作为局部更新方法，对于任何P模型更新的模型，这是通过应用方程。每层12个。然后，稀疏化过程可以被执行，δ>0，若取σ≥c2Tlog（1/δ）联系我们被问及w（十三）5.2. 收敛性分析在本小节中，我们给出了一般损失函数的方法我们的分析是基于对于每个层更新，保留来自具有最大T（w; w）值的更新值，而将其它更新值清零。因此，我们将始终如一地局部更新的稀疏性，从而调整范数缩减，以提高上传的模型更新的效用。5. 理论成果在本节中，我们给出了形式化的隐私保证和严格的收敛性分析我们的FL框架。.10129基于以下假设：假设1（L-Lipschitz连续梯度）。存在一个常数L>0，使得f∈i（x）− f∈i（y）≤L<$x−y<$，f ∈x，y∈Rd，i∈ P.假设2（无偏局部梯度估计器）。对于来自Di的任何数据样本z，局部梯度估计是无偏的，e。例如，在一个实施例中， E[fi（w，z）]=E[fi（w）]，w∈Rd且i∈P.10130ΣΣ∈ ∈PG--Σ1L≥ΣΣΣ Σ12≥¨¨∇N--−我我L≤Oη η QT+ηIQ+Oα ：=N训练样本和10K测试样本超过10个类。βt=≤O+ η2Q2+GPL+OδN2-N 2Σ.Σ我假设3（有界方差）。存在两个常数σ l>0和σ g>0，使得对于任何wRd和i，每个局部梯度估计量的方差由Ef（w，z）−f（w）2≤σ2限定，对于任何数据样本z6. 实验设置在本节中，我们进行实验来说明DP-FedAvg与BLUR和LUS相比的优势。具有用户级DP保证的FL的先前技术从Di，和全局方差的局部梯度的代价函数的界为<$f i（w）− <$f（w）<$2≤σ2。假设4（有界梯度）。损失函数fi（w;z）具有G有界梯度，即，对于任意w∈Rd，i ∈ P，以及来自D i 的任意数据样本z，我们有n ∈ f i（w;z）n ≤ G.基于上述假设，我们得到以下收敛结果：定理2（我们协议的收敛性）。在假设1-4下，由Alg.1、Alg 2作为局部更新方法满足：基线。我们的方法旨在提高DP-FedAvg的性能[18]。因此，我们选择DP- FedAvg作为我们的基线。DP-FedAvg通过直接采用高斯机制对本地更新进行更新，确保了用户级的DP保证。为了与SOTA方法进行比较，我们还将我们的方法与以前的作品DDGauss[12]和AE-DPFL[30]进行了比较。DDGauss通过在执行安全聚合之前对数据进行离散化并添加离散高斯噪声来确保用户级DP。AE-DPFL通过具有安全聚合的私有投票机制确保用户级DP。不不 t=1Ef.wtΣ¨2Σ数据集和模型。我们在两个数据集上进行评估：EM-.12 2G Lη g η lη。η gσ2S2d ΣPη QP2NIST和CIFAR-10。EMNIST是一个图像数据集，超过62个类别的手写数字/字母，“FromFedAvgDxP的xF`romopera计算3400个客户的作家。它主要涉及用户-具有自然客户端异构性和非iid数据的其中t1ΣN。q=0我我不Q−1t，qt，qSwith分布 CIFAR-10也是50 K<$Mt<$$>Q−1γt，qgt，q<$。ηlβiq=0γiGi ∥对于CIFAR-10数据集，我们遵循先前的工作[10，31]，iQ−1γt，qgt，q<$定理2的界限包含从标准FedAvg继承的第一项与DP-FedAvg的收敛速度相比，我们的方法在第二项中实现了关于P的二次加速收敛，而DP-FedAvg的收敛速度是线性加速[29]。为了分析我们的框架的隐私/效用权衡，我们可以用定理1中的σ替换定理2中的σ。为了分析隐私参数的影响，令S=ηl Qc其中c G和σ2被取代。我们可以得到以下关于隐私/效用权衡的结果。推论1（具有隐私保证的收敛）。在假设1-4下，对于如定理1中的任何限幅阈值S η1， QG和σ，对于满足定理1中的约束的任何（δ，δ），我们有不Eαtfwt不t=1.1η gη l QTd ln. 1 Σηg ηlQTL使用Dirichlet分布对非iid数据分布进行建模，其中，较小的α表示较高的数据het。性，因为它使局部分布更有偏见。对于这两个数据集，我们对两个具有不同参数数量的模型进行了实验：来自[21]和ResNet-18 [9]的CNN-2-Layers 模型大小约为1。0 M用于CNN-2层模型，11.1M用于ResNet-18。配置. 对于EMNIST和CIFAR-10，我们分别将轮数T设置为1000和300，默认代理选择概率p为0。04和0。06，小批量大小为64和50，局部LRηl为0.03和0.1对于所有实验，局部迭代次数Q= 30，服务器LRηg=1。隐私参数δ=1。对于一个特定的阈值，用于vanillaDP-FedAvg的裁剪阈值S由从0开始的网格搜索决定。01003，0。1，0。三一0的情况。我们发现S = 0。03，S = 0。3个在EMNIST上表现最好，CIFAR-10，分别。BLUR的超参数是正则化参数λ。LUS的超参数是保留更新的数量s。而不是使用s，我们定义并调整稀疏度c= 1s/d。更大的c表示更多的更新值被清零。当我们-“FromFedAvgDP的x`F操作系统配置X+i=1分钟1、q=0我我10131Σ--O.使用BLUR和/或LUS，超参数λ和c是--而从上界可以得到的最佳速率是√通过网格搜索从 0的情况。05，0。1，0。2，0。四，零。8和分别表示。默认的λ和c~d联系我们通过优化ηl，ηg，Q，T.0的情况。1，0。3，0。5，0。七比零。9设为λ = 0。4，c = 0。7 .第一次会议。10132∼∼∼∼模型设置DP-FedAvg AE-DPFL DDGauss Ours= 2。069。65± 0。7471. 16± 0。四七六九。35± 0。6174. 48± 0。52CNN-2层ResNet-18= 4。07232± 0。8174. 63± 0。5972 16± 0。7675. 85±0。61= 6。07412± 0。75 76. 25± 0。4274. 34± 0。7077. 48±0。54= 8。07536± 0。6477. 41± 0。33 75. 20± 0。68 78. 09± 0.46= 2。07352± 0。5376. 37± 0。4173. 16± 0。58 78. 58±0。39= 4。07551± 0。6079. 22± 0。四六七十五。65± 0。六四八十29± 0。47= 6。07719± 0。5580 24± 0。3777. 64± 0。6181. 55± 0。46= 8。07806± 0. 49 81. 33± 0。四六七八03± 0. 5282. 12±0。52表1.EMNIST数据集上不同隐私预算下的性能比较更小的数字表示更强的隐私保证。模型设置DP-FedAvg AE-DPFL DDGauss Oursα= 0。153 84±1。04 55. 79±0。86 53. 55±1。1258 95±0。95CNN-2层ResNet-18α=158。67± 0。8560. 00± 0。五十七五十八。28± 0。9663。74± 0。70α= 10 62。25±0。7163. 93±0。45 62. 43±0。7765。34±0。52α= 100 63.73±0。六四六四51±0。32 63. 80±0。6966. 05±0. 45α= 0。15973± 0。96 63。11± 0。6559 37± 1。0464. 50±0。88α= 163。49±0。8165 80±0。5163. 84±0。8967. 27±0。62α= 10 65。64±0。69 67. 62±0。四二六五。85±0。七二六八。96±0。54α= 100 66.58±0。60 68. 39±0。35 66. 74±0。六三六九。42±0。47表2.CIFAR-10数据集上不同数据设置的性能比较较小的α表示较高的数据异质性。7. 实验结果不同隐私预算下的性能。表1显示了EMNIST上不同级别隐私保证的测试精度。我们的方法始终优于以前的SOTA方法，在不同的隐私预算的私人FL。具体而言，使用BLUR和LUS可以将DP-FedAvg的准确性提高3%百分之四CNN-2-Layers和ResNet-18分别为4%和5%。与SOTA方法相比，我们的方法有明显的改进。例如，在ResNet-18上，我们的方法为DDGauss提供了4% 5%的增益，为AE-DPFL提供了1% 2%的增益。我们还观察到，较大模型（ResNet-18）的改进相对大于较小模型（CNN），这是一个有利的优势，因为我们倾向于使用大型模型来实现更好的性能。此外，对于较小的孔径，改善相对大于一致加快收敛速度，提高DP-FedAvg的测试精度。0.80.60.40.20.00 200 400 600 800 1000第T图1.不同λ的BLUR的有效性。香草DP- FedAvg由λ= 0表示。使用BLUR可以不断加快收敛速度，提高测试精度。方法稀疏准确度（%）增益（%）更大的例如，相对于DP的准确性改进-FedAvg是4。83%的情况下，λ= 2和2。在CNN- 2-Layers模型上，对于λ= 8，为73%。这也是我们的方法的优点，因为我们倾向于使用较小的带宽来确保更强的DP保证。BLUR的有效性我们进行实验验证BLUR的有效性。实验在EMNIST上进行，使用ResNet-18。私人预算为100= 6。0的情况。为了验证BLUR的有效性，我们研究了DP-FedAvg +=0=0.05=0.1=0.2=0.4=0.8测试精度DP-FedAvg0.0七十六。24+0。000的情况。1七十六。52+0。28DP-FedAvg0. 3七十七。28+1。04+LUS0. 5七十七。75+1。510的情况。7七十七。54+1。300的情况。9七十七。39+1。1578岁28+2。0410133--DP-FedAvg+ BLUR0的情况。10的情况。3BLUR与各种正则化超参数λ从0，0。05，0。1，0。2，0。四，零。6，0。8，其中λ= 0表示普通DP-FedAvg。如图2所示，使用BLUR表3.不同稀疏度LUS的有效性。使用LUS一致地提高了准确性，并与BLUR协同10134FedAvgDP-FedAvgOurs测试准确度（%）∼--80 8075 7570 7065 6525050025060 6050055 557507505010 20 3040500.020.040.060.08零点一0.10.20.30.40.50.60.70.050.100.150.20零点二五本地更新步骤采样概率图2.DP-FedAvg（左）和我们的（右）每轮局部更新规范（裁剪前）的分布y轴和x轴分别表示通信轮数和局部更新范数图3.本地更新步骤对CIFAR-10的影响图4.活性剂数量对CIFAR-10的影响。LUS的有效性为了验证LUS的有效性，我们在DP-FedAvg + LUS和DP-FedAvg + BLUR + LUS上进行了实验，其中稀疏度c从0，0。1，0。3，0。5，0。七比零。9，其中稀疏度=0表示不使用LUS。从表3中，我们观察到，当单独为DP-FedAvg配备LUR时，DP-FedAvg的性能提高了约0。58% 1. 百分之五十一与DP-FedAvg + BLUR相比，DP-FedAvg + BLUR + LUS的性能最多提高了2。说明LUS与BLUR协同作用可以提高其防效，证明LUS与BLUR具有协同作用。限制当地更新规范的影响。为了验证我们的方法对限制局部更新范数的影响，我们在图2中显示了每个通信回合中裁剪之前局部更新范数的分布对于DP-FedAvg和我们的方法，裁剪界限都设置为0.1与DP-FedAvg相反，裁剪操作在我们的框架中扭曲的信息较少，这可以通过局部更新的范数和裁剪阈值的小得多的差异来证明，在大多数情况下，裁剪阈值小于0.1。此外，在我们的方法中使用的本地更新ex-waters少得多的方差相比，DP-FedAvg。这与我们的动机一致，即通过在裁剪之前自然地减少局部更新的范数来使局部更新更适应裁剪。数据异构性的影响。我们通过改变表2中Dirichlet分布的α来探索不同的数据异质性。我们观察到，我们的方法始终优于其他基线不同的数据异质性。此外，当数据异构性较高时，使用BLUR和LUS可以导致更多的准确性增益例如，精度增益为5。α= 0时为11%。1和2。在CNN-2层上，α= 100时为32%。其原因可能是，当数据异质性较高时，局部数据分布更偏向于全局分布，导致局部更新的范数较大因此，裁剪的局部更新更偏向于原始局部更新。使用BLUR和LUS可以通过限制局部更新的范数来减轻这一点。通信频率的影响。我们在CIFAR-10上探索了不同的局部更新步骤Q，使得较大的Q意味着在全局通信之前的较长的通信延迟。图3中的结果表明，我们的方法对不同级别的通信延迟是鲁棒的，而当Q较大时，例如Q=40，DP-FedAvg会导致性能下降。这是因为更新局部模型的步骤越多，更新后的局部模型离全局模型越远，导致局部更新的范数越大。相反，我们的方法可以有效地限制局部更新的范数，从而减少裁剪造成的精度下降。活性剂的影响。我们探索不同的代理抽样概率pCIFAR-10。使用较大的p意味着更多的代理参与每轮通信，但根据定理1，也需要更多的噪声注入到局部更新。图4中的结果表明，为DP-FedAvg配备BLUR和LUS使其对不同级别的代理采样率更加鲁棒。8. 结论本文研究了DP反馈学习中模型效用退化的原因，发现关键是在裁剪之前自然地约束局部更新范数。然后，我们提出了局部正则化和稀疏化的方法来解决这个问题。我们提供了理论分析的收敛性和隐私的框架。实验表明，我们的框架显着提高了模型效用SOTA联邦学习DP保证。致谢本工作得到了国家重点研究发展计划（No.2020AAA0103402）、中国科学院战略重点研究计划（No.2020AAA0103402）、中国科学院国家重点研究发展计划（No.2020AAA0103402）和中国科学院国家重点研究发展计划（No.2020AA0103402）的部分支持。XDA27040300和No.XDB32050200）、国家自然科学基金项目（No.62106267）。FedAvgDP-FedAvgOurs测试准确度（%）10135引用[1] Mart 'ın Abadi ， Andy Chu ， I. Goodfellow ， H. B.McMahan，Ilya Mironov，Kunal Talwar，and L.张某具有差异隐私的深度学习。2016年ACM SIGSAC计算机和通信安全会议论文集，2016年。[2] D. A. Acar，Yue Zhao，Ramon Matas Navarro，MatthewMattina，P. Whatmough，and Venkatesh Saligrama.基于动态正则化的联邦学习。ICLR，2021年。[3] Naman Agarwal，A. T. Suresh，F. Yu，Sanjiv Kumar，H. B.麦克马汉cpsgd：通信高效且差异私有的分布式sgd。NeurIPS，2018。[4] 尼古拉斯·卡利尼，刘畅，U'。Erlingsson，JernejK os，D.歌秘密分享者：评估和测试神经网络中的无意记忆。在USENIX安全研讨会，2019年。[5] Jiahua Dong ， Lixu Wang ， Zhen Fang ， Gan Sun ，Shichao Xu，Xiao Wang，and Qi Zhu. 联邦类增量学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2022年6月。[6] C. Dwork和Aaron Roth 算法基础差异隐私。趋势理论Comput. Sci. ，9：211[7] Robin Geyer，T. Klein和Moin Nabi。差异私有联合学习：客户端层面的视角。ArXiv，abs/1712.07557，2017年。[8] Song Han，Huizi Mao，and W. Dally深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv：计算机视觉和模式识别，2016。[9] 何开明、X. Zhang，Shaoqing Ren，and Jian Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[10] Tzu-Ming Harry Hsu，Hang Qi，and Matthew Brown.测量不相同数据分布对联邦视觉分类的影响arXiv预印本arXiv：1909.06335，2019。[11] 胡瑞，龚艳敏，郭远雄具有稀疏化增强隐私和自适应优化的联邦在IJCAI，2021年。[12] P. Kairouz，Ziyu Liu，and T.斯坦克分布式离散高斯联邦学习机制与安全聚合。 ArXiv ， abs/2102.06387 ，2021。[13] P. 凯鲁兹湾B. 麦克马汉湾一个人，奥雷·利恩·贝莱，M。Bennis，A.放大图片作者：John W.放大图片作者：Charles，Graham Cormode，Rachel Cummings，RafaelG. L. D'Oliveira，S.放大图片作者：Josh Gardner，A. 放大图片作者：BadihGhazi，PhillipB. Gib-bons，M.格鲁泰泽 Harchaoui ， Chaoyang He ， Lie He ， ZhouyuanHuo，Ben Hutchinson，Justin Hsu，Martin Jaggi，T. 作者：J. A.作者：Khodak，JakubK onecny'，Aleksan-draK orolov a ， F.Koushanf ar ， O.Koye jo ， Tancre` deLepoint，Yang Liu，Prateek Mittal，M.莫赫里河Nock，A.厄兹格乌尔河放大图片

下载后可阅读完整内容，剩余1页未读，立即下载