联邦学习中基于模型聚合的差分隐私和拜占庭鲁棒性的桥接

96 浏览量更新于2024-02-04 收藏 1002KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于模型聚合的差分隐私和拜占庭鲁棒性的桥接衡珠1，2，庆龄11中山大学2加州大学圣地亚哥分校hez007@ucsd.edu，lingqing556@mail.sysu.edu.cn摘要本文旨在联合解决联邦学习中两个相互冲突的问题：隐私性（ DP ）和拜占庭鲁棒性（Byzantine-robustness），当分布式数据是非独立的时，这两个问题尤其具有挑战性。（独立且分布相同标准DP机制在传输的消息中加入噪声，并与鲁棒的随机梯度聚合纠缠以抵御拜占庭攻击。在本文中，我们通过鲁棒随机模型聚集来分解这两个问题，在这个意义上，我们提出的DP机制和防御拜占庭攻击对学习性能的影响是分开的。利用鲁棒随机模型聚合，在每次迭代中，每个工作者计算本地模型和全局模型之间的差异，然后将元素符号发送到主节点，这使得能够对拜占庭攻击具有鲁棒性。此外，我们设计了两个DP机制来干扰上传的签名的隐私保护的目的，并证明他们是（N，0）-DP利用噪声分布的性质。利用Moreau包络和邻近点投影证明了当代价函数为非凸时算法的收敛性。我们分析了隐私保护和学习性能之间的权衡，并表明我们提出的DP机制的影响是解耦的鲁棒随机模型聚合。数值实验验证了该算法的有效性介绍随着分布式智能设备的快速发展，联邦学习引起了工业界和学术界的广泛关注。在联邦学习算法的每次迭代中，主节点聚合从工作者（即，分布式智能设备）发送的本地信息以更新全局模型。每个工作者的本地数据被保持私有，并且不需要与其他工作者或主节点共享[Koneccny'etal. ，2016;Kairouz和McMahan，2021年]。在传输随机梯度或模型参数等局部信息的过程中，存在着数据隐私、对恶意攻击的鲁棒性和通信效率等问题。在本文中，我们特别感兴趣的隐私和鲁棒性问题。简而言之，隐私和健壮性是处理两种不同的威胁。私有性涉及来自好奇但诚实的主节点的威胁，该主节点潜在地期望从本地信息的传输中恢复私有本地鲁棒性涉及来自不诚实和敌对的工作人员的威胁，这些工作人员的目的是使学习过程产生偏差。在隐私保护数据分析中，差分隐私（DP）[Dwork和Roth，2014]是一个黄金标准，具有广泛的应用。在流行的参数服务器架构和分布式随机梯度下降（SGD）算法中，向所传输的随机梯度添加高斯噪声是实现DP的常见方法[Songet al. ，2013; Abadiet al. ，2016; Wei等人，2020]。隐私保证的水平由所添加的噪声的方差来调整。对于对抗行为，我们考虑拜占庭攻击模型来表征一些工作者可能发送错误消息以使主节点处的聚合偏向[Lamportet al. ，1982; Chenet al. ，2017; Mhamdiet al. ，2018; Kairouz and McMahan，2021]. Byzantine攻击是破坏性的分布式SGD算法，其中主节点使用平均聚集的局部随机梯度。一种常见的补救措施是用其他稳健的聚合规则（如几何中位数、中位数、修剪均值等）代替均值聚合[Chenet al. ，2017; Blanchardet al. ，2017; Yinetal. ，2018; Wuet al. ，2020; Karimireddy等人，2020]。然而，来自规则工作者的随机梯度噪声将削弱防御拜占庭攻击的能力，因为较大的随机梯度方差将使恶意消息的消除更加困难[Wuet al. ，2020; Khanduriet al. ，2019;Karimireddyet al. ，2020]。因此，DP机制的附加噪声会损害鲁棒随机梯度聚合的性能，导致隐私保护和防御拜占庭攻击之间的冲突例如，添加的高斯噪声可以使常规随机gra-与来自Byzantine工作者的恶意消息不可区分。[Guerraouiet al. ，2021 b]arXiv：2205.00107v1 [cs.LG] 2022年4月+v：mala2277获取更多论文BR∼一B一B1∈正式分析了现有的强大的随机梯度聚集规则和DP机制的不兼容性，[Guerraouiet al. ，2021 a]进一步示出了鲁棒随机梯度聚集和DP机制对学习性能的倍增影响。在本文中，我们通过模型聚合而不是共同的梯度聚合来解决这两个问题本文提出了一种差分私有鲁棒随机模型聚合（DP-RSA）算法，用于联合解决联邦学习中的私有性和鲁棒性问题。数据在每一个它-运算时，每个工作线程计算本地模型和全局模型之间的差异，然后将问题公式化考虑一个具有一个主节点和K个工作节点的分布式联邦学习系统。在这些工作者中，r个是正则的并构成一个集合，而其余b个是拜占庭的并构成一个集合，其中K=r+b。请注意，主节点不知道常规工作者和拜占庭工作者的数量和身份。拜占庭工人被认为是无所不知的，可以相互勾结，向主节点发送任意恶意消息感兴趣的问题是找到一个可接受的解决方案的非凸分布学习问题Σ主节点的逐元素签名，这使得能够通过非i.i.d.数据自适应RO-minx∈Rdk∈RE[fk（x∈，k）]+f0（x∈），（1）针对随机模型聚合，我们设计了两种DP 机制 Sign-Flipping和Sign-Gaussian，对加载的符号进行扰动以达到隐私保护的目的。通过理论分析，我们展示了隐私保护和学习性能之间的权衡，并指出我们提出的DP机制和鲁棒的随机模型聚集的分离的，加性的影响。DP-RSA除了具有较好的隐私保护和拜占庭鲁棒性外，还具有良好的通信效率，因为工作者只向主节点发送签名。证明DP-RSA的隐私保护和拜占庭鲁棒性为了证明所提出的DP机制满足（λ，0）-DP，我们必须研究添加的噪声对符号的影响。特别是，对于符号高斯机制，分析添加的高斯噪声对符号的影响是困难的，并且我们通过ex-Gaussian方法来解决它利用高斯分布函数（CDF），我在这里Rd是优化的模型，fk（x_k，k_k）是工作节点k处相对于随机可变k的非凸局部代价函数，并且f_0（x_k）是主节点处的全局代价函数。在这项工作中，我们考虑一个非i.i.d.对分布式数据进行设置。也就是说，随机变量是kDk，其中Dk表示工作者k处的数据分布，并且它们在不同的工作者处可以彼此不同。注意，非i.i.d.数据分布是联邦学习中常见的问题，给拜占庭鲁棒算法的设计带来了巨大的挑战。差分隐私（DP）差分隐私（DP）的定义如下。定义1.一个随机化算法M是（δ，δ）-DP，如果对于所有的I，I是一对相邻的输入<$I − I <$≤ 1西安分布为了证明DP-RSA的收敛性，我们必须处理非凸和非光滑的代价函数，对于这些代价函数，通常的收敛性度量是不适用的。我们利用Moreau包络和近点投影[Davis和Drusvyatskiy，2019]来建立弱凸性假设下的收敛性。我们的贡献概述如下。• 提出了一种用于分布式非独立同分布环境下的差分私有鲁棒随机模型聚合（DP-RSA）算法。数据，同时满足隐私保护、拜占庭鲁棒性和通信效率的要求。• 我们设计了两个DP机制，符号翻转和符号高斯，扰动的目的是隐私保护的上传的迹象。我们严格证明了这两种机制都满足（ε，0）-DP。这些证明可以推广到其他涉及符号的DP机制。• 我们证明了DP-RSA的收敛性，并指出DP机制和鲁棒随机模型聚集对学习性能的附加影响对于非凸、非光滑的代价函数，我们利用Moreau包络和邻近点投影来证明收敛性。收敛性分析是新的鲁棒非凸分布式学习的背景对于所有可能的输出集合O，它成立Pr[M（Ia）∈O]≤e <$Pr[M（Ib）∈O]+δ.（二）这里，（δ，δ）表示用于保证DP的隐私预算。隐私损失δ控制算法的隐私性和效用之间的权衡，δ是E-DP可能失败的概率在联邦学习系统中，在每次迭代中，工作者将其本地消息发送给主节点一次。因此，应该使用本地随机数发生器来扰乱从每个工作者发送的本地在分布式学习的背景下，我们分析了每轮通信的隐私芽-get（λ，δ）以确保隐私，这也是例如[Agarwalet al. ，2018; Jinet al. ， 2020; Guerraouiet al. ， 2021b] 。事实上，利用高级合成定理也是可行的[Dwork and Roth，2014; Kairouzet al. ，2015]或分析矩会计方法[Abadietal. ，2016; Mironov，2017]以获得多轮隐私损失。算法开发在本节中，我们开发了一个算法，共同解决隐私和鲁棒性问题。我们采用鲁棒随机模型集结的思想来处理对非i.i.d. 数据分发，并开发DP机制来保护数据隐私。+v：mala2277获取更多论文K√000KΣ0K0KJ0J0KJ0J0J0−J×0k0kk∈−∈ B- -∈ B−∈ B−基于模型聚合的我们首先引入鲁棒随机模型聚合来防御拜占庭攻击[Lietal. ，2019]。请注意，（1）可以写成一个简单的符号翻转机制我们首先提出了一个简单的机制，引入随机性的传输信号。向量符号（x t−x t）的第i个元素以1 − γ的概率翻转其符号，如m在E[fk（xk，nk）]+f0（x0）中，（3）Flip（ sign（xt−xt）i）=xk.0k∈R−sign（xt−xt）i，概率为1−γ，S.T. X =x，k∈ R，0k（8）0ksign（x t− x t）i，概率为γ。0k其中x：= [· · ·;xk;· · ·;x0]∈R（r+1）d由r个局部在所有常规工作节点处对xk建模，在主节点处对x0建模直观地说，无论分布式数据是非独立同分布的，局部模型都应该是相同的这与局部随机梯度不同。为了实现鲁棒的随机模型聚合，我们使用一个1-范数惩罚项来放松（3）中的约束，如下所示：min（E[fk（xk，k）]+λ<$xk−x0<$1）+f0（x0），（4）在收到来自工作者的信号后，主节点无法准确识别实际迹象，这在一定程度上保护了数据隐私。符号高斯机制受DP中传统高斯机制的启发，我们将高斯噪声添加到模型差xt xt中，然后获得符号。在迭代t+ 1，每个常规工作者xk向主节点发送sign（xt−xt+et），其中et≠k∈R0k k k2个d其中λ-范数罚由λ >0力参数化N（0，σId）∈R为零的多元高斯噪声1局部变量xk接近x0，但为了容忍拜占庭攻击，允许它们不同。当不存在拜占庭工人时，我们可以应用步长αt>0的随机次梯度法求解（四）、对于gt：=<$f（xt，<$t），在迭代t+ 1，我们有均值和σ2方差，Id是d d单位矩阵。因此，在添加噪声之后，符号可以随机地改变。我们将符号高斯机制写为Gaussian（sign（x t− x t））= sign（x t− x t+ et）。（九）K. K Kk设ut=xt−xt和yt=sign（xt−xt+et）为输出xt+1= xt− αtgt+λsign（xt−xt）、（五）k0k k0k k不K电话+1K.Kt tk0Σt t符号高斯机制，其中yk的每个元素属于{1，-1}。我们可以得到概率分布x0= x0− αf0（x0）+λk∈Rsign（x0−xk）、（六）y的第i个元素t为.（yt）（ut）其中，逐元素函数sign（·）对于非负返回1Pr（（y t）i|（ut）i）= Φ基基、（十）正输入，负输入为−1在迭代t+ 1，k kσ主节点首先向所有工作者广播模型Xt。的其中Φ（·）是标准正态分布的CDF，0常规工作者k将其本地模型更新为（5），并发送返回符号（x t−x t）到主节点。在收到所有由Φ（a）=1给出2πE2e− s/2ds。−∞在本地消息中，主节点将Xt+1更新为（6）。在拜占庭工人j的存在下，他们可以生成任意向量ztRd并将sign（x tz t）发送到主节点。因此，普通工人仍然更新本地模型为（5），但主节点更新xt+1为DP-RSA算法基于鲁棒随机模型聚合和两种DP机制，提出了DP-RSA算法，实现了隐私保护和拜占庭鲁棒联邦xt+1= xt− αt ..Σf0（x0）+λ0sign（xt−xt）非i.i.d.学习数据为了方便起见，我们使用F/G（·）表示（8）中的Flip函数或0 0 0kk∈R+sign（x t− z t）。（七）（9）中的高斯函数该算法被描述为算法1。在迭代t+ 1，主节点将模型xt广播给所有工作-0jj∈B0呃。常规工人k∈ R更新其局部模型，如[Li et al. ，2019]，使用鲁棒的随机模型聚合，每个常规或拜占庭工作者对主节点处的模型更新具有相同的影响（即，每个元素的α k λ），而不管生成的实际向量如何。因此，恶意消息所带来的负面影响只与拜占庭工作者的数量有关，而与恶意消息的价值无关。并将扰动后的符号F/G（sign（xt xt））发送回主节点。拜占庭工作者j生成任意向量z t并将F/G（sign（x tz t））发送到主节点。特别注意，对于拜占庭工人j，F/G（sign（x tz t））和sign（x tz t）本质上是等价的。在接收到来自所有工作者的标志时，主节点将x t+1更新为DP机制xt+1=xt−αt ..Σf0（x0）+λF/G（sign（xt−xt））0 0然而，鲁棒随机模型聚合更新（5）Σ0kk∈R（7）有泄露私人数据的风险，因为每个注册表-+sign（xt−zt）.（十一）+v：mala2277获取更多论文循环工作器k仍然需要向mas-0j发送sign（xt-xt）0kj∈B称为节点。为了保证DP，我们必须在传递的信号。在这里，我们提出了两个DP机制适应鲁棒随机模型聚集。鲁棒的随机模型聚合规则能够抵御拜占庭攻击，即使对于非独立同分布。数据+v：mala2277获取更多论文200KK00213：从主节点接收xt−····K我我0zj））从拜占庭工人随机抽取样本Dk，并获得00KK其中，Xu是X2-范数灵敏度KKKKKKK−ǁ ǁ ≤算法1DP-RSA输入：步长αt，惩罚参数λ，超参数γ符号翻转或符号高斯中的σ初始化：初始化主节点的x0假设2（弱凸性）。本文给出了一个局部代价函数fk（ x_k ），并证明了f0（x_k）的局部代价函数是一个ρ-w_k_y_v_x，其中f_k（x_k）+ρ_x_v_x=2，f（x≠ 0）+ρ∈x≠2arec on v e x. 对于yx∈Rd，y∈Rd，0021：对于t = 0，1，. . . doρ22：主节点：3：广播xt给所有工人4：从正式工人那里获得F/G（符号（xt−xt）），fk（y）≥fk（x）+fk（x），y−x−2y−xk ∈ R、（十三）0kF/G（符号（x t−不5：将xt+1更新为（11）6：工人k或j：7：如果k∈ R，则k∈ R且任意x t ∈Rd，随机梯度g t：=k（xt，kt）的上界为t228：从主节点接收xt9：将F/G（sign（xt-xt））发送到主节点埃格克≤M。（十四）10点整：0kt对于任意x t∈ Rd，主节点处的梯度为随机梯度gt=fk（xt，ft）也由K KK电话+1¨ ¨211：更新本地模型xk<$f0（x t）<$≤ M。（十五）12：如果j∈ B，则014：生成任意恶意向量zt假设1是分析机器学习算法的标准。假设2放松了凸的假设-这是正义。在统计学习和信号处理领域15：Sen dF/G（信号（x0zj））toma st ernode十六日：end if17：结束DP机制可以确保训练过程中的数据隐私。此外，符号的传递是有效的。因此，我们提出的DP-RSA模拟器满足隐私保护，拜占庭鲁棒性和通信效率的要求。备注1. 特别有趣的是，观察到符号翻转机制与常见的符号翻转攻击具有相似性，而符号高斯机制接近常见的高斯攻击。这些观察-结果表明隐私保护和学习性能之间的权衡此外，由于所有工作者的上传的符号对主节点处的模型更新具有相等的贡献，因此来自拜占庭工作者的攻击的影响不与常规节点中使用的DP机制的影响相耦合。弱凸函数是常见的，如非线性最小二乘、相位恢复、鲁棒主成分分析等。例如，f1（）+f2（）形式的函数，其中f1（）具有ρ-Lipschitz连续梯度，f2（）是闭凸的，是ρ-弱凸的[Davis and Grimmer，2019]。假设3在不同的私有机器学习中很常见，并被引入以控制灵敏度。这种假设在深度学习中是很自然的，因为梯度裁剪是约束梯度范数的标准操作。DP保证对于符号翻转机制，它可以直接证明它满足（N，0）-DP;参见补充材料。定理1.（ 8 ）给出的符号翻转运算满足（lnγ，0）-DP。1−γ接下来，我们证明了所提出的符号-高斯机制满足（N，0）-DP。我们用ut和ut′来表示ktk工人我们将在ensu中描述这些观察结果的理论分析。理论分析两个相邻数据集的输出和vk=ut′ut。矢量vt满足vt的t。为了测量DP中的隐私损失（PL），我们考虑Pr（y t|u t）在这一部分中，我们对DP-RSA算法进行了理论分析。我们首先证明了所提出的符号翻转和符号高斯机制满足（N，0）-DP。然后我们分析了DP-RSA在非凸问题上的收敛性PL= lnkkPr（y t|u t+v t）φdΦ（（yt）（ut）/σ）= lnk k Φ（（yt）i（（ut）i+（vt）i）/σ）（十六）i=1k k k现在我们给出分析中使用的几个假设为布吕德Σ（yt）（ut）（yt）（（ut）+（vt））无条件算法，定义fk （x∈K）：=E[fk （x∈ K，x∈K）]，固定工人K的局部成本函数。假设1（Lipschitz连续梯度）。正则表达式fk （x_k ）的局部代价函数f k（x_k）和正则表达式f0（x_k）具有与常数L相同的李普适性。对于yx∈Rd，y∈Rd，fk（x<$）−（十二）假设3（有界梯度）。对于任何一个普通工人来说+v：mala2277获取更多论文··−=ln Φ（k ik i）ln Φ（k ik ik（i）。σ σi=1注意，函数ln Φ（）在隐私分析中至关重要。实际上，它的导数与Mill比率有关基于Mill比的性质由于页数限制，证明留给补充材料。+v：mala2277获取更多论文不√yRd−−··ǁ∇ǁ·=α，αu可以K0ki/σ）。0K0K0Kβ2012年10月2日（）i4u3ǫ0kσ0ktt−2ǁ∇ǁ0k0k定理2.如果所添加的高斯噪声方差σ2不isfies σ>max{maxiuk ，}，则符号高斯其中EF表示仅关于符号翻转操作的期望。使用符号高斯机制，我们有由（9）给出的运算满足（n，0）-DP，其中n∈（0，8）是.Σ|(u t)|一个常数如定义1中所述，（δ，δ）-DP中的常数δ表示δ-DP失效的概率，其在我们的定义中为零EG[Gaussian（sign（x t− x t）i）]= Φ（k）sign（xt−xt）i.Σ|(u )|t+1-Φ（（ki）σsign（xt−xt）i，（23）设为2αM。注意，随着算法的发展，局部模型和全局模型之间的距离可以更近，导致所添加的高斯噪声的方差更小。注意[Jin et al. ，2020]在SignSGD算法中提出了一个类似的DP-Sign操作，并证明了它满足其中EG表示仅关于符号高斯运算的期望。为了统一收敛性分析对于m为m的两个mechan，我们设γ=maxiΦ，则在m为Sign-Fli ppin gmechan时，设γ=maxiΦ（|（ut）i|/σ）a ndγm=minK（|（u t）|然而，在[Jinet al. ，2020]只是遵循传统高斯机制，因此确保了同等级别的隐私保障。相反，我们的证明利用了高斯分布的CDF，并导致δ= 0。我们的证明技术也可以应用于分析其他DP因此，我们可以将这两种机制描述为E[F/G（sign（xt-xt）i）]≤γsign（xt-xt）i+（1−γ）sign（xk−x0）i.（二十四）对于（4），定义Σ Σ涉及符号的收敛性分析h（x）=k∈Rfk（xk）+f0（x0）+k∈Rγλ<$x k−x0<$1。（二十五）本文证明了DP-RSA算法在非凸情形下的收敛性。观察到现在成本函数（4）是非凸的和非光滑的。分析中的一个主要挑战是，我们不能使用凸函数的函数值的最优性间隙或最小值，也不能使用非凸光滑函数的平稳性条件作为收敛性的度量。我们使用Moreau包络和近点投影利用fk（xk）和f0（x0）的ρ-弱凸性，h（x）也是ρ-弱凸此外，我们定义h1/ρ<$（x）为Moreau当ρ> 0时，h（x）的一个新的极点是连续的。该定理证明了DP-RSA算法收敛于h1/ρ′（·）的一个稳定点的邻域.定理3（DP-RSA的收敛性）。假设假设1、2和3成立. 将DP-RSA的步长设置为[戴维斯和Drusvyatskiy，2019]来应对这一挑战。的αt=1不 . 对于一个持续时间超过ρ的人，证据可以在补充材料中找到。对于具有hx∈H（x∈ N）的新的弱函数x，1T−1 ¨¨2∆E≤1+，（26）Rd，它的Moreau包络hβ（x）和projectionproinp ro in pro in不t=0时1/2不proxβh（x）被定义为其中λ1，λ2是确定的常数，λ2=O（λ2[b2+h（x）：=minh（y）+1y−x2，（17）（1−γε）2（r2+r）]）。y∈Rd2β根据定理3，学习误差σ2仅为12与b2成线性关系，拜占庭工人的平方，而不是proxβh（x）：=argminh（y）+2βy−x∈根据这些定义，我们立即得到1.（十八）拜占庭式的攻击如果b= 0，即，在不存在拜占庭攻击的情况下，学习误差为O（λ2（1γ_（max）（r2+r）），这是由DP机制引起的。因为普通工人会把hβ（x（十九）对于大多数情况，对于x∈Rd中的任何一个点，它都是最优点扰动符号F/G（sign（xtxt））时，学习误差与正规工人数r有关。在标志翻转xh=proxβh （x）satisfiesxǁ∂h(xˆ)ǁ≤ǁ∇hβ(x˜)ǁ,(21)mech an是 m，则该值为1γff lippinghe符号，学习误差越大。在Sign-Gaussian机制中，附加噪声的方差σ 2越大，则γε越小，并且该L越大，则线性化误差越大。理论上的观察与我们的直觉是一致因而其中，h（x）是h（）在x处的任意次幂。这是一个很长的时间，对于一个函数ti nh（），一个小的gr dintr mhβ（x∈）满足两个条件：x∈S是x ∈N的正极点，x ∈ N几乎是h（）的一个驻点。因此，我们可以使用hβ（x）以确保DP-RS A的一致性。在证明DP-RSA的收敛性之前，我们进一步研究了所提出的DP机制。通过符号翻转机制，我们有EF[Flip（ sign（xt−xt）i）]=γsign（xt−xt）i分析. 当我们使用常数步长α时，当适当选择噪声方差σ2我我+v：mala2277获取更多论文K0是隐私保护和学习能力之间的权衡。如果我们希望在训练过程中有更强的隐私保障，我们最终会有更大的学习错误。我们还观察到，DP机制和强大的随机模型聚集规则显示出对学习性能的附加实际上，拜占庭攻击和DP机制具有类似的影响，使得DP机制可以被视为“善意攻击”。我们该算法能有效地抵御拜占庭攻击，+（1−γ）sign（xt−xt）i，（22）还具有适应DP机制的能力。+v：mala2277获取更多论文ǁ ǁBǁ ǁ数值实验我们分别在MNIST和CIFAR 10数据集上提供了数值实验来验证DP-RSA的有效性。对于MNIST，我们训练了一个两层神经网络，每层包含50个具有tanh激活的神经元。在i.i.d.设定60000个训练样本平均分配给30个工人。在非i.i.d.设定每一个数字，其样本的一半平均分配给30个工人，每3个工人平均分享另一半。正则化项SignSGD0 20 40 6080(a) 高斯攻击SignSGD0 20 40 60 80(b) 样本复制攻击isf0（x）=0. 002x102。这一参数的值为λ=0。0 1，并且步长α t被设置为常数，因为α= 0。01号。对于CIFAR10，我们训练了一个卷积神经网络（CNN）模型，它有三个全连接层和两个卷积层，总共有大约368，000个参数。在i.i.d. 设定50000个训练样本平均分配给20个工人。在非i.i.d.设置为，对于每一类图像，将其样本的一半平均分配给20个工作者，每2个工作者平均分享另一半。r egularizat io ntisf0（xn）=0.002x102。参数λ被设置为0.002，并且步长α t被设置为常数，因为α= 0。01号。将具有符号翻转机制和具有符号高斯机制的DP-RSA分别表示为DP-RSA（F）和DP-RSA（G）。隐私丢失率设置为0.2、0.4和1.38。我们考虑四种基线：SGD，SignSGD，SGD with Geometric Median（GM）和RSA。所有的参数都是手动调整到最佳状态的;有关详细信息，请参阅补充材料。我们考虑三种典型的攻击。前两个应用于i.i.d.最后一个应用于非i.i.d.。设置.• （i）高斯攻击：每个拜占庭工作器生成向量，其中每个元素来自高斯分布N （ 0 ， σ2），其中 σb=10000。• （ii）符号翻转攻击：每个拜占庭工人计算真实模型，并将其乘以负常数-5（见补充材料）。• (iii)样本复制攻击：所有拜占庭工人选择一个普通工人，并复制其消息。0.8图2：CIFAR10的性能比较横轴：历元数。垂直轴：精度。对于这两种攻击，SGD都没有防御能力。DP-RSA的性能与RSA相似，表明DP机制不会太大地损害学习性能，并且对防御拜占庭攻击没有影响。在这两种攻击下，DP-RSA的性能都优于SignSGD和带有GM的SGD。对于非i.i.d.设置，SignSGD和SGD与GM严重受非i.i.d.数据分发和几乎失败。DP-RSA仍能稳定地找到一个可接受的解决方案，并且不会受到数据分布的太多影响。对于DP-RSA中使用的两种DP机制，具有大的随机数的Sign-Flipping与具有小的随机数的Sign-Gaussian具有相似的性能，这表明Sign-Gaussian在实际应用中更有效。图2显示了CIFAR10上的性能这里拜占庭工人的数量是b= 2。在i.i.d.设置，DP-RSA也表现良好，类似于RSA，而SignSGD失败。结合GM的SGD可以防御高斯攻击，i.i.d. 案子然而，在非i.i.d.设置，SignSGD和SGD withGM均失败。DP-RSA算法能够成功地防御异构环境下的样本复制攻击。在MNIST实验中，我们运行了2.5个epoch，因此样本被使用了近2.5次。整体隐私与每个时期的隐私没有太大的不同在CIFAR10实验中，我们运行了80个epoch。用解析矩量法计算总概率。由于篇幅限制，我们将更多的数值实验留给补充材料。其中，我们给出了在更多攻击的概率影响DP-RSA的性能。0.80.60.40.20.001000200030004000 50000.60.40.20.001000200030004000 5000结论本文提出了一种基于分布式非对称网络的拜占庭鲁棒性和隐私保护的反馈学习算法DP-RSA。i.i.d.数据从工作节点传输到主节点的消息是模型差异的标志，从而产生通信高效的实现。我们设计了两个DP(a) 高斯攻击(b) 样本复制攻击确保数据隐私的机制。我们建立图1：MNIST上的性能比较。横轴：迭代次数。垂直轴：精度。图1显示了MNIST上比较方法的性能。这里拜占庭工人的数量是b= 3。1代码可在https://github.com/oyhah/DP-RSA上获得证明了DP-RSA算法在非凸代价函数下的收敛性，并分析了拜占庭攻击和DP机制对学习性能的影响。数值实验表明，DP-RSA算法能够成功地抵御几种常见的拜占庭攻击，无论是i.i.d.和非I.I.D.案例，并保护数据隐私，而不会牺牲太多的学习性能。新加坡元RSADP-R S A（G）ε=0. 2 DP-R S A（F）ε=1.38SignSGD新加坡元RSADP-R S A（G）ε=0. 2DP-RSA（F）ε=1.38SignSGD0.8RSA0.8RSA0.7R SA（G）ε=0. 2R SA（F）ε=1。380.7R SA（G）ε=0.2RSA（F）ε=1.380.6SGD0.6SGD0.5SGD与GM0.5SGD与GM0.40.40.30.30.20.20.10.1+v：mala2277获取更多论文引用[Abadi et al. Martin Abadi ， Andy Chu ， Ian Goodfel-low ， H Brendan McMahan ， Ilya Mironov ， KunalTalwar ， and Li Zhang. 深度学习与差分隐私 ACMSIGSAC计算机和通信安全，第308-318页，2016年[Agarwal et al. 2018] Naman Agarwal，Ananda TheerthaSuresh ， Felix Yu ， Sanjiv Kumar ， and H BrendanMcmahan. cpSGD：通信高效且差异私有的分布式SGD。arXiv预印本arXiv：1805.10559，2018。[Blanchard et al. ，2017] Peva布兰查德，El马赫迪·埃尔·姆哈姆迪，拉希德·格拉维，朱利安·斯坦纳。机器学习与对手：拜占庭容忍梯度下降。神经信息处理系统的进展，第119-129页，2017年[Chen et al. ，2017] Yudong Chen，Lili Su，and JiamingXu. 分布式统计机器学习：拜占庭梯度下降。Proceedings of the ACM on Measurement and Analysisof Computing Systems，1（2）：1[戴维斯和Drusvyatskiy ，2019] Damek Davis 和DmitriyDrusvyatskiy。基于随机模型的弱凸函数极小化。SIAM Journal on Optimization，29（1）：207[戴维斯和格里默，2019] Damek Davis和本杰明格里默。非光滑非凸问题的邻近导引随机次梯度法。SIAM Jour-nal on Optimization，29（3）：1908[Dwork and Roth，2014] Cynthia Dwork and Aaron Roth.差分隐私的算法基础 Foundations and Trends® inTheoretical Computer Science，9（3）：211[Guerraoui et al. Rachid Guerraoui ， Nirupam Gupta ，Rafael Pinot，Ruptien Rouault，and John Stephan.在分布式SGD中结合差异隐私和拜占庭式的弹性。arXiv预印本arXiv：2110.03991，2021。[Guerraoui et al. Rachid Guerraoui，NirupamGupt a，Raf aeülPinot，Se′ba stienRouaut，和John Stephan。sgd中的差异隐私和拜占庭式的弹性：它们加起来了吗？arXiv预印本arXiv：2102.08166，2021。[Jin et al. Richeng Jin ， Yufan Huang ， Xiaofan He ，Tianfu Wu，and Huayyu Dai.有理论保证的馈入式学习arXiv预印本arXiv：2002.10940，2020。[Kairouz和McMahan，2021] Peter Kairouz和H Bren- danMcMahan。联邦学习的进展和开放问题。Foundationsand Trends® in Machine Learning，14（1）：1[Kairouz et al. Peter Kairouz，Sewoong Oh，and PramodViswanath.不同隐私的合成定理。国际机器学习会议，第1376-1385页，2015年[Karimireddy et al. Sai Praneeth Karimireddy ，Lie He和Martin Jaggi。从历史中学习拜占庭鲁棒优化。arXiv预印本arXiv：2012.10333，2020。[Khanduri et al. Prashant Khanduri ， Saikiran Bulusu ，Pranay Sharma和Pramod K Varshney。拜占庭抵抗非凸SVRG与分布式批量梯度计算。arXiv预印本arXiv：1912.04531，2019。[Kone cny`etal. 2016年]Ja ku bKone cny`，HBre nd anMcMa-h an n，Fe li xXYu，Pe t erRic hta'r ik，A n and nd aTheer th aSure sh，and Dave Bacon.联邦学习：提高沟通效率的策略。arXiv预印本arXiv：1610.05492，2016年。[Lamport et al. [Leslie Lamport ， Robert E. Shostak 和Marshall C. 别这样拜占庭将军的问题。 ACMTransactions on Programming Languages and Systems，4（3）：382[Li et al. ，2019]李丽萍，徐伟，陈天一，Georgios BGiannakis，和Qing Ling. RSA：Byzantine-robust随机聚合方法用于异构数据集的分布式学习。在AAAI人工智能会议上，第1544-1551页[Mhamdi et al. 2018年]马赫迪·姆哈姆迪，拉希德·古尔-拉，和Se'ba sti enRoua ult。在拜占庭，分布式学习的时代已经过去了。在机器学习国际会议上，第3521-3530页[M i r onov，2017]我是一个M i r onov。我是一个很好的朋友。在IEEE计算机安全基础研讨会，第263-275页[Pinelis，2019] Iosif Pinelis。逆Mill比及其导数的精确界复分析和算子理论，13（4）：1643[1953年]迈克尔·R·桑普福德。关于Mill比和相关函数的几个不等式数学统计年鉴，24（1）：130[Song et al. Shuang Song ， Kamalika Chaudhuri ， andAnand D Sarwate.具有不同私有更新的随机梯度下降。在IEEE全球信号和信息处理会议上，第245[Wei et al. 2020] Kang Wei，Jun Li，Ming Ding，ChuanMa，Howard H Yang，Farhad Farokhi，Shi Jin，TonyQS Quek，and H Vincent Poor.联邦学习与不同的隐私：算法和性能分析。 IEEE Transactions onInformation Forensics and Security，15：3454[Wu et al. ， 2020] Zhaoxian Wu ， Qing Ling ， TianyiChen，and Georgios B Giannakis.联邦方差减少的随机梯度下降与 Byzantine 攻击的鲁棒性。 IEEETransactions on Signal Processing，68：4583[Yin et al. ， 2018] Dong Yin ， Yudong Chen ，Ramchandran Kannan，and Peter Bartlett.拜占庭鲁棒分布式学习：迈向最佳统计率。国际机

下载后可阅读完整内容，剩余1页未读，立即下载