没有合适的资源?快使用搜索试试~ 我知道了~
联邦学习中基于相关性的异构客户端选择策略的研究及改进
101020FedCor:基于相关性的异构联邦学习主动客户端选择策略0Minxue Tang 1,Xuefei Ning 2,Yitu Wang 1,Jingwei Sun 1,Yu Wang 2,Hai Li 1,Yiran Chen 1*01 杜克大学电气与计算机工程系 2 清华大学电子工程系01 {minxue.tang,yitu.wang,jingwei.sun,hai.li,yiran.chen}@duke.edu02 foxdoraame@gmail.com 2 yu-wang@tsinghua.edu.cn0摘要0客户端数据异质性是阻碍联邦学习(FL)有效训练的主要问题之一。由于每个客户端上的数据分布可能差异很大,客户端选择策略可以显著影响FL过程的收敛速度。近期的研究中普遍提出了主动客户端选择策略。然而,它们忽略了客户端之间的损失相关性,并且与均匀选择策略相比,只能实现边际改进。在本工作中,我们提出了FedCor——一个基于相关性的客户端选择策略构建的FL框架,以提高FL的收敛速度。具体而言,我们首先使用高斯过程(GP)对客户端之间的损失相关性进行建模。基于GP模型,我们推导出一种在每一轮中显著减少期望全局损失的客户端选择策略。此外,我们通过利用协方差平稳性在FL场景中开发了一种低通信开销的高斯过程训练方法。我们的实验结果表明,与最先进的方法相比,FedCorr在FMNIST和CIFAR-10上可以分别提高34%�99%和26%�51%的收敛速度。01. 引言0作为一种新兴的分布式学习范式,联邦学习(FL)[9, 12, 13,17,23]近年来因其提供的数据隐私而受到关注。FL旨在处理训练数据分布在多个客户端的场景。考虑到有限的通信带宽和隐私要求,在每一轮通信中,FL通常只选择一小部分客户端,所选客户端将执行多次本地更新迭代,而不会暴露自己的数据集[23]。这种特殊的0*通讯作者0场景还引入了其他挑战,这些挑战使得联邦学习与传统的分布式学习[2,35]有所区别。联邦学习中的一个主要挑战是客户端数据的高度异质性[17],这是大量客户端的固有特征。已经有许多研究[10, 15, 16, 18, 20, 25, 27,32]试图解决联邦学习中客户端的非独立同分布和不平衡数据。这些研究大多集中在根据FedAvg[23]修正本地模型更新或中央聚合。最近,主动客户端选择作为前述研究的补充出现,旨在加速具有非独立同分布数据的联邦学习的收敛。一些最近的研究提出将较大训练损失值的客户端分配更高的选择概率[4,6]。然而,他们忽略了客户端之间的相关性,独立考虑他们的损失,这只能带来边际性能改进。在本文中,我们提出了一种基于相关性的主动客户端选择策略,可以有效减轻由数据异质性引起的准确性下降,并显著提升联邦学习的收敛性。我们的主要思想主要基于以下直觉:01.客户端的贡献不相等。例如,在“好”客户端上使用大型且平衡的数据集进行训练可以减少大多数客户端的损失,而在“坏”客户端上使用小型且极度偏斜的数据集可能会增加其他客户端的损失。02.客户端不是独立贡献的。选择一个客户端的影响取决于其他被选择的客户端,因为它们的本地更新将被聚合。0图1中显示的一个玩具实验也说明了在客户端选择中考虑相关性的必要性。在这个实验中,每个客户端只有一个数据样本,因此图中的每个数据点代表一个客户端。任务是选择两个客户端(不同的标记代表不同策略的客户端选择)来训练一个二分类模型。An important characteristic of FL [12,13,23] is the het-erogeneity of clients, which raises new challenges of thetraining [9,17,31]. There are two kinds of heterogeneity inFL: systemic heterogeneity (computation ability, communi-cation bandwidth, etc.) and statistical heterogeneity (non-IID, imbalanced data distribution) [17,18]. This work mainlyfocuses on the latter one. A number of methods have beenproposed to improve the basic FL algorithm, FedAvg [23], inheterogeneous settings. Some of them manipulate the localtraining loss like adding regularization terms to stabilizedthe training [8,10,18,20,26], while some other works amendthe aggregation method to reduce the variance [24,32].Complementary to such methods, another way to improvethe convergence of FL in non-IID settings is active clientL(w) =j|l(w; Dk) =lk(w) = l(w1|Dk|101030图1. 不同客户端选择策略的玩具实验。0分类器(表示为线条)。独立选择两个具有最高本地损失的客户端的选择策略(“IndResult”)无法减少全局损失。相反,我们的方法考虑了客户端之间的相关性(“CorResult”),并得出了一个可以实现几乎最低全局损失的客户端选择(“OptResult”)。基于以上直觉,本文提出了FedCor,一个基于相关性的客户端选择策略的FL框架,以提高FL的收敛性。我们的主要贡献总结如下:01.我们使用高斯过程(GP)对客户端损失变化进行建模,并提出了一种可解释的客户端选择策略,每轮通信中预期全局损失显著减少。02.我们提出了一种利用协方差平稳性减少通信成本的高斯过程(GP)训练方法。实验证明,使用我们的方法训练的GP能够很好地捕捉到客户端之间的相关性。03.实验结果表明,FedCor稳定了训练的收敛性,并在FMNIST和CIFAR-10上分别显著提高了收敛速度34%�99%和26%�51%。02. 相关工作0选择,试图在每一轮中有策略地选择客户端进行训练,而不是均匀选择。Goetz等人[6]首次提出将高选择概率分配给具有较大本地损失的客户端。Cho等人[4]从一个随机抽样的子集A �U中选择C个具有最大损失的客户端,以减少选择偏差。然而,他们在进行客户端选择时都没有考虑客户端之间的相关性。03. 初步0FL寻求一个全局模型w,在所有N个客户端上实现最佳性能(例如,最高的分类准确率)。FL中的全局损失函数定义为:0N个0| D k |个0k =1 p k l k ( w ),(1)0ξ ∈ D k l ( w ; ξ ) ,(2)0其中l(w;ξ)是在模型w上评估的数据样本ξ的目标损失。我们将l_k(w)称为客户端k的本地损失,它是在客户端k上使用本地数据集D_k(大小为|D_k|)评估的。客户端k的权重p_k =|D_k| /Σ_j|D_j|与其本地数据集的大小成比例。考虑到隐私和通信限制,FL算法通常假设部分客户端参与并进行本地模型更新。具体而言,在通信轮次t中,只选择整体客户端集合U中大小为|K_t|=C≤N的子集K_t来接收全局模型w_t,并使用其本地数据集进行多次独立迭代训练。在本地训练后,服务器从这些选定的客户端收集训练好的模型并对它们进行聚合(通常通过平均[23])以生成新的全局模型w_t+1。我们将这个过程表述如下:0w t +1 k = w t − η t ˜ � l k (w t), (3)0w t +1 (K t) = 10C0k ∈ K t w t +1 k (4)0= w t − η t0C0�0˜ � l k (w t), (5)0其中 η t 是学习率,˜ � l k (w t) 是第 t轮中等效累积梯度[32]。具体而言,对于客户端 k上的任意优化器,它在该轮的第 τ 次迭代中产生 ∆ w t,τ k =− η d t,τ k 作为本地模型更新,并计算累积梯度为 ˜ � l k (wt) = �0τ d t,τ k.04. 方法0在本节中,我们详细阐述了我们提出的可以有效提升联邦学习收敛性的方法,即FedCor。101040首先,我们将加速联邦学习收敛的目标形式化为优化问题,该问题在第4.1节中最大化了每轮通信后的损失减少的后验期望。然后,第4.2节展示了经验证据,即每轮通信中损失变化的先验分布可以建模为高斯过程(GP)。基于这一观察,我们利用GP解决优化问题,并在第4.3节中获得了一种有效的异构联邦学习客户端选择策略。我们进一步分析了客户端选择策略的选择标准,并在第4.4节中给出了其直观解释。最后,在第4.5节中,我们描述了如何在通信受限的联邦学习中训练GP参数。04.1. 问题建模0为了实现快速收敛,我们希望找到一种客户端选择策略,可以在每次通信轮后导致全局损失最大程度的减少。因此,我们定义我们的目标为解决一系列优化问题,每个通信轮 t都有一个问题:0min K t ∆ L t (K t) = L (w t +1 (K t)) − L (w t)0subject to w t +1 (K t) = w t − η t0C0�0˜ � l k (w t) . (6)0在联邦学习中,通过多次尝试不同的客户端选择来寻找最佳客户端选择是不切实际的,因为这会引入大量的通信和计算开销。因此,我们需要一种有效的方法来预测不同客户端选择的全局损失减少,并在非常有限的尝试次数内做出决策。为了实现这个目标,我们首先通过以下引理重新定义了方程(6)中的优化问题。该引理的证明在附录A.2中。0引理1. 方程(6)中的优化问题近似等价于以下概率形式。0min K t E ∆ l t | ∆ l t K (K t) � �0i p i ∆ l t i � 0i p i ˜ µ t i (∆ l t K t0(7) 其中 ∆ l t = [∆ l t 1, ∙ ∙ ∙ , ∆ l t N] 是第 t轮中所有客户端的损失变化,它是关于第 t轮中随机选择的客户端的随机变量。˜ µ t (∆ l t K t (K t))是在 ∆ l t K t (K t) = [∆ l t i (K t)] i ∈ K t 条件下的 ∆ l t的后验均值。0方程(7)中的重新定义目标表明,如果我们可以预测那些被选择进行训练的客户端的损失变化(∆ l t K t (Kt)),我们可以通过其后验均值预测全局损失变化,并根据此做出决策。现在我们需要的是一个关于损失变化 ∆ l t的概率模型,以进行预测并计算后验。04.2. 使用高斯过程建模损失变化0在贝叶斯优化中,通常假设对未知目标函数进行高斯过程先验[3, 30]。0图2.非独立同分布联邦学习中第一主成分的直方图[23]。更多细节和完整结果请参见附录D.2。0我们的初步调查(部分)显示在图2中,每轮通信中的损失变化的先验分布遵循高斯过程。具体而言,我们随机选择一些客户并进行一轮训练,得到损失变化的样本。然后,我们对这些损失变化样本进行主成分分析,并绘制前几个主成分的直方图。图2中的红线是具有样本均值和样本方差的高斯概率密度函数。我们可以看到,这个高斯分布可以很好地近似样本的分布。附录A.1中还给出了这一观察的数学解释。因此,我们建议使用以下高斯过程先验模型来建模一轮通信中的损失变化:0∆lt = [∆lt1, ∙∙∙, ∆ltN] � N(∆lt; µt, Σt). (8)0备注:为了有效地学习FL中的协方差,我们将所有客户嵌入到连续的向量空间中,并使用核函数计算协方差(见第4.5节)。因此,尽管∆lt的维度是有限的,我们仍然使用GP这个术语,而不是多元高斯分布。GP的一个好的性质是我们可以得到后验期望的闭式形式,如公式(7)所示,这使得我们的客户选择策略具有解释性。在接下来的几节中,我们将基于GP模型提出我们的客户选择策略,然后对其进行解释。我们将在第4.5节中介绍GP中参数(µt,Σt)的训练方法。04.3. 客户选择策略。0虽然我们已经得到了计算后验期望的概率模型,但仍然没有确定如何预测选择进行训练的客户的损失变化,即∆ltKt(Kt)。受UCB方法[1, 5,28]的启发,我们开发了一种迭代方法,在每次迭代中预测损失变化并选择一个客户,如算法1所示。每次迭代包括三个步骤:(i)预测。在每次迭代中,我们首先对每个客户k进行预测∆ˆltk,如果选择该客户。通常情况下,选择的客户会有较大的损失减少,因为它直接参与模型更新。因此,我们建议使用较小的置信区间作为预测值:6:wt+1(St,i)wtηtCkt,i ˜ lk(wt).13:wt+1wt+1(t) = wt − ηtCk∈Kt ˜∇lk(wt).k2 = arg maxk′−rk1k′(B)piσirik1101050算法1:基于高斯过程的客户选择策略。0要求:GP的µt和Σt,缩放因子αt。0确保:客户选择Kt。01: 初始化Kt ← �,P ← U. 2:当|Kt| < C时执行循环。 3:04: 如果选择该客户,则预测其损失变化:∆ˆltk = µtk −αtkσtk.05: 计算损失变化的后验均值˜µt(∆ˆltk)。07: 选择客户:k� = arg min k0ip i ˜µti(∆ˆltk).08: 将k�添加到Kt中并从P中删除。09: µt ← ˜µt(∆ˆltk�), Σt ← ˜Σt(∆ˆltk�).010: 结束循环。0将预测的下界作为预测值:0∆ˆltk = µtk − αtkσtk;αtk = aβτtk,(9)0其中σtk = �0Σtk,k,a是一个缩放常数。β ∈ (0, 1)。0是一个退火系数,其索引τtk表示客户k被选择的次数。我们将在第4.5节中更详细地讨论这个退火系数。(ii)选择。选择客户k�以最小化在上一步中基于其损失变化预测的整体损失的后验期望:0k� = arg min k0ip i ˜µti(∆ˆltk) (10)0(iii)后验。选择客户k�后,我们根据对k�的损失变化预测进行后验更新,得到下一次迭代的高斯过程(GP):0µ t ← ˜µ t (∆ˆltk�), Σ t ← ˜Σ t (∆ˆltk�). (11)0通过使用其后验更新高斯过程,我们迭代地向概率模型中添加条件,以逼近完全条件分布p(∆lt|∆ltKt(Kt)),并使得对损失变化的下一次预测更加准确。我们的方法与传统的贝叶斯优化有一些相似之处:使用高斯过程作为目标函数的先验,并使用UCB以及后验分布进行迭代选择[3, 5,28]。然而,有一个关键的区别:在每一次通信轮中,我们仅通过预测来确定客户的选择,而不是通过全局损失变化的测量结果,而传统的贝叶斯优化需要一系列测量结果作为新信息来做出决策。全局损失变化的测量将引入大量的通信开销,在联邦学习中是不可行的。0算法2 FedCor01: 初始化 X0 和全局模型 w0。 2:对于每一轮 t = 0, 1, ... 进行循环 3:如果 t %∆ t ==0,则04: 均匀采样S个客户选择St,i, i = 1, 2, ..., S。05: 对于 i = 1, 2, ..., S 进行循环07: 收集∆lt(St,i) ← l(wt+1(St,i)) - l(wt)。08: 结束循环09: 重置αk ← 1, �k ∈ U。010: 结束循环012: 使用算法1选择客户K t (µ t = 0, Σ t = XtTXt, α t =α)。014: 更新αKt ← βαKt。015: 结束循环04.4. 对我们的选择策略的洞察0在本节中,我们对我们的选择策略给出了直观的解释,并展示了在一个简单案例中的好处。关于选择准则和FedCor收敛性的更详细分析可以在附录B中找到。为简单起见,我们在本节中省略了所有上标t。引理2给出了FedCor在仅选择两个客户的简单情况下的选择准则,其证明可以在附录A.3中找到。0引理2.当选择两个客户k1和k2时,FedCor的选择准则可以写成0k1 = arg max k β τ k0i p i σ i r ik, (12)0β τ k' � (A) � �� � �01 - r^2 k' k1,0其中r ij = Σ i,j /σ i σ j是皮尔逊相关系数。0(i)单次迭代。方程(12)对于选择与其他客户(rik)相关性较大的客户具有明确的解释,以便其他客户可以从选择的客户的训练中获益更多。我们的选择准则考虑了客户之间的相关性,并且与那些仅考虑每个客户独立损失的算法相比,可以进行更好的选择[4, 6]。(ii)多次迭代。在方程(13)中,项(A)和(B)是方程(12)中的单次迭代选择准则,其中客户k'0和k1分别。由于我们在最大化(B)时已经达到了最大值̸(17)101060选择客户k1时,项(B)通常是正的。因此,选择k'不仅考虑其与其他客户的相关性(rik'),还倾向于与先前选择的客户k1的相关性r k 1k'较小的客户。这个准则惩罚选择的冗余性,导致选择具有多样数据的客户,从而减少方差,使训练过程更加稳定。由于具有相似数据的客户生成类似的本地更新,选择冗余的客户只会给全局性能带来边际收益,甚至可能将优化推向不良的局部最优解。这种选择偏好也在图1中得到了证明,FedCor选择了一个正点和一个负点作为最佳选择。04.5. 在FL中训练GP0作为一种经典的机器学习模型,GP已经被广泛讨论和研究[33]。有许多方法来训练GP中的参数,即方程(8)中的协方差Σt[1]。然而,为了使GP训练在受通信限制的FL过程中可行,我们应该修改GP训练方法,以减少样本数量并更好地利用历史信息。在GP中,使用核函数K(xi,xj)来计算协方差[33],即Σti,j = K(xti,xtj),其中xti、xtj是数据点i和j的特征。在此基础上,我们为每个客户端分配一个在潜在空间中的可训练嵌入。第k个客户端的嵌入记为xtk ∈ Rd (d < N),我们选择核函数为...0K(xti, xtj) = xtiT xtj,(14)0这是一个齐次线性核[33]。这种低秩形式减少了我们需要学习的参数数量,从而使GP训练更加高效。常用的GP训练方法是最大似然评估,其中我们均匀采样S个客户端选择{St,i: i= 1, ∙ ∙ ∙ , S},并最大化相应的损失变化{∆lt(St,i): i = 1, ∙ ∙ ∙ ,S}的似然函数,以学习嵌入矩阵Xt = [xt1, ∙ ∙ ∙ , xtn]:0Xt = arg max X0i=1 log p(∆lt(St,i)|X)。 (15)0然而,为了收集每个样本∆lt(St,i),我们必须将wt+1(St,i)广播到所有客户端。由于在每个通信轮t中通常需要一个较大的S来进行无偏估计,因此方程(15)中的普通训练过程引入了较高的通信开销。实际上,不同客户端之间的损失变化之间的相关性主要来自它们数据集之间的相似性,在FL过程中是不变的。因此,01我们不训练µ并将其设置为0,因为它不会影响选择策略,如引理2和附录B所示。0图3. 非独立同分布FL中的协方差平稳性[23]。完整的实验结果和更多细节请参见附录D.3。0我们假设协方差在所关注的时间范围内也变化缓慢。为了验证这一点,我们使用大量样本来评估每个通信轮中的协方差Σt,并计算Σt与Σt+∆t之间的余弦相似度。我们设置∆t =10用于FMNIST和∆t =50用于CIFAR-10。如图3所示,我们可以看到相似度在整个FL训练过程中保持非常高(对于FMNIST大于0.97,对于CIFAR-10大于0.95)。因此,我们不需要在每一轮中更新Xt,而是从上一轮继承嵌入矩阵Xt-1,并且仅在每个∆t轮中训练它。此外,我们可以重复使用历史样本进行GP训练,以减少每个GP训练轮中需要收集的样本数量S。我们总结了Xt的更新规则如下:0Xt = ...0如果t % ∆t ≠ 0,则Xt = Xt-1;如果t % ∆t =0,则Xt = arg max X Φt(X),(16)0其中0Φt(X) =0M是..0m=00i=1 γm log p(∆lt-m∆t(St-m∆t,i)|X)。0M是重复使用的历史样本数量,γ <1是用于加权历史样本的折扣因子。我们的方法能够在大的∆t和S=1的情况下减少通信开销,同时保证性能。由于我们只在每个∆t轮更新协方差Σ,退火因子βτk可以防止我们在∆t轮内做出相同的选择。重复使用相同的客户端组进行训练会导致全局模型过度拟合其数据,这可能会阻碍FL的收敛。在实践中,我们在每个GP训练轮之后将τk重置为0,以实现最快的收敛速度,同时避免在某些客户端上过度拟合。我们在算法2中总结了我们的整体框架FedCor。值得注意的是,我们的方法与现有的FL优化器(如FedAvg [23]和FedProx[18])是正交的。因此,我们的方法可以与它们中的任何一个结合使用。101070图4. 在三种异构设置(2SPC、1SPC和Dir)下,FMNIST和CIFAR-10的测试准确率。同一图中的所有实验共享相同的超参数,除了客户端选择策略。0方法 FMNIST CIFAR-1002SPC(69%)1SPC(62%)Dir(64%)2SPC(62%)1SPC(36%)Dir(54%)0Rand 295.8 ± 92.0 N/A 141.0 ± 73.0 1561.2 ± 236.2 1750.4 ± 190.3 N/A AFL 218.6 ± 117.3 N/A 169.0 ± 166.1 N/A1845.2 ± 28.8 1524.4 ± 267.9 Pow-d 126.6 ± 78.2 167.2 ± 72.3 123.0 ± 101.0 1558.2 ± 227.0 1752.2 ± 186.21355.2 ± 151.30FedCor(我们的方法)94.8 ± 18.4 84.0 ± 53.1 68.8 ± 27.5 1033.4 ± 123.7 1269.2 ± 70.6 1076.8 ± 262.80表1.在三种异构设置(2SPC、1SPC和Dir)下,每种选择策略实现目标测试准确率所需的通信轮数(括号中指定)。结果是在5个随机种子上的均值和标准差。N/A表示相应的选择策略在最大通信轮数(FMNIST为500,CIFAR-10为2000)内无法在某些随机种子上实现目标准确率。05. 实验05.1. 实验设置0我们在两个数据集FMNIST [34]和CIFAR-10[14]上进行实验。对于FMNIST,我们采用具有两个隐藏层的MLP模型,该模型在集中训练下可以达到85.92%的准确率。对于CIFAR-10,我们采用具有三个卷积层和一个全连接层的CNN模型,该模型在集中训练下可以达到73.84%的准确率。有关模型构建和训练超参数的更多细节,请参见附录C.1。对于每个数据集,我们在N=100个客户端上尝试了三种不同的异构数据分区,如下所示。0(i)每个客户端有2个分片(2SPC):这个设置与[23]中的非IID设置相同。我们按照标签对数据进行排序,并将其分成200个分片,使得一个分片中的所有数据具有相同的标签。我们随机将这些分片分配给客户端,每个客户端有两个分片。由于所有分片的大小相同,数据分区是平衡的。0也就是说,所有客户端具有相同的数据集大小。在这个设置中,每轮选择C=5个客户端。(ii)每个客户端有1个分片(1SPC):这个设置与2SPC设置类似,唯一的区别是每个客户端只有一个分片,即每个客户端只有一个标签的数据。这是最高异质性的数据分区,也是平衡的。在这个设置中,每轮选择C=10个客户端。(iii)Dirichlet分布,α=0.2(Dir):我们继承并稍微改变了[7]中的设置,以创建一个不平衡的数据分区。我们从由浓度参数α=0.2参数化的Dirichlet分布中对一个客户端上每个标签的数据比例进行采样。更多细节请参见附录C.2。在这个设置中,每轮选择C=5个客户端。我们将FedCor的训练过程分为两个阶段:(i)热身阶段:我们在每轮中均匀采样客户端选择Kt,并收集U中所有客户端的损失值来训练GP,即∆t=1和S=1。我们将热身阶段的长度设置为15(FMNIST)和20(CIFAR-10)。(ii)正常阶段:在热身阶段之后,我们按照算法2选择客户端并更新GP。在所有实验中,我们使用FedAvg[23]作为FL优化器。我们在所有实验中使用五个随机种子的平均结果。我们首先展示我们的方法相比于三个基准方法(随机选择Rand,主动FL(AFL)[6]和Power-of-choice选择策略Pow-d[4])可以实现更快和更稳定的收敛。然后,我们将对GP训练间隔∆t以及退火系数β进行消融研究。最后,我们使用t-SNE[21]可视化客户端嵌入X,并展示FedCor可以有效捕捉相关性。follow Algorithm 2 to select clients and update the GP.In all the experiments, we use FedAvg [23] as the FLoptimizer. We present the average results using five randomseeds in all experiments. We will first show that our methodcan achieve faster and more stable convergence, comparedwith three baselines: random selection (Rand), Active FL(AFL) [6] and Power-of-choice Selection Strategy (Pow-d) [4]. Then, we will give ablation studies on the GP traininginterval ∆t as well as the annealing coefficient β. Finally,we visualize the client embeddings X with t-SNE [21] andshow that FedCor can effectively capture the correlations.101080图5. 在2SPC、1SPC和Dir三种异构设置下,不同GP训练间隔∆t对FMNIST和CIFAR-10的测试准确率的影响。05.2. 异构设置下的收敛性0我们将我们的方法FedCor与其他基线方法在FMNIST和CIFAR-10上的收敛速度进行比较,并在图4中展示结果。我们将GP更新间隔∆t设置为10,退火系数β设置为0.95进行FMNIST实验,将∆t设置为50,β设置为0.9进行CIFAR-10实验。如图4所示,FedCor在所有实验中都实现了最高的测试准确率和最快的收敛速度。而其他主动客户端选择策略与完全随机策略相比只显示出轻微甚至没有优势,我们的方法明显优于所有基线方法,特别是在数据集极度异构的情况下,即每个客户端的数据只包含一个标签(1SPC)。此外,FedCor的学习曲线比其他方法更平滑,噪声更小,这意味着FedCor减小了方差,使联邦优化更加稳定。表1显示了每种选择策略实现指定测试准确率所需的通信轮次。我们可以看到FedCor实现了指定的准确率。0在FMNIST和CIFAR-10上,我们的方法FedCor的收敛速度分别比Pow-d快34%~99%和26%~51%。05.3. 更大的GP训练间隔的结果0在GP更新轮次中收集训练数据会带来通信开销,因为我们需要将模型广播给所有客户端。因此,研究最小GP更新频率是很重要的。我们改变GP训练间隔,并在图5中展示准确率曲线。我们对FMNIST进行实验,设置∆t = 10, 20, 500,β =0.95, 0.95, 0.99;对CIFAR-10进行实验,设置∆t = 50,100, 2000,β = 0.97, 0.97,0.999。如图所示,随着训练间隔的增大,性能略微下降。值得注意的是,即使在热身阶段之后不更新GP模型(对FMNIST为∆t = 500,对CIFAR-10为∆t =2000),FedCor仍然比随机选择策略实现更快的收敛。这些结果表明,GP模型学到的相关性是稳定的,这支持了我们在第4.5节中的假设。总之,通过以非常低的频率训练GP模型,可以大大减少通信开销,同时保证在通信受限的联邦学习设置下的收敛速度和准确性。05.4. 退火系数的影响0我们还进行了使用不同的退火系数β进行实验,该系数控制客户端选择的“集中程度”。我们对FMNIST进行FedCor实验,设置∆t =10和β = 0.5, 0.75, 0.9;对CIFAR-10进行FedCor实验,设置∆t =50,β = 0.9, 0.95,0.99。在2SPC设置下的学习曲线以及客户端选择频率如下所示:101090图6.在2SPC设置下,不同退火系数β对FMNIST和CIFAR-10的测试准确率和客户端选择频率的影响。频率表示每个客户端在整个训练过程中被选择的次数。0图7. 在1SPC设置下的客户端嵌入可视化。0如图6所示,当使用较小的β时,整体客户端选择似乎更加“均匀”,而学习曲线几乎不变。请注意,这并不意味着具有较小β的FedCor等同于均匀采样,相反,FedCor仍然相对于均匀采样实现了一致的改进。第4.4节已经讨论了原因:FedCor不仅考虑了每个客户端对联邦学习的贡献,还考虑了客户端之间的相关性来选择最佳的客户端组。这里的实验结果表明,选择一个好的“组”比选择好的个体更重要。05.5. 客户端嵌入可视化0为了深入了解GP模型学到的相关性,我们展示了在1SPC设置下在热身阶段学到的客户端嵌入的t-SNE[21]图. 在图7中,每个嵌入都标有相应客户端上唯一的数据标签.我们将嵌入向量的长度归一化为1,以便两个嵌入之间的距离为1.0嵌入可以揭示相关性. 我们可以看到,具有相同标签的客户端的嵌入被聚集在一起,这证明了FedCor在热身阶段正确捕捉到了客户端之间的相关性.06. 结论和未来工作0这项工作提出了FedCor, 一种用于异构环境的联邦学习框架,其中包含一种新颖的客户端选择策略.FedCor基于这样一个直觉,即利用客户端之间的相关性在异构联邦学习中实现更快速和更稳定的收敛. 具体而言,我们使用高斯过程模型来建模客户端之间的相关性,并基于此设计了一种有效且可解释的客户端选择策略.我们还开发了一种低通信开销的高斯过程训练方法.在FMNIST和CIFAR-10上的实验结果表明,在高度异构的环境下, FedCor能够有效加速和稳定训练过程.此外,我们验证了FedCor仅使用损失信息就能正确捕捉客户端之间的相关性.如何将FedCor扩展到其他任务并进一步利用所捕捉到的相关性是未来工作的一个有趣方向. 此外,我们的方法专注于跨存储联邦学习场景[9],如何将其扩展到跨设备场景是一个有意义的课题.0致谢0这项研究部分得到了亚马逊等的慷慨支持.本材料中表达的任何观点、结论或建议均属于作者个人观点,不代表亚马逊及其承包商的观点.101100参考文献0[1] Peter Auer. 利用置信区间进行开发-探索权衡.机器学习研究杂志, 3(Nov):397-422, 2002. 30[2] Stephen Boyd, Neal Parikh, 和 Eric Chu.分布式优化和统计学习: 交替方向乘子法. Now Publishers Inc,2011. 10[3] Eric Brochu, Vlad M Cora, 和 Nando De Freitas.昂贵成本函数的贝叶斯优化教程,并应用于主动用户建模和分层强化学习.arXiv预印本arXiv:1012.2599, 2010. 3, 40[4] Yae Jee Cho, Jianyu Wang, 和 Gauri Joshi.联邦学习中的客户端选择: 收敛分析和选择策略的选择.arXiv预印本arXiv:2010.01243, 2020. 1, 2, 4, 7, 14, 17, 180[5] Dennis D Cox 和 Susan John. 一种全局优化的统计方法.在[Proceedings] 1992 IEEE国际系统、人类和控制论会议上,页码1241-1246. IEEE, 1992. 3, 40[6] Jack Goetz, Kshitiz Malik, Duc Bui, Seungwhan Moon,Honglei Liu, 和 Anuj Kumar. 主动联邦学习.arXiv预印本arXiv:1909.12641, 2019. 1, 2, 4, 7, 180[7] Tzu-Ming Harry Hsu, Hang Qi, 和 Matthew Brown.测量非相同数据分布对联邦视觉分类的影响.arXiv预印本arXiv:1909.06335, 2019. 6, 180[8] Tzu-Ming Harry Hsu, Hang Qi, 和 Matthew Brown.具有真实数据分布的联邦视觉分类. 在计算机视觉-ECCV 2020:第16届欧洲会议, 格拉斯哥, 英国, 2020年8月23日-28日, 论文集,第X16卷, 页码76-92. Springer, 2020. 20[9] Peter Kairouz, H Brendan McMahan, Brendan Avent, Au-rélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, KeithBonawitz, Zachary Charles, Graham Cormode, Rachel Cum-mings, et al. 面向联邦学习的进展与开放问题.arXiv预印本arXiv:1912.04977, 2019. 1, 2, 80[10] Sai Praneeth Karimireddy, Satyen Kale, Mehryar Mohri,Sashank J Reddi, Sebastian U Stich, and Ananda TheerthaSuresh. Scaffold: 设备上联邦学习的随机控制平均.arXiv预印本arXiv:1910.06378, 2019. 1 , 20[11] Diederik P Kingma and Jimmy Ba. Adam:一种随机优化方法. arXiv预印本arXiv:1412.6980, 2014. 180[12] Jakub Koneˇcn ` y, Brendan McMahan, and DanielRamage. 联邦优化: 数据中心之外的分布式优化.arXiv预印本arXiv:1511.03575, 2015. 1 , 20[13] Jakub Koneˇcn ` y, H Brendan McMahan, Felix X Yu, PeterRichtárik, Ananda Theertha Suresh, and Dave Bacon. 联邦学习:提高通信效率的策略. arXiv预印本arXiv:1610.05492, 2016. 1 , 20[14] Alex Krizhevsky, Geoffrey Hinton, et al.从小图像中学习多层特征. 2009. 60[15] Ang Li, Jingwei Sun, Pengcheng Li, Yu Pu, Hai
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功