联邦学习中的局部漂移解耦和校正算法（FedDC）：提高性能和收敛速度

189 浏览量更新于2023-10-26 1 收藏 936KB PDF 举报

联邦学习

性能改进

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10112FedDC：通过局部漂移解耦和校正高亮1傅华珠2李莉3，§陈颖文1，§徐明1徐成忠31中国国防科技大学。2IHPC，ASTAR，新加坡。3澳门大学，IOTSC，中国。摘要联合学习（FL）允许多个客户端集体训练高性能的全局模型，而无需共享其私有数据。然而，联邦学习面临的主要挑战是客户端的本地数据分布具有显著的统计异质性，这将导致客户端优化的本地模型不一致。为了解决这个根本的困境，我们提出了一种新的联邦学习算法与局部漂移解耦和校正（FedDC）。我们的FedDC仅在本地训练阶段引入轻量级修改，其中每个客户端利用辅助本地漂移变量来跟踪本地模型参数和全局模型参数之间的差距FedDC的关键思想是利用这个学习到的局部漂移变量来弥合差距，即，在参数级进行一致性。实验结果和分析表明，FedDC产生加速收敛和更好的性能在各种图像分类任务，鲁棒的部分参与设置，非iid数据，和异构客户端。1. 介绍联邦学习（FL）是一种新兴的分布式机器学习范式，它利用来自多个客户端的分散数据，在中央服务器的协调下联合训练共享的全局模型，而无需共享个人这使得FL超越传统的并行优化，以避免系统性隐私风险[5，7，15，16，24]。FedAvg [19]是一种广泛使用的FL聚合算法，其中每个客户端在每个通信回合中执行多个随机梯度下降（SGD）步骤，以最小化局部经验风险。之后，中央服务器用客户端返回的更新更新全局模型然而，最近的研究[9，17，18]表明FedAvg不能很好地收敛异构数据（非iid）。§LiLi（LLiLi@um.edu.mo）和YingwenChen（ywch@nudt.edu.cn）为通讯作者。FL中的客户端的数据分布可以是高度不同的，因为客户端独立地收集具有自己的偏好和采样空间的本地数据。非iid分布数据导致客户端局部目标函数和优化方向的不一致。文献[9，10]的研究证明，数据的异构性导致了客户端局部更新的漂移FL模型和集中式学习模型之间的参数漂移来自两个部分：上一轮的剩余参数漂移和本轮的梯度漂移[30]。由于数据分布的差异，最小化局部经验损失和减少全局经验损失之间存在着根本矛盾。因此，在高度异构的环境中，FedAvg缺乏收敛保证，只能获得折衷的收敛速度和模型性能。为了解决这种客户端漂移，已经提出了一些方法来减少本地更新的方差[9，17]。例如，FedProx [17]添加了一个近端项，以强制减少局部和全局模型之间的模型差异。然而，近端项阻碍了全局模型向全局平稳点移动。Scaffold [9]使用控制梯度变量校正客户端漂移然而，它只是近似地降低了每轮的梯度漂移，而不能消除梯度漂移，根据[30]的研究，剩余偏差会在训练过程中累积放大，这是减慢收敛速度，导致性能下降的主要因素。事实上，大多数以前的FL方法迫使局部模型与全局模型一致。最后得到一个忽略局部目标与全局目标不一致它们对减小梯度漂移有一定的作用，但仍存在逐渐增大的参数偏差我们承认这样一个事实，即客户端的局部最优点与异构FL设置中的全局最优点根本不一致。客户端的局部平稳点可以任意不同于全局平稳点。基于这一观察，我们提出了一种新的联邦学习算法与本地漂移解耦和校正（FedDC），以处理不一致的10113NS||Σ|D|w =θ，（2）W|D|我具有辅助漂移变量的目标，以跟踪局部模型和全局模型之间的局部参数漂移。我们的FedDC动态地更新每个客户端的局部目标函数，其中包含（1）一个约束惩罚项，指示全局参数、漂移变量和局部参数之间的关系;（2）一个梯度校正项，用于减少每轮训练中的梯度漂移。通过引入漂移变量，在训练过程中将局部模型和全局模型解耦，减小了局部漂移对全局目标的影响，使其收敛速度快，性能更好。我们在几个公共数据集上进行了实验，包括MNIST，fash- ion MNIST，CIFAR 10，CIFAR 100，EMNIST-L，tiny Im，ageNet和合成数据集。结果表明，与竞争FL方法（例如，FedAvg [19]、FedProx [17]、Scaffold [9]和FedDyn[1]）。2. 相关工作近年来，外语已成为一个热门的研究课题[3，8，11]。作为一项开创性工作，FedAVG [19]进行加权参数平均，以更新来自多个客户端的参数[10，13]中的工作表明，FedAvg对于同构客户端达到了渐近收敛。然而，Woodworth等人 [25]证明了FedAVG收敛的界限对于异构客户端可能完全不同。[9，18]中的研究声称，由非iid数据引起的客户端更新中的客户端先前的工作表明，非iid数据将在FL中引入挑战，例如梯度发散，操作，最小化方向偏差和不保证收敛。为了进一步分析客户漂移与数据异质性之间的相关性，一些工作使用统计变量进行个性化的局部目标。Scaffold [9]为每个客户端定制梯度，以修复客户端在本地模型和全局模型之间的漂移。类似地，Fed-Dyn [1]为每个设备提出了一个动态正则化器使全球和设备解决方案保持一致，并节省传输成本。另一种类型的工作试图优化中央服务器上的参数聚合步骤，以获得更好的全局模型。[29] dynamic通过计算客户可以从全局模型中获益多少来计算客户的本地模型的最佳加权组合。Reddi等人。 [22]提出了基于客户端异构性和通信效率之间相互作用的联邦自适应优化，以防止不利的收敛行为。Yang等人。 [27]在局部更新和全局更新中使用双侧学习率实现了非iid数据的线性加速。这些方法与我们的方法是兼容的，可以很容易地集成到我们的方法。这些改进方法在收敛速度和性能上都优于FedAvg。然而，Zhao等人 [30]的理论表明，参数偏差会累积并导致次优解。在本文中，我们提出了FedDC，它通过跟踪和桥接局部漂移来实现局部和全局模型的并行化。3. 联邦学习在FL中，我们假设联邦中有N个客户端，并假设Di是客户端i目标是在全局数据集D=i∈[N]Di上得到一个全局模型，它解决了以下目标：w= arg min L（w）= |Di|L（w），（1）一些研究试图减少客户端更新的方差以加速收敛。在包含非iid分布数据的不同客户端上使用统一的全局模型来最小化经验风险函数使得难以收敛到出色的全局模型。FedProx [17]克服了统计异质性，并通过针对全局模型在局部模型上添加近似正则化来增强稳定性近端项使更新后的局部参数接近全局模型，从而减小了势梯度发散。但是，它违背了局部经验目标的最优点与全局最优点不同的事实，导致性能低下。这些方法的主要局限性是，他们忽略了客户端模型的差异，导致子其中w是全局模型的参数，L（w）是全局数据集D上的经验损失，|D i|是Di上的样本数，|D|是D上的样本数，Li（w）= E（x，y）∈Di l（w;（x，y））是客户端i的局部数据集Di上的局部经验损失。为了避免隐私泄露，任何客户端都不能与他人共享其原始数据FedAvg建议协调多个客户端进行coop-使用中央服务器迭代地训练全局模型，同时保护数据隐私[19]。具体来说，在FedAvg中，对于每个训练轮，所有客户端都在本地数据集上优化他们的本地模型，然后服务器采用本地模型参数的期望值来更新全局模型，如下所示：N最佳性能和缓慢收敛速度在非iidi我数据分布i=1 |D|*代码可在https://github.com/gaoliang13/ FedDC上获得其中w是全局模型参数，θi是客户端i然后，更新后的全局模型参数i=110114- -−∀ ∈2222ηK ⟨ − ⟩−我我我我2001年f2002年，以及通过学习模型漂移和桥接客户端上的漂移来提高模型收敛我们的FedDC在训练阶段引入了轻量级修改，使用本地漂移将全局模型与客户端的本地模型解耦具体而言，在局部训练阶段，每个客户端学习表示其局部模型和全局模型之间的差距的局部漂移变量然后，利用局部漂移变量对局部模型参数进行修正图1.使用Sigmod激活函数f说明FedAvg中的局部漂移。wc是用集中式数据训练的模型（理想模型）的参数，wf是由FedAvg生成的模型的参数。θ1和θ2分别是客户端1和客户端2的局部模型的参数。ETER被广播给客户端，并在下一轮中用作本地模型的起点。在本地数据集上训练的每个客户端的本地模型与直接在全局数据集上训练的全局模型之间存在漂移如果忽略漂移，服务器将得到一个倾斜的全局模型。FL面临着异构数据的挑战。对于FL中高度偏斜的非IID数据，FedAvg的性能显著降低[17，23]，这表明忽略局部漂移的FedAvg方法导致全局模型的偏差。在图1中，我们展示了一个简单的示例，客户端的本地漂移将导致FedAvg中的全局模型有偏差。我们假设存在非线性变换函数f（例如，激活中的Sigmoid函数层）中。假设θ1和θ2是客户端1和客户端2的局部参数，w c是理想模型参数，wf是通过FedAvg生成的模型参数。客户端1和客户端2的局部漂移（表示为h）分别为（h1= wcθ1）和（h2= wcθ2）。 x是一个数据点，在客户端1上对应的输出是y1= f（θ1，x），在客户端2上对应的输出是y2= f（θ2，x）。然后模型参数在参数聚集阶段之前这样，FedDC减小了局部模型参数与全局模型参数之间的距离，这也减小了偏斜的局部模型对全局模型的负面影响。4.1. FedDC的目标首先，我们为每个客户端定义一个局部漂移变量hi。在理想情况下，局部漂移变量应满足以下限制：hi=w θi，其中θi是客户端i在整个训练过程中，我们需要保持这种限制，以防止局部漂移变量脱离我们的控制。因此，对于客户端i，我们进一步将此限制转换为惩罚项：R i（θ i，h i，w）=||h i+θ i−w||2，n∈[N].（ 3）每个客户端利用该惩罚项及其在相应数据集上的经验损失项来训练模型参数和局部漂移变量。通过这种方式，我们将方程约束优化问题转化为无约束优化问题。在FedDC中，每个客户端的目标函数包含三个分量：局部经验损失项、惩罚项和梯度校正项。具体来说，对于客户端i（i[N]），θi的局部目标是最小化以下目标函数：α由Fed A vg产生的可表示为wf=θ1+θ2。集中式模型是一种理想的模型，F（θi;hi，Di，w）=Li（θi）+2Ri（θi;hi，w）+Gi（θi;gi，g），（四）理想输出，即f（wc，x）= y1 +y2。因此，参数集中式模型的公式为w c= f −1（y1 +y2）/x，其中f−1是f的反函数。由于f是一个非线性函数，因此我们有wc和f（wf，x）y1+y2。这表明FedAvg中的全局模型是倾斜的，这可能会收敛缓慢且精度差因此，我们可以学习全局模型和局部模型之间的局部漂移，并在将局部模型参数上传到服务器之前桥接局部漂移。这符合FL的直觉。其中Li是典型的经验损失，Ri是等式中的惩罚项3，α是控制R i权重的超参数，G i是控制梯度随机优化的梯度校正项。受Scaffold [9]的启发，我们将梯度校正项设置为Gi（θi;gi，g）=1θi，gi g，其中η是学习率，K是一轮中的训练迭代次数。gi是上一轮中第i个客户端的本地参数的本地更新值在第t轮中，我们有g i= θ t−θ t−1和g=Ei∈[N]gi，其中θt和θt−1是客户端i的局部4. 该方法在此基础上，提出了一种新的局部漂移解耦校正的反馈学习算法（FedDC），以提高系统的鲁棒性第t轮和第（t1）轮的模型参数，项Gi的作用是减小局部梯度的方差。更新本地模型参数。在每轮开始时，服务器首先发送全局页面，局部模型参数全局模型参数y2=1101+102F =21 +100（10115∀ ∈我我我我我αα<$NN我我我|D|我我−−将上一轮的参数发送给所有客户端。每个客户端i（i[N]）将全局模型参数加载到日志中。cal模型（设置θi=w），然后通过最小化方程中的目标函数来更新局部模型。4.第一章我们假设每个训练轮包含K个局部训练迭代，在第t轮的第k个局部训练迭代中，局部模型参数更新如下：t，k+1t，kF（θt，k;ht，Di，wt）图2.FedDC使用期望的训练过程θ i= θ i−η我我θt，k、（五）最大值（EM）算法。在每一轮中，局部参数并且在客户端侧迭代地更新全局参数其中η是学习速率。Eq。5在每轮中执行K更新局部漂移变量。然后介绍了局部漂移变量hi的更新方法。我们使用上标+符号来表示第K在FedDC中，局部漂移变量跟踪局部模型和全局模型之间的差距模型在训练轮中，我们假设全局模型参数w更新为w+，而局部模型参数固定。然后，我们可以使用h+=hi+（w +）来w）。但是，由于不可用，无法直接更新全局模型全局数据优化hi的另一种方法是使用等式中hi的偏导数来最小化目标损失。其中θi和w在客户端固定。然而，这需要K次反向传播的为了减少计算，假设我们首先更新了局部模型参数从θi到θ+，这是必须完成的步骤。然后我们考虑以下两点：1）在开始时，每一轮，局部模型参数被分配有全局模型参数：θi=w。2)对于客户端i，局部模型参数θ+是更新后的全局模型模型参数w+。因此，代替h+= h i+（w+w），我们可以近似地更新局部漂移变量，使用：h+=h+（w+−w）<$h+（θ+−θ），（6）（M步）和服务器端（E步）。4.2. 训练过程我们总结了FedDC的期望最大值（EM）算法的训练过程EM算法被用来解决参数优化问题的情况下，有丢失的信息。在FedDC中，直接优化参数的传统机器学习方法不适用，因为有三种类型的变量。此外，局部参数和全局参数在不同的设备上进行我们可以迭代地修复两个变量，同时每次优化另一个变量。这样，我们就一步一步地寻找一个变量的极值，最后逐步逼近这些变量的极值FedDC的训练过程如图2所示。在每一轮中，我们在客户端执行最大化步骤（M-step）以优化局部模型参数θi和局部漂移变量hi。然后，我们在服务器端执行Expec- tation步骤（E-step）以更新全局模型参数w。4.3. FedDC的收敛性证明了非凸情形下FedDC的收敛性。对于非凸的β-Lipschitz光滑的局部经验损失函数Li，n∈[N]，存在一个βd>0，其中，α<$=α−βd>0，且2Li≥−βdI。我们假设我我我我我我局部经验损失L是非凸和B-相异度，其中θ由方程式 6是θ t，0和θ+短-ti的简写我我我其中B（θ）≤B。FedDC的全球经验损失第t轮θt，K的手通过这种方式，我们可以重用更新减少如下：以更新局部漂移并避免执行针对hi的反向传播过程。ECtL（w t）≤L（w t−1）− 2p||L（w t−1）||2、（8）更新全局模型参数。更新全局模型参数，在模型聚合其中p=（γ-B（1+γ）δ2α<$N−βB（1+γ）αα¯β（1+γ）2B22α¯2阶段每个客户端使用βB2（1+γ）2（2<$2C+2））>0，且C是活动客户端集局部漂移变量：（θ++h+）。然后每个客户端向上进入包含C客户端的第t轮更多细节我我将校正的本地参数加载到服务器。与FedAvg类似，服务器执行校正的局部参数的加权平均以获得全局模型参数：w+= 0 |Di|（θ++ h+），（7）i=1在附录B中提供了收敛保证。4.4. 讨论我们的FedDC似乎与SCAFFOLD，FedProx和FedDyn等以前的方法具有类似的目标，因为它们都试图减小由非IID��=e步骤服务器F��|��，��，F��|��，��，��，ℎ��∇��∇ℎm步每一个客户端，（+）��我−−不10116||其中Di是客户端i上的样本量，w+是更新的全局模型。数据，但有根本的区别。先前方法的一般方法（例如，SCAFFOLD，FedProx10117||−||||−||和FedDyn）是限制局部优化方向以减小局部模型与全局模型之间的参数差距，即限制θi接近w（即minθiw）。然而，由于局部分布和全局分布可能不一致，限制局部模型的优化方向会阻碍局部模型拟合局部数据集分布。在FedDC中，我们认为学习参数间隙比限制它更好，FedDC利用局部漂移变量来学习局部模型和全局模型之间的参数间隙。然后使用局部漂移变量来弥合差距，其中我们学习局部漂移hi以实现目标minθi+hiw。换句话说，FedDC并不妨碍局部模型学习局部特征和最小化局部经验风险。我们将FedDC的优点归因于它学习局部漂移，并在不妨碍局部训练过程的情况下很好地弥合了参数差距。5. 实验在本节中，我们将评估FedDC的有效性，并在各种数据集和设置中将FedDC与几种高级方法进行具体而言，主要从两个方面进行评估：1）收敛速度和2）模型精度。由于篇幅限制，附录A给出了更详细的实验结果和消融研究。5.1. 数据集和基线我们在六个基准数据集上进行了探索：MNIST[14]，时尚MNIST [26]，CIFAR 10，CIFAR 100 [12]，EMNIST-L [2]，Tiny ImageNet [21]和Synthetic [17]数据集。对于所有这些，我们采用与以前的作品相同的训练/测试分割[1，17，19]。在iid设置中，训练样本是随机选择的，并平均分配给客户端。所有客户端都有相同数量的训练数据，每个客户端的数据点均匀分布在所有类别中。在非iid数据设置中，标签比率遵循Dirichlet分布[28]。我们设置了两个非iid数据设置，它们被表示为D1和D2，其中Dirichlet参数分别为0.6和0.3。除此之外，我们通过对数正态分布采样样本来产生不平衡数据，其中我们设置变量，安斯为0。3 .第三章。对于合成数据集，遵循[1]中的设置，我们生成三种类型的数据设置，包括表示为“合成（0，0）"的同质性设置综合（1，0）"，数据异质性设置表示为“综合（0，1）"。更详细的设置见附录A。为了强调所提出的方法的通用性，我们基于四种网络结构验证了实验结果。我们对合成数据集使用多类逻辑分类模型。对于MNIST数字分类任务，采用与 [19] 相同的全连接网络（FCN）。采用卷积神经网络（CNN）对CIFAR10和CIFAR100上的样本进行分类，如[19]中所用。在TinyImageNet上，采用预训练的ResNet18 [6]来显示FedDC在预训练模型上的效率。我们将FedDC与几种先进的方法进行了比较，包括FedAvg [19] ， FedProx [17] ， Scaffold [9] 和 Fed-Dyn[1]。FedProx使用近端项来减少梯度方差。Scaffold尝试使用梯度校正项来校正本地更新，FedDyn使用动态正则化器来对齐客户端模型。与FedDC不同，这些方法都强调客户端模型与全局模型的一致性，忽略了参数聚集阶段的局部漂移。5.2. 超参数设置我们应用典型的FL架构，其中多个客户端在每个通信回合中通过使用其本地数据集训练模型来获得其本地更新，并且中心服务器聚合客户端更新以更新全局模型。我们利用SGD算法作为所有方法的本地此外，为了保持一致性，对于真实世界数据集上的所有方法，我们在局部训练阶段将批大小设置为50，每轮局部训练epoch设置为5，初始学习率为0。1，衰减率为0。九九八以上所有设置遵循之前的工作[1]。我们设置超参数α=0。01的 FedDC在CIFAR10 、CIFAR100和Tiny ImageNet上，α=0。1的FedDC上的MNIST，时尚MNIST和EMNIST-L。在合成数据集中，我们将客户端数量设置为20，本地批量大小设置为10，α=0。005联邦特区至于具体的超参数的基线，我们保持相同的设置，他们引用的论文。我们设置FedDyn的超参数α = 0。01和FedProx如果存在与上述不同的参数设置，则将具体在附录中解释。我们还研究了FedDC中不同α值的影响（见附录A）。5.3. 结果和分析通过大量的实验来验证FedDC在收敛速度和模型性能上的优越性。此外，我们还展示了FedDC在不同的参与程度，不同的客户规模和不同的数据异构性的鲁棒性和优越性。所有结果都是基于全局模型报告的。由于基线和FedDC在每轮中消耗相同的计算FedDC的目标主要包括两个方面：（1）加快模型收敛速度以降低通信开销，(2)提高在不同环境下训练的模型性能10118↑×表1.在不同的方法中的通信轮达到相同的目标精度。左半部分是完全参与的结果，并且右半部分是部分参与的结果，其中每个包括一个iid设置和两个非iid设置，其中0.6-Dirichlet非iid设置表示为此外，我们将每种方法实现目标精度的通信轮数表示为“R #“，相对于FedAvg的相应收敛加速表示我们使用>符号来表示无法在通信约束内达到目标精度的方法。模型充分参与部分参与（15%）D1D2IIDD1D2IIDR编号S↑R编号S↑R编号S↑R编号S↑R编号S↑R编号S↑MNIST，100个客户端，目标准确率98%FedAvg258263584635-0.98×4.45×5.61×7.37×492480585137-1.03×8.48×9.65×13.3×142136532726-1.04×2.68×5.26×5.46×3613836212260-0.94×5.82×2.96×6.02×>6004187215362-1.44×8.33×3.92×9.68×158149507146-1.06×3.16×2.23×3.43×FedProx支架FedDynFedDC时尚MNIST，100个客户端，目标准确率89%FedAvg>300>30011715086-1×2.56×2×3.49×273>300169211126-0.91×1.61×1.29×2.17×112130853824-0.86×1.32×2.95×4.67×>300>300133>30087-1×2.26×1×3.49×>300>300>300267252-1×1×1.12×1.19×1441281088563-1.13×1.33×1.69×2.29×FedProx支架FedDynFedDCEMNIST-L，100个客户端，目标准确率94%FedAvg142135433043-1.05×3.30×4.73×3.3×192198525260-0.97×3.69×3.69×3.2×10792302721-1.16×3.57×3.96×5.1×153145447348-1.06×3.48×2.1×3.19×245240688174-1.02×3.6×3.06×3.31×108105426147-1.03×2.57×1.61×2.3×FedProx支架FedDynFedDCCIFAR10，100客户端，目标准确率80%FedAvg>10004741656053-2.11×6.06×16.67×18.86×>1000>10002187570-1×4.59×17.54×14.28×2862771205543-1.03×2.38×5.2×6.65×616459200193141-1.34×3.08×3.19×4.37×>1000>1000263195143-1×3.80×5.12×6.99×>1000307126145108-3.28×7.93×6.9×9.26×FedProx支架FedDynFedDCCIFAR100，100个客户端，目标准确度40%FedAvg476502915139-0.95×5.23×9.33×12.2×847507945341-1.67×9.01×15.98×20.65×>1000273845637-3.66×11.9×17.85×27.03×615980106149102-0.63×5.8倍4.42×6.03×520503114148103-1.03×3.56×3.51×5.05×724650113143100-1.11×6.41×5.06×7.04×FedProx支架FedDynFedDC表2.Tiny ImageNet上的前1名测试准确率，20个客户端在iid和非iid设置上进行了10轮培训。方法D1D2IIDFedAvg43.8642.6244.30FedProx43.5542.2544.11支架44.3843.3845.07FedDyn45.3744.7145.61FedDC46.4446.6047.91数据集。我们的研究结果突出了FedDC组件的好处，现有的FL优化方法。FedDC的快速收敛表1比较了FedDC和上述基线的收敛速度。结果表明，FedDC算法能有效地处理局部漂移问题，与其他算法相比，加快了收敛速度。具体而言，FedDC可以使用比FedAvg、FedProx、Scaffold和FedDyn更少的通信回合来实现目标准确性。例如，在iid设置中，FedDC花费37轮通信来实现40%的准确性，而100个客户端完全参与CIFAR100的培训，而FedAvg花费超过1000轮来实现40%的准确性。也就是说，FedDC相对于FedAvg的收敛速度是快过2703.我们可以将其归因于FedDC桥接局部漂移并有效地优化目标的事实。收敛加速还导致按比例的通信节省。图3显示了收敛图的更生动的结果，其中FedDC在所有设置中始终是最快的。图3（a，d）显示了CIFAR10和CIFAR100在iid设置下的收敛图图3（b，e）是非iid设置的精度图从这些收敛图中，我们直观地观察到FedDC实现了更好的准确性，并且大大加快了收敛速度。很明显，FedDC相对于基线的收敛加速在非iid设置下比在iid设置下更大。随着数据异构性的增加，局部模型遭受更大的客户端漂移。FedDC通过使用在客户端学习的本地漂移变量弥合差距来处理漂移，因此FedDC在收敛速度方面比其他基线具有明显的优势。结果表明，FedDC具有较强的异构数据处理能力.图3（c，f）是不平衡数据集设置的收敛图。不平衡的数据引入了另一种类型的系统异构性，10119表3.对于完全客户参与和部分客户参与（15%）水平，iid、非iid和不平衡数据的前1测试准确率（%）。客户端数量有三种设置：设置1（100个客户端）、设置2（500个客户端）和设置3（20个客户端）。方法FedAvgFedProx支架FedDynFedDCFedAvgFedProx支架FedDynFedDC设置1100名客户全程参与100名客户部分参与CIFAR10-iid82.1681.8584.6185.2686.1881.6782.1684.6884.5085.71CIFAR10-D180.4280.7084.1385.2685.6481.0581.3283.5784.1084.77CIFAR10-D279.1478.8982.9684.1484.3279.7779.8482.5382.3084.58CIFAR 10-不平衡81.3781.9084.4585.6886.3181.6881.8884.4484.3085.35CIFAR100-iid39.6840.3951.2652.0755.5240.8040.6749.8051.2055.40CIFAR100-D140.4840.1551.1652.8455.3441.7641.8350.0151.7554.65CIFAR100-D240.1140.9350.4451.8954.8641.8141.8450.2551.1353.91CIFAR 100-不平衡40.0339.9351.3052.8155.6940.9041.0550.5751.0155.27MNIST-iid98.1298.1298.3298.5198.4598.1598.1198.4598.3898.47MNIST-D198.0998.0598.3998.4498.4898.1398.1298.4598.3098.49MNIST-D297.9897.9698.4598.4698.5198.0098.0498.3798.3098.40MNIST-不平衡98.1298.1098.3598.6098.4698.1598.1398.5098.3498.53设置2500名客户全程参与500名客户部分参与CIFAR10-iid73.4372.7781.5684.0784.9373.2672.5881.5882.4984.19CIFAR100-iid26.0328.2245.6250.2254.2527.3626.5030.4544.1150.61设置320名客户全程参与20名客户部分参与合成（0，0）98.6598.6598.6599.2599.3598.7598.7098.6599.3299.57合成（1，0）97.8397.8297.9098.6598.8397.7097.6797.9098.8299.23合成（0，1）97.7597.7597.9099.1099.3098.5298.5098.5899.3099.62收敛速度比平衡数据慢实验结果表明，FedDC在非平衡数据下的模型性能和收敛速度方面都具有一定的优势，并且在处理非平衡数据引起的异质性方面也具有一定的此外，这些数字中的普遍趋势是，随着目标精度的提高，FedDC相对于其他方法的通信节省变得更大。另一个趋势是，在CIFAR 100中，FedDC相对于基线的改善大于相同设置下的CI-FAR 10。我们将其归因于这样一个事实，即随着优化难度的增加，FedDCFedDC可以利用本地漂移变量来捕获客户端本地数据集中的系统异质性更好的FedDC性能。表3比较了FedDC的最佳准确度与各种设置下评估数据集的基线。在CIFAR 10和CI-FAR 100上，FedDC总是达到最佳的测试精度，而FedAVG和FedProx的精度最低。例如，当训练0.3-Dirichlet分布（Dw）CIFAR 10的数据时，100个客户端完全参与，FedDC的测试准确率为84。32%，FedAvg的准确率达到79。14%，Scaffolf的准确率达到82。百分之九十六FedDC还实现了不平衡设置上的top-1测试准确度的明显改善此外，设置2（500个客户端）和设置3（20个客户端）的结果表明，FedDC在实际相关的大规模分布式设置中是有效的对FedDC的改进表明，跟踪和纠正客户端漂移有效地防止了模型性能的下降。与Scaffold相比，FedDC不仅使用梯度修正项来减小梯度漂移，而且引入局部漂移变量来跟踪全局模型之间的偏差和局部模型，因此FedDC是防止精度降低的最佳模型。表2显示了在Tiny ImageNet上训练15轮的ResNet18的准确性，其中ResNet18从ImageNet预训练模型开始FedDC的性能在所有设置中都显著超过基线。这表明FedDC在使用预训练模型的任务中仍然有效。对异构数据的鲁棒性。更广泛的非iid数据或不平衡数据会大大减慢模型收敛速度[19]。比较图3（a，b，d，e）的收敛图，结果表明数据分布对模型收敛速度和精度都有显著影响。结果表明，在局部数据集不能很好地逼近全局分布的情况下，IID数据集的收敛速度比非IID数据集快。如表3所示，FedDC在iid、非iid和不平衡设置上的性能优于基线。相对于其他方法，当我们提高目标准确性或在更困难的任务上进行训练时，FedDC会获得更多的通信节省增益。数据的异质性会损害所有方法的模型性能在对100个客户进行培训并完全参与CIFAR100的情况下，FedDC的准确率为85。71%在iid设置，84。在0.6-Dirichlet（D1）分布中为 77% ，在 0.6-Dirichlet （ D1 ）分布中为 84. 在 0.3-Dirichlet分布（D_2，比0.6-Dirichlet分布更不均匀）中为58%。然而，即使在这些异构数据设置中，FedDC与基线相比也保持了其竞争优势，因为它能够中和局部漂移。强大的客户端。我们进行实验，以分析FedDC的有效性，同时采用不同数量的客户参与培训过程。我们在表3中报告了CIFAR10和CIFAR100数据集上部分参与和完全参与的100和500个FedDC101200.900.900.900.850.850.850.800.800.800.750.750.750.700.65200 400 600 8001000通信圆0.700.65200 400 600 8001000通信圆0.700.65100200300400500 600通信圆0.6(a) CIFAR10，iid，部分参与0.6(b) CIFAR10，D2，部分参与(c) CIFAR 10，不平衡，部分参与0.60.50.50.50.40.40.40.30.30.30.2200 400 600 8001000通信圆0.2200 400 600 8001000通信圆0.2100200300400500 600通信圆(d) CIFAR100，iid，全面参与(e) CIFAR100，D2，全面参与(f) CIFAR100，不平衡，充分参与图3. FedDC和其他基线在不同设置下的收敛图，其中100个客户端部分（15%）客户端参与iid，D2非iid（Dirichlet-0.3）以及CIFAR 10和CIFAR 100数据集的不平衡数据。(a)、（b）和（c）是部分参与的CIFAR 10培训。(d)、（e）和（f）是关于CIFAR 100的培训，并得到充分参与。始终保持最佳表现。与其他方法相比，FedDC收敛到更好的稳定点。在100个客户端（设置1）和完全客户端参与的设置中， FedDC 的测试准确率为 84 。在CIFAR10上达到93%，而FedAVG仅达到74。43%（11.5% 低于联邦储备委员会）的CIFAR10 。脚手架和FedDyn方法总是得到中间精度。此外，当客户端大小从100增加到500时，FedDC和其他方法之间的性能差距会增加。我们将其归因于每个设备（具有大量客户端）的样本数量较少，带来了更大的优化分散风险。对客户抽样的稳健性。FL中的设备具有异构性和灵活性，可以随时加入和退出。为了表明FedDC对于客户端采样是有弹性的，我们设置了完全参与和部分采样参与的实验（在这种设置中，我们每轮随机抽取15%的客户端加入训练）。我们在表3中比较了FedDC和基线算法的最终性能。部分客户参与意味着活动数据只是所有训练数据的一个子集，这导致不稳定和较慢的收敛。在完全客户端参与的情况下，iid CIFAR10上具有100个客户端的FedDC的准确率为86。18%，在15%的客户抽样，准确率下降到85。百分之七十一此外，结果证明，保持所有客户端活跃对于FedDC来说是不必要的，其中部分客户端参与可以实现与完整客户端参与类似的准确性FedDC保持最佳精度与其他方法相比，部分客户参与。因此，与基线相比，FedDC对客户端采样的弹性更大，因为它利用客户FedDC中的客户端在本地保存和更新漂移变量，因此偶尔中断的训练不会导致漂移状态的丢失，这允许客户端在部分客户端参与设置中更好地训练。6. 结论本文提出了一种新的局部漂移解耦校正FL算法（FedDC），以解决数据不均匀性引起的局部漂移问题。FedDC利用学习到的局部漂移变量动态地弥合局部模型和全局模型之间的差距。通过在不同图像分类数据集上的大量实验，我们证明了FedDC在FL中提供了更好的性能和更快的模型收敛。此外，FedDC在同构或异构数据中，无论是完全客户参与还是部分客户参与，都是鲁棒和高效的。鸣谢本研究得到了国家自然科学基金（ NSF ）62072306和61872372、并行和分布式处理实验室科学技术开放基金6142110200407和A*STAR AI3 HTPO种子基金（C211118012）的支持。FedDC支架FedProxFedDynFedAvgFedDC支架FedProxFedDynFedAvgFedDC支架FedProxFedDynFedAvgFedDC支架FedProxFedDynFedAvgFedDC支架Fe

下载后可阅读完整内容，剩余1页未读，立即下载