重新思考联邦学习中的数据异构：局部学习的一般性解决方案

195 浏览量更新于2023-10-25 收藏 695KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8397本地学习问题：重新思考联邦学习中的数据异构1、杨涛建南1、王璞2、李敏宇2、丁正明3、陈晨11美国中佛罗里达大学计算机视觉研究中心2美国北卡罗来纳大学夏洛特分校计算机科学系3美国杜兰大学计算机科学系{mendieta，taoyang1122}@ knights.ucf.edu;chen. crcv.ucf.edu{pu.wang，minwoo.lee}@ uncc.edu;zding1@tulane.edu摘要联邦学习（FL）是一种很有前途的策略，用于通过客户端网络（即，边缘设备）。然而，客户端之间的数据分发通常本质上是非IID的，这使得有效的优化变得困难。为了缓解这个问题，许多FL算法专注于通过引入各种近似项来缓解跨客户端的数据异质性的影响相反，我们考虑重新思考FL中数据异质性的解决方案，重点是局部学习的一般性，而不是近端限制。为此，我们首先提出了一个系统的研究通知二阶指标，以更好地了解算法的有效性FL。有趣的是，我们发现标准的正则化方法在减轻数据异质性影响方面表现得出奇的强大。在此基础上，我们进一步提出了一种简单有效的方法FedAlign，以克服数据异构性和以往方法的缺陷。FedAlign在各种设置中使用最先进的FL方法实现了具有竞争力的准确性，同时最大限度地减少了计算和内存开销。代码可在https://github.com/mmendiet/FedAlign上获得。1. 介绍联邦学习（FL）[17]使大量客户端能够在不损害数据隐私的情况下执行机器学习模型的协作训练。在FL设置中，参与的客户端通常部署在各种环境中或由不同的用户集拥有。因此，每个客户端的本地数据的分布可以相当大地变化（即，数据异质性）。FL中参与设备之间的这种非IID数据分布使得优化特别具有挑战性。当每个客户训练时它们局部地基于它们自己的数据，逐步接近它们各自的局部最小值。然而，该局部收敛点可能与全局模型的目标（即，通过在中央服务器处的聚合来学习的模型）没有很好地对准。因此，-10的客户端模型偏离了理想的全局优化点，并过度拟合其局部目标。当这种客户端漂移发生时，中央聚合模型的性能受到阻碍[9，14]。对这种现象的一个直接的解决方案是简单地限制在中心聚合步骤之间执行的局部训练时期的数量。然而，这严重阻碍了FL系统的收敛速度，并且需要许多通信轮次来实现足够的性能。收敛时间和巨大的通信开销所产生的这种方法往往是因此，有效地解决数据异构性是联邦学习中最重要的问题。在文献[1，10，15，23]中已经提出了这个问题的许多算法解决方案。这些策略通常侧重于通过引入各种近似项来限制相对于全局模型的局部更新，从而减轻跨客户端的数据异质性的影响然而，通过抑制漂移，它们也固有地限制了局部收敛潜力;每一通信回合收集较少的新颖信息。因此，与经典基线相比，许多当前FL算法在不同的非IID设置中没有提供稳定的性能改进[14，15]，特别是在超过MNIST难度的视觉任务上[13]。此外，现有方法很少关注客户端的资源约束，通常对于所部署的FL边缘设备来说是稀缺的，并且在某些情况下，在它们努力减轻客户端漂移的过程中，在客户端上引起相当大的计算例如，最先进的（SOTA）方法MOON在联邦图像任务上表现良好，但这样做会在内存和COM上产生1.38398Σc=1n2Σǁ −ǁ与标准FedAvg基线相比[17]。动机在集中式训练范式中，网络泛化能力已经被很好地研究以对抗过拟合.即使在标准设置中，训练和测试数据来自类似的分布，如果不采取任何预处理，模型仍然过拟合训练数据。当训练数据和测试数据具有不同的分布时，这种效果进一步加强。引入各种正则化技术来加强训练过程中的学习通用性，并保持适当的测试性能。类似地，对FL中每个设备的本地训练数据的过拟合对整体网络性能是有害的，因为客户端漂移效应在本地模型之间产生冲突的对象。因此，在存在数据异构性的情况在培训过程中提高当地学习的普遍性必然会使客户的目标更接近全球总体目标。然而，尽管有其直观的动机，这一观点已被忽视的大部分目前的外语文学。因此，在本文中，我们提出了重新思考的方法，数据异构性的本地学习的一般性，而不是最近的限制。具体来说，我们仔细分析了各种数据和结构正则化方法在减少客户端漂移和提高FL性能方面的有效性（第3节）。利用二阶信息和来自分布外一般性文献[19，21]的见解，我们确定了成功FL优化的理论指标，并对各种FL设置进行了评估，以进行经验验证。尽管一些正则化方法在减轻客户端漂移方面表现良好，但为了实现最佳性能，仍然会产生大量的资源开销（参见第4节）。因此，我们提出了FedAlign，这是一种基于蒸馏的正则化方法，可以在保持出色的资源效率的同时促进局部学习的通用性。具体来说，FedAlign专注于正则化网络中最后一个块的Lipschitz常数。通过只关注最后一个块，我们有效地正则化了网络中最容易过拟合的部分因此，FedAlign在各种FL设置的多个数据集上实现了最先进的准确性，同时与其他最先进的方法相比，所需的计算和内存开销显著减少。我们的贡献如下：我们接近最麻烦的FL挑战之一（即。客户端漂移造成的数据异质性）从一个独特的角度比任何其他以前的工作。我们不专注于重新参数化技巧，以保持接近中央模型，或调整聚合方案，以减轻非IID数据分布的影响因此，我们建议从根本上重新思考这个问题心理机器学习训练原理通过这种方式，我们分析了标准正则化方法在FL上的性能及其对数据非均匀性的有效性。我们不仅实证分析正则化方法在FL中的性能，我们还建议进行更深入的研究。具体来说，我们告知我们的分析与学习的一般性的理论指标，以提供洞察哪些方法是最好的，为什么。我们发现，海森特征值/跟踪测量和海森匹配的客户端是有意义的指标，最佳FL方法。此外，我们对各种FL设置进行了深入的消融研究，以了解不同方法的经验效果。我们的目标是为FL社区提供这些有价值的知识，以激发新的、富有成效的研究方向。通过我们的分析和检查以前的方法的陷阱，我们提出了FedAlign，它实现了具有竞争力的最先进的精度，同时保持内存和计算效率。2. 相关工作联邦学习一般来说，联邦学习算法的目标是获得一个集体模型，最大限度地减少所有客户端的训练损失。该目标可以表示为CminF（w）=αc Fc（w），（1）Wc=1其中，Fc（w）是设备c的局部损耗，α c是任意权重参数， Cαc=1 。 FL 中最早提出的算法之一是Federated Averaging，或FedAvg [17]。该方法简单地用标准SGD训练优化局部训练损失，并使用加权平均方法进行聚合，其中a c= nc，其中n c等于客户端c上的训练样本的数量，总共n个训练样本被划分在所有C个客户端上。最近的工作试图改善这一基线，有两个不同的重点：对客户端的本地训练的改进，或者对服务器的全局聚集过程的改进。在这项工作中，我们专注于本地培训和客户端漂移，因此我们将首先讨论这种性质的方法。为了减轻数据异质性复杂性，一种常见的方法是将邻近项引入局部训练损失。例如，FedProx [23]添加了近端项µw wt2，其中µ是一个超参数，w是当前局部模型权重，wt是第t轮的全局模型权重。这种重新参数化的目标是通过限制本地更新的影响变得极端来最小化客户端漂移。最近，MOON [15]提出了一个类似的重新参数化思想，灵感来自对比学习。具体地说，作者建立了一个局部模型，···8399我Σ。.ΣΣFLFIF- -三种模型的演示：全局模型、当前局部模型和来自所述连续轮的局部模型的副本。这个术语的目标类似于Fed-Prox，但在特征表示空间中;将当前的同时，当前局部模型被推离前一轮的局部模型副本的表示其他方法[1，10]遵循类似的想法;它们旨在限制局部更新的影响或利用校正项来移动更新。然而，这些方法有两个主要缺点。首先，通过抑制漂移，它们也固有地限制了局部收敛潜力。这样，每个通信回合不会收集那么多的新第二，这些方法中的许多在算法和/或计算中引起大量开销例如，由于其模型重复性损失，MOON [15]需要在训练期间同时在内存中存储三个全尺寸模型这需要大量的额外资源，而这些资源在FL客户端设置中通常已经很稀缺。其他工作集中在系统的服务器端，旨在改善聚合算法。[34]提出了一种贝叶斯非参数方法，用于在聚合时跨局部模型匹配神经元，而不是天真地平均。然而，所提出的框架在应用于全连接网络方面受到限制，因此[27]将其扩展到CNN和LSTM。FedNova [28]提出了一种归一化平均方法，作为简单FedAvg更新的替代方法。当我们专注于本地培训时，这些工作与我们的工作正交。一些方法[18，25，32]提出了受数据增强方法Mixup启发的联邦方案，对本地数据使用类似的平均然而，即使数据在分发之前以某种方式被增强，来自客户端的私有数据的共享对于隐私保护来说也不太理想。此外，共享额外的数据减轻了系统的通信负担，这是FL中的主要关注点。学习一般性。在传统的集中训练中，多种形式的经常化训练是提高通用性的普遍做法。数据级规则化，包括基本数据扩充和其他更先进的技术[33，36]，被认为是非常有效的。其他方法通过结构修改向训练过程引入一定程度的噪声;例如，对网络连接性进行随机或去自由修改[3，6，26]。[29]提出了一种混合方法，通过使用子网络表示，知识蒸馏和输入转换将自引导梯度扰动引入训练过程作为这项工作的一部分，我们在许多FL设置中采用了各种正则化方法，分析他们的性能相比，国家的最先进的FL算法。3. 实证研究我们希望从一个简单而独特的局部学习的一般性的角度来评估FL的数据异构性挑战具体来说，我们首先研究的有效性标准正则化技术的解决方案，这个FL的挑战相比，国家的最先进的方法。3.1. 预赛我们采用三种 FL 算法，即 FedAvg ， Fed-Prox 和MOON。这些作品代表了经典的基线和当前最先进的技术水平，并在第2节中进行了描述。为了比较，我们采用三种最先进的正则化方法：[36]，随机深度[6]和GradAug [29]。具体地，这些正则化方法被应用于标准FedAvg设置内的局部优化，并且它们的操作描述如下。Mixup是一种数据级增强技术，在两个样本之间执行线性插值。具体地， y， g i涉及样本标签对（ xi ， yi）和（ xj ， yj ）， y 被组合为 x∈=βxi+（1−β ）xj和y∈=βyi+（1−β ） yj ，其中β∈βeta（γ，γ）。Stochastic depth（StochDepth）是一种基于结构的方法，它在训练过程中丢弃层，从而创建不同有效长度的隐式网络集合具体地，给出层（或残差块）l的输出通过λA=σ（λθl（λA−1）+（λA−1）），其中λ是伯努利随机变量，θl是第l层参数为θ的网络内的运算，是剩余联络的恒等映射运算，σ是非线性激活功能保留概率定义为ρ=P（λ=1），实际上每一层都有自己的保留概率，线性衰减规则为ρA=1A（1ρL），L表示网络中的层（或块）的总数。GradAug是一种最近的正则化方法，它在基于蒸馏的框架中结合了数据级和结构技术。其训练损失定义为nL GA=L CE（Fθ（x），y）+µ L KDFθωiTi（x），Fθ（x），（2）i=1其中，θωi表示分数宽度ω i的精简子网络，Ti是对输入执行的变换（例如，分辨率缩放），并且μ是n个子网络上的交叉熵损失L CE与求和的Kull-back-Leibler散度（L KD）损失之间的平衡参数。每个子网络的ωi分数宽度是从下限ωb和1.0（全宽）。8400∼∼3.2. 实验装置为了开始我们的分析，我们测试了几个国家的最先进的FL算法与几个正则化方法在一个共同的FL设置的准确性。我们使用CIFAR-100 [12]进行实验，CIFAR-100是一个图像识别数据集，1201008060402001.00.50.00.51.01.00.00.50.51.01201008060402001.0120100806040200100个类别的50，000个训练图像，并采用ResNet56 [5]（如FedML [4]中使用PyTorch(a) FedAvg(b) GradAug[20]作为一种模式。与文献[1，4，15]中常见的一样，使用Dirichlet分布（Dir（α））将数据集划分为K个不平衡子集，默认值为α= 0。五、使用这种数据分区方案，客户端没有一个或多个类的样本因此，许多客户端只能看到全部类实例的一部分。这使得设置更加现实和具有挑战性。对于所有方法和实验，我们使用具有动量的SGD优化器，以及0.01的固定学习率。在我们的基本设置中，培训进行了25轮，每轮有16个客户和20个本地时代。在后续结果中对该设置的任何修改都将明确说明。我们比较了先前描述的FL算法和正则化方法。FedProx、MOON和GradAug都有一个超参数μ来平衡它们的额外损失项。我们报告了所有结果，其中FedProx、MOON和GradAug的最佳μ分别为0.0001、1.0和1.75对于Mixup和Stochastic Depth，γ和ρL分别设置为0.1和0.9。对于GradAug，子网络的数量n=2，ωb=0。8，并且所应用的变换T是随机分辨率缩放。针对MOON和默认温度参数τ = 0，将双层投影层添加到模型中。5、如原文所述。基本数据扩充（随机裁剪、水平翻转和归一化）在所有方法中保持一致。表1.CIFAR-100和二阶指标的准确度（%）结果，表明每种方法的损失空间（λmax，HT）和跨客户端一致性（HN，HD）的平滑度。方法Acc. ↑FedAvg52.92976240113600.98FedProx53.0270613265220.98月亮55.3252552057120.97Mixup54.0216546815434 0.99StochDepthGradAug55.557.1215167397025970.972924 0.963.3. 结果比较准确度结果如表1所示。在当前最先进的FL算法（表1的上半部分）中，MOON实现了最佳精度。这是预期的，因为MOON是FL方法中最复杂的，需要使用三个单独的模型进行对比图1. 可视化的参数损失景观与赫斯特征向量g0和g1为每个得到的全球模型。学习技巧然而，当我们与标准正则化技术（表1的下半部分中的Mixup、StochDepth和GradAug）进行比较时，我们看到这些技术的表现类似或明显更好。GradAug 尤其突出，其准确率比 MOON 高 2% ，比FedAvg 和 FedProx 高 4% 。 StochDepth 也达到了与MOON相似的精度。此外，这些正则化方法带来了与MOON相同或更好的性能，具有更少的内存和/或计算需求。我们发现正则化方法在这种情况下似乎有优势;然而，我们希望进一步调查为什么会出现这种情况。接下来，我们将在3.4节中介绍基于二阶信息的深入分析。3.4. 基于二阶信息的最近在神经架构搜索领域[2，35]以及网络泛化[8，11 ， 31] 中的工作已经注意到顶部 Hessian 特征值（λmax）和Hessian迹（HT）作为性能预测器和网络通用性指标的重要性。具有较低的λmax和HT通常会产生对网络权重中的小扰动不太敏感的网络。这具有在训练过程中平滑损失空间、达到更平坦的最小值和缓解收敛的有益效果。这些属性在联邦学习中特别有利，在联邦学习中，极端的非IID分布和有限的本地数据通常使收敛变得困难。受这些见解的启发，我们分析了用每个FL方案训练的全局模型的顶部Hessian特征值和Hessian迹，以深入了解每种方法的有效性。如[30]中所述，可以使用简单的内积和标准反向传播，用幂迭代[31]方法近似顶部Hes特征值此外，[30]还利用Hutchinson方法[7]找到了迹的类似近似。我们使用这些方法对最终平均模型的最高Hessian本征值和迹线进行分析。在表1中，我们包括了Hessian分析的结果。首先，我们发现FedAvg具有最高的λmax，0.51.00.50.00.00.50.51.01.0λmax↓HT ↓公司简介8401±DN∼KFJFHT. FedProx和MOON每个都导致较低的值，表明在一定程度上提高了泛化能力。然而，有趣的是，我们发现正则化方法在降低 λmax 和 HT 方面最有效，其中GradAug在这两个值上都是最低的我们在图1中可视化了λ max和H T的这种降低的效果，可以看出，与FedAvg相比，GradAug能够大大平滑损失情况。在分配外（O.O.D.）对于集中式训练，二阶信息被发现作为理论指标是非常有用的。最近的研究[19，21]发现，形成“难以改变”的表征性能。更具体地说，他们表明，所产生的跨域的损失景观学习模型应该彼此一致。在理论指标方面，这转化为匹配域级海森，因为海森提供了局部曲率的近似。类似地，在联邦学习中，每个客户端本质上是一个独立的域。因此，在客户端之间匹配Hessians的规范和方向揭示了每种方法有效性背后的额外细节和根据O.O.D.的这些发现。文献中，我们分析了Hessian范数（HN）和Hessian方向跨客户端（HD）的差异，其中H k，j=. 中文（简体） −Diag（H）2和（3）为了理解这些差异将如何在经验上发挥作用，我们在第3.5节中进行了各种消融。3.5. 各种FL设置数据异质性。联邦系统可以部署在许多不同的设置和不同的环境中。我们在各种外语设置进行进一步的分析，以确保我们的研究结果的一般性。首先，我们研究不同程度的客户端数据分布的异质性的影响。结果示于表2中。我们报告了三次运行的平均准确度和标准差。所有其他设置均保留第3.2节中的设置;仅数据分布Dir（α）发生变化。α值越低，表明分布越不均匀。表2.消融导致不同程度的数据异质性。方法α = 0。1 α = 0。5 α = 2。5 homog进食平均值45.0±0.252.9±0.154.4±0.2 54.9±0.4FedProx 45.2±0.353.1±0.354.5±0.3 54.8±0.5月亮46.5±0.555.0±0.556.3±0.656.3±0.5混合44.3±0.154.0±0.155.5±0.4 56.7±0.4StochDepth48.2±0.355.5±0.257.6±0.258.1±0.6GradAug48.6±0.457.0±0.159.6±0.2 60.5±0.2随着数据异构程度的降低，客户端漂移的影响应该变得不那么重要。因此，我们预计每种方法的准确性都会提高，在均匀环境中达到最佳性能。全部是普通的-Hk，j=Diag（Hk）Diag（Hj）Diag（Hk）.（四）化方法，以及FedAvg，按预期执行，并在不同程度的数据分布中找到一致的改进。但是，我们看到准确性提高了-这里，λ是点积，Hk和Hj是海森矩阵，客户端k和j的trices，并且·F是Frobenius范数。Hk，j和Hk，j在所有客户端对上平均，FedProx和MOON的移动速度随着数据接近同质性而减慢，在纯同质集合中具有准确性丁（在他们的-N D在表1中简单地报告为HN和HD。对于这些Hesian匹配准则，期望较低的HN（较小的差异）和较高的HD（本质上是余弦相似性）。如表1右侧所示，HD在所有方法中相当一致。就λmax、HT和HD而言，大多数方法似乎在这些值与性能之间具有良好的相关性然而，有一些情况需要更多的信息。首先，Mixup具有与MOON相似的HT值，但精度较低。HN pro- vides another detail; the Hessian normsof Mixup are not nearly as similar across clients as those ofMOON. 在MOON和StochDepth之间，我们看到MOON具有更高的λmax和HT，但StochDepth具有更高的HN。最后，MOON和StochDepth会产生类似的性能，可能会稍微偏向后者。关键见解。特征值/迹分析和Hessian匹配准则可以作为优化FL方法的指导指标特别是，他们提供了深入了解的收敛和aggregation通过景观平滑度和一致性的促进。到试图减轻客户端漂移并保持本地更新接近全局模型，但似乎也阻碍了它们在少量异构甚至异构数据上的全面学习能力。这对于可部署的FL系统来说并不理想，因为异构性的程度事先并不知道。此外，即使在最异构的情况下，结构正则化方法的性能优于标准FL算法。例如，StochDepth实现在α = 0时比MOON提高1.7%。1，同时在更同质的情况下也有改进。在所有设置中，GradAug表现最好。本地培训时段数。充分处理数据异构性的主要目的是允许每轮对客户端进行更有效的培训，从而减少收敛时间和所需的通信成本。因此，为了检查每种方法的训练生产率，我们在表3中检查了每轮分配的各种局部训练时期（E）的准确性。理想情况下，方法应该继续提高准确性，分配更多的本地训练时期。在表3中，我们看到8402∼××表3.局部训练时期数量的消融结果。方法E=10E=20E=30进食平均值50.6±0.152.9±0.153.2±0.34. 建议方法总的来说，我们发现GradAug在FL设置中特别有效，在所有测试中具有最高的准确性。FedProx 50.7±0.553.1±0.352.8±0.1月亮50.7±0.455.0±0.555.2±0.4最低λMax，HT，HN. 怎么-混合50.5±0.454.0±0.154.4±0.3StochDepth50.9±0.655.5±0.2 56.4±0.3GradAug53.5±0.357.0±0.157.7±0.3表4.在同步和客户端采样情况下，不同数量的客户端C方法C=16C=32C=64C=64×0。25C=64×0。二十五（一百）进食平均值52.9±0.144.5±0.334.6±0.2 32.7±0.5 46.5±0.6FedProx 53.1±0.344.5±0.634.8±0.2 32.5±0.4 46.2±0.1月亮55.0±0.545 . 8 ±0.335.2±0.8 34.2±0.2 49.5±0.7混合54.0±0.146.0±0.136.0±0.2 33.6±0.6 49.1±0.2StochDepth5 5 . 5 ±0.247.5±0.235.5±0.6 34.6±0.1 51.4±0.1GradAug57.0±0.150.4±0.140.2±0.138.1±0.353.3±0.5所有方法都从每轮10个epoch稳步提高然而，从20岁到30岁，趋势变化很大。作为基准，FedAvg略微提高了0.3%。令人惊讶的是，FedProx和MOON在20到30个时期内保持相对停滞。与此同时，标准（特别是结构）正则化方法的精度不断因此，这些方法说明了保持生产性训练的能力，即使在广泛的分配的本地时代。客户数量。在现实世界的FL设置中，参与客户端的数量可以有很大的不同。此外，无论是出于连接性原因还是中央系统的其他容量限制，每轮都可能仅对一部分客户端进行采样。因此，FL方法在这种条件下收敛是至关重要的。我们在表4中研究了客户数量和客户抽样的影响。C=64 0。25表示系统中总共有64个客户端，但每一轮仅对一小部分（0.25）进行采样。表4中的其余结果在每轮对所有K个客户端进行采样。C=640。25（100）运行100轮，所有其他设置为默认25轮。大多数方法的趋势与客户增加的趋势相似。然而，FedProx很难跟上FedAvg的基线，特别是在客户端抽样的情况下。这些情景特别重要;当对一小部分客户端进行采样，在每一轮中只有一部分数据集得到有效训练。因此，学习效率对于保持适当的收敛变得至关重要。标准的正则化方法在所有设置中都保持了比FedAvg更好的准确性，甚至在客户端采样场景中也是如此。总体而言，GradAug在所有情况下都表现最好。因此，即使这些正则化方法不是针对FL设置和部分客户端采样而设计的，它们仍然与当前最先进的FL算法同等地执行或优于当前最尽管这种方法在与许多FL方法的兼容性方面非常节省内存（在训练期间只需要单个存储的模型），但它确实导致了训练时间和局部计算量在FedAvg基线上的大幅增加。这是因为GradAug需要通过精简的子网络进行多次前向传递，以消除损耗。在知识提炼过程中，通过使用较少数量的子网络，可以在一定程度上减少计算负担，如表5. 在这里，GradAug中的μ分别调整为2.0、1.5和1.25（n= 1、3和4）。尽管如此，在本地计算需求和随后的挂钟时间方面，GradAug和vanilla Fe- dAvg之间仍然存在一个相当大的差距。因此，问题是，我们是否可以设计一种方法，提供类似的效果和性能的GradAug在FL，但大大减少计算开销？这在FL设置中尤其重要，其中客户端通常是具有最小内存和计算资源的部署设备。表5.分析本地计算，存储参数和挂钟时间。FLOP是针对训练过程的前向传递的计算需求而计算的。参数包括在训练期间每个方法所需的存储参数的总数。挂钟时间是在CIFAR-100上测量的每轮平均值，C=16，E=20，跨4个RTX-2080 TiGPU。方法加速度（%）↑MFLOPs↓参数（M）↓时间（s）FedAvg 52.9±0.1 87.30.61137.2FedProx 53.1±0.3 87.3 1.21 161.9月球55.0±0.5 262.2 2.21 414.255.5±0.2）57.0±0.1）56.9±0.3为了做到这一点，我们首先注意到在我们的分析过程中收集的以下见解：1）二阶信息对于理解神经网络的学习一般性是有特别是，我们发现，在这个领域的平坦性和2)在实践中，我们发现结构正则化，特别是基于蒸馏的GradAug，是非常有效的。此外，与依赖于全局模型或先前模型存储的其他方法相比，这种方法的权重共享机制是存储器有效的。因此，我们将这些观点结合到一个新的算法中，以优化FL的性能和资源需求。我们提出了FedAlign，一种基于蒸馏的 regulariza-混合StochDepth54.0±0.187.382.40.610.61137.8136.7GradAug（ n=1GradAug（ n=2GradAug（ n=3GradAug（n=4）56.7±0.3）56.8±0.3133.9170.7217.4264.10.610.610.610.61229.2323.9417.7514.48403块1L − 1区块KF“L”！��L座权重共享��宽度2019年12月31日“" LL座K&LL.Σ−θLL.Σǁ ǁ ǁǁ全网1美元算法1FedAlign服务器操作输入：舍入数R，客户端集S输出：最终全局模型权重θR全球初始化模型权重θ0全球对于r = 0，1，. - 是的-是的，R − 1 do示例可用客户端C从S对于客户端c∈C，并行执行θ←C客户端操作（θRcr全局）端θr+1ΣC全局c=1nc←ncθr端图2.建议的FedAlign用于FL的本地客户培训。特征f θL−1正常通过块L。FedAlign中唯一的自适应推理是以降低的宽度（即，子块），重用特征fθL−1 作为输入。该变化-子块中的层中的nel是原始数目的ωS分数。这是通过块L的临时统一修剪来实现的。将Lipschitz常数（即，顶部Hessian特征值）。图2示出了FedAlign的概述，其设计基于两个关键原则。首先，受3.4节的启发，我们在内部正则化网络块的Liptschitz常数，以促进模型内的平滑优化和一致性。最近的工作[24]以可微的方式提出了神经网络层的Lipschitz常数这使得在蒸馏过程中能够使用二阶信息，传统上是在受过充分训练的教师和学习学生之间。我们采用这种技术进行蒸馏为基础的正规化与一个单一的未经训练的网络，而不是传统的基于logit的损失。其次，为了有目的地减少计算，我们注意到某些网络属性。特别是，已经证明神经网络的最后一层最容易过拟合客户端分布[16]。因此，我们在设计FedAlign时重点关注了网络中的这些关键点。我们提出的问题是，当我们的目标是将正则化效果集中在最后一层时，为什么我们要从头到尾运行所有相反，我们建议重用整个网络的中间特征作为输入，以减少宽度的方式仅输入到最终块，从而显著减少计算。通过这种方式，我们利用了基于蒸馏的正则化在性能和内存占用方面的优势，同时有效地减轻了计算开销。结合这两个关键原则，我们将FedAlign局部目标形成为LFA=LCE（Fθ（x），y）+µLLip（KS，KF），（5）其中μ是平衡常数，CE是交叉熵损失，Lip是针对减小的宽度的近似Liptschitz常数向量KS和KF之间的均方误差（即，子块）和全宽块L，重新编码。具体而言，Lipschitz近似是通过使用特征图的传输矩阵的谱范数来计算的，如[24因此，我们使用这些传输矩阵XF和XS的中间特征，其中XF=fθL−1TfθL，以及（6）XS=f θL1Tf ωS。（七）Lf θL和f θL−1是全网络F θ（x）的最后一个和前一个块输出的特征图; fθωS是最后一个块L在减小宽度ω S时的输出特征图（见图2）。最后，使用幂迭代方法[31]近似X F和X S的谱范数（SN），因此KF=XFSN和KS=XSSN。中给出了FedAlign的伪代码实现Alg. 1.一、回头看看Eq。 5、可以看嘴唇校正项;然而，在这种形式正则化和传统FL算法之间存在关键区别。我们的校正项促进了本地客户端模型根据自己的数据学习良好的泛化表示，而不是迫使本地模型接近全局模型。如表5所示，FedAlign以资源高效的方式实现了最先进的精度只需C客户端操作输入：模型权重θglobal输出：更新的局部模型权重θ将全局接收权重θ加载到局部模型Fθ对于时期e = 0，1. - 是的- 是的，E − 1 do对于批次{x，y}∈D，d本地数据集DfθL−1，fθL，pred=Fθ（x）fω= F ω （f）第（1）款θLθLL−1SSθX，X = TM（fω ，fS FθL−1LSθ（f）θd等式六、七LKS，KF=XSSN，XFSNLFA= LCE（pred，y）+µ LLip（KS，KF）d梯度下降端θ←更新（θ，LFA）端将更新的本地模型权重θ发送到服务器8404方法CIFAR-10 ImageNet-200C= 16C=64×0. 二十五（一百）MFLOPs ↓参数（M）↓C= 16C=32×0. 一百二十五（五十）GFLOPs ↓参数（M）↓∼∼∼∼表6.CIFAR-100上的FedAlign消融结果方法α = 0。1α = 2。5霍奥格E=10E=30C=32C=64C =64 × 0。25C = 64× 0。25（100）FedAlign48.7±0.257.6±0.658.2±0.151.2±0.357.9±0.647.8±0.336.5±0.134.9±0.650.9±0.5表7.所有方法的CIFAR-10和ImageNet-200结果FedAvg81.9± 0.678.9± 0.387.30.6160.7± 0.452.7± 0.218.111.22FedProx81.9± 0.278.9± 0.787.31.2161.0± 0.452.5± 0.318.122.42月亮82.9± 0.479.4± 0.5262.22.2161.1± 0.254.3± 0.254.419.96Mixup80.3± 0.480.5± 0.587.30.6161.0± 0.352.3± 0.318.111.22StochDepth82.2± 0.280.8± 0.782.40.6160.5± 0.252.9± 0.217.311.22GradAug（n=2）84.6± 0.683.8± 0.3170.70.6163.5± 0.455.6± 0.134.411.22GradAug（n=1）84.0± 0.282.3± 0.5133.90.6162.8± 0.354.4± 0.425.311.22FedAlign82.3± 0.382.3± 0.389.10.6162.0± 0.155.1± 0.519.311.22在FLOP上有1.02倍的差异，FedAlign实现了比FedAvg基线显著提高3.9%的准确性。对于FL算法FedProx和MOON，它们不仅具有比FedAlign低得多的精度，而且还需要更多的计算和/或内存。特别是，FedAlign比MOON实现了1.8%的精度提高，同时将本地计算开销减少了65%以上，内存需求减少了70%以上。此外，与GradAug相比，FedAlign实现了计算需求的47%和33%的关键减少（n=2）和（n=1），而不牺牲准确性。4.1. FedAlign实验我们进一步验证了我们的方法在各种设置和数据集上的有效性在表6中，我们检查了FedAlign在与第3.5节相同的消融情况下的性能，其中FedAlign在许多设置中表现出强大的性能。我们还研究了FedAlign和其他两个数据集的所有方法：CIFAR-10和ImageNet-200。对于ImageNet-200，我们从经典的ImageNet-1 k [22]数据集中随机抽取200个类。我们分别在CIFAR-10和ImageNet-200上使用ResNet 56和ResNet 18 [5]作为模型。对于FedAlign，ω S=0。25，μ=0。45在所有的结果。所有其他方法的超参数都是在3.2节中描述的（其中μ=2。GradAug为0（n=1），如表5所示）。有关其他分析，请参阅补充材料。对于CIFAR-10，我们运行了一个16个客户端同步和64个客户端的案例，样本如表7所示。我们注意到与CIFAR-100类似的趋势;正则化方法表现良好，特别是在更现实的客户端采样情况下。在ImageNet-200上，我们还运行了同步和采样设置。在这里，GradAug和FedAlign都比其他方法保持更高的性能。FedAlign在采样情况下提供了与GradAug（n=1）甚至（n=2）竞争的准确性，同时显著降低了计算需求。有趣的是，StochDepth在ImageNet-200案例中表现不佳。正如在原始论文[6]中提到的，随机深度表现得更好更深的网络。然而，使用ResNet 18，与CI-FAR情况相比，网络的整体深度降低了。因此，由于大多数可部署网络更倾向于宽度而不是深度，因此相对于网络宽度的正则化更适用于FL设置。这突出了FedAlign的额外优势，它在最终块中使用宽度减小操作，并在资源需求较低的情况下保持相对较高的精度。5. 结论与讨论在这项工作中，我们研究的数据异质性的挑战，FL从一个简单而独特的角度，本地学习的一般性。为此，我们对FL设置中的各种方法进行了深入研究，并进一步提出了FedAlign，它以出色的资源效率实现了具有竞争力的SOTA精度。本研究的一个局限性是我们只关注图像任务和实验模型。FL的自然语言处理应用也是一种常见的设置，因此可以在未来的工作中进行探索。尽管如此，我们注意到FedAlign可以很容易地应用于语言应用程序，因为它在特征空间中操作，并且对输入类型没有根本的依赖。另一方面，GradAug主要针对视觉数据设计，采用随机变换并将其应用于子网络的输入。虽然没有人提出的正则化方法在所有方面都是完美的，但我们强调局部学习在联邦设置中是此外，特别关注促进学习一般性的方法内在地将全局FL聚合和优化提高到令人惊讶的程度。通过在FL中引入GradAug等方法，我们提出了对联邦优化以及如何应对其挑战的重新思考。作为这一方向的进一步发展，FedAlign提供了对经典基线和最先进FL方法的强大改进，同时解决了FL系统的局部计算限制。鸣谢：这项工作得到了 NSF/Intel Partnership onMLWiNS的支持，2003198.840

下载后可阅读完整内容，剩余1页未读，立即下载