分层个性化联邦学习：提供异构数据客户端个性化模型聚合的新方法

19 浏览量更新于2023-10-25 收藏 13.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

090030405060708090100layer-wisedmodel-wised0.00.20.40.60.81.0100920分层个性化联邦学习的模型聚合0Xiaosong Ma † , 1 , Jie Zhang † , 1 , Song Guo � , 1 , 2 , and Wenchao Xu 101 香港理工大学计算机系 2 香港理工大学深圳研究院jieaa.zhang@connect.polyu.hk , maxiaosong16@gmail.com , {song.guo,wenchao.xu } @polyu.edu.hk0摘要0个性化联邦学习（pFL）不仅可以捕捉广泛分布数据的共同先验知识，还可以为异构客户端提供定制化模型。过去几年的研究已经应用了加权聚合的方式来生成个性化模型，其中权重是通过校准整个模型参数或损失值的距离来确定的，但尚未考虑到层级对聚合过程的影响，导致模型收敛滞后且在非独立同分布数据集上的个性化不足。在本文中，我们提出了一种新颖的个性化联邦学习训练框架，称为分层个性化联邦学习（pFedLA），可以区分不同客户端每个层的重要性，从而能够优化异构数据客户端的个性化模型聚合。具体而言，我们在服务器端为每个客户端使用一个专用的超网络，该超网络经过训练可以识别每个层的相互贡献因素。同时，引入参数化机制来更新分层聚合权重，以逐步利用用户之间的相似性并实现准确的模型个性化。我们进行了大量实验，涉及不同的模型和学习任务，并展示了所提出的方法相比于最先进的pFL方法具有显著更高的性能。01. 引言0联邦学习（FL）已经成为一种重要的协作机器学习框架，可以在不共享私有数据的情况下利用用户之间的相似性[33, 43,52]。当用户的数据集是非独立同分布（IID）的，即用户之间的距离较大[23,53]，为所有客户端共享一个全局模型可能导致模型性能下降。0† 共同贡献 � 通讯作者0通信轮次0准确率(%)0(a)0Conv1Conv2 FC30层0权重0客户端0客户端1客户端3客户端40(b)0图1. 一个玩具示例: 分层聚合方法与模型聚合方法的比较. (a)客户端1的模型性能. 这两种方法都是基于相似性的个性化聚合方法.即, 分层聚合: 通过计算层之间的相似性进行个性化聚合; 模型聚合:通过计算模型之间的相似性进行个性化聚合. (b)客户端1在最后通信轮次中每个层的权重.0导致模型收敛缓慢或推理性能差，因为模型可能与其本地数据显著偏离[14,56]。为了应对这种统计多样性，提出了个性化联邦学习（pFL）机制，允许每个客户端训练一个定制化模型以适应其自己的数据分布[9, 12, 15,22]。目前实现pFL的文献现状包括基于数据的方法，即平滑客户端数据集之间的统计异质性[8,16]，单模型方法，例如正则化[22,41]，元学习[9]，参数解耦[5, 24,26]，以及多模型方法，即为每个客户端训练个性化模型[15,54]，可以通过加权组合客户端模型产生个性化模型。现有的pFL方法应用了整个模型参数或不同客户端的损失值之间的距离度量，这对于利用它们的异质性是不足够的，因为整体距离度量不能总是反映每个本地模型的重要性，可能导致不准确的组合权重或非独立同分布数据集的不平衡贡献，从而阻止了规模上的进一步个性化。主要原因是神经网络的不同层可以具有不同的效用。100930ities，例如，浅层更注重局部特征提取，而深层则用于提取全局特征[6, 20, 21, 47,49]。测量模型之间的距离将忽略这种层级差异，并导致不准确的个性化，从而阻碍pFL训练效率。在本文中，我们提出了一个全新的pFL框架，可以实现FL个性化的层级聚合，可以准确识别来自客户端模型的每个层的效用，以实现充分的个性化，并因此可以提高非IID数据集上的训练性能。我们提供了一个玩具示例来说明传统的基于模型的聚合方法在反映所有局部模型之间的内在关系方面失败了，这激发了我们寻找一种在pFL训练过程中识别层级影响的有效方法。观察层级个性化聚合。在玩具示例中，我们考虑六个客户端共同学习九类分类任务的个性化模型。通过层级和模型级的聚合方法分别获得了平均模型准确性。图1显示，相对于模型级方法，层级方法可以实现更高的模型准确性。还绘制了该客户端在最后一轮通信后的层权重，并且我们显示为不同的层应用不同的权重，例如，客户端1上的第一和第二全连接层（即FC1，FC2）具有较大的权重，而第二个卷积层，即Conv1层具有较小的权重，可以为个性化模型准确性带来显著的性能提升。该玩具示例展示了层级聚合相对于传统的基于模型的pFL方法实现更高性能的潜力，因为层级相似性可以反映客户端之间更准确的相关性。通过利用这种层级相似性并确定层级间的用户贡献，有望为所有客户端生成高效和有效的个性化模型。在这种观察的推动下，我们提出了一种新颖的联邦训练框架，即pFedLA，以适应客户端之间的基于层级的协作。具体而言，在服务器端，我们引入了一个专用的超网络，用于在pFL训练过程中学习交叉客户端层的权重，这被证明可以有效提升非IID数据集上的个性化效果。我们进行了大量实验，并证明所提出的pFedLA相对于广泛使用的模型和数据集（即EMNIST，FashionMNIST，CIFAR10和CIFAR100）的最先进基线可以实现更高的性能。本文的贡献总结如下：0• 据我们所知，本文是首次明确揭示层级聚合的益处。0tion在异构FL客户端中与基于模型的方法进行比较;0•我们提出了一种层级个性化的联邦学习（pFedLA）训练框架，可以有效利用非IID数据中客户端之间的相似性，并生成准确的个性化模型；0•我们在四个典型的图像分类任务上进行了大量实验，证明了pFedLA相对于最先进方法的卓越性能。02. 相关工作02.1. 个性化联邦学习0最近，已经提出了各种方法来实现pFL，可以分为基于数据和基于模型两类。基于数据的方法侧重于减少客户端数据集的统计异质性，以提高模型收敛性，而基于模型的方法侧重于为不同客户端生成定制的模型结构或参数。基于数据的pFL的典型方法是向每个客户端共享少量全局数据[56]。Jeong等人[8,16]专注于通过生成额外数据来增强其本地数据，以产生IID数据集的数据增强方法。然而，这些方法通常要求FL服务器了解客户端本地数据分布的统计信息（例如，类大小，均值和标准差），这可能会违反隐私策略[42]。另一方面，考虑到设计客户端选择机制以接近均匀数据分布的工作[30, 45,48]。基于模型的pFL方法也可以分为单模型和多模型两种类型。从传统的FL算法如FedAvg[33]扩展的单模型方法将本地模型和全局模型的优化结合起来，包括五种不同的方法：本地微调[1, 36, 46]，正则化[12, 13, 41]，模型混合[7,32]，元学习[9, 18]和参数分解[1, 4,5]。考虑到本地数据的多样性和内在关系，对于异构客户端来说，更适合训练多个全局模型的多模型方法。一些研究人员[10, 15,32]提出在服务器上训练多个全局模型，其中相似的客户端被聚类到几个组中，并为每个组训练不同的模型。另一种策略是为每个个体客户端协同训练一个个性化模型，例如FedAMP[15]，FedFomo[54]，MOCHA[39]，KT-pFL[51]等。这些文献将每个客户端的模型视为一个整体实体，并尚未考虑层级效用以进行个性化。Θ∗ = arg minΘmiM Li(θi),(1)i100940图2. pFedLA的框架。工作流程包括5个步骤：① 在私有数据上进行本地训练；② 每个客户端将参数更新 ∆ θ i 发送到服务器；③ 服务器根据∆ θ i 通过超网络 HN i ( v i ; ψ i ) 更新聚合权重矩阵 α i ；④ 服务器执行加权聚合并输出相应客户端的个性化模型 ¯ θ i ；⑤每个客户端下载个性化模型 ¯ θ i 。0个性化聚合。用于描述模型之间相似性的距离度量不准确，可能导致次优性能，这促使我们探索一种细粒度的聚合策略，以适应广泛的非独立同分布客户端。02.2. 超网络0超网络[11]用于通过将目标任务的嵌入映射到相应的模型参数来生成其他神经网络（例如目标网络）的参数。超网络已广泛应用于各种机器学习应用，如语言建模[35,40]，计算机视觉[17, 19, 27]，3D场景表示[28,38]，超参数优化[2, 25, 29, 31]，神经架构搜索（NAS）[3,50]，持续学习[44]和元学习[55]。Shamsian等人[37]是第一个在FL中应用超网络的研究，它可以为每个客户端生成有效的个性化模型参数。我们展示了超网络能够评估每个模型层的重要性，并能够提升非独立同分布场景下的个性化聚合。03. 方法0在本节中，我们介绍了pFedLA框架的设计，该框架应用超网络进行逐层个性化聚合，如图2所示。03.1. 问题描述0在pFL中，目标是在多个客户端之间协作训练个性化模型，同时保持其本地数据私密。考虑具有非独立同分布数据集的N 个客户端，令 D i = { ( x ( i ) j , y ( i ) j ) } m i i =1 ( 1 ≤ i≤ N ) 表示第 i 个客户端的数据集0第 i 个客户端的数据表示为 x j 是第 j 个输入数据样本，y j是相应的标签。第 i 个客户端的数据集大小表示为 m i。所有客户端数据集的大小为 M = ∑ N i =1 m i 。令 θ i表示客户端 i 的模型参数，pFL的目标可以被表述为0N是客户端的数量。0其中0L i ( θ i ) =10m i小。0j =1 L CE ( θ i ; x ( i ) j , y ( i ) j )(2)0其中 Θ = { θ i , . . . , θ N }是所有客户端的个性化参数集合。L i 是第 i个客户端与数据集 D i相关联的损失函数。预测值与数据样本的真实标签之间的差异由交叉熵损失 L CE 衡量。03.2. pFedLA算法0在本节中，我们提出了我们的pFL算法pFedLA，该算法评估不同客户端的每个层的重要性，以实现逐层个性化模型聚合。我们在服务器上为每个客户端应用一个专用的超网络，并训练它们为不同客户端的每个模型层生成聚合权重。从图2可以看出，与仅生成一个全局模型的通用FL框架不同，pFedLA在服务器上维护每个客户端的个性化模型。具有相似数据分布的客户端应该具有较高的聚合权重，以加强彼此之间的相互贡献。我们的pFedLA应用一组聚合权重ma-𝐻𝑁!(𝑣!; 𝜓!)𝛼!𝜃̅! = 𝜃"#, … , 𝜃"$ ∗ α!𝑓(1; 𝜃̅!)𝜃!𝑥!(#), … , 𝑥!('!)𝜃̅!ℓ!(#), … , ℓ!('!)αl1,1iαl2,1i· · ·αln,1iαl1,2iαl2,2i· · ·αln,2i............αl1,Nαl2,Nαln,N5:¯θ(t+1)i= {θl1, . . . , θln} ∗ HNi(v(t)i ; ψ(t)i )6:∆θiClientUpdate(¯θ(t+1))i¯θi = {¯θl1i , ¯θl2i , . . . , ¯θlni } = {θl1, θl2, . . . , θln} ∗ αi,(5)¯θlni=N�j=1θlnj αln,ji.(6)arg minV,ΨN miM Li({θl1, θl2, . . . , θln} ∗ HNi(vi; ψi))∇viLi = (∇vi ¯θi)T ∇¯θiLi= [{θl1, θl2, . . . , θln} ∗ ∇viHNi(vi; ψi)]T ∇¯θiLi,(8)∇ψiLi = (∇ψi ¯θi)T ∇¯θiLi= [{θl1, θl2, . . . , θln} ∗ ∇ψiHNi(vi; ψi)]T ∇¯θiLi.(9)100950嵌入向量 � !0超网络0加权聚合0客户端 �0图3. pFedLA中使用的一个超网络框架示意图。超网络 HN i以嵌入向量 v i 为输入，并输出聚合权重矩阵 α i 。在与中间参数 {θ l 1 , . . . , θ ln } 和聚合权重矩阵 α i 进行加权组合后，客户端 i可以对私有数据进行本地训练。请注意，在训练过程中，v i 和 ψ i都会被更新。0在服务器端逐渐利用层级上的用户相似性，定义为矩阵 α i0α i = � α l 1 i , α l 2 i , . . . ,α ln i � =0(3) 这里 α ln i 表示客户端 i 中第 n 层的聚合权重向量，而α ln,N i 表示第 n 层中客户端 N 的聚合权重。对于所有的 n层，� N j =1 α ln,j i = 1。与以往的pFL算法不同，pFedLA考虑了神经层的不同效用，并为每个层分配了唯一的权重，以实现细粒度的个性化聚合。此外，与以往的通过数学计算整个模型参数之间的距离度量来计算权重的方法不同 [15,54]，pFedLA通过一组专用的超网络在训练阶段对权重进行参数化。层级权重由超网络确定，超网络与个性化模型交替更新。这样，我们可以获得有效的权重，因为它们的更新方向与目标函数的优化方向一致。接下来，我们将详细介绍pFedLA的聚合权重矩阵 α的更新过程。每个超网络由几个全连接层组成，其输入是一个嵌入向量，该向量会随着模型参数的自动更新而更新，输出是权重矩阵 α 。将客户端 i 上的超网络定义为0α i = HN i ( v i ; ψ i ) , (4)0其中 v i 是嵌入向量，ψ i 是客户端 i的超网络参数（即图3）。设 { θ l 1 , θ l 2 , . . . , θ ln }为所有客户端在本地训练后的中间参数，θ ln = { θ ln 1 , θln 2 , . . . , θ ln N } 是0算法 1 pFedLA算法0输入: 数据集 {D 1 , D 2 , . . . , D N } ，学习率 η。总通信轮数 T 。0输出: 训练好的个性化模型 { ¯ θ 1 , ¯ θ 2 , . . . , ¯ θ N } .01: 初始化客户端的模型参数、超网络参数和嵌入向量。02: 服务器执行过程 3: 对于每一轮通信 t ∈ { 1 , . . . , T }04: 对于每个客户端 i 并行执行07: 根据 ∆ θ i 更新 { θ l 1 , θ l 2 , . . . , θ ln }08: 通过公式 10 , 11 更新 v ( t +1) i 和 ψ ( t +1) i09: 客户端更新过程 ( ¯ θ ( t +1) i )010: 客户端 i 从服务器接收 ¯ θ ( t +1) i 。011: 设置 θ i = ¯ θ ( t +1) i .012: 对于每个本地 epoch 进行013: 对于小批量数据 ξ t � D i 进行014: 本地训练: θ i = θ i − η � θ i L i ( θ i ; ξ t )0n 层的所有客户端的集合，其中 θ ln N 是客户端 N 的第 n层的参数。在 pFedLA 中，客户端 i的模型参数通过加权聚合获得，权重为 α i ：0其中 ¯ θ ln i 也可以表示为：0因此，pFedLA 的目标函数可以从公式 1 推导到0(7) 其中 V = { v 1 , . . . , v N } ，Ψ = { ψ 1 , . . . , ψ N }。因此，pFedLA 将客户端参数 θ i的优化问题转化为超网络的嵌入向量 v i 和参数 ψ i的优化问题。接下来，我们介绍 V 和 Ψ 的更新规则。更新v i 和 ψ i 。根据链式法则，我们可以从公式 7 中获得 v i和 ψ i 的梯度：5:¯θ(t+1) = θl1, . . . , θlnHNi(v(t); ψ(t))ii∆vi = (∇vi ¯θi)T ∆θi= [{θl1, θl2, . . . , θln} ∗ ∇viHNi(vi; ψi)]T ∆θi,(10)∆ψi = (∇ψi ¯θi)T ∆θi= [{θl1, θl2, . . . , θln} ∗ ∇ψiHNi(vi; ψi)]T ∆θi.(11)𝛼!Top-𝑘(𝐴𝑇 )0.150.180.360.210.170.320.16𝜃̅!#$%&!'¯θretaini= ATk{¯θl1i , . . . , ¯θlni |αl1,ii, . . . , αln,ii},(12)100960算法 2 HeurpFedLA 算法0输入: 数据集 { D 1 , D 2 , . . . , D N } ，学习率 η。总通信轮数 T 。0输出: 训练好的个性化模型 { ¯ θ 1 , ¯ θ 2 , . . . , ¯ θ N } 。01: 初始化客户端的模型参数、超网络参数和嵌入向量。02: 服务器执行过程 3: 对于每一轮通信 t ∈ { 1 , . . . , T }do04: 对于每个客户端 i 并行执行06: 对 { α l 1 ,i i , . . . , α ln,i i } 进行排序并获得 ¯ θ retain i07: 设置 Heur ¯ θ ( t +1) i ← ¯ θ ( t +1) i 不在 ¯ θ retain i 中09: 根据 ∆ θ i 更新 { θ l 1 , θ l 2 , . . . , θ ln }010: 通过公式 10 , 11 更新 v ( t +1) i 和 ψ ( t +1) i011: 客户端更新过程 ( ¯ θ ( t +1) i )012: 客户端 i 从服务器接收到 Heur ¯ θ ( t +1) i。013: 设置 θ i ← { Heur ¯ θ ( t +1) i , θ014: 对于每个本地 epoch 进行015: 对于小批量数据 ξ t � D i 进行016: 本地训练: θ i = θ i − η � θ i L i ( θ i ; ξ t )0� ¯ θ i L i 可以从客户端 i在每一轮通信中的本地训练中获得，� v i /ψ i HN i ( v i ; ψi ) 是 α i 在方向 v i /ψ i 上的梯度。pFedLA使用了一种更一般的方式来更新 v i 和 ψ i ：0其中 ∆ θ i 是客户端 i在本地训练后模型参数的变化。根据公式 10 和 11，pFedLA 在每一轮通信中更新客户端 i的嵌入向量和超网络参数，然后更新聚合权重矩阵 α i。算法 1 展示了 pFedLA的过程。在每一轮通信中，客户端首先从服务器下载最新的个性化模型，然后根据私有数据使用本地 SGD 进行多个epoch 的训练。之后，每个客户端的模型更新 ∆ θ i将被上传到服务器以更新嵌入向量 V 和参数 Ψ 。03.3. HeurpFedLA:基于启发式的pFedLA通信效率改进0pFedLA的通信开销由从客户端发送的 ∆ θ i的大小和从服务器发送的 ¯ θ i 的大小决定。0Conv+BN+ReLU+MaxPool0FC0Conv+BN+ReLU+MaxPool0Conv+BN0Conv+BN0FC+BN0Conv+BN+ReLU+MaxPool0FC+BN0FC0Conv+BN+ReLU+MaxPool0Conv+BN0Conv+BN0FC+BN0保留层，不会发送给客户端 � ，也不进行聚合。0其他层，在发送给客户端 � 之前将进行聚合。0图4. HeurpFedLA中的top k机制示意图。选择的topk层（即保留层）不执行聚合过程，而其余层执行与pFedLA中相同的操作。0服务器。因此，与传统的联邦学习方法（例如FedAvg）相比，没有额外的通信成本。在本节中，我们提出进一步减少pFedLA的通信开销的方法，同时保持性能几乎不变，这可以适应更一般的场景，例如大规模联邦学习系统、有限的通信容量等。与现有的工作相比，这些工作在保持某些特定层在本地更新以实现通信高效训练的同时保持pFL的性能[5,24, 26]，例如FedBN [24]发现在训练过程中本地模型的BN层应该排除这些参数的聚合步骤，而FedRep [5] 和LG-FedAvg [26]分别提出在本地学习分类器层和表示层，pFedLA可以给出一种替代性的指导，确定哪些层应该在本地保留。为此，我们提出了HeurpFedLA，一种启发式改进的pFedLA，其中部分层在训练过程中在本地保留，其余层在服务器端进行聚合。HeurpFedLA的关键思想是启发式地选择具有前k个（AT k）聚合权重的局部层 ¯ θ retain i进行本地更新。具体来说，通过使用所有客户端i的所有层的聚合权重 α l 1 ,i i , α l 2 ,i i , . . . , α ln,i i，我们可以按降序对这些权重进行排序，并选择相应的前k个层。0其中AT k是上述topk选择函数，k是在训练之前手动指定的超参数。topk选择机制的详细工作流程如图4所示。HeurpFedLA背后的原则是，具有较高排名指数的层应该对模型个性化做出更大贡献，这意味着在个性化模型中直接使用这些层对训练性能几乎没有影响。HeurpFedLA通过保留本地层在通信开销减少方面带来了好处。EMNIST (%)FashionMNIST (%)CIFAR10 (%)CIFAR100 (%)# Clients10100101001010010100Per-FedAvg [9]92.58 0.28 92.38 1.14 93.63 1.83 92.35 1.55 52.54 1.79 59.54 0.39 38.79 1.89 43.72 0.25100970表1. 在10个和100个客户端上的四个不同数据集（非IID 1）上的平均模型准确率。0本地训练 89.01 ± 0.47 91.25 ± 0.18 85.83 ± 0.17 89.27 ± 0.21 59.44 ± 0.40 64.19 ± 0.19 41.68 ± 0.89 42.53 ± 0.440pFedMe [41] 92.42±0.44 94.36±0.50 90.43±0.86 98.57±0.38 53.73±3.74 65.97±1.61 42.29±3.67 53.60±1.280pFedHN [37] 93.94±0.16 96.64±0.91 94.83±0.33 98.80±0.92 46.98±1.91 63.71±1.26 39.67±0.52 51.36±1.770FedBN [24] - - - - 59.36±0.92 70.88±0.36 45.18±0.42 56.16±0.380FedRep [5] 91.82±0.15 95.23±0.12 93.17±0.26 97.15±0.09 58.01±0.56 71.94±0.22 44.33±0.63 56.47±0.410FedFomo [54] 88.33±0.29 91.36±0.17 86.17±0.34 91.83±0.12 59.37±0.71 66.07±0.24 41.89±0.78 44.28±0.280pFedLA（我们的方法）90.65±0.41 96.34±1.35 94.34±0.29 98.87±0.66 61.43±0.56 73.15±0.83 47.22±0.77 56.62±0.810HeurpFedLA（我们的方法）94.11±0.13 95.04±0.41 95.47±0.47 96.95±0.44 60.02±0.74 73.05±1.02 46.47±0.83 54.43±1.370表2. 在10个和100个客户端上四个不同数据集（非IID 2）上的平均模型准确率。0EMNIST（%） FashionMNIST（%） CIFAR10（%） CIFAR100（%）0# 客户端 10 100 10 100 10 100 10 1000本地训练 80.72±0.43 79.09±0.12 65.60±0.59 65.97±0.28 39.79±0.42 45.15±0.29 26.29±0.37 27.87±0.280FedAvg [34] 90.43±0.58 93.91±0.32 89.09±0.57 98.25±0.38 44.89±0.21 54.03±0.37 32.24±0.74 40.89±0.460Per-FedAvg [9] 90.86±0.78 94.09±0.18 90.78±1.12 98.53±0.95 44.48±0.82 54.40±0.44 30.86±1.11 42.56±0.280pFedMe [41] 89.13±0.58 93.87±0.40 85.15±0.94 97.87±0.19 46.97±1.19 58.23±1.07 33.45±0.86 44.35±0.960pFedHN [37] 91.37±0.41 94.48±0.51 93.45±0.11 98.83±0.82 37.49±0.94 49.90±1.66 26.35±0.93 40.27±0.820FedBN [24] - - - - 49.79±0.33 60.62±0.42 34.94±0.50 46.42±0.540FedRep [5] 86.81±0.29 90.32±0.08 79.13±0.56 92.04±0.23 49.16±0.73 60.36±0.57 34.19±0.74 43.51±0.340FedFomo [54] 80.14±0.42 82.61±0.11 64.10±0.38 67.91±0.29 40.62±0.31 47.08±0.49 27.33±0.51 29.63±0.240pFedLA（我们的方法）92.06±0.71 94.83±1.04 93.89±0.91 98.41±0.98 49.93±0.96 61.82±1.89 35.02±0.83 48.79±1.600HeurpFedLA（我们的方法）91.98±0.36 93.31±0.77 92.01±0.74 98.66±0.80 49.06±0.68 60.62±1.73 35.42±0.49 48.72±1.750从服务器到客户端的传输方向，即服务器可以节省传输保留层参数的成本。正如在第4.4节中所示，HeurpFedLA可以显著降低通信成本，同时保持pFL的模型性能。在大规模FL系统中，保留一些层不进行聚合和传输具有实际价值，特别是在通信带宽有限的场景下。此外，HeurpFedLA是一个通用的训练框架，可以与梯度量化、稀疏化等常见压缩方案有效兼容。保留本地层的影响将在下一节中更详细地讨论。04. 评估04.1. 实验设置0数据集。我们在四个数据集上评估pFedLA框架，分别是EMNIST、FashionMNIST、CIFAR10和CIFAR100。所有数据集在训练客户端上的分布都是非IID的。我们考虑了两种非IID的情况：01）每个客户端随机分配四个类别的数据（CIFAR100每个客户端有12个类别的数据），每个类别的数据量相同；2）每个客户端包含所有类别，但每个类别的数据分布不均匀。EMNIST、FashionMNIST、CIFAR10数据集中有两个类别的样本数量比其他类别多，而CIFAR100数据集中有六个类别的样本数量比其他类别多。所有数据被划分为70%的训练集和30%的测试集。测试集和训练集对于所有客户端的数据分布相同。0基线。我们将pFedLA和HeurpFedLA的性能与最先进的方法进行了比较。除了FedAvg和本地训练之外，我们还包括基于元学习的pFL算法PerFedavg；在目标函数中添加正则化项的pFL算法pFedMe；使用超网络直接生成个性化模型的pFL算法pFedHN；在FedAvg算法中，保持每个客户端的BN层本地更新，而其他层则进行聚合的pFL算法FedBN；在保持每个客户端的分类器本地更新的同时，将其他部分进行聚合的pFL算法FedRep。0.00.10.20.30.40.50.6selfsame labels clientsimilar clientother clients0.00.10.20.30.40.50.6selfsame labels clientsimilar clientother clients0.00.10.20.30.40.50.6selfsame labels clientsimilar clientother clients0.00.10.20.30.40.50.6selfsame labels clientsimilar clientother clients012345670 1 2 3 4 5 6 70.000.050.100.150.20012345670 1 2 3 4 5 6 70.000.050.100.150.200.25012345670 1 2 3 4 5 6 70.000.050.100.150.200.250.30012345670 1 2 3 4 5 6 70.000.050.100.150.200.250.30100980先前时期中间时期最后时期0权重0（a）EMNIST0先前时期中间时期最后时期0权重0（b）FashionMNIST0先前时期中间时期最后时期0权重0（c）CIFAR100先前时期中间时期最后时期0权重0（d）CIFAR1000图5. 聚合权重在训练阶段的先前、中间和最后时期的变化。0（a）EMNIST（FC1）0（b）FashionMNIST（FC1）0（c）CIFAR10（FC3）0（d）CIFAR100（FC3）0图6. 在EMNIST、FashionMNIST、CIFAR10和CIFAR100上特定层的聚合权重可视化。X轴和y轴显示客户端的ID。0服务器；FedFomo，一种使用模型和损失差异计算聚合权重的pFL算法。训练细节。在所有实验中，我们使用与FedFomo [54]，FedBN [24]和pFedHN[37]相同的CNN架构。在相同设置下，所有模型在不同客户端之间具有相同的结构。对于CIFAR10和CIFAR100，在卷积层之后添加BN层。对于EMNIST和FashionMNIST，模型中没有BN层。用于计算逐层聚合权重的超网络是几个全连接层的简单结构。目标客户端的每个层的权重由超网络中的相应全连接层计算。有关超网络的具体结构，请参阅补充材料。我们在两个设置中评估pFedLA的性能，即10个客户端100％参与和100个客户端10％参与。在10个客户端的情况下，经过600轮训练后获得所有客户端的平均模型准确率，在100个客户端的情况下，经过2500轮训练后获得。实施。我们在一台配有RTX 2080Ti GPU、3.6 GHz英特尔Corei9-9900KF CPU和64 GBRAM的工作站上模拟所有客户端和服务器。所有方法均使用PyTorch实现。04.2. 性能评估0对于所有实验，我们使用交叉熵损失和SGD优化器，批量大小为32。对于10个客户端的情况，本地训练轮数为10，对于100个客户端的情况，本地训练轮数为20。CIFAR10和CIFAR100的学习率为0.01，EMNIST和FashionMNIST的学习率为0.005。在两个基线和提出的pFedLA算法的性能下，都是如此。0不同非IID情况下的性能列在表1和表2中。在大多数情况下，我们提出的算法在四个具有不同数据分布的数据集上比基线提供了更好的性能。另一方面，与pFedLA相比，HeurpFedLA也表现出更好的性能，性能下降可以忽略不计。表1和2中保留的层数（k）为1。HeurpFedLA的通信成本在第4.4节中进行了讨论。请注意，由于所有客户端在10个和100个客户端的情况下具有相同数量的训练数据，因此100个客户端的情况具有更多的数据，因此可以提供更好的模型准确性。04.3. 权重演化分析0为了证明我们的方法可以为具有相似数据分布的客户端生成更高的权重，我们对具有 8 个客户端的实验进行了随机选择4 个数据类别的实验。从这 8个客户端中，我们考虑了一个目标客户端，具有 4个随机数据类别，一个对比客户端，具有相同的四个类别，以及一个相似客户端，与目标客户端有 3个相同的类别。我们记录了目标客户端在训练过程中每个层的权重值。图 5显示了目标客户端在训练阶段的前期、中期和后期的聚合权重演化。可以观察到，来自其他客户端的聚合权重随着训练过程减小，因为它们的数据分布与目标客户端非常不同。此外，对于目标客户端，具有更相似数据分布的客户端（例如，具有相同标签的客户端）的权重值高于其他客户端（例如，相似客户端），这表明超网络可以区分数据分布的相似性。EMNISTCIFAR1002080100FC3FC2FC1Conv2Conv1(a) EMNIST02080100FC3FC2FC1BN2Conv2BN1Conv1(b) CIFAR10100990表 3. 在 EMNIST 和 CIFAR10 上保留不同层数 (即 k ) 的平均模型准确性和通信开销。0# 保留的层数 ( k ) 0 1 2 0 1 2 30模型准确性 (%) 90.65 94.11 93.94 61.43 60.02 59.90 59.23 通信开销 (MBytes) 491.08488.65 312.52 693.98 418.97 382.25 379.820在不同的客户端上进行实验。我们还进行了实验来可视化聚合权重与客户端之间的数据相似性之间的关系。我们考虑了8 个客户端，分配的 ID 从 0 到7，每个客户端都有四个类别的数据。所有客户端之间的数据相似性通过将相邻 ID的客户端分配给具有相似类别的数据来模拟，例如，客户端1 有 4 个类别的数据，而客户端 2 与客户端 1有三个相同的类别和一个不同的类别，客户端 3 与客户端 2有三个相同的类别和一个不同的类别，依此类推。图 6显示了某一层的所有 8个客户端之间的聚合权重的热图。可以看到，具有连续 ID的相邻客户端之间的权重较大，即具有更多重叠类别的客户端，而突出显示的对角线显示每个客户端的自权重具有最高值，这进一步验证了 pFedLA可以利用异构客户端之间的相似性。04.4. 通信效率分析0在本节中，我们展示了提出的 HeurpFedLA 的性能。表 3显示了在保留聚合过程中缺失的不同本地层时的平均模型准确性和通信开销。我们考虑了在 EMNIST 和 CIFAR10数据集上有 100% 参与度的 10个客户端。目标客户端的所有层的聚合权重显示在图 7中。对于 CIFAR10数据集，第一个全连接层的权重最高，因此如果在本地保留一些层，模型准确性性能将会受到影响，尽管通信开销可以大大降低。对于 EMNIST数据集，不同的是分类器层具有最大的权重，观察到在保留一些本地层时，平均模型准确性甚至可以提高。这样的结论也可以在最先进的工作 FedRep [5]中找到，该工作表明从聚合过程中移除分类器层可以提高非独立同分布数据集上的模型性能。直观地解释，保留一些本地层可以避免来自其他客户端的无关知识在聚合过程中的传递。04.5. k 的影响0应用不同的 k 值来展示保留本地层的效果。表 3显示，如果保留不同的0权重(%)0权重(%)0图7. 目标客户的所有层的聚合权重。0对于前k层，模型的准确性不会受到显著影响，这意味着HeurpFedLA可以根据可用的通信带宽在pFL迭代期间应用不同的k值，即在训练效率和通信成本之间进行权衡。05. 结论0在本文中，我们提出了一种名为pFedLA的新型pFL训练框架，以逐层聚合的方式实现个性化模型聚合。实验证明，这种逐层聚合可以逐步加强相似客户之间的协作，并在非独立同分布数据集上生成足够的个性化，优于传统的模型聚合方法。此外，我们提供了pFedLA的改进版本，可以减少训练过程中的通信开销，性能损失可以忽略不计，

下载后可阅读完整内容，剩余1页未读，立即下载