具有位置感知神经元的联邦学习

76 浏览量更新于2023-10-26 收藏 12.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ONONOFFOFFShuffleNot Changed12345Server12345Private DataDownloadUploadTurn off PANsTurn on PANsApplying PANs to FL5214OutputInput32345OutputInput1ShuffleChanged5214OutputInput32345OutputInput1Client 1Client 2Client K23451Neurons52143Shuffled NeuronsPANs with equal position encodings23451PANs with varied position encodings23451100820具有位置感知神经元的联邦学习0Xin-Chun Li 1, Yi-Chu Xu 1, Shaoming Song 2, Bingshuai Li 2, Yinchuan Li 2, Yunfeng Shao 2, De-Chuan Zhan101. 新型软件技术国家重点实验室，南京大学 2. 华为诺亚方舟实验室0{lixc, xuyc}@lamda.nju.edu.cn, zhandc@nju.edu.cn0{shaoming.song, libingshuai, liyinchuan, shaoyunfeng}@huawei.com0摘要0联邦学习（FL）将本地节点的协作模型融合起来，而不集中用户数据。神经网络的排列不变性属性和客户端之间的非独立同分布数据使得本地更新的参数不准确对齐，无法进行基于坐标的参数平均。传统神经元不明确考虑位置信息。因此，我们提出了位置感知神经元（PANs）作为一种替代方案，将与位置相关的值（即位置编码）融合到神经元的输出中。PANs将自身与其位置耦合，并最小化位移的可能性，即使在异构数据上进行更新。我们通过启用/禁用PANs来禁用/启用神经网络的排列不变性属性。当应用于FL时，PANs与位置紧密耦合，使得客户端之间的参数预对齐，并促进基于坐标的参数平均。PANs与算法无关，可以普遍改善现有的FL算法。此外，“FL with PANs”实现简单且计算友好。01. 引言0联邦学习（FL）[13,42]通过与隔离的客户端合作生成全局模型，以保护隐私和实现高效的分布式训练，通常遵循参数服务器架构[6,21]。客户端使用私有数据在其设备上更新模型，服务器定期对这些模型进行多轮通信的平均。整个过程不传输用户数据，满足基本的隐私要求。许多FL算法（如FedAvg[27]）通过简单的基于坐标的平均聚合本地参数[22-25]。这些算法有两种缺点。首先，传统神经元不知道它们的位置，神经网络具有排列不变性0图1.左：位置感知神经元（PANs）。我们将相等/不同的位置编码融合到神经元的输出中，PANs被关闭/打开，洗牌的网络进行相同/不同的预测，即启用/禁用排列不变性属性。右：将PANs应用于FL。神经元与其位置耦合以进行预对齐。0属性，暗示隐藏神经元在训练过程中可以被移位而不影响局部性能。其次，客户端之间的样本是非独立同分布的（non-i.i.d.）[11]，这可能加剧了本地训练中神经网络的排列，使得本地模型不对齐并导致权重发散[47]。这些原因降低了基于坐标的参数平均的性能。最近，一系列的工作利用各种匹配技术来对齐神经元，例如贝叶斯非参数学习[38, 44,45]和最优传输[2,33]。首先，这些方法过于复杂难以实现。其次，它们在完成本地更新后解决了不对齐问题，因此属于需要额外计算预算的后处理策略。Fed 2[43]通过设计面向特征的模型结构以预对齐的方式开创了一种新颖的方面。然而，它必须仔细定制网络架构，并且只适用于100830在预对齐的群体级别上。相比之下，我们探索了一种更直接和通用的技术，在本地训练过程中预对齐神经元。我们的工作主要集中在解决FL中的非独立同分布挑战，更具体地说，通过限制神经网络的排列不变性属性来寻找解决方案。我们首先总结上述分析：神经网络的排列不变性属性导致本地模型之间的神经元不对齐。数据越异构，不对齐问题越严重。因此，我们的动机很直观：我们能否设计一个开关来控制神经网络的排列不变性属性？我们提出了位置感知神经元（PANs）作为解决方案，将神经元与其位置绑定。具体来说，对于每个神经元（ConvNet的通道[10, 17,32]），我们将与位置相关的值（即位置编码）添加或乘以其输出。我们引入一个超参数来启用/禁用PANs，从而禁用/启用神经网络的排列不变性属性。PANs将神经元绑定在其位置上，隐式地在面对非独立同分布数据时对齐神经元。从另一个角度来看，PANs可以在本地模型的前向和反向传递中保持一些一致的成分，这可以减少权重发散。总体而言，适当的PANs有助于FL中的基于坐标的参数平均。用PANs替换传统神经元实现简单且计算友好，适用于各种FL算法。贡献可以概括为：（1）提出PANs来禁用/启用深度网络的排列不变性属性；（2）将PANs应用于FL，将神经元绑定在位置上，为更好的基于坐标的参数平均进行预对齐。02. 相关工作0具有非独立同分布数据的FL：现有的工作从不同的角度解决了FL中的非独立同分布数据问题。[ 47]指出FL中的权重发散现象，并使用共享数据来减小发散。FedProx [ 23]在本地训练期间采用近端项作为正则化。FedOpt [ 30]考虑通过动量或自适应优化器（如Adam [ 15 ]，Yogi [ 46]）来更新全局模型，而不是简单的参数平均。Scaffold [ 14]引入控制变量来纠正本地更新方向，并减轻客户端漂移的影响。MOON [ 22]利用模型对比学习来减小本地模型与全局模型之间的距离。其他一些工作也利用类似的技术，包括动态正则化[ 1]，集成蒸馏[ 3 , 26]等。我们采用几种代表性的FL算法，并使用PANs来改进它们。具有置换不变性属性的FL：神经网络的置换不变性可能导致神经元错位。PFNM [ 45 ]通过Beta-Bernoulli过程[ 35]和Indian Buffet过程匹配本地节点的参数。0进程[ 9 ]，通过匈牙利算法[ 18]制定一个最优分配问题并解决它。SPAHM [ 44]将相同的过程应用于聚合高斯主题模型、隐马尔可夫模型等。FedMA [ 38]指出PFNM不适用于大规模网络，并提出了一种逐层匹配的方法。[ 33 ]利用最优传输[ 2]来融合具有不同初始化的模型。这些方法都是后处理方法，需要额外的计算成本。最近提出了Fed2，通过将特征分成不同的组来在本地训练期间对齐特征。然而，它需要精心设计架构。不同的是，我们对神经元进行了更细粒度的对齐，而不是网络组，并且我们将展示我们的方法更加通用。位置编码：位置编码在序列学习架构中很常见，例如ConvS2S [ 8 ]和transformer [ 36]等。这些架构使用位置编码来考虑顺序信息。相对位置编码[ 31]更适用于长度不同的序列。其他一些研究致力于解释位置编码学习的内容[ 37 , 39]。另一项有趣的工作是将位置编码应用于GAN [ 41]，而不是零填充作为空间归纳偏差。不同的是，我们利用位置编码将神经元绑定在FL中的位置上。此外，这些工作只考虑输入层的位置编码，而我们将其与神经元耦合。03. 位置感知神经元0在本节中，我们研究神经网络的置换不变性，并引入PANs来控制它。03.1. 置换不变性属性0假设一个MLP网络有 L + 1个层（包含输入和输出层），每个层包含 J l个神经元，其中 l ∈ { 0 , 1 , ∙ ∙ ∙ , L } 为层索引。 J 0 和J L为输入和输出维度。我们将每个层的参数表示为权重矩阵 Wl ∈ R J l × J l − 1 和偏置向量 b l ∈ R J l ，其中 l ∈ { 1 , 2 , ∙ ∙ ∙ , L } 。输入层没有参数。我们用 h l ∈ R J l表示第 l 层的激活值。我们有 h l = f l ( W l h l − 1 + b l) ，其中 f l ( ∙ ) 是逐元素激活函数，例如ReLU [ 28 ]。f L (x ) = x 表示输出层没有激活函数。有时，我们用 y = v T f( Wx + b )代表一个只有一个隐藏层且输出维度为1的网络（称为MLP0），其中 x ∈ R J 0 ， W ∈ R J × J 0 ， b ∈ R J ， v0j Π j, ∙ = 1 . 易得，我们有一些性质： Π T Π = I ， Π a +Π b = Π( a + b ) ， Π a ⊙ Π b = Π( a ⊙ b ) ，其中I 为单位矩阵，⊙ 表示Hadamard乘积。如果 f ( ∙ )是逐元素函数，则 f (Π x ) = Π f ( x ) 。对于MLP0，我们有y = (Π v ) T f (Π Wx + Π b ) = v T f ( Wx + b )，这意味着如果我们对参数进行排列properly, the output of a certain neural network does notchange, i.e., the permutation invariance property. Ex-tending it to MLP, the layer-wise permutation process ishl = fl(ΠlWlΠTl−1hl−1 + Πlbl),(1)where Π0 = I and ΠL = I, meaning that the input and out-put layers are not shufﬂed. For ConvNet [17, 32], we takeconvolution kernels as basic units. The convolution parame-ters could be denoted as Wl ∈ RCl×wl×hl×Cl−1, where thefour dimensions denote the number of output/input chan-nels (Cl, Cl−1) and the kernel size (wl, hl).The per-mutation could be similarly applied as ΠlWlΠTl−1.ForResNet [10], we use hl = fl(ΠlWlΠTl−1hl)+ΠlMlΠTl−1hlto permute all parameters in a basic block including theshortcut (if shortcut is not used, Ml = I).3.2. Position-Aware NeuronsThe essential reason for the permutation invariance ofneural networks is that neurons have nothing to do withtheir positions. Hence, an intuitive improvement is fusingposition-related values (position encodings) to neurons. Wepropose Position-Aware Neurons (PANs), adding or mul-tiplying position encodings to neurons’ outputs, i.e.,PAN+ : hl = fl(Wlhl−1 + bl + el),(2)PAN◦ : hl = fl((Wlhl−1 + bl) ⊙ el),(3)where el denotes position encodings that are only related topositions and not learnable. We use “PAN+” and “PAN◦”to represent additive and multiplicative PANs, respectively.We use sinusoidal functions to generate el as commonlyused in previous position encoding works [36], i.e.,PAN+ : el,j = A sin (2πTj/J) ∈ [−A, A],(4)PAN◦ : el,j = 1 + A sin (2πTj/J) ∈ [1 − A, 1 + A],(5)where T and A respectively denotes the period and ampli-tude of position encodings, and j ∈ {0, 1, · · · , J −1} is theposition index of a neuron. For ConvNet, we assign posi-tion encodings for each channel, and j is the channel index.Notably, if we take T → 0 or A = 0, PANs degenerateinto normal neurons. In practice, we only apply PANs tothe hidden layers, while the input and output layers remainunchanged, i.e., l ∈ {1, 2, · · · , L − 1} for el. With PANs,the permutation process in Eq. 1 could be reformulated asPAN+ : hl,sf = fl(ΠlWlΠTl−1hl−1,sf + Πlbl + el),(6)PAN◦ : hl,sf = fl((ΠlWlΠTl−1hl−1,sf + Πlbl) ⊙ el), (7)where the subscript “sf” denotes “shufﬂed” (or permuted).To measure the output change after shufﬂing, we deﬁne theshufﬂe error as:Err(A, T, {Πl}Ll=0) = ∥hL,sf − hL∥/JL,(8)and this error on MLP0 without considering bias (i.e., y =vT f(Wx + e)) isPAN+ : Err(A, T, Π)= |ysf − y|= |(Πv)T f(ΠWx + e) − vT f(Wx + e)|= |(Πv)T f(ΠWx + e) − (Πv)T f(ΠWx + Πe)|≈ |(Πe − e)T ∂ysf∂e |,(9)where we take ysf = (Πv)T f(ΠWx+e) as the function of eand take Taylor expansion as an approximation. Obviously,shufﬂe error is closely related to the strength of permuta-tion, i.e., Π − I. For example, if Π = I, the network is notshufﬂed and the outputs are kept unchanged. Then, if wetake equal values as position encodings, i.e., ej = ei, ∀i, j,the output also does not change because Πe = e. Thiscan be obtained via taking α = 0 or T → 0. If we takea larger T (e.g., 1) and larger α (e.g., 0.05), Err is gener-ally non-zero because Πe ̸= e. The error of multiplicativePANs is similar. We abstract PANs as a switch: if we takeequal/varied position encodings, PANs are turned off/on,and hence the network keeps/loses the permutation invari-ance property (i.e., the same/different outputs after permu-tation). As illustrated at the left of Fig. 1, the ﬁve neuronsof a certain hidden layer are shufﬂed while the position en-codings they are going to add/multiply are not shufﬂed, andthe outputs will change with PANs turned on.Furthermore, are there any essential differences betweenadditive and multiplicative PANs, and how much inﬂuencedo they have on the shufﬂe error? In Eq. 9, the shufﬂe erroris partially determined by ∂ysf/∂e, and we extent this gradi-ent to MLP with multiple layers. We assume all layers havethe same number of neurons (i.e., Jl = J, ∀l) and take thesame position encodings (i.e., el = e ∈ RJ, ∀l). We denotesl,sf = ΠlWlΠTl−1hl−1,sf + Πlbl and obtain the recursivegradient expressions:PAN+ : ∂sf∂PAN◦ : ∂sf∂hl−1,sf∂[e]Jlgradient of activation functions, whose element is 0 or 1 inReLU. If we expand Eq. 10 and Eq. 11 correspondingly, wewill ﬁnd that the gradient ∂hL,sf∂eof additive PANs does notexplicitly rely on e. However, for the multiplicative one,∂hl,sf∂eis relevant to ∂h100840∂e = D ( f ′ l ) ∂s l, sf0∂e + I ，(10)0∂e = D ( f ′ l ) ∂s l, sf0+ D ( s l, sf )，(11)0其中 D ( ∙ ) 将一个向量转换为对角矩阵，而 [ ∙ ] J0∂e 和 [ e ] J ，这可能导致PAN+ : h(k)l= f (k)l(W (k)lh(k)l−1 + b(k)l+ el),(12)PAN◦ : h(k)l= f (k)l((W (k)lh(k)l−1 + b(k)l) ⊙ el).(13)0.00.10.20.30.40.50.60.70.80.91.0Psf0.00.20.40.60.81.0Psf = 0.1PAN+ : ∂h(k)l/∂b(k)l= D(f (k)l′),(14)PAN◦ : ∂h(k)l/∂b(k)l= D(f (k)l′)D(el),(15)100850一个多项式项 A L − 1（由 [ e ] J ⊙ ∙ ∙ ∙ ⊙ [ e ] J产生，非正式地）。因此，我们得出结论：将PAN作为开关可以控制神经网络的置换不变性属性。设计的乘法PAN将使此开关更加敏感。04. 使用PAN的FL0在本节中，我们简要介绍FedAvg [ 27]，并分析将PAN应用于FL时的效果。04.1. FedAvg0假设我们有一个服务器和 K个具有不同数据分布的客户端。FedAvg首先在服务器上初始化全局模型 θ0。然后，一小部分（即 R ∈ [0 , 1]）的客户端 S t下载全局模型，并在其本地数据上更新它，进行 E 轮，然后将更新的模型 θ ( k ) 0上传到服务器。然后，服务器进行基于坐标的参数平均，即 θ 1 ← 10k ∈ S t θ ( k ) 0。接下来，θ 1 将被发送下来进行新的通信轮次。这将重复进行 H轮通信。由于在本地训练过程中参数可能不对齐，一些工作[ 38 , 44 , 45]致力于找到客户端上传的神经元之间的对应关系，以便更好地进行聚合。例如，参数 W(1) l 和 W (2) l 可能不对齐，我们应该寻找适当的矩阵来匹配它们，即 102 ( W (1) l + M l W (2) l M T l − 1 )01 2 ( W (1) l + W (2) l ) [ 33 ]。然而，寻找适当的 M { l,l− 1 }是具有挑战性的。通常，这些工作需要额外的数据来搜索适当的对齐。此外，匹配过程通常需要解决复杂的优化问题，如最优传输或最优分配，从而导致额外的计算开销。一个直观的问题是：我们是否可以在本地训练过程中预先对齐神经元，而不是后期匹配？04.2. 将PAN应用于FL0在FL中用PAN替换传统神经元很容易实现。为什么这样一个微小的改进会有帮助呢？我们启发式地期望FL中的PAN能带来以下效果：PAN能限制神经元的错位，因为它们的干扰会对神经网络的输出产生显著变化，导致更高的训练误差和波动。从理论上讲，使用PAN在第k个客户端上的前向传递如下：0值得注意的是，位置编码通常在客户端之间共享，即本地客户端的前向传递共享一些一致的信息。然后，参数0R保持不变0Figure 2. Left : 不同P sf 下未被洗牌的神经元数量。 Right : P sf= 0.1 的置换矩阵演示。0方程12和方程13的梯度可以计算为：0为简化起见，我们只给出了偏置的梯度。乘法PANs的梯度直接包含了各个客户端之间相同位置信息（例如el），尽管数据分布不同（例如h(k)l−1）。对于加法PANs，0其中e′与el相关，但是效果不如乘法项显著。总体而言，el可以规范和修正局部梯度方向，在反向传播过程中保持一些成分的一致性。作为一个极端情况，如果el中的A非常大，方程14和方程15中的梯度将趋于相同，完全减轻权重发散。然而，设置el过大会使神经网络难以训练，并且数据信息完全被覆盖，因此el的强度（即A）是一个权衡。05.实验0我们研究了所提出的PANs对集中式训练和分散式训练（即FL）的影响程度。使用的数据集包括Mnist [20]，FeMnist[4]，SVHN [29]，GTSRB [34]，Cifar10/100[16]和Cinic10 [5]。FeMnist是LEAF [4]和FedScale[19]推荐的。我们默认情况下对于Mnist/FeMnist使用MLP，对于SVHN/GTSRB/Cifar10使用VGG[32]，对于Cifar100/Cinic10使用ResNet20[10]，如果没有更多声明，我们有时使用之前FL工作中使用的VGG9 [26, 38,43]。对于集中式训练，我们使用提供的训练集和测试集。对于FL，我们根据Dirichlet分布划分训练集，其中Dir(α)控制非独立同分布的程度。较小的α导致更多的非独立同分布情况。对于每个FL场景，我们报告几个关键的超参数：客户端数量K，客户端参与率R，本地训练轮数E，Dirichletalphaα，通信轮数H。对于PANs，我们报告T和A。当A=0.0时，我们关闭PANs，即使用传统的神经元或基线模型；当A>0.0时，我们开启PANs。0.00.050.10.250.50.751248160.00.10.20.30.40.00.51.01.52.02.53.03.54.04.50123PAN+01000200030004000PAN◦0.00.10.20.30.40.50.60.70.80.91.0Mnist MLPPsf0.930.940.950.960.970.98A=0.0PAN+ T=1 A=0.01PAN+ T=1 A=0.25PAN◦ T=1 A=0.05PAN◦ T=1 A=0.75PAN◦ T=8 A=0.750.00.10.20.30.40.50.60.70.80.91.0SVHN VGG13Psf0.750.800.850.900.95A=0.0PAN+ T=1 A=0.01PAN+ T=1 A=0.25PAN◦ T=1 A=0.05PAN◦ T=1 A=0.75PAN◦ T=8 A=0.750.00.10.20.30.40.50.60.70.80.91.0Cifar10 ResNet20Psf0.20.40.60.8A=0.0PAN+ T=1 A=0.01PAN+ T=1 A=0.25PAN◦ T=1 A=0.05PAN◦ T=1 A=0.75PAN◦ T=8 A=0.75A=0.0PAN+ T=1 A=0.01PAN+ T=1 A=0.25PAN◦ T=1 A=0.05PAN◦ T=1 A=0.75PAN◦ T=8 A=0.750.930.940.950.960.970.98100860A0T0混洗误差0A0混洗误差0图3.左：不同T和A（PAN◦）的混洗误差（方程8）。右：PAN+和PAN◦之间的差异（T=1）。（VGG13是0使用的网络更多内容请参见补充材料）0PANs。如果没有提及状态开/关或A的值，默认情况下我们保持PANs开启。数据集、网络和训练的详细信息请参见补充材料。05.1.集中式训练0混洗测试：我们首先提出了一种测量神经网络置换不变性程度的方法，即在对神经元进行混洗后，方程（8）中的混洗误差有多大。我们将这个过程称为混洗测试。给定一个神经网络和一批数据，我们首先获得输出。然后，我们对隐藏层的神经元进行混洗。混洗过程在补充材料中展示，其中Psf控制构造的置换矩阵的无序程度。然后，我们可以获得混洗后的输出，然后计算混洗误差。我们在[0,1]范围内变化Psf，并绘制置换矩阵对角线元素（即未混洗的神经元比例）的比率。我们将这个比率表示为Rkept，并在图2中绘制它们（10次实验的平均值），其中我们还展示了一个Psf=0.1的生成置换矩阵。0随机数据的混洗误差：根据方程4/方程5中的不同T和A的超参数，我们使用从高斯分布生成的随机数据（即xi,∙�N(0,1)）来计算混洗误差。基于VGG13的结果如图3所示。误差更多地与A有关，而对T的敏感性较小。这是合理的，因为T控制局部波动性，而神经元置换可能发生在全局范围内，例如第一个神经元可以与最后一个神经元交换位置。较大的A导致较大的混洗误差，即网络失去置换不变性的严重程度更大。此外，基于加法PANs的混洗误差线性增加，而基于乘法PANs的混洗误差增加较快。这验证了第3.2节中的理论分析。然而，在实践中，较大的A可能导致训练失败，我们只设置A∈[0.0,0.25]用于加法PANs，A∈[0.0,0.75]用于乘法PANs（图3右侧粗体部分）。0对推理的影响：我们研究了PANs对测试准确率的影响。我们在Mnist上使用MLP，在SVHN上使用VGG13，在0测试准确率0测试准确率0Mnist MLP SVHNVGG13 Cifar10ResNet200图4.第一部分：使用不同PANs训练的模型的测试准确率。其他三个部分：在不同P sf下手动排列后的测试准确率变化。0SVHN和Cifar10上的ResNet20。我们首先使用不同的PANs训练模型直到收敛，模型性能显示在图4的第一个图中。水平虚线显示正常网络的准确率，实线段显示具有不同PANs的网络的结果。我们发现引入PANs到神经网络并没有提高性能，反而略微降低。也就是说，PANs可能使网络训练变得更困难。关于PANs如何影响网络预测的更多研究可以在补充材料中找到。然后，我们研究通过测试准确率的变化来反映洗牌错误。具体来说，我们洗牌训练好的网络对测试集进行预测。我们对PANs变化了几组T和A进行了实验。结果显示在图4的最后三个图中。随着P sf的增加，即神经元洗牌的数量增加，具有A =0.0的网络的测试准确率不变（排列不变性属性）。然而，较大的A导致更显著的性能下降（PAN +的A = 0.25与A =0.01相比；PAN ◦的A = 0.75与A = 0.05相比）。PAN◦使网络对洗牌更敏感（带有“◦”的曲线明显下降）。对于不同的T∈{1,8}，性能下降几乎相同，再次表明PANs对T具有鲁棒性。这些结果验证了第3.2节的结论。总的来说，PANs在模型性能和排列不变性控制之间起到了一个权衡的作用。05.2. 分散式训练0然后我们研究了将PANs引入到联邦学习中的效果。我们首先进行一些经验研究来验证PANs的预对齐效果，然后展示性能。0在联邦学习中有多少神经元错位？尽管一些先前的研究[38,43, 45]声称神经元可能会0.00.10.20.40.60.81.01.52.03.04.05.0Nsf0.40.60.81.01.00.9820.9620.9250.8910.8810.8420.7720.7110.590.4990.4170.00.10.20.40.60.81.01.52.03.04.05.0Mnist MLPNsf0.70.80.9α=10.0α=1.0α=0.1Shuﬄe α=10.00.00.10.20.40.60.81.01.52.03.04.05.0SVHN VGG11Nsf0.20.40.60.8α=10.0α=1.0α=0.1Shuﬄe α=10.00.00.10.20.40.60.81.01.52.03.04.05.0Cifar10 ResNet20Nsf0.40.50.60.70.80.9α=10.0α=1.0α=0.1Shuﬄe α=10.0be dislocated when faced with non-i.i.d. data, they do notshow this in evidence and do not show the degree of mis-alignment. We present a heuristic method: we manuallyshufﬂe the neurons during local training with i.i.d. dataand study how much misalignment could cause the perfor-mance to drop to the same as training with non-i.i.d. data.Speciﬁcally, during each client’s training step (each batch asFC1.WFC1.bFC2.WFC2.bFC3.WFC3.bFC4.WFC4.b0.00.51.01.5FC1.WFC1.bFC2.WFC2.bFC3.WFC3.bFC4.WFC4.b0246805050505100870测试准确率0图5. 上：具有不同Nsf的未洗牌神经元的数量。下：具有不同α（虚线）的联邦学习的测试准确率以及在独立同分布数据（α=10.0）上手动洗牌后的准确率（红色散点）。0E × N k /B，其中B，E，Nk分别是批量大小、本地轮数和本地数据样本数。在每个洗牌过程中，我们保持P sf = 0.1。Nsf决定了网络在本地训练期间可以被洗牌的次数。较大的Nsf意味着训练结束后会有更多的神经元被洗牌，例如，N sf=1.0保持大约84%的神经元不被洗牌，如图5所示。图5中的Rkept的计算方法在补充材料中给出。然后，我们展示了FedAvg[27]在不同非独立同分布数据水平下的测试准确率，即α∈{10.0，1.0，0.1}。结果对应于图5底部三个图中的三条水平线。红色散点表示具有不同N sf的神经元洗牌的性能。显然，即使在独立同分布数据的情况下，N sf越大，性能越差。这意味着神经元错位实际上可能导致性能下降。与非独立同分布性能相比，以Cifar10为例，设置N sf=0.2可以使独立同分布（α=10.0）的性能降低到与非独立同分布（α=0.1）相同，即每个客户端大约有3.8%的神经元错位。这可能为非独立同分布数据的神经元错位数量的定量测量提供一些启示。0PANs确实减少了神经元错位的可能性吗？我们从参数、激活和偏好向量的角度提出了几种策略，以比较开启和关闭PANs的联邦学习中神经元的对应关系。对于0权重差异0Mnist MLP α=1.00关闭（A=0.0）0开启（PAN ◦ A=0.1）0Mnist MLP α=0.10关闭（A=0.0）0开启（PAN ◦ A=0.1）0图6. 开启和关闭PANs的权重差异。（E = 5，MLP在0Mnist，更多数据集的结果在补充材料中。）0关闭（A=0.0）[0.195]0开启（PAN ◦ A=0.1）[0.414]0图7. 开启和关闭PANs的最优分配矩阵，左对比右。（α = 1.0，E= 20，VGG9 Conv5在Cifar10上，更多结果在补充材料中。）0全局模型0关闭（A=0.0）[0.551]0神经元/通道索引0局部模型0开启（PAN ◦ A=0.1）[0.617]0类别索引0神经元/通道索引0类别索引0图8. 开启和关闭PANs的偏好向量，左对比右。（α =01.0，VGG9 Conv6在Cifar10上，更多结果在补充材料中。）0开启PANs后，我们默认使用乘法PANs，其中T = 1.0，A = 0.1。I.权重差异：权重差异[47]衡量了本地参数的方差。具体来说，我们计算了0|St| �0k ∈ St ∥ W(k)l − Wl ∥ 2对于每一层l。Wl =0k ∈ St W(k)l表示平均参数。在Mnist上，当α ∈ {1.0,0.1}时，MLP的权重差异如图6所示，其中PANs可以大大减小差异（红色柱状图）。这对应于第4.2节中的解释，即客户端的参数部分更新到相同的方向。II.通过最优分配进行匹配：我们将500个测试样本输入网络，并获得每个神经元的激活作为其表示。全局模型和局部模型的神经元表示分别表示为hl ∈ RJl × m和h(k)l ∈ RJl ×m，其中m = 500。然后我们搜索0.300.350.400.45Test AccuracyFedAvgPANs OFFPANs ON0.300.350.400.45FedOptPANs OFFPANs ON0.300.350.400.450.50ScaﬀoldPANs OFFPANs ON0.300.350.400.45FedProxPANs OFFPANs ON0.300.350.400.45MOONPANs OFFPANs ONFeMnist MLP0.600.650.700.750.80Test AccuracyPANs OFFPANs

下载后可阅读完整内容，剩余1页未读，立即下载