在异构联邦学习中向他人学习并保持自己的特点

159 浏览量更新于2023-10-25 收藏 13.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

101430在异构联邦学习中向他人学习并保持自己的特点0黄文科1，叶芒1,2*，杜波1,2*01国家多媒体软件工程研究中心，人工智能研究所，多媒体与网络通信工程湖北省重点实验室，计算机学院，武汉大学，武汉，中国，2 湖北罗家实验室，武汉，中国0https://github.com/WenkeHuang/FCCL0摘要0联邦学习已经成为一种重要的分布式学习范式，通常涉及与他人的协作更新和对私有数据的本地更新。然而，异质性问题和灾难性遗忘带来了独特的挑战。首先，由于非独立同分布的数据和异构的架构，模型在其他领域上的性能下降，并且与参与者模型之间存在通信障碍。其次，在本地更新中，模型在私有数据上分别进行优化，容易过拟合当前数据分布并遗忘先前获得的知识，导致灾难性遗忘。在这项工作中，我们提出了FCCL（联邦交叉相关和持续学习）。对于异质性问题，FCCL利用未标记的公共数据进行通信，并构建交叉相关矩阵，以在领域偏移下学习可推广的表示。同时，对于灾难性遗忘，FCCL在本地更新中利用知识蒸馏，提供跨领域和内部领域的信息，而不泄露隐私。各种图像分类任务的实证结果证明了我们方法的有效性和模块的效率。01. 引言0由于大规模数据的可用性，深度学习算法取得了显著的进展[8, 51,69]。然而，在现实世界中，数据通常分散在不同的参与者（例如移动设备、组织）之间。由于不断增长的隐私问题和严格的数据保护法规[84]，参与者无法将数据整合在一起进行模型训练。受到这些现实问题的驱动，联邦学习[33, 34,58, 59,89]提供了一种保护隐私的范式，参与者在其中进行协作0*通讯作者：叶芒，杜波0无法翻译的内容0无法翻译的内容0无法翻译的内容0无法翻译的内容0无法翻译的内容0的内容0无法0无法翻译的内容0无法翻译的内容0无法翻译的内容0无法翻译的内容0无法翻译的内容0图1.异构联邦学习问题说明。（a）在协作更新中，如何处理异构模型的通信问题，并在异构数据（领域偏移）下学习可推广的表示？（b）在本地更新中，如何减轻灾难性遗忘，以在领域内和领域间呈现稳定和令人满意的性能？0相对学习模型而不泄露私人数据。这是一个活跃且具有挑战性的研究课题，在实际环境中显示出有希望的结果[17, 19,29, 52,54]。随着试点进展，联邦学习的研究面临一些关键挑战[30,42]。一个不可避免且实际的挑战是异质性问题。一方面，分布式数据可能是非独立同分布的，导致数据异质性[30,39, 95]。许多方法[43, 46, 73,77]引入额外的近端项来处理标签分布偏斜（先验概率偏移）[30]，忽视了存在领域偏移（相同标签，不同特征）[60,64,66]的事实。特别是，私有模型在其他领域上严重性能下降。101440由于不同的设计标准、不同的硬件能力[20,86]和知识产权[56]，参与者需要定制模型，这带来了一个实际挑战：模型异构性。之前的方法是在局部模型共享参数或梯度的假设下开发的，这在异构模型上无法工作。为了解决这个问题，后续工作的主要流派通过标记数据[38,74]、共享模型[48, 72, 92]或群组操作[21,50]来进行知识传递。但这些方法都有不同的局限性。具体来说，标记数据需要服务器收集与私有数据具有相似分布的数据，这需要耗费人力和特殊领域专业知识。共享模型会增加计算成本，并需要参与者端额外的模型结构。群组操作利用未标记的公共数据来衡量分布差异。然而，这些方法主要关注标签分布的偏斜，并且只考虑一个领域上的性能。同时考虑数据和模型的异构性，一个重要问题长期被忽视：如何在异构联邦学习中学习可推广的表示？0除了异构性问题，联邦学习面临的另一个障碍是其范式。一般来说，联邦学习可以看作是一个两步循环过程：协作更新和本地更新[58,89]。在协作更新中，参与者从其他参与者那里学习。在本地更新中，模型在私有数据上进行优化，这容易过拟合当前知识并遗忘先前的知识，导致灾难性遗忘[57]。为了解决这个挑战，一种类型的方法通常进行多轮微调[38, 50, 58, 74,88]。然而，仔细配置超参数以达到令人满意的性能是耗时的，并且不能系统地解决这个问题。目前流行的解决方案[41, 43, 73,77]侧重于计算参数刚度以调节模型，但不能明确描述来自不同参与者的影响程度。因此，一个自然的问题是：如何平衡多个知识以减少灾难性遗忘？我们在图1中进一步解释了异构性问题和灾难性遗忘。0对于异构性问题，我们从自监督学习中获得启发[5, 6, 11,13, 18, 25, 49, 91,94]。特别是，自监督学习旨在通过丰富多样的数据为下游任务和未知类别学习一个可推广的表示。直观上，我们期望模型在不同领域中对于相同类别的logits输出呈现相似性。这激发我们利用易于获取的未标记的公共数据进行联邦交叉相关学习。具体来说，我们试图最大化logits输出之间的相似性。0通过在未标记的公共数据上对logits输出的相同维度进行相关性和不同维度进行去相关化，模型将学习类别的不变性并鼓励不同类别的多样性。因此，我们的方法处理了异构模型中的通信问题，并在领域转移下学习了可推广的表示。为了处理灾难性遗忘，我们开发了基于知识蒸馏的联邦持续学习[2,24]，在局部更新中不断从跨领域和内部领域中学习。为了避免在局部更新阶段遗忘跨领域信息，我们提出了在先前轮次中学习的内部领域（局部）模型的知识蒸馏，其中在与其他参与者通信后捕获了跨领域信息。此外，为了解决内部领域遗忘问题，我们利用最初预训练的局部模型（没有从其他模型学习的知识）来约束每个参与者后续的局部更新。因此，通过这两个模型的蒸馏平衡知识是处理灾难性遗忘的合理方法。在这项工作中，我们提出了一种新颖的联邦学习方法，称为FCCL（联邦交叉相关和持续学习）。FCCL的概述如图2所示。简而言之，我们的贡献有三个方面:0•我们提出了一种简单有效的异构联邦学习方法。通过利用无标签的公共数据和采用自监督学习，异构模型实现了通信并学习了可泛化的表示。0•我们探索减轻联邦学习中的灾难性遗忘。通过使用更新和预训练模型的域内和域间知识蒸馏，它平衡了来自其他模型和自身模型的知识。0• 我们在两个图像分类任务（例如Digits [27, 37, 62,68]和Of�ce-Home[82]）上进行了大量实验，使用了无标签的公共数据[35,69,87]。FCCL在相关方法上实现了优越的域内和域间性能。核心模块的消融研究验证了其有效性和不可或缺性。02. 相关工作0具有数据异质性的联邦学习。一项开创性的工作提出了目前最广泛使用的算法FedAVG[58]。但是它在非独立同分布的数据（数据异质性）上性能下降。此后不久，大量方法[12, 41, 43, 73,77]研究了非独立同分布的数据。这些方法主要关注标签分布偏斜，其中非独立同分布的数据[30]是通过基于有限域漂移的标签空间划分现有数据而形成的。然而，当从不同数据中采样私有数据时̸̸101450这些工作不考虑域间性能，只关注学习内部模型。最新的研究已经研究了目标域的无监督域自适应问题[45,65]和在未知域上的域泛化问题[52]。然而，在目标域中收集数据可能耗时且不切实际。同时，考虑在未知域上的性能是一种理想化的设置。对于更真实的设置，参与者可能更关注其他领域的性能，这可以直接提高经济效益。在这项工作中，我们专注于改善域间性能在域漂移下。0具有模型异质性的联邦学习。随着对独特模型的需求，具有模型异质性的联邦学习已经成为一个活跃的研究领域。FedMD [38]，CRONUS [4]和CFD [71]通过知识蒸馏[2,24]在带有相似分布的标记公共数据上操作。因此，这些方法严重依赖于标记公共数据的质量，而这些数据可能并不总是在服务器上可用。最新的工作（例如FedDF [50]，FedKT[40]和FEDGEN[75]）已经证明了在无标签的公共数据或合成数据上进行蒸馏的可行性。然而，这些方法利用无标签的公共数据通过各种测量指标[9,36]来达到语义信息的一致性，这不适合学习可泛化的表示，从而导致域间性能差。另一个方向是引入共享的额外模型，例如FML [72]和LG-FEDAVG[48]。然而，这些技术在考虑到额外的计算开销和昂贵的通信成本时可能不适用。在本文中，基于无标签的公共数据，我们将相关的维度进行关联，并将不同的维度进行去相关化，以学习一个可泛化的表示在异构联邦学习中。0自监督学习。自监督学习已经成为一种强大的方法，可以在没有标签监督的情况下学习有用的表示，大大减小了监督模型在各种下游视觉任务上的性能差距。许多相关方法依赖于对比学习（例如SimCLR [5]，MoCO [7,22]），这些方法将正样本与负样本进行对比，并最小化正样本之间的差异，以避免崩溃解决方案[79,90]。最近，另一类方法（例如BYOL [15]，SimSiam[6]）采用学习更新的非对称性（停梯度操作）来避免平凡解。此外，一些方法（例如W-MSE [3]，Barlow Twins[91]）通过基于Cholesky分解[83]和信息瓶颈[80]的特征去相关性来研究特征去相关性的可能性。还有一些方法（例如FURL [93]，MOON[41]）考虑了自监督学习的联邦学习。它们分别关注无监督学习设置和模型同质性下的标签分布偏斜。FCCL与其他方法之间的关键区别在于0与上述自监督学习方法的不同之处在于，我们的方法是针对联邦设置而不是集中设置设计的。受到自监督学习的启发，FCCL在联邦学习中构建了不同模型之间的比较。灾难性遗忘。在连续学习中，当模型不断从数据流中学习时，灾难性遗忘是一个重要问题，其目标是逐渐扩展已获得的知识并将其用于未来的学习[14,57]。挑战在于每个任务的类分布不断变化[63,81]。现有的解决灾难性遗忘问题的连续学习方法可以大致分为三个分支[10]：重放方法[1,67]，基于正则化的方法[32, 47, 53, 85]和参数隔离方法[55,61,70]。对于联邦学习，数据是分布式的，而不是像连续学习那样是顺序的。但是除了这些差异之外，连续学习和联邦学习都面临着一个共同的挑战-如何平衡来自不同数据分布的知识。与连续学习方法不同，我们的重点是减轻分布式数据中的灾难性遗忘，而不是时间序列数据。具体而言，我们希望平衡和提升域内和域间性能。03. 方法0问题设置和符号表示。按照标准的联邦学习设置，有 K个参与者（由 i 索引）。每个参与者都有一个本地模型 θ i和私有数据 D i = { (X i , Y i ) | X i ∈ R N i × D , Y i ∈ R Ni × C }，其中 N i 表示私有数据的数量，D表示输入大小，C被定义为分类的类别数。同时，私有数据分布表示为 P i (X,Y) 并重写为 P i (X | Y) P i(Y)。此外，在异构联邦学习中，数据异质性和模型异质性定义如下：0• 数据异质性：P i (X | Y) ≠ P j (X |Y)。私有数据之间存在领域转移，即私有数据的条件分布P(X | Y) 在参与者之间变化，即使 P(Y)是共享的。具体而言，相同的标签 Y在不同领域中具有不同的特征 X。0• 模型异质性：Shape(θ i) ≠ Shape(θj)。参与者独立定制模型，即对于分类任务，所选的骨干网络（例如ResNet [23]、EfficientNet[78]和MobileNet [26]）与不同的分类器模型不同。0我们利用未标记的公共数据 D 0 = { X 0 | X 0 ∈ R N 0 × D }来实现通信。在实际场景中，公共数据相对容易获取，例如现有数据集[8, 51,69]和网络图像[44]。第i个目标是0参与者的目标是实现通信并学习具有可推广表示的模型 θi。此外，考虑到�� ̸101460M uv i 等式（1） M T0L Col i0L Inter i等式（4）0L Intra i等式（5）0L CE i0图2. FCCL 的示意图。 (a) 我们的方法通过联邦交叉相关学习和联邦连续学习解决异质性问题和灾难性遗忘。 (b) 联邦交叉相关学习 §3.1：构造交叉相关矩阵 M i 到目标矩阵 M T = 2 × eye(C) - ones(C)，其中对角线为1，非对角线为-1。 (c) 联邦连续学习 §3.2：使用更新和预训练模型进行蒸馏，提供域内和域间的知识而不泄露隐私。渐变颜色比例反映了其他参与者的影响程度。最好以彩色查看。放大以查看详细信息。0灾难性问题，θ k需要同时具有更高和更稳定的跨领域性能。框架概述。我们方法的框架如图2所示。具体而言，在协作更新中，我们测量未标记的公共数据上逻辑输出之间的交叉相关矩阵，以增加相似性并减少冗余。同时，在本地更新中，我们通过知识蒸馏不断平衡多个领域的信息。接下来，我们首先描述联邦交叉相关学习§3.1。然后我们介绍联邦持续学习§3.2。03.1. 联邦交叉相关学习0维度级操作的动机。受到通过信息瓶颈进行自监督学习的成功的启发[80,91]，一个可推广的表示应尽可能地提供关于图像的信息，同时对应用于该样本的特定领域扭曲具有尽可能的不变性。在我们的工作中，领域转移导致相同标签Y在不同领域中具有不同的特征X。因此，不同领域上逻辑输出的分布在批次维度上不相同。此外，逻辑输出的不同维度对应于不同的类别。因此，我们需要鼓励相同维度的不变性和不同维度的多样性。私有数据携带特定的领域信息，并且受到隐私保护，不适合和不可行进行自监督学习。因此，我们利用未标记的公共数据，这些数据通常从多个领域生成和收集，并且很容易获取。我们通过要求逻辑输出在未标记的公共数据上对领域扭曲具有不变性，并且对逻辑输出的不同维度进行解相关，来优化私有模型。0交叉相关矩阵的构建。具体而言，我们获得第i个参与者的逻辑输出：Z i = f (θ i , X 0 ) ∈ R N 0 ×C。对于第i个和第j个参与者，在未标记的公共数据上的逻辑输出分别为Z i 和Zj。值得注意的是，考虑到服务器端的计算负担，我们计算平均逻辑输出：Z = 1/K Σ i Zi。然后，我们计算第i个参与者的交叉相关矩阵Mi，其与平均逻辑输出的计算方式为：0M uv i �0b || Z b,u i || || Z b,v || / √(Σ b || Z b,u i||^2) √(Σ b || Z b,v ||^2)。 (1)0其中b索引批次样本，u、v索引逻辑输出的维度，|| ∙||是沿批次维度的归一化操作。Mi是一个尺寸为输出维度的方阵，C和值介于-1（即不相似）和1（即相似）之间。然后，第i个参与者的协作损失定义为：0L Col i �0u (1 - M uu i ) 2 + λCol空格0u0v ≠ u (1 + M uv i)^2， (2)0其中λCol是一个正常数，用于权衡损失函数的第一项和第二项的重要性。当交叉相关矩阵的非对角线元素取值为+1时，鼓励不同参与者的逻辑输出相似；当交叉相关矩阵的非对角线元素取值为-1时，鼓励逻辑输出的多样性，因为这些逻辑输出的不同维度之间将不相关。与类似方法的比较。FedMD[38]依赖于最小化标注数据上的均方误差。FedDF[50]在未标记的公共数据上实现了逻辑输出分布的一致性。然而，在我们的工作中，我们期望�� [50],(4).(5)101470空格空格空格空格0图3.概念比较。未标记的公共数据X0，批次大小为B，输入大小为D，被输入到不同的模型中。logits输出具有C个维度。（a）FCCL在相同维度上学习不变性，并在批次归一化的logits输出上去相关不同维度的对。（b）FedDF[50]计算分布差异，其中在一个批次内比较逐个样本归一化的logits输出。0为了在未标记的公共数据上实现相同维度的相关性和不同维度的去相关性，我们沿着批次维度进行操作，这意味着我们将未标记的公共数据视为集合而不是个别样本。这有利于消除异常样本的干扰。我们进一步在图3中说明了FCCL和FedDF之间的概念比较。03.2. 联邦持续学习0典型的监督损失。在联邦学习中，当前的方法[38, 50, 58,74]通常将这个过程视为一个监督分类问题。具体来说，在第t个通信轮次之后，经过协作更新，第i个私有模型被定义为θt,im i。然后，在私有数据Di(Xi, Yi)上对θt,imi进行固定轮次的优化。给定私有数据Xi关于其真实标签Yi的logits输出Zt,im i,pvt = f(θt,im i,Xi)，使用softmax进行交叉熵损失的优化：0L CE i = -1Yi log(softmax(Zt,im i,pvt), (3)0其中1Yi表示Yi的one-hot编码，0softmax(Zt,im i,pvt) = exp(Zt,i0� C c ′ =1 exp( Z t,im,c ′ i,pvt )0目标设计会遭受灾难性遗忘的主要原因有两个限制：1）在本地更新中，没有其他参与者的监督，模型很容易过拟合当前数据分布，并且在跨域性能上表现不佳。2）此外，它只是独立地惩罚预测与先验概率，提供有限且难以获得的域内信息[24]。双域知识蒸馏损失。在这项工作中，我们通过从模型角度对目标进行正则化来开发一种联邦持续学习方法，以解决1）和2）的问题。具体来说，在第t-1轮结束时，更新的模型θt-1i包含从其他参与者学到的知识。我们计算私有数据上的logits输出：Zt-1i,pvt = f(θt-1i,Xi)。域间知识蒸馏损失定义为：0M → M M → M0M → U M → U (a) CE (b) Ours0图4.使用典型的监督损失（即交叉熵损失LCE在公式（3）中）和基于双域知识蒸馏的优化目标（即公式（6）中的LDual）学习的特征可视化结果，分别在域内（上）和域间（下）进行。M和U分别代表MNIST和USPS。特征根据类别标签进行着色。0域间知识蒸馏损失定义为：0L Inter i = σ ( Z t − 1 i,pvt ) logσ ( Z t − 1 i,pvt )0其中，σ表示softmax函数。与公式（4）一样，目的是在保护隐私的同时不断从其他参与者中学习，以确保跨域性能并处理联邦学习中的灾难性遗忘。此外，对于第i个参与者，可以在私有数据上预训练一个模型θ�i。我们测量私有数据上的logits输出：Z�i,pvt = f(θ�i,Xi)。域内知识蒸馏损失可以表示为：0L Intra i = σ ( Z � i,pvt ) log σ ( Z� i,pvt )0预训练模型的知识蒸馏提供了丰富的域内软信息。此外，它与前面的典型监督损失（即交叉熵损失）在公式（3）中合作，提供软和硬的域内信息以确保域内性能。在某种程度上，上述两个模型（即更新的模型θt-1i和预训练模型θ�i）分别代表域间和域内的“教师”模型。通过知识蒸馏，同时平衡来自其他参与者和自身的知识，提升了域间和域内性能。双域知识蒸馏的计算方式为：0LDuali = LInteri + LIntrai. (6)AIntrai=�(argMax(f(θi, XT esti)) == Y T esti)|DT esti|,(8)AInteri≠�(argMT estT est101480算法1：FCCL框架0输入：通信轮数T，本地轮数E，参与者数量K，无标签公共数据（X0），第i个私有数据（Xi，Yi）和预训练模型θ�i，超参数λCol，λLoc0for t = 1, 2, ..., T do0for i = 1, 2, ..., K do0X0)0i Zi for i = 1, 2, ..., K in parallel do0θt,imi ←联邦交叉相关学习（Zi，Z，θt−1i）θti ←联邦连续学习（θ�i，θt−1i，θt,imi）0return θTi 联邦交叉相关学习（Zi，Z，θt−1i）Mi ←(Zi，Z) by Eq. (1) LColi ← (Mi，λCol) through Eq. (2)θt,imi ← θt−1i − η�LColi return θt,imi to ithparticipant0联邦连续学习（θ�i，θt−1i，θi,imi）：for e = 1, 2,..., E do0Zt,imi,pvt = f(θt,imi，Xi) LCEi ← CE(Zt,imi,pvt，Yi) in Eq. (3) LInteri ←KL(Zt,imi,pvt，f(θt−1i，Xi)) in Eq. (4) LIntrai ← KL(Zt,imi,pvt，f(θ�i，Xi))in Eq. (5) LDuali = LInteri + LIntrai LLoci = LCEi + λLoc LDuali θt,imi ←θt,imi − η�LLoci0θti ← θt,imi return θti toith participant0公式（3）中的典型监督损失和公式（6）中的双域知识蒸馏损失互补。前者要求模型学习具有判别性的表示，对于分类任务具有意义，而后者则通过在领域内和领域间提供软性和丰富的信息来对模型进行正则化。因此，整体的训练目标是：LLoci = LCEi + λLoc LDuali，其中λLoc >0是一个系数。如图4所示，通过享受典型监督损失和双域知识蒸馏损失的优势，LDuali学到的特征在领域内和领域间更加紧凑和分离，模型展现出更好的判别特征，产生了有希望的领域内和领域间性能。03.3. 讨论和限制0我们在算法1中描述了FCCL。FCCL使用平均logits输出构建交叉相关矩阵。因此，当有大量的参与者时，FCCL是适用的。0联邦学习中的计算复杂度主要集中在服务器端，其复杂度为O(K)。此外，联邦交叉相关学习不考虑具体的模型结构，对logits输出进行操作。因此，当参与者共享相同的模型结构（模型同质性）时，FCCL仍然能够胜任。假设分布式数据之间没有数据异质性，那么公式（1）中的LColi的第一项将接近于零，但第二项仍然将不同维度的logits输出分离。基于此，FCCL是一种模型无关的方法，能够处理不同程度的领域转移。然而，我们也注意到任务一致性的要求存在限制。对于多任务设置，logits输出可能不仅具有不同的维度，而且对于相同的维度可能包含不同的含义。这个限制也被相关方法所共享[38, 50, 74, 91]。04. 实验0数据和模型。我们在两个分类任务上广泛评估了我们的方法（例如，Digits [27, 37, 62, 68]和Of�ce-Home[82]），使用了三个公共数据集（例如，Cifar-100[35]，ImageNet [69]和Fashion-MNIST[87]）。具体来说，Digits任务包括四个领域（即MNIST（M），USPS（U），SVHN（SV）和SYN（SY）），共有10个类别。Of�ce-Home任务也有四个领域（即艺术（A），剪贴画（C），产品（P）和真实世界（R））。请注意，对于这两个任务，来自不同领域的数据呈现出领域转移（数据异质性）。对于这两个分类任务，参与者可以根据需要自定义模型，这些模型可以有不同的主干和分类器（模型异质性）。在实验中，我们为这四个领域设置了ResNet[23]，Ef�cientNet [78]，MobileNet [26]和GoogLeNet[76]模型。比较方法。我们将我们的方法FCCL与包括FedDF[50]，FML [72]，FedMD [38]，RCFL [16]和FedMatch[28]在内的最先进方法进行比较。我们还比较了SOLO，其中参与者在私有数据上进行模型训练而没有进行联邦学习。由于具体的实验设置并不完全一致，我们保留了方法的关键特征进行比较。评估指标。我们报告了衡量方法质量的标准指标：准确率，即配对样本数除以样本总数。具体而言，对于评估领域内和领域间的性能，我们定义如下：0( K − 1) × | D T est j | .0(9) 至于方法的整体性能评估，我们101490Digits Of�ce-Home Methods M → U → SV → SY → AVG A → C → P → R → AVG0SOLO 15.29 13.91 39.24 34.30 25.68 18.89 19.36 21.97 21.02 20.31 FedMD [38] 8.97 12.61 40.89 43.0326.38 16.85 23.13 28.78 25.01 23.44 FML [72] 17.11 16.00 45.19 46.26 31.14 18.97 24.41 29.75 24.9124.51 RCFL [16] 10.21 16.10 48.85 37.96 28.28 15.16 22.01 27.98 23.95 22.28 FedDF [50] 13.23 19.2945.25 43.95 30.43 17.38 21.76 25.17 22.97 21.82 FedMatch [28] 9.22 14.76 46.28 36.05 26.58 19.0525.24 28.73 24.35 24.340FCCL 20.74 20.60 44.68 48.02 33.51 25.55 26.41 30.14 29.41 27.880表1. 与最先进方法的跨域性能比较。M →表示私有数据为MNIST，并在其他域上进行测试。AVG表示从每个域计算的平均准确率。（最佳平均准确率以粗体标记。每个域中的最佳条目以下划线标记。这些注释适用于其他内容。）0(a) MNIST (b) USPS (c) SVHN (d) SYN0图5.在Cifar-100上的Digits任务中不同域的交叉相关矩阵可视化。我们分别在公共数据（左侧）和私有数据（右侧）上可视化交叉相关矩阵（公式（1））。每个子图中的左侧和右侧图表示与其他模型在公共数据（即Cifar-100）和私有数据上的交叉相关矩阵。矩阵大小为10×10。颜色越深，M uv i（公式（1））越接近1。0采用平均准确率作为评估指标。此外，对于这两个分类任务，Digits和Of�ce-Home分别包含10个和65个类别。这两个任务都采用了Top-1和Top-5准确率。实现细节：在联邦学习过程中，所有参与者采用相同的超参数设置（即λ Col =0.0051，类似于[91]和λ Loc =1）。使用Adam优化器[31]进行模型训练，批量大小为512，学习率为0.001，对于所有方法的协作更新和本地更新都是如此。在数据规模方面，对于Digits任务，MNIST，USPS，SVHN和SYN分配给了四个参与者。相应的私有数据大小分别设置为150，80，5000和1800。至于Of�ce-Home任务，每个参与者分别被分配Art，Clipart，Product和RealWorld，并且相应的私有数据大小为1400，2000，2500，2000。这两个任务的未标记公共数据量为5000。在预处理方面，我们将所有输入图像调整为32×32的三通道图像以实现兼容性。我们进行了T =40轮的通信，所有方法在更多的通信轮次中几乎没有或没有准确率提升。此外，对于SOLO，模型在私有数据上进行了50个时期的训练，这也是联邦学习过程的初始模型。04.1. 与最先进方法的比较0我们在两个图像分类任务（即Digits和Of�ce-Home）上与最先进的方法进行了比较，使用了三个公共数据（即Cifar-100，ImageNet和Fashion-MNIST）。0跨域分析。我们在表1中报告了与最先进方法的跨域性能。结果清楚地表明，在域漂移下，SOLO在这两个任务中表现最差，证明了联邦学习的好处。我们观察到FCCL明显优于其他方法。图5显示了FCCL在参与者之间实现了类似的logits输出，并在公共数据和私有数据上实现了冗余，验证了FCCL在公共数据和私有数据上成功地强化了相同维度的相关性和不同维度的去相关性。0领域内分析。为了比较减轻灾难性遗忘的有效性，我们展示了Cifar-100的Digits任务的领域内性能（见表2）。以RCFL为对比方法，我们的方法在性能上优于其2.30%。此外，图6a中通过增加通信轮数的领域内准确率和图6b中的优化目标值显示，FCCL减少了周期性性能冲击，并且不容易过拟合当前数据分布（L Loc =0.0225），说明FCCL能够平衡多种知识，减轻灾难性遗忘。0模型同质性分析。我们进一步将FCCL与其他方法在模型同质性下进行比较。我们将共享模型设置为ResNet-18，并在协作更新和本地更新之间添加参数平均操作。表3展示了在Cifar-100的Of�ce-Home任务上的领域内和领域间性能。��(b) LLoc20.7420.644.6848.0221.6221.1247.7352.3421.1224.0751.9750.13MNISTUSPSSVHNSYNCifar-10033.51ImageNet35.70Fashion-MNIST36.8233.5135.736.8227.1330.2632.42Cifar-100FCCL85.76w/o CON82.07ImageNetFCCL86.09w/o CON82.21Fashion-MNIST101500Digits Of�ce-Home 方法 M U SV SY A C P R0SOLO 70.20 74.19 74.57 73.60 65.27 60.50 74.68 54.28 FedMD [38]77.30 80.05 77.73 87.72 66.17 60.63 76.35 56.60 FML [72] 80.66 79.7578.58 88.87 81.46 65.58 79.82 65.07 RCFL [16] 82.59 81.05 78.7991.40 65.13 61.33 76.44 55.78 FedDF [50] 82.95 78.84 78.46 91.3066.10 60.44 75.70 55.98 FedMatch [28] 82.69 78.31 79.79 89.23 81.5065.40 79.81 65.060FCCL 88.84 84.42 78.55 91.23 81.51 65.42 79.84 65.160表2.在Cifar-100上与最先进的方法进行领域内性能比较。指标在各自的测试数据上进行评估（公式（8））。0未找到翻译0（a）平均领域内准确率0未找到翻译0未找到翻译0图6.在Cifar-100的Digits任务中通过增加通信轮数比较领域内性能和优化目标值。0领域间领域内方法 A → C → P → R → A C P R0SOLO 18.89 22.58 22.33 27.26 65.27 61.51 74.84 57.65 FedAVG [58]57.85 54.05 55.72 60.18 66.71 60.90 74.29 57.49 FedMD [38] 61.0362.41 62.45 62.55 66.50 61.75 73.63 58.10 FML [72] 39.56 36.94 32.7342.00 74.87 60.73 77.19 60.71 RCFL [16] 61.52 59.56 57.56 63.5967.16 61.39 73.33 58.58 FedDF [50] 61.10 57.92 62.19 60.41 66.6960.69 74.12 57.69 FedMatch [28] 51.60 47.77 42.33 55.35 80.35 65.0578.99 64.550FCCL 64.48 62.33 63.26 64.86 81.38 65.47 79.40 65.190表3. 在Cifar-100的Of�ce-Home任务中与最先进的方法进行模型同质性比较。04.2. 诊断实验0为了展示FCCL中每个组件对整体性能的贡献，我们进行了一系列的消融实验。提出的方法FCCL由两个组件组成：联邦交叉相关学习和联邦持续学习。联邦交叉相关学习。为了证明其鲁棒性和稳定性，我们在没有标签的不同公共数据集上评估了其性能（例如Cifar-100，ImageNet和Fashion-MNIST）。图7的结果表明，联邦交叉相关学习在每个领域都取得了一致的性能。此外，可以看出，通过使用具有丰富类别（ImageNet）或简单细节（Fashion-MNIST）的公共数据，其效果更好。联邦持续学习。我们研究了我们核心思想在处理灾难性遗忘方面的有效性。如图8所示，考虑到双领域知识蒸馏（§3.2）可以显著减轻灾难性遗忘。0Cifar-100 ImageNet Fashion-MNIST0公共数据平均值0图7.联邦交叉相关学习的消融研究§3.1，用于Digits任务的不同公共数据的域间性能（左）和整体性能（右）。0在Digits任务中，与w/oCON（本地更新中的优化目标仅为交叉熵损失LCEi）相比，使用CON（联邦连续学习）可以获得显著的域间性能提升（即在Cifar-100上为6.38%）。此外，图8说明它还提升了域内性能（即在ImageNet上为3.88%）。图4可视化了域内和域间情况下的特征。可以看出，提出的联邦连续学习产生了一个具有良好区分性的特征空间。这表明在本地更新中利用额外的限制信号有助于减轻灾难性遗忘。0方法平均值0FCCL 85.77 w/o CON 83.29图8.联邦连续学习的消融研究§3.2，用于Digits任务的域间（左）和域内（右）性能。w/oCON表示损失函数为LCEi（方程（3）中的LCEi）。05. 结论0本文提出了一种用于联邦学习的简单有效的FCCL方法。FCCL能够处理异质性问题并减轻灾难性遗忘。特别是，在协作更新中构建交叉相关矩阵以学习可推广的表示。同时，我们在本地更新中引入了知识蒸馏，使用域内和域间信息提升了域内和域间的性能。分类任务上的实验结果表明，我们的方法在与最先进的方法相比表现出色。致谢。本工作得到了中国国家自然科学基金（62176188、62141112、41871243）的部分支持，湖北省科技重大专项（下一代人工智能技术）（2019AEA170）的支持，湖北省重点研究与开发计划（2021BAA187）的支持以及浙江实验室（NO.2022NF0AB01）的支持。101510参考文献0[1] Jihwan Bang，Heesu Kim，YoungJoon Yoo，Jung-WooHa和JonghyunChoi。彩虹记忆：带有多样样本记忆的连续学习。在CVPR，页8218-8227，2021年。30[2] Cristian Buciluˇa，Rich Caruana和AlexandruNiculescu-Mizil。模型压缩。在KDD，页535-541，2006年。2，30[3] Yue Cao，Zhenda Xie，Bin Liu，Yutong Lin，ZhengZhang和HanHu。无监督视觉特征学习的参数化实例分类。在NeurIPS，页15614-15624，2020年。30[4] Hongyan Chang，Virat Shejwalkar，Reza Shokri和AmirHoumansadr。Cronus：具有黑盒知识传输的强大和异构的协作学习。arXiv预印本arXiv:1912.11279，2019年。30[5] Ting Chen，Simon Kornblith，MohammadNorouzi和GeoffreyHinton。对视觉表示进行对比学习的简单框架。在ICML，页1597-1607，2020年。2

下载后可阅读完整内容，剩余1页未读，立即下载