联邦学习：基于自我注意力的架构对异构设备间的联邦学习具有鲁棒性，提高模型表现

124 浏览量更新于2023-10-25 收藏 2.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10061联邦学习曲良琼1周玉印2梁浦亮3夏颖达4王菲菲1艾山阿德利1李飞飞1丹尼尔鲁宾11斯坦福大学，2加州大学圣克鲁斯分校，3卡内基梅隆大学，4约翰霍普金斯大学{liangqiqu，zhouyuyiner，philyingdaxia} @ gmail.com，pliang@cs.cmu.edu，{ffwang，eadeli，feifeili，rubin} @ stanford.edu，摘要联合学习是一种新兴的研究范式，可以在不同组织之间协作训练机器学习模型，同时保持每个机构的数据私密性尽管最近取得了进展，但仍然存在基本挑战，例如缺乏融合以及在现实世界的异构设备之间发生灾难性遗忘的可能性。在本文中，我们证明了基于自我注意力的架构（例如，变换器）对分布变化更鲁棒，因此改善了对异构数据的联邦学习具体地说，我们进行了第一次严格的实证调查不同的神经架构在一系列的联邦算法，现实世界的基准，和异构数据分裂。我们的实验表明，简单地用Transformers替换卷积网络可以大大减少对以前设备的灾难性遗忘，加速收敛，并达到更好的全局模型，特别是在处理异构数据时。我们发布了我们的代码和预训练模型，以鼓励未来在健壮架构中进行探索，作为优化前沿当前研究工作的替代方案1. 介绍联邦学习（FL）是一种新兴的研究范式，用于在分布在多个异构设备上的私有数据上训练机器学习模型[47]。FL将每个设备上的数据保持为私有，旨在训练一个全局模型，该模型仅通过通信参数而不是数据本身进行更新因此，它为跨多个机构的协作机器学习提供了机会，而不会有泄露私有数据的风险[25，36，54]。这已被证明在医疗保健[4，7，15，40]，从移动设备学习[17，38]，*同等贡献CWTFedAVG图1. 预测测试CIFAR-10数据集与模型大小1的高度异质性数据分区（Split-3）的准确性。Vision Transformers（ViTs和Swin Transformers）在高度异构的数据分区上的性能明显优于CNN（ResNets和EfficientNets）。智能城市[25]和通信网络[49]，其中保护隐私至关重要。尽管FL提供了丰富的机会，但在FL可以很容易地应用于现实世界的数据分布之前，仍有一些基础研究问题需要解决。目前大多数旨在跨非IID设备学习单个全局模型的方法都遇到了挑战，例如并行FL方法的非保证收敛和模型权重发散10062ods [35，37，68]和严重的灾难性遗忘问题对于连续FL方法[7，16，57]。虽然大多数研究工作都集中在改进FL的优化过程，但本文旨在通过重新思考美联储模型中的架构选择我们假设Transformer架构[12，61]特别适用于异构数据分布，因为它们对分布偏移具有惊人的鲁棒性[3]。这种特性导致了变形金刚在自我监督学习中的流行，其中异质性通过未标记的预训练数据和标记的测试数据之间的分布变化来表现[11]，以及在基本异构的输入模态（如图像和文本）上的多模态学习[24，60]。为了研究这一假设，我们进行了第一次大规模的实验，几个神经架构跨一套联邦算法，现实世界的基准测试，异构数据分裂。为了表示Transformer网络，我们在跨越图像分类[31，42]和医学图像分类[27]的图像任务上使用Vision Transformer [12，41我们的研究结果表明， VI T-FL （具有 VisionTransformers的联合学习）在具有大多数异构设备分割的设置中表现尤其出色，随着异质性的增加，VIT-FL和具有ResNets的FL之间的差距[19]显著增加。为了理解这些结果，我们发现改进的主要来源在于Transformer模型对异构数据的鲁棒性增加，这减少了在基本上不同的新设备上训练时对先前设备的灾难性遗忘。总之，Transformers收敛速度更快，并达到适合大多数设备的更好的全局模型。通过与专门针对异构数据设计的FL方法的比较，我们发现VIT-FL提供了即时的改进，而无需使用训练算法、额外的超参数调整或额外的训练。此外，值得注意的是，我们的VI T-FL是正交于基于经验优化的FL方法，并且可以很容易地应用于改善其性能。为此，我们认为，在今后的研究中，变形金刚应被视为语言学问题的一个自然起点。2. 相关工作联邦学习联邦学习（FL）旨在通过大规模分布式设备上的私有数据训练机器学习模型[47]。为了实现跨异构设备的有效分布式训练，已经出现了两类方法：（1）并行FL方法涉及并行地训练每个本地客户端，或者同步地训练每个本地客户端。 ly或异步（如经典的FedAVG [47]），而（2）串行方法以串行和循环的方式训练每个客户端（如循环权重传输（CWT）[7]）1计算三次运行的平均值和标准差。[62]《明史》：“学而不学，学而不学。Fe-dAVG [47]和CWT [7]的示意性描述如图2所示。在其核心，FL在客户端之间的训练数据分布中提出了数据异质性的挑战，这导致并行FL方法的非保证收敛和模型权重发散[21 ， 37 ， 66 ， 68] ，以及串行 FL 方法的严重catastrophic遗忘问题[7，16，57]。在经典FedAVG算法[47]的最新发展中，包括使用服务器动量（Fe- dAVGM）来减轻每个客户端的分布偏移和不平衡[22]，在所有用户之间全局共享数据的小子集（FedAVG-Share）[68]，使用本地目标的近似项（FedProx）来减少潜在的权重发散[37]，或使用其他优化算法，如协作重放[52]，无监督对比学习[69]，匹配用户模型的特征层[64，65]或模型蒸馏[14]来处理异质性。同时，最近的几项努力旨在减轻持续和串行学习中的灾难性遗忘：限制对预先检查的任务或客户端重要的权重的更新（弹性权重合并（EWC）[30]），应用深度生成重放来模拟来自先前客户端或任务的数据[52，58]，以及应用循环加权目标来减轻标签分布偏斜的性能损失[2]等。然而，所有这些方法都主要集中在改进优化算法上，而没有研究在体系结构设计中提高对数据分布变化的鲁棒性的潜力在我们的工作中，我们表明，简单的选择架构实际上有很大的不同，应该是一个积极的研究领域平行的优化方法，一直是当前工作的主要焦点。变压器. Transformer架构最初是针对序列到序列机器翻译提出的[61]，随后在许多NLP任务中建立了最先进的性能，特别是在自我监督范式中训练时[11]。最近，变压器也被发现广泛适用于涉及图像和视频的任务。例如，Parmar等人。 [50]将自我注意力应用于图像的局部邻域，而Vision Transformer（ViT）[12]通过直接将具有全局自我注意力的Transformers应用于全尺寸图像，实现了ImageNet分类的最新技术。相对于经典的语言体系结构（即， [20] 和视觉（即，，CNN [19，34]）最近激发了人们对理解其有效性背后原因的兴趣。在几个特别相关的发现中，ViT对严重的闭塞、扰动、结构域转移[3，48]以及合成和天然对抗性实例[44，51]具有此外，最近的研究表明，变压器也适用于异构和多峰数据[24，43，60]。受这些发现的启发，我们...10063图2.CIFAR- 10 [ 31 ]的非IID数据分区上的典型串行FL方法CWT [7]和并行FL方法FedAVG [46]的简化示意图，具有标签分布偏度。Wt，i表示在客户端i（涉及总共K个客户端）上在第t轮训练期间的模型权重。在右侧，我们使用UMAP [45]显示了ViT（S）-FedAVG和ResNet（50）-FedAVG的特征嵌入可视化我们发现，ViT（S）-FedAVG学习的特征比ResNet（50）-FedAVG学习的特征分离得更清楚我们的实验（第4.2节）支持VI T-FL在异构数据上的优越性，我们提供了解释其有效性的分析（第4.3节）。假设ViTs也将非常有效地适应外语中的数据异质性，并提供详细的实证分析来验证这一假设。3. 联邦学习中的转换器在本节中，我们将介绍Transformer体系结构和联邦学习方法的背景。3.1. 愿景架构CNN. 对于基于卷积的架构，我们使用ResNet [19]模型系列（ResNet-50，ResNet-152和ResNeXt-101（32 x8d））和EfficientNet [59]模型系列（EfficientNet-B1，EfficientNet-B5和EfficientNet-B7），其中包含卷积，ReLU ，池化和批量归一化层的序列。 ResNet 和EfficientNet是最流行的图像分类架构之一，并且已经成为FL中用于图像数据的标准架构[1，39]。变压器. 作为比较，我们采用Vision Transformer（ViT（S）、ViT（T）、ViT（B））[12]模型系列和SwinTransformer模型系列（Swin（T）、Swin（S）和Swin（B））[41]，它们不使用传统的卷积层。相反，图像特征提取图像序列化和补丁嵌入策略。每个模型的参数数量见图13.2. 联邦学习方法我们应用最流行的并行方法之一（Fe-dAVG [47]）和串行方法（CWT [7]）作为训练算法（见图2中的示意图描述）。联邦平均FedAVG将每个客户端上的局部随机梯度下降（SGD）与迭代模型平均相结合[47]。具体地说，在每一轮通信中随机抽样一小部分本地客户机，并且服务器将当前全局模型发送到这些客户机中的每一个客户.然后，每个选定的客户端对其本地训练数据执行本地SGD的E个时期，并将本地梯度发送回中央服务器以同步聚合。然后，服务器应用平均梯度来更新其全局模型，并且该过程重复。循环重量转移。与FedAVG不同，其中每个本地客户端以同步和并行的方式训练，CWT中的本地客户端以串行和循环的方式训练。在每一轮训练中，CWT在一个本地客户端上使用其本地数据训练一个全局模型，持续若干个时期E，然后将此全局模型传输到下一个客户端进行训练，直到所有本地客户端都被训练一次[7]。然后，训练过程反复循环通过客户端，直到模型收敛或达到预定义数量的通信轮次。4. 实验我们的实验旨在回答以下研究问题，这些问题对FL方法的实际部署非常重要，同时也有助于我们理解（视觉）Transformer架构。与CNN相比，Transformers是否能够在FL设置中学习到更好的全局模型，CNN是FL任务的实际方法（第4.2节）？Transformer是否特别能够处理异构数据分区（第4.3.1节）？变压器是否与CNN一样降低了通信成本（第4.3.2节）？Transformers能否用于进一步改进现有的基于优化的FL方法（第4.4节）？对于从业者在FL中部署变压器有什么实用的提示（第4.5节）？·····10064±(a)CWT（b）FedAVG图3. CWT和FedAVG的预测准确度（%），CNN和Transformers分别作为Retina数据集（第一行）和CIFAR-10数据集（第二行）的基线网络。Vision Transformers（ViT和Swin）表现出一贯的强大性能，特别是在非IID数据分区中。实验代码包括https://github.com/Liangqiong/ViT-FL-main。4.1. 实验装置在[7，21]之后，我们在Kaggle糖尿病视网膜病变竞争数据集（表示为Retina）[27]，具有模拟数据分区的CIFAR-10 数据集 [31] 以及我们研究中的真实世界CelebA数据集[42]上评估FLRetina和CIFAR-10：我们将Retina数据集中的标签二值化为健康（阳性）和非健康（阴性），随机选择6000张平衡图像进行训练，3000张图像作为全局验证数据集，3000张图像作为全局测试数据集[7]。我们使用CIFAR-10中的原始测试集作为全局测试数据集，从原始训练数据集中留出5，000张图像作为全局验证数据集，并使用剩余的45，000张图像作为训练数据集。我们模拟三组数据分区：一个IID数据分区，和两个非IID数据分区标签分布倾斜。Retina和CIFAR-10中的每个数据分区分别包含4个和5个我们使用每两个客户端之间的平均Kolmogorov-Smirnov（KS）统计量来衡量标签分布的偏斜程度。KS=0表示IID数据分区，而KS=1导致极端非IID数据分区，其中每个客户端持有完全不同的标签分布（有关详细的预处理和数据分区，请参见附录A.1CelebA是一个大规模的人脸属性数据集，超过20万张名人照片我们使用LEAF基准测试[5]提供的CelebA联邦版本，它基于身份划分到设备中。在[5]之后，我们对二元分类任务（微笑的存在）进行测试，并丢弃样本大于8的客户端以增加任务难度。这样，共有227个客户，平均每个客户5个。341. 11个样本，共计1213个样本。我们使用线性学习率预热和衰减调度器用于具有CNN的FL的学习速率调度器选自线性预热和衰减或阶跃衰减。梯度裁剪（在全局范数1处）被应用于稳定训练。我们将所有FL方法中的本地训练历元E设置为1（除非另有说明），Retina和CIFAR-10的总通信轮数为100，CelebA为30。为了公平比较，本文中使用的所有模型都在ImageNet-1 K上进行了预训练[10]。更多实施细节见附录A.2。计算：所有实验都在TITAN V GPU或Tesla V100GPU上进行。4.2. 结果FL与不同神经架构和（理想）集中式训练的比较无论应用哪种架构，CWT和FedAVG都可以在IID设置上实现与集中托管数据（表示为Central）训练的模型相当的结果（图3）。然而，我们观察到CNN在CWT和FedAVG的异构数据分区上的测试准确性显着降低，10065图4.在Retina数据集（第一行）和CIFAR-10数据集（第二行）上使用不同的数据分区测试集精度与通信轮次。黑色虚线示出了表3中使用的目标性能（Target-ACC）。Vision Transformers收敛速度更快，通信次数更少，这使得它们特别适合通信高效的FL。特别是在非常异构的数据分区上（CIFAR-10的S-分割3、KS-1）（图3和图1）。通过简单地用ViT替换CNN， CWT和FedAVG即使在高度异质的非IID设置中也成功地保持了模型的准确性相对于ResNet（50）-CWT和ResNet（50）-FedAVG，ViT（S）-CWT和ViT（S）-FedAVG将测试准确度提高了77。70%和37。在CIFAR-10数据集的高度异质性Split-3，KS-1上为34%因此，VI T特别适用于异构数据.与现有FL方法的比较：我们还将T-FL与两种最先进的基于优化的FL方法进行了比较：Retina和CIFAR-10上的 FedProx [37] 和 FedAVG-Share [68] 。我们使用ResNet（50）作为其他比较方法的骨干网络，并使用ViT（S）作为我们的方法。我们使用网格搜索调整Split-2数据集的最佳参数（FedProx的近端项中的惩罚常数μ），并将相同的参数应用于所有剩余的数据分区。我们允许每个客户端之间共享5%的数据FedAVG-Share。如图4所示，VIT-FL在非IID数据分区中优于所有其他FL方法，特别是在高度异构的非IID设置上。FedProx [37]在高度异构的数据分区上遭受严重的性能下降，尽管仔细调整了优化参数。类似地，FedAVG-Share也会在高度异构的数据分区Split-3上遭受性能下降，即使在所有客户端之间共享5%的本地数据时也是如此（94. CIFAR-10数据集上Split-3的4%，而Split-1的97%我们的结论是，简单地使用变压器优于最近的几种方法设计，FL，这通常需要仔细调整优化参数。请注意，VI T的使用与现有优化方法正交，两者的组合可以产生更强的性能（详见第4.4节）。4.3. 变压器的有效性分析鉴于这些有希望的实证结果，我们现在进行一个仔细的实证分析，以揭示究竟是什么4.3.1变压器在非IID设置中更好地泛化FL的分布式特性意味着客户端之间的数据分布可能存在实质性的异构性。先前的研究已经表明，使用Fe-dAVG或CWT训练FL模型分别会导致权重发散和灾难性遗忘等问题[30，57]。我们认为，CNN中使用的局部卷积，已被证明更多地依赖于局部高频模式[13，26，63]，可能对异质设备特别敏感。这个问题在FL中比在健康护理数据中特别普遍，因为由不同机构捕获的输入图像可能在局部模式（强度、对比度等）上显著变化。由于不同的医学成像协议[16，55]，以及由于用户在说话[33]、打字[17]和书写[28]中的身份识别而在自然数据分割另一方面，ViT使用自我注意力来学习全局交互[53]，并且与CNN相比，已经被证明对局部模式的偏见较小。这一性质可能有助于他们惊人的鲁棒性分布10066R50-CWTViT（S）-CWTR50-FedAVGR50-FedProxR50-FedAVG-ShareViT（S）-FedAVGCelebA八十五35±8。2788.09± 5.1584. 08± 9。6584. 27± 9。74八十五46± 3。7586.63± 7.12表1. CelebA数据集上的预测准确率（%）。Vision Transformers表现出优于ResNet（50）（表中的R50）的性能，并且还优于以ResNet（50）作为骨干网络的基于优化的FL方法（FedProx和FedAVG-Share）图5.左：随着更多客户端参与CWT学习，客户端3的验证数据集上的预测准确度的演变。我们使用CIFAR-10数据集的Split 3（最异构的数据分割），并比较使用ResNet（50）（图中的R50），ResNet（50）-EWC [30]和ViT（S）模型训练的CWT。右：放大左侧图像中的红色矩形。还示出了不同客户端的训练顺序。ResNet（50）-CWT的顺序训练策略在高度异构的数据分布下会导致对先前客户端的灾难性遗忘。ResNet（50）-EWC-CWT [30]几乎没有解决灾难性遗忘问题。由于ViT（S）-CWT具有较强的泛化能力和对异构数据的鲁棒性，有助于缓解这一问题。R ETINA （#6，000）CWT FedAVGCIFAR-10（#45，000）CWT FedAVGResNet（50）维生素T（S）51岁3 ± 1。355 0 ±0。3八十0 ± 0。181 0 ±0。131岁2± 12。 2375± 1。4九十七5 ± 0。0297. 4 ±0. 03表2.在一个大规模的边缘案例环境中，有数千名客户参与训练（Retina和CIFAR-10分别有6，000和45，000 t包含一个数据样本）。Vision Transformers在这种边缘情况下的表现明显优于ResNet同类产品。转移和对抗性扰动 [3 ， 48] 。为了进一步分析Transformer跨异构数据的泛化能力，我们设计了以下实验：1. 跨异构设备的灾难性遗忘CNN在分布外的数据上通常工作得更差。这种现象在串行FL方法连续小波变换中尤为严重。由于其顺序和串行训练策略，在CWT范式中训练 CNN 通常会导致对非 IID 数据分区的catastrophic遗忘：在具有不同数据分布的新客户端上进行几次更新后，模型这会导致FL中不期望的更差和更慢的收敛。在迁移学习文献中也发现了类似的遗忘问题[8，9，56]。我们在CIFAR-10数据集的Split-3上评估CWT，以说明这种灾难性的遗忘现象。在图5中，我们绘制了Client-3验证数据集上的预测准确度的演变（该验证数据集共享与训练数据集相同的数据分布），因为更多的客户参与CWT学习。当将客户端-3上经过良好训练的模型转移到客户端-4时，先前客户端-3验证数据集上的预测准确度突然且显著地降低（从>98%降低到1%准确度）。<然而，用ViT作为主干训练的模型（ViT（S）-CWT）能够将知识从客户端3转移到客户端4，同时仅丢失客户端3上的少量信息（保持98%的准确性）。因此，ViTs更好地推广到新的数据分布，而不会忘记旧的。我们进一步比较了ViT（S）-CWT与专门设计用于减轻灾难性损失的优化方法EWC [30]（使用[23]的实现）。在CIFAR-10的Split-3上对CWT进行的系列训练可以被视为增量类学习任务，其中每个客户端包含数据集中的类的独占子集。每个客户端模型共享相同的分类器到标准化的联合标签空间[23]。然而，从图5中可以看出，EWC几乎没有解决高度异构数据分区上的灾难性遗忘问题，这也与[23]中报告该实验进一步证明了ViT超越为FL设计的优化方法的有效性。2. 在真实世界的联邦数据集上推广VIT-FL：经过良好训练的联邦模型应该在其他看不见的客户端的分布外测试数据集上表现良好。为了测试Transformers的通用性，我们10067×CWTR50 ViT（S）R50R50-FedProxR50-分享FED平均值维生素T（S）ViT（S）-FedProxViT（S）-分享RETINASplit-1Split-2Split-36× 23.572× 23.5∞9× 21.755× 21.458× 21.412× 23.5∞∞7× 23.5∞∞11× 23.585∞11× 21.415× 21.415× 21.44× 21.412× 21.412× 21.47× 21.413× 21.416× 21.4CIFAR-10Split-1Split-2Split-32× 23.5∞∞1× 21.434× 21.785× 21.74×23.519× 23.5∞4× 23.517× 23.5∞5× 23.59× 23.541× 23.51× 21.42× 21.44× 21.41× 21.42× 21.43× 21.41× 21.41× 21.41× 21.4表3.达到目标性能（最佳和次佳）所需的#发送消息大小（#通信回合#模型参数（M））。#ViT（S）和ResNet（50）的模型参数为21。7米，23。分别为5MViT收敛速度更快，特别是在异构数据分割上，并且可以与基于优化的方法（FedProx和FedAVG-Share）相结合，以实现更快的收敛。Split 2，KS-0.49（Retina）Split 3，KS-0.57（Retina）Split 3，KS-0.65（CIFAR-10）Split 3，KS-1（CIFAR-10）图6.测试集准确度与ViT（S）-FedAVG上的通信轮次及其与现有FL方法FedProx [37]和FedAVG-Share [68]的组合VisionTransformers可以与现有的基于优化的FL方法结合使用，以进一步提高收敛速度，并以更少的通信轮次达到目标性能。将其应用于真实世界的联邦CelebA数据集[42]，并将其与ResNet对应物FedProx [37]和FedAVG-Share [68]进行比较。我们在表1中报告了使用不同FL方法训练的模型在所有本地客户端的测试数据的联合上的测试准确度。我们的VIT-FL方法优于最先进的FL方法，并且还降低了方差。这表明，Transformers学习的全局模型比CNN更好。3. VIT-FL在极端大规模设置上的推广：为了验证VI T-FL在涉及t个客户端的更大规模的真实世界分布式学习设置上的有效性，我们进一步将不同的FL方法应用于Retina和CIFAR-10数据集上的极端边缘情况这里的边缘情况定义为作为一个客户端，只有一个数据样本，这是相当这在医疗保健中很常见，其中患者仅持有属于他们自己的一个数据样本这导致了大量的异构客户机：Retina有6000个， CIFAR-10有45000个。从表2中可以看出，ViTs在这种极端异构的边缘情况下仍然可以学习到一个有前途的全局模型，显著优于ResNet模型（在Retina上从50%到80%，在CIFAR-10上从30%到90%）。4.3.2变压器更快地收敛到更好的最佳状态一个强大的FL方法不仅应该在IID和非IID数据分区上鲁棒地执行，而且还具有低通信成本以使得能够在通信受限的带宽上进行部署通信成本由以下因素10068直到收敛的轮数和模型参数的数目。我们计算了实现预定义的目标测试集准确度所需的通信轮数，该准确度为集中训练的 ResNet 预测准确度的 95%（50）。具体来说，我们将Retina和CIFAR- 10数据集的目标准确率设置为77。5%，91。5%。我们将串行CWT方法上的一轮通信定义为跨所有联合本地客户端的一个完整训练周期。从图4和表3中可以看出，所有评估的FL方法都能在同质数据分区上快速收敛到目标测试性能然而，ResNet（50）-FedAVG和ResNet（50）-CWT的收敛速度随着异构性的增加而降低，甚至在高度异构的数据分区上达到平台（并且从未达到目标精度）。相比之下，VIT-FL在异构数据上仍然快速收敛。例如，ResNet（50）-CWT由于在CIFAR-10上的异构数据分区Split-2和Split-3上的严重灾难性遗忘而完全发散，而ViT（S）-CWT在34和85个通信轮之后达到目标性能。4.4. 结合现有方法由于我们对建筑选择的研究在很大程度上与现有的基于优化的FL方法正交，因此我们的研究结果可以很容易地与后者结合使用我们将 VisionTransformers 与基于优化的方法（ FedProx [37] 和FedAVG-Share [68]）相结合，并将其应用于Retina和CIFAR-10数据集。从Ta-10069联系我们≤联系我们Split 1，KS-0（Retina）Split 3，KS-0.57（Retina）Split 3，KS-1（CIFAR-10）图7.在Retina和CIFAR-10上的ViT（B）-CWT和ViT（B）-FedAVG模型的每个通信回合上的不同局部时期E上的训练的效果（为了简单起见，图例标签中CWT和FedAVG的ViT（B）前缀被省略）。大E在轻度异构数据分区中导致更快的收敛，但在严重异构数据分区中可能导致更差的最终性能C中心SPLIT-1SPLIT-2SPLIT-3预训练九十七91九十八17九十七78九十六。40从头94 5086岁。9179岁。43六十四50表4. Swin（T）-FedAVG预训练对CIFAR-10的影响。与VI T的训练一样，VI T-FL的训练也要进行前期训练。如表3和图6所示，当应用于现有的FL优化方法时，VIT进一步提高了异构数据客户端的性能。4.5. 实际使用要点局部训练时期：标准使用E来表示局部模型在其局部数据集上传递的轮数。已知E强烈影响FedAVG [47]和CWT [7]的性能。本文就局部训练时期E对VIT-FL的影响进行了实验研究，认为EViT（B）-FedAVG为1、5、10，ViT（B）-CWT为E1、5。从图7中，我们发现ViT显示了与CNN类似的现象，即较大的E加速了同构数据分区上ViT（B）-FedAVG的收敛，但可能导致异构数据分区上最终性能的S.类似地，ViT（B）-CWT也像ResNet（50）-CWT [7]那样在非IID数据分区上支持每个客户端之间的频繁传输因此，我们建议用户在同质数据上应用大的E以减少通信，但是对于高度异质的情况应用小的E（对于VIT-FedAVG为E5，对于VIT-CWT为E=1预训练对VI T-FL的影响：有证据表明，VI T通常需要更大量的训练数据才能比从头开始训练的CNN表现更好[12]。我们进行实验来研究预训练对VI T-FL的影响。我们采用FedAVG作为训练算法，使用Swin（T）[41]作为骨干网络，并在CIFAR-10上进行测试。我们应用相同的增强和正则化策略作为[41]在训练中，并设置最大通信回合为300。如表4所示，当从头开始训练时，Swin（T）的性能集中托管和FL设置。尽管如此，当从头开始训练时，它在高度异构的数据分区Split-3上的性能（64. 50%）比ResNet（50）-FedAVG（59. 图3中的68%），当使用数量级更多的数据进行预训练时。在实际应用中，建议用户将VI T作为他们的第一选择，因为当应用预训练模型时，VIT-FL始终优于他们的CNN对手（图1和图3）。如果没有大规模的预训练数据集，自我监督的预训练[6，18]可以是一种替代方案。其他训练技巧：FL中VIT的训练策略可以直接继承自VI T训练，例如使用线性预热和学习率衰减，以及梯度裁剪。相对小的学习率和梯度范数剪辑是必要的，以稳定CWT中的VIT的训练，特别是在高度异构的数据分区中。梯度范数剪辑也有助于在异构数据中使用CNN训练FL，因为它已被证明可以减少局部更新与当前全局模型之间的权重差异[37]。更多一般提示和实验分析请参见附录B.15. 结论尽管语言学近年来取得了一些进展，但在处理异质数据时仍存在收敛和遗忘的问题。与以往的方法改进优化，我们提供了一个新的视角，通过重新思考架构设计在FL。使用变压器的异构数据和分布变化的鲁棒性，我们进行了广泛的分析，并证明了变压器的优点，在减轻灾难性遗忘，加速收敛，并达到一个更好的最优并行和串行FL方法。我们发布我们的代码和模型，以鼓励在优化方面的努力的同时开发健壮的体系结构。致谢这项工作部分得到了NCI U01CA242879的资助10070引用[1] Manoj Ghuhan Arivazhagan，Vinay Aggarwal，AadityaKu- mar Singh和Sunav Choudhary。使用个性化层的联合学习。arXiv预印本arXiv：1912.00818，2019。3[2] Niranjan Balachandar，Ken Chang，Jayashree Kalpathy-Cramer，and Daniel L Rubin.在医学成像的多机构分布式深度学习中考虑数据美国医学信息学协会杂志，27（5）：700-708，2020。2[3] SrinadhBhojanapalli ， AyanChakrabarti ， DanielGlasner，Daliang Li，Thomas Unterthiner，and AndreasVeit.了解图像分类中变压器的鲁棒性.arXiv预印本arXiv：2103.14586，2021。二、六[4] Theodora S Brisimi，Ruidi Chen，Theofanie Mela，AlexOl- shevsky，Ioannis Ch Paschaleet，and Wei Shi. 从联邦电子健康记录中学习预测模型。国际医学信息学，112：59-67，2018。1[5] Sebastian Caldas，Sai Meher Karthik Duddu，Peter Wu，TianLi ， JakubKonec ny` ， HBrendanMcMahan ， VirginiaSmith， and Ameet Talwalkar.Leaf：联邦设置的基准。arXiv预印本arXiv：1812.01097，2018。四、十二[6] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。8[7] Ken Chang、Niranjan Balachandar、Carson Lam、DarvinYi、James Brown、Andrew Beers、Bruce Rosen、DanielL Rubin和Jayashree Kalpathy-Cramer。医疗成像机构之间的分布式深度学习网络美国医学信息学协会杂志，25（8）：945- 954，2018。一、二、三、四、八、十二[8] Xinyang Chen，Sinan Wang，Bo Fu，Mingsheng Long，and Jianmin Wang.灾难性的遗忘遇到负迁移：安全迁移学习的批量频谱收缩。NeurIPS，2019。6[9] 亚历山德拉·克罗诺普洛斯，克里斯蒂娜·巴齐奥蒂斯，亚历山德罗斯·波塔米安诺斯。一种非常简单的方法，用于从预训练的语言模型中进行迁移学习。在计算语言学协会北美分会2019年会议的进行中：人类语言技术，第1卷（长论文和短论文），明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会。6[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。四、十二[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。arXiv预印本arX- iv：1810.04805，2018。2[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al.用于大规模图像识别的成形器。ICLR，2021年。二、三、八、十二[13] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。ICLR，2019。5[14] Xuan Gong ，Abhishek Sharma ， Srikrishna Karanam ，Ziyan Wu，Terrence Chen，David Doermann，and ArunInnanje. 隐私保护联邦学习的包围注意力蒸馏。在IEEE/CVF国际计算机视觉会议（ICCV）的会议记录中，第15076- 15086页，2021年10月。2[15] Pengfei Guo，Puyang Wang，Jinyuan Zhou，ShanshanJiang，and Vishal M.帕特尔多机构合作，使用联邦学习改进基于深度学习的磁共振图像重建。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第2423-2432页，2021年6月。1[16] Sharut Gupta，Praveer Singh，Ken Chang，LiangqiongQu ， Mehak Aggarwal ， Nishanth Arun ， AshwinVaswani，Shru- ti Raghavan，Vibha Agarwal，MishkaGidwani ， et al. Ad- dressing catastrophic forgetting formedicaldomainexpansion.arXiv 预印本 arXiv ：2103.13511，2021。二五十三[17] 安德鲁·哈德、卡尼什卡·拉奥、拉吉夫·马修斯、斯瓦鲁普·拉马斯·瓦米、弗朗索瓦丝·博·费斯、肖恩·奥根斯坦、休伯特·伊希纳、克洛伊·基登和丹尼尔·拉米奇。联合学习 -ING 移动键盘预测。 arXiv 预印本

下载后可阅读完整内容，剩余1页未读，立即下载