马猫狗服务器：知识分布论述

85 浏览量更新于2023-10-25 收藏 765KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10072马猫服务器狗知识分布&重量公共数据集具有噪声和异构客户端的鲁棒联邦学习方秀文1，叶芒1，2*1多媒体软件国家工程研究中心、人工智能研究所、多媒体与网络通信工程湖北省武汉大学计算机科学学院，武汉，中国2湖北珞珈实验室，武汉，中国https://github.com/FangXiuwen/Robust_FL摘要模型异构联邦学习是一个复杂的任务，因为每个客户端独立地设计自己的模型。由于注释困难和搭便车问题，本地客户端通常包含不可避免的和变化的噪声，这不能有效地解决现有算法。本文开始了第一次尝试研究一个新的和具有挑战性的强大的联邦学习问题的嘈杂和异构的客户端。我们提出了一种新的解决方案RHFL（鲁棒异构联合学习），它同时处理标签噪声，并在一个框架中进行联邦学习。它的特点有三个方面：（1）对于异构模型之间的通信，我们利用公共数据直接对齐模型反馈，不需要公开数据临床检验中心噪声客户端1总医院客户端2社区卫生中心客户k局部异质模型噪声数据集更多共享的全球协作模式。(2)对于内部标签噪声，我们应用一个鲁棒的噪声容忍损失函数，以减少负面影响。(3)针对来自其他参与者的具有挑战性的噪声反馈，我们设计了一种新的客户端置信度重加权方案，该方案在协作学习阶段自适应地为每个客户端分配相应的权重。大量的实验验证了我们的方法在减少模型同质和异构联邦学习设置下不同噪声率/类型的负面影响方面的有效性，始终优于现有方法。1. 介绍本地客户端（如移动设备或整个组织）通常具有有限的私人数据和有限的通用性。因此，使用所有客户端的私有数据来集中学习公共模型将大大提高性能。但由于数据孤岛和数据隐私的存在，我们无法使用传统的集中式学习*通讯作者：叶芒（yemang@whu.edu.cn）图1.具有噪声和异构客户端的联邦学习的图示，其中客户端具有异构本地模型和具有不同噪声率的噪声数据集。实际应用[19]。为了解决这些挑战，McMahan等人提出了联邦学习（FL）。联合学习是一种分布式机器学习框架，它使多个客户端能够利用分散的数据协同训练模型。客户端从不与服务器共享私人数据，确保基本隐私。近年来，广泛使用的联邦学习算法，例如，FedAvg [33]和FedProx [29]基于对参与客户端的模型参数进行平均。大多数这些联邦学习方法[44，27，40，32，8，14]都是基于参与的客户端模型具有相同的神经架构的假设开发的。在现实世界的场景中，由于个性化需求的差异[28]，每个客户端可能希望独立设计自己的模型[17，38，41，26，13，3，9]，从而导致模型异构联邦学习问题。例如，当许多医疗保健组织参与协作学习而不共享私人10073数据，他们设计不同的模型，以满足不同的任务和规格，如图1所示。在这种情况下，出于商业目的，机构通常不愿意披露或分享模型设计的细节因此，为了使用异构模型执行联邦学习，已经提出了许多异构联邦学习方法[23，31，30，60，7，55，6，16]。FedMD[23]是一个基于知识蒸馏的框架，它通过客户端模型在公共数据集上的类分数来实现。FedDF [31]利用未标记的数据为每个不同的模型架构执行集成蒸馏。这些战略主要依赖于全球统一的共识或共享模式。然而，学习全球共识有一个主要的局限性，即客户不能单独调整他们的学习方向，以适应客户之间的差异此外，构建额外的模型将增加计算开销，从而影响效率和效果。因此，如何在不依赖于全局共识或共享模型的情况下与异构客户端执行是具有挑战性的。此外，上述方法主要依赖于每个客户端都有干净数据集的假设，这在许多实际应用中无法满足。当客户端包含不可避免的噪声样本时，现有的反馈学习方法无法消除标签噪声造成的负面影响，从而导致显著的性能下降[25]。由于联邦学习包含大量参与客户端，因此每个参与客户端中的数据通常具有不同的噪声模式。在实际应用中，标签噪声通常由以下两个方面引起：1）由于人类专业知识的有限性和稀缺性，标签数据的质量会受到人类主观因素的影响，这意味着高质量的标签数据需要高成本，从而不可避免地导致一些错误的标注。2)在反馈式学习框架中，考虑到用户公平性，系统中可能存在一些想从全局模型中学习而不想提供有用信息的搭便车参与者.因此，一些用户不愿意与其他用户分享自己的真实信息为了减少标签噪声的负面影响，现有的方法[12，57，46，35，42，24，58，49，53，52]通常是针对具有单个模型的图像分类任务而开发的。这些方法可以分为四类：标签转移矩阵估计[39，36，50，10]，鲁棒的正则-化[54，2，34]、稳健损失函数设计[43，5，48]和干净样本选择[11，47，18]。在feder- ated学习框架下，我们期望每类样本都能被充分学习，同时避免对噪声样本的过拟合。因此，如何在局部更新阶段减小内部标签噪声对局部模型收敛的负面是一个重要的问题。此外，上述两个问题导致了一个新的具有挑战性的问题，即，如何在联邦学习框架下的由于模型的异质性，参与的客户端将具有不同的决策边界和不同的噪声模式。因此，除了本地噪声外，我们还需要关注来自其他客户端的噪声，从而减少噪声客户端对整个联邦系统的贡献。现有的机器学习中噪声的解决方法因此，在联邦学习框架下处理来自其他嘈杂客户端的嘈杂反馈至关重要。本文针对具有噪声和异构客户端的鲁棒联邦学习问题，提出了相应的解决方案RHFL（Robust Heterogeneous Federated Learning）：1）调整异构联邦学习中的logits输出分布。为了在模型异构的情况下进行交流学习，我们通过对齐模型对公共数据的反馈来这允许每个客户端调整不同的学习方向，这不依赖于用于通信的公共模型。2）具有噪声容忍损失函数的局部噪声学习。我们分析了内部模型标签噪声所带来的负面影响。在局部学习阶段，我们考虑对称地使用交叉熵损失和反向交叉熵损失，以避免过拟合噪声样本，同时充分学习所有类。3）外部噪声的客户信心重新加权。由于标签噪声来自于其他客户端的反馈，我们提出了一种新的加权方法，即客户端置信度重新加权（CCR），以减少噪声客户端在联邦通信中的贡献。CCR对私有数据集上的本地模型的损失递减模式进行建模，用于参与者重新加权。其基本思想是通过损失值和损失下降速度来模拟量化数据集的标签质量，然后自适应地分配干净高效客户端的权重这项工作的主要贡献如下：• 我们研究了一个新的和重要的鲁棒联邦学习问题与噪声和异构客户端。• 我们提出了一种新的损失校正方法CCR，计算参与客户端的最佳加权组合。CCR自适应地调整每个客户端的连接，在丢失更新，减少嘈杂的客户端的贡献，并增加干净的客户端的贡献。• 我们验证了所提出的方法在各种设置，包括异构和同质模型与不同的噪声类型和噪声率。实验结果表明，RHFL始终实现更强的鲁棒性比竞争方法。10074yNk·我我̸我 i=1我i=1我我 i=1我----联系我们2. 相关工作联邦学习联邦学习的概念最早由McMahan等人于2017年提出 [33]。是机器学习设置，允许客户端在保护数据隐私的同时协作训练模型。McMa- han等提出FedAvg，客户端使用私有数据降低局部模型的局部梯度，服务器端使用平均后的模型参数聚合局部模型。Li等人 [29]构建了一个类似于FedAvg的框架，但它可以根据不同的设备和迭代自适应地设置本地计算。 Wang等人 [44]建议收集客户端各层权重，进行一层匹配，得到联邦模型各层权重。对于模型异构客户端的学习，Li et al. [23]通过知识蒸馏实现模型之间的沟通。服务器收集每个客户端模型上的公共数据集的类得分，并计算平均值作为更新的共识。Lin等人。 [31]利用系综蒸馏进行模型融合，并且可以通过未标记的数据进行。Diao等人 [4]提出根据本地客户端的相应能力自适应地分配全局模型参数的子集作为本地模型参数Liang等人 [30]介绍了一种算法，用于联合训练客户端的紧凑局部表示和全局模型。总之，现有的方法通常是在假设所有客户端都拥有无噪声的干净数据的情况下开发的目前还没有关于减轻异构联邦学习中噪声影响的标签噪声学习。在机器学习中，已经提出了许多方法来处理标签噪声。它们可以分为四个主要类别：1）标签转换矩阵[39，36，50]。其主要思想是估计每个标签类别翻转到另一个类别的概率。Sukhbaatar等人。[39]向网络添加噪声层，使网络输出与噪声标签分布相匹配。Patrini等人 [36]设计了一个端到端的损失校正框架，使最近的噪声估计技术适用于多类设置。Yao等人 [50]将噪声转换为Dirichlet分布空间，使用动态标签回归方法迭代推断潜在的真实标签，并联合训练分类器和噪声建模。2)鲁棒正则化[54，2，34，22]。鲁棒正则化可以有效地防止模型对噪声标签的过拟合。Zhang等人。 [54]提出了Mixup，它训练样本对及其标签的凸组合来正则化混合神经网络。Arpit等人 [2]证明了正则化可以降低噪声的记忆速度，而不会影响真实数据的学习。Miyato等人。 [34]引入了一种正则化方法基于虚拟对抗损失，定义了不需要标签信息的 3)稳健的损失函数-[43，5，59，57]。一些方法通过使用噪声容忍损失函数来实现鲁棒学习。Rooyen等人。[43]提出了一种凸分类校准损失，它对对称标签噪声具有鲁棒性。Ghosh等人 [5]分析了一些在深度学习中广泛使用的损失函数，并证明了MAE对噪声具有鲁棒性。4)选择可能干净的样品[11，47，18，51]。该方法从有噪声的训练数据集中选择干净的样本进行学习，或者为每个样本重新加权。其核心思想是在每次迭代训练中减少对噪声标记样本的关注Han等人 [11]提出了Co-teaching，它同时训练两个深度神经网络，并选择具有潜在干净标签的数据进行交叉训练。Wei等人。[47]提出了JoCoR，它使用Co-Regularization计算联合损失，然后选择小损失样本来更新网络参数。Jiang等人 [18]介绍了MentorNet，它为StudentNet提供了一个样本加权方案，MentorNet通过StudentNet动态学习数据驱动的课程。以往解决标签噪声的方法主要是在集中设置下进行的。然而，在联邦环境中，服务器不能直接访问客户端的私有数据集在模型异构环境中，不同的模型架构将导致不一致的决策边界和不同的噪声模式。3. 鲁棒异构联邦学习问题定义和符号。在异构的联邦学习环境下，我们考虑K个客户端和一个服务器。我们将C定义为所有客户端的集合，|C|=K。因此，第k个客户端c k∈ C有一个私有数据集D k={（x k，y k）}Nk与|X K|=Nk。K0、1 表示地面实况标签的独热向量。此外，客户端c k持有具有不同神经架构的局部模型θ k，f（）表示网络，f（x k，θ k）表示在θ k上计算的x k的logits输出。服务器不能访问客户端的数据集，并且它具有公共数据集D 0 = x 0 N 0，该公共数据集在异构联邦学习中，学习过程分为协作学习阶段和局部学习阶段。此外，协作学习包括Tc时期，局部学习包括T1时期。我们的目标是对噪声客户端执行健壮的联邦学习，因此假设每个客户端都有一个特定的噪声数据集Dk =（xk，yk）Nk，其中yk表示噪声标签。由于模型的异质性，每个客户端具有不一致的决策边界和不同的噪声模式，可以用公式表示为f（x，θ k1）=f（x，θ k2）。因此，除了其自身提供的数据集D上的噪声外，客户端Ck还必须付出代价，10075L=tcKKtcRK1K2K2K1tck2K1∈12k2tc图2. RHFL的插图，它通过在公共数据集上对齐各个模型的知识分布来执行异构FL §3.1。在噪声客户端的条件下，采用SL损失来减轻对局部噪声数据的过拟合§3.2。对于通信中产生的噪声，通过测量客户端置信度§3.3对其他客户端的噪声的响应。直觉上，我们需要计算一组最优模型参数θk= arg minL（f（xk，θk），yk）.实现这一以这种方式，客户端ck计算知识分布差异：K为了实现这一目标，我们提出了健壮的联邦学习，它包含三个步骤，如图2所示：1）异构客户端之间的通信和学习§3.1。2）预防k，tcklk0=k1，k0KL（Rtc0K（2）过度拟合到局部噪声标签，同时促进所有类的充分学习§3.2. 3)对每个客户端进行个性化加权，以减少噪声客户端的贡献§3.3。3.1. 异构联邦学习在协作学习阶段，我们使用公共数据集D0作为客户端之间通信的桥梁。在协作学习的tc Tc时期，每个客户端ck使用本地模型θtc来计算其中k0表示除ck之外的客户端。在异构联邦学习（HFL）方法中，通过度量ck的知识分布差异，所有其他客户都可以从ck获取知识，而不会泄露数据隐私或模型设计细节。由于显著的知识分布差异，客户有动机进行协作学习。然后，客户通过调整知识分布来向他人学习：公共数据集D0。通过这种方式，R tc =f（D0，θtc）在客户端ck上的估计。此外─01-01·Lk，tc−1），（3）θKLk kk kK−1此外，客户端使用衡量与其他客户的知识分布差异KL散度通常用来表示两个概率分布之间的差异。给定两个不同的客户ck和ck，我们拟合知识分布Rtc=其中α表示学习率。3.2. 局部噪声学习为了减少局部噪声的负面影响，我们学习了对称交叉熵中提到的方法f（D0，θtc），其中Rtc=f（D0，θtc），以便测量k2k1k1ck1的kno分布与ck2，可以表示为：KL（R <$R tc）=<$R tc log（Rk1）。（一）学习[45]。在当前的机器学习中，交叉熵损失是最常见的损失函数之一，它根据KL散度公式进行变形。我们将p和q分别表示为标签类分布和预测类分布。KL发散对于p和q，表示为：知识分布差异越大，tc 和Rtc，ck和ck可以从每个学习的越多2KL（p<$q）=<$p（x）log（p（x））−<$p（x）log（q（x）），其他. 因此，最小化KL之间概率分布Rtc和Rtc可以被认为是（四）其中公式的第一项表示p的熵，对齐G1GSL损失客户信心客户端1本地模型SL噪声CCRG计算G客户端2SL知识分布G重新加权公开数据客户kSL私有数据HFL局部学习协作学习…R110076k1k2ck1从ck2学习知识的过程。第二项表示交叉熵。因此，我们认为，10077LSL）=.（九）SLL∈FΣceF我我RCE我K数据集D的质量可以公式化为：我Nki=1SL我 K我k k slkKk sl slslkck样品x的CE损失可以表示为：L=−<$N p（x）log（q（x））。（五）3.3. 客户信心重新加权我们提出了客户信心重新加权（CCR）方法，以减少标签噪音的不利影响，在合作学习阶段的其他客户。 CCR在标签噪声的存在下，CE损失显示出几个限制-选项。由于类的简单程度不同，CE损失不能使所有类都被充分学习或正确分类所有类别。为充分收敛难学类，将进行多轮学习。这时，易学类会倾向于过度拟合嘈杂的标签，模型的整体性能也会开始下降。一般来说，该模型在一定程度上具有对样本进行正确分类的能力。此外，由于标签噪声的存在，模型的预测结果在一定程度上比给定标签更可靠。因此，p可能不是真实的阶级分布，相反，q在一定程度上反映了真实的阶级分布。自动地，考虑基于q的损失函数反向交叉熵（RCE）[45样品x的RCE损失可以表示如下：可以在通信过程中个性化每个客户端的权重，以减少噪声客户端的贡献，并更多地关注具有干净数据集和有效模型的客户端为了估计标签质量，SL损失被用于计算局部模型θ k在预处理的噪声数据集Dk 上的预测输出θ k与given标签yk之间的损失。特别是，SL考虑了基于给定la的损失bel和基于预测的伪标签的损失。因此，小的SL损失sl（f（xk，θk），y_k）指示预测的伪标签具有与给定标签相似的分布，这意味着客户端ck的伪数据集D_ k具有准确的标签。相反，基于给定标签y_k的大损失CE或基于预测伪标签f（x_k，θ_k）的大损失RCE将不可避免地是大SL损失。如果局部模型计算的损失Lk在预处理数据集D_ k上的θ k非常大，这表明预测的伪标签和给定标签的分布是不同的，即，客户端的专用数据集DkL=− <$N q（x）log（p（x））。（六）C可能会有很多标签。在这种方式中，通过将CE损失和RCE损失相结合，可以在预处理的同时充分学习难学的课程在简单易学的课程上发泄过度拟合的嘈杂标签QTC（D.11<$NkLk，tc（f（xk，θ），y<$k）然后，对称交叉熵学习（SL）损失被公式化为：Lsl=λLce+Lrce，（7）这里λ控制CE对噪声的过拟合。CE损失加强了模型拟合对每个类别的效果，RCE损失对标签噪声具有鲁棒性。为了平衡本地知识和从其他客户那里学到的知识，我们设立了本地学习阶段。客户端将用自己的私有数据集更新本地模型，以防止忘记本地知识。在训练迭代过程中，标签噪声会导致模型在错误的方向上更新，最终无法收敛。为了避免这种情况，我们采用SL损失来计算模型预测的伪标签与对应的给定标签之间的损失。然后，局部更新可以表示为：θtl<$θtl−1−α<$θLk，tl−1（f（xk，θtl−1），y<$k），（8）为了量化学习效率，我们计算每个迭代轮中的SL丢弃率。客户端ck在Tc迭代中的SL丢弃率被公式化为k，tc。具体地说，丢包率在一定程度上反映了模型的学习效率.然后我们简单地用SL丢弃率量化客户端ckP（θ tc）= θLk，tc =Lk，tc−1−Lk，tc，（10）其中，tc Tc表示第tc个通信回合。通过考虑标签质量和学习效率两者，回合tc中的第k个客户端置信度将被定义为：Ftc=Qt（Dtk）·P（θtc）。（十一）它通过量化私有数据集的标签质量和局部模型的学习效率来分别度量每个客户端的置信度在协作学习阶段，我们根据客户的自信度对每个客户重新加权，使客户能够从自信的客户那里学到更多的知识，减少不自信客户的学习权重客户端置信度Ftc决定权重其中tl∈Tl表示第tl个通信轮。K在轮tc中分配给客户端ck，其可以表示为：客户端在加强局部知识时利用SL损失来更新模型，这可以避免过度拟合噪声标签并促进充分学习。wtc=1K−1tc+ηktck=1k、（十二）i=1i=1K10078§ΣKFM|Mn0的k k kkl表1. 证明异构联邦学习在无噪声场景中的有效性4. 二、θk表示客户端ck的局部模型，Avg表示四个模型的平均测试精度。方法θ1θ2θ3θ4Avg不含FL82.0381.8568.2777.9677.53[23]第二十三话81.3680.4372.3179.8978.50联邦国防军[31]81.9581.1472.1780.6178.97RHFL82.9682.7273.2179.0479.48图3. RHFL流程图经验（wtc）4. 实验4.1. 实验环境数据集和模型。我们的实验在三个数据集上进行，Cifar10 [21]和Cifar100 [21]，它们广泛用于标签噪声的研究。这里我们将服务器上的公共数据集设置为Cifar100的子集，并将Cifar100随机划分到不同的客户端作为私有数据集。在异构模型场景中，我们将四个不同的网络ResNet 10 [15]，ResNet 12 [15]，Shuf-fleNet [56]和Mobilenetv 2 [37]分别分配给四个客户端。而在同质模型的情况下，净-tckWk=Kk=1、（十三）经验（wtc）所有四个客户端的作品都设置为ResNet12。噪音类型。我们使用标签转移矩阵M来这里η控制客户信心的影响. 当η= 0时，不考虑客户端置信度。上述加权正则化可以最小化学习到的具有差的标签质量和低学习效率的噪声客户端的知识，从而解决来自其他客户端的噪声问题。我们动态地对客户端在每一轮中学习到的知识wl- edge分布进行加权，如下所示：θ tc ←θ tc−1−α <$θ（Wtc·Lk，tc−1）.（十四）随着训练的迭代，每个模型都会朝着干净高效的客户端方向不断更新摘要整个过程总结在图3中。首先，每个客户端ck用所提供的噪声数据集Dk kk更新本地模型θk，以获得一组预训练模型。在合作学习中，客户ck对齐其他客户端的反馈分布ck0k，以从等式中的其他客户端学习知识。12个。通过这种方式，客户可以根据模型的差异单独调整他们的学习方向，而不是简单地学习全局共识。因此，为了减少局部噪声的影响，我们使用SL损失来更新等式中的局部模型。8.该算法采用损失率和损失下降率来衡量私有数据集的标签质量和局部模型的学习效率，然后根据标签质量和模型学习效率计算客户端的九，十，十一。当从其他客户那里学习知识分布时，参与者根据Eq中的客户信心重新加权。1213通过个性化的加权，调整噪声客户端在联邦系统中的参与度，避免通信过程中噪声的影响将标签噪声添加到数据集，其中mn=f|ip（y=ny=m）表示标签y从干净的m类翻转到有噪声的n类。矩阵有两种广泛使用的结构，对称翻转[43]和成对翻转[11]。对称翻转意味着原始类标签将以相等的概率翻转到任何错误的类标签。至于pair flip，这意味着原来的类标签只会被翻转到非常相似的错误类别。实施详情。私有数据集和公共数据集的大小分别指定为Nk=10，000和N0=5，000我们执行TC= 40协作学习时代不同的模型。考虑到公共数据集和私有数据集的规模差异，我们将局部学习周期数设置为T1=Nk，这样可以更好地平衡局部知识的学习和来自其他客户端的知识的学习.此外，我们使用Adam [20]优化器，初始学习率为α= 0。001和批量大小256。 λ设定为0.1，η设定为0.5。由于本文主要关注反馈学习对噪声监督的鲁棒性，因此我们将噪声率设置为µ= 0。1和0。2.讨论了对称翻转噪声和对翻转噪声下的结果。为了产生噪音，数据集D，我们翻转训练数据集中20%的标签，将Cifar10 [21]标记为错误的标签，并保持Cifar10的测试数据集ck客户端从混洗后的Ci-far 10中随机选取Nk个样本，因此客户端可能存在不同比例的噪声，这更符合实际情况。所有实验均由Huawei MindSpore提供支持[1]。最先进的方法。为了证明RHFL在异构模型场景中的有效性，HFLSLCCR私有数据集�系方式公共数据集D0更新型号（等式。14）模型骨干我们的团队更新型号（等式。第八章）计算知识分布差异（等式第一章第二节）计算SL损失重新称重（等式。计算客户端置信度{x��}（等式（91011）本地模型我们的团队10079表2. 消融研究§ 4。2，噪声率μ=0。1，θk表示客户端ck的局部模型。组件成对翻转SymflipHFLSLCCRθ1θ2θ3θ4Avgθ1θ2θ3θ4Avg77.9876.7566.8974.3373.9976.2076.0564.9674.3172.88✓73.6476.0268.2276.6473.6374.0576.4866.9173.7472.80✓76.2376.9663.3568.7971.3377.2078.0664.2770.7172.5678.4179.3868.0574.8675.1878.8176.6867.4275.6474.64✓✓78.8678.7669.6071.8374.7678.4078.3669.4776.9375.79✓✓✓表3. 消融研究§ 4。2，噪声率μ=0。2，θk表示客户端ck的局部模型。组件成对翻转SymflipHFLSLCCRθ1θ2θ3θ4Avgθ1θ2θ3θ4Avg✓72.3168.4371.8466.5761.7860.6769.6770.3668.9066.5172.0168.0870.1564.4359.6262.0969.4270.4667.8066.26✓73.9473.1861.7868.1869.2775.6973.8160.2968.6469.6178.0577.8063.4174.1473.35✓✓74.6274.2062.4572.5570.9677.8176.0966.6172.7873.3278.1476.7764.2373.9073.26✓✓✓我们在相同的设置下将RHFL与异构FL算法FedMD [23]和FedDF [31]进行比较。FedMD基于知识蒸馏，其中每个客户端在公共数据上计算类分数，然后接近共识。FedDF为健壮的联邦模型融合构建了一个蒸馏框架，它允许异构的模型和数据。为了证明RHFL在同质模型情况下的有效性，我们将其与 FedAvg [33]，FedMD和FedDF进行了比较。FedAvg利用私有数据集进行局部梯度下降，然后服务器平均聚合更新的模型由于我们的设置与他们的设置不同，我们使用这些算法的密钥进行实验。4.2. 消融研究每个组件的效果。我们首先评估每个组件对两个噪声率（0.1，0.2）与两种噪声类型（pairflip，symflip）在异构模型的情况下，以证明每个组件的有效性。1) HFL的有效性：根据表1，我们观察到，在无噪声场景下，无通信的四种模型的平均准确率达到77.53%。加入HFL后，客户可以进行联邦通信，学习更多的全球知识。结果表明，各局部模型的检验精度得到了有效提高，平均精度提高到79.48%。在有噪声的情况下，添加HFL的效果将比表2和3中没有FL的效果有一定程度的退化。然后，我们分析了这种现象的原因。由于噪声的存在导致模型性能下降，HFL导致客户端不断交流学习错误的知识，并在错误的方向上更新模型。因此，有必要关注异构FL中的噪声数据。2) SL的有效性：我们将SL损失分量添加到基线，以避免局部更新阶段期间噪声数据的影响。当噪声率为0.1时，平均在表2中，测试精度没有明显提高。然而，当噪声率为0.2时，大多数模型的性能都得到了显着改善，如表3所示。从上述现象可以推断，噪声率越高，SL损失的性能越好。我们的分析是由于这样一个事实，即对给定的标签的依赖减少SL损失，但给定的标签的真实性是在低噪声率的设置，这在一定程度上减少这证明了在高噪声率下，SL损失的增加使模型能够正确地学习局部真实分布。我们在加入HFL的基础上加入SL损耗分量，使得各个模型都得到了显著的优化，尤其是在噪声类型为symflip时。当噪声率为0.2时，改进最为明显，平均测试准确率从66.26%提高到73.35%。SL损失分量有效地修正了HFL的学习方向。3) CCR的有效性：我们添加了CCR组件，以便增强对其他客户端噪声数据的鲁棒性。如表3所示，每个模型都实现了更好的性能。最明显的是，当噪声类型为pairflip，噪声率为0.2时，模型的平均检验精度从70.96%提高到73.32%。CCR使每个客户机能够单独学习每个局部知识，而不是在平均水平上学习全局知识，避免了在嘈杂的这验证了通过对损失减少曲线进行建模来重新加权模型的合理性。不同噪声率和噪声类型的比较。如表2和3所示，我们比较了不同噪声率和噪声类型下RHFL的效果。1) 噪声率：我们的方法可以在不同的噪声率下实现很大的整体准确性，我们的方法的改进将在高噪声率更明显。当噪声率μ = 0时。1，我们的方法在pairflip噪声下比原始基线提高了0.77%，在symflip噪声下提高当噪声率μ= 0时。2、我们的方法10080§表4. 与最先进的方法§ 4比较。当噪声率μ=0时，为3。1，θk表示客户端ck的局部模型。方法成对翻转Symflipθ1θ2θ3θ4Avgθ1θ2θ3θ4Avg基线77.9876.7566.8974.3373.9976.2076.0564.9674.3172.88[23]第二十三话74.9876.8967.1076.6473.9073.2373.6667.7275.5472.54联邦国防军[31]76.2675.5168.4176.0474.0672.0775.1867.3874.4772.28RHFL78.8678.7669.6071.8374.7678.4078.3669.4776.9375.79表5. 与最先进的方法§ 4比较。当噪声率μ=0时，为3。2，θk表示客户端ck的局部模型。方法成对翻转Symflipθ1θ2θ3θ4Avgθ1θ2θ3θ4Avg基线72.3171.8461.7869.6768.9072.0170.1559.6269.4267.80[23]第二十三话68.0067.8165.6774.0268.8867.3168.5464.4871.7568.02联邦国防军[31]68.6669.6862.3672.1268.2167.3668.5663.6070.8367.59RHFL77.8176.0966.6172.7873.3278.1476.7764.2373.9073.26表6. 与最先进的方法4比较。3.在同质模型的设置上，我们将四个局部模型都设置为ResNet12，并取局部模型的平均测试精度进行论证。µ表示噪声率。方法µ = 0的情况。1µ = 0的情况。2成对翻转Symflip成对翻转Symflip基线75.1671.6166.1466.87[33]第三十三话79.7377.3273.5774.90[23]第二十三话74.9675.5769.3270.52联邦国防军[31]77.7675.9069.9871.03RHFL81.0379.6077.8578.83在双翻转噪声下，该算法比原算法提高了4.42%;在对称翻转噪声下，该算法比原算法提高了5.46%。因此，当数据集中有更多噪声标签时，使用我们的方法可以实现更显著的改进。这可能是因为在高噪声率场景中，标签分布与真实分布差异更大，并且SL组件的添加使得每个客户端在局部更新过程中更加收敛以学习伪标签分布。CCR组件的加入使得在协作学习过程中相对嘈杂的客户的知识被学习得更少，因此我们的方法展示了更显著的有效性。2) 噪声类型：我们的方法表现出良好的鲁棒性regardless的噪声产生的symflip或pairflip转换矩阵。根据表2- 3，我们观察到我们的方法在symflip噪声下表现稍好。4.3. 与最新方法的异构联邦学习方法。在相同的设置下，我们与最先进的异质FL方法相结合基线是指客户端在没有FL的私有数据集上训练本地模型的方法。因此，两个噪声率（0.1，0.2）的比较如表4- 5所示。实验表明，我们提出的方法优于现有的策略，在各种噪声设置。随着噪声率从0.1上升到0.2，可以看出FedMD [23]和FedDF[31]的平均测试准确度显著下降，10081在对称翻转噪声上， FedMD 和FedDF 分别提高了4.52% 和 4.69% 。对于 RHFL ，它在 pairflip 噪声和symflip噪声上分别下降了1.44%和2.53%。以上可以证明我们提出的解决方案对不同的噪声设置是鲁棒的。同质联邦学习方法。我们将RHFL与表6中的模型齐次设置下的最新FL方法进行了比较，证明了其在处理噪声方面优于现有的联邦算法。结果表明，在模型均匀的情况下，该方法取得了显著的效果，特别是当噪声类型为symflip，噪声率为0.2时，该方法在基线的基础上提高了11.96%。在这种情况下，我们的方法的平均测试准确率达到78.83%，而性能最好的现有方法FedAvg [33]仅达到74.90%。5. 结论本文研究了一个新的问题，如何执行鲁棒的联邦学习与噪声异构客户端。为了解决这个问题，提出了一种新的解决方案RHFL。我们调整公共数据的反馈分布，以实现模型异构客户端之间的反馈学习。为了避免局部学习过程中各模型对噪声的过拟合对于来自其他参与者的噪声反馈，我们提出了一种灵活的重新加权方法CCR，有效地避免了来自噪声客户端的过度学习，实现了健壮的联邦协作。大量的实验证明了我们的方法中包含的每个组件的有效性。此外，我们证明了我们的方法在模型同质和异构的情况下都达到了比当前最先进的方法更高的准确性谢谢。本课题得到了国家自然科学基金（ 62176188 ）、湖北省重点研究发展计划（ 2021BAA187 ）、浙江省重点实验室（NO.2022NF0AB01）、CAAI-华为MindSpore开放基金10082引用[1] Mindspore，https：//www.mindspore.cn/， 2020. 6[2] Devansh Arpit ， Stanismartaw Jastrzebski ， NicolasBallas，David Krueger，Emmanuel Bengio，Maxinder SKanwal ， TeganMaharaj ， Asja Fischer ， AaronCourville ， Yoonne Bengio ， et al. A closer look atmemorization in deep networks.在ICML，第233-242页，2017年。二、三[3] Ayush Chopra、Surya Kant Sahu、Abhishek Singh、Ab-hinav Java 、 Praneeth Vepakomma 、 Vivek Sharma 和Ramesh Raskar。Adasplit：资源受限分布式深度学习的自适应权衡。arXiv预印本arXiv：2112.01637，2021。1[4] Enmao Diao，Jie Ding，and Vahid Tarokh. Heterofl：为异构客户提供计算和通信高效的联邦学习。在ICLR，2020年。3[5] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒在AAAI，第1919-1925页，2017年。二、三[6] Gautham Krishna Gudur ， Bala Shyamala Balaji 和Satheesh K Perepu。具有异构标签和模型的资源受限联邦学习在ACM SIGKDD研讨会，2020年。2[7] 高塔姆·克里希纳·古杜尔和萨蒂什·K·佩雷普。用于移动活动监控的异构标签和模型的联合学习。在NeurIPS研讨会，2020年。2[8] Pengfei Guo，Puyang Wang，Jinyuan Zhou，ShanshanJiang，and Vishal M.帕特尔多机构合作，使用联邦学习改进基于深度学习的磁共振图像重建。在CVPR中，第2423-2432页，2021年。1[9] 奥特克里斯特·古普塔和拉梅什·拉斯卡深度神经网络在多个代理上的分布式学习。JNCA，2018年。1[10] Bo Han，Jiangchao Yao，Gang Niu，Mingyuan Zhou，Ivor Tsang，Ya Zhang，and Masashi Sugiyama.掩蔽：噪声监督的新视角。在NeurIPS，第5841- 5851页2[11] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor W Tsang，and Masashi Sugiyama.合作教学：对带有非常嘈杂标签的深度神经网络进行鲁棒训练。NeurIPS，2018。二、三、六[12] 韩江帆，罗平，王晓刚。从嘈杂的标签中进行深度自学习。在ICCV，第5138-5147页2[13] ChaoyangHe ， MuraliAnnavaram ， andSalmanAvestimehr.小组知识转移：边缘大型cnn的联邦学习。在NeurIPS，第14068-14080页，2020年。1[14] ChaoyangHe ， MuraliAnnavaram ， andSalmanAvestimehr.使用fednas实现非iid和不可见数据：通过神经架构搜索进行联合深度学习2020年，在CVPR车间1[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别

下载后可阅读完整内容，剩余1页未读，立即下载