联邦学习中的标签噪声校正方法FedCorr对异质标签噪声具有鲁棒性

166 浏览量更新于2023-10-25 收藏 13.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Jingyi Xu1∗Zihan Chen1,2*Tony Q.S. Quek1Kai Fong Ernest Chong1†{jinyi xu,zihan chen}@mymail.sutd.edu.sg{tonyquek,ernest chong}@sutd.edu.sgences in the characteristics of different clients due to di-verse annotators’ skill, bias, and hardware reliability [4,35].Client data is rarely IID and frequently imbalanced. Also,some clients would have clean data, while other clients mayhave data with label noise at different noise levels. Hence,the deployment of practical FL systems would face chal-lenges brought by discrepancies in two aspects i): local datastatistics [5, 12, 19, 24], and ii): local label quality [4, 35].Although recent works explored the discrepancy in localdata statistics in FL, and learning with label noise in central-ized learning (CL), there is at present no uniﬁed approachfor tackling both challenges simultaneously in FL.The ﬁrst challenge has been explored in recent FL works,with a focus on performance with convergence guarantees[20, 25]. However, these works have the common implicitassumption that the given labels of local data are completelycorrect, which is rarely the case in real-world datasets.The second challenge can be addressed by reweight-ing [4,7,28] or discarding [33] those client updates that aremost dissimilar. In these methods, the corresponding clientsare primarily treated as malicious agents. However, dissimi-lar clients are not necessarily malicious and could have labelnoise in local data that would otherwise still be useful afterlabel correction.For FL systems, the requirement of dataprivacy poses an inherent challenge for any label correctionscheme. How can clients identify their noisy labels to becorrected without needing other clients to reveal sensitiveinformation? For example, [35] proposes label correctionfor identiﬁed noisy clients with the guidance of extra datafeature information exchanged between clients and server,which may lead to privacy concerns.Label correction and, more generally, methods to dealwith label noise, are well-studied in CL. Yet, even state-of-the-art CL methods for tackling label noise [3, 8, 9, 16, 27,30, 32, 37], when applied to local clients, are inadequate inmitigating the performance degradation in the FL setting,due to the limited sizes of local datasets. These CL meth-ods cannot be applied on the global sever or across multiple101840FedCorr: 多阶段联邦学习用于标签噪声校正01 新加坡科技与设计大学 2 新加坡国立大学0摘要0联邦学习（FL）是一种保护隐私的分布式学习范式，使客户能够共同训练全局模型。在现实世界的FL实现中，客户数据可能存在标签噪声，并且不同客户的标签噪声水平可能大不相同。尽管在集中式学习中存在处理标签噪声的方法，但这些方法在FL设置中的异质标签噪声上表现不佳，原因是客户数据集通常较小，并且FL中存在数据隐私要求。在本文中，我们提出了FedCorr，这是一个通用的多阶段框架，用于处理FL中的异质标签噪声，而不对本地客户的噪声模型做任何假设，同时仍然保持客户数据的隐私。具体而言，（1）FedCorr通过利用在所有客户端上独立测量的模型预测子空间的维度来动态识别噪声客户端，然后根据每个样本的损失来识别噪声客户端上的错误标签。为了处理数据异质性并增加训练稳定性，我们提出了一个基于估计的本地噪声水平的自适应局部近端正则化项。（2）我们进一步在识别出的干净客户端上微调全局模型，并在微调后为剩余的噪声客户端校正错误标签。（3）最后，我们对所有客户端进行常规训练，以充分利用所有本地数据。在使用联邦合成标签噪声的CIFAR-10/100和真实世界的噪声数据集Clothing1M上进行的实验证明，FedCorr对标签噪声具有鲁棒性，并且在多个噪声水平上显著优于现有方法。01. 引言0* 相等贡献. † 通讯作者. 代码:https://github.com/Xu-Jingyi/FedCorr0本工作得到新加坡国家研究基金会（National Research Foundation,Singapore）的支持，项目编号为AISG-RP-2019-015，以及NRFF计划（NRFFAI1-2019-0005）的支持。本工作还得到新加坡科技与设计大学（SUTD）AI增长计划的部分资助。11101850①0②0�0④0� �0⑤0⑥0�0识别出的干净样本0识别出的噪声样本0服务器0GMM0GMM0干净0噪声0：一组噪声客户端。：一组干净客户端。0训练修正01. 联邦预处理阶段（多次迭代）0③ 聚合0下载上传02. 联邦微调阶段0⑩0服务器03. 通常的联邦学习阶段0� �0⑦0⑧ ⑨ 标签修正0服务器0标签0修正0：识别出的干净客户端0：识别出的噪声客户端0GMM0�0图1. FedCorr的概述，分为三个阶段。算法步骤按顺序编号。0由于联邦学习的隐私要求，客户端可能存在噪声。因此，有必要和自然地采用一个更通用的框架，同时考虑这两种差异，以更好地模拟现实世界的数据异质性。最重要的是，应该在训练中加入保护隐私的标签修正，以提高联邦学习对数据异质性的鲁棒性。在本文中，我们提出了一个多阶段联邦学习框架，同时处理这两个差异挑战；见图1的概述。为了确保隐私，我们引入了一个基于维度的过滤器，通过测量本地模型预测子空间的局部内在维度（LID）[10]来识别噪声客户端。大量实验证明，在训练过程中，可以通过LID分数的行为将干净数据集与噪声数据集区分开来[22,23]。因此，除了通常的本地权重更新之外，我们建议每个客户端还向服务器发送一个LID分数，该分数是表示本地模型预测的可区分性的单个标量。然后，我们根据每个识别出的噪声客户端独立地基于每个样本的训练损失来过滤噪声样本，并使用全局模型的预测标签重新标记大损失样本。为了提高训练稳定性并减轻噪声客户端带来的负面影响，我们引入了加权的近端正则化项，其中权重基于估计的本地噪声水平。此外，我们对识别出的干净客户端进行全局模型微调，并为剩余的噪声客户端重新标记本地数据。我们的主要贡献如下：•我们提出了一个通用的多阶段联邦学习框架FedCorr，以应对本地标签质量和本地数据统计的数据异质性。0•我们提出了一个通用框架，用于轻松生成联邦合成标签噪声和多样化（例如非IID）的客户端数据分区。0•我们通过LID分数识别噪声客户端，并通过每个样本的损失识别噪声标签。我们还根据估计的本地噪声水平提出了0•我们证明FedCorr在具有不同噪声水平的多个数据集上，对于IID和非IID数据分区，优于最先进的联邦学习方法。02. 相关工作02.1. 联邦方法0在本文中，我们关注联邦学习的三个紧密相关的方面：非独立同分布（non-IID）联邦数据集的生成，处理非IID本地数据的方法，以及鲁棒联邦学习的方法。非IID本地数据分区的生成最早在[24]中进行了探索，基于将给定数据集划分为分片。最近的非IID数据分区是通过Dirichlet分布生成的[1, 12,28]。最近的联邦优化工作主要集中在处理本地客户端数据统计差异和相关的不一致性问题上[1, 19,29]。例如，FedProx通过在本地损失函数中包含一个近端项来处理非IID本地数据[19]，而FedDyn则使用基于选定客户端的动态近端项[1]。SCAFFOLD是另一种适用于非IID本地数据的方法，它使用控制变量来减少客户端漂移[14]。在[12]和[25]中，介绍了适用于全局服务器的自适应联邦学习优化方法，与非IID数据分布兼容。此外，Power-of-Choice（PoC）策略[6]是一种选择具有较高本地损失的客户端的偏倚客户端选择方案，可用于提高收敛速度。有许多关于提高联邦学习鲁棒性的工作，包括鲁棒聚合方法[7, 17, 28]。V2V1=�r2r1�m⇒ m = log(V2/V1)log(r2/r1) .(1)LIDx(r) := limε→0log FYx((1 + ε)r) − log FYx(r)log(1 + ε),LID(x) = −�1kk�i=1logri(x)rmax(x)�−1,(2)101860基于声誉机制的贡献检查[33]、基于可信度的重新加权[4]、基于蒸馏的半监督学习[13]和个性化多任务学习[17]等方法已经研究了标签噪声的问题。然而，这些方法并不是为了识别噪声标签而设计的。即使这些方法被用于检测噪声客户端，要么没有机制来进一步纠正噪声客户端上的标签[7, 17,28,33]，要么通过辅助数据集来减轻噪声标签的影响，而没有直接的标签纠正[4,13]。一个值得注意的例外是[35]，它在训练过程中通过交换特征中心点来进行标签纠正。这种中心点的交换可能引起隐私问题，因为中心点可能被用于反向工程的一部分，以揭示有关原始本地数据的非平凡信息。与这些方法相比，FedCorr结合了使用合成标签噪声生成多样化的本地数据分布，以及噪声标签的识别和纠正，而不会泄漏隐私。02.2. 局部内在维度（LID）0非正式地说，LID [10]是数据流形的内在维度的度量。与其他度量方法相比，LID的应用潜力更广，因为它对数据分布没有进一步的假设，只要求连续性。其关键思想是，在每个数据点上，邻近数据点的数量会随着邻域半径的增加而增加，相应的增长率可以作为“局部”维度的代理。LID建立在这个思想的基础上[11]，通过几何直觉，当球的半径按比例因子 r 缩放时，m 维欧几里得球的体积与 r 的 m次方成正比。具体地说，当我们有两个 m维欧几里得球，其体积分别为 V_1、V_2，半径分别为r_1、r_2 时，我们可以计算 m 如下：0我们现在正式定义LID。假设我们有一个由 R^n中的向量组成的数据集。我们将把这个数据集视为从一个 n维分布 D 中随机抽取的样本。对于任意的 x ∈ R^n，设Y_x 是表示从 D 中随机选择的点 y 到 x的（非负）距离的随机变量，F_Y_x(t) 是 Y_x的累积分布函数。给定 r > 0 和从 D 中抽取的样本点x，定义 x 到距离为 r 的 LID 为：0前提是它存在，即 F Y x ( t ) 在 t = r处是正的且连续可微的。x 的 LID 被定义为极限 LID x =lim r → 0 LID x ( r ) 。直观上，x 的 LID是对维度的近似。0包含 x 的平滑流形的局部内在维度（LID）是指在 x附近“最佳”拟合分布 D的流形的维度估计。通过将最小邻居距离视为与底层距离分布的下尾相关的“极端事件”，[2]提出了基于极值理论的多个LID估计器。特别地，给定一组点 X，一个参考点 x ∈X，以及 X 中与 x 最近的 k 个邻居，x的最大似然估计（MLE）为：0其中 r i ( x ) 表示 x 与它的第 i 个最近邻之间的距离，r max( x ) 是 x 的 k 个最近邻中的最大距离。03. 提出的方法0在本节中，我们介绍了FedCorr，我们提出的用于解决FL系统中异构标签噪声的多阶段训练方法（参见算法1）。我们的方法包括三个阶段：预处理、微调和常规训练。在第一阶段，我们使用一小部分样本无重复地对客户端进行采样，通过LID分数识别有噪声的客户端和通过每个样本损失识别有噪声的样本，然后使用全局模型的预测标签重新标记已识别的有噪声样本。在这个阶段还估计了每个客户端的噪声水平。在第二阶段，我们使用一定比例的相对干净的客户端对模型进行微调，并使用微调后的模型进一步纠正其余客户端的样本。最后，在最后一个阶段，我们使用常规FL方法（FedAvg [24]）使用第二阶段末尾的纠正标签来训练模型。03.1. 准备工作0考虑一个具有N个客户端和M类数据集D ={Dk}Nk=1的FL系统，其中每个Dk = {(xik,yik)}nki=1表示客户端k的本地数据集。设S表示所有N个客户端的集合，w(t)k（分别是客户端k的局部模型权重）和w(t)（通过聚合获得的全局模型权重）分别表示通信轮t结束时的局部模型权重和全局模型权重。在第t轮结束时，全局模型f(t)G的权重w(t)更新如下：0w(t) ← �0|D0i ∈ St |Di| wk，(3)0其中St �S是第t轮中选择的客户端的子集。在本小节的其余部分，我们将详细介绍客户端数据分区、噪声模型模拟和LID分数计算。这些是我们提出的方法模拟数据异质性和处理本地数据统计和标签质量差异的三个主要方面。数据分区。我们在这项工作中考虑了IID和非IID的异构数据分区。对于IID分区，µk ≠101870算法1FedCorr（预处理阶段中的红色和黑色行号分别指客户端和服务器的操作）输入：N（客户端数量），T1，T2，T3，D ={Di}Ni=1（数据集），w(0)（初始化的全局模型权重）输出：最终的全局模型f0// 联邦预处理阶段01: (ˆµ(0)1, . . . , ˆµ(0)N) ← (0, . . . , 0) // 估计的噪声水平02: 对于t = 1到T1，S =Shuffle({1, . . . , N})04: winter ← w(t−1) // 中间权重05: 对于k ∈ S06: wk ← 使损失函数最小化的权重(5)07: 上传权重w(t)k和LID分数到服务器08: 更新全局模型w(t) ← winter09:基于GMM通过累积LID分数将所有客户端分为干净集Sc和有噪声集Sn010: 对于有噪声的客户端k ∈ Sn011:基于GMM通过每个样本损失将Dk分为干净子集Dck和有噪声子集012: ˆµ(t)k ← |Dnk|0|Dk| // 更新估计的噪声水平013: y(i)k ← arg max f(x(i)k; w(i)), � (x(i)k, y(i)k) ∈ Dnk0// 联邦微调阶段014: Sc ← {k | k ∈ S, µk < 0.1}, Sn ← S \ Sc. 15: 对于 t = T1 + 1 到 T1 +T2，通过Sc中的客户端之间的常规FedAvg更新wk017: 对于有噪声的客户端k ∈ Sn018: y(i)k ← arg max f(x(i)k; w(i)), � (x(i)k, y(i)k) ∈ Dk0// 常规联邦学习阶段019: 对于 t = T1 + T2 + 1 到 T1 + T2 +T3，通过所有客户端之间的常规FedAvg更新wk021: 返回 f 最终 G := f ( ∙ ; w ( T 1 + T 2+ T 3 ) )0整个数据集 D 在 N个客户端之间随机均匀分布。对于非独立同分布的划分，我们首先生成一个 N × M 的指示矩阵 Φ ，其中每个条目Φ ij 表示客户端 i 的本地数据集是否包含类别 j 。每个 Φij 从伯努利分布中采样，具有固定的概率 p 。对于每个 1≤ j ≤ M ，令 υ j 是 Φ 的第 j列中条目的和；这等于本地数据集中包含类别 j的客户端的数量。令 q j 是长度为 υ j的向量，从具有公共参数 α Dir > 0的对称狄利克雷分布中采样。使用 q j作为概率向量，我们随机将类别 j 中的样本分配给这些 υ j个客户端。注意，我们的非独立同分布数据划分方法提供了一个通用框架，用于控制类别分布和本地数据集大小的变异性（见图 2）。噪声模型。为了模拟现实世界数据中的标签噪声，0图 2. 不同参数的非独立同分布划分的描绘。0我们将介绍一个通用的联邦噪声模型框架。为简单起见，本文仅考虑独立于实例的标签噪声。该框架有两个参数 ρ 和τ ，其中 ρ 表示系统噪声水平（噪声客户端的比例）， τ表示噪声客户端的噪声水平的下界。每个客户端有 ρ的概率成为噪声客户端，在这种情况下，该噪声客户端的本地噪声水平是通过从均匀分布 U ( τ, 1)中采样来随机确定的。简言之，客户端 k （对于 k = 1 , .. . , N ）的噪声水平为0� u � U ( τ, 1) ，以概率 ρ ；0 ，以概率 1 −ρ. (4)0当 µ k � = 0 时，选择 100 ∙ µ k %的噪声样本，随机选择并分配随机标签，从 M个类别中均匀选择。本地模型的 LID得分。在本文中，我们将 LID得分与本地模型相关联。考虑一个具有本地数据集 D和当前本地模型 f ( ∙ ) 的任意客户端。令 X := { f ( x ) } x∈D 为预测向量的集合，并对于每个 x ∈ D ，根据（ 2）中给出的在 X 中的 k 个最近邻计算 � LID ( f ( x ))。我们定义 ( D , f ) 的 LID 得分为所有 x ∈ D 上的 � LID( f ( x ))的平均值。注意，随着每一轮的本地模型更新，相应的 LID得分也会相应变化。实验证明，在相同的训练过程中，使用带有标签噪声的数据集训练的模型相对于使用相同数据集的干净标签训练的模型具有更大的 LID 得分[ 22 , 23]。直观地说，使用干净数据集训练的经过良好训练的模型的预测向量将聚集在 M 个可能的独热向量周围，对应于 M个类别。然而，随着越来越多的标签噪声添加到干净数据集中，噪声样本的预测向量倾向于向其他聚类中心移动，不同的噪声样本在不同的方向上移动。因此，每个独热向量附近的预测向量将变得“更加扩散”，并且平均而言将跨越更高维的空间。03.2. 联邦预处理阶段0FedCorr从预处理阶段开始，该阶段迭代地评估每个客户端的数据集质量，并重新标记确定的噪声样本。这个预处理阶段与传统的联邦学习有以下不同之处：101880• 所有客户端都将参与每次迭代。使用小部分比例无替换地选择客户端。0•在损失函数中添加自适应的局部近端项，并使用混合数据增强。0•每个客户端在本地训练后计算其LID得分和每个样本的交叉熵损失，并将其LID得分与本地模型更新一起发送到服务器。0客户端迭代和分数调度。预处理阶段分为T1次迭代。在每次迭代中，每个客户端只参与一次。每次迭代都由通信轮次组织，类似于通常的联邦学习，但有两个关键区别：使用了一个小的分数，并且客户端的选择是无重复的。每次迭代在所有客户端都参与后结束。已知大的分数可以帮助提高收敛速度[24]，在凸损失函数的情况下甚至可以实现线性加速[26]。然而，在非独立同分布的设置中，大的分数的效果较弱，而直观上，小的分数会使聚合模型与本地模型的偏差较小；参见[21]。这些观察结果启发我们提出一种分数调度方案，结合了小分数和大分数的优点。具体来说，在预处理阶段使用一个小的无重复的分数进行客户端采样，并在后两个阶段使用一个典型的较大的带重复的分数。通过在预处理期间进行无重复采样，我们确保所有客户端在评估本地数据集中标签的整体质量时都能平等参与。0Mixup和本地近端正则化。在预处理阶段，对于批次(Xb,Yb)={ (xi,xj)}nbi=1（其中nbi表示批次大小），我们使用以下损失函数：0L(Xb) = LCE[f(t)k(˜Xb),˜Yb] + βˆµ(t-1)k‖w(t)k-w(t-1)‖2. (5)0这里，f(t)k =f(∙;w(t)k)表示第t轮中客户端k的本地模型，w(t-1)表示上一轮t-1中获得的全局模型的权重。公式（5）中的第一项表示对(Xb,Yb)的mixup增强的交叉熵损失，而公式（5）中的第二项是自适应的本地近端正则化项，其中ˆµ(t-1)k是要在后面定义的客户端k的估计噪声水平。值得注意的是，我们的本地近端正则化项仅应用于预处理阶段。回想一下，mixup[38]是一种数据增强技术，它有利于样本之间的线性关系，并且已经显示出对标签噪声具有很强的鲁棒性[3,16]。Mixup生成新样本(˜x,˜y)，作为随机选择的样本对(xi,yi)和(xj,yj)的凸组合，给定为˜x=λxi+(1-λ)xj，˜y=λyi+(1-λ)yj，其中λ�Beta(α,α)，α∈(0,∞)。（我们在实验中使用α=1）。直观地说，mixup通过随机插值实现对标签噪声的鲁棒性。例如，如果(xi,ˆyi)是一个噪声样本，而yi是真实标签，则与标签yi匹配的样本减轻了由于不正确的标签ˆyi引起的负面影响。我们的自适应本地近端正则化项由估计的噪声水平ˆµ(t-1)k缩放，该噪声水平在第t-1轮结束时计算得到。（特别地，对于干净的客户端，这个项将消失。）超参数β也被纳入其中，以控制这个项的整体效果。直观地说，如果一个客户端的数据集与其他本地数据集的差异较大，那么相应的本地模型将更偏离全局模型，从而为本地近端项贡献更大的损失值。0如果(xi,ˆyi)是一个噪声样本，而yi是真实标签，则与标签yi匹配的样本减轻了由于不正确的标签ˆyi引起的负面影响。我们的自适应本地近端正则化项由估计的噪声水平ˆµ(t-1)k缩放，该噪声水平在第t-1轮结束时计算得到。（特别地，对于干净的客户端，这个项将消失。）超参数β也被纳入其中，以控制这个项的整体效果。直观地说，如果一个客户端的数据集与其他本地数据集的差异较大，那么相应的本地模型将更偏离全局模型，从而为本地近端项贡献更大的损失值。0识别嘈杂的客户端和嘈杂的样本。为了解决异构标签噪声的挑战，我们将迭代地识别和重新标记嘈杂的样本。在预处理阶段的每次迭代中，所有客户端都将参与其中，每个客户端都会计算其当前本地模型的LID分数和每个样本的损失（参见算法1，第3-9行）。具体来说，当第t轮选择客户端k时，我们在本地数据集Dk上训练模型f(t)k，然后通过公式（2）计算(Dk，f(t)k)的LID分数。请注意，我们提出的框架保护客户端数据的隐私，因为与通常的联邦学习相比，只有额外的LID分数发送到服务器，这是一个单一的标量，仅反映了本地模型的预测可区分性。由于LID分数是从输出层的预测计算出来的（本地模型的输出层），知道这个LID分数不会透露关于原始输入数据的信息。这个额外的LID分数是一个单一的标量，因此对通信成本几乎没有影响。在第t次迭代结束时，我们将执行以下三个步骤：01. 服务器首先在所有 N 个客户端的累积 LID分数上计算出一个高斯混合模型（GMM）。使用这个GMM，将客户端集合 S 划分为两个子集：S n02. 每个有噪声的客户端 k ∈ S n 本地计算出所有本地数据集D k 中每个样本的损失值的新GMM。使用这个GMM，将 Dk 划分为两个子集：一个干净子集 D c k 和一个有噪声子集 Dn k。我们观察到，大损失的样本更有可能有噪声标签。然后，可以通过 ˆ µ ( t ) k = |D n k | / |D k | 估计客户端 k的本地噪声水平，如果 k ∈ S n ，则 ˆ µ ( t ) k = 0，否则。03. 每个有噪声的客户端 k ∈ S n通过使用全局模型的预测标签作为新标签来重新标记有噪声的样本。为了避免过度纠正，我们只重新标记那些以高置信度被识别为有噪声的样本。这种部分重新标记由重新标记比例 π 和置信度阈值 θ 控制。以有噪声的客户端 k为例：我们首先选择 D n k 中对应于前 π ∙|D n k |个最大的每个样本交叉熵损失的样本。| ˜D|=π·|Dk |Dnk′ =(x, y) ∈ Dnk max(f (t)G (x)) ≥ θ ;(7)101890接下来，我们获得全局模型的预测向量，并且只有当其预测向量的最大值超过 θ时，我们才重新标记一个样本。因此，子集 � D n k0要重新标记的样本数由0其中 f ( t ) G 是第 t轮迭代结束时的全局模型。为什么在步骤 1 中使用累积 LID分数？在深度学习中，经验证明，当在带有标签噪声的数据集上训练时，模型的表示空间的演化呈现出两个明显的阶段：（1）一个早期的维度压缩阶段，在这个阶段，模型倾向于学习潜在的真实数据分布，和（2）一个后期的维度扩展阶段，在这个阶段，模型过度拟合噪声标签[23]。我们观察到，噪声水平较高的客户端往往具有较大的LID 分数。此外，干净客户端和有噪声客户端之间的 LID分数重叠在训练过程中会增加。这种增加可能是由于两个原因：（1）模型可能逐渐过度拟合噪声标签，和（2）我们在每次迭代后纠正被识别出的有噪声的样本，从而使噪声水平较低的客户端与干净客户端难以区分。因此，累积 LID分数（即所有过去迭代中的 LID分数之和）是一个更好的用于区分有噪声客户端和干净客户端的指标；参见图 3 中使用 LID 分数与累积 LID分数的比较的前两个图。此外，图 3 中的后两个图显示累积LID 分数与本地噪声水平之间有更强的线性关系。03.3. 联邦微调阶段0我们的目标是在 T 2轮上对相对干净的客户端上进行全局模型 f G的微调，并进一步重新标记剩余的有噪声客户端。第 t轮结束时的聚合结果由相同的方程（3）给出，但有一个关键的区别：S t 现在是 S c 的子集，其中 S c = { k | 1 ≤ k≤ N, ˆ µ ( T 1 ) k ≤ κ } ，其中 κ是基于估计的本地噪声水平 ˆ µ ( T 1 ) 1 , ..., ˆ µ ( T 1 ) N选择相对干净的客户端的阈值。在微调阶段结束时，我们使用 f G 的预测标签重新标记剩余的有噪声客户端 S n = S \ Sc。与预处理阶段中的纠正过程类似，我们使用相同的置信度阈值 θ 来控制要重新标记的样本子集；参见（7）。03.4. 联邦常规训练阶段0在这个最后阶段，我们通过在所有客户端上使用经过前两个训练阶段中纠正的标签进行 T 3轮的常规联邦学习（FedAvg）来训练全局模型。我们还将这个常规训练阶段与三种不同技术的联邦学习方法结合起来，以展示基于不同技术的方法。0图3.在CIFAR-10上进行5次迭代后的LID分数（左）和累积LID分数（右）的实证评估，噪声模型（ρ，τ）=（0.6，0.5），IID数据分区，100个客户端。顶部：概率密度函数和估计的GMM；底部：每个客户端的LID/累积LID分数与本地噪声水平的关系。0数据集 CIFAR-10 CIFAR-100 Clothing1M0D train的大小 50,000 50,000 1,000,000 类别数目 10 100 14客户端数目 100 50 500 分数 γ 0.1 0.1 0.02 架构 ResNet-18ResNet-34 预训练ResNet-500表1. 我们实验中使用的数据集列表。0即使没有专门为鲁棒FL设计，也可以很好地与FedCorr结合使用；请参阅第4.2节。04. 实验0在本节中，我们在IID（CIFAR-10/100[15]）和非IID（CIFAR-10，Clothing1M[31]）数据设置中进行实验，以展示FedCorr对本地标签质量差异和数据统计差异的鲁棒性。为了展示FedCorr的多功能性，我们还展示了将各种FL方法的性能进一步改进的FedCorr的前两个阶段。我们还进行了消融研究，以展示FedCorr的不同组成部分的效果。有关数据分区和使用的噪声模型的详细信息已在第3.1节中给出。04.1. 实验设置0基线。有两组实验。在第一组实验中，我们证明了FedCorr对数据统计和标签质量的差异具有鲁棒性。我们将FedCorr与以下三类最先进的方法进行比较：（1）用于处理CL中标签噪声的方法（JointOpt [27]和DivideMix[16]）应用于本地客户端；（2）经典的FL方法（FedAvg[24]ρ = 0.0ρ = 0.4ρ = 0.6ρ = 0.8τ = 0.0τ = 0.0τ = 0.5τ = 0.0τ = 0.5τ = 0.0τ = 0.5±±±±±±±FedProx92.28±0.1488.54±0.3388.20±0.6385.80±0.4185.25±1.0284.17±0.7780.59±1.49RoFL88.33±0.0788.25±0.3387.20±0.2687.77±0.8383.40±1.2087.08±0.6574.13±3.90ARFL92.76±0.0885.87±1.8583.14±3.4576.77±1.9064.31±3.7373.22±1.4853.23±1.67JointOpt88.16±0.1884.42±0.7083.01±0.8880.82±1.1974.09±1.4376.13±1.1566.16±1.71DivideMix77.96±0.1577.35±0.2074.40±2.6972.67±3.3972.83±0.3068.66±0.5168.04±1.38Ours93.82±0.4194.01±0.2294.15±0.1892.93±0.2592.50±0.2891.52±0.5090.59±0.70ρ = 0.0ρ = 0.4ρ = 0.6ρ = 0.8τ = 0.0τ = 0.5τ = 0.5τ = 0.5±±±±FedProx71.93±0.1365.09±1.4657.51±2.0151.24±1.60RoFL67.89±0.6559.42±2.6946.24±3.5936.65±3.36ARFL72.05±0.2851.53±4.3833.03±1.8127.47±1.08JointOpt67.49±0.3658.43±1.8844.54±2.8735.25±3.02DivideMix45.91±0.2743.25±1.0140.72±1.4138.91±1.25Ours72.56±2.0774.43±0.7266.78±4.6559.10±5.12test±±±8FedProx83.32±0.9880.40±0.9473.86±2.41RoFL79.56±1.3972.75±2.2160.72±3.23ARFL60.19±3.3355.86±3.3045.78±2.84JointOpt72.19±1.5966.92±1.8958.08±2.18DivideMix65.70±0.3561.68±0.5656.67±1.73Ours90.52±0.8988.03±1.0881.57±3.68teston-FL70.4971.3570.3970.9171.7868.8372.55CL----72.2374.76-101900设置方法0最佳测试准确率（%） ± 标准偏差（%）0集中式（供参考）JointOpt 93.73 ± 0.21 92.29 ± 0.37 92.11 ± 0.21 91.26 ± 0.46 88.42 ± 0.33 89.18 ± 0.29 85.62 ± 1.17DivideMix 95.64 ± 0.05 96.39 ± 0.09 96.17 ± 0.05 96.07 ± 0.06 94.59 ± 0.09 94.21 ± 0.27 94.36 ± 0.160联邦0表2.在不同噪声水平（ρ：噪声客户端比例，τ：客户端噪声水平下界）下，各种方法在CIFAR-10上的平均（5次试验）和最佳测试准确率的标准偏差。每个噪声水平的最高准确率以粗体显示。0方法0最佳测试准确率（%） ± 标准偏差（%）0JointOpt（CL） 72.94 ± 0.43 65.87 ± 1.50 60.55 ± 0.64 59.79 ± 2.45DivideMix（CL） 75.58 ± 0.14 75.43 ± 0.34 72.26 ± 0.58 71.02 ± 0.650表3.CIFAR-100上最佳测试准确率的平均（5次试验）和标准偏差。0方法 \ (p，α Dir) (0.7，10) (0.7，1) (0.3，10)0表4.在不同非IID设置下，CIFAR-10上不同方法的平均（5次试验）和最佳测试准确率的标准偏差。噪声水平为（ρ，τ）=（0.6，0.5）。0设置 FedAvg FedProx RoFL ARFL JointOpt Dividemix Ours0表5.Clothing1M上非IID设置的最佳测试准确率。CL结果是相应论文中报告的准确率。0为了进行对比，我们还在CL中报告了JointOpt和DivideMix的实验结果，以显示这两种方法在FL中使用时的性能降低。在第二组中，我们展示了FedCorr的多功能性。当FedCorr的前两个阶段被纳入时，我们检查了三种最先进方法的性能改进。这些方法从改进FL的三个不同方面进行选择：本地优化（FedDyn [1]），聚合（Median[36]）和客户端选择（PoC [6]）。0实现细节。我们为每个数据集选择不同的模型和客户端数量N；请参见表1。对于数据预处理，我们使用随机水平翻转和随机裁剪进行归一化和图像增强，填充为4。我们使用带有动量0.5的SGD本地优化器，CIFAR-10/100的批量大小为10，Clothing1M的批量大小为16。除了在FL设置中使用的JointOpt和DivideMix之外，我

下载后可阅读完整内容，剩余1页未读，立即下载