联合类增量学习：解决全局模型灾难性遗忘的方法摘要

52 浏览量更新于2023-10-26 收藏 2.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10164∼联合类增量学习中国科学院沈阳自动化研究所机器人技术国家重点实验室2中国科学院大学。3西北大学4悉尼科技大学AAII DeSI实验室dongjiahua@sia.cn，lixuwang2025@u.northwestern.edu，{fzjlyt，sungan1412} @ gmail.com{shichaoxu2023@u.，wangxiao@，qzhu@} northwestern.edu摘要联邦学习（FL）通过在分散的客户端上进行数据私有的协作培训吸引了越来越多的关注。然而，大多数现有的方法不切实际地假设整个框架的对象类随着时间的推移是固定的。这使得全局模型在真实场景中遭受对旧类的严重灾难性遗忘，其中本地客户端经常不断地收集新类并且具有非常有限的存储内存来存储旧类。此外，具有看不见的新类的新客户可能参与FL训练，进一步加剧了全局模型的灾难性遗忘。为了解决这些问题，我们提出了一个新的全局类增量模型-局部遗忘补偿（GLFC）模型，从局部和全局两个角度来学习全局类增量模型，以缓解灾难性遗忘。具体来说，为了解决本地客户端的类不平衡导致的本地遗忘，我们设计了类感知梯度补偿损失和类语义关系蒸馏损失，以平衡旧类的遗忘，并在任务之间提取一致的类间关系。为了解决全局遗忘所带来的非I.I. D类不平衡的客户端，我们提出了一个代理服务器，选择最好的旧的全局模型，以协助本地关系的重建。此外，一个原型的基于梯度的通信机制开发，以保护隐私。我们的模型优于国家的最先进的方法4.4%-15.1%的平均准确性方面的代表性基准数据集。该代码可在https：//github上获得。com/conditionWang/FCIL.1. 介绍联合学习（FL）[4，18，42，46]使多个本地客户端能够协作学习全局模型，同时*平等捐款（按顺序排列）。†通讯作者。为本地客户提供安全的隐私保护它可以在不完全损害客户隐私的情况下解决数据孤岛的挑战近年来，它在学术界引起了极大的兴趣，并在各种工业应用中取得了显着的成功，例如。、自动驾驶[39]、可穿戴设备[33]、医疗诊断[10、52]和手机[36]。通常，大多数现有的FL方法[16，42，46，52]在静态应用场景中建模，其中整个FL框架的数据类是固定的并且是预先已知的。然而，现实世界的应用程序通常是动态的，其中本地客户端以在线方式接收新类的数据为了处理这样的设置，现有的FL方法通常需要在本地客户如果这些方法[42，52]需要在非常有限的存储内存中连续学习新的类，它们可能会遭受显着的性能下降（即，，灾难性的遗忘[20，37，40]）。此外，在现实场景中，以流式方式收集新类别的数据的新本地客户端可能想要参与FL训练，这可能进一步加剧全局模型训练中对旧类别的灾难性遗忘。为了解决这些实际情况下，我们考虑一个挑战FL问题命名为 FederatedClass-IncrementalLearning（FCIL）在这项工作中。在FCIL设置中，每个本地客户端根据自己的偏好连续收集训练数据，而具有未见过的新类的新客户端可以随时加入FL训练更具体地，跨当前和新添加的客户端的所收集的类的数据分布是非独立的并且是相同分布的（非独立分布）。FCIL要求这些本地客户端协同训练全局模型，以不断学习新的类，并限制隐私保护和有限的内存存储[37，49]。为了更好地-10165∼为了理解FCIL问题，我们在这里使用不同医院之间的COVID-19诊断作为可能的示例[6]。想象一下，在大流行之前，可能有数百家医院协同工作，通过FL训练全球感染性疾病诊断模型。由于COVID-19的突然出现，这些医院将收集大量与COVID-19相关的新数据，并将其作为新类别添加到FL训练中。此外，主要关注非传染病的新医院可能会加入对抗COVID-19的斗争，他们几乎没有旧传染病的数据，所有医院都应该学会诊断旧疾病和新的COVID-19变体。在这种情况下，大多数现有的FL方法在新的COVID-19变异数据的突然出现下可能遭受对旧疾病诊断的灾难性遗忘一种直观的方式来处理新类（例如，学习新的COVID-19变体）是简单地将FL [4，32，42]和类增量学习（CIL）[17，37，50]整合在一起。然而，这种策略需要中央服务器知道新类的数据（隐私敏感信息）何时何地到达，这违反了FL中隐私保护的要求。此外，尽管本地客户端可以利用传统的CIL [17，37]来解决其本地灾难性的丢失，但非i.i.d.跨客户端的类不平衡仍然可能导致不同客户端上的异构遗忘，并且由于跨客户端的旧类上的异构全局灾难性遗忘，这种简单的集成策略可能进一步加剧局部灾难性遗忘。为了解决FCIL中的这些问题，本文提出了一种新的G-L局部遗忘补偿（GLFC）模型，该模型有效地解决了局部客户端的局部灾难性遗忘和跨客户端的全局灾难性遗忘.具体而言，我们设计了一个类感知的梯度补偿损失，通过平衡不同旧类的遗忘来减轻局部客户端类不平衡带来的局部遗忘，并提出了一个类语义关系蒸馏损失，以在不同增量任务中提取一致的类间关系.克服非i.i. d造成的全球灾难性遗忘。由于客户端之间的类不平衡，我们设计了一个代理服务器来选择最佳的旧的全局模型，在本地端的类语义关系提取。考虑到隐私保护，代理服务器通过基于原型梯度的通信机制从本地客户端收集新类的扰动原型样本，然后利用它们来监控全局模型的性能，以选择最佳模型。我们的模型实现了4.4%-15.1%的平均精度方面的改进，在几个基准数据集上，当与各种基线方法的 com-mounting。本文的主要贡献概括如下：• 我们解决了一个实际的FL问题，即联邦类增量学习（FCIL），其中的主要挑战是减轻灾难性的遗忘旧类所带来的类不平衡在本地客户端和非i.i. d类不平衡跨客户端。我们开发了一种新的全局-局部遗忘补偿（GLFC）模型来解决FCIL问题，局部和全局的灾难性遗忘。据我们所知，这是在FL设置中学习全局类增量模型的第一次尝试。我们设计了一个类感知梯度补偿损失和类语义关系蒸馏损失，以解决局部遗忘，平衡旧类的遗忘和捕获一致的类间关系跨任务。我们设计了一个代理服务器来选择最好的旧模型在本地客户端进行类语义关系蒸馏以补偿全局遗忘，并且我们使用一个原型的基于梯度的隐私机制来保护这个代理服务器和客户端之间的通信。2. 相关工作联邦学习（FL）是一种分散的学习框架，可以通过聚合局部模型参数来训练全局模型[24，44，51，53]。为了协作学习全局模型，[32]建议通过基于权重的机制聚合局部[38]引入了一个近似项来帮助局部模型逼近全局模型。[42]侧重于通过改进的EWC最大限度地减少客户端之间的模型差异。此外，[4]设计了分层聚合策略以减少计算开销[55，56]。[18]为了快速收敛而牺牲了局部最优性，而[12，22]旨在提高局部模型的性能。[34]将无监督域自适应[5，9，27，28，57]集成到联邦学习框架[14，31]中。然而，这些现有的FL方法不能有效地学习新的类连续，由于有限的内存存储在本地客户端的老类类增量学习（CIL）旨在不断学习新类，同时解决对旧类的遗忘[1，19，54]。在不访问旧类数据的情况下，[20]设计了新的调节器来平衡新类引起的有偏模型优化，[25，41]使用知识蒸馏来克服灾难性遗忘。[40，48]引入生成对抗网络来生成旧类的合成数据如[11，30，37，49]中所述，新旧类之间的类不平衡是示例重放方法的关键挑战[29，50]设计一个自适应网络来平衡有偏差的预测。[17]利用知识升华的因果效应来纠正阶级不平衡。[43]介绍了传统知识提炼的测地线路径[1]结合了任务知识蒸馏和分离的softmax用于偏差补偿。然而，这些CIL方法不能应用于解决我们的问题。···10166l=1我Σ∈ YY···不l=1LSl=1l=1--SL我L我i=1我i=1j=1CELL李李L李李 i=1Cl≤C），不同于Cl=i=1Cl{P}--不CpCtl=1≪BMP{P}LFCIL问题，由于他们对新类的数据何时何地到达的强烈假设3. 问题定义在标准的类增量学习[37，41，43]中，存在一系列流任务T={Tt}T，流任务的数量T，数据分布lK，何时收集新类或添加新的本地客户端。FCIL的目标是有效地训练全局模型ΘR，T，以连续学习新类，同时通过与局部模型参数进行通信，减轻对旧类的catastrophic遗忘，并满足隐私保护的要求。其中T表示任务编号，第t个任务t=1Tt=与全球中央服务器SG.xt，ytNt由N t对样本xt和它们的独热编码标签ytt组成。t表示第t个任务的标签空间，包括不同的C t个新类。从C p=t−1C it−1Yj旧类在以前的t − 1任务中导出。受[30，37，49]的启发，我们构建了一个示例记忆M来选择|CMp|前emplars为每一个老类，并且它满足|M|N.然后，我们将传统的类增量学习扩展到联邦类增量学习（FCIL）。给定K个本地客户端{Sl}K 以及全球中央服务器SG，用于R4. 建议的GLFC模型我们的模型概述如图1所示。为了满足FCIL的要求，我们的模型通过类感知梯度补偿损失和类语义关系蒸馏损失解决了本地for-getting问题（第4.1节），同时通过代理服务器解决全局遗忘问题，为本地客户端选择最好的旧模型（第4.2节）。4.1. 本地灾难性遗忘补偿在第t个增量任务中，给定第l个本地客户端- 第n个全局轮（r=1，R），一组本地客户端被随机选择参与梯度聚集。具体地，一旦在每个全局客户端S1处选择了第1个客户端S1，Sl∈Sb与新类和前类的训练数据Tlt，经验记忆Ml，分类损失LCE为一个小型的，批次{Xt，Yt}={xt，yt}b<$T t <$Ml为：第t个增量任务的循环，它将收到最新全局模型Θr，t，并在其私有访问上训练Θr，t磅磅李莉Bi=1l表第t个增量任务TtMLNP|不|+|ML|得双曲余切值.LL=1mm（Pt（xt，Θr，t），yt），（1）Tt={xt，yt}不L 电子邮件t是新类的训练数据B i=1l表示其样本存储器，并且l是类分布。第l个客户端的执行lK是非独立和同分布的（即，，非i.i.d.）彼此之间在其中b是批量大小，Θr，t是分类模型在第r轮全球比赛中，第t项任务是跨-从全局服务器发送到本地客户端。Pt（xt，Θr，t）∈第t个增量任务，第l个增量任务的标签空间Yt= YtCp+Ctl李r，t本地客户端是Yt=K的子集LRYt，它包括CtL表示通过Θ预测的S形概率，新类（t tj=1Ll=1lpΣt−1我DCE（·，·）是二进制交叉熵损失。t−1Yj旧类。在加载Θr，t并在本地侧进行新类（Tt和Ml）之后，在第t个增量任务的局部训练，Sl可以得到一个低-cally更新的模型Θr，t。然后，将所选择的客户端的所有本地更新的模型上传到全局服务器SG，以被聚集为下一轮的全局模型Θr+1，t。全球服务器G然后将参数Θr+1，t分配给本地客户端以用于下一个全局轮。在FCIL设置中，我们将本地客户端{SI}K分成三个类别（即，，{Sl}K= So<$Sb<$Sn）在每个-校准培训遭受显着的性能下降，dation（即，（局部灾难性遗忘）。为了防止局部遗忘，如图1所示，我们为本地客户端开发了类感知的梯度补偿损失和类语义关系蒸馏损失，这可以纠正不平衡的梯度传播并确保增量任务之间的类间语义一致性。• 类感知梯度补偿损失：之后cremental任务具体来说，So由Ko本地客户端Sb包括收集当前任务的新数据和先前任务的样本存储的Kb个客户端;Sn包括接收当前任务的新数据但没有任何旧类的样本存储的Kn个这些客户端随着增量任务的到来而动态变化。也就是说，我们随机确定SO，Sb，Sn在每个全球轮，和 Sn是不规则地添加在任何全球轮FCIL。在流任务中，K=Ko+Kb+Kn此外，我们没有任何先验知识G将Θr，t分配给本地客户端，局部侧的梯度分布导致最后输出层在Θr，t中的不平衡梯度反向传播。它迫使局部模型Θr，t的更新在局部训练之后在新类内执行不同的学习速度并且在旧类内执行不同的遗忘速度这一现象严重影响了--当新的流数据连续地成为旧类的一部分时，增强对旧类的局部遗忘因此，我们设计了一个类感知的梯度补偿损失GC，分别通过重新定义学习速度来规范新类的学习速度和旧类的遗忘速度加权它们的梯度传播。具体地说，受[45，46]的启LCE如前所述，老年人和老年人之间的阶级不平衡10167发，对于单个样本（xt，yt）（其地面真理），李莉10168昂斯蒂翁LSLLB不lli llilblbytLL李李也就是说，我们利用了一种独热编码标签的变体i=11不LlbLLlbLt−1Ltr，ttpp不f研发代理服务器任务t-1任务t任务t+1最佳旧模型类-语义关系蒸馏损失任务转换检测类不平衡分布fGC重建的承诺扰动样本CurrentModdelr，t类感知梯度l赔偿损失扰动样本扰动样本网络重构原型梯度通信xt，ytNtgF路最好的结果执行评估nnn=1任务t-1任务t任务t+1最佳旧模型类-语义关系蒸馏损失任务转换检测类不平衡分布fGCSeleetBestOldMode lGloba lMode lr，tCurrentMode lr，t类感知梯度K补偿损失扰动样本图1.我们的GLFC模型概述。它主要由一个类感知梯度补偿损失GC和一个类语义关系蒸馏损失RD组成，以克服本地端类不平衡导致的局部灾难性遗忘，以及一个代理服务器P来解决非独立同分布带来的全局灾难性遗忘。客户端之间的类不平衡，其中在SP和客户端之间开发了基于原型梯度的通信机制，用于它们的私有通信，同时为L RD选择最佳的旧模型。标签是yt，yt的独热向量是yt），我们得到一个不同增量的类间语义一致性，李莉莉梯度测量Gt 对于第yt个神经元不心理任务，我们设计了一个类-语义关系蒸馏利雷，特利雷N 不最后一个输出层的最后一个输出层的最后一个输出层：李DCE（Pt（xt，Θr，t），yt）通过考虑老年人之间的潜在关系，新的班级。如图1所示，我们分别将小批量数据集{Xt，Yt}转发到存储的旧Gli=Nt（二）模型Θt-1和当前局部模型Θr，t，并获得li对应的预测概率P t−1（Xt，Θt−1）∈=P（x，Θ ）t-1，旧阶级和Lr，t磅其余部分l li lyliRb×CP t（Xt，Θ）∈b×（C+C）t t r，tt新老班级这些概率反映了...其中Pl（xli，Θl）yt第i个样本。是第y个softmax概率，新老阶级之间的阶级关系。不同于现有知识蒸馏策略[1，3，8，17，26]为了规范化新类的学习速度和旧类的学习速度，我们执行单独的梯度，它只保证旧类Θt−1和Θr，t，我们考虑对新旧类进行规范化，并利用它来重新定义重量LCE. 给定小批量{xt，yt}b，我们定义通过优化L RD同时处理新老类。1个员额bi=1Iyt∈Yti=1李李Yt∈Rb×（Cp+Ct）LYlbPL（Xlb ，Θlp）Gn=1|· I y t ∈Y t，| · Iyt ∈Yt,B不lb的t与t−1tt−1，并将此变量表示为li lΣ（三）Yt（Xt，Θt−1）∈Rb×（C+C）. Ob viously，Yt（Xt，Θt−1）Go=I|· I y t ∈ t −1 Yj，|·Iyt ∈∪t−1Yj,有效地表示类间语义相似度关系，yli∈j=1Yl作为新类和旧类的梯度均值，其中I（·）是指示函数，如果下标条件为真，y李不LlbLi=1不Ji=1李j=1L10169L李L李j=1L其中λ1、λ2是超参数。我们更新本地模型通过平滑一个热点，为新老类提供新的解决方案标签因此，我们将LRD公式化如下：LRD=DK L（P t（Xt，Θr，t）||Yt（Xt，Θt−1）），（5）10170李LL·I（True）= 1;否则，I（False）= 0。故重权l磅ll磅l10171LCE损失公式如下：10172其中DKL（·||·）是Kullback-Leibler散度。在-10173LL总之，第l个本地客户端的优化目标是：10174L=1Σ| GLi|·D（P t（xt，Θr，t），yt），⑷GCBi=1圭CEL LILILIL1=λ1LGC+λ2LRD，（6）其中G<$i=Iyt∈ Yt·Gn+Iyt∈t−1Yj·Go。例如，10175当第i个样本xtGn，否则为Go。属于新的阶级，我将是通过优化Eq.（6）然后聚合所有本地在全局服务器SG中建模，以获得全局模型10176类-语义关系蒸馏损失：在初始化为当前的局部模型Θr，t的训练10177全局模型Θr，t，由Θr，tindi预测的概率分类类间语义相似关系。确保10178Θr+1，第n次循环的t。当t=1时，不存在旧模型10179Θt−1执行R D，我们设λ1=1。0，λ2=0，则λ1= 0。5，λ2= 0。五、请注意，So和10180Sn具有相同的目标（即，，方程式（6）与客户在1018110182·LLGGM--L不−LLS不SSSS的LSSGLn∇i=1LLt=2Lc=Cl+1nnnLn=1r，tLnN {}{W}LCSb，eexceptforthedefinitionofG¯iinEq. （四）、我是一条路每个客户端存储其最佳旧模型{Θt-1}T，设置为o为So，n为n。任务转换检测：当优化方程。（6），本地客户端必须知道新类何时到达，然后更新样本存储器l并存储用于研发部然而，在FCIL中，我们没有关于本地客户端何时接收新类的数据的先验知识为了解决这个问题，一个简单的解决方案是识别训练数据的标签是否以前见过。但是，由于非-i.i.d. 设置类分布。另一个直观的解决方案是使用性能下降作为收集新类的信号。该方案在FCIL中是不可行的，因为随机选择SO、Sb、Sn和它们的非独立同分布。即使没有接收新类，类分布也会导致性能急剧下降。为此，我们提出了一种任务转换检测机制，以准确地识别本地客户端何时接收新类。具体来说，在第r轮全球融资中，计算平均熵H通过接收到的全局在第（t1）个任务期间的每个任务具有训练数据t-1。不幸的是，该解决方案从本地角度考虑了对Θt-1的选择，并且不能保证所选择的Θt-1具有针对所有旧类的最佳存储器，因为每个本地客户端仅具有旧类的子集（非i.i.d.）。为此，我们采用代理服务器P从全局角度为所有客户端选择最佳Θt-1，如图1所示。具体地说，当本地客户端已经识别出新的类（即，，lt）在第t个任务开始时，通过任务转换检测，它们将通过基于原型梯度的通信机制向P在接收到这些梯度后，P重构扰动后的原型样本，并利用它们来监控全局模型Θr，t（从G接收）的性能，直到找到最好的一个。当步进到下一个任务（t+1）时，P将最好的Θr，t分配给本地客户端，本地客户端将其视为执行L RD的最佳旧模型。• 原型基于顺从性的通信：给定第l个本地客户端Sl∈Sb<$Sn，其接收用于第t个任务的新类的训练数据Tt，Sidenti，模型Θr，tLlTt：在其当前训练数据l不通过任务转移拘留来释放新的类然后，Slse-仅选择一个代表性原型样本xt样本，Nlp plcHr，t=1<$I（Pt（xt，Θr，t）），（7）N对于每个新类（c=Cl+1，···，Cl+Ct），其中Ltli=1l李的特征最接近的均值嵌入属于潜在FEA中的第c类的所有样本其中I（·）=ipilogpi是熵函数。当真实空间然后我们将这些原型样品r，t突然上升，满足Hr，t-Hr-1，t≥其标签Cp+Ct成- 层草-Hl l l{xt，yt}lplTtLr，我们认为本地客户端正在接收新的类，lclcc=Cl+1lh阶编码网络Γ={Wi}L计算并将t更新为t←t+1。然后他们可以更新内存梯度波i=1r，tMl并存储旧模型Θt−1。我们的经验是，=1时。二、其中，对于通信效率而言，r应远低于Θ1，并且Wi是4.2. 全球灾难性遗忘赔偿第i层河。定义<$W I I I C的第i个元素<$W I I IC为<$WIIC=<$WDC E（P t（xt<$，I T），yt<$），其中虽然Eq。（6）可以解决当地灾难性的遗忘问题IL LC LC由于当地的阶级不平衡，Pl（xlc，r）是通过 r预测的概率。然后我Cp+Ct传输Ct梯度{rlc}lpl去侦察客户（即全球灾难性遗忘）。换句话说，非i.i.d.本地客户端之间的类不平衡分布导致某些全局灾难性地忘记了旧的原型样品的结构。P随机打乱从该全局轮的选定客户端接收的所有梯度，以构建梯度阶级，进一步恶化了当地的灾难性遗忘。池Cp+Ctrt=pl ，我们假设有因此，有必要从全局的角度来解决跨客户端的异构作为主持人-提出的类语义关系蒸馏损失c=Cl+1在这个池中的梯度。这种混洗操作可以防止SP从跟踪某些选定的客户，通过评论特殊-由方程式（5）需要存储的旧分类模型社会梯度分布F或的第n个元素LRDtnt提取类间关系的任务打赌-因此，我们可以得到其对应的地面真值标签yn。LterΘt-1可以从预蒸馏中全面增加蒸馏增益（具有独热编码标签yt）通过观察t中最后一层的梯度符号任务，加强对旧类的记忆，全球视野因此，选择Θt-1起着重要的作用。Givenadummyssamplex<$t[46，58]中提出由标准高斯初始化，Nt在全球灾难性遗忘补偿中的重要作用，应从全球角度考虑。然而，在FCIL中，Θt-1，由于保护作用。直观的解决方案无法解决来自其他本地的异构遗忘L10183sian（0，1），我们对所有的x<$t，rt，ytg到与本地客户端使用的梯度编码网络相同的r=iL中，以恢复每个新类的原型样本。重建损失LRT和

下载后可阅读完整内容，剩余1页未读，立即下载