没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文FedX:具有交叉知识蒸馏的SungwonHan 1,2[0000 - 0002 - 1129 - 760X]、SungwonPark 1,2[0000 - 0002 - 6369 -8130]、Fangzhao Wu3[0000 - 0001 - 9138 - 1272]、Sundong Kim2[0000 - 0001 -9687 - 2409]、Chuhan Wu4[0000 - 0001 - 5730 - 8792]、Xing Xie3[0000 - 0002 -8608 - 8482]和Meeywon Cha2,1[0000 - 0003 - 4085 - 9648]1计算学院,KAIST{lion4151,psw0416} @ kaist.ac.kr基础科学研究所数据科学组{sundong,mcha} @ ibs.re.kr微软亚洲研究院网址:wufangzhao@gmail.com,xingx@microsoft.com4清华大学wuchuhan15@gmail.com抽象的。 本文介绍了FedX,一个无监督的联邦学习框架。我们的模型从分散和异构的本地数据中学习无偏表示。它采用双边知识蒸馏,将对比学习作为核心组件,允许联邦系统在不需要客户端共享任何数据特性的情况下运行此外,它的适应性架构可以用作联邦设置中现有无监督算法的附加模块。实验表明,我们的模型显着提高性能(1.58关键词:无监督表示学习,自监督学习,联邦学习,知识蒸馏,数据隐私1介绍大多数深度学习技术都假设在训练期间可以无限访问数据。然而,这种假设在现代分布式系统中并不成立,在现代分布式系统中,出于隐私原因,数据存储在客户端节点[28,34]。例如,存储在移动设备上的个人数据不能与中央服务器共享,医院网络中的患者记录联邦学习是协作技术的一个新分支它是一种通过涉及多个分散的边缘设备来运行机器学习的方法,而无需交换本地有界数据[2,36]。在联邦系统中,监督方法已用于各种下游任务,如对象检测[22],图像分割[31],为这项工作做出同等贡献。arXiv:2207.09158v1 [cs.CV] 2022年723+v:mala2255获取更多论文2S. Han等人(a) (b)全球知识的提炼图图1:FedX中两个知识流的说明:(a)局部知识提取逐步学习增广不变特征,(b)全局知识提取使局部模型不受偏差影响。人的再认识[45]。这里的主要挑战是数据非IID设置),这掩盖了全局数据分布。为了解决这个问题,已经提出了几种方法,包括知识蒸馏[45],控制变量[13]和对比学习[19]。这些方法要求本地客户具有高质量的数据标签。如今,对无监督联邦学习的需求正在增加,以处理缺乏数据标签的实际场景这是联邦学习的新领域有一些新的想法,例如,张等人。FedCA是一种使用本地数据特征和外部数据集来缓解表示空间中的不一致性的模型[42]。Wu等人提出了FCL,它交换加密的本地数据特征以保护隐私,并引入了一种邻域匹配方法来聚类客户端之间的分散数据[38]。然而,这些方法允许本地客户之间共享数据,并引起了对隐私的担忧。我们提出了FedX,联邦系统上的无监督学习的新进展,从本地数据中学习语义表示,并通过知识蒸馏提炼中央服务器与以前的方法不同,该模型是隐私保护的,不依赖于外部数据集。 该模型为标准FedAvg [23]框架引入了两个新的考虑因素:基于本地数据逐步训练网络的本地知识蒸馏和由于非IID设置而正则化数据偏差的全局知识蒸馏这种双向的知识流动使我们的模型与众不同。局部知识蒸馏(图1a)最大化同一数据实例的两个不同视图之间的嵌入相似性,同时最小化其他实例的嵌入相似性-该过程由对比损失定义。我们设计了一个额外的损失,通过软标签放松对比损失。软标签被计算为锚点和随机选择的实例之间的相似性,称为关系向量。我们最小化两个不同视图的关系向量之间的距离,以转移结构知识,并实现快速的训练速度-这个过程是调制的关系损失。+v:mala2255获取更多论文FedX:无监督联邦学习与交叉知识蒸馏3全球知识蒸馏(Fig.1b)将全局模型传递的样本表示这一过程也受到对比损失和关系损失的调节。并发优化允许模型学习语义信息,同时通过正则化消除数据偏差。这些目标不需要额外的通信回合或昂贵的计算。此外,它们不共享敏感的本地数据或使用外部数据集.1. 我们提出了一种无监督的联邦学习算法FedX,它通过在局部和全局层面上独特的双侧知识蒸馏来学习数据表示。2. 双边知识蒸馏有助于从局部数据中发现有意义的表示,同时通过使用全局知识来消除偏差3. FedX可以应用于现有的算法,以提高1.58-4. 与其他无监督的联邦学习方法不同,FedX保留了客户端之间的隐私,并且不直接共享数据它也是轻量级的,不需要复杂的通信来发送数据功能。5. FedX在https://github.com/Sungwon-Han/FEDX上开源。2相关工作2.1无监督表示学习无监督表示学习有两种常见的方法一种方法是使用生成模型,如自动编码器[33]和对抗学习[30],通过模仿实际数据分布来学习潜在表示。另一种方法是使用具有对比学习的判别模型[5,27,40]。对比学习方法教导模型拉锚点及其正样本的表示(即,图像的不同视图),同时将锚点推离负样本(即,从不同的图像视图)[7,18]。在对比学习中,Simplified [3]采用数据增强来生成正样本。MoCo [8]引入了动量编码器和动态队列来有效地处理负样本BYOL [6]减少了由大量负样本引起的内存成本ProtoCL [18]使用原型通过期望最大化框架将语义相似的实例分组到局部集群中。然而,在分布式和非IID数据设置下,如在联邦系统中,这些方法显示出准确性下降[42]。2.2联邦学习McMahan等人的Federated Averaging(FedAvg)是监督联邦学习的标准框架[23]。随后的几项研究改进了FedAvg的局部更新或全局聚合过程。例如,外部数据集[43],知识蒸馏[45],控制变量[13,20]和对比+v:mala2255获取更多论文θθ|D|4个S. Han等人学习[19]可以应用于更好的局部更新过程。类似地,可以通过贝叶斯非参数方法[35]、动量更新[11]或归一化方法[37]来改进全局聚集过程无监督的联邦学习更难实现,因为没有提供标签,客户端必须依赖于本地定义的可能有偏见的借口任务。这是一个较少探索的领域,只有少数方法被提出。FedCA [42]共享本地数据特征,并使用外部数据集来减少客户端之间表示空间的不匹配FCL [38]在交换本地数据特征之前对其进行加密。由于明确的数据共享,这些方法引起了新的隐私问题。另一方面,我们考虑一个完全孤立的条件,不允许任何本地数据共享。FedU [44]是该领域的另一种方法,它改进了全局聚合方法。它决定如何更新预测局部和全局模型的分歧的基础上有选择地。我们的模型与FedU是正交的,这两个概念可以串联使用2.3知识蒸馏知识蒸馏旨在有效地训练网络(即,学生)通过提取预先训练的网络的知识(即,教师)。知识可以定义在中间隐藏层[15,16]的特征上,在最后一层[10]的logits,或训练样本之间的结构关系[29,32,24]。自我知识蒸馏使用学生网络本身作为教师网络,并逐步使用其知识来训练模型[12,14]。我们利用这个概念来有效地训练本地模型,同时保留以下知识:全球模式。FedX是第一种使用知识蒸馏概念进行无监督联邦学习的方法。3模型3.1概述问题陈述。考虑一个联邦系统,其中数据只能在每个客户机本地查看,不能在外部共享。我们的目标是训练一个单一的无监督嵌入模型F,将每个客户端的数据点映射到嵌入空间。让我们将来自客户端m的本地数据和模型表示为Dm和Fm分别(即,m∈ {1,.,M})。全球模型F的主要目标如下:Mmarg min L(L)=L| D |Lm(λ),m=1其中Lm(x; n)= Ex∈Dm[lm(x; n)].(一)Lm表示客户端m中的局部目标,并且lm是Lm除以Dm的经验损失目标。为了简单起见,我们在下文中将客户端处的局部模型fm表示为m和全局模型F分别为fm和F.ϕ+v:mala2255获取更多论文C−−BBFedX:交叉知识蒸馏的无监督联邦学习5图2:FedAvg框架[ 23 ]的图示,它被用作许多联邦系统的基础结构。FedX改进了本地校准过程○1。我们使用FedAvg [23]作为底层结构,并描述了数据流图 二、在每个通信回合中运行的四个过程:过程○1对当地更新是当每个本地客户端用其数据Dm训练模型fm时 对于E本地epochs;当客户端共享经过训练与服务器进行对话;过程○3对 全球 聚集 时发生中央服务器对接收到的模型权重进行平均全局模型F;程序○4在全局模型下载中,局部模型与下载的全局模型(即,平均重量)。这些进程运行R通信轮。FedX修改了程序○1通过重新设计损失目标,地方和全球范围的知识。以下部分介绍我们的无监督联邦学习模型的设计组件。3.2地方知识蒸馏第一个重要的变化发生在本地客户端,他们的目标是从本地数据中学习有意义的表示。 让我们定义一个数据对;xi和xi是同一数据实例的两个增强视图。局部对比损失Llocal通过最大化xi和xi之间的一致性,同时最小化来自不同实例的视图的一致性来学习语义表示(即,阴性样品)。我们展示了两种无监督表示学习方法的对比损失作为香草基线。Simplified [3]利用基于InfoNCE损失的对比目标[26]。提供一批在大小为N及其扩充版本为N的情况下,每个锚点具有单个正样本,并将所有其他(2N 2)个数据点视为负样本。以下是这种(2n1)路实例辨别损失的定义,其中τ是用于控制熵∗+v:mala2255获取更多论文当地k∈(B<$B<$−{iEMA我 KLlocal=?z/z−zema/zema?,(4)我EMA其中zi=gm<$fm(xi),<$zema=fm(xi).(五)6 S. Han等人(a) 双边对比损失(b)双边关系损失图图3:FedX的整体架构,具有本地模型fm、投影头hm和本地客户端m处的全局模型F。双侧(a)对比损失和(b)关系损失使模型能够从局部数据中学习语义信息,同时通过从全局数据中提取知识来正则化偏差我的天。FedX修改了程序○1图2中的本地更新。值,而sim(·)是两个边界之间的余弦相似函数:Lc=−logΩexp(sim(zi,zi)/τ),(2)exp(sim(z,z)/τ)其中zi=fm(xi),<$zi=fm(x<$i)。(三)BYOL [6]不对阴性样本进行训练。相反,使用非对称体系结构来防止模型学习琐碎的解决方案。具有预测层g_m的模型f_m被训练以从指数移动平均模型.损失的定义如下:2céiiii我们考虑了另一个设计方面,以帮助模型更有效地学习结构知识。受关系知识分类概念的启发[1,41],从局部模型中提取表示为样本之间关系的结构知识,并逐步将其传递回自身。这∗+v:mala2255获取更多论文BB我 K我 KR2我 i)+2KL(1)我我2我我 K我 K我我我我FedX:无监督联邦学习与交叉知识蒸馏7需要随机选择一组实例Br,并根据两个不同视图xi、xi和随机实例Br的元素bedding 来计算余弦相似性。然后,我们将softmax函数应用于相似性向量,以计算关系概率分布ri和rri(等式1)。(六)。 在向量记法中,上标j表示给定向量的第j个分量值.jexp(sim(zi,zj)/τ)jexp(sim(zi,zj)/τ)ri=0exp(sim(z,z)/τ),ri=(六)exp(sim(z,z)/τ)上述概念,局部关系损失,被定义为詹森-香农离散性(JSD)是由两个关系概率分布ri和Rri(等式7)。最小化两个分布之间的差异,使模型学习结构知识不变的数据增加。在使用软目标的对比学习中,这种发散损失也可以解释为放松InfoNCE目标。Llocal=1KL(r=目标1目标目标1其中r =(r(7)局部知识提取的总损失项在等式中给出。八:L本地-KD= L本地+L本地。(八)C r3.3全球知识蒸馏第二个主要变化是规范化局部和整体数据分布之间的不一致性所造成的偏差。这种不一致性解决了分散式非IID设置的问题,即本地客户端不知道全局数据分布。在这种情况下,训练局部模型fm将是次优的,因为局部更新过程变得偏向于局部最小值[42]。地方客户之间的这种数据不一致可以通过在全球范围内提取知识来解决我们考虑两种损失:整体对比损失和整体关系损失。由于全局模型只是在FedAvg中的本地客户端聚合模型权重,因此我们可以将全局模型中的样本嵌入视为同一数据实例的替代视图。全局对比损失最大化来自同一实例的局部和全局模型的视图之间的一致性,同时最小化来自不同实例的所有其他视图之间的一致性每个通信回合假设中央服务器发送一组固定的平均模型权重(即,全球模型F)到客户端。然后使用批处理和其增强版本来训练局部模型fm,如等式(1)中所示。9、失去的为了匹配局部模型和全局模型之间的嵌入空间,我们考虑在局部模型之上增加模型类似的方法已在[4,6]中使用exp(sim(zl,zg)/τ)全球我我Lc=−logexp(sim(zl,zl)/τ)+k∈(B−{i})k∈(B<$−{i其中zl=hm<$fm(xi),zl=hm<$fm(x<$i),zg=F(xi),zg=F(x<$i)。 (九)k∈Brk∈Br我+v:mala2255获取更多论文××k∈Br×我 Kk∈Br我 KR我 i)+2KL(1)我我2我我8个S. Han等人我们在全局对比损失的基础上引入全局关系损失。这种损失的定义方式与局部关系损失相同(等式2)。(7)但包括全局模型嵌入。它通过在预测层hm之后的全局嵌入空间上惩罚两个增强视图之间的任何失配来正则化模型。因此,该模型保持其局部知识的基础上,局部数据,同时学习增广不变的知识,使用全局对比损失。给定不同的视图xi,x∈i和随机实例Br,定义了全局关系损失的概率分布r′i和r′i(等式2)。 10)。我们再次采用两个关系概率向量r′i和Rr′i之间的JS 散度作为全局关系损失(等式10)。11)。exp(sim(zl,zg)/τ)exp(sim(zl,zg)/τ)'ji j' ji jRi =exp(sim(zl,zg)/τ),=exp(sim(zzl,zg)/τ) (10)Lglobal=1KL(r′r′target1"r“目标t),其中r”目标=1(r“+r”)(11)全局知识蒸馏的总损失在等式中给出12个。然后,13岁详细的算法在附录中描述。Lglobal-KD=Lglobal+L global(十二)C rL总-KD=L局部-KD+L全局-KD(13)4实验使用多个数据集,我们将模型的性能与其他基线进行了比较,并研究了模型组件和超参数的作用。我们还使用嵌入分析来检查所提出的模型如何实现性能增益。最后,我们将该模型应用于半监督环境中。4.1绩效评价数据设置。使用了三个基准数据集。CIFAR-10包含了60,000张32 32像素的图像,来自10个类别,包括飞机,猫和狗。SVHN [25]包含73,257个训练图像和26,032个测试图像,其中小的裁剪数字为32 32像素。F-MNIST [39]包含7万张图像28 28像素的10类,包括连衣裙,衬衫和运动鞋。我们使用Dirichlet分布来强制本地客户端的非IID属性设DirN(β)表示具有N个客户端的Dirichlet分布,β为浓度参数。 我们从Dir N(β)中获取样本pk,j,并基于采样比例pk,j将类别k分配给客户端j。 通过这种数据分配策略,每个客户端将为每个类分配一些数据样本(甚至没有),以确保偏差。默认情况下,N和β分别为10和0.5,与其他研究类似[19]。2+v:mala2255获取更多论文FedX:无监督联邦学习与交叉知识蒸馏9表1:FedX在三个数据集上的分类准确性的性能改进。最后一轮精度和最佳精度都表明,我们的模型为所有基线算法带来了实质性的改进。方法CIFAR-10最后最好SVHN最后最好F-MNIST最后最好FedSimplified51.3152.8875.1976.5077.6679.44+FedX56.8857.9577.1977.7081.9882.47FedMoCo56.7457.8270.6970.9982.3183.58+FedX58.2359.4373.5773.9283.6284.65FedBYOL52.2453.1465.9567.3281.4582.37+FedX56.4957.7968.9469.0583.1884.30FedProtoCL51.3352.1249.8550.1981.7683.57+FedX55.3656.7669.3169.7582.7483.34FedU50.7950.7966.0266.2280.5982.03+FedX56.1557.2668.1368.3983.7384.12实施细节。该模型被训练了100轮通信,每轮有10个局部时期。 使用了ResNet18主干[9]和学习率为0.01的SGD优化器。 SGD重量衰减设置为1 e-5,SGD动量设置为0.9,批量设置为128。为 在所有物镜中,温度τ设定为0.1。增强包括随机裁剪、随机水平翻转和颜色抖动。我们使用了四个A100GPU。基线。我们实现了五个基线:(1)基于Sim的FedSim [3],(2)基于MoCo的FedMoCo [8],(3)基于BYOL的FedBYOL [6],以及(4)基于ProtoCL的FedProtoCL [18]。这些是无监督模型这是建立在FedAvg之上的[23]。最终的基线(5)FedU [44]构建在FedBYOL之上,并通过发散感知模块下载全局模型(请参见项目○4在图2中)。为了公平比较,我们应用了相同的实验-这些基线上的心理设置,包括骨干网络、优化器、增强策略、本地历元数和通信轮数。我们使用FedU的原始实现和超参数设置。除非另有说明,否则我们将FedSimplified作为本节剩余部分的代表性基线。评价 使用线性评估协议比较所有模型,这是一种在表示之上训练线性分类器的方法[42,44]。我们在训练后冻结每个训练模型的骨干网络。然后,对于接下来的100个时期,添加新的分类器并使用地面真实标签进行训练。测试集上的前1分类准确度被报告为评估度量。结果 表1总结了性能比较,其中FedX相对于基线算法带来了有意义的性能改进。平均而言+v:mala2255获取更多论文10秒。Han等人(a) FedSim的性能提升(b) FedBYOL的性能提升图4:两个普通基线之间的性能比较(即,FedSimplified和FedBYOL)和FedX-通过通信回合的增强版本FedX帮助模型在所有三个基准数据集中表现出色,并随着通信回合的增加继续带来优势。在所有基线上,我们的模型将CIFAR-10提高了4.29个百分点(pp),SVHN提高了5.52个百分点,F-MNIST提高了1.58个百分点一个例外是F-MNIST,其中FedProtoCL本身具有稍高的最佳精度。然而,添加FedX仍然有助于提高最后一轮的准确性,这意味着模型具有良好的训练稳定性。然后,我们研究了模型在各个沟通回合中提高基线的速度图4显示了FedSimplified和FedBYOL上两个示例基线的轨迹5这些图证实了模型增强模型优于普通基线;大多数图在通信回合的早期就显示了这种好处我们看到,在某些情况下,局部偏差会在早期训练阶段降低基线模型的性能(参见图4a中的F-MNIST案例)。这很可能是由于局部采样的底片造成的有偏见的对比客观相比之下,添加FedX可以防止这种恶化,甚至可以随着通信回合的增加继续提高准确性。4.2成分分析消融研究。 FedX分别在本地和全球层面使用学习目标,有两种类型的损失:对比损失和关系损失。在本节中,我们通过删除每个学习目标或损失成分并测试每个设计选择对整体性能的附加值来查看消融5其他基线的结果见附录。+v:mala2255获取更多论文|D|FedX:具有交叉知识蒸馏的无监督联邦学习11图5:CIFAR-10通信回合消融的性能比较。删除任何模块都会导致性能下降。对比剂丢失Lc消融显示最佳准确性为35.13%,因此被排除。表2:不同全局尺度正则化方法的消融结果建议的全球知识蒸馏表现最好的。方法CIFAR最后-10最好SVHN最后最好F-MNIST最后最好L本地-仅51.8952.8576.6477.2079.7980.42Llocal-KD+ SCAFFOLD 52.7353.2075.1875.5279.4580.36Llocal-KD+FedProx52.4853.3477.4377.7979.8380.24L局部KD+L全局KD56.88 57.9577.1977.7081.9882.47图5绘制了通信回合中不同消融的性能比较完整的模型具有最高的准确性,这意味着删除任何组件都会降低性能。它还证实了全球知识蒸馏目标的重要性。FedX使用全局知识蒸馏来传达全局模型知识,并规范由局部和整体数据分布之间的不一致性引起的局部偏差。在监督设置中的几项研究已经使用额外的正则化或梯度更新过程解决了类似的挑战。我们替换了全局知识蒸馏损失(Lglobal-KD12)与现有策略,如FedProx [21]或SCAFFOLD [13],并验证其有效性。表2总结了三个基准数据集的不同消融的性能比较。研究结果表明,我们的全球知识蒸馏技术是更有效的替代设计。耐用性试验。然后通过在不同的仿真设置中改变关键超参数来测试模型的鲁棒性。这使我们能够测试系统在困难的情况下,例如(a)当每个客户端仅被允许保持少量数据(即,(b)当更多的客户端参与时,联合系统(即,客户端计数N),以及(c)当与中央服务器的通信变得有限和昂贵时(即,多个通信+v:mala2255获取更多论文|D|12 S. Han等人表3:CIFAR-10在不同超参数下的准确性分析表明,FedX始终增强了基线性能。(a)数据大小的影响|D|(b) 客户端计数N的影响数据大小基线最后最佳基线+FedX最后最佳客户编号基线最后最佳基线+FedX最后最佳百分之十46.80 47.37 51.0353.96百分之二十五48.42 49.79 52.8454.45552.87 53.87 58.5558.551051.31 52.88 56.8857.951552.31 53.06 55.1256.822050.70 52.89 56.5656.56(c) 通信轮数R通信圆基线最后最佳基线+FedX最后最佳2052.0152.8056.9756.975051.9553.5357.2957.2910051.3152.8856.8857.9520052.7953.2357.3557.58R轮)[36]。我们在表3中测试了我们的模型在这些场景下的表现。我们注意到,当改变通信轮数R时,我们也相应地改变了局部历元数E,使得R×E= 1000。该表总结了基线模型(FedSimplified)和FedX增强模型的每个超参数的影响。我们做了几个观察。首先,减小数据大小会降低性能。然而,这种下降并不严重,即使客户只持有10%的数据,仍然下降了近5pp。其次,增加客户端的数量N将增加复杂性并降低性能。然而,当N从10增加到20时,下降仅在1pp附近是第三,虽然增加沟通回合通常会带来额外的好处,但如示例所示,在一些回合之后,收益似乎是微不足道的。不管这些变化如何,FedX始终会带来超过基线的重要改进。4.3嵌入空间接下来,我们定量地检查嵌入空间特征,以了解FedX如何将全局知识提取到局部模型中并对数据语义结构进行编码。我们计算了局部模型f和全局模型F传递的归一化嵌入之间的角度差作为质量度量:Angle(x)= arccos(sim(f(x),F(x), (14)+v:mala2255获取更多论文D·测试测试D|DCC测试|FedX:具有交叉知识蒸馏的无监督联邦学习13(a) 局部与(b)类间差异直方图图6:基线和FedX增强模型在CIFAR-10上的嵌入分析,比较嵌入特征的角度差异其中x是来自测试数据TEST的实例,而sim()是余弦相似函数。应该注意的是,较大的角度表示两个模型的嵌入分布的更显著的偏差。图6a可视化,对于CIFAR-10中的十个类中的每一个,在局部模型和由等式计算的全局模型之间的每个项目的嵌入之间的角度差。14个。与基线(FedSimplified)相比,FedX增强模型报告了局部和全局模型之间的显著更低的角度差异。这表明局部模型可以通过知识蒸馏学习全局模型当涉及到不同类项的嵌入空间时,有一个大的差距。给定Dc作为类c的一组实例,我们可以通过对来自c的嵌入求平均来计算代表性类原型(等式10)。15)。然后,可以在任何一对类原型之间定义类间角度差(等式1016)。图6b绘制了每个类对的类间角度差异的直方图,显示FedX增强模型的平均角度为93.15°,而基线模型的角度为82.36°。这表明我们的模型可以更好地区分不同类别的项目。z=1x∈Df(x)(15)角度(ci,cj)=arccos(sim(zci,zcj))(16)4.4半监督设置最后,作为一个实际的扩展,考虑一个场景,其中每个客户端都有一个小的部分标记数据集。在许多现实世界的联邦系统中,这可能是一个更自然的设置[44]。为了将我们的模型转换为半监督设置,我们首先在没有监督的情况下对其进行训练,然后在标记数据上使用额外的分类器对它进行微调,再进行100个epoch。为了进行微调,使用了学习率为1 e-3的SGD优化器C测试+v:mala2255获取更多论文14岁。Han等人表4:CIFAR-10上半监督设置中的分类准确度FedX增强了基线性能,即使标签集很小。标签比率香草FedX香草FedX香草FedX香草FedX香草FedX百分之一21.37 23.33 23.02 25.18 18.10 21.86 18.44 18.17 21.41 21.23百分之五30.68 35.86 34.24 37.63 29.77 34.48 19.64 26.66 32.19 35.41百分之十31.14 39.40 38.15 39.32 32.23 37.89 22.90 27.54 34.51 37.51表4显示了在半监督设置中CIFAR-10的性能结果,其中标签比率为1%、5%和10%。正如预期,增加-将标记比率从1%调整到5%可以立即提高性能。FedX增强的模型在多个基线的半监督设置中优于大多数情况。只有1%的标记率可以看到微小的例外,我们的模型与基线相似。另一方面,我们的模型可以更快地从增加标签比率中受益,并且可以学习分布式本地客户端的数据表示。5结论这项工作提出了第一种无监督联邦学习方法,称为FedX。我们详细阐述了本地更新过程中的共同联邦- ated学习框架和模型不共享任何数据直接跨本地客户端。其独特的双面知识蒸馏可以有效地处理非IID设置中的数据偏差,同时保持隐私。它简单明了,不需要任何复杂的沟通策略。FedX在性能上的显著提高显示了其在许多未来应用中的巨大潜力例如,具有严格数据隐私和安全要求的分布式系统,例如在医院数据中学习新疾病的模式或在分布式物联网网络中学习护理内容,可以从我们的模型中受益。即使本地客户端缺乏数据标签并包含异构数据,也可以促进无监督学习这种多功能和强大的特性使无监督学习成为联邦系统的新前沿。我们希望我们的技术和实现细节将有助于解决去中心化数据的难题确认我们感谢Seungeon Lee和Xiting Wang的见解和讨论我们的工作。该研究得到了基础科学研究所(IBS-R 029-C2,IBS-R 029-Y 4),微软亚洲研究院和韩国科学和信息通信技术部的潜在个人全球培训计划(2021-0-01696)的支持。FedSimplifiedFedMoCoFedBYOLFedProtoCLFedU+v:mala2255获取更多论文FedX:具有交叉知识蒸馏的无监督联邦学习15引用1. Bhat, P.,Arani, E.,Zonooz ,B.:Distill on the go:Online KnowledgeDistillation in Self-Supervised Learning 在 线 知 识 蒸 馏 自 监 督 学 习 在 :IEEE/CVF计算机视觉和模式识别会议论文集。pp. 26782. Bonawitz,K.,Eichner,H.,Grieskamp,W.,Huba,D.,Ingerman,A.,伊万诺夫,V,基 登 角 ,Kon epuzzny` , J. , 你 好 啊 S McMahan , B. ,等 :ToWardsFederated Learning at Scale : System Design. Proceedings of MachineLearning and Systems1,3743. 陈,T.,Kornblith,S.,Norouzi,M.,Hinton,G.:一个简单的框架,视觉表征的传递学习。在:机器学习国际会议论文集。pp. 1597-1607.PMLR(2020)4. 陈旭,他,K.:探索简单的连体表征学习。In:ProceedingsIEEE/CVF计算机视觉与模式识别会议pp. 157505. Gidaris,S.,辛格,P.,Komodakis,N.:无监督表示学习指示图像旋转。在:国际会议学习代表(2018)6. 格里尔,J.B.,Strub,F., 另一边,F., 塔莱克角, Ric hemond,P.,但我知道E呃-sch,C.,Avila Pires,B.,郭志,Gheshlaghi Azar,M.,等:引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展33,212717. 汉,S.,公园,S.,公园,S.,Kim,S.,Cha,M.:减轻嵌入和类无监督图像分类中的分配失配。在:欧洲计算机视觉会议论文集。pp. 768-784.施普林格(2020)8. 他,K.,Fan,H.,吴,Y.,Xie,S.,Girshick,R.:无监督的动量对比视觉表征学习IEEE/CVF计算机视觉和模式识别会议论文集。pp. 97299. 他,K.,张,X.,Ren,S.,Sun,J.:深度残差学习用于图像识别。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 77010. Hinton,G.,Vinyals,O.,Dean,J.,等:在神经网络中提取知识工作arXiv预印本arXiv:1503.02531(2015)11. 徐,T.M.H. Qi,H.,布朗,M.:测量联邦视觉分类的arXiv预印本arXiv:1909.06335(2019)12. 吉,M.,Shin,S.,Hwang,S.,Park,G.,Moon,I.C.:教书育人自我:通过自我知识蒸馏进行特征细化。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1066413. Karimireddy,S.P.,Kale,S.,Mohri,M.,Reddi,S.,Stich,S.,苏雷什,A.T.:支架fold:联邦学习的随机控制平均。在:机器学习国际会议论文集。pp. 5132-5143. PMLR(2020)14. 金,K.,Ji,B.,Yoon,D.,Hwang,S.:自我知识的升华与进步细化目标。IEEE/CVF计算机视觉国际会议论文集。pp. 656715. Komodakis,N.,Zagoruyko,S.:更加注重关注:提高卷积神经网络通过注意力转移的性能上一篇:国际学习表征会议(2017)16. Koratana,A.,Kang,D.,Bailis,P.,Zaharia,M.:Lit:Learned intermediate rep.用于模型压缩的表示训练。在:机器学习国际会议论文集。pp. 3509-3518.PMLR(2019)+v:mala2255获取更多论文16 S。Han等人17. Krizhevsky,A.:从微小的图像中学习多层特征。Tech.代表,03 The Dog(2009)18. 李杰,Zhou,P.,中国科学院院士,Xiong,C.,Hoi,S.:原型对比学习viewed representation.在:学习表征国际会议论文集(2020)19. 李,Q.,他,B.,宋,D.:模型对比联邦学习。In:ProceedingsIEEE/CVF计算机视觉与模式识别会议pp. 1071320. Li,T.,Sahu,A.K.,Talwalkar,A.,史密斯,V:联邦学习:挑战,方法ODS和未来方向。IEEE信号处理杂志37(3),5021. Li,T.,Sahu,A.K.,Zaheer,M.,Sanjabi,M.,Talwalkar,A.,史密斯,V : 异 构 网 络 中 的 联 邦 优 化 。 Proceedings of Machine Learning andSystems2,42922. Liu,Y.,Huang,A.,中国科学院,Luo,Y.,(1996年),美国,黄,H.,Liu,Y.,陈玉,冯,L.,陈,T.,余,H.,Yang,Q.:Fedvision:由联邦学习提供支持的在线视觉对象检测平台。在:人工智能促进协会的会议记录。第34卷,第1317223. McMahan,B.,Moore,E.,Ramage,D.,Hampson,S.,Aguera y Arcas,B.:从去中心化数据中高效学习深度网络。在:人工智能和统计程序。pp.1273-1282. PMLR(2017)24. Mitrovic,J.,McWilliams,B.,沃克,JC,Buesing,L.H.,布伦德尔,C.:代表-通过不变的因果机制进行学习。在:学习代表国际会议(2020)25. Netzer,Y.,王,T.,Coates,A.,Bissauf,A.,吴,B.,Ng,A.Y.:读取数字在自然图像中使用无监督特征学习(2011)26. Oord,A.v.d.,李,Y.,Vinyals,O.:使用对比预测编码的表示学习arXiv预印本arXiv:1807.03748(2018)27. 公园,S.,汉,S.,Kim,S.,金,D.,公园,S.,Hong,S.,Cha,M.:改善不稳定-具有鲁棒学习的图像聚类。IEEE/CVF计算机视觉和模式识别会议论文集。pp.1227828. 公园,S.,Kim,S.,Cha,M.:通过海关领域调整实现知识共享欺诈检测arXiv预印本arXiv:2201.06759(2022)29. 帕 克 , W. , 金 , D. , 吕 , Y. , Cho , M. : 关 系 知 识 的 提 炼 。 在 :Proceedings的IEEE/CVF会议上的计算机视觉和模式识别。pp. 396730. Radford,A.,梅斯湖,Chintala,S.:无监督表示学习与深度学习卷积生成对抗网络在:学习表征国际会议论文集(2016)31. Sheller,M.J.,蕾娜,GA,爱德华兹,B.,Martin,J.,Bakas,S.:多机构不共享患者数据的深度学习建模:脑肿瘤分割的可行性研究。在:国际MICCAI脑损伤研讨会的会议记录。pp. 92-104.施普林格(2018)32. Tejankar,A.,Koohpayegani,S.A.,Pillai,V.,Favaro,P.,Pirsiavash,H.:Isd:自通过迭代相似性蒸馏的监督学习。IEEE/CVF计算机视觉国际会议论文集。pp. 960933. Vincent,P.,Larochelle,H.,本焦,Y.,Manzagol,P.A.:提取和合成具有去噪自动编码器的强大功能。第25届国际机器学习会议论文集。pp.109634. Voigt,P.,Von dem Bussche,A.:欧盟通用数据保护条例(GDPR):
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功