分散数据的联邦无监督学习框架FedU及其在非IID数据上的有效性和意义

156 浏览量更新于2023-10-13 收藏 862KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4912基于分散数据的庄伟明1、3辛甘2温永刚2张帅3帅毅31南洋理工大学S-Lab，2南洋理工大学，3商汤科技{weiming001，ganx0005} @ e.ntu.edu.sg，ygwen@ntu.edu.sg，{zhangshuai，yishuai} @ sensetime.com摘要无监督表示学习使用互联网上可用的集中数据取得了突出的表现。然而，对隐私保护的日益提高的意识限制了在多方中爆炸性增长的分散式未标记图像数据（例如，移动电话和照相机）。因此，一个自然的问题是如何利用这些数据来学习下游任务的视觉表示，同时保护数据隐私。为了解决这个问题，我们提出了一个新的联邦无监督学习框架，FedU。在这个框架中，每一方独立地使用在线网络和目标网络的对比学习从未标记的然后，中央服务器聚集经训练的模型并且用聚集的模型更新客户端的模型。它保护数据隐私，因为各方只能访问其原始数据。多方之间的分散数据通常是非独立且同分布的（非IID），导致性能下降。为了解决这个问题，我们提出了两种简单而有效的方法：1）我们设计的通信协议只上传在线网络的编码器用于服务器聚合，并使用聚合的编码器更新它们;2）引入了一个新的模块，根据非IID引起的发散，动态地决定如何更新预测器。预测器是在线网络的另一个组成部分。广泛的实验和消融证明了FedU的有效性和意义。在非IID数据的线性和半监督评估中，它比只有一方的训练方法高1. 介绍近年来，在没有监督的情况下学习良好的视觉表征吸引了相当多的关注。这些视觉表示可以促进下游任务[29，24]的有效训练，如图像分割[19]。研究人员提出了许多无监督的通过设计借口任务的表征学习方法[5，37，22，6]。其中，基于实例级判别的对比学习[9，23]已经达到了最先进的性能[33，1，10，8，2]。这些无监督表示学习方法依赖于这样的假设，即数据可以被收集并存储在集中化的数据库中，例如来自互联网的图像。然而，在现实世界的场景中，分散的图像数据正在爆炸性地增长，并且由于数据隐私法规，在多方收集的数据可能不会集中[3]。例如，在手机上拍摄的照片或从街道摄像头收集的图像可能包含敏感信息。将它们集中起来进行训练可以揭示个人的身份和地点[42]。此外，与仅使用来自互联网的公开可用数据的训练表示相比，从实际数据学习的表示可以更代表应用于类似场景的下游任务。利用去中心化的未标记图像数据来学习具有隐私保证的表示是一个重要但被忽视的问题。现有方法不能利用分散的未标记数据来学习通用表示，同时保护数据隐私。联合学习是一种新兴的分布式训练技术[21]，它使多个参与者能够协作学习计算机视觉模型，例如分割[18，28]，对象检测[20]和个人重新识别[42]。但传统的联邦学习依赖于数据标签。去中心化数据通常是非独立和同分布的（非IID），这是从多方学习的关键挑战之一[38，16]。例如，在现实世界的街道数据集[20]中，摄像机捕获七个对象类别中的两个或三个。最先进的无监督学习方法是有效的，但它们可能无法很好地处理非IID数据，如图1（a）所示。尽管Federated对比平均（FedCA）[36]解决了未标记和非IID问题，但它通过直接共享客户数据的特征而带来了潜在的隐私泄露风险在本文中，我们提出了一个新的联邦无监督表示学习框架，FedU，学习泛型4913(a) 单一客户端培训飞机鸟鹿青蛙轮船汽车猫狗马卡车(b) 我们建议的FedU重要但被忽视的问题：利用来自多方的未标记数据来学习可视表示，同时保护数据隐私。• 通过分析非IID数据对Siamese网络的影响，我们设计了只聚集和更新在线编码器的通信协议。• 我们提出了一个新的模块，发散感知预测器更新（DAPU），动态地确定如何图1.无监督学习（BYOL [8]）对非IID数据的限制。(a)和（b）是表征的t-SNE可视化。我们模拟了五个去中心化的客户端，每个客户端都有10类CIFAR-10训练数据中的2类。在单个客户端中的训练不能正确地学习表示视觉表示协作地从多方中的分散的未标记的数据，同时保持数据隐私。基于对各方未标记数据的对比学习[8]，我们建议将学习的表示而不是原始数据集中到中央服务器以保护数据隐私。每一方在训练中使用暹罗网络：具有在线编码器和预测器的在线网络;具有目标编码器的目标网络。FedU不是对比学习和联邦学习的简单组合，因为我们实现了两种简单但有效的方法来解决非IID数据问题。如[38]中所研究的，非IID数据导致权重发散，从而导致性能下降。通过分析Siamese网络的特点和非IID数据的影响，我们首先设计了一个通信协议，只上传在线编码器的各方服务器聚合和更新他们与聚合的全球编码器的下一轮训练此外，我们引入了一个新的模块，发散感知预测更新（DAPU），动态地决定选择的预测更新的基础上的程度的分歧。只有当分歧小于阈值时，它才用聚合的预测器更新多方中的预测器。我们使用各种主干和设置在CIFAR数据集[15]上评估FedU 广泛的实验表明，FedU在三种评估协议下取得了令人满意的结果：线性评估、半监督学习和迁移学习。与现有的方法相比，FedU在所有评估协议上都取得了优异的性能。具体来说，从FedU学习的表示比仅从一方学习的表示好得多（图①的人。在对非IID数据进行线性和半监督评估我们还提出了消融来说明的直观性和性能的FedU。总之，该文件的贡献是：• 我们引入了一个新的框架FedU来解决基于由非IID数据引起的发散程度来更新预测器。• 大量的实验和消融证明了FedU的有效性和意义。2. 相关工作2.1. 无监督表示学习大多数无监督表示学习方法分为两类：生成性和区分性。生成方法通过自动编码[31，13]或对抗学习[7，27]等方法生成映射到输入空间的像素来学习表示。dis-criminative方法通过执行代理任务来学习表示，例如图像修复[26]和解决拼图[22]。在区别性方法中，对比学习是最先进的方法[33，1，10，8，2]。对比学习[9，23]旨在最小化正样本（同一图像的两个不同增强）的相似性，同时最大化负样本（两个不同图像）的相似性。负对要么从像MoCo [10]这样的存储器组生成，要么从像 SimCLR [1]这样的大批量生成。像BYOL [8]和SimSiam [2]这样的方法甚至绕过负对，只对比正对。然而，这些方法对于非IID数据执行得不好。在我们提出的FedU中，我们引入了两种方法来解决非IID数据挑战。2.2. 联邦学习联合学习（FL）是一种新兴的分布式训练方法，它协调分散的客户端来训练机器学习模型[21]。FedAvg[21]是FL的标准算法非IID数据是FL的关键挑战之一，这会导致权重发散（图3）和性能下降，如[38]所述。已经提出了许多方法来应对这一挑战，例如共享公共数据集[38]，知识蒸馏[42]或定期培训客户[17]。然而，研究人员在监督学习下研究这些方法，不直接适用于数据未标记的场景。虽然一些现有的工作研究联邦学习与未标记的数据[40，41]，他们主要集中在特定的应用程序。其他方法要么绕过非IID飞机鸟鹿青蛙轮船汽车猫狗马卡车4914ΣΣθθξk=1 nθΣ1.当地培训2.模型上传3.模型聚合4.模型更新图2.概述我们提出的联邦无监督表示框架（FedU），该框架通过中央服务器协调多个客户端共同训练表示。FedU的每一轮培训包括四个阶段：（1）本地训练：每个客户端k训练在线编码器f k和具有对比度损失的预测器pk，并且利用指数移动平均更新目标编码器f kθ θ ξ（EMA）。（sg表示停止梯度。）（2）模型上传：每个客户端k将fk和pk上传到服务器。（3）模型聚合：服务器θ θ聚合所有的fk和pk以获得新的全局编码器fk和预测器pk。（4）模型更新：服务器分发并更新客户端的模型θ θ局部编码器fθ，其中f。客户端基于我们提出的发散感知预测器更新（DAPU）来更新其预测器pθ问题[30，12]或施加潜在的隐私风险[36]。具体来说，FedCA [36]通过从客户端收集特征和数据分布来解决非IID问题，从而使数据隐私免受潜在攻击。我们提出的FedU更简单，实现了更好的性能，并有效地保护数据隐私。3. 方法在本节中，我们首先定义问题，然后介绍我们提出的联邦无监督表示学习框架（FedU）来解决问题。3.1. 问题定义在介绍FedU的细节之前，我们首先定义问题和假设。若干方的目标是学习用于各种下游任务的通用表示函数，而不在这些方之间共享数据。我们将每一方描述为包含未标记数据Dk={Xk}的客户端k。全局目标函数为minh（）：使用现有的无监督学习方法在一个客户端中处理非IID数据可能导致较差的表示，如图1（a）所示。此外，由于隐私限制，我们无法在本文中，我们的目标是利用越来越多的未标记的图像数据从多方学习一个通用的表示f没有隐私泄漏。3.2. FedU概述图2展示了我们提出的框架FedU的概述，它解决了上面定义的问题。FedU指示服务器协调多个具有未标记数据的客户端来训练通用表示f。它遵循所提出的通信协议来上传用于服务器聚合的在线编码器f θ，并用全局编码器f θ更新它们。此外，FedU引入了一个新的发散感知预测更新（DAPU）模块，以解决非IID数据的挑战。在介绍技术细节之前，我们先介绍Nk=1npk Fk（N），其中N是客户端的数量，pk=FedU的一轮本地培训：每个客户端k进行无人监督的代表Fk（）：=ExkDk[hk（;xk）]是数据分布Dk上的预期损失，其中xk是数据，hk（;xk）表示对比损失的感知学习（等式1），观察利用在线编码器f k来保持在线网络，以及将损失函数发送到训练模型。一个关键的挑战是去中心化客户端之间的数据可能是非IID的。例如，每个客户端可以预测器pk，以及具有目标的目标网络编码器f k。（ 2）模型上传：每个客户端k上传将在线编码器fk和预测器pk发送到服务器。θ θ在真实世界的街道数据集中，仅保留七个对象类别中的两个[20]。如[38]中所讨论的，非IID数据导致权重发散（如图3所示）。火车-（3）模型聚合：服务器聚合客户端客户端1目标SG//客户服务器`图像EMA//大浦在线客户端2在线大浦图像EMA目标//SG`..........nk，且n=knk是总数据大小。对于客户端k4915Σϕ←Z ←¨∈决定是否用全局预测器pθ更新局部预测器pθ（等式3）。我们在Algo中总结了FedU-Lθ，ξ¨y −y¨22 −2·y¨ϕϕIID非IID联合学习客户端1集中培训客户端K图3.[38]中研究的非IID数据引起的权重差异图示非IID数据上的联合学习导致与集中式训练的显著差异。算法1：联邦无监督表示学习框架（FedU）输入：学习率η、阈值μ、总训练轮次R、E、B、K、N、n、k、n输出：f1服务器：2初始化全局编码器f0和预测器p0;对于每一轮r = 0到R-1，4St←（随机选择K个客户端）;p=Nk=1 nkpk，其中nkθ5是客户端k6对于客户端k∈St，同时做fk，pk←Client（fr，pr，r）;nn是N个客户端的总数据量。 (4)型号Up-7date：服务器发送全局编码器f和预测器8θ θ ϕ ϕ端//模型聚合;向所有客户提供。每个客户端更新其在线编码器f θ9fr+1← Σϕnkfk;nnθ10pr+1←Σ11nkpk;rithm1.接下来，我们介绍本地训练、通信协议和DAPU的细节。3.3. 当地培训在本地培训中，每个客户端使用非对称连体网络进行对比学习：一个在线网络12返回fR;13 Client（f， p，r）：14//模型更新;15fθf;16//使用具有等式3的DAPU进行更新;17如果¨θr−¨r−1¨2<µ，则和目标网络，采用BYOL [8]。传统联合学习在每个客户端中只需要一个网络18pθ19终2←p;进行监督训练然而，由于数据不...标记，FedU需要两个网络从图像的两个增强生成正对，用于对比学习。在线网络由在线编码器fθ和预测器pθ组成。目标网络仅包含目标编码器f ξ。 f θ和fξ共享相同的结构，但参数不同。本地培训从接受两次强化训练开始20（构造具有批量大小B的数据批次）;21//用等式1和2进行局部训练;对于局部时期e = 0至E-1，d= 2223对于z ∈ Z do24θ←θ−η▽Lθ，ξ（θ;z）;25ξ←mξ+（1−m）θ;26端部27端部和t′。它们分别是在线网络和目标网络的输入。在线网络的作用我们用对比损失更新其参数θ28返回fθ，pθ//模型上传;29返回′2y，y′2服务器和客户端需要仔细考虑2消除非IID数据的不利影响。其中ypθ（fθ（t））是在线网络，y′ fξ（t′）是目标网络的输出。目标网络的作用是产生正回归目标为在线网络进行对比。代替用梯度下降更新，其参数ξ在每个批次中用在线编码器的参数θ的指数移动平均（EMA）ξ=mξ+（1 − m）θ，（2）其中m[0，1]是衰减率。每个客户端训练E个局部epoch，然后上传模型更新到服务器。之间的通信协议3.4. 通信协议FedU需要服务器和客户端之间的双向通信。在模型上传阶段，客户端将模型发送到服务器进行聚合。在模型更新阶段，服务器将聚合模型分发给客户端，并更新客户端由于FedU使用相同架构的两个模型执行本地训练，因此它导致关于通信协议的重要设计决策：（1）上传哪个编码器（在线或目标）用于聚合？(2)使用来自服务器的聚合编码器更新哪个编码器（在线、目标或两者）我们分析了编码器和hy-对于全局编码器f并利用DAPU动态地ϕk∈Stθ端k∈St公司简介、（1）49162---θ−测量Div ergence−KK期望聚集和更新在线编码器。目标编码器是在线编码器的指数平均值，表示客户端的历史表示。在线编码器在每个训练步骤中不断从反向传播更新，表示客户端的最新表示虽然这两个编码器捕获本地数据的特点，我们认为，最新的表示学习的在线编码器更代表本地数据分布。因此，上传用于服务器聚合的在线编码器可以更好地捕获非IID数据的特征。在模型更新阶段，在线编码器也起着重要的作用。服务器端聚合的全局编码器因子是来自客户端的编码器因子的平均值，因此具有较好的通用性。由于目标编码器为在线编码器产生回归目标以进行对比，因此我们不应仅用更一般的全局模型f来更新目标编码器，因为这将降低其提供局部代表性目标的能力更新在线编码器和目标编码器两者都可以工作，但是这意味着每个客户端的本地训练需要再次使通用全局模型适应非IID本地数据。因此，我们仅用全局编码器fθ更新在线编码器fθ，同时保持目标编码器的参数以用于稳定的回归目标。我们对在线和目标编码器的消融研究（表4）验证了我们的假设-使用在线编码器进行聚合和更新。3.5. 发散感知预测器更新除了考虑通信协议的编码器之外，另一个重要的设计选择是客户端是否应该在每个训练轮中用全局预测器更新预测器。受[38]非IID数据导致权重发散（图3）的启发，我们提出了一个新的模块，发散感知预测器更新（DAPU），以动态决定是否使用聚合预测器更新局部预测器pθ。我们根据分歧程度做出决定，并将其公式化为：在神经网络[34]中，最后一层捕获与数据集中的特定类和对象最相关的由于客户端中的本地数据是非IID的，因此客户端的预测器pθ简单地使用全局预测器p更新客户端中的预测器可能会对学习产生副作用。而另一方面，总是用本地预测器更新限制了客户端的泛化能力。因此，我们建议仅在散度较小时使用全局预测器p动态更新它4. 实验评价在本节中，我们评估了FedU在CIFAR-10和CIFAR-100 [15]上学习的表示函数的性能我们首先解释实验设置。然后，我们评估了线性评估，半监督学习和转移功能到其他数据集的表示4.1. 实验装置对于线性和半监督评估，我们使用CIFAR-10和CIFAR- 100 [15]数据集。两者都包含50，000张训练图像和10，000张测试图像。CIFAR-10和CIFAR-100分别包含10个类和100个类，每个类具有相等数量的图像。对于迁移学习评估，我们在Mini-ImageNet数据集上进行训练[32]。Mini-ImageNet包含从ImageNet [4]中提取的100个类中的60，000个图像。为了模拟K个客户端，我们将训练集分成K个分区。对于IID模拟，每个客户端包含相同数量的所有类的图像。对于非IID仿真，每个客户端包含 10 个CIFAR-10类和 100 个CIFAR-100/Mini-ImageNet类。实现细节我们使用基于PyTorch [25]框架的EasyFL[39]在Python中实现FedU我们使用K个NVIDIA® V100GPU模拟K个客户端的训练，一个GPU对应一个客户端。服务器和客户端通过PyTorch通信后端进行通信。我们使用ResNet-18和ResNet-50 [11]作为编码器的网络架构，并使用多层感知器（MLP）作为预测器。与其他公平比较pθ= .p¨θr−r−1¨2<µ（三）方法，我们运行实验，K=5客户端为R=pθ否则其中μ是可控阈值。θr和r−1分别表示r轮中的在线编码器和r1轮中的全局编码器的参数当局部编码器参数θr-1用全局编码器更新时r1rr122在局部训练中发生的模型参数的变化。DAPU的直觉是，当散度较大时，客户端用局部预测器pθ更新预测器，并且当散度较小时，用全局预测器pθ更新预测器预测器是在线网络的最后一层。本文在研究卷积100轮训练，其中每个客户端执行E=5lo-在每一轮中的cal时期我们使用阈值μ = 0。4且μ=0。6分别用于CIFAR-10和CIFAR-100实验。对于消融研究，每个客户在R=800轮的每轮中进行E=1个我们使用衰减率m=0。99，批量大小B=128，SGD作为学习率η = 0的优化器。0324.2. 线性评价我们使用CIFAR数据集上的线性评估来评估从FedU学习的表示，遵循[14，8]中描述的线性评估协议：我们首先使用FedU和其他基线训练一个没有监督的4917IID非IID IID非IID方法体系结构参数CIFAR-100单一客户培训ResNet-1811M81.2471.9851.3349.69单一客户培训ResNet-5023M83.1677.8457.2155.16[36]第36话ResNet-5023M68.1064.0639.7538.70联邦CA [36]ResNet-5023M71.2568.0143.3042.34FedSimSiam [2]ResNet-5023M79.6476.7046.2848.80FedU（我们的）ResNet-1811M85.2178.7156.5257.08FedU（我们的）ResNet-5023M86.4883.2559.5161.94上限方法：集中式无监督学习和有监督联邦学习[21]第21话：我的世界23M91.5167.7465.7764.38BYOL [8]（集中式）ResNet-5023M91.85-66.51-表1.CIFAR数据集的IID和非IID设置的线性评价方案下的前1准确度（%）比较我们提出的FedU优于其他方法。它甚至在CIFAR-10数据集的非IID设置上优于监督式联邦学习（FedAvg）CIFAR-10CIFAR-100方法架构参数IID非IIDIID非IID百分之十百分之十百分之十百分之十单一客户培训ResNet-1811M74.7678.0860.2570.6026.3243.0521.9537.70单一客户培训ResNet-5023M74.8080.3363.6574.3025.9145.2923.1841.43FedAvg [21]（超级）ResNet-5023M26.6840.4417.7221.698.095.3714.4713.98[36]第36话ResNet-5023M50.0060.6726.0333.8323.0131.5614.0220.01联邦CA [36]ResNet-5023M50.6761.0228.5036.2823.3232.0916.4822.46FedU（我们的）ResNet-1811M79.4082.6168.2878.5231.3147.6430.3648.80FedU（我们的）ResNet-5023M79.4483.0871.1980.0829.3547.1430.8048.76BYOL [8]（集中）ResNet-5023M89.0789.66--41.4960.23--表2.在半监督协议下使用1%和10%的CIFAR数据集进行微调的前1准确度（%）比较。FedU优于其他方法，除了上限集中式无监督学习（BYOL）。接下来，我们冻结了主干的模型参数，并在其上训练新的分类器用于另外100个时期。以下是比较的方法：（1）单客户端训练：每个客户端使用BYOL [ 8 ]学习500个epoch的本地数据的表示;（2）FedSimCLR：简单地结合联邦学习和来自论文[ 36 ]的SimCLR [1];（3）FedSimSiam ：结合联邦学习和 SimSiam [2] （使用SimSiam 代替我们的方法进行本地训练） ; （ 4 ）FedCA：在[ 36 ]中提出的方法。所有实验都在相同的设置下进行。此外，我们还将FedU与两种潜在的上限方法进行了比较：使用BYOL [ 8 ]的集中式无监督学习和使用FedAvg [21]的监督联邦学习。表1报告了具有不同骨架、数据集以及在IID和非IID设置下的这些方法的性能。结果表明，在线性评价方面，FedU方法优于其他方法。具体而言，它比现有方法FedCA [36]至少高出14%，并且在非IID设置上比单客户端训练高出与理论上的上限方法BYOL和FedAvg相比，FedU优于在非IID CIFAR-10数据上形成它们此外，结果表明，使用更深的主干（ResNet-50与ResNet-18 [11]）。4.3. 半监督学习我们在[35，1]中描述的半监督协议上评估从FedU学习的表示，目标是仅标记一小部分数据的联邦场景。我们考虑两个半监督学习集：1%或10%被标记。我们首先使用FedU和其他方法在没有标记数据的情况下获得表示。然后，代替固定模型，我们使用100个时期的标记数据在半监督协议中使用附加的新分类器来微调整个模型。比较的方法与线性评估部分中定义的方法相似如表2中所报告的，除了半监督评估协议上的集中式训练之外，FedU优于其他使用FedAvg的监督联邦学习仅使用1%或10%的数据，性能很差。在使用CIFAR-10数据集进行评估时，它优于FedCA[36] 在IID数据上超过22%，在4918飞机鸟鹿青蛙轮船汽车猫狗马卡车飞机鸟鹿青蛙轮船汽车猫狗马卡车(a) 啊联机，更新目标(b) 啊目标，在线更新（c）Agg.在线，在线（d）联邦大学图4.从四种方法中学习的表示的T-SNE可视化：（a）聚合在线编码器并更新目标编码器;（b）聚合目标编码器并更新在线编码器;（c）汇总和更新在线编码器;（d）我们提议的联邦调查局。（a）、（b）和（c）总是使用局部预测器，而（d）使用DAPU来动态更新预测器。利用在线编码器（c）的聚合和更新实现了比（a）和（b）更好的聚类结果具有DAPU的FedU（d）进一步改善了结果。CIFAR-100IID非IID IID非IID准确度（%）全球预测当地Pred。随机初始化93.79-70.52-在线在线84.0782.18单一客户培训94.6794.3375.2575.14在线目标9.9919.22[36]第36话94.8793.9771.8570.91在线两81.2418.23联邦CA [36]94.9494.1671.9871.32目标在线82.1078.06FedU（我们的）95.0094.8375.5775.60目标目标9.9925.02[8]第八届全国人大常委会委员长会议-77.02- -一种表3.转移学习协议下的前1名准确度（%）比较：使用ResNet-50从Mini-ImageNet转移到CIFARFedU优于其他基线方法。非IID数据。此外，无论设置如何，它始终优于单一客户端培训约3%。4.4. 迁移学习我们通过评估不同分类数据集上的学习表示来评估从FedU学习到的表示的可推广性具体来说，我们学习了Mini-ImageNet [32]数据集上的表示，并评估了它们可以如何很好地转移到CIFAR数据集。在训练之后，我们对目标数据集上的表示进行了100个epoch的微调。表3比较了使用ResNet-50的迁移学习结果[11]。尽管FedU在CIFAR-10数据集上仅略微优于FedCA，因为即使随机初始化也可以实现相对较好的性能，但它在CIFAR- 100数据集上实现了更好的性能，这是最接近集中式无监督表示学习的。5. 消融研究在本节中，我们对通信协议、发散感知预测更新（DAPU）和FedU的超参数进行消融研究。这些烧蚀提供了对FedU行为和性能的直观了解目标两者82.32 29.03表4.使用在线编码器或目标编码器进行聚合和更新的前1个精度比较两者都意味着更新两个编码器。用全局或局部预测器更新预测器。聚合和更新在线编码器实现最佳性能。5.1. 在线编码器与目标编码器在第3.4节中，FedU上传用于聚集的在线编码器为了凭经验验证该假设，我们使用CIFAR-10非IID设置上的ResNet-50，使用要上传的编码器（在线或目标编码器）、要更新的编码器局部/全局预测器意味着客户端总是使用局部/全局预测器的参数来更新预测器。如表4所示，聚合和更新在线编码器实现了最佳性能，而与预测器的选择无关。此外，我们比较了图4中表示的t-SNE可视化。聚合和更新在线编码器（图4（c））实现了比图4（a）和图4（b）更好的聚类结果。这些结果进一步验证了我们关于客户端编码器行为和直觉的假设目标编码器为在线编码器提供回归目标，因此仅更新它会导致较差的性能。更新在线编码器和目标编码器两者实现了有竞争力的结果，但它不能与最佳性能相比。方法聚合更新4919本地预测全局预测大浦E908070CIFAR-10数据集CIFAR-1008786858483820 0 0的情况。1 0的情况。2 0的情况。3 0的情况。4 0的情况。5 0的情况。6 0的情况。70 8阈值（µ）84838281012345678 9 10局部历元（E）(a) 局部时期86827874700 100 300 500 700 900总轮次（R）(b) 总回合图5.发散感知预测更新（DAPU）的消融研究：（a）将DAPU与总是用局部或全局预测器更新进行比较;（2）阈值分析。5.2. 发散感知预测器更新FedU包含一个新的模块，发散感知预测器更新（DAPU），以动态更新客户端的为了了解DAPU对非IID数据的有效性，我们将DAPU与两种静态更新方法进行比较：总是用局部预测器p θ更新并且总是用全局预测器p θ更新。此外，我们还评估了阈值μ的影响。默认情况下，我们聚集和更新在线编码器。与其他模型更新方法的比较图5（a）表明，在CIFAR数据集上，在非IID设置下，DAPU比其他两种模型更新方法的性能高出约5%。此外，具有DAPU的FedU的表示的t-SNE可视化（图4（d））比总是用局部预测器更新（图4（c））更好。这些结果表明，我们提出的DAPU是有效的和显着的。接下来，我们介绍阈值μ的消融。图5（b）比较了µ值对CIFAR-10数据集的影响。当µ= 0时，FedU达到最佳性能。二、如第3.4节所讨论的，全局编码器是在线编码器的平均值，并且在线编码器在下一轮中用它更新。全局编码器r-1和on-1之间的发散行编码器θr随着训练的进行而减小，因为编码器获得更高的泛化能力并且逐渐收敛因此，存在最佳阈值μ以平衡与局部预测器pθ或全局预测器pθ的更新。一方面，大的μ导致在散度仍然显著时过早地更新全局另一方面，小的μ导致用全局预测器更新太晚。尽管分歧的影响因数据集而异，但这些结果也适用于CIFAR-100数据集（见补充资料）。5.3. FedU分析局部时期E表示准确性与通信成本之间的权衡。我们通过将每个客户端执行的总计算固定为500个epoch来衡量不同数量的E的影响。因此，对于每一轮培训，每个客户端都进行培训图6.分析（a）局部时期的影响和（b）总训练轮次对FedU性能的影响。E在本地进行epoch，然后将模型更新传输到服务器。总通信回合为500。图6（a）示出了精度随着E的增加而降低。较小的局部历元E实现更好的性能，但导致更高的通信成本。在网络带宽不受限制的情况下，我们建议使用E=1作为默认配置，以获得更好的性能。训练回合的影响我们通过固定E=1并将总训练回合R从100变化到800来研究训练回合的影响。图6（b）显示，增加总训练轮数会带来更好的性能。当总训练轮数较小时，准确率的提高尤其显著。在第4节中，FedU优于R=100的其他方法，尽管通过增加R可以进一步提高精度。6. 结论在这项工作中，我们引入了一个新的框架，FedU，从多方学习通用表示杠杆老化分散的未标记的数据。它包括两种简单但有效的方法来解决分散数据的非IID挑战首先，我们设计了通信协议来聚合和更新在线编码器。其次，我们提出了一个新的模块，发散感知预测更新（DAPU），动态地决定如何更新的预测。我们广泛地评估了FedU，并进行消融研究，以说明框架的直觉和行为。FedU在所有评估协议上都优于现有方法。对于未来的工作，我们将考虑在更大规模的数据集上应用FedU，并评估特定的应用场景。我们希望FedU能够鼓励社区在隐私限制下探索从分散的数据中学习视觉表示。鸣谢本研究得到了1）RIE 2020产业联盟基金-产业）; 3）新加坡MoE根据其一级拨款呼吁，参考编号RG 96/20。前1位准确度（%）前1位准确度（%）前1位准确度（%）前1位准确度（%）4920引用[1] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。一、二、六、七[2] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。一、二、六[3] 放大图片作者：Alan M. Sears、Francien Dechesne、Ilina Georgieva、Tommaso Tani和Simone van der Hof。欧盟的个人数据保护政策和实践。Springer，2019年。1[4] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。5[5] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422-1430，2015中。1[6] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。1[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani，M.威灵角Cortes，N.Lawrence和K.Q. 温伯格，编辑，神经信息处理系统的进展，第 27 卷。 CurranAssociates，Inc. 2014. 2[8] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar ， Bilal Piot ， koraykavukcuoglu，Remi Munos，and Michal Valko.BootstrapYour Own Latent -- 自我监督学习的新方法 In H.Larochelle，M. 兰扎托R.哈德塞尔M. F. Balcan和H. Lin，编辑，Advances inNeural Information Processing Systems ，第 33 卷，第21271-21284页。Curran Associates，Inc. 2020. 一、二、四、五、六、七[9] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。一、二[10] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页一、二[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五、六、七[12] 靳一伦，魏夕光，杨柳，杨强。在联邦学习中利用未标记数据：一个调查和展望。arXiv电子印刷品，第arXiv-2002页，2020年。3[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。24921[14] Alexander Kolesnikov，Xiaohua Zhai，and Lucas Beyer.自我监督的视觉表征学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第1920-1929页，2019年。5[15] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 二、五[16] Tian Li ， Anit Kumar Sahu ， Ameet Talwalkar ， andVirginia Smith.联合学习：挑战、方法和未来方向。IEEE信号处理杂志，37：50- 60，2020。1[17] Tian Li ， Anit Kumar Sahu ， Manzil Zaheer ， MaziarSanjabi，Ameet Talwalkar，and Virginia Smith.异构网络中的联邦优化。Proceedings of Machine Learningand Systems，2：429-450，2020。2[18] 李文琪，Fausto Milletar`ı，徐大光，Nicola Rieke，JonnyHancox ，朱文涛， Maximilian Baust ， YanCheng，S e´ bastienOurselin，MJor r geC a rdoso，etal.保留cy的联合脑肿瘤分割。在关于医学成像中的机器学习的国际研讨会中，第133-141页Springer，2019年。1[19] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。1[20] Jiahuan Luo，X

下载后可阅读完整内容，剩余1页未读，立即下载