无源领域自适应：基于样式驱动的分布式联邦学习中的FFREEDA问题解决方法

163 浏览量更新于2023-10-15 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

444跨域和设备学习：基于样式驱动的无源领域自适应算法在分布式联邦学习中的应用Donald Shenaj，1，Eros Fan`Pan，2，Marco Toldo1，Debora Caldarola2，AntonioTavera2，Umberto Ciceli<$，1，Marco Ciccone<$，2，Pietro Zanuttigh<$，1，andBarbara Caputo<$，21帕多瓦大学2都灵理工大学摘要联邦学习（FL）最近出现了一种可能的方法来解决现实世界中的语义分割（SS）的域转移，而不损害收集数据的私有性质。然而，大多数现有的工作对FL不切实际地假设标记的数据在远程客户端。在这里，我们提出了一个新的任务（FF REE DA），其中客户端的数据是未标记的，服务器访问源标记数据集仅用于预训练。为了解决FF REE DA，我们提出了LADD，它通过采用自监督与ad-hoc正则化技术进行局部训练并引入基于客户端风格的新型联邦聚类聚合方案来利用预训练模型的知识。我们的实验表明，我们的算法是能够有效地解决新的任务比现有的方法。该代码可在https://github.com/Erosinho13/LADD 上获得。1. 介绍联邦学习（FL）[49，38，1，31，52，7，36，10]是一个相对较新的研究领域，吸引了越来越多的兴趣。在FL中，学习任务通过若干边缘设备之间的协作来解决，即，由中央服务器协调的客户端当由于法规、法律和道德原则而无法自由共享数据时，这种学习范式非常有用：FL允许训练一个全局模型，而不会泄露用户的数据，保护他们的隐私。例如，FL还构成了一个实用的解决方案，可以通过从不同场景中的多个用户收集的数据来处理现实世界的视觉任务。例如，在语义分割（SS）的情况下，它可以被自动驾驶汽车用于障碍物检测和避免[19]。大多数现有的FL工程假设在客户端上的标记数据的可用性。这种假设显然是不现实的，因为密集像素级注释所需的高成本和大量手动工作[72]。* ：平等缴款。* 平等监督。中央服务器{{未标记的目标数据群集样式1未标记的目标数据群集样式2未标记的目标数据群集样式N图1. FF REE DA概述：具有相似外观的客户端被聚集在一起，同时利用全局和集群特定参数来执行局部学习。客户端在这项工作中，我们专注于自动驾驶应用，为SS引入了一种新颖的、更现实的设置：Federated source-Free Domain A daptation（FF REE DA）.在FFREE DA中，服务器可以在标记的源数据上预训练模型。然而，进一步访问源数据被禁止，如在无源域自适应（SFDA）设置[41]中。客户端仅访问其未标记的目标数据集，不能与其他客户端或服务器共享特别是，我们考虑现实世界的场景与几个客户端，每个有限的图像量。在预训练阶段之后，训练设置是完全无监督的。然而，FFREE DA的目标不仅仅是解决SS中的多目标域适应问题，而是解决FL中出现的特定问题，例如统计和系统异构性[38，51]、通信瓶颈[24]和客户据我们所知，没有以前的作品同时解决这个问题及其相关问题。为了解决FFREE DA问题，我们提出了LADD，一种新的联邦算法，假设存在445隐藏在客户端中的多个分布。举例来说，假设同一城市内的自动驾驶汽车收集类似的图像是合理的事实上，两辆自动驾驶汽车的地理位置接近和不同的天气条件可能会使本地数据集或多或少相似。因此，LADD根据属于每个客户端的图像的风格将客户端划分为聚类，试图将它们与其实际潜在分布相匹配。为了最小化参数重复并提高通信效率，LADD将模型的参数分成共享的、跨所有客户端全局聚合的以及仅跨同一集群内的客户端聚合的集群特定的参数，如图1所示。1.此外，LADD在预训练阶段充分利用了源数据集的风格转移数据增强[71]，随机加载源图像中的目标风格以模仿目标分布。最后，LADD还通过ad-hoc伪标记策略利用自训练，并使用正则化技术稳定训练。由于FFREE DA是一个新的设置，我们从其他设置中调整了几个基线。LADD优于所有基线，显示了为建议设置设计特定算法的重要性。总结如下：• 我们介绍了FFREE DA，一个新的SS任务FL，我们放弃了不切实际的假设，密集的标记数据在客户端。• 我们提出了两个现实的基准，基于 MapillaryVistas [53]和CrossCity [13]数据集。• 本文提出了一种基于风格转换和聚类的新的联邦算法LADD，该算法跟踪FFREE DA。• LADD在所有基准点上均表现出色，具有源数据集（GTA 5 [56]）和三个不同的目标（Cityscapes[15]，CrossCity，Mapillary），并在客户端之间进行了多样化的数据分割。2. 相关工作语义分割（SS），即，使用相应的语义类别对图像的每个像素进行分类，在许多用例中是一个重要的挑战，例如自动驾驶汽车[20]。现有技术的SS模型依赖于基于CNN的编码器-解码器架构[44，11，12，74，59，25]或变压器[17，43，14，68]来生成密集预测。这些方法通常假设一个简化的集中式设置，其中整个训练数据集在中央服务器上可用。然而，由于隐私和效率限制，这并不总是可能的，并且必须考虑分布式训练解决方案。域适应（DA）。作为一个复杂的结构化预测任务，SS通常需要昂贵的密集型标注。最近，越来越多的方法[63，16]通过在虚拟环境中生成的合成数据上进行训练来解决这个问题[56，57，2，62]。尽管如此，在这些数据上训练的模型无法推广到现实世界因为模拟分布和真实分布之间固有的域偏移。DA旨在减少模型训练的源域和目标域之间的当目标数据未标记时，这被称为无监督DA（UDA）。最初，DA方法试图通过测量域发散来缩小差距[45，66，58]。另一个流行的方向是adversar-ial训练[65，48，50]，其中包括分段网络和在min-imax游戏中竞争的域节点。其他应用程序试图通过采用图像到图像转换算法来生成用其他域的风格修改的图像来减少域偏移[27，55，64]。由于这是一项耗时的技术，因此引入了一些不可训练的风格翻译算法，现代方法[40，76，4，28]使用自学习技术从目标数据创建伪标签，即使在每个客户端观察其未标记域的联合场景中，也可以对模型进行微调。FL的主要挑战FL中的客户端具有不同的硬件能力（系统异质性），并且它们的数据可能属于不同的分布（统计异质性）。此外，客户端-服务器通信应该是有效的[24]，必须通过防止服务器访问客户端的本地数据来保护隐私FL中的视觉任务。由于其在现实世界中的许多应用及其在管理敏感数据方面的潜力，FL [49]最近引起了研究界的兴趣[36，30，73]。然而，大多数研究论文集中在FL的理论方面[38，31，1，47]，忽略了它对更复杂的视觉任务的应用，例如，SS和现实场景，例如，异构域数据和在客户端观察到的未标记数据。一些例外是[52，19，8]，其在自动驾驶的背景下研究FLSS和FL，以及[61，39，5，70，69]利用医学图像。它们的主要局限性是假设有标记的数据可用的在[47]中，作者从强有力的理论假设中处理了新的无监督FL设置，同时只关注简单数据集的分类任务，[34][32][34][35][36][37][38][39] 专注于SS，并提出了一种更现实的方法，[72]引入了FMTDA（联合多目标域自适应）来处理具有属于不同分布的未标记目标本地数据集的少数客户端，同时在服务器端维护开放访问的标记源数据集。受这项工作的启发，我们研究了SFDA [42]的更复杂的设置，其中源数据集仅在预训练阶段在服务器上可见，并且对客户端不可此外，我们研究了一个更现实的情况下，更多的客户端合作的培训，但access少得多的数据。和FMTDA一样，我们假设客户端的场景446f在D上的适应初始化：聚类模型fc（wc）=f（w）和教师gc（wgc）=f（w）对于每一轮t∈[T]，对于k∈ Kt，随机抽取KtK。令c：=ΓC（k）。设fk（wk）=fc（wc）01 - 02 -2016刘晓波（t tKKf，g，f，D）（第二节）4.3）不KCK←聚合全局电话+1tkθ←群集c内的聚集θ电话+1不CK如果tmodω0，则如果t≥tSTART，则g（w）=SWA电话+1TU PDATE G1999年12月15日4.3），Σ不C cGC其g（w）=f（w）<$c∈Ct tCGCcCKKS|D|KKD∼|K|XYKk我KQ QQD∈KDKDKKKk我K其中随机样式从集合Ps=Ps.D PPCKDP ∈ K∈{−}由自主车辆在不同地理位置收集的信息可能具有不同的天气或光照条件，或者可能不显示某些语义类别。FL中DA的研究（UDA和SFDA）仍处于早期阶段：[75]利用UDA技术进行人脸识别，[54]通过对抗性方法处理域转移，而[72]将每个客户端视为不同的目标域。据我们所知，这是第一次将SFDA调整为FL。除SS和DA外，FL中视觉任务的其他见解见[3]。FL（CFL）的缩写。在现实世界的上下文中，用户的子集通常共享一些共同的特征：例如，在附近地理位置的用户经历具有相似建筑或天气条件的城市。因此，客户端可以被划分为集群，每个集群代表一组特定的条件，我们将其与相应的风格相匹配[33]。这种方法属于CFL的文献[60]，其中聚类通常用于构建在特定兴趣子域中工作良好的个性化模型[18，23，9]。不同于算法一：LADD（Learning Across Domains and Devices）要求：源（标记）数据集DS，客户端k∈K，目标（未标记）数据集DT，全局模型f（w）=f（{θ，θ}）客户群f在S上的预训练提取样式对于每个k，定义基于样式的聚类（参见算法2）S带风格-从S=k∈K不这些方法，我们集群客户端的基础上的风格前，从每个客户看到的未标记样品中提取。w=argmin（1）不L（w）k∈[ K]3. 问题设置在本节中，我们正式提出了联邦源自由域自适应（FFREE DA）设置。其中Lk是局部损失函数，DT=S4. 方法k∈K DT.给定一个中央服务器和所有客户端的集合，与=K，输入空间，输出空间和Np个像素，数据集区分如下：源数据集S保存在服务器端，由成对的图像和分割标记（xS，yS）PS（x，y）组成，其中x和y是遵循分布PS的随机变量，与xS∈X和yS∈YNp; K个目标训练数据集DT ={xT∈ X<$i∈ |DT|}都是本地的在本节中，我们通过详细介绍预训练策略（第二节）来详细描述我们的FL算法。4.1），聚集（第4.2)和适应技术（第二节）。4.3）。该过程总结在图1B中。2和算法1。4.1. 服务器预培训LADD的第一步是对标记的源数据集DS的预训练阶段。在训练之前，把款式客户端k[K]：=0，1，... K1和xTPT（x）。根据SFDA场景的定义，源数据集和测试数据集共享同一组类别=S=T.至于联邦设置，K相当大，本地数据集在大小和分布方面都不同，但通常具有比源数据集小得多的大小因为使用者可能有一些共同的特征-对于某些情况，可能发生PT（x）=PT（x）源图像和目标图像之间的距离更近，预训练模型的泛化，我们应用FDA [71]风格的转移技术。首先，客户端具体来说，第k个客户端从其每个图像中提取风格sk，由位于该图像的幅度谱中心的宽度为ls的窗口给出[71]，即代表了锦洪k，h[K].我们假设局部数据集是从相同的元分布中提取的，该元分布包含G个潜在视觉域（例如，不同的城市），并且每个T仅包含来自G个潜在域之一的图像。测试数据集最低空间频率系数。关键的是，这些系数不包含场景内容的相关信息，因此不会破坏用户从客户端k提取的样式池Ps通过发送不测试遵循目标分布PT，并用于评估-其表现形式的多样性，即： Ps={s<$k}。上评估跨域和设备学习的最终模型给定模型f（w）：X →RNp×| Y|参数化目标数据分布T（x），它在服务器端，在源数据集DS上训练随机初始化的模型f（w），从而增强源图像k∈KKP可以通过最小化适当的损失函数来实现，即：值得注意的是，这些风格从未在客户端，甚至一些图像就足以计算W|DT|通过w，全局目标是获得最佳分割SK447SILHOUETTE SCORE（C，a，b）C| |σ=K返回bk−akmax（a）K K，b ）如果|Γ（k）|>1，0否则，则k∈KC1K k∈KΣσkKCCPDDn∈[N]doKRsC锦洪Cn ∈ C∀∈ CKKKKK KKH=arg minrsH∈k∈KKH返回1|ΓC（k）|−1h∈ΓC（k），h∈ C=kd（k，h）KKKKKKKC斯KKK∪ ∩∅1. 风格转移和预训练2.基于样式的聚类3.培训4。服务器端聚合图2. LADDoverervi e w（最佳颜色）。1）每个客户端ke提取其本地数据的平均类型skT使用F D A。在服务端，应用于源数据集在有监督的预训练期间。 2)客户端根据他们的风格。3)在客户端侧，集群特定的老师g_c输出用于训练的伪标签，利用来自预训练模型的KD。4)在服务器端聚合时，我们区分全局参数（θt+1）和特定于集群的参数（θt+1）。在每一个客户端上。一旦预训练阶段完成，就不再使用源数据集。4.2. 基于样式的聚合在真实的FL设置中，不同的客户端可以观察到类似的样本，例如，同一地区的自动驾驶汽车可能会收集类似的图像，并且在服务器聚合期间不会受到统计异构性的影响对算法二：聚类选择算法。设d（·，·）为L2-范数算子.要求：客户端k ∈ K，目标数据集DT k∈ [K]，函数Γ将每个客户端分配给C个集群中的一个。超参数n，m，N ∈ N0，m

下载后可阅读完整内容，剩余1页未读，立即下载