没有合适的资源?快使用搜索试试~ 我知道了~
6484分布式领域泛化与自适应吴桂乐和龚绍刚伦敦玛丽女王大学{guile.wu,s.gong} @ qmul.ac.uk摘要当代的领域泛化(DG)和多源无监督领域自适应(UDA)方法大多从多个领域一起收集数据以进行联合优化。然而,这种集中式训练范式对数据隐私构成了威胁,并且在数据不跨域共享时不适用。在这项工作中,我们提出了一种新的方法,称为协同优化和聚合(COPA),其目的是优化分散DG和UDA的广义目标模型,其中来自不同域的数据是非共享和私有的。我们的基础模型由一个域不变特征提取器和一个特定于域的分类器的合奏。在迭代学习过程中,我们为每个域优化局部模型,然后集中聚合局部特征提取器并组装特定于域的分类器以构建广义全局模型,而无需共享来自不同域的数据。为了提高泛化的特征提取器,我们采用混合批量实例规范化和合作的冻结分类器。为了更好地去中心化UDA,我们进一步引入了预测协议机制,以克服局部差异,向中央模型聚合。在五个DG和UDA基准数据集上的广泛实验表明,COPA能够实现与最先进的DG和UDA方法相当的性能,而无需在模型训练中集中收集数据。1. 介绍深度神经网络在过去十年中取得了显着进步,并在许多视觉识别任务中取得了令人鼓舞的性能。然而,由于训练数据和测试数据之间存在数据偏差[33](a.k.a.域移位[28]),用来自一些源域的标记训练数据精心优化的模型通常在新的目标域上遭受显著的性能下降要解决此问题,域一般-[52,40,15]和无监督域自适应UDA(UDA)[35,38,26]的研究,其目的是将在源域上学习的模型推广到新的目标域。传统上,DG和UDA可以使用单个源域通过对抗性数据增强或域对齐进行泛化学习[37,25]。但是真实世界的数据通常是在不同的条件下从不同的域收集的(例如,风格和环境),因此最近的研究更多地关注多源DG [15]和UDA [26],产生更好的泛化性能。在这项工作中,我们还专注于多源DG和UDA。当代多源DG [31,47,50]和UDA [2,26,51]共享从多个域收集训练数据以联合优化广义模型的假设。虽然DG专注于在看不见的新目标域上直接部署,但UDA利用来自目标域的未标记数据来进一步减少域差异。然而,当由于数据隐私或存储/传输限制而不能共享来自不同域的源数据以用于联合训练时,这种集中式模型学习范例不适用为了解决这个问题,最近的几项研究[27,7]求助于联邦学习[21,12],通过联邦对抗训练[27]或知识蒸馏[7]来开发分散的UDA。然而,这些方法严重依赖于未标记的目标域数据来学习全局模型,并且未能解决更具挑战性的分散DG问题。在这项工作中,我们研究了分散DG和UDA的问题,其目的是通过分散学习优化广义目标模型与来自多个域的非共享数据。为此,我们提出了一种新的方法,称为协作优化和聚合(COPA)。图1说明了我们的方法。对于去中心化DG(步骤1、3和5):在每个源域(步骤1)中,我们优化局部模型,其由以下组成:域不变特征提取器和特定于域的分类器的集合,使用非共享的和私有的局部训练数据。接下来(步骤3),我们集中聚合局部特征提取器作为全局域不变特征6485权重1n①本地培训来源#1C1②中央一致性计数(域适配)C③中心聚集C1F1X1,Y1本地标记源数据X1,Y1F1Non-S来源编号n1FCt预测一致性C1型号F C聚集t nFnCt④微调(领域自适应)中心未标记的Xu目标数据特征F1萃取器C1分类器FXn,YnFnnCnXu预测一致性C1Xu,YpFtCt冷冻分类器⑤用全局模型图1. 概述了分布式DG和UDA的协同优化和聚合(COPA)方法。在分散式DG中,迭代地执行步骤1、3和5,而在分散式UDA中,迭代地执行步骤1-5(利用来自目标域的中心未标记数据)。注意,来自不同域的源标记数据是非共享的,并且Ct仅针对UDA存在。提取和组装特定于领域的分类器作为分类器的集合。它们一起表示广义的全局模型,该全局模型然后用于更新局部模型以促进协同优化(步骤5)。对于去中心化的UDA(步骤1-5):给定来自目标域的附加未标记训练数据,我们集中测量局部模型之间的预测一致性(步骤2),以生成用于模型聚合的权重和用于模型微调的伪标签(步骤4)。这种协作优化和聚合过程是迭代的,它使我们能够学习分散DG和UDA的通用全局模型,而无需跨域共享本地数据。捐款. 我们提出了一种新的方法,称为协同优化和聚合(COPA)重新解决分散DG和UDA问题。这与传统的集中式DG和UDA方法[31,51,26]不同,集中式DG和UDA方法将来自不同领域的数据收集在一起进行联合训练。我们优化域不变的特征提取器的中心聚集和域特定的分类器的中心集成。这种方法能够在域不变特征表示和域特定分类信息之间这不同于不加区别地聚合局部模型的所有参数以构建全局模型[21,27,7]。为了更好地去中心化UDA,我们进一步引入了一个预测协议机制,以促进中央模型聚合。我们在五个DG和UDA基准数据集上进行了广泛的实验,并表明COPA分散式学习方法能够实现与最先进方法相当的性能。2. 相关工作领域泛化和无监督领域自适应。Domain Generalization(DG)的目标是生成将在源域上学习的模型推广到任何未看到的目标域。流行的方法包括通过对齐源域数据分布来学习域不变表示[16],优化域特定的归一化[31],合成数据以增强源域[50],采用情景训练来提高网络对域移位的鲁棒性[15]等。无监督域自适应(UDA)与DG密切相关,但使用未标记的目标域数据来桥接源域和目标域。UDA 最 流 行 的 方 法 之 一 是 基 于 最 大 平 均 差 异(MMD)[3,18]来减少分布发散。另一种有前途的方法是使用对抗训练[45,34]进行源域和目标域的特征对齐。由于DG和UDA密切相关,一些研究[22,51]还提出为DG和UDA开发一个统一的框架例如,Zhouetal. [51]采用领域自适应集成学习与一致性正则化,建立一个统一的框架(DAEL)的DG和UDA。我们的方法(COPA)与传统的集中式DG和UDA方法的显著不同之处在于:(1)COPA通过分散式学习而不跨域共享源数据来保护数据隐私,而大多数现有方法使用集中式训练范式而没有隐私问题;(2)COPA使用非共享训练数据优化每个域中的局部模型,并集中聚集局部模型以构建广义全局模型,而不是使用共享模型与来自不同域的收集数据进行联合优化[31,52,44,35];(3)COPA改进了具有混合批量实例归一化层[20]和多个分类器的协作的域不变特征提取器的泛化,而不是情景训练[15]或一致性正则化[51]。联邦学习 联邦学习[21,12,39]是一个分布式的学习范例来优化一个...C1C1...重量#1重量#n...CtXuC...6486i=1i=1i=1i=1i=1-- i=1··i=1--------联系我们关于我们联系我们--模型与多个本地客户端模型协作,而无需共享本地数据,以保护隐私的方式实现分散式学习。FedAvg [21]是实现联邦学习的最流行的方法之一,它相对地平均局部模型更新以构建中心模型。该方法简单有效,可以提高通信效率。提议的COPA共享FedAvg的原理,但是:(1)不是聚合局部模型的所有参数来构建全局模型,而是优化域不变特征提取器以用于更有选择性的中心聚合和域特定分类器以用于中心集成;(2)COPA中的源数据来自不同的域,具有域移位,而不是来自同一数据集的不同数据分区。从多个领域分散学习。随着对数据隐私的认识,最近的一些作品[27,41,7]研究了视觉识别中多个领域的分散学习。在[27]中,提出了一种具有特征解纠缠的联邦对抗域自适应方法,以解决分散式UDA的域偏移。在[41]中,引入了一种联邦人员重新识别方法,通过知识蒸馏和模型聚合来优化可推广的嵌入模型。在文献[7]中,提出了一种基于知识蒸馏的联邦学习方法,用于分散式UDA。 我们的方法与这些方法的不同之处在于:(1)不是聚合局部模型的所有参数[27,7]或学习通用的中心特征嵌入模型[41],而是优化用于中心聚合的域不变特征提取器和用于中心集成的特定于域的分类器,以更好地解开和选择不同领域之间的知识转移;(2)我们改进了混合批处理特征提取器的泛化。实例规范化层用于中央微调的域。3.1. 方法概述我们在图1 中 描述 了 所提 出的 协 作优 化 和聚 合(COPA)图1示出了图1的示例,其中分散式DG通过步骤1、3和5完成,而分散式UDA通过步骤1-5完成。具体地,利用X i、Y in,我们为每个域训练局部模型Fi、Ci(步骤1),其中Fi和Ci是第i个域的特征提取器和分类器。在针对m个局部时期训练局部模型之后,我们集中地聚合F in的参数以构建全局域不变特征提取器F t,并且集中地组装C in以构建特定于域的分类器的集合(步骤3),其中F t,C in形成一个全球模型。 全球模拟 用于更新局部模型以便于局部优化(步骤5)。 该过程迭代地执行g次全局迭代(迭代步骤1、3和5),以优化用于部署的广义全局模型。在去中心化UDA中,利用来自目标域的未标记数据Xu,我们另外使用Xu来测量局部模型之间的预测一致性(步骤2),以执行Fin的加权聚集并生成伪标签Yu以用于微调Ft、Ct(步骤4)。因此,用于UDA的迭代学习过程由步骤1-5组成,从而得到全局优化。模型{F t,{C i}n,C t}。3.2. 局部模型协同优化在每个源域中,利用标记的训练数据{Xi,Yi},我们使用交叉熵损失Lce(Xi,Yi)来优化{Fi,Ci},公式化为:1ΣL(X,Y)=l(y,C(F(x))),(1)和特定领域分类器的协作,而不是知识蒸馏[41,7];(3)我们引入了一个预测西一你测你我x∈Xi,y ∈Yi协议机制,以促进去中心化UDA的协作模型优化,而不是仅平均模型以学习通用全局嵌入模型[41]。3. 方法问题陈述。 在这项工作中,我们的目标是优化 一个分布式DG和UDA的多域非共享数据的广义模型。给定n源域({联系我们其中Lce(,)是交叉熵损失函数。然而,与传统的集中训练模式不同 X i,Y in中的非跨域共享去中心化学习,所以我们不能用来自不同领域的数据联合优化模型。因此,每个局部模型只学习特定于域的信息。为了解决这个问题,我们使用混合批实例规范化层过滤出Fi中的特定于域的信息,并通过协作进一步提高Fi冻结分类器{Cj′}nI.X1,Y1,… X n,Y n),其中每一个都-主Xi,Yi包含Ni个标记样本Xi,其中K类且Yi= 1,…,K,我们分别维护来自每个域(本地和非共享)的源数据,用于本地模型训练。 在分散DG中,广义全局模型在不共享本地源数据的情况下被优化,也不使用来自目标域的任何未标记数据进行微调。在去中心化UDA中,全局模型也不能访问本地源数据,但具有来自目标的未标记样本Xuj=1,j=学习域不变表示。 例如标准化已经显示出过滤特定于域的信息的有效性[24,20,31]。然而,直接使用实例归一化代替批量归一化将丢失通过批量归一化学习的有用统计信息,从而导致视觉识别的显著性能鉴于此,我们使用混合批实例规范化层[20,31]来替换6487L−§Lω=Ji=1i=1i=1i=1Σj=1,jj=1,j j=1,jj=1,j=i,jb,i,j,σ2=i,jb,i,jin 、µbn=b=1,σ2=b=1ininbn。nαi=1。设置αi=1表示本地模型nBNΣ∈Σj=1,j =--′联系我们对于集中聚集同样重要。 这里,一个白色的特征提取器中的批量归一化层。具体来说,我们将批量规范化与实例规范化结合起来,如下所示:最佳性能 为了解决这个问题,我们使用Ran-dAugment[4]来增强输入样本A(X i),并计算每个冻结分类器的交叉熵损失(类似于等式1)。(1)),而C i仍然在X i下训练。h−(ωbn µbn+ωinµin)(二)标准扩增 请注意,与直接en不同-h=γ√ω′2+ωi′n+β,2在使用数据增强来扩大数据集,[51]使用RandAugment进行优化,具有一致性规则-其中h,hRB×E×W×H是作用于i的子(具有批次大小B、通道数量E、宽度W和高度H),γ和β是仿射参数,ε=1e5是数值稳定性,μ和σ2是均值和方差(定义为等式(3))、ω和ω’是对用于批量归一化和实例归一化的均值和方差的混合进行加权的比率化,我们使用RandAugment为F i生成4.3用于评估)。因此,第i局部模型被公式化为:n(定义为Eq。(四))。ΣH,WhΣH,W(h- µ)2Li=Lce(Ci;Xi,Yi)+j=Σ1,j/=iL′c e(Cj′;A(Xi),Yi). (五)在硬件中BµinBbneλi我在ΣB(σ2eλjHW+µ2)−µ2Be {},(三)在为m个局部时期训练局部模型之后,我们执行中心聚合以学习全局模型。在去中心化DG中,既没有来自目标域的未标记数据,也没有来自源域的集中收集数据,因此ω=j∈{in,bn}埃λ'i我j∈{in,bn},而i在,bn中eλ’,且i∈{in,bn},(四)我们不对全局模型进行微调。在去中心化UDA中,存在来自目标域的未标记数据,用于学习预测一致性和微调模型。没有未标记目标数据的分散DG 一其中λ和λ’是可学习的参数。注意,与学习DG的特定于域的混合归一化层的[31](2))通过学习用于中心聚集的域不变特征提取器,同时将域特定信息编码到组装的分类器中。冷冻分类器的协作。由于每个域是非共享的,因此我们不能使用来自不同域的数据来联合优化共享特征提取器。然而,通过特定于域的分类器的集合,我们可以通过鼓励Fi生成“新”分类器和“新”数据的域不变表示来改进特征提取器Fi具体而言,在我们的设计中,全局模型和局部模型都使用多头架构。如图所示。1、当接收到-同时从全球模型和本地模型集中聚合的一种简单方法是将局部模型的所有参数平均为FedAvg [21]。然而,这种均匀聚合方法损害了域不变特征提取器和域特定分类器的优化。为了解决这个问题,如图所示 1(步骤3),我们将模型参数Θi的 F in构造具有模型参数Θ t的全局域不变特征提取器Ft(公式化为Eq. (6))和组装结构域-特定分类器以创建集合{Ci}n。因此,全局模型被公式化为{F t,{C i}n}。nΘt←αi·Θi,(6)i=1其中αi∈[0,1]是集合Fi的权值,且更新为{Fi,Ci,{Cj′}n/=i},其中{Cj′}n/=i是噪声[9]可以添加到等式。(六)进一步保护原其他领域的冻结分类器这里,{Cj′}nI=ivacy反对攻击。 然后,我们使用全局模型重新-初始化每个本地模型,这有助于间接地被冻结,因为我们没有来自其他领域的数据来训练这些领域特定分类器,但是由于它们对于Fi是这与DG[15]的情景培训具有相同的优点,但采用分散的培训范式,而不是情景培训。然而,由于Fi与域特定的Ci同时优化,因此直接将相同的特征表示将来自其他领域的知识移植到每个局部模型中,并促进随后的模型聚合。我们迭代地优化局部模型和全局模型(图1)。1步骤1、3和5)。具有未标记目标数据的去中心化UDA。如图1,在去中心化UDA中,我们将步骤2和4添加到迭代学习过程中,以利用未标记的目标通过Ci和{Cj′}n的句子/=i将导致子-更好地聚合和优化数据。具体地说,BNσσµ3.3.全局模型优化和聚合我得到其他领域特定的分类器,即,局部模型联系我们Σ6488i=1我我--i=1i=1i=1ΣinΣeL我n我 我J我2:对于i= l:n,do/*第i 个本地源域 */第六章计算我通过nj=1,jCj′(Fi(A(Xi)我ncej=1,jJ我i=1我Zj¯i--7:用Li训练局部模型(等式7)(五))当收集局部模型时,我们使用它们来响应算法1所提出的用于分散式DG的COPA。针对Xu中的每个样本x,有效地生成预测p,i,如下:输入:n个源域{Xi,Yi}n,n个局部模型n{Fi,Ci,{Cj′}n i}n,全局模型{Fi,{Ci}n}。j=1,j =i=1i=1p(x)=1。C(F(x))+ ΣC′(F(x))Σ.(7)1:对于G=1:g do/* 全局迭代 */这种预测是一个集合的预测之和,因此它更可靠,并且可以用于生成伪将y标记为x。有三种方式来基于{pi(x)}n生成x的伪标签:(1)使用最置信的预标记。3:用全局模型更新局部模型(步骤5)4:对于M= l:m进行/* 局部训练(步骤1)*/5:通过Ci(Fi(Xi))计算Lce{pi(x)}i中的最大概率预测;(2)计算{pi(x)}n的平均值并使用最大8:结束9:通过聚集构建Ft(等式10)(6))(步骤3)概率预测;(3)计算每个pi(x)n的最大概率预测并使用最频繁的预测。在实践中,我们只生成伪标签,如果10:组装{Ci}n11:结束分类最大概率大于阈值(例如,0.95)。同时,我们统计每个局部模型的预测一致性(Z i)的数量:如果第i个模型的预测与伪标签y一致,则我们将1加到Zi,输出:广义全局模型{F t,{C i}n}。算法2所提出的用于分散式UDA的COPA输入: n个源域{X,Y}n ,n局部模-其指示第i个模型的正确预测。Af-elsni ii=1n个,全局模型测量与所有样本在Xu中的预测一致性之后,{Fi,Ci,{Cj}j= l,ji,Ct}i=1a我们计算聚合权重αi如:{Ft,{Ci}n,Ct},未标记的靶结构域Xu。eZα=j=1ZZ¯j,且Zi=n。j=1(八)1:对于G=1:gdo/* 全局迭代 */2:对于i= l:n,do/*第i 个本地源域 */3:用全局模型更新局部模型(步骤5)4:对于M= l:m进行/* 局部训练(步骤1)*/等式(8),αi反映了Fi对于目标的推广5:通过Ci(Fi(Xi))计算Lce域,这有助于更好地聚集在方程。(六)、在中心聚合之后,我们进一步使用X具有伪第六章计算L′关于Σ{n,t}C′(Fi(A(Xi)u标签Yu以用交叉熵损失来微调Ft、Ct,其中Ct是目标域的域特定分类器。与局部模型训练类似,冻结分类器{C′}n也被用来改进Ft的推广7:用Li训练局部模型(等式7)(五))8:结束9:计算聚合权重α i(等式9)(8))(步骤2)10:通过聚集构建Ft(等式11)(6))(步骤3)11:组装{C}n以进行分类具有增强的样本和交叉熵损失。因此,用于中央微调的训练目标t类似于Eq.(五)、注意,与分散式DG相比,分散式UDA中的局部和全局模型都具有ad-12:获取Xu的伪标签13:用Lt微调全局模型(步骤4)14:结束输出:广义全局模型{Ft,{Ci}n,Ct}。另外的分类器Ct,以进一步促进模型学习。摘要通过局部模型和全局模型之间的迭代协同优化和聚合,COPA实现了分散的DG和UDA,而无需将源数据收集在一起进行联合训练。我们总结了算法1中分散DG和算法2中分散UDA的COPA训练过程。4. 实验为了评估所提出的COPA,我们进行了广泛的实验,五个DG和UDA基准数据集。4.1. 与SOTA在DG基准上的比较数据集。PACS[14]是一个具有挑战性的DG数据集,由来自四个领域(艺术绘画,卡通,照片和素描)的七个对象类别组成,具有较大的领域差异。j= l,j/=i我我i=16489i=1Office-Home[36]包含来自四个领域(艺术,剪贴画,产品和现实世界)的65个日常对象类别的约15,500张图像。Digits-DG[50]由四个具有不同字体和背景的数字数据集(MNIST [13],MNIST-M [8],SVHN [23]根据以前的DG作品[50,31,51,40,15],我们采用leave-one-domain-out协议进行评估,通过选择一个域作为未见过的新域进行测试,同时使用剩余的域作为训练的源域。但与传统的集中式训练模式不同,在分散式DG中,每个源域仅用于训练局部模型,既不与其他域混合进行联合训练,也不与中央模型共享进行微调。这种分散的方法保护了源6490·××·范式方法艺术 CLP PRDrelAvg脊柱[51]58.9 49.4 74.3 76.264.7CCSA [22]59.9 49.9 74.1 75.764.9CrossGrad [32] 58.4 49.4 73.9 75.864.4集中JiGen [1]53.0 47.5 71.5 72.861.2无隐私DAEL [51]59.4 55.1 74.0 75.766.1关切L2A-OT [50]60.6 50.1 74.8 77.065.6DDAIG [49]59.2 52.3 74.6 76.065.5DSON [31]59.4 45.7 71.8 74.762.9MixStyle [52]58.7 53.4 74.2 75.965.5分散COPA(我方)59.4 55.1 74.8 75.066.1表1.与使用ResNet-18的PACS上最先进的DG方法进行比较。请注意,集中式方法和分散式方法不是直接竞争对手,因为它们使用不同的培训范式。我们报告了艺术绘画(艺术),卡通(猫),照片(照片)和素描(skt)的留一域结果,以及它们的平均结果数据隐私,尽管它可能导致准确性降低。实施详情。在PACS和Office-Home上,下面[50,51,31],我们使用在ImageNet上预训练的ResNet-18 [11]作为特征提取器的主干,并使用全连接层作为分类器。在PACS上,我们在特征提取器中用混合批实例归一化层 替 换 所 有 BN 层 与 批 量 归 一 化 相 关 的 参 数 使 用ImageNet预训练的权重进行初始化。 我们使用SGD作为动量为0的优化器。9和重量衰减5e-4。 初始学习率设置为0。002,衰减的余弦退火规则[19,51]的每一个全局迭代。我们将批量大小设置为30,局部时期m=1,全局迭代g=40,并且A()作为RandAugment [4](具有Cutout [5])。在Digits-DG上,在[50,49]之后,我们使用四个3 3卷积层,每个卷积层后面都是ReLU和2 2最大池,作为特征提取器和一个全连接层作为分类器。我们在每个卷积层之后插入一个混合批次实例归一化层。我们使用带有动量的SGD作为优化器,并将初始学习率设置为0。05,衰减0。每20次全局迭代1次。训练批次大小为30,局部时期m=1,全局迭代g=50,并且A()是RandAugment [4]。我们报告了五次运行的平均前1精度。与最新技术水平的比较。如表1、2和3所示,尽管所提出的COPA使用去中心化训练范例来进行隐私保护,但是它仍然实现了与使用集中式训练范例而没有隐私问题的现有技术DG方法相当的性能。具体而言,在PACS(表1)上,COPA优于收集所有源数据用于联合训练的集中式主干,并产生85.1%的平均总体准确度,与最先进的重建技术相当表2.与使用ResNet-18的Office- Home上最先进的DG方法进行比较。我们报告了Artistic(艺术),Clipart(CLP ),Product(PRD)和Real-World(rel)的leave-one-domain-out结果,以及它们的平均结果。范式方法MtmmSVsyAvg脊柱[52]95.8 58.8 61.7 78.673.7CCSA [22]95.2 58.2 65.5 79.174.5集中CrossGrad [32] 96.7 61.1 65.3 80.275.8无隐私JiGen [1]96.5 61.4 63.7 74.073.9关切L2A-OT [50]96.7 63.9 68.6 83.278.1DDAIG [49]96.6 64.1 68.6 81.077.6MixStyle [52]96.5 63.5 64.7 81.276.5分散COPA(我方)97.0 66.5 71.6 90.781.5表3.与数字上最先进的DG方法的比较-使用卷积骨干的DG[50]。 我 们 报 告 了 MNIST( mt ) 、 MNIST-M ( mm ) 、SVHN(sv)和SYN(sy)的留一域法结果以及它们的平均结果。苏尔特它类似地,在Office-Home(表2)上,COPA实现了66.1%的平均总体准确度,这优于主干,并且仍然与最先进的DG方法相当。在Digits-DG(表3)上,COPA的性能明显优于主干和最先进的技术,实现了最佳的81.5%平均总体准确度。4.2. 与SOTA在UDA基准上的比较数据集。Digit-Five[26]是用于UDA的数字识别基准,其包含五个数字数据集,即MNIST [13]、MNIST-M[8]、SVHN [23]、SYN [8]和美国邮政。Office-Caltech 10[10]由来自四个领域的10个 对 象 类 别 的 2 , 533 张 图 像 组 成 , 即 Amazon ,Caltech , DSLR 和 Webcam 。 遵 循 先 前 的 UDA 方 法[26,51,27],我们选择一个域作为具有未标记训练数据的目标在去中心化UDA中,标记的源域是非共享和私有的,而未标记的目标域用于中心优化。实施详情。在数字五上,在[26,48,51,7]之后,我们使用三个卷积层和两个完全连接的层(每个层后面都是BN层)作为特征提取器,并使用完全连接的层作为分类器。我们用混合批实例归一化层替换所有2-DBN层。我们将批处理大小设置为范式方法艺术 猫phoSKTAvg脊柱[51]77.0 75.9 96.0 69.279.5Epi-FCR [5]82.1 77.0 93.9 73.081.5JiGen [1]79.4 75.3 96.0 71.480.5MASF [6]80.3 77.2 95.0 71.781.0集中DGER [47]80.7 76.4 96.7 71.881.4无隐私DAEL [51]84.6 74.4 95.6 78.983.4关切L2A-OT [50]83.3 78.2 96.2 73.682.8DDAIG [49]84.2 78.1 95.3 74.783.1EISNet [40]81.9 76.4 95.9 74.382.2DSON [31]84.7 77.7 95.9 82.285.1MixStyle [52]84.1 78.8 96.1 75.983.7分散COPA(我方)83.3 79.8 94.6 82.585.16491×组件艺术猫坡斯格特Avg主干(顺序)43.4 65.0 54.6 60.855.9主干网(集中式)[51]77.0 75.996.0 69.279.5主干(去中心化w/FedAvg[21])76.2 73.8 92.6 68.977.9主干(分散式,不含Iter)68.9 61.4 92.2 51.768.6Copa83.3 79.894.682.585.1COPA,不含HBIN81.4 75.3 95.1 78.582.6COPA,不含CoFC80.3 77.9 94.9 77.882.7COPA(不含Iter)76.0 72.5 94.3 75.479.6COPA,不含Iter HBIN CoFC69.9 64.6 92.4 51.969.7表6. PACS系统的构件有效性评价。'HBIN':混合批实例归一化层。‘CoFC’: Collabora- tion 训练m个时期的局部模型并集中聚集它们一次。表4.与使用卷积主干的数字五上的最先进的UDA方法的比较我 们 报 告 了 MNIST( mt ) 、 MNIST-M ( mm ) 、 SVHN(sv)、SYN(sy)和USPS(up),以及它们的平均结果。范式方法一CDWAvg-甲骨文[7]来源[26]99.786.198.487.899.898.399.799.099.492.8集中式,无隐私问题MDAN [46]DCTN [43]中文(简体)M3SDA[26]DSBN [2]CMSS [44]SImpAI [35]95.492.792.194.593.296.095.691.890.291.592.291.693.794.698.699.099.199.298.999.310098.999.499.599.599.399.610096.195.395.696.495.897.297.5去中心化FADA [27]射击[17]KD3A [7]COPA(我方)84.296.497.495.888.796.296.494.687.198.598.499.688.199.799.799.887.197.797.997.5表5.使用ResNet-101在Office-Caltech 10上与最先进的UDA方法进行比较。我们报告Amazon(A)、Caltech(C)、DSLR(D)和Webcam(W)的结果,以及它们的平均结果。256,局部历元m=1和全局迭代g=30,并使用具有动量的SGD作为优化器。初始学习率设置为0。05与余弦退火规则。在Office-Caltech 10上,继[27,35,7]之后,我们使用ResNet-101 [11]作为特征提取器,并使用全连接层作为分类器。我们使用混合批次实例归一化层来替换第一个BN层和第一个宏块中的BN层(使用ImageNet预训练权重初始化)。我们使用批量大小30,局部历元m=1和全局迭代g=40,并使用SGD与动量作为优化器。初始学习率设置为0。002与余弦退火规则。我们报告了五次运行的平均前1精度。与最新技术水平的比较。如表4和5所示,COPA的性能与最先进的集中式和分散式UDA方法相当。具体而言,在数字5(表4)上,COPA表示cantly优于最先进的分散式UDA方法,平均整体准确率达到95.4%,接近最佳集中式UDA结果(96.5%)。由于Office-Caltech 10是一个只有2,533张图像的小型基准,因此大多数最先进的方法都能获得接近的结果(表5)。COPA的平均总体准确率为97.5%虽然COPA略逊于SHOT [17]和KD3A [7],但这三种方法的平均整体准确率均超过97%,COPA在DSLR和Webcam上取得了更好的效果。4.3. 进一步分析和讨论组件有效性分析。如表6所示,COPA优于集中式联合训练骨干网和分散式骨干网,分散式骨干网迭代地平均局部模型的所有参数以构建全局模型。在局部模型优化中,在不使用混合批实例归一化层(COPA w/oHBIN)或冻结分类器的协作(COPA w/o CoFC)的情况下,COPA的平均总体准确度降低约2%,但仍优于集中式和分散式骨干模型。此外,我们还测试了迭代优化和聚合机制。在表6中,在没有迭代优化的情况下,COPA的性能显著降低,但仍优于骨干(去中心化)。这进一步检验了用于学习域不变表示的组件的有效性。CoFC组分的变体 除了所提出的CoFC(冻结分类器的协作)之外,我们还评估了一些变体,包括:(1)不使用CoFC,(2)使用CoFC但不使用RandAugment,(3)不使用CoFC但使用RandAugment来扩大数据集,(4)不使用CoFC,而是使用RandAugment的一致性正则化[51]。从图2可以看出,COPA w/o CoFC产生最差的结果,并且其性能可以使用RandAug、CR和CoFC来改善。总体而言,所提出的CoFC方法产生最佳性能。范式方法MtmmSVsy起来Avg-甲骨文[51]来源[51]99.599.195.468.192.384.698.789.999.297.297.087.8集中式,无隐私问题MDAN [46]DCTN [43]中文(简体)M3SDA[26][第29话]DSBN [2]MDDA [48]LtCMSDA [38]CMSS [44]DAEL [51]98.096.299.298.499.497.298.899.099.099.569.570.580.772.883.171.678.685.675.393.869.277.681.981.386.477.979.383.288.492.587.486.895.489.695.888.789.793.093.797.992.592.898.396.198.696.193.998.397.798.783.384.891.187.792.786.388.191.890.896.5去中心化FADA [27]射击[17]KD3A [7]COPA(我方)91.498.299.299.462.580.287.389.850.584.585.691.071.891.189.497.591.797.198.599.273.690.292.095.4649285.5(%)84.583.582.581.5100959085COPA(CoFC)COPA(w/o COPA(CoFC)COPA(w/oCOPA(不含80CoFC)不含RandAugCoFC)+RandAugCoFC)+CRmt mm sv sy upCOPA(最大值)COPA(平均值)COPA(最大值)COPA(未达成一致)图2.评价PACS上冻结分类器机制协作的变体(平均总体准确度)。“CoFC”:冻结分类器的协作。‘COPA (w/o CoFC) +Ran- dAugment’:85.5(%)80.575.570.5图4.数字五上不同中心预测一致性方法的评价。'COPA w/oagreeW':而不使用预测一致性权重。组件艺术猫phoSKT AvgCopa83.379.894.682.585.1独立合奏72.355.294.760.270.6Ind-ParamAvg68.961.492.251.768.6DAEL [51](集中式)84.674.495.678.983.4表7. PACS系统集成方法的比较。'Ind-Ensemble':为每个源域独立训练骨干模型,并使用logit集合作为预测。我...65.560.5COPA(HBIN)仅BN仅限COPACOPA(不含HBIN)+IBN-aCOPA(不含HBIN)+IBN-bCOPA,带序列号ParamAvg’:图3.评价PACS上COPA的标准化变体'HBIN':混合批处理实例归一化。“仅COPA BN”:没有HBIN。“仅COPA输入”:使用IN层代替所有BN层。 'COPA w/SN':使用SN [20](HBIN+ LayerNorm)。标准化的变体。如图3.我们评估了几种带归一化层的学习域不变表示的变体。从图3中,我们可以看到:(1)COPA w/ HBIN与COPA w/ SN [20]性能接近,但SN需要更多的层归一化操作;(2)在COPA中仅使用IN导致显著的性能下降;(3)COPA w/IBN [24]也可以产生有竞争力的性能,但仍然劣于COPA w/ HBIN。中心预测一致性分析。在图4中,我们评估了数字5上分散UDA的不同中心预测一致性方法。我们可以看到,COPA(平均值)在不同的数据集上比其他方法表现得更好,除了在MNIST上,所有比较的方法都表现得很接近。总体而言,具有预测一致性权重的COPA优于不使用预测一致性权重的COPA,但在SVHN和SYN上,COPA(大多数)比COPA w/o一致性权重表现更差。我们推测,在SVHN和SYN,大多数本地模型提供不正确的预测与低置信度,导致性能下降的COPA(大多数),这是解决时,使用平均值或最大值的预测。默认情况下,我们使用COPA(平均值)进行去中心化UDA。与包围相比。从表7中,我们可以看到,COPA的性能明 显 优 于 两 种 骨 干 集 成 方 法 (Ind-Ensemble 和 Ind-ParamAvg)。与最先进的集中式集成方法(DAEL[51])相比,即使COPA使用分散式训练范例来保护数据隐私,COPA仍然实现了相当的性能,并且在PACS上产生了更好的平均总体准确度85.1%。5. 结论在这项工作中,我们介绍了一种新的方法,称为协同优化和聚合(COPA)的去中心化域泛化(DG)和多源无监督域自适应(UDA)。其主要思想是使用非共享源数据迭代
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功