没有合适的资源?快使用搜索试试~ 我知道了~
最大化预测分布差异,最小化预测分布差异的领域适应方法SCDA
9102与SCDA最大化预测分布差异最小化预测分布差异领域适应李爽1谢米雪1吕芳瑞1刘驰1 *梁 健2陈勤3李伟41北京理工大学2阿里巴巴集团3爱丁堡大学4英思泰克。shuangli@bit.edu.cnmichellexie102@gmail.comfangruilv@bit.edu.cnliuchi02@gmail.comliangjianzb12@gmail.com陈勤@ ed.ac.ukliweimcc@gmail.com摘要领域自适应(DA)通过将知识从标签丰富的源领域转移到相关但未标记的目标领域,为标签注释和数据集偏差问题铺平了道路DA方法的主流是对齐两个域的特征分布。然而,它们中的大多数集中在不相关的语义信息(例如,凌乱的背景,是不可避免地嵌入。在这种情况下,强制特征对齐将负面地影响对象的正确匹配,并且因此由于不相关的语义的混淆而导致语义上负的转移。为了解决这个问题,我们提出了语义集中域适应(SCDA),它鼓励模型通过预测分布的成对对抗对齐具体来说,我们训练分类器以类方式最大化每个样本对的预测分布散度,这使得模型能够找到同类样本中差异较大的区域。同时,特征提取器试图最小化这种差异,这抑制了同类样本中不同区域的特征,并强调了主要部分的特征。SCDA作为一种通用的方法,可以很容易地集成到各种DA方法中作为正则化器,以进一步提高其性能。在跨领域基准测试上的大量实验表明了SCDA的有效性。1. 介绍深度神经网络(DNN)在各种机器学习问题中取得了巨大成功[17,3,33]。不幸的是,令人印象深刻的性能增益在很大程度上依赖于对大量标记良好的训练数据的访问。在实践中,手动注释足够的训练数据通常是时间和成本过高的。此外,传统深度学习的另一个缺点是在一个特定的深度学习模型上的泛化能力差*通讯作者。适应前适应后训练流程决策边界图1.说明SCDA在宏观层面的对抗过程。训练分类器使配对区域样本的预测分布差异最大化,使决策边界通过配对区域的高密度区域。而特征提取器试图最小化该差异,这将特征推离决策边界。最后,通过分类器和特征提取器之间的对抗性博弈,新数据集,由于域转移问题[2,29,1]。因此,存在利用标签丰富域的知识(即,源域)以辅助相关但未标记的域中的学习(即,目标结构域),这通常被称为结构域适应(DA)。为了缓解域偏移问题,DA的常见通常,这些DA方法可以大致归类为基于差异的方法[23,26,7,12],其通过最小化精心设计的统计度量来对齐域分布,以及基于对抗的方法[8,24,41,37,20,31]。其中域鉴别器被设计为在源样本和目标样本之间进行区分,并且特征提取器试图混淆鉴别器。A类B类源目标配对区A类B类9103虽然这些DA方法已经取得了可喜的成果,他们中的大多数使用的特征编码没有强调,以匹配两个域的特征分布。在这种情况下,不相关的语义信息,例如,杂乱的背景不可避免地被嵌入,这可能负面地影响对象的正确匹配,从而导致语义负迁移。为了缓解这个问题,我们提出通过利用暗知识[49](即,错误的预测)。实际上,SCDA的动机是[53]中的发现,即模型所做的类别预测取决于它所关注的内容,并且每个类别预测的集中区域可以通过特征图和相应的分类权重来定位。因此,我们期望找到错误预测的集中区域,并在预测时抑制这些区域的特征将所述图像编码成特征。为此目的,我们提出以对抗的方式按类对齐成对预测分布,如图所示。1.一、来自两个结构域的相同标记的样品构成每个类别的配对区域样本的配对包括域内配对(即,源域内配对)和域间配对(即,源样本和目标样本之间的配对)。对于相同标签的任何样本对,训练分类器以最大化它们的预测分布差异,而特征提取器努力使该差异最小化。从微观角度看,当特征提取器固定时,最大化样本对的预测分布差异然后,为了减少这种差异,必须抑制这些暗知识的特征,因为在分类器的先前训练中,它们的分类权重变得更大。从宏观角度来看,为了在特征提取器固定的情况下最大化配对区域中的预测差异然后,为了减少差异,特征将被推离决策边界。最后,该模型能够集中在最主要的特征上,并通过最小-最大博弈在类上实现良好对齐的特征。我们的贡献总结如下:本文提出了一种新的DA对抗方法,即,预测分布差异的成对对抗对齐。该方法在对特征进行编码时,可以抑制无关的语义信息,增强类对象的语义,从而达到语义集中的目的。SCDA作为一种简单通用的方法,可以很容易地作为正则化器集成到各种DA方法中,大大提高了它们的自适应性能。大量的实验结果和分析表明,SCDA极大地抑制了不相关的语义在适应过程中,产生国家的最先进的多个跨域基准测试结果。2. 相关工作特征分布对齐。域之间的分布差异对域适应提出了很大的挑战.为了解决这个问题,现有的DA方法可以大致分为两类。一种是基于统计差异的方法,其目的是匹配跨域的各种统计矩[25,26,51,40,18]。例如,MDD [51]引入了边缘差异差异,以减少具有严格泛化边界的分布基于地球移动器另一类受生成对抗网络(GAN)[10]的启发,其旨在通过玩两个玩家的最小-最大游戏来学习域不变特征[8,24,20,41,37,5,52]。例如,DANN [8]和CDAN [24]引入域鉴别器来玩最小-最大游戏,其中域鉴别器努力将源样本与目标样本区分开,而特征提取器试图混淆域鉴别器。然而,这些方法集中于整个图像特征的对准。不相关的语义信息例如,杂乱的背景可能主导适配过程,导致不同类别的样本未对准或相同类别中的样本未对准。浓缩机制最近已经通过在不同的图像区域上应用不同程度的集中来提高适应性能[28,42]。几种方法利用基于注意力的方法来在像素级对特征进行加权,这有助于模型集中于并跨域传输更多的主要语义信息[54,16,44]利用注意力机制来跨两个分布传递具有高相关性的特征。DUCDA [54]为DA开发了一种注意力转移机制,该机制将源图像的判别模式的知识转移到目标。不同的是,DCAN [19]不是探索空间注意力知识,而是探索通道注意力中的低级别虽然这些基于注意力的DA方法也可以抑制不相关语义的特征,但它们中的大多数需要精心设计复杂的网络架构来获得适当的浓度,这极大地限制了它们的通用性。相比之下,我们的方法利用预测空间上的成对对抗对齐来实现集中,这易于实现,并且可以用作各种DA方法的即插即用正则化器,以进一步提高其性能。···9104Σtainf,即,F =a(u,v),其中H和W是eh hhexp(zc)u,v我HWu,vΣexp(zc)HΣcHH我 我 i=1我HW对于zc,我们可以得到HWH HCHΣ黑暗知识许多DA方法已经探索了预测空间以促进特征生成[37,24,4],而其中大多数方法仅关注正确的类预测。为了充分利用预测信息,我们引入了暗知识的概念[14],即,关于DNN做出的错误预测的知识。事实上,暗知识首先在知识蒸馏中提出[14],其中知识从强大的教师模型转移到学生[49,50,46]。对于DA,一些方法[15,21]也利用暗知识来挖掘非目标标签中包含的信息MCC [15]利用暗知识来公式化分类器混淆正确和模糊类别之间的预测的趋势,然后最小化混淆。BCDM [21]提出了一种新的方法,使用双分类器的暗知识来测量它们的差异,其中分类器被迫以类方式产生更一致的预测。在本文中,我们直接利用暗知识与其激活特征区域之间的对应关系。通过我们提出的预测的成对对抗对齐来抑制暗知识的这些特征,我们可以有效地避免自适应过程中不相关语义造成的负面影响3. 方法3.1. 预备和动机在DA中,有两个域可访问:具有Ns个样本的标记的源域,表示为S=域自适应过滤(SCDA),其利用预测分布的成对对抗对齐来抑制暗知识的特征,从而强调正确类的主要部分的特征。简单地说,我们把分类器和特征提取器作为对抗游戏中的两个玩家。分类器试图通过最大化成对预测分布差异来增加错误类别的分类权重。而特征提取器努力抑制错误类的特征以减少该差异。通过最小最大博弈,我们可以抑制不相关语义对两个领域的特征对齐的影响3.2. 重新访问类激活图在本节中,我们重新访问了[53]中的类激活图对于特定类别,其对应的类别激活图反映模型集中在哪个图像区域上以进行其预测。对于给定图像,令h(u,v)表示最后一个卷积层中的特征图的第h个通道的空间位置(u,v)处的激活。然后在第h个通道上执行全局平均池化(GAP),我们得到:1HWu,v特征图的高度和宽度对于c类,由模型给出的logit得分zc其中,是类别c的第h个特征图的分类权重(本质上是重要性)。这里我们省略了偏差项,因为它对分类性能没有影响。最后,类c的softmax得分是pc=Σcexp(zc)。{(xs,ys)}Ns 其中y∈{1,2,…C}是对应的-将fh=1Σah(u,v)插入表达式具有Nt个样本的main,表示为T ={xt}Nt。 源1jj=1z=Σwca(u,v)和目标域共享相同的标签空间,但不同数据概率分布。 这样的分布,c hHWHHu,v裂缝经常导致性能下降在源域上训练的网络直接应用于=1Σ Σwc a(u,v)u,vH目标域。在本文中,我们用F表示网络=1 ΣA(u,v),(1)由特征提取器G和分类器GC. DA的目标是从源适配网络F通过充分探索标记源的知识来瞄准HW其中A(u,v)=Σu,vwcaC(u,v)。 对于给定模型,数据和未标记的目标数据。大多数DA方法是基于特征分布对准,其中考虑整个图像特征。但是不相关的语义,例如,杂乱的背景也可能被嵌入到整个特征中,因此对错误类别的预测可能相对较高,而不抑制这些特征,这可能导致语义上的负转移。因此,有必要找到这些暗知识的集中区域并抑制这些区域的特征。受[53]中所示的预测、分类权重和特征之间的密切关系的启发,我们提出了语义概念。HW是常数。因此,Ac(u,v)直接反映了im-1。当将图像分类到类别时,类别激活图Ac的空间位置(u,v)处的激活的重要性C.最后,通过将类激活图上采样到原始图像的大小,我们可以定位特定类的模型集中的区域。从zc=1Ac(u,v)和pc=exp(zc),我们可以看到图像的预测分布取决于类激活图,而类激活图反映了模型所关注的内容。这促使我们利用错误预测的类激活图来找到模型ing源样本xs的标签,以及未标记的目标do-HH9105向前落后���������✔���������������������������������最小-最大成对预测分布差异伊什1普1特征提取器s=$&Yt=$&CE11s=&伊什$普雷特$2Yt=2$M$11伊3普雷特3s=3美元Yt=&3ℒ11%&&s=伊什&普雷特&&Yt=&$11LLLJ我Ci=1J j=1我我我FKikij源目标图2.SCDA概述{qs}4和{qt}4分别是一批源样本和目标样本的软化softmax预测。GRL是梯度反转层。 CE是源域上的交叉熵损失。 MI是目标域上的互信息最大化损失。 PDD是预测分布的成对对抗对齐损失。样品的配对显示在图的右侧。训练分类器以最大化每个样本对的预测分布差异,而特征提取器试图最小化该差异。请注意,我们对源样本使用真实标签,而对未标记的目标样本使用伪标签不应该集中于然后抑制这些区域的特征。下面我们将描述如何通过预测分布的成对对抗对齐来实现这一想法,这是我们工作的主要组成部分。3.3. 放大不相关区域首先,我们描述了我们的样本对的构造,如图所示。二、来自两个域的相同标签的样本组成相应类别的配对区域。由于目标域是未标记的,因此我们采用由模型预测的伪标记用于每个目标样本。分歧。qs=softmax((xs)/T),其中T是温度缩放参数。 为了避免梯度消失,我们乘以T2来保持梯度的大小. Ms,s和Ms,t分别表示满足ys=ys和ys=y′ t的样本数。当特征提取器固定时,类激活map仅取决于分类器的分类权重。由于样本对属于同一类,并且该类的预测得分都很高,因此为了最大化样本对的预测分布差异,可以使用分类器中其他错误类的分类权重也就是说,y′t=arg maxpt(c)其中pt(c)是折痕 因此,不相关的区域集中在jc j j目标样本xt的softmax输出。如果两个样本的标签相同,则将其视为一对。对于每个类,存在两种样本对,即,域内样品对1(源域内的配对)和域内样品对(源域和靶域之间的配对)。为了放大不相关区域的浓度,我们训练分类器以最大化每个样本对的预测分布差异 由于我们有两种样本对,预测分布差异的总损失包括域内和域间部分,即, LPDDs,s和LPDDs,t,其被表示为最大LPDDs,s+LPDDs,t模型变得更加活跃。以对于这两个图像,“自行车”的预测分数都很高,例如预测分布为[0. 010 79,0。20]和[0. 15,0。84,0。01]respec-按照“鲜花”、“自行车”和“头盔”的顺序预测分布差异主要存在于“花”和“头盔”的预测得分为了最大化差异,前一个图像将增加“Helmet”的预测分数=1T2ΣSJS(qs,qs)这两个图像分别。 通过这样做,我们放大了不相关区域的浓度yi=yk+1T2Σ我JJS(qs,qt)。(二)3.4. 抑制无关语义的特征Ms,tI jys=y′t在上一节中,我们已经找到了在这里,我们使用一对预测之间的差异,由于其与Kullback-Leibler相比的对称性和有限性1在这里,我们不在目标域内进行域内配对,因为目标数据没有真实标签。该模型集中于预测irrel-evant类。现在,我们希望抑制这些区域的特征,以在DA中实现更纯粹的知识转移。为此,我们训练特征提取器以最小化样本对的预测分布差异,其损失表示为GRL分类器✔Ms sS9106GLLE ··LLF→→→→K我 KMs,t我 JJJ{|联系我们minLPDDs,s+LPDDs,t等同于熵最小化[11],这是DA方法中用于增强非均匀性的通用技术。=1T2Σ我JS(qs,qs)目标数据模型的犯罪性,例如,[52、25、39]。然而,熵最小化可能导致Col。ys=ys+1T2Σys=y′tJS(qs,qt)。(三)[45]第45话 为了避免这种情况,我们引入LMI的第一项,以确保预测的多样性i jtions. 此外,我们还设置了0.8的阈值来选择tar-由于在分类器的前一次训练中错误类的分类权值增加,为了减少预测分布的差异,特征提取器必须抑制这些无关语义的特征,并增强样本对中相似部分的特征。在对抗的方式下,对于域内样本对,我们可以实现每个类的最主要特征的提取,这为目标域提供了很好的教师对于域间样本对,减少了域移位的负面影响,并且更加强调跨两个域的公共知识的转移。3.5. 总的制剂与使用交替更新来实现对抗方式的先前工作[37,36]不同,我们利用图中的梯度反向层(GRL)。2、实现最优得到分类相对正确的样本,只xtmaxcpt(c)0. 8个参与域间配对。消融研究中将详细分析不同损失项的影响。3.6. 现有DA方法作为一种简单但功能强大的方法,SCDA是正交的大多数现有的DA方法,可以很容易地集成到他们作为一个正则化带来显着的改善,只需添加一个梯度反向层。以CDAN [24]为例,积分损耗公式为:LSCDA+γLadv,(8)其中,γ是权衡参数,adv是CDAN中域的域对抗损失我们建议读者参考[24]的详细公式-所有网络参数的随机gra,梯度下降总损失函数定义为L的作用Adv. [24]中的对抗过程就是那个域LSCDA=LCE−αLPDD−βLMI,(4)其中α和β是两个正的折衷参数。CE是用于监督源域上的学习的标准交叉熵损失,其表示为Ns域鉴别器努力正确地分类样本的域标签,而特征提取器旨在生成能够欺骗域鉴别器的特征此外,我们的方法也可以插入到其他DA方法中,例如基于统计差异的方法[51]。我们将在实验中展示SCDA作为正则化子的效果minF=1ΣE(F(xs),ys),(5)Ns4. 实验CEi ii=1其中(,)是交叉熵损失函数。PDD是我们提出的预测的对抗性损失分布差异以实现DA的语义集中,其表达式表示为minmax LPDD= LPDDs,s+ LPDDs,t。(六)4.1. 实验环境DomainNet[32]是迄今为止DA最大和最具挑战性的数据集。它包含来自六个不同领域的345个类别的约60万张图像:剪贴画(CLP)、信息图(INF)、绘画(PNT)、快速绘制G C (qdr)、Real(rel)和Sketch(skt)。把六个做-为了避免交替更新中繁琐的更新步骤,我们利用[8]中的梯度反向层通过一次反向传播来实现对抗性训练。MI是互信息最大化损失,get域,引入它来提高伪标签的质量。LMI的表达式为maxLMI=H(Y)−H(Y|十)、mains,我们构建了30个适应任务:clp inf,...,skt rel.Office-Home[43]是视觉领域适应的更具挑战性的基准数据集,其中包括65个类别的15,500张图像,分布在四个不同的领域:艺术图像(Ar),剪贴画(Cl),产品图像(Pr)和真实世界图像(Rw)。构建了12个适应任务来评估我们的方法,即,Ar Cl,...,Rw Pr.Office-31[35]是一个经典的现实世界基准C Nt=−p(c)logp(c)+1pt,logpt,(7)LMs s9107Ntj=1J数据集DA。它包含31个类的4,110个图像c=1Ntjj j=1由三个不同的域共享:Amazon(A)、Webcam(W)和DSLR(D)。我们构建了6个适应任务来评估-其中pt是tar get samplext的softmax预测,J评估我们的方法,即,A→W,…D→W。是p=1ΣNt的第c个元素Jpt和n·,·n是在-实作详细数据。 按照标准的Pro-对于DA [8,24,22],我们使用所有标记的源产品操作。 实际上,LMI9108×表1. DomainNet上UDA(ResNet-101)的准确度(%)。在每个子表中,按列的域被选择为源域,而按行的域被选择为目标域。[†根据源代码实现。]ADDA[41]CLPINF PNT QDRrelskt平均值DANN[8]CLPINF PNT QDRrelskt平均值MIMTFL[9]CLPINF PNT QDRrelskt平均值clpinfpntqdrrelsktAvg.-11.2 24.1 3.2 41.9 30.719.1-16.4 3.2 26.9 14.6 16.031.2九点五-8.4 39.1 25.422.715.7 2.6 5.4-9.9 11.9 9.139.5 14.5 29.1 12.1-25.7 24.235.3 8.9 25.2 14.9- -一种25.428.2 9.3 20.1 8.4 31.1 21.7 19.8clpinfpntqdrrelsktAvg.-15.5 34.8 9.5 50.8 41.4 30.431.8-30.2 3.8 44.8 25.7 27.339.6十五点一-5.5 54.6 35.111.8 2.0 4.4-9.8 8.47.347.5 17.9 47.0 6.3-37.3 31.247.9 13.9 34.5 10.4 - -一种30.735.7 12.9 30.2 7.1 41.4 29.6 26.1clpinfpntqdrrelsktAvg.-15.1 35.6 10.7 51.5 43.132.1-31.0 2.9 48.5 31.0 29.140.1十四点七-4.2 55.4 36.818.8第3.1节5.0-16.0 13.811.348.5 19.0 47.6 5.8-39.4 32.151.7 16.5 40.3 12.3- -一种34.938.2 13.7 31.9 7.2 45.0 32.8ResNet-101[13] CLPINF PNT QDRrelskt平均值[24]第二十四话CLPINF PNT QDRrelskt平均值MDD†[51]CLPINF PNT QDRrelskt平均值clpinfpntqdrrelsktAvg.-19.3 37.5 11.1 52.2 41.030.2-31.2 3.6 44.0 27.9 27.439.6十八点七-4.9 54.5 36.37.00.91.4-4.1 8.34.348.4 22.2 49.4 6.4-38.8 33.046.9 15.4 37.0 10.9 47.0 - -一种31.434.4 15.3 31.3 7.4 40.4 30.5 26.6clpinfpntqdrrelsktAvg.-20.4 36.6 9.0 50.7 42.3 31.827.5-25.7 1.8 34.7 20.1 22.042.6 20.0-2.5 55.6 38.5 31.821.0 4.5 8.1-14.3十五点七十二点七51.9 23.3 50.4-41.4 34.550.8 20.3 43.0 2.9 50.8- -一种33.638.8 17.7 32.8 4.3 41.2 31.6 27.7clpinfpntqdrrelsktAvg.-20.5 40.7 6.2 52.5 42.133.0-33.8 2.6 46.2 24.543.7 20.4-2.8 51.2 41.7 32.018.4 3.08.1-12.9十一点八十点八52.8 21.6 47.8 4.2-41.2 33.554.3 17.5 43.1 5.7 54.2 - -一种35.040.4 16.6 34.7 43.4 32.3 28.6SCDACLPINF PNT QDRrelskt平均值CDAN+SCDACLPINF PNT QDRrelskt平均值MDD+SCDACLPINF PNT QDRrelskt平均值clpinfpntqdrrelsktAvg.-18.6 39.3 5.1 55.0 44.129.6-34.0 1.4 46.3 25.4 27.344.1 19.0-2.6 56.2 42.030.0 4.9 15.0-25.4十九点八十九点零54.0 22.5 51.9 2.3-42.5 34.655.6 18.5 44.7 6.4 53.2- -一种35.742.6 16.7 37.0 3.6 47.2 34.830.3clpinfpntqdrrelsktAvg.-19.5 40.4 10.3 56.7 46.035.6-36.7 4.5 50.3 29.9 31.445.6 20.0-4.2 56.8 41.9 33.728.3 4.8 11.5-20.9十九点二十七点零55.5 22.8 53.7 3.2-42.1 35.558.4 21.1 47.8 10.6 - -一种38.944.7 17.6 38.0 6.6 48.2 35.831.8clpinfpntqdrrelsktAvg.-20.4 43.3 15.2 59.3 46.532.7-34.5 6.3 47.6 29.246.4十九点九-8.1 58.8 42.935.231.1 6.6 18.0-28.8 22.0 21.355.5 23.7 52.9 9.5-45.2 37.455.8 20.1 46.5 15.0 56.7 - -一种38.844.3 18.1 39.0 10.8 50.2 37.233.3表2.Office-Home for UDA(ResNet-50)上的准确度(%)方法Ar→ ClAr→ PrAr→ RwCl→ ArCl→ PrCl→ RwPr→ ArPr→ ClPr→ RwRw→ ArRw→ ClRw→ PrAvgResNet-50 [1]34.950.058.037.441.946.238.531.260.453.941.259.946.1DANN [8]45.659.370.147.058.560.946.143.768.563.251.876.857.6JAN [26]45.961.268.950.459.761.045.843.470.363.952.476.858.3中文(简体)48.968.374.661.367.668.857.047.175.169.152.279.664.1ETD [18]51.371.985.757.669.273.757.851.279.370.257.582.167.3SymNets [52]47.772.978.564.271.374.264.248.879.574.552.682.767.6TADA [44]53.172.377.259.171.272.159.753.178.472.460.082.967.6GVB-GD57.074.779.864.674.174.665.255.181.074.659.784.370.4SCDA57.576.980.365.774.974.565.553.679.874.559.683.770.5CDAN [24]50.770.676.057.670.070.057.450.977.370.956.781.665.8CDAN+SCDA57.175.979.966.276.775.265.355.681.974.762.684.571.3MDD [51]54.973.777.860.071.471.861.253.678.172.560.282.368.1MDD+SCDA58.977.281.066.675.575.964.156.382.273.361.584.371.4MCC [15]55.175.279.563.373.275.866.152.176.973.858.483.669.4MCC+SCDA57.179.182.767.775.377.666.352.581.974.960.185.071.7DCAN [19]54.575.781.267.474.076.367.452.780.674.159.183.570.5DCAN+SCDA60.776.482.869.877.578.468.959.082.774.961.884.573.1数据和未标记的目标数据作为训练数据,并对未标记的目标数据进行评估。我们在PyTorch框架中实现了我们的方法[30]。为了与现有方法进行公平比较,我们使用相同的骨干网络,即,ResNet- 50 [13]在ImageNet[34] 上 预 训 练 数 据 集 : Office-31 和 Office-Home ,ResNet-101 [13] 在 ImageNet [34]上 预 训 练 DomainNet[32]。在实验中,输入图像大小被裁剪为224 224。我们采用小批量随机梯度下降(SGD)优化器,动量为0.9,学习率策略如[8]网络优化。为了减少早期训练阶段不可靠预测的影响,我们简单地让超参数α=α0ρ,其中ρ是从0到1的训练进度。 [15]《易经》中9109我们使用深度嵌入验证(DEV)[48]来选择超参数,并发现T=10,α0=1。0,β=0。1在所有数据集上都运行良好。此外,第4.3节提供了参数敏感性分析,以测试SCDA的稳健性。每个适应任务的评估是通过平均三 个 随 机 试 验 的 结 果 。 SCDA 代 码 可 在www.example.com上获得https://github.com/BIT-DA/SCDA。4.2. 结果DomainNet上的结果如表1所示。显然,SCDA在平均准确度方面显著特别是将SCDA应用于CDAN和MDD,其预测精度分别提高了4.1%和4.7%一种解释9110✔→LL→ →→LLLLL表3.Office-31上UDA(ResNet-50)的准确度(%)[平均值:除D参与者W外的平均值]目标图像只有源最大值P##m P##表4.Office-31(ResNet-50)上的SCDA消融研究图3. Office-Home的任务Rw Ar上不同方法的最后卷积层的浓度可视化。在这里,红色字体表示地面实况标签,而白色字体表示通过不同方法预测的伪标签。(2)SCDA(w/o PDDs,s)和SCDA(w/oPDDs,t)分别表示去除源域内和跨域内预测分布的成对对抗对齐的变体;(3)SCDA(w/o LPDD)表示除去两个LPDDs,s和LPDDs,t. 结果显示在Ta中。我们的方法抑制了可能混淆CDAN和MDD的对齐过程的不相关语义的特征。实验结果表明,SCDA算法在处理复杂数据集方面具有很强的优越性,并且具有现有DA算法的通用性。Office-Home上的结果如表2所示,与这些最先进的DA方法相比,我们实现了相当甚至更好的性能此外,我们的方法实现了5.5%的额外增益和大的改善Cl Ar,Cl Pr,Cl Rw时,应用到CDAN。其原因是CI中的图像比较复杂,而SCDA通过抑制不相关语义的特征来净化传递的知识DCAN+SCDA的性能最好,达到73.1%。这些改进-验证了SCDA的有效性Office-31的结果总结见表3。显然,我们大大获得优于其他流行的适应方法的预测精度。特别是,当应用SCDA MDD,我们达到了90.5%的最高准确率。结果表明,SCDA有利于提高适应能力,特别是在复杂情景下,例如,A→D、D→A和W→A。4.3. 分析消融研究。为了研究SCDA不同组件的有效性,我们基于ResNet-50对Office-31进行了全面的消融分析:(1)SCDA(w/o LMI)表示去除相互信息的变体。在表4中,我们可以明显地看到完整方法SCDA优于其他变体。 而SCDA(w/oPDDs,t)则明显下降了2.5%,这表明通过我们的损失PDDs,t来转移DA问题的公共知识和抑制特定领域知识的重要性。 SCDA优于SCDA(w/o PPAs,s),因为PPAs,s通过学习最主要的分类特征,有助于为目标样本构造好的教师。此外,通过改进配对过程中伪标签的质量,SCDA算法的性能优于SCDA(w/oLMI)算法。语义集中的视觉解释。在本节中,我们利用[ 38 ]中的可视化技术来可视化SCDA在对抗过程中集中的区域,如图所示。3.第三章。我们可以观察到,在最大化预测分布差异损失PDD之后,不相关区域上的浓度显著增加,然后,通过最小化差异来抑制/强调不相关/主要区域的特征,这验证了上述微观解释。此外,最终的结果表明,我们的方法确实实现了图像分类中的关键部分的语义抗干扰能力测试。 由于我们的方法旨在抑制无关语义的特征和增强主要部分的特征,我们进行了实验,以测试其抗干扰能力,通过添加零均值的高斯噪声到一批随机选择的输入图像,然后测试不同的敏感性。SCDACDAN玩具架触发器无线电玩具马克杯背包风扇架无线电马克杯风扇方法A→ WD→ W W→ D A→ D D→ A W→ A Avg 平均值‡ResNet-50 [1]68.496.799.368.962.560.776.1 65.1DANN [8]82.096.999.179.768.267.482.2 74.3JAN [26]85.497.499.884.768.670.084.3 77.2[6]91.198.699.690.670.466.586.1 79.7ETD [18]92.1100.0100.088.071.067.886.2 79.7中文(简体)88.698.5100.092.269.569.786.5 80.0SymNets [52]90.898.8100.093.974.672.588.4 83.0TADA [44]94.398.799.891.672.973.088.4 83.0GVB-GD94.898.7100.095.073.473.789.3 84.2SCDA94.298.799.895.275.776.290.0 85.3CDAN [24]94.198.6100.092.971.069.387.7 81.8CDAN+SCDA94.798.7100.095.477.176.090.3 85.8MDD [51]94.598.4100.093.574.672.288.9 83.7MDD+SCDA95.399.0100.095.477.275.990.5 85.9MCC [15]95.598.6100.094.472.974.989.4 84.4MCC+SCDA93.798.6100.096.476.576.090.2 85.7DCAN [19]95.097.5100.092.677.274.989.5 84.9DCAN+SCDA94.898.2100.094.677.576.490.3 85.8方法A→ W D→ W W→ D A→ D D→ AW→ AAvgResNet-50+ SCDA(不含LPDD)+ SCDA(不含LPDD,t)+ SCDA(不含68.491.391.892.292.694.296.798.698.498.698.798.799.399.8100.0100.0100.099.868.992.292.594.194.495.262.569.271.472.874.175.760.768.670.872.673.476.276.186.687.588.388.990.09111→→→2.52.01.51.00.50.00 2 4 6 8(a) W→ A(b)A→ D和A→ W(c)A→ D(d)A→ W图4. (a)是在Office-31任务W→A上,当加性高斯噪声方差σ从0增加到10时,不同方法的抗干扰能力测试。(b)是任务A→ D和A→W上SCDA对参数T和ε的敏感性。(c)(d)分别是A → D和A → W任务中SCDA对参数α0和β的敏感性。(a)ResNet-50(b)SCDA(c)CDAN(d)CDAN+SCDA图5.在Office-31的任务A→ D上,不同方法的目标域混淆矩阵(放大以获得清晰的可视化效果。)方法[47]。结果如图所示。第4(a)段。可以清楚地观察到,SCDA、CDAN+SCDA和MDD+SCDA(虚线)的灵敏度小得多,并且与相应的基线方法(实线)相比也增长得更慢。这种现象结果表明,SCDA能显著抑制无关噪声的特征,进一步证明了SCDA的优越性混淆矩阵。不同方法的混淆矩阵在图中给出。五、对于ResNet-50和CDAN,存在出现在非对角线中的许多错误预测,例如,大多数“马克杯”的样品相比之下,我们可以清楚地看到SCDA和CDAN+SCDA的定量改进,其原因可以解释为每个类中的成对对抗比对导致更紧凑的特征,从而减少了类混淆。令人鼓舞的结果进一步显示了SCDA作为一个独立的方法或作为一个正则化集成到现有的方法的优势t-SNE可视化。图6可视化了ResNet-50、CDAN、MDD、SCDA、CDAN+SCDA和MDD+SCDA与t-SNE学习的特征表示 [27]。我们可以清楚地看到,使用原始方法,目标数据与源数据没有很好地对齐,而SCDA可以学习高度区分的特征并保持清晰的边界。参数灵敏度。图4(b)、4(c)和4(d)示出了SCDA对任务A的温度T、阈值ε和两个损耗折衷α0和βd和W. 结果表明,该方法是可行的。4(c)和4(d)表明,当α0∈ {0. 5,0。75,1。0}和β∈ {0. 1,0。15}。(a) ResNet-50(b)CDAN(c)MDD(d)SCDA(e)CDAN+SCDA(f)MDD+SCDA图6.在Office-31的任务WA上通过不同方法学习的特征的可视化。蓝点和红点分别表示源和目标特征。在图4(b)中,SCDA对T不敏感,但对ε(ε=0)敏感。8最好的工作)。因为不可靠的伪标签会混淆配对,如果ε太小,而ε太大会导致知识转移不足。5. 结论在本文中,我们提出了语义集中域适应(SCDA)强调的主要部分的功能和抑制无关的语义特征,通过成对的敌对对齐的预测空间内的源域和跨域。正交大多数DA方法,SCDA可以很容易地集成作为一个正则化带来进一步的改进。大量实验结果证实了SCDA的有效性ResNet-50SCDACDANCDAN+SCDAMDD +SCDA灵敏度9112引用[1] Shai Ben-David , John Blitzer , Koby Crammer , andF
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功