没有合适的资源?快使用搜索试试~ 我知道了~
9123标准预培训CDs预处理- 火车(我们的)未标记未标记标记辅助数据集✓CDS:跨域自监督预训练[10]作者:Donghyun Kim1,Kuniaki Saito1,Tae-Hyun Oh2,Bryan A. Plummer1,StanScaroff1,Kate Saenko1,31 Boston University,2POSTECH,3MIT-IBM Watson AI Lab{donhk,keisaito,bplum,sclaroff,saenko} @ bu.edu,taehyun@postech.ac.kr摘要(a) 域转移方法的两阶段预训练我们提出了一个两阶段的预训练方法,提高了标准单域的泛化能力例如,在一个示例中,ImageNet域名A域名B域名A域名B标记未标记未标记训练前。虽然在单个大型数据集(如ImageNet)上进行标准预训练可以提供良好的初始重复域 转 移方法例如,在一个示例中,跨域检索适应,对于迁移学习任务,这种方法可以导致影响利用新的多域数据学习的成功的有偏表示(例如,不同的艺术风格)。我们提出了一种新的预训练方法,称为跨域自我监督(CDS),它直接采用未标记的多域数据的下游域转移任务。我们的方法使用自我监督,不仅在一个单一的域,但也跨域。域内实例描述-等应用:无监督跨域图像检索查询(域A:真实)检索(域B:绘画)在跨域匹配的同时,(b) 基础模型(ImageNet):检索不正确的图像(c) 我们✓ :检索正确的图像!用于学习域不变特征。我们应用我们的方法作为第二个预训练步骤(在ImageNet预训练之后),与标准的一阶段预训练相比,对不同的域转移任务产生了显着的目标准确性提升1. 介绍真实世界的图像数据可以来自许多来源:不同的天气、视角、照明、艺术风格等。因此,许多任务需要跨多个域进行泛化的视觉表示。例如,域自适应旨在将知识从标记的源域转移到未标记的目标域[32,12]。跨域图像检索旨在匹配语义相关的图像而不考虑域移位(例如,参见图1-(b,c))。预训练对于许多视觉任务中的深度神经网络非常有效,提供了强大的初始表示[21,7]。通常,之前的工作在大规模监督辅助域上预训练模型(主要是在ImageNet [31]上),并假设学习的特征是下游任务的良好起点。然而,ImageNet预训练学习有偏见的表示[13],并遭受由背景变化引起的域偏移图1:顶部:域转移方法的两阶段预训练。为了学习下游域上的区分性和域不变特征,我们通过利用来自多个域的未标记数据来提出跨域自监督预训练(CDS)下图:CDS在无监督跨域图像检索中的应用.与ImageNet预训练相比,CDS学习了更好的跨域语义旋转和视点[1]。这表明在单个域上进行预训练并不鼓励域不变特征,并且对于遇到新域的下游任务(例如图1-(b),结构域适应)。在本文中,我们解决了预训练表示的问题,这些表示对域转移具有鲁棒性,并且对在多个域上操作的下游方法有用我们提出了一个两阶段的预训练方法来改进标准ImageNet预训练,以便为下游任务生成新的域。在对通用监督数据集(例如,ImageNet),我们添加了第二个自监督预训练阶段,该阶段使用来自多个域的未标记下游数据,如图所示1-(a). 我们的第二个预训练阶段确保表示在新的域上获得区分能力,并且对域移位具有不变性。✘✘ ✘✓✓✓✓✓✘ ✘✘✓✓✓✓✘✘✘9124在该两阶段预训练之后,该表示可以直接用于像跨域图像检索这样的任务,或者用于初始化现有转移方法的模型(例如用标记的源数据和未标记的目标数据两者训练)。我们将两阶段预训练与标准的一阶段预训练进行了比较,并在多个任务和方法中显示出显着的收益。例如图图1-(c)表明,与ImageNet预训练相比,我们的方法在跨新领域学习类语义相似性方面更好(图2)。1-(b)),并改进了跨域图像检索。自监督学习(SSL)已被证明对于未标记数据的预训练非常有效。SSL解决了文本前的任务,如预测旋转[14]或物体识别[42,7]。然而,最先进的SSL(例如,[42,7,16])侧重于从单个领域学习。天真地将SSL适应于多个域不能学习域不变表示,因为跨域的同一类的图像可以具有不同的视觉特性,正如我们将在实验中显示的那样。为了解决这个问题,我们提出了一种新的预训练方法,称为跨域自我监督(CDS),克服了以前的单域SSL方法的局限性。CDS使用未标记的数据(即,无人监督)。具体来说,我们设计了两种类型的自我监督,以提取区分1和域不变的功能跨域。首先,我们提出了域内实例判别。这是由最近的SSL [42,7]激发的,但是我们以自适应的方式应用它来学习每个域中的判别特征。其次,我们提出了跨域匹配。该目标将每个样本与另一个域中的相邻样本匹配,同时迫使其远离不匹配的样本。虽然域内实例鉴别鼓励模型通过分离域内的每个实例来学习鉴别特征,但是跨域匹配通过执行域对齐来实现跨域的更好的知识转移。我们假设,这种针对下游多域数据优化的预训练可以获得对新域的域不变性和可区分性CDS适用于遇到新域的各种域转移任务,其中应考虑跨下游多域的域不变表示。我们提出了三个评估SSL基线的任务:(1) 无监督跨域图像检索,(2)通用域自适应,和(3)少镜头域自适应。在我们的实验中,我们显示CDS通过提供优于现有的最先进的SSL方法的更好的预训练方法来改进各种主域传输方法。总之,我们的工作有以下贡献:1. 我们提出了两个阶段的预训练,以提高生成-1这个术语指的是实例级判别表示[42]。标准单阶段预训练的泛化能力用于下游多领域任务。2. 我们提出了一种新的跨域自监督预训练,它使用未标记的多域数据学习区分性和域不变特征。3. 我们表明,CDS在各种域转移任务上的性能优于标准ImageNet预训练和最先进的SSL基线。2. 相关工作域适配。传统上,无监督域自适应(UDA)解决了从标记的源域泛化到不同但相关的未标记的目标域传统的UDA假设一个封闭的集合,其中类别在源域和目标域之间完全共享在这种假设下,通过使用以下各项最小化域距离[2]来将目标特征与源特征对齐:基于对抗域分类器的学习[12,19,24,38]、域距离的最大差异[12,19,24,38]、基于对抗域分类器的学习[12,19,2分配[35,45]和熵优化[34,24,33]。最近,DANCE[34]解决了通用域适应的问题,其中任意类别转移存在于源域和目标域之间(即,闭集,开集[22],偏集[4],偏开集[44])。DANCE提出了通过熵优化的邻域聚类的未标记的目标域和基于熵的拒绝,以识别目标域中的私有类。在本文中,我们专注于一个预训练的方法,应用UDA方法之前使用虽然大多数先前的工作使用ImageNet预训练进行初始化,但我们的目标是通过自监督学习来改进多域数据的预训练,该自监督学习在没有额外标签的情况下在新域上引入域不变和类判别特征。自我监督学习。自我监督学习(SSL)[9,14,28,42,16,6]引入了用于解决借口任务的自我监督信号。这些借口任务使模型能够从未标记的数据中学习语义上有意义的特征,以便稍后在下游任务中使用。先前的工作提出了借口任务,例如:旋转预测[14]或实例判别(ID)[20,42]。实例识别和SimCLR [42,7]通过将图像分类为自己的唯一类,但将所有其他实例视为负面实例,实现了非常强大的性能。然而,这些工作集中在大规模单域数据集(如ImageNet)上的预训练模型。我们后来表明,这些方法是不是很有效的下游数据集,具有域转移。自我监督学习适应。一些非监督域自适应方法[5,10,36,43]添加了现有的SSL目标(例如,[14,28])通过与源标签联合训练来提高性能。这些方法都依赖于大量的源头监管来引导9125·∈D·DDDDDDD ddDJ我J一我DA1NA1NBDD我我我域A域名B私有类扩大的畴隙1. 域内实例区分2.跨域匹配对齐分布(a) 全域实例判别域A实例判别域B实例判别基于熵优化的(b) 我们图2:实例区分度(ID)[42]和我们的(CDS)的比较:(a)ID将每个特征与所有其他特征区分开来,而不考虑域间隙,因此域之间的域间隙增加。(b)为了减少域间隙,CDS联合使用域内ID和跨域匹配来学习域不变和区分性(最佳颜色)的特征未标记的目标数据,并且通常假设初始表示已经对目标域是有区别的。相比之下,我们的方法显式地找到跨域的实例到实例匹配,以进行域对齐,而无需任何源监督,如图所示。二、最近,提出了一种具有未标记多个域的聚类方法[27],用于域泛化任务。然而,它执行ImageNet预训练,而我们的方法在我们的任务中大大超过ImageNet预训练。3. 跨域自我监督我们探索了一种称为跨域自我监督(CDS)的预训练方法,用于多域设置,其中我们给出域A,D =... xAΣΣNA和一个不同的但是BJj=1一B对下游任务的初始化有效。我们利用域内实例判别来学习两个新领域的视觉相似性,以提高判别能力。对于单域,实例判别[9,42,7](ID)通过对每个图像实例施加唯一类并通过训练模型来学习视觉相似性,使得每个图像通过将所有其他图像视为负对来分类到其自己的实例身份。ID假设模型可以从实例相似性中发现潜在的类别区分语义相似性,这有助于识别任务,如[42,7]所示。将ID简单地部署到多域数据可能会增加A和B,因为ID将所有其他样本视为针对给定查询的否定没有区分域的样本给定一个来自相关域B、D=. (xB)NB。D和D含有如果我们将两个域中的所有其他样本都视为阴性,共享类别,但可能会有一些类别转移A和B之间的关系[44,34]。例如,B可以包含不与A共享的私有类。我们的目标是学习每个A和B上的区分特征,以及A和B中相同类别的域不变特征。我们使用具有L2归一化的CNN架构F()[42],其输出特征向量fRd。我 们 使 用 ImageNet 预 训 练 初 始 化 特 征 提 取 器 F(),这通常对许多视觉任务都很有用。然后,我们使用下游数据A和B利用CDS执行第二预训练阶段以提供更有鉴别力和域不变的表示,用于下游多域任务。如图在图2-(b)中,CDS由两个目标组成:(1)学习视觉相似性,其中针对每个域进行域内实例辨别,以及(2)用于域比对的跨域匹配。然后,可以针对包括域自适应的下游任务对该预训练模型进行微调。3.1. 域内实例区分这个目标的目的是学习下游数据的判别特征提取器我们的目标是-底片中可能含有样品B归属与查询相同的类此外,域之间的差异(即,风格、颜色的差异)比分类差异更容易识别,如图2-(a)所示因此,ID的天真部署扩大了域之间的差异,这是我们不想做的。为了缓解这些问题,我们建议使用域内ID,其中负对仅从同一域采样。这旨在防止学习特征来区分这两个域,如图2所示。2-(b).我们从特定领域的内存银行的样本功能。我们首先利用特征提取器F(·)从DA和DB初始化存储器组VA和VB。VA=[vA,···,vA],VB=[vB,···,vB],(1)其中vi是图像x i的即,vA=F(xA)。在该初始化之后,存储体特征在每个批次中以动量更新(在稍后的部分中描述);由于缓存的特征不需要梯度计算,因此这是高度存储器高效的。使用特征提取器F(·),我们获得了来自图像的向量fA=F(xA)和fB=F(xB)从两个方面证明ImageNet预训练:(1)下游任务可以包含ImageNet中没有出现的新类别(类别转移);(2)ImageNet和下游数据集之间可能存在域转移。因此,仅在ImageNet上学习的表示可以更少i i j j一 ∈B和图像xB∈B。 执行在域ID中,我们通过测量特征与对应的存储体之间的成对相似性(点积)来计算相似性分布PA和PB,如Xi=19126fBj......最小化熵(跨域实例匹配)我我JΣAAΣBB|B|我J我JΣBAΣAB|B|我J一DB中的图像比其他类,如自行车或计算机。我j′,ij′,iJi′i′,ji′,j域A特征提取器特征和记忆之间的成对相似性当量2域ADomain BPrivateclassfAVA当量3一我域BBJ共享特征提取器当量4当量2fA/VB...fBVB当量5最小化交叉熵(域内ID)当量3图3:CDS的概述。在域内实例鉴别中,我们测量每个域内特征的相似性,然后执行域自适应实例鉴别以学习每个域中的鉴别特征。在跨域匹配中,我们测量特征与来自跨域存储体的跨域特征之间的相似性,然后最小化跨域匹配的熵(以颜色最佳地观看)。示于图3、exp((vA)fA/τ)exp((vB)fB/τ)在无人监督的情况下。然后,我们最大化负匹配的距离,同时最小化正匹配的距离PA=i i,PB=j j,中增强类别区分特征的有效匹配iNAjexp((v )f/τ)NB exp((v)f )/τ)不同的领域。 相比之下,最佳运输[3]Kik=1k=1王空军(2)缩放性差并且限于在一批中找到匹配而我们通过使用存储体中的“高速缓存”特征而其中温度参数τ确定浓度。相似性分布的过滤水平[18]。最后,我们通过最小化批次B上的平均负对数似然来执行域内ID:“live” features in the为了发现正负对,我们最小化一个域中的特征与另一个域中的特征LI-ID=−1(Σi∈B logPA+Σj∈B logPB)),(3)记忆库由于熵最小化鼓励模型做出有信心的预测,因此模型选择其中i和j表示xi的唯一索引3.2. 跨域匹配和Xj。样本以匹配并实施查询特征(即,fA或fB)更接近匹配样本。同时,该模型强制查询功能远离所有使用域内ID,我们假设模型学习在每个域中提取类别区分特征。但在另一个领域中的其他不匹配的例子,这使得它学习跨领域的类判别特征。具体而言,给定查询向量,fA=F(xA)和不显式提升域不变特征为-i ifB=F(xB)从xA和xB在一个批次B,我们首先测量在DA和DB之间。为了鼓励与域对齐,但不-j j i j犯罪特征跨两个相关领域,我们执行跨域特征匹配,如图所示。2-(b).这是通过使相对较近的跨域实时特征和跨域存储体特征之间的跨域成对相似性(即,vB,vA)在Fig. 第三章:点更接近,同时保持不同点更远。exp((vB)fA/τ)exp((vA)fB/τ)PA›B=j′i,PB›A=i′j。关键的区别在于使用对抗域分类器[12],MMD [25]或最佳j′,iNB exp((v )f/τ)i′,jNA exp((v )f/τ)传输[8,3]集中于最小化两个畴DA和DB的分布之间的畴间隙。这些Kik=1k=1王空军(四)不考虑类与类之间的语义相似性,两个域,可能会失去类别区分能力[23]。然后我们最小化相似性的平均熵批量分发我们建议使用这样的知识:在跨不同域的特征空间中,相同类的样本比不同类的其他样本更接近(例如,椅子意象LCDM=1(Σi∈B H(PA›B)+Σj∈B H(PB›A)),(5)在D中与椅子具有更多相似属性(形状、图案H(P A›B)=−ΣNAP A›BlogP A›B,当量4fAi...fB一JV......VA:域A存储器VB:Domain B Memory最小化交叉熵(域内ID)XX9127我们发现了正负两种跨域对H(P B›A)=−ΣNBP B›AlogP B›A,9128·B BB(a) CDS w/o I-ID(等式5只)(b)CDS(等式3+等式第五章)图4:来自CDS的t-SNE可视化,不含结构域内ID和CDS。红/蓝/黑点分别表示DA和DB中的共享类以及D B中的私有类。我们观察到域内ID将私有类(黑色)与DB中的共享类(蓝色)区分开.其中H()表示从等式(1)中的概率测量的熵。4.第一章CDS的总体目标函数是最小化:L CDS =L I-ID + L CDM。(六)我们还使用中的功能更新内存库具有动量η的批次,以鼓励训练的平滑性,遵循[42]:适应(Sec. 4.4)。我们总结了主要发现:(1)现有的SSL基线在域转移下不起作用(2)域内ID往往比朴素ID表现得更好,并且(3)我们的跨域匹配比对抗域对齐表现得更好[12]。4.1.实验设置数据集。我们使用三个标准的域适配基准:CUB是一个细粒度的鸟类分类数据集[40,41]),具有真实和绘 画 领 域 和 200 个 类 别 ; Office-Home [39] 具 有 Art(Ar)、Clipart(Cl)、Real(Rw)和Product(Pr)域,以及65个类别; Office [32]与亚马逊(A),数码单反(D)和网络摄像头(W)域和31个类别;在补充资料中,我们展示了数据集的总体统计数据。虽然Office和Office-Home中的大多数类别都与ImageNet共享,但CUB包含许多新颖的类别。实作详细数据。我们的方法在PyTorch [30]中使用单个GTX1080Ti实现。我们使用在ImageNet上预训练的ResNet- 50 [17],然后是FC层和L2归一化层作为特征提取器。在使用CDS的预训练中,我们使用SGD,时刻pa-A A a其中vi ∈B,vi=(1 −η)vi+ηfi,其中vj=(1−η)vj+ηfj.(七)在我们使用CDS预训练模型之后,我们使用现有的域转移方法对预训练模型进行微调,并评估性能增益。3.3. DA和DB之间的范畴转换在通用域适配的设置中[34],DA和DB可以包含它们之间不共享的私有类。假设我们在DB中有私有类,方法应该对齐DA和DB中的共享类,同时将它们与私有类分离。由于域内ID通过分离每个域中的视觉上不相似的图像来学习类语义相似性,因此私有类可以远离共享类嵌入。图4示出了在办公室-家庭中的艺术和绘画领域上的以DA(红色)和DB(蓝色)表示的共享类以及以DB(黑色)表示的私有类的特征可视化。在图4-(a)中,一些私有类可以在没有域内ID的情况下与共享类对齐。但是图4-(b)示出了域内ID(等式4)。3)在DB上保持蓝点和黑点是独特的,这防止将私有类与共享类对齐因此,域内ID用作用于将私有类与共享类分离的良好正则化器。4. 实验我 们 在 各 种 域 转 移 应 用 中 评 估 跨 域 自 监 督(CDS):(1)无监督跨域图像检索(第4.2节),(2)通用域自适应(第4.2节)。4.3),以及(3)少炮域9129参数0。9,学习率为0。003,批量为64,重量衰减率为5e-4。对于参数τ和η,我们设置τ = 0。1且η = 0。5、所有实验我们应用包括随机裁剪和水平翻转的标准数据增强在补充资料中,我们显示了其他详细信息和敏感性分析。评 价 传 统 的 无 监 督 域 自 适 应 ( DA ) 使 用ImageNet预训练作为初始化。我们的目标是评估是否自监督学习(SSL)的下游多域可以提供更好的初始化域转移方法。我们在每个数据集中选择一个域作为DA,并在域自适应设置后选择剩余域之一作为DB[32,25,12]。我们将CDS与ImageNet预训练进行比较,ImageNet预训练是一个强大且广泛使用的基线和现有的SSL基线:实例识别(ID)[7]、Simplified [7]、Jig-saw Puzzle [28]、预测旋转[14]、MoCo [16]和SwAV [6]。我们还将域对齐与对抗域分类器(DC)[12]集成,以构建公平但通用的基线。所有基线都从ImageNet预训练开始,每个SSL都应用于DA和DB的并集。然后,每个预训练的模型在下游任务上被微调我们报告三次运行的平均准确度我们报告了所有设置的平均准确度,包括家庭(Ar,Cl,Rw和Pr),CUB(真实和绘画),办公室(A,D和W)。详细结果见补充资料。4.2. 无监督跨域图像检索通过无监督的预训练,SSL可以直接应用于DA和DB之间的无监督跨域图像检索任务。我们从DA查询一个图像9130→| ||∩|→:检索不正确的图像✓:检索正确的图像!查询(域A)检索(域B)(a) ImageNet预训练(b)我们的查询(域A)检索(域B)✘ ✘ ✘✓✓✓✘ ✘✓✓✓✓✘ ✘✘✓✘✓(a)ImageNet预训练(b)我们的图5:使用(a)标准ImageNet预训练特征和(b)我们的(CDS)检索跨域邻居。虽然ImageNet预训练的特征偏向于错误的纹理和颜色,但我们的方法在各个领域中学习到了更好的语义相似性。(a) ImageNet预先训练(b) 域名内ID +域名分类器(c) 我们图6:我们和基线的t-SNE可视化。每种颜色表示左子图中的不同类,红色和蓝色表示DA和DB在右子图中。我们的(CDS)提取的功能,显然是类的歧视,以及域不变的。|C|/|C¯s|/|C¯t|幼崽办公室-家庭办公室闭集200 / 0 /065 / 0 /035 / 0 /0部分百分百百分百25 / 45 /010 / 21 /0开集100 / 0 /10015 / 0 /502011年10月0日开偏一百五十10 / 5 /502011年10月10日表1:不同预训练方法在无监督跨域图像检索任务上的精度@k(P@k)比较。并在DB中检索图像。如果检索与查询是同一类,我们认为这是正确的。图图1和图5比较了ImageNet预训练和我们在CUB和Office-Home上的检索结果我们观察到ImageNet权重偏向于错误的颜色或纹理信息,而CDS倾向于用正确的形状和纹理信息捕获更好的形状表示。表1报告了Office-Home和CUB中跨域检索我们观察到ImageNet的预训练非常强大,并且超过了现有的SSL基线。CDS的表现优于所有其他基准。特别是,CDS显著改善了CUB评分这些结果表明,CDS可以很好地适应新的数据集下的域转移。我们在补充说明中展示了更多的可视化表2:不同UDA设置下的类别转移统计。4.3. 通用域适配Setup. 无监督域自适应是将知识从标记的源域转移到未标记的目标域的任务。DA表示标记的源域而DB表示未标记的目标域(即,使DA适应于DB:DA DB)。源域和目标域可能包含私有类:闭集[24]、开集[22]、部分[4]或开-部分[44]。C表示共享类的数量(CsCt)和C¯s,C¯t表示源私有类和目标私有类的数量。对于Office和Office-Home,我们在[34]中使用相同的分割总体统计数据见表2。我们将目标私有类分类为“未知”类。DANCE [34]是最近提出的方法,其实现了最先进的结果,包括闭集、开集、部分和开部分DA。我们采用SO(仅源)和DANCE [34],其实现了比所有其他DA基线更高的性能。 DANCE利用目标邻域聚类和特征可视化。图6示出了来自ImageNet预训练和我们在Office-Home 的 设 置 Rw Cl 上 的 特 征 的 t-SNE 可 视 化[26]。相比到(b)特征对齐的DC [12],它定性地表明(c)CDS在特征空间中聚类同类中的示例;因此,CDS有利于更有区别的特征。红-蓝点图表示DA和DB域,这说明CDS可以产生良好对齐的特征,同时保持类别区分能力。基于熵的样本拒绝。SO还使用基于熵的拒绝作为DANCE来识别未知类。我们报告所有UDA方案的整体目标精度对于开集DA,我们还报告了平均类准确度和H得分[11],这是已知类准确度和未知类准确度的调和平均值。在开集DA中,重要的是考虑两个度量,因为未知样本的数量可能压倒已知样本的使用SSL预训练模型后✘✘✘✓ ✓✓✘✘ ✘✓✓ ✓✓✘ ✘✘✓✘预训练办公室-家庭幼崽P@1P@5P@15P@1P@5P@15ImageNet49.944.939.522.618.816.2ID [42]42.236.231.822.418.014.9SimCLR [7]48.043.638.313.411.610.1SimCLR+DC48.043.538.413.511.710.1域名内ID44.239.132.622.818.915.8CDs56.353.950.240.937.535.29131→开集(a) 幼崽所以所以ImageNetCDs51.856.647.950.949.954.051.357.444.946.050.556.3舞蹈舞蹈ImageNetCDs42.056.854.655.932.953.653.064.251.650.749.162.8(b) 办公室-家庭所以所以ImageNetCDs55.760.569.673.157.862.554.059.172.574.357.862.3舞蹈舞蹈ImageNetCDs46.866.178.178.746.668.645.566.780.481.049.270.8表3:在每个设置上使用DANCE [ 34 ]与SSL基线的比较。我们报告平均类精度为开集DA。基线,我们比较了SO和DANCE的性能从不同的SSL基线。结果表3显示了使用DANCE [34]在闭集、部分和开集DA上与我们和SSL基线的比较。与ImageNet预训练相比,SSL基线获得了混合的结果,而CDS优于ImageNet预训练和SSL基线,除了Office-Home部分。这些结果表明,从CDS学习的表示更有鉴别力,域对齐,和有效的DA。通过比较CDS与ID + DC,我们的跨域匹配明显优于DC。在表4中,我们给出了关于开集和开偏DA的结果。DANCE在平均类准确率上获得了良好的性能,但H分数较低,这意味着DANCE在分类未知类时效率较低。与ImageNet预训练相比,CDS显著提高了SO和DANCE的H分数和总体准确度(Acc),同时提高/保持了平均类别准确度。ImageNet和下游数据集之间类别转移的影响。我们观察 到 CDS 对 CUB 比 对 UB-Home 更 有 利 。 这 是 因 为Office-Home中的大多数类别都与ImageNet共享,但CUB中有许多新颖的类CDS对下游任务更有用,这与ImageNet相比有更大的类别转移。与其他发展议程基线的比较。我们通过与表5中的其他DA基线在开放部分设置上进行比较,表明具有CDS的DANCE可以实现最先进的结果。我们报告了DANN[12],通用适应网络(UAN)[44]和校准的多不确定性(CMU)[11]的结果。DANCE获得了最先进的平均类准 确 性 , 但 实 现 了 较 低 的 H- 分 数 比 CMU 上 的 H-Home。当CDS应用于DANCE(DANCE+CDS)时,它在Office-Home上将平均类准确率提高在Office中,CDS略微降低了类平均准确度,但大幅提高了H分数。4.4. 少量域自适应Setup. 在本节中,我们将探索具有少量源标签的源域和未标记的源域的(c)办公室所以所以ImageNetCDs76.479.889.189.473.577.972.675.585.586.973.577.9DANCEDanceImageNetCDS79.391.894.194.774.592.182.487.393.791.280.387.3表4:在每个数据集中的所有设置上平均的开放集和开放部分DA的目标准确度(%)。方法办公室-家庭办公室h评分类累积h评分类累积SO [11]47.373.250.982.7DANN [12]46.273.250.681.8UAN [44]56.677.063.589.2CMU [11]61.678.073.191.1舞蹈[34]49.280.480.393.7舞蹈+CDS70.881.087.391.2表5:与其他DA方法在开放部分DA上的比较。我们报告了在家庭和办公室中所有设置下的平均分类准确率和平均H分数。目标域与封闭集DA,其中类别之间的源和目标是完全共享的。类似地,DA表示具有少量标记和许多未标记数据的源域,并且DB表示未标记的目标域(即, 使DA适应DB:DAD B)。传统的DA假设许多源标签可用,这可能会限制DA的广泛应用,如半监督学习文献[29]中所强调的。SSL在半监督学习中被证明是有效的[42,7]。遵循半监督学习评估协议,我们随机选择少量源标签(即。1-拍摄/ 3-拍摄),并将其他拍摄视为未标记。为了显示SSL对不同DA方法的益处,我们考虑了DANN [12],具有熵调节的CDAN [24],SRDC[37]和MME [33]。DANN和CDAN基于对抗域分类器(DC)。SRDC使用聚类,MME使用对抗熵优化进行域对齐。我们对所有基线和我们的未标记源数据应用熵最小化[15]。我们报告了三种不同随机分裂的平均准确度。结果表6显示了CDS与Office-Home和CUB上ImageNet预训练权重的比较,其中CDS在所有情况下都提高了性能。CDS在1次激发设置上显示出比3次激发设置相对于基线更高的性能增益,这显示了CDS的标签效率。即使在仅源模型(SO)的情况下,CDS也通过域对齐特征大大提高了性能。在CUB中,这是一个具有挑战性的细粒度分类数据集,标签很少,CDS显着提高了适应。预训练开偏ACC类累积h评分ACC类累积h评分预训练幼崽办公室-家庭关闭部分开放关闭部分开放ImageNet54.558.154.669.171.178.1ID [42]55.654.740.566.367.371.0ID+DC56.054.838.166.167.071.0SimCLR [7]49.152.733.266.668.172.5MOCo [16]52.452.532.265.966.672.0SwAV [6]55.456.145.267.469.073.2域名内ID56.656.239.566.466.871.9CDs59.065.455.969.969.778.79132→→→→办公室-家庭:Rw->Cl60555045403530255 25 50 75100%标签产品-首页:产品->产品605550454035305 25 50 75 100%标签表6:Office-Home和CUB数据集中所有设置下1次和3次激发的平均目标准确度(%)。图7:源标签的不同部分上的目标准确度。虽然其他SSL基线实现了与ImageNet预训练类似的结果,但我们的基线始终表现更好。办公室:D->A706050403020012345678910自助餐训练时期(一)办公室:D->A(1次)和O-H:Rw->Cl(1次)706050403020100 2 4 6 8 10自助餐训练时期(b)第(1)款表7:与D → A办公室各评价方案基线的比较。CDS的表现优于基准。与基线相比证明了准确性。这些结果表明,CDS比ImageNet预训练权重的简单适应更有效,这是现有DA工作中强大且特征分析为了了解这种性能增益来自何处,我们在表7中进行了特性分析。表7显示了我们与Office DA设置上的SSL基线的比较。首先,遵循[42,7]中的SSL评估协议,我们使用线性分类器和加权k最近邻(kNN)分类器评估学习的表示。我们冻结特征提取器,但在具有完整源标签的冻结特征之上训练线性分类器或kNN分 类 器 , 并 在 目 标 域 上 测 量 我 们 观 察 到 Jigsaw 和Rotation损害了ImageNet预训练的性能其次,我们在1次设置上使用CDAN对自适应列中的少量域自适应任务微调整个网络。在所有情况下,CDS的表现都大大优于基线。与SSL的标签效率比较。图7示出了在Office-Home上使用CDAN的具有不同分数的标签的我们和基线的结果。我们的方法持续优于基线,并且即使使用完整的源标签,也可以通过额外的标签稳定地改进,而SSL基线获得与ImageNet相似的准确性。当有几个源标签时,CDS大大提高。SSL和下游任务目标的一致性。一 个好的SSL方法应该使SSL目标与下游性能相匹配[42]。我们通过根据图1中的SSL学习训练时期8. 图8-(a),我们图8:(a):根据每个自监督学习的训练时期使用加权kNN的目标准确度。(b):根据CDS的训练时期使用CDAN的目标精度。使用表7中的相同kNN分类器根据Office上DA设置的SSL训练时期测量目标精度。 epoch 0的精度报告了ImageNet预训练的精度。竖锯和旋转在训练过程中准确性下降,即,过拟合到相应的代理任务。与基线相比,CDS提高了SSL早期训练阶段的性能并收敛。在图8-(b)中,我们还示出了根据在Of-Home中的DA和在Rw-Home中的Rw Cl上的训练时期,来自CDAN的三个随机分割的目标精度和标准偏差。我们观察到,与ImageNet权重相比,CDS提高了准确性。标准偏差表明,精度对不同的随机分裂不是很敏感。有关我们实验的更详细结果,请参阅我们的5. 结论传统的域自适应(DA)方法使用Ima-geNet预训练作为权重初始化。通过使用CDS的两阶段预训练,我们的目标是通过使用SSL学习下游多域数据的区分和域对齐特征本文提出了一种新的跨领域自监督学习方法,对来自多个领域的未标记数据进行杠杆老化。CDS可以可以轻松应用于提高各种域传输任务的性能,并优于标准的预训练和现有的SSL基线。鸣谢:这项工作得到了Honda,DARPA LwLL ,NSF Award No.1535797和韩国政府资助的IITP(MSIT)No. 2020-0-00004,预知智能的发展。ImageNetCDSIDSimCLRSimCLR+DC域内ID+DCSwAVImageNetCDSIDSimCLRSimCLR+DC域内ID+DCSwAVCDs域内ID+DC域内IDSimCLR+DCSimCLRID旋转拼图kNN Acc.(%)CDS D->AImageNet D->ACDS Rw->ClImageNet Rw->ClAcc.(%)CDAN Acc.(%)Acc.(%)预训练CUB:1次注射/3次注射的目标加速度(%)所以DANNCDANMmeImageNetCDs5.1/15.020.8/33.46.1/17.620.2/34.66.5/18.523.2/38.512.0/41.928.7/47.4预训练办公室-家庭:目标帐户(%)注射1次/注射3次所以CDANMmeSRDCImageNetCDs18.7/34.233.8/45.719.6/35.035.0/51.128.9/50.336.3/55.228.2/48.941.3/55.9预训练办公室:目标帐户(%)注射1次/注射3次所以CDANMmeSRDCImageNetCDs37.3/61.960.9/73.946.0/74.065.2/79.259.1/74.665.8/79.860.5/75.769.2/79.8预训练特征分析适应线性KNNCDAN 1-shotImageNetJigsaw [28]旋转[14] IDSimCLRSimCLR+DC61.9±1.650.7±0.441.1±5.362.2±0.662.5±0.662.7±0.653.5±0.032.3±4.536.4±3.059.6±0.460.2±0.260.9±0.246.6±4.348.9±5.244.7±4.145.2±2.854.0±3.053.8±3.3域内ID(等式1)第三章CDS(等式第五章)63.0±0.471.3±0.461.7±1.168.5±0.549.7±0.666.8±2.19133引用[1] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 Christopher Wang 、 Danny Gutfreund 、 JoshuaTenenbaum和Boris Katz。Objectnet:一个大规模的偏差控制数据集,用于推动对象识别模型的极限。在神经信息处理系统的进展,2019。1[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning,79(1-2):151-175,2010. 2[3] BharathBhushanDamodaran , BenjaminKellenber ger ,Re'miFlamary,Dev
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功