没有合适的资源?快使用搜索试试~ 我知道了~
9322基于开集域自适应的新靶点发现Taotao Jing< $,Hongfu LiuXiang,and Zhengming Ding<$†美国杜兰大学计算机科学系‡美国布兰代斯大学Michtom计算机科学学院网址:tjing@tulane.edu,hongfuliu@brandeis.edu,网址:www.example.com,zding1@tulane.edu摘要开集域自适应算法(OSDA)认为目标域包含了在外部源域中未观察到的新类别的样本不幸的是,现有的OSDA方法总是忽略了看不见的类别的信息的需求,并简单地将它们识别为“未知”集合而没有进一步的这促使我们通过探索底层结构和恢复其不可解释的语义属性来更具体地理解未知类别。在本文中,我们提出了一种新的框架,以准确地识别目标领域中的可见类别,并有效地恢复未见过的类别的语义属性具体而言,结构保持部分对齐开发,通过域不变的特征学习识别看到的基于视觉图的属性传播是为了通过视觉语义映射将可见属性平滑地转换为不可见属性此外,两个新的跨领域的基准构建,以评估所提出的框架中的新颖和实际的挑战。开集识别和语义恢复的实验结果表明了该方法的优越性。1. 介绍近年来,域自适应(DA)吸引了人们极大的兴趣,以解决标签不足或不可用问题,这是深度学习模型成功的瓶颈[16]。DA通过消除跨领域的分布差距将现有知识从相关源领域转移到目标领域[12,29],从而为我们带来了光明大多数DA努力集中在闭集域自适应(CSDA)[12,9]上,假设源域和目标域共享相同的标签空间,这在现实世界的场景中并不总是令人满意的,因为目标域可能包含比我们从源域知道的更多的在此之后,开集域自适应(OSDA)已经被广泛研究,给定源域仅覆盖目标域标签空间[33,29,25,22]。不幸的是,这些开创性的OSDA尝试只是识别已知的类别,而将剩余的未观察到的样本作为没有任何进一步的步骤,OSDA无法发现未知类别的真正含义。有趣的是,目标领域可能包含一些人类从未见过的全新类别。这促使我们更具体地进一步分析未知集合,并发现新的类别。本文定义了语义再加工开集域自适应(SR-OSDA)问题,其中源域同时使用类标签和语义属性标注,而目标域只包含来自更多类别的未标注和未标注的数据样本SR-OSDA的目标是识别可见的类别,并恢复未见过的类别的丢失的语义信息,以解释目标域中的新类别据我们所知,这是一个全新的问题,在文学没有探索。现在的挑战有两个方面:(1)如何利用标记良好的源知识准确识别目标领域中的可见和不可见类别;(2)如何有效地恢复不可见类别的缺失属性。为此,我们提出了一个新的框架,同时认识到已知的类别,发现新的类别从目标领域,以及解释他们在语义水平。我们的模型的总体思想是通过减轻跨域移位来学习域不变的视觉特征,从而构建视觉语义投影来恢复未知目标类别的缺失属性。我们的贡献突出如下:• 我们是第一个解决SR-OSDA问题,并提出了一种新的和有效的解决方案,以确定看到的类别,发现看不见的。• 我们提出了结构保持部分对齐,以减轻域转移时,目标覆盖更大的标签空间比源,和属性传播的视觉图,以寻求更好的丢失属性恢复的视觉语义映射。• 为SR-OSDA评估构建了两个新的基准-9323D{}D{}不不S不S不SSD DSD DA∈A第我们提出的方法在目标样本识别和语义属性恢复方面都取得了很好的效果。2. 相关工作在这里我们沿着开集介绍相关的工作表1.符号和描述符号描述s,t源/目标域s,u可见/不可见集Ks,Kt源/目标域类数Xs,Xt源/目标数据输入Ns,Nt源/目标样本数Ns,Nu可见/不可见集样本数t t域适应和零拍摄学习,并强调我们的工作和现有文献之间的差异。开集域自适应。 与经典封闭式相比Ys,As源域标签/属性xi,xj源/目标域实例源/目标域嵌入特征yi,yj预测源/目标获取标签集合域自适应[48,45,44,6,38,50,37,20,19,41],stai,aj预测源/目标属性开集域自适应管理更现实的任务当目标域包含来自类的数据时,Rx、Rz、可视/嵌入功能原型Fi,Fi源/目标联合表示在源域中存在[4,31,26,28,22,15,36,3,33]。Busto等人尝试研究当源域和目标域都包括彼此的独占类时的现实场景[29]。后来,Saito等人专注于当源域仅覆盖目标域标签空间的子集时的情况,并利用对抗框架来生成特征,并将偏离预定义阈值的样本识别为[15]不依赖于手动预定义的阈值,而是利用语义分类对齐和对比映射来鼓励来自已知类别的目标数据移动到接近对应的质心,同时远离未知类别。STA采用由粗到细的加权机制,将目标数据逐步分离为已知和未知类别[25]。最近,SE-CC将自集成技术扩展到目标域中的类别不可知聚类[28]。零射击学习利用注释数据来识别以前从未见过的新类别 的 需 求 激 发 了 称 为 零 射 击 学 习 ( Zero-ShotLearning,简称ZRL)的研究热潮[11,39,7,47,40,49,13,10,18]。早期的ZSL工程探索类语义属性作为中间,从看不见的类中分类数据[24,23]。一些ZSL方法学习视觉和语义空间之间的映射,以补偿来自不可见类别的视觉特征的缺乏[5,1]。然而,ZSL方法不保证可见类和不可见类之间的区分,导致在另一个现实场景下对可见类的偏见,广义零次学习(GZSL)。GZSL假设要评估的目标数据来自整个标签空间,包括可见和不可见的类[18,34,17,5,14]。最近,研究了生成框架以从看不见的类生成合成的视觉特征,从而提高了ZSL和GZSL的性能[43,42]。[51,43]使用Wasserstein GAN [2]和可见类别分类器来增加合成特征的区分度。[14]利用循环一致性损失来优化合成大小的特征生成器,[42]研究条件性VAE[21]学习特征生成器。与开集域自适应不同,所提出的SR-OSDA问题要求恢复可解释的知识。St边缘的目标数据的类从来没有出现在源域中,并发现新的类。此外,SR-OSDA比GZSL问题更具挑战性,因为我们无法访问目标领域新类别的属性或任何其他语义知识,这使得SR-OSDA成为更现实和实用的问题。3. 动机和问题定义在本节中,我们将说明我们的动机,并提供语义恢复开集域自适应的问题定义。当目标域包含来自源域中从未观察到的类的数据时,开集域自适应任务[29]专注于场景,这比传统的闭集域自适应更实用[12]。然而,现有的开集域自适应努力简单地将那些看不见的目标样本识别为一个大的未知类别,并且放弃探索未知集合内的判别和语义知识。为了更好地理解目标领域中的新类,我们研究如何恢复缺失的语义属性来解释目标数据并发现新类,这就引出了本文所要解决的语义恢复开集域自适应(SR-OSDA)问题SR-OSDA的主要挑战在于,不仅在看不见的类中识别目标样本,而且还提供这些样本的分区结构与恢复的语义属性以供进一步解释。为了更好地理解,我们用数学符号来阐明这个问题。目标域被定义为 t=Xt,包含具有来自K t类别的视觉特征的N t个样本。辅助源域s=Xs,Ys,As由来自具有视觉特征Xs、标签Ys和语义属性As的K个类的Ns个样本组成。对于每个源样本,从其获得语义属性ai=yi,ai,Rda,其由源域的类属性组成。SR-OSDA的目标是基于视觉特征恢复目标数据中缺失的语义属性,并发现新的类别9324−····S/t主不变特征空间exp- d(xi,µc)p(yt = c|xt)= Σexp.−d(xi,µc),我我图1.我们提出的框架的插图,其中Xt包含一些看不见的类别从Xs。卷积神经网络(例如,ResNet [16])被用作主干来提取视觉特征Xs/t,其被进一步输入到GZ以通过部分对齐来学习域不变特征Zs/tGA然后将Zs/t映射到语义属性As。视觉-语义特征被融合用于最终分类任务,一个是D以从目标数据中识别可见/不可见,另一个是C以将所有跨域数据识别为Ks+1个类(即, Ks seen +one unseen large category)。永远不会出现在源域中。表1显示了SR-OSDA设置中的几个关键符号和描述。值得注意的是,源域和目标域来自不同的发行版。此外,目标数据集覆盖了源域中的所有类,以及仅存在于目标域中的K个独占类别,其中K=K t K s>0。SR-OSDA不同于开集领域自适应,它忽略了在目标领域中恢复可解释的知识和发现新的类此外,所定义的问题不同于一般的问题零射击学习[34],因为我们无法访问目标领域未见过类别的语义知识。据我们所知,SR-OSDA是第一次提出,旨在发现新的目标类,通过恢复语义属性的辅助源数据。在下文中,我们说明了我们的解决方案,以学习视觉特征和语义属性之间的关系与源数据的指导下,它可以被转移到目标数据和可解释地发现看不见的类。4. 该方法4.1. 框架概述为了解决上述SR-OSDA问题,我们提出了一种新的目标发现框架(图1),以同时从源域中已经观察到的类别中识别目标域数据,并从源中恢复未知目标类的可解释语义属性。为此,本文设计了三个模块,分别解决了跨域转换、语义属性预测和任务驱动的开集分类问题。具体地说,源数据适应目标域获取具有可信伪属性的数据。此外,视觉特征将引导属性从可见类别传播到不可见类别,语义属性也将通过C()和D()的联合视觉-语义表示识别来促进视觉特征区分,其中D()是识别可见和不可见目标样本的二元分类器,C()是具有Ks+1个输出的扩展多类分类器。由于目标数据是完全未标记的,并且所有三个模块都依赖于目标域中的标签信息,因此我们首先讨论如何通过我们设计的渐进式Seen-Unseen分离阶段来获得目标样本的伪标签也就是说,我们将目标样本分配到K个观察到的类别和K个未观察到的类别。在下文中,我们介绍了渐进式的可见-不可见分离和我们提出的框架中的三个关键模块。4.2. 模与目标函数渐进的看不见的分离。在这里,我们描述的初始化策略,以分离的目标域数据到可见和不可见的集合的基础上的视觉特征空间。直观地,部分源样式目标样本被良好训练的源模型很有希望地识别,其实际上更有可能属于所看到的类别。另一方面,在多个类别中分配有均匀和混合预测概率的那些目标样本为了实现这一点,我们应用原型分类器来测量每个目标样本与所有源类原型之间的相似性[35]。对于每个目标样本xi和源Ks原型{µc|Ks},概率通过部分对齐在特征空间中进行匹配,同时保留目标结构。投影仪GA(·)桥接所述多个投影仪GA(·)。S/t空格ai是由源数据和目标数据训练不预测定义为:c=1.Σ不(一)c′不语义属性9325·不不不不R联系我们DR {······ }···IJIJ11∈S/t1yi=cd(zs,Rz)−Sd(zs,Rz)不不不Nu,分别。 具体来说,我们定义τ为不不不xi∈Du,piτLt=N1y~i=cd(zt,Rz)−|R|−1d(zt,Rz))。不Ns(c)xi∈Ds(c)不不不不22IIJ IJz不不不不ttΣΣΣΣR∈D·RR表示N个s(c)的集合,其获得被预测为y~i=c的样本这两个损失函数有助于将源和目标对齐,其中d()是距离函数。采用最高概率预测p_i作为伪标签y~i,用于源样品到其特定目标中心,并远离其他目标中心,如:t tXi. 接下来,我们采用阈值τ来逐步分离% s% u%N % s | Rz|将所有目标样本分成可见集合Dt和不可见集合Dt。R1ΣΣ。Ds和Du中的样本的数量被表示为Ns,并且NsSic1yi=c|R z| −1ic所有目标样本的最高概率预测,即,其中K s+ K = |Rz|中的原型总数τ=1Σip i. 基于此,我们可以构建两个集合:Ntxt∈Dt不.xi∈Ds,pi≥τz. 另外,我们把类似的损失部署在-类目标样本更紧凑,同时保持-t t tNt |Rz|1我因为我们一开始只有源代码原型由于域偏移,它们不能准确地识别可见和不可见的集合。这样,我们就可以逐步更新所看到的R1i=1c=1icy~t=cicz(四)通过涉及新标记的目标样品这样的损失函数将使类内目标样本Ds作为µc=(1−α)µc+α1Σxi,其中Ds(c)自信,而且无法获得域不变视觉特征,而且还需要寻找更多α是控制混合物跨领域的原型。在获得所见集合Ds中的所有伪标签之后,我们不目标样本上的判别知识。然后我们得到了结构保持部分域自适应的目标为我也需要在Du中探索更具体的知识L=Ls+Lt。把它当作一个整体来对待[33]。为此,我们应用K-means聚类算法将 u分组为K个聚类,聚类中心为ηk1,,ηK。 这样,我们可以得到所有可见和不可见类别的原型,x=µ1,,µ Ks,η k1,,η K.为了细化目标样本的伪标签,我们采用K-means聚类算法,中心初始化为xover X t,直到结果收敛。为此,我们获得目标样品的所有伪标签。我们还分配语义属性看到的目标样本的基础上,他们的伪标签属于哪个源类别。接下来,我们探索结构保持部分对齐,属性传播和任务驱动的分类来解决SR-OSDA。结构保持部分对齐。由于源域和目标域标签空间之间的差异,直接匹配跨域的特征分布是破坏性的。考虑到我们的目标是在目标域中发现看不见的类别,保留结构使用可视结构的属性传播。由于未看到的目标样本完全没有任何类别标签或语义属性的注释,因此我们的目标是通过视觉语义投影仪GA()来恢复它们的语义属性。然而,只有在源域中可见的类的属性知识可用于训练,而来自不可见类别的目标样本无法优化 GA(),这可能导致投影GA()偏向当处理看不见的目标类样本时,将其应用于可见的类别为此,我们提出了属性传播机制,将可视图知识聚合到语义描述投影中,有利于属性从可见类传播到不可见类。具体地,对于训练批次的特征zi=G Z(xi),邻接矩阵A被计算为A ij=exp( −d2/σ2 ),其中Aii=0,i,并且dij=zi−zj2是(zi,zj)的距离。σ是一个缩放因子,设置为σ2=Var(d2),如[32]所示,以稳定训练。从视觉特征投影的属性被重建为:目标域数据的知识变得更加关键。因此,代替映射源和目标,mains到一个新的域不变的特征空间,我们寻求i=J Wij克活性GZ(xj)(5)通过部分对齐将源数据与目标域分布对齐。具体地说,在目标域伪其中L=D−AD−,D=A且W=(I−βL)−1,其中β R是如[32]所建议的固定比例因子,I是单位矩阵。语义之后对于伪标签空间中的每个类c,attri butespropag ation,i是一个加权的组合包含K个s+K个类别,原型可以计算为特征空间中的类中心z可以计算为c=Exizi1y~i=c。原型z描述z中目标领域中的类结构知识特征空间为了解决域差异,我们将每个由视觉图引导的其邻居的二进制化。这有利于投影仪从过度拟合到所看到的类别,同时消除不需要的噪声[32]。在通过属性传播进行投影属性精化之后,我们优化了上的属性投影器GA(·)。Ls=、i=1c =1(三).(二)分类目标样本更有鉴别力,如:更紧凑,同时远离其他。不9326St不不不∈DT RA⊕⊕·FF··St··不SSSSFi={~fi,{fi},xi∈Ds,(7)不Nt不不不不不不不DΣ Σtt在两个域中看到的类别为:表2.D2AwA和I2AwA数据集的统计特征的1L=N+Nsxi∈ΣDs∪DsLbce(ai,ai), (6)其中L公元前(·)是二进制交叉项损失,并且样本数(以s为单位)。语义属性的每个维度表示一个特定的语义特征,并且描述输入样本具有特定特征的预测概率保留部分适应、语义属性传播和预测以及联合视觉-语义表示识别为:视觉语义融合识别。由于视觉特征和语义属性描述了来自minGZ,GA,C,DL+λ1L+λ2L,(10)不同的视角。为了同时利用视觉和语义描述的多模态优势,我们通过将语义区分信息ai传递到视觉特征zi中来探索联合视觉和语义表示,如fi=ziai,其中是连接。zi和ai作为联合特征fi。值得注意的是,在训练期间,若干不同的语义属性在不同阶段中可用,例如,地面实况(ai)、伪属性(~ai)和预测属性(ai)。我们将考虑所有这些因素,并将获得以下各种联合陈述:Fi={fi,ˆfi},xi∈Ds不不 不不不不不不不其中λ1和λ2是两个折衷参数。通过最小化所提出的目标,语义描述知识从源数据聚合到未标记的目标域通过联合视觉-语义表示监督和属性传播。同时,跨域部分自适应也促进了目标域中的区分性视觉结构5. 实验5.1. 实验设置数据集。我们为新的SR-OSDA构建了两个数据集设置. (1)D2AwA由DomainNetFi={{fi},xi∈Du其中fi=ziai,~fi=zi~ai,且=ziai.在DomainNet和AwA 2之间共享了17个类,并且se-选择按字母顺序排列的前10个类作为查看的类别,s s s t ttS/tS/tS/t留下其余7个类不可见。相应的中的所有关节特征s和t被输入到分类器中C()和D()来优化框架。为了维持分类器C()在来自源域和目标域的监督上的性能,我们将交叉熵分类损失构造为:AwA2中的属性特征被用作语义描述。值得注意的是,DomainNet包含6个不同的域,而它们中的一些几乎不共享由AwA2的属性描述的语义快拔枪。于是,我们只取C1L=N+Nfi∈ΣDs∪DtLce(C(fi),yi),(8)(P)结构域,连同用于模型评估的AwA2(A)数据。(2)I2AwA由[53]收集,由50个动物类别组成,并分为40个可见类别其中Lce()是交叉熵损失,并且yi表示K个源标签和K个目标标签。此外,我们训练了一个二元分类器D(),将目标域分成可见和不可见的子集,可以通过以下方式进行优化[10]《说文》:“十有八九。源域(I)包括来自通过Google图像搜索引擎收集的可见类别的2,970个图像,而目标域来自用于零拍摄学习的AwA2(Aw)数据集,具有37,322个所有50个类别中的图像[46]。 我们使用二进制属性1L=Lxi∈Dtf∈Fi(D(f),ψ(y~i)),(9)的AwA 2作为语义描述,并且只有所看到的猫-源数据的历史属性可用于训练。在I2AwA上仅评估一个任务I→Aw。表2显示其中ψ(y~i)指示目标样本xi是否来自D2 A wA和I2 A wA的一般统计特性。t t看得到的猫类(ψ(y~i)=0,xi∈Ds),或从看不见的cat egories(ψ(y~i)=1,xi∈Du).然后,我们在源域和目标域上都有我们的分类监督目标,具有联合视觉和语义表示为LT=LC+ LD。总体目标函数。综上所述,我们可以通过对结构进行整合来获得总体目标函数数据集[30]和AwA2[46]。 具体来说,我们选择公元前评估指标。我们评估我们的方法在两个-(1)开集条件下的目标样本识别;数据集D2AwAI2AwA域一PR我AW作用源目标源目标源目标源目标图像数量9,34316,3063,4415,7605,25110,0472,97037,322#属性8585858585858585#类10171017101740509327主适应和(2)广义语义属性恢复。对于第一个,我们遵循传统的开集域适应研究[29,33],将整个目标域数据识别为可见类别或“未知”类别之一标准开集域自适应9328·××·····表3.D2AwA和I2AwA上的开集域自适应准确度(%)数据集D2AwAI2AwA任务A→ PA→ RP→ AP→ RR→ AR→ PI→ Aw方法操作系统OSOS操作系统OSOS操作系统OSOS 操作系统OSOS操作系统OSOS 操作系统OSOS操作系统OSOSOSBP [33]49.610.846.074.213.668.776.09.169.963.36.958.290.113.783.255.910.651.767.67.566.2美国[25]60.133.057.685.510.878.790.25.782.582.87.476.088.57.281.166.913.562.051.545.551.4AOD [15]50.79.546.978.412.772.480.35.173.579.75.373.092.012.884.861.29.656.575.26.373.5我们的(初始化)53.145.152.378.872.378.275.394.877.167.382.068.686.287.786.452.077.854.482.26.373.5我们的(可见)54.176.156.175.470.375.069.598.572.157.483.159.788.398.889.258.791.261.648.270.348.7我们62.847.261.490.971.489.179.298.581.078.383.778.894.990.594.561.280.463.083.270.282.8表4.D2AwA和I2AwA上的语义恢复准确性(%)数据集D2AwAI2AwA任务A→ PA→ RP→ AP→ RR→ AR→ PI→ Aw方法SUHSUHSUHSUHSUHSUHSUH只有源67.60.00.087.60.00.091.30.00.085.30.00.094.10.00.071.10.00.077.20.30.7ABP [52]68.10.00.087.90.00.091.70.00.083.60.00.094.40.00.070.00.00.079.80.00.0TF-VAE [27]70.40.00.088.40.00.085.10.00.079.60.00.096.40.00.072.50.00.062.80.00.0ABP*[52]64.56.411.786.05.911.184.024.437.881.312.721.993.816.227.667.67.914.178.013.422.9TF-VAE*[27]59.712.821.077.916.427.135.135.635.334.832.733.768.536.147.350.721.029.737.720.026.2我们62.527.037.790.730.045.179.236.750.278.015.726.195.237.854.159.020.830.883.122.034.8在所有类别上计算的平均准确度报告为OS。此外,我们将在目标域上计算的平均准确度报告为OS *,而对于目标域未见过的类别,准确度报告为OS。 对于语义属性恢复,我们比较了预具有真实语义美德.先知-愿具体而言,我们采用两阶段测试:(a)从可见或不可见集合中识别测试样本,(b)应用具有相应的可见/不可见地面实况属性的原型分类。我们将可见类别和不可见类别的性能分别报告为S和U,并计算调和平均值H [34],定义为H=2SU/(S+U)。请注意,我们报告的所有结果都是类的top-1准确度的平均值,以消除不平衡类造成的影响。实施. 我们使用ImageNet上预先训练的ResNet-50 [16]作为主干,并将倒数第二个完全连接层作为特征Xs/t[8,16]。GZ()是一个两层全连接神经网络,隐层维数为1,024,输出特征维数为512。C()和D()都是隐层维数为256的两层全连接神经网络分类器,C()的输出维数为Ks+1,而D()的输出只是表示可见或不可见类的两个维度。GA()是一个两层神经网络,隐层维数为256,最终输出维数与语义属性维数相同,后接Sigmoid函数。我们采用余弦距离的原型分类,而所有其他的距离中使用的文件是欧氏距离。为了简单起见,我们采用地面真实小说类数作为K,并且我们注意到结果对K的值不敏感固定α=0。001,β=0。2,λ1=10−4,λ2=0。1,所有实验的学习率固定为10- 3,并报告所有实验的第100个epoch结果源代码这项工作可在网上1。竞争方法。由于我们在本文中解决的问题是在一个新的和实际的设置,我们主要比较两个不同的分支的基线开集域适应和零拍摄学习。对于开集域自适应,我们将我们的方法与OSBP[33],AOD [15]和STA [25]进行比较。OSBP利用对抗性训练策略来提取目标数据的特征,这些特征通过预定义的阈值被识别为可见/不可见的类别[33]。AOD利用来自分类对齐和对比映射的开集数据的语义结构来将未知类推离决策边界[15]。不同的是,STA采用从粗到细的机制来逐步分离已知和未知数据,而无需任何手动设置的阈值[25]。对于语义恢复任务,我们实现了一个仅源训练的神经网络,以及两个零射击学习方法,ABP [52]和TF-VAE [27]作为基线。仅源模型是一个完全连接的神经网络,仅使用源域ResNet-50 [16]特征进行训练,它学习投影仪将视觉特征映射到语义属性。ABP训练条件生成器,将类别级别的语义特征和高斯噪声映射到视觉特征[52]。TF-VAE提出在所有训练、特征合成和分类阶段强制执行语义一致性[27]。此外,ABP和TF-VAE都能够处理广义零射击学习问题,从整个目标标签空间的语义属性我们还报告了ABP* 和TF-VAE*,它们采用在一个范围内。 聚类数估计有很多种方法方法,但超出了本工作的范围。 对于参数,我们1https://github.com/scottjingtt/SROSDA.git9329→→→LLL(一)(b)第(1)款(c)第(1)款(d)其他事项图2.tSNE可视化由(a)ResNet,(b)STA和(c)我们在I2AwA上生成的表示。(d)显示了我们的论文中提出的联合红色圆圈表示源数据。蓝色和灰色三角形表示目标域可见和不可见类。egories,例如,我们的方法实现了37. 8%的准确率为un-seen类数据,同时保持95。任务RA的可见类的2%性能此外,我们提出的方法甚至优于ABP* 和TF-VAE*。它们可以访问源域和目标域中的可见和不可见的分类属性,而我们的方法只使用可见属性图3.通过删除结构保留部分对齐(w/oR),二元分类器(w/oD),属性传播(w/o AP)或联合视觉语义表示(w/oVS)中的特定一个,对我们提出的I2 AwA作为输入的额外的看不见的目标类别的语义。5.2. 算法的性能表3示出了D2AwA和I2AwA上的开集域自适应精度。从结果中,我们观察到,我们提出的方法在大多数任务的整体准确性方面优于所有比较的基线。特别是在任务A R,我们的模型提高了10。4%,高于第二最佳比较方法。显著的改进来自于我们有效的框架和额外的源语义信息。注意,在经典的开集域自适应中,没有语义属性被利用。为了公平比较,我们基于报告为“Ours(Init)”的视觉特征提供初始化结果,并进一步实现我们的方法的另一个变体,其中仅视觉特征可用于训练,表示为“Ours(Vis)”。“Ours(Vis)”的性能下降此外,我们提出的方法达到了有希望的结果看不见的类,同时保持性能上看到的类的所有任务。例如,STA在任务PA上实现了最佳的整体准确性,但是在看不见的类别上完全失败,并且过度拟合到所看到的类。这样的观察强调了我们的方法在探索目标域看不见的类别的优越性表4分别显示了D2AwA和I2AwA上的语义恢复准确性在预期的范围内,所有的ZSL方法无法识别的数据,从看不见的类别和过拟合看到的类,由于缺乏能力,在处理开集设置。我们提出的方法取得了可喜的成果,识别看到和看不见的猫。类别属性信息在源域中。5.3. 深度因素探索在本小节中,我们首先从我们的模型中可视化表示,探索所提出的方法的消融研究,展示具有预测属性的几个代表性样本,最后通过混淆矩阵提供关于可见和不可见目标类别的更多细节。表示可视化。我们在图2中显示了来自不同模型的I2AwA的t-SNE嵌入,其中红色圆圈表示源数据,蓝色和灰色三角形分别表示目标域可见和不可见类。我们的方法的嵌入表明,跨域的相同类样本比仅源ResNet-50[16]和STA [25]产生的表示更紧凑,同时具有区分性。此外,我们的嵌入显示了联合视觉语义表示与更多的歧视性分布,并分离看不见的类别,从看到的类更清楚。这样的观察证明了语义属性的有效性,这不仅有利于看不见的类别,而且还提高了所见类别的特征的质量。消融研究。我们深入到我们的完整的方法和开放集域适应和语义恢复任务的几个变种,以了解我们的框架中的每个特定的设计的贡献。如图3所示,我们有以下观察结果。(1)与去除结构保留部分比对项R的w/o R相比,我们的方法在开集域任务上实现了显着的性能增益,特别是对于所见的类别。这证明了在保持目标数据结构特征的同时将源数据与目标域对齐的有效性。(2)与w/o相比,我们的方法提高了两个任务的性能D,恢复二元分类器D(·)并且仅使用分类器不含R不含D不含AP不含VS(b)第(1)款操作系统*操作系统◇OSSUH准确度(%)准确度(%)(一)9330·棕色:0.92长腿:0.97长颈:0.98步行:0.96沙漠:0.91苍蝇:0.98咀嚼齿:0.98步行:0.97平原:0.64四足:0.92棕色:0.94黄色:0.99苍蝇:0.95小:0.92咀嚼齿:0.87树:0.75黄色:0.9红色:0.9鱼:0.9脚蹼:1水:1游泳:1森林:0.9长颈:0.92长颈鹿P:0.8 R:0.7羊P:0.6 R:0.7蝙蝠P:0.7 R:0.5密封P:0.6 R:0.6大:0.92咀嚼齿:0.97肌肉:0.93四足:0.98沙漠:0.97山:0.97强:0.92步行:0.96胆小:0.93组:0.9慢:0.92无毛:0.65水:0.91胆小:0.93智能:0.84游泳:0.92小:0.72苍蝇:0.93灰色:0.93小:0.92爪:0.74地面:0.8食草动物:0.93胆小:0.89长颈鹿P:0.8 R:0.8大鼠P:0.7 R:0.7海象P:0.6 R:0.6马P:0.7 R:0.8图4.从AwA2数据集选择的样本和通过我们的方法预测的属性黑色的是正确预测的属性,红色的是错误的预测,绿色的是错误的预测,但对于特定的实例是合理看不见的探索看不见的类别定性论证。为了定性地说明我们的方法在发现新类和恢复丢失的语义信息方面的有效性,我们进一步在图4中显示了来自I2AwA上的目标域未见过类别的几个代表性样本。对于每个样本,我们展示了一些正确和错误的预测属性以及相应的预测概率。 此外,一些预测的属性对于预测0 1020 3040预测(a) STA(b) 我们相应的类别,但对于特定的图像是合理的。从结果中,我们证明了我们的模型在将语义知识从源域转移到目标数据,并通过丢失的语义信息恢复发现新的类的能力。混淆矩阵。我们在图5中可视化了STA的混淆矩阵和我们在I2AwA上的方法。STA仅将来自看不见的类别的那些目标样本重新识别为未知的。相反,我们提出的方法可以发现新的类别在目标域。令人惊讶的是,我们的方法对类别图5.来自I2AwA的靶标样品的混淆矩阵。(a)显示STA的结果和(b)列出我们的。未看到的类被放大以获得更好的可视化。C()识别可见/不可见的类别。我们的结论是,二进制分类器可以细化看到和看不见的类的分离。(3)通过移除属性传播机制,性能w/o在语义恢复任务上显著降低,特别是对于看不见的类别,证明了属性传播对于语义恢复任务和发现看不见的类别的贡献。(4)我们的方法优于变体,而不构造视觉语义融合w/oVS,它只使用视觉特征进行预测。对于开集域自适应可见类和语义恢复可见类,验证语义知识对可见类和可见类上保持性能的视觉特征的有效性。九十六。百分之五此外,我们还注意到,不仅有利于发现看不见的类别,我们的方法还提高了看到的类的准确性相比,STA。6. 结论提出了一种新颖实用的语义恢复开集域自适应问题,该问题旨在从源域中未观察到的类中发现目标样本,并基于恢复的语义属性进行解释。为此,我们提出了一种新的框架,包括结构保持部分对齐,属性prop-agation通过视觉图,和任务驱动的分类联合视觉语义表示。最后,两个语义开集域适应基准被构造来评估我们的模型在开集识别和语义属性恢复方面。0102030400 1020 30 40地面实况地面实况9331引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。 用于 图像 分类 的标 签嵌 入。 IEEETransactionsonPatternAnalysisandMachineIntelligence,38(7):1425-1438,2015. 2[2] Martin Arjovsky 、 Soumith Chintala 和 Léon Bottou 。wasser-stein生成对抗网络。在机器学习国际会议上,第214-223页。PMLR,2017年。2[3] MahsaBaktashmotlagh, MasoudFaraki,TomDrummond,and Mathieu Salzmann.学习开集域适应的因子 分 解 表 示 。 在 第 七 届 国 际 学 习 表 征 会 议 , ICLR2019。国际学习表征会议,ICLR,2019年。2[4] 西尔维娅·布奇,穆罕默德·礼萨·洛格马尼,塔蒂亚娜·汤姆马西.关于图像旋转对开集域适应的有效性。欧洲计算机视觉会议,第422-438页。Springer,2020年。2[5] Wei-Lun Chao,Soravit Changpinyo,Boqing Gong,andFei Sha.广义零拍学习在野外物体识别中的实证研究与分析。欧洲计算机视觉会议,第52施普林格,2016年。2[6] 陈明浩,赵帅,刘海峰,蔡登。领域适应的逆境学习损失。在AAAI人工智能会议论文集,第34卷,第3521-3528页,2020年。2[7] Xingyu Chen,Xuguang Lan,Fuchun Sun,and NanningZheng.一种基于边界的分布外分类器,用于广义零射击学习。欧洲计算机视觉会议,第572-588页。Springer,2020年。2[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。6[9] 丁正明、李胜、邵明、傅云。无监督域自适应的图形自适应知识转移。在欧洲计算机视觉会议论文集,第37-52页,2018年。1[10] 丁正明和刘洪福。边缘化的潜在的SE-MANTIC编码器为零拍摄学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第6191-6199页,2019年。2[11] 丁正明、明绍、云甫。用于零射击学习的低秩在IEEE计算机视觉和模式识别会议论文集,第2050-2058页,2017年。2[12] 董家华,杨聪,孙甘,刘玉阳,徐晓伟. Cscl:无监督领域自适应的关键语义一致性学习。欧洲计算机视觉会议,第745-762页Springer,2020年。一、二[13] Mohamed Elhoseiny和Mohamed Elfeki。创造力来自于启发式的零射击学习。在IEEE/CVF计算机视觉国际会议论文集,第5784- 5793页,2019年。2[14] Rafael Felix,Ian Reid,Gustavo Pastiro,et al.多模态循环一致性广义零激发学习。进行中-欧洲计算机视觉会议,第21-37页,2018年。2[15] 风千羽,康国良,樊赫赫,杨毅。吸引或分散注意力:利用开放集的边缘在IEEE/CVF计算机视觉国际会议论文集,第7990-7999页二、六[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。一、三、六、七[17] 黄和,王长虎,菲利普·S·余
下载后可阅读完整内容,剩余1页未读,立即下载




















安全验证
文档复制为VIP权益,开通VIP直接复制
