没有合适的资源?快使用搜索试试~ 我知道了~
3279基于视觉-语义双映射路径的李东辉王燕桓杭胡月潭林月婷庄浙江大学{ynli,dhwang,huhh,linyuetan,yzhuang}@ zju.edu.cn摘要零拍识别的目标是通过使用图像特征空间和语义嵌入空间之间的共享视觉语义映射来准确地识别未见过的类的对象。这种映射是在可见类的训练数据上学习的,并且预计具有向不可见类的转移能力。在本文中,我们解决这个问题,利用语义空间流形和视觉语义映射的传输能力之间的内在关系。我们将它们的连接形式化,并将零炮识别作为一个联合优化问题。基于此,我们提出了一个新的框架零拍识别,其中包含双重视觉语义映射路径。分析表明,该框架不仅可以应用先验语义知识来推断图像特征空间中的潜在语义流形,而且可以生成优化的语义嵌入空间,从而增强视觉语义映射到不可见类的在四个基准数据集上对所提出的方法进行了零炮识别评估,取得了优异的效果。1. 介绍视觉对象识别通常需要大量收集每个类别的标记图像,并且只能将对象分类为已经看到的类别。随着识别任务向大规模和细粒度类别发展,很难满足这些要求。例如,许多对象类别,如濒危鸟类和稀有植物物种,通常遵循长尾分布[38],我们无法事先轻松收集它们的图像。此外,大量图像的细粒度注释是费力的,甚至需要具有专业领域知识的注释者[16,29,34]。这些挑战激发了零触发识别(ZS-R)算法的兴起,其中许多类没有标记图像[20,17]。*通讯作者图1.说明我们提出的方法为ECORR。所有对象类分别在X s和K s中呈现两个不同的类级流形,如子图所示。两条平行的路径,从相同的空间Xs开始,到达不同的空间Ks,表示两个视觉语义映射fs和fs。电流BXR方法只需要一个路径,即fs,将Xs投影到Ks上,并预测Ks中的标签。我们的方法使用双路径设置,包括三个步骤:(1)从两个异构空间Xs和Ks中学习fs;(2)在Xs并生成与Xs同源的Ks;(3)迭代对齐在Xs和Ks中构造了fs和精化Ks。当前的语义嵌入算法广泛采用在输入图像特征空间X和输出标签空间L之间引入中间语义嵌入空间K的有效 方 法 。 空 间 K 包 含 许 多 语 义 嵌 入 ( 缩 写 为embedding),这些语义嵌入可以是人工定义的属性向量[35,1,17,24,10,11],也可以是从辅助文本语料库中自动提取的词向量[19,2,5,18,21]。作为对象标签的语义对应物,即每个属性向量或词向量对应于唯一的对象类,嵌入可以建立类间连接。例如,诸如毛茸茸的、有条纹的和四条腿的等的动物,在所有类别中是共享的,并且可以被转移到从可见的斑马、猫等预测不可见的老虎。与类标签相比,嵌入具有一些特殊的性质。(1)它们在空间K中呈现出一种比有序结构更为复杂的几何结构KsXsK~S3280没有一个典型的标号表示,例如空间L中的独热向量,它们分布在具有相同边长的超单形的顶点上。这种特殊的几何结构,本文称之为语义流形,可以编码标签空间L中所缺少的可见类和不可见类之间的关系。(2)不同的嵌入具有各自的特征流形结构,这会导致识别性能的明显差异。例如,在相同的数据集AwA [16]上,属性向量通常比词向量[2,32]在看不见的类上实现更好的识别性能。(3)嵌入需要提前构建,并在学习期间保持不变。这些性质自然提出了几个值得进一步研究的问题。第一,K中什么样的语义流形可以被用于CSTR?[24]已经证明了由正交或随机向量组成的K在BPR中是失败的,但值得期待对这个问题进行更多的讨论。第二,为什么不同的K值会改变系统的性能?K中的流形结构似乎是造成这种变化的关键因素之一,但它们之间的内在联系还缺乏深入的分析。第三,如何构造一个更好的K来提高对未知类的识别率?有些工作已经取得了令人鼓舞的成果. [2]提出从专门的语料库集合中学习Dogs数据集的面向任务的词向量。[22]提出了一个深度学习框架,通过图像和文本数据的联合训练来学习新的嵌入实验结果证明这两种策略都是可行的,但都需要收集大量的辅助信息来帮助训练。相比之下,[36]通过监督字典学习从给定的K学习新的潜在嵌入。值得注意的是,所有这些方法都没有考虑使用X中的底层流形信息来构造K,这使得它与X不相关。在本文中,我们专注于解决上述关键问题- s与思想从流形对齐[30,31]。与K类似,X也包含一个内在的流形结构,特别是对于深度特征。在BXR中,我们需要通过学习可见类上的视觉语义映射fs来对齐X和K中的两个不同流形。直接学习这种映射是一个非常具有挑战性的任务,因此我们建议将其转化为K和fs的联合优化问题,即使是简单的线性fs也会产生令人惊讶的结果。在我们的工作中,我们首先回答什么样的语义mani-fold在K可以提供一个有用的内在的关系,看到和看不见的类之间的CNORR。然后,我们提出了一个类间语义一致性度量,用于评价两个语义流形之间的匹配程度。特别地,基于这个测度,我们得到了一个重要的结论,它揭示了语义流形与fs在不可见类上的迁移能力之间的联系这意味着,X和K中的两个流形越多,一致的,映射Fs可以更好地对准它们,并且在看不见的类上可以实现更高的识别准确度。基于这一结论,我们提出了一种有效的学习策略来解决语义空间问题,该策略交替优化映射fs和语义空间K,并逐渐使K中的语义流形与X中的语义流形更加一致.总结起来,我们的主要贡献如下。• 我们形式化了语义流形与视觉语义映射fs的传递能力之间的内在关系,揭示了优化语义流形在新的语义映射算法开发中的重要性。• 我们引入了一种新的思想,将问题转化为语义空间K中的流形结构和视觉语义映射fs的联合优化。得益于这一思想,我们可以通过细化K中的流形结构来弥补fs传递能力的不足,特别是当X和K中的两个流形严重不一致时。• 我们提出了一个新的框架,即双视觉语义映射路径(DMaP),以解决这个连接, t优化问题。我们的算法不仅可以学习一个优化的视觉语义映射fs,而且还可以学习一个新的语义空间,它与X相关。我们的实验表明,使用这种优化的语义空间,可以显着提高转移能力的fs上看不见的类。• 我们在四个数据集上测试我们的方法:有属性的动物,加州理工大学-USCD鸟类[29],斯坦福犬[14]和ImageNet,并在两个不同的CSTR任务上进行评估:常规设置和通用设置(详见下一节)。我们在这两项任务中的成果都达到了最先进的水平。2. 相关工作我们着重从以下三个方面来比较我们提出的方法和相关工作。视觉语义映射路径。从视觉-语义联系的角度来看,所有的图像检索方法都需要构造一条从图像特征空间X到语义空间K的映射路径。一些方法通过学习视觉语义映射fs[16,13,17,24,13,2,33]直接将X投影到K,而其他方法通过引入中介空间间接实现相同的例如,[8]提出首先通过使用核投影将X变换到一个新的特征空间,然后这个新特征可以很容易地用于fs的学习。[6]建议将X和K同时投影到一个共享的嵌入空间中,然后通过CCA在新的空间中学习fs[36]建议3281ui=1uuuuuuu u uu基于字典学习将X和K分别投影到两个新的稀疏系数空间中,然后学习fs连接两个新的空间。所有这些作品都需要学习一个投影fs,以对齐两个源自两个不相关的空间X和K。由于X和K是异构的,例如,一个是图像特征空间,另一个是文本语义空间,因此fs的强制训练将使其面临复杂性增加和对所见类过度拟合的风险。我们的方法使用了不同的策略,它创建了两条并行的视觉-语义映射路径,并且语义流形可以从一条路径转移到另一条路径以生成新的语义空间,如图所示。1.利用这种迁移机制,学习了一种新的同构空间之间的视觉语义映射,从而获得更好的迁移能力。一个分类法。根据测试过程中未发现类别的图像数据的使用情况,我们将测试作品分为两类,即归纳测试作品和转换测试作品。(1)感应式采样:大多数采样工作被认为是感应式的,在测试过程中连续接收不可见的样本,并且是最直接和直观的方法[17,12,7,36,32]。(2)Transductive ZS-R:由于未知样本中存在流形结构信息,transductive ZS-R工作部分处理它们,并利用底层流形信息来提高ZS-R性能[23,6,15]。例如,基于图的标签传播策略被广泛用于直推式XML。我们的方法采用了transductive BRR设置,并使用一个简单的transductive学习策略:平均k-最近邻,以利用测试数据的流形结构。更一般化的WARR设置。当前的BXR工作是在默认设置下进行评估的,该默认设置假设在测试期间没有可见的类,因此我们只需要区分看不见的类别[17]。在文献[4]中,他们提出了一种新的广义零触发识别(gSRR)集,其中测试数据来自可见和不可见的类别,我们需要将它们分类到整个标签空间中。在本文中,我们还测试了我们的方法在gm3R设置和实验证明了有效性。图2.命题的说明。圆圈和三角形分别表示可见类和不可见类。S表示由Ks张成的子空间。我们在虚线三角形中显示了看不见的类在S上的正交投影。更多信息请参阅正文。xj,因此,BRR的问题是估计其语义嵌入kj和标签yj。典型的BPR方法采用两阶段方法:(1)通过学习的视觉语义映射fs:Xs→ Ks预测嵌入kj;(2)通过将kj与默认BPR设置中的Ku或gBPR设置中的KsKu的嵌入进行比较来推断环类标签3.2. 语义空间K的预检验对于一个给定的嵌入,例如属性向量,词向量或它们的连接,我们通常直接在我们的模型中使用它们,并假设它们从可见到不可见类的转移环fs然而,对于可见类和不可见类的不同划分,它们的语义流形对于某些可重用方法可能具有天然缺陷,这可能导致可重用任务失败。在这里,我们提出了一个命题来检测这个多方面的缺陷。提议。对于语义空间K中的两个不可见类的嵌入,如果它们在由可见类嵌入所张成的子空间S上的正交投影相等,则K对NPR没有这两个不可见类的转移能力。证据如图所示。2,设S是Ks所张成的子空间,即S= span(Ks).i∈设u∈S是它在S上的正交投影,即ui=Ksα i,s. t. α i= arg minα||ki−Ksα i||,我们有uiuki=ui+vi,其中vi≤ S且Ks=[k1,.,kk]。u u u u s s3. 方法3.1. 问题设置给定一个测试图像x及其嵌入fs(x),我们有f s(x),ki= f s(x),(ui+ vi)= f s(x)Tui.同样地J我们有<$f s(x),kj<$= fs(x)Tuj。如果ui=uj,令Ls={11,...,l k}表示k个可见类标号的集合,则k ∈f s(x),ki∈ f= k ∈f s(x),kj∈ f。 这两个看不见的s su us和Lu={11,...,l l}具有类的l个不可见类标签的集合不能被区分。u uLsLu=。在p维语义嵌入空间中K,它们对应的嵌入是K={k1,.,kk}当可见类的数目远小于不可见类的数目时,可以观察到K中的流形缺陷1lss s并且Ku={ku,...,ku}。 假设我们有一列有标签的火车-ing数据集%D % s={xi,ki,yi}nn个样本,其中xi∈ Xs={x1,.,xn}是图像i的特征表示,ki∈KS,yi∈LS.给出新的测试数据看到的班级因此,这一建议是可取的,场景,并可被视为实施OMR之前的预检查步骤此外,命题中的αi定义了所见之间的重要类间关系K我uv我uXKJuFvJuSu(u)我JuuSfs(x)3282uLuuuuuuuuuuSuu和看不见的类,这将在下一节中使用3.3. 类间关系一致性许多文献报道,在相同的模型和X下,不同的K值会导致识别性能的明显差异。例如,当预测AwA数据集中看不见的动物时,手动注释的属性通常比词向量实现更好的性能Intu-确保f s从可见类到不可见类的传递能力。然而,IRC在实际情况中经常被违反,如果XsRx=XsRk,e。G. X和K是异质的,它们具有内在不一致的类间关系。一致性措施。为了定量地评价类间关系的一致性,我们提出了一种一致性度量,∑l因此,我们认为属性比词向量更抽象、更语义。然而,进一步的实验结果表明,使用相同的模型和K,不同的XCM(X| K)= 1li=1exp(−||Xsα i− Xsβi||(2)、(2)||2||X β i||2||2也可能导致识别性能的变化因此,很自然地推断出X和K之间的某种关联是识别性能的关键。为了更清楚地理解这种联系,我们试图从语义流形一致性的角度给出一个形式化的解释。 我们首先假设在图像特征空间X中存在一个底层类级流形,它比同一空间中的实例级流形更抽象。 这个类级流形由抽象类原型或从实例级流形中提取的范例组成,如图1所示。我们表示k个可见的类原型和l个不可见的类原型。我们将类原型看作Xs=[x1,...,x<$k]∈Rd×k且哪里||·||2表示2范数。 在最简单的层面上,我们可以使用每个类的均值向量作为类的原型或样本,然后计算CM。3.4. 转换法求解BRRIRC给了我们一个提示,给定图像特征s-空间X,语义上更一致的K可以增强fs的传递能力。这启发我们构造新的s-空间K,使其具有与X更一致的语义流形.如上所述,X中的内在类级流形可以被认为是现成的选项。为了实现这一目标,我们提出了一种简单的方法来联合优化K中的流形结构和视觉语义映射-1升S sd×lXu=[x<$u,.,x∈R分别表示。 根据pingfs,在此期间,一个新的齐次K与X是根据上述命题,我们提取了类间关系,关系矩阵Rx=[α1,...,α l] ∈ Rk×l在X中如下:αi=argmin||xi−Xsαi||2+λ(αi),(1)αi其中xi是第i个未见过类的原型,αi表示它与已见过类的关联。λ是折衷参数,而λ(α i)是α i上的正则化子。类似地,我们可以提取类间关系矩阵Rk=生成的.3.4.1训练短语我们提出了一个三步训练过程,如Alg.1所示,以生成新的K_s,它能够捕获X_s中的类水平流形。首先,我们从训练数据集学习fs:Xs→Ks,以帮助推断X s中的底层流形。然后,我们利用fs的局部流形构造了新的K∈s[β1,...,β]∈Rk×l在K中以同样的方式。在K中。最后,我们交替优化f∈:X →Kand类间关系的一致性.如果X<$R=s s ssx细化Ks,使其在语义上与Xs更加一致。XsRk,则X和K中的两个语义流形具有一致的类间关系,或类间关系一致性(IRC)。对于ki ∈Ku,设ui为其在步骤1:学习视觉语义映射。不失一般性,假设存在从图像特征到嵌入的线性映射fs:Xs→Ks。 给定n个标记训练数据X ∈ Rd×n及其相应的嵌入-span(KS),即ui=KSα i。 如果我们学习了线性对于K∈ Rk×n,我们遵循传统的学习思想,视觉语义映射fs,将xi投影到ki,以及IRC通过以下函数,满足,则我们得到一个很好的结论,接下来显示推论3.2。如果X和K中的两个语义流形具有一致的类间关系,则i ∈[1,..., l],fs(x∈i)=ui.arg minl(WX,K)+γg(W),(3)W其中W是参数矩阵,g(. )是正则化器。l(. 是一般损失函数,例如铰链损失、逻辑损失u uPr of. 如果满足IRC,则Xsαi=Xsβi,对于i-等在我们的实验中,看不见的班级根据林的同态耳映射,对于x∈i,我们有fs(x∈i)=fs(X∈sαi)=fs(X<$sβi)=Ksβi=ui.从这个命题中,我们已经知道ui和ki他们之间的差异。 在本文中,我们将SIM-在方程式中的平方损失3,这是一个标准的最小二乘问题,并有一个封闭的形式的解决方案[24]。步骤2:在Xs中提取类级流形,并将是一一对应的,因此,x∈i能够作为K∈s的结构。 我们的目标是在关联唯一ki通过fs(x∈i)。换句话说,IRC可以3283Xs通过fs(X)中的流形,而不是使用3284Si=1Ss i=1i=1X中每个类的平均向量主要有两个原因-S.首先,考虑类中的实例分布在复杂流形上的情况,例如新月流形,显然它的平均向量不能作为该类的原型或范例。第二,当将此步骤应用于实例未标记的测试短语时,我们无法准确地判断哪些实例属于特定类别,从而无法获得其均值向量。我们利用流形学习中的思想,即如果某些实例和类嵌入的语义表示在同一局部流形结构上,则它们最有可能来自同一类。具体地说,对于每个类嵌入ki,我们从fs(X)中寻找它在K中的m个最近邻,然后将这些图像的平均值作为类水平原型,即。e. k˜i. 与Ks相比,使用内积测度d嵌入,并将其标记为最接近的类i。e.yj=argmaxcd ( fs ( xj ) , kc ) , 其 中 kc∈Ku ,kc∈{Ks<$Ku}.4. 实验4.1. 实验装置数据集我们在实验中对三个小规模基准数据集和一个大规模数据 集进行评估:Animals with Attributes(AwA)[16],Caltech-UCSD Birds- 200-2011(CUB)[29],Standford Dogs(Dogs)[14]和ImageNet ILSVRC2012(ImageNet)[25]。AwA由50个图像类的30,475个图像组成,每个图像类包含至少92个图像,与人类提供的85个属性配对,ne wKsXs。S={k<$i}k在语义上与˜库存和相应的类属性关联。我们遵循文献中普遍认可的实验方案,即, 40个培训班和10个测试班。步骤3:迭代对齐流形Ks捕获了Xs中的潜在 类级流形,并可 进一步细化。我 们 在(3a)学习f_s:X_s→K_s和(3b)细化K_s之间交替,这两种学习方法都是以上述相同的方式学习的,直到优化过程收敛或最大迭代号码到达。在实践中,该算法可以收敛于前几次迭代。算法1我们方法的训练算法1:输入:标记的训练数据集Ds={xi,ki,yi}n,语义嵌入KS。CUB是一个细粒度的数据集,包含200种不同鸟类的312个属性注释。总共有11,788张图片。在[2]之后,我们使用相同的零射击分割,其中150个类用于训练,50个用于测试。 Dogs包含113种细粒度狗的19,501张图像,没有人类定义的属性注释。85个班用于培训,其余的用于测试。大规模的Ima-geNet数据集包含1,000个类别和120多万张图像。我们遵循800/200分割[5]来执行我们的方法。X和K的选择 对于所有四个数据集,我们选择2:输出:fs,fs和Ks={ki}k.第三章:第一:s i=1X的3种类型的深层特征,由于其优越的性能,以及在ENUR文献中的普遍性他们是4:通过等式学习f s:Xs→ Kson Ds 3.第三章。第五章: 第二:6:对于ki∈ Ks,7:从所有预测中找到它的m个最近邻居{fs(xi)}n ,并将对应的图像表示为NNm(ki).从VGG [26],GoogLeNet [27]和ResNet [9]中提取,分别表示为vgg,goog和res。与低层特征相同,它们具有更丰富的语义流形。对于K,我们采用2种类型的语义嵌入,即人类注释的属性(表示为at-K st)和连续词向量表示(Word2Vec)8:构造新的语义嵌入ki作为aver-1∑m i这是从Wikipedia学来的对于Word 2 Vec,包括2种类型年龄m第九章: 端十: 第三:11:重复˜NNX(ks)。[18]《易经》:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!在各种实验中,我们考虑了两种不同的BURRR设置 : 常 规 BURRR ( cURRR ) 和 广 义 BURRR(gURRR)。在campaign,十二:学习fs:Xs→Ks。十三:根据上述公式,对K值进行优化。十四: 至熟3.4.2测试短语在测试过程中,我们将fs、fs、Ks、Ks和Ku作为输入。给定nt个测试实例Xu∈ Rd×nt,我们首先预测它们的语义表示为fs(Xu),然后构造我们对可见的类进行训练,并对不可见的类进行测试,其中测试实例被假设来自不可见的类别(表示为U → U)。而在gsR中,我们假设测试实例来自所有目标类(表示为U → T)。我们报告了看不见的类的平均分类精度。实现细节我们使用[24]中的简单线性映射学习fs和fs 极其容易实现,只需要一行代码进行训练。f s是通过优化来学习的:arg minV||XTVKs−S˜2如步骤2所示,换能启动Ku最后,对于每个测试实例xj,我们将fs(xj)与n个 w标签进行Ys||其中,Xs和Ys分别表示训练实例和训练标签。我们将我们的3285平均加速度(实线,%),CM(虚线,%)提高平均精度所提出的方法以归纳和转换的方式作为25DMaP-I和DMaP-T。DMaP-I是学习完fs后直接进行分类。我们用的是100-20范数来提取关系αi并固定参数λ由方程式1为10-4。我们固定一个一致的数m= 100所有这些数据集的最近邻。10表1.通过DMaP-I在CUB上使用不同的X和K对,获得了平均准确度(%)和CM值v+g+r,gl和sk是vgg+goog+res,glove和skipgram的缩写,以节省空间。50AwA/AAwA/WAwA/A+WCUB/ACUB/WCUB/A+W犬/W1犬/W2犬/W3图3.使用DMaP-T的精度优于DMaP-I。使用2次迭代获得结果。数据集:CUB90858075704.2. 类间关系一致性的验证55在第一组实验中,我们验证了是否不同-500ent语义嵌入空间K具有不同的IRC,5迭代次数10 15X,并使用DMaP-I测试IRC对cbnR性能的影响。除了上面列出的空间之外,我们还讨论了另外两个K空间,即att+skipgram和at-t +glove,其中+表示两个嵌入的连接。我们使用每个类的图像特征的平均值作为原型,提取类间语义关系αi,我们使用它来计算CM。为了演示,我们在选项卡中显示CUB上的结果。1.一、从表1中,我们可以观察到,CSTR性能与CM值正相关。这不仅验证了我们关于K中流形结构影响BRR性能的假设,而且说明了BRR流形对齐我们还发现CM(X|att+skipgram)> CM(X|att)>CM(X|skipgram),并且这种趋势也适用于PSNR性能。这一性能趋势已出现在《生物多样性公约》的文献中。这表明,这两个不同的语义嵌入空间包含互补的信息,应该结合的BWRR。4.3. 对我们的cbnR和gbnR方法的评价在第二组实验中,我们评估了我们的方法在canderR和ganderR任务。在Alg的步骤1中,1,学习初始映射fs:Xs→Ks。 如第3.3、X和K的不同配置可能会导致不同的CSTR性能。为了验证这一说法,我们运行各种配置 , 并 在 Tab 中 显 示 最 佳 性 能 。 2. 我 们 使 用 att ,skipgram和att+skipgram来表示AwA和CUB上的K。而在Dogs和ImageNet上,由于缺乏属性,我们只对K使用skipgram。表2图4. CUB(x轴)上的不同迭代次数获得的平均准确度(%)和相应的CM值(y轴)给出了DMaP-I和DMaP-T在两次迭代中的识别精度。4.3.1实验结果在cnr相对于DMaP-I的性能改进显示在选项卡的左侧三列中。图2和图3。这些结果表明,在所有情况下,我们的歧管对准过程可以显著提高DMaP-I。仅用两次迭代,平均精度可提高10.71%.在AwA上,性能改进甚至达到了惊人的22.3%的准确率,如图所示。3.而且即使fs的初始性能相对较低,我们的算法仍然有能力取得较好的性能。换句话说,即使K中的初始流形质量较低,它仍然会被驱动到与X更一致。例如,在Dogs上,一次迭代可以将准确率从30.90%提高到40.97%。在另一个实验中,我们测试了迭代次数对性能的影响。图4显示了CUB数据集的结果。在这两个K上,可以观察到快速收敛的趋势。一般来说,经过一次或两次迭代,DMaP-T可以取得显着的改善。而且,由于fs是线性映射,计算复杂度很低。这些结果再次验证了该方法的可行性和有效性。19.百分之十点一6.6%7.0%7.0%百分之五点七百分之三点四百分之五百分之五百分之五点八百分之三点七0.3%11九点八厘0.2%9.9%9.9%九点八厘百分之十四点八Iter1Iter2%22.3CM(vgg+goog+res| att)平均计数(X:vgg+goog+res,K:att)CM(vgg+goog+res| att+skipgram)平均计数(X:vgg+goog+res,K:att+skipgram)156560XKGOOGvgg+googv+g+rACCCMACCCMACCCMatt51.090.4752.830.5754.550.63GL23.690.3824.550.4825.720.55SK26.280.4026.380.4927.480.56att+gl51.230.5153.380.6055.140.66att+sk51.620.5253.480.6156.340.673286表2.通过我们的方法(DMaP-I和DMaP-T,两次迭代,表示为Iter 1和Iter 2以节省空间)在AwA,CUB,Dogs和ImageNet数据集上的cklR和gklR任务上我们在ImageNet上报告了top-1准确率cR(U → U)gdR(U → T)数据集fs:X → KDMaP-IIter1Iter2DMaP-IIter1Iter2AWAvgg→ att78.7185.3185.6617.2349.6652.70res→ skipgram63.4378.2585.706.446.7218.85vgg+res→ att+skipgram80.6390.4290.492.7210.6017.82幼崽goog→ att51.5961.5261.7913.5524.2827.83vgg+goog→手套24.5527.9330.342.073.626.41vgg+goog+res→ att+skipgram56.3466.1767.697.0019.8621.86狗vgg→ skipgram26.6032.1733.570.542.934.96goog→ skipgram29.4635.1238.920.184.645.10vgg+goog→ skipgram30.9040.9744.590.224.945.10ImageNetgoog→ skipgram28.3038.7638.940.7412.0017.004.3.2关于GABR-R的实验结果Tab的右三列。2总结了gmRR任务的准确性,即预测所有类别的测试标签。我们观察到,与在cBPR上的结果相比,在gBPR上的DMaP-I实现了相当差的性能,这与[4]中报道的现象一致。在Dogs和ImageNet上,几乎所有来自看不见的类的测试数据都被错误地分类为可见的类。此外,我们复制了DeViSE [5]和ConSE[19],并在ImageNet上进行了广泛的CSTR实验,即1K用于训练,21K用于测试。我们发现,大多数类的前1准确率实际上接近于0。我们认为命题1可以给我们一个合理的解释这个现象,即歧管缺陷。这种不寻常的per-benzoic降解突出了gobenzoic R的挑战。然而,我们的方法仍然可以提高识别精度显着。在AwA上,最好的精度是52。7%,也就是说- S 35。比DMaP-I提高47%,50. 比DAP提高3%,比SynC提高3%[4]。即使在大规模的ImageNet上,我们也获得了令人惊讶和显着的改进。为了更好地理解我们的方法,我们使用图中的t-SNE[28]可视化每次迭代的U → T结果。图5中示出了DMaP-I和DMaP-T的混淆矩阵。6.为了清楚地演示,我们只在AwA上显示结果。我们使用40种亮度较低的颜色表示可见的类,其他10种亮度较高的颜色表示不可见的类。标签按其颜色分类。通过比较图5(a)通过图5(b),我们观察到,通过一次迭代,我们的方法可以更好地分类未见过的实例。例如,尽管然而,我们的方法对某些类别,如“chim-panzee”,失败了。黑猩猩的图片总是被归类为“黑猩猩”。这可能是因为这两个类非常接近在X中的流形上相互作用4.4. 与最新技术水平的比较表3.对AwA、CUB和犬的cbR(U → U)比较我们将我们的结果(使用2次迭代实现)与使用不同K(包括词向量(W)和属性(A))的最新结果进行比较。有关详细信息,请参见Supp文件 “+”表示串联操作。‘–’ means no result reported inthe original方法KT/I AwA CUB犬SSE一我76.2330.41–SJEA/W我66.750.133.0同步A+W我72.954.7–LatEmA+W我76.151.736.3RKTA+W我82.4346.2428.29AMPA+W我66––TMV-HLPA+W不80.547.9–UDA一不75.640.6–PST一不42.7––一不85.6661.79–DMAPW不85.7030.3444.59A+W不90.4967.69–我们提供了我们的方法(表示为DMaP)和三个transductive BMR方法之间的直接比较-S,即PST[23]、TMV-HLP [6]和UDA [15]。此外-此外,我们的方法的性能也与gesture归纳方法进行了比较,即AMP [7],SSE [37],SJE [2],SynC [3],LatEm [33]和RKT [32],据我们所知,这些方法是用于Gesture R的最先进方法。除PST外,所有这些方法都是用X语言中的深层特征来表示图像.我们在Tab中报告了他们在三个基准数据集上发表的最佳结果。3.第三章。很明显,我们的方法在所有三个数据集上都明显优于其他方法。即使从低质量的语义嵌入空间(例如词向量表示)开始,它仍然可以实现比3287山猫(2%)大猩猩(88%)豹(9%)长颈鹿(85%)黑猩猩(8%)猪河马大鼠座头鲸密封波斯猫狸黑猩猩豹子大熊猫(一)(b)第(1)款(c)第(1)款图5.AwA数据集上U → T任务结果的说明(a)DMaP-I获得的结果(b)DMaP-T通过一次迭代获得的结果(c)Ground TruthUnseen class label.括号中的百分比表示被分类为该相应类别的地面真实不可见类别的比例,例如(a)中的山猫2%表示2%的豹样本被不准确地分类为山猫。这个数字最好用彩色看。大猩猩+熊猫豹波斯+猫猪驼背鲸+鲸鱼浣熊鼠海豹(一)大猩猩+熊猫豹波斯+猫猪驼背鲸+鲸鱼浣熊鼠海豹(b)第(1)款图6.在AwA数据集上评估的U → T任务识别精度的混淆矩阵。(The x轴上的前40个是可见的类,其他的是不可见的类。(a)DMaP-I的结果。(b)用DMaP-T一次迭代得到的结果。其他人使用更好的A+W。例如,DMaP在狗身上达到了44.59%的最高准确率。此外,[7]报告说ImageNet2010 1K上的hit@5准确率为41%。相比之下,在更具挑战性的ImageNet 2012 1K上,我们的方法实现了38.94%的命中率这种优越的性能证明了我们所提出的方法的有效性。请注意,DMaP是一种非常通用的方法,因为对齐过程可以灵活地当与其他感应式消隐方法结合时,有望进一步提高性能。5. 讨论和结论我们提出了一个分析的语义嵌入空间的mosaic R,并揭示了一个连接之间的人,3288ifold结构和视觉-语义映射的传递能力。有理由认为两个空间的类间受此启发,我们开发了一个DMaP框架,以生成与图像特征空间更一致的语义空间,并学习更有效的我们的方法在四个具有挑战性的数据集上优于最先进的确认本工作得到了国家自然科学基金(No.61473256)和中国工程科技知识中心的3289引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入见CVPR,第819-826页IEEE,2013。[2] Z. Akata、S.里德D.沃尔特,H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。在CVPR,第2927-2936页[3] S. Changpinyo,W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器。arXiv预印本arX- iv:1603.00550,2016年。[4] W.- L. Chao,S.昌皮纽湾Gong和F.煞一个实验研究和分析的广义零杆学习的对象识别在野外。arXiv预印本arX-iv:1605.04253,2016年。[5] A. 弗罗姆,G。S. Corrado,J.Shlens,S.Bengio,J.迪恩T. Mikolov等人Devise:一个深度的视觉语义嵌入模型。NIPS,第2121-2129页,2013年[6] Y.傅氏T. Hospedales,T. Xiang和S.龚Transductive multi-view zero-shot learning. PAMI,第1-1页[7] Z.傅氏T. Xiang、拟青霉E. Kodirov和S.龚基于语义流形距离的零拍目标识别。在CVPR中,第2635-2644页[8] C. Gan,T. Yang和B.龚 学习属性等于- s多源域泛化。arXiv预印本arX- iv:1605.00743,2016年。[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[10] S. Huang,M.Elhoseiny,A.Elgammal和D.杨学习超图正则化属性预测器。在CVPR,第409-417页[11] S. J. Hwang和L.西格统一的语义嵌入:分类法和属性的相关性。NIPS,第271-279页,2014年[12] D. Jayaraman和K.格劳曼具有不可靠属性的零炮识别。NIPS,第3464-3472页,2014年[13] D. Jayaraman,F. Sha和K.格劳曼通过抵制分享的冲动来消除感官视觉属性的关联。见CVPR,第1629-1636页。IEEE,2014。[14] A. Khosla,N.Jayadevaprakash湾Yao和L.飞飞Nov- el数据集用于细粒度图像分类。在CVPR研讨会上FGVC。Citeseer,2011.[15] E. Kodirov,T. Xiang,Z. Fu和S.龚无监督域自适应零射击学习。在ICCV,第2452-2460页[16] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类见CVPR,第951-958页。IEEE,2009年。[17] C. H. Lampert,H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。PAMI,36(3):453[18] T. 米科洛夫岛 Sutskever,K. Chen,G. S. 科拉多,还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS,第3111[19] M.诺鲁齐T.米科洛夫,S。本焦湾Singer,J. 史伦斯A. 弗罗姆,G。S. Corrado,J。Dean. 零射击学习,语 义 嵌入 的 凸 组 合arXiv预 印 本arXiv : 1312.5650,2013。[20] M.帕拉图奇湾Pomerleau,G. E. Hinton和T. M.米切尔使用语义输出代码的零触发学习。NIPS,第1410-1418页,2009年[21] 彭宁顿河Socher和C。D.曼宁Glove:表示单词的全局向量.在EMNLP,第14卷,第1532-1543页[22] S. Reed,Z.阿卡塔湾Schiele和H.李你学习细粒度视觉描述的深度表示。arXiv预印本arXiv:1605.05395,2016年。[23] M. Rohrbach,S. Ebert,和B.席勒在转换环境中迁移学习。在NIPS,第46-54页[24] B. Romera-Paredes,E. OX和P.H.乇一种简单得令人尴尬的零射击学习方法在ICML,第2152-2161页[25] O. 鲁萨科夫斯基Deng,H.Su,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功