没有合适的资源?快使用搜索试试~ 我知道了~
深度嵌入模型:学习使用视觉空间的零样本学习模型
20210学习用于零样本学习的深度嵌入模型0李张涛向绍刚伦敦玛丽女王大学0{david.lizhang, t.xiang, s.gong}@qmul.ac.uk0摘要0零样本学习(ZSL)模型依赖于学习一个联合嵌入空间,其中对象类别的文本/语义描述和对象图像的视觉表示都可以投影到最近邻搜索中。尽管深度神经网络在其他视觉问题(如图像字幕)中学习了一个端到端模型,将文本和图像之间进行了嵌入,但是很少有深度ZSL模型存在,并且它们在利用深度特征表示而不是学习端到端嵌入的ZSL模型上几乎没有优势。在本文中,我们认为使深度ZSL模型成功的关键是选择正确的嵌入空间。我们提出使用视觉空间作为嵌入空间,而不是嵌入到语义空间或中间空间。这是因为在这个空间中,后续的最近邻搜索会更少受到hubness问题的影响,从而变得更加有效。这种模型设计还提供了一种自然的机制,可以将多个语义模态(例如属性和句子描述)以端到端的方式融合和优化。在四个基准测试上的大量实验证明了我们的模型明显优于现有模型。01. 引言0最近在开发视觉识别模型时的一个趋势是增加物体类别的数量。然而,大多数现有的识别模型都是基于监督学习的,并且需要收集和注释至少100个训练样本来捕捉每个物体类别的内部外观变化[6]。这严重限制了它们的可扩展性-收集像椅子这样的日常物品更容易,但许多其他类别很少见(例如,在一个偏远的太平洋岛屿上新发现的一种甲虫)。这些模型都无法处理给定类别的少量甚至没有训练样本。相反,人类在没有看到任何视觉样本的情况下识别物体非常好,即零样本学习(ZSL)。例如,一个孩子如果看到斑马,她不会有任何问题识别出它。0以前看过马,也在其他地方读到斑马是一种带有黑白条纹的马。受人类的ZSL能力启发,最近对机器ZSL产生了兴趣[2,47, 22, 1, 37, 43, 10, 31, 11, 14, 24, 46, 34, 4, 13, 3, 5,48, 49]。0零样本学习方法依赖于一个标记的已见类别的训练集,以及关于如何将未见类别与已见类别在语义上相关联的知识。已见类别和未见类别通常在一个高维向量空间中相互关联,称为语义空间,在这个空间中,来自已见类别的知识可以转移到未见类别。大多数早期作品使用的语义空间是基于语义属性的[8, 9,32]。给定一个定义好的属性本体,每个类别名称可以用一个属性向量来表示,并称为类别原型。最近,语义词向量空间[43,10]和句子描述/标题[34]开始变得流行起来。对于前者,类别名称被投影到一个词向量空间中,以便可以比较不同的类别,而对于后者,则需要一个神经语言模型来提供描述的向量表示。0使用语义空间和图像内容的视觉特征表示,ZSL通常分为两个步骤解决:(1)学习一个联合嵌入空间,可以将语义向量(原型)和视觉特征向量投影到其中;(2)在这个嵌入空间中进行最近邻(NN)搜索,将图像特征向量的投影与未见类别原型的投影进行匹配。大多数最先进的ZSL模型[11, 13, 2, 3, 37, 47,22]使用深度卷积神经网络特征进行视觉特征表示;这些特征是使用预训练的CNN模型提取的。它们的区别主要在于如何在给定特征的情况下学习嵌入空间。因此,它们不是端到端的深度学习模型。0在本文中,我们专注于基于端到端学习的深度嵌入零样本学习模型,它具有许多优势。首先,端到端优化有可能导致学习到更好的嵌入空间。例如,如果将句子描述用作神经语言模型(如循环神经网络)的输入,用于计算语义空间,则可以联合优化神经语言模型和CNN视觉特征表示学习模型。其次,基于神经网络的联合嵌入模型为解决各种传递学习问题(如多任务学习和多领域学习)提供了灵活性[46]。第三,当存在多个语义空间时,该模型可以提供一种自然的机制来融合多个模态。然而,尽管具有这些内在优势,实际上,文献中为零样本学习存在的少数端到端深度模型[24, 10, 43, 46,34]未能展示这些优势,并且在基准测试中的性能较弱或仅与非深度学习的替代方法相当。model and the CNN visual feature representation learningmodel can be jointly optimised in an end-to-end fashion.Second, a neural network based joint embedding modeloffers the flexibility for addressing various transfer learn-ing problems such as multi-task learning and multi-domainlearning [46]. Third, when multiple semantic spaces areavailable, this model can provide a natural mechanism forfusing the multiple modalities. However, despite all theseintrinsic advantages, in practice, the few existing end-to-enddeep models for ZSL in the literature [24, 10, 43, 46, 34]fail to demonstrate these advantages and yield only weakeror merely comparable performances on benchmarks whencompared to non-deep learning alternatives.20220我们认为深度嵌入模型在零样本学习中取得成功的关键是嵌入空间的选择。现有模型,无论是深度还是非深度,都选择语义空间[22, 13, 43, 10]或中间嵌入空间[24, 2, 37,11]作为嵌入空间。然而,由于嵌入空间的维度很高,并且需要在其中进行最近邻搜索,hubness问题是不可避免的[33],即少数未见类别的原型将成为许多数据点的最近邻(hub)。使用语义空间作为嵌入空间意味着需要将视觉特征向量投影到语义空间中,这将缩小投影数据点的方差,从而加剧hubness问题[33, 7]。0在这项工作中,我们提出了一种新颖的基于深度神经网络的零样本学习嵌入模型,与现有模型不同之处在于:(1)为了缓解hubness问题,我们使用CNN子网络的输出视觉特征空间作为嵌入空间。由此产生的投影方向是从语义空间(例如属性或词向量)到视觉特征空间的。这与大多数现有模型采用的方向相反。我们提供了理论分析和一些直观的可视化来解释为什么这有助于解决hubness问题。(2)在我们的神经网络模型中,开发了一种简单而有效的多模态融合方法,该方法灵活且重要的是能够实现语义空间表示的端到端学习。0这项工作的贡献如下:(i)提出了一种新颖的深度嵌入模型用于零样本学习,与现有模型在嵌入空间的选择上有所不同。(ii)进一步开发了一种多模态融合方法,用于组合不同的语义表示并实现对表示的端到端学习。在包括AwA[22]、CUB [45]以及大规模ILSVRC 2010和ILSVRC 2012[6]在内的四个基准测试上进行了大量实验,结果显示我们的模型在性能上明显优于迄今为止的所有最先进模型。02. 相关工作0现有的零样本学习方法在使用的语义空间上存在差异:通常使用属性[8, 9, 32]、词向量[43,10]或文本描述[34]。已经证明,属性空间通常比词向量空间更有效[2, 47, 22,37]。这并不奇怪,因为每个类别都需要额外的属性注释。同样,在[34]中使用图像句子描述构建语义空间可以实现细粒度识别任务的最先进结果。然而,这种良好的性能是以更多的手动注释为代价的:每个图像需要收集10个句子描述,这比属性注释更昂贵。这就是为什么词向量语义空间仍然具有吸引力的原因:它是“免费的”,并且是处理许多未见类别的大规模识别的唯一选择[13]。在这项工作中,考虑了这三种语义空间。融合多个语义空间多个语义空间通常是互补的;因此,将它们融合在一起可能会提高识别性能。评分级别的融合可能是最简单的策略[14]。已经提出了更复杂的多视图嵌入模型。Akata等人[2]学习了一个联合嵌入语义空间,该空间介于属性、文本和层次关系之间,这在很大程度上依赖于超参数搜索。还使用了多视图典型相关分析(CCA)[11]以一种转导方式探索不同的测试数据模态。与这些模型不同,我们基于神经网络的模型具有一个嵌入层,用于融合不同的语义空间,并将融合后的表示与其余的视觉-语义嵌入网络连接起来进行端到端学习。与[11]不同,它是归纳的,不需要一次访问整个测试集。嵌入模型现有的方法在视觉-语义嵌入模型上也存在差异。它们可以分为两组:(1)第一组通过从视觉特征空间到语义空间的回归学习映射函数,使用预计算特征[22, 13]或深度神经网络回归[43,10]。对于这些嵌入模型,语义空间是嵌入空间。(2)第二组模型通过一个共同的中间空间隐式地学习视觉和语义空间之间的关系,再次使用神经网络公式[24, 46]或不使用[24,2, 37,11]。因此,嵌入空间既不是视觉特征空间,也不是语义空间。我们在这项工作中表明,使用视觉特征空间作为嵌入空间在本质上具有优势,因为它能够缓解hubness问题。深度零样本学习模型所有最近的零样本学习模型都使用深度卷积神经网络特征作为其嵌入模型的输入。然而,很少有深度端到端模型。现有的深度神经网络N20230基于零样本学习的工作[10, 43, 24, 46,34]在使用语义空间或中间空间作为嵌入空间方面存在差异,如上所述。它们还使用不同的损失函数。其中一些使用基于边界的损失函数[10, 46,34]。Socher等人[43]选择了欧几里得距离损失。Ba等人[24]将嵌入的视觉特征和语义向量之间的点积作为损失,并考虑了三种训练损失,包括二元交叉熵损失、合页损失和欧几里得距离损失。在我们的模型中,我们发现两个嵌入向量之间的最小二乘损失非常有效,并且对于为什么它能更好地处理hubness问题提供了简单的理论解释。[34]中的工作与其他模型的不同之处在于它将神经语言模型集成到其神经网络中,用于端到端学习嵌入空间和语言模型。除了能够共同学习神经语言模型和嵌入模型之外,我们的模型还能够将文本描述与其他语义空间融合,并且比[34]获得更好的性能。hubness问题“全局”邻居或中心在最近邻搜索中的存在现象首次由Radovanovic等人[26]研究。他们表明,在高维向量空间中,中心是数据分布的固有属性,也是维数诅咒的一个特定方面。最近的一些研究[7,41]指出,基于回归的零样本学习方法受到hubness问题的影响,并提出了缓解hubness问题的解决方案。其中,[7]中的方法依赖于对测试未见数据排名相对于每个类别原型的全局分布进行建模,以缓解hubness问题。因此,它是转导性的。相反,[41]中的方法是归纳性的:它认为最小二乘正则化投影函数使hubness问题更加严重,并提出将类别原型嵌入到视觉特征空间中进行反向回归。我们的模型也将视觉特征空间作为嵌入空间,但通过使用端到端的深度神经网络来实现,从而在零样本学习上获得更好的性能。03. 方法论03.1. 问题定义0假设给定一个标记的训练集,包含 N 个训练样本,记为 D tr = {(I i, y u i, t u i), i = 1, ...,N},其中 I i 是第 i 个训练图像,y u i ∈ R L × 1 是其对应的 L 维语义表示向量,t u i ∈T tr 是第 i 个训练图像的第 u 个训练类别标签。给定一个新的测试图像 Ij,零样本学习的目标是预测一个类别标签 t v j ∈ T te,其中 t v j 是第 j 个测试实例的第v 个测试类别标签。我们有 T tr ∩ T te =�,即训练(已见)类别和测试(未见)类别是不相交的。注意每个类别标签 t u 或 t v0与预定义的语义空间表示 y u 或 yv(例如属性向量)相关联,称为语义类别原型。对于训练集,给定 y u i,因为每个训练图像 I i都由表示其对应类别标签 t u j 的语义表示向量标记。03.2. 模型架构0我们模型的架构如图1所示。它有两个分支。一个分支是视觉编码分支,它由一个CNN子网络组成,以图像 I i作为输入,并输出一个 D 维特征向量 φ(I i) ∈ R D ×1。这个 D维视觉特征空间将被用作嵌入空间,其中图像的内容和它所属类别的语义表示将被嵌入。另一个分支是语义编码子网络,它接受相应类别的 L 维语义表示向量 y u i作为输入,并通过两个全连接(FC)线性 +ReLU层输出一个 D 维语义嵌入向量。每个FC层都有一个 l2参数正则化损失。这两个分支通过最小二乘嵌入损失连接在一起,旨在最小化视觉特征 φ(I i)与其在视觉特征空间中的类别表示嵌入向量之间的差异。通过这三个损失函数,我们的目标函数如下:0L ( W 1 , W 2 ) = 10i =1 || φ ( I i ) − f 1 ( W 2 f 1 ( W 1 y u i )) || 20+ λ ( || W 1 || 2 + || W 2 || 2 ) (1)0其中 W 1 ∈ R L × M 是第一个全连接层要学习的权重,W2 ∈ R M × D 是第二个全连接层要学习的权重。λ是超参数,用于权衡两个参数正则化损失与嵌入损失的强度。我们将 f 1 ( � )设置为修正线性单元(ReLU),在编码子网中引入非线性。之后,测试图像 I j在视觉特征空间中的分类可以通过计算其与嵌入原型的距离来实现:0v = arg min v D ( φ ( I j ) , f 1 ( W 2 f 1 ( W 1 y v ))) (2)0其中 D 是距离函数,y v 是第 v个测试类别原型的语义空间向量。03.3. 多个语义空间融合0如图1所示,我们可以将语义表示、第一个全连接层和ReLU层一起看作一个语义表示单元。… x).(4)20240全连接ReLU0损失0后向层0全连接ReLU0多模态双曲正切0多模态双曲正切0… 前向层0词嵌入层0(b). 多模态0语义 语义_1 语义_2 语义0描述0(c). RNN编码(其中一个模态为文本)0语义表示单元0(a). 单模态0图1.我们深度嵌入模型的网络架构示意图。左分支(语义编码子网)中语义表示单元的详细架构在(a)、(b)和(c)中给出,分别对应单模态(语义空间)情况、多模态(两个)情况以及其中一个模态为文本描述的情况。对于(c)中的情况,语义表示本身是一个神经网络(RNN),与网络的其余部分一起进行端到端的学习。0语义表示单元的结构需要再次改变,当每个训练图像都有文本描述时(参见图1(c))。在这项工作中,我们使用循环神经网络(RNN)将文本描述(可变长度的句子)编码为固定长度的语义向量。具体而言,给定一个由 T个词组成的文本描述,x = ( x 1 , . . . , x T),我们使用双向RNN模型[39]对其进行编码。对于RNN单元,0f 2 ( W (1) 1 ∙ y u 1 i + W (2) 1 ∙ y u 2 i ) , (3)0y u 1 i ∈ R L 1 × 1 和 y u 2 i ∈ R L 2 × 1分别表示两个不同的语义空间表示(例如属性和词向量),“+”表示逐元素求和,W (1)1 ∈ R L 1 × M0和 W (2) 1 ∈ R L 2 × M 是要学习的权重。f 2 ( � )是逐元素缩放的双曲正切函数[23]:0f 2 ( x ) = 1 . 7159 ∙ tanh( 20这个激活函数将梯度强制推入最非线性的值范围,导致训练过程比基本的双曲正切函数更快。03.4. 双向LSTM编码器用于描述0当每个训练图像都有文本描述时,语义表示单元的结构需要再次改变(参见图1(c))。在这项工作中,我们使用循环神经网络(RNN)将文本描述(可变长度的句子)编码为固定长度的语义向量。具体而言,给定一个由 T个词组成的文本描述,x = ( x 1 , . . . , x T),我们使用双向RNN模型[39]对其进行编码。对于RNN单元,0长短期记忆(LSTM)[17]单元被用作循环单元。LSTM是一种特殊类型的循环神经网络,引入了门控的概念来控制不同时间步之间的信息传递。通过这种方式,它可以潜在地建模长期依赖关系。根据[16]的方法,模型有两种状态来跟踪历史记录:细胞状态c和隐藏状态h。对于特定的时间步t,它们通过整合当前输入xt和先前状态(ct−1,ht−1)来计算。在整合过程中,使用三种类型的门来控制信息传递:输入门it,遗忘门ft和输出门ot。我们在这里省略了双向LSTM的公式,并将读者引用到[16,15]中了解详细信息。使用双向LSTM模型,我们将最终输出作为我们编码的语义特征向量来表示文本描述:0f(W−→h∙−→h + W←−h∙←−h),(5)0其中−→ h表示前向最终隐藏状态,←−h表示后向最终隐藏状态。如果仅使用文本描述来进行语义空间单元,f(�)=f1(�);如果需要融合其他语义空间,则f(�)=f2(�)(第3.3节)。W−→ h和W←−h是将要学习的权重。在测试阶段,我们首先从测试描述中提取文本编码,然后按类别对它们进行平均,以形成测试原型,如[34]所示。请注意,由于我们的零样本学习模型是一个神经网络,现在可以使用训练数据和网络的其余部分一起以端到端的方式学习RNN编码子网络。03.5. hubness问题0我们的模型如何处理hubness问题?首先,我们展示了我们的目标函数与岭回归公式密切相关featureprototypefeatureprototype… ………… … 20250与岭回归公式类似,我们使用矩阵形式,将语义表示单元的输出表示为A,将CNN视觉特征编码器的输出表示为B,并暂时忽略ReLU单元,我们的训练目标变为0L ( W ) = || B - WA || 2 F + λ || W || 2 F , (6)0基本上就是岭回归。众所周知,岭回归有一个闭合形式的解W = BA � ( AA � + λ I ) − 1。因此我们有:0|| WA || 2 = || BA � ( AA � + λ I ) − 1 A || 2 ≤ || B || 2|| A � ( AA � + λ I ) − 1 A || 2 (7)0进一步可以证明:0|| A � ( AA � + λ I ) − 1 A || 2 = σ 20σ 2 + λ ≤ 1. (8)0其中σ是A的最大奇异值。因此我们有|| WA || 2 ≤ || B ||2。这意味着映射的源数据|| WA || 2可能比目标数据|| B ||2更接近空间的原点,且方差较小。0(a)S → V(b)V → S0图2.不同嵌入方向对hubness问题的影响的示意图。S:语义空间,V:视觉特征空间。最好以彩色查看。0这在零样本学习的背景下为什么重要?图20给出了直观的解释。具体而言,假设特征分布在视觉特征空间中是均匀的,图2(a)显示,如果投影的类原型稍微向原点收缩,这不会改变hubness问题的产生方式-换句话说,至少不会使hubness问题变得更糟。然而,如果映射方向被反转,也就是说,我们使用语义向量空间作为嵌入空间,并将视觉特征向量φ(I)投影到该空间中,训练目标仍然类似于岭回归,因此投影的视觉特征表示向量将向原点收缩,如图2(b)所示。然后就会产生不利影响:离原点更近的语义向量更有可能成为hub,即许多投影的视觉特征表示向量的最近邻。我们的实验(见第4节)证实了这一点,即使用哪个空间0由于嵌入空间在结果hubness问题的程度/严重性以及ZSL性能方面有很大差异。hubness的度量为了衡量最近邻搜索问题中hubness的程度,使用了(经验)Nk分布的偏斜度,参考了[33,41]。Nk分布是每个原型i在测试样本的排名前k中出现的次数Nk(i)的分布,其偏斜度定义如下:0(Nk偏斜)= �li=1(Nk(i)−E[Nk])3/l0Var[Nk]32,(9)0其中l是测试原型的总数。较大的偏斜值表示出现更多的hub。03.6. 与其他深度零样本学习模型的关系0现在让我们将提出的模型与相关的端到端神经网络模型进行比较:DeViSE [10],Socher等人[43],MTMDL[46]和Ba等人[24]。他们的模型结构分为两组。在第一组中(见图3(a)),DeViSE[10]和Socher等人[43]通过铰链排序损失或最小二乘损失将CNN视觉特征向量映射到语义空间。相反,MTMDL[46]和Ba等人[24]将视觉空间和语义空间融合到一个共同的中间空间,然后使用铰链排序损失或二元交叉熵损失(见图3(b))。对于这两组,学习的嵌入模型将使WA的方差小于B的方差,从而使hubness问题更加严重。总之,只要在高维空间中进行NN搜索,无论采用什么嵌入模型,hubness问题都将持续存在。我们的模型不会使其恶化,而其他深度模型会,这导致了我们实验中的性能差异。0CNN0损失0语义0语义CNN0损失0点积0(a)[10,43](b)[46,24]0图3. 现有的深度零样本学习模型的架构分为两组。DatasetsFour benchmarks are selected:AwA (Ani-mals with Attributes) [22] consists of 30,745 images of 50classes. It has a fixed split for evaluation with 40 trainingclasses and 10 test classes. CUB (CUB-200-2011) [45] con-tains 11,788 images of 200 bird species. We use the samesplit as in [2] with 150 classes for training and 50 disjointclasses for testing.ImageNet (ILSVRC) 2010 1K [38]consists of 1,000 categories and more than 1.2 million im-ages. We use the same training/test split as [27, 10] whichgives 800 classes for training and 200 classes for testing.ImageNet (ILSVRC) 2012/2010: for this dataset, we usethe same setting as [13], that is, ILSVRC 2012 1K is usedas the training seen classes, while 360 classes in ILSVRC2010 which do not appear in ILSVRC 2012 are used as thetest unseen classes.Semantic spaceFor AwA, we use the continuous 85-dimension class-level attributes provided in [22], whichhave been used by all recent works. For the word vectorspace, we use the 1,000 dimension word vectors providedin [11, 12]. For CUB, continuous 312-dimension class-levelattributes and 10 descriptions per image provided in [34] areused. For ILSVRC 2010 and ILSVRC 2012, we traineda skip-gram language model [28, 29] on a corpus of 4.6MWikipedia documents to extract 1,000 word vectors for eachclass.Model setting and trainingUnless otherwise specified,We use the Inception-V2 [44, 19] as the CNN subnet ofour model in all our experiments, the top pooling units areused for visual feature space with dimension D = 1, 024.The CNN subnet is pre-trained on ILSVRC 2012 1K classi-fication without fine-tuning, same as the recent deep ZSLworks [24, 34].For fair comparison with DeViSE [10],ConSE [31] and AMP [14] on ILSVRC 2010, we also usethe Alexnet [21] architecture and pretrain it from scratch us-ing the 800 training classes. All input images are resized to224 × 224. Fully connected layers of our model are ini-tialised with random weights for all of our experiments.Adam [20] is used to optimise our model with a learningrate of 0.0001 and a minibatch size of 64. The model isimplemented based on Tensorflow.Parameter settingIn the semantic encoding branch ofour network, the output size of the first FC layer M isset to 300 and 700 for AwA and CUB respectively whena single semantic space is used (see Fig. 1(a)). Specifi-cally, we use one FC layer for ImageNet in our experiments.For multiple semantic space fusion, the multi-modal fusionlayer output size is set to 900 (see Fig. 1(b)). When thesemantic representation was encoded from descriptions forthe CUB dataset, a bidirectional LSTM encoding subnet isemployed (see Fig. 1(c)). We use the BasicLSTMCell202604. 实验04.1. 数据集和设置0在Tensorflow中,我们将其作为我们的RNN单元,并使用ReLU作为激活函数。我们将输入序列长度设置为30;较长的文本输入在此处被截断,较短的文本则用零填充。词嵌入大小和LSTM单元数量都为512。请注意,使用这个LSTM子网络时,我们使用RMSprop来优化整个网络,学习率为0.0001,小批量大小为64,并将梯度剪裁在5以内。在公式(1)中,损失加权因子λ通过五折交叉验证进行搜索。具体而言,训练集中20%的已见类别用于形成验证集。0在AwA和CUB上的实验0竞争对手许多现有的作品在这两个相对较小规模的数据集上报告了结果。其中,由于空间限制,只选择了最具竞争力的作品进行比较。选择的13个作品可以分为非深度模型组和深度模型组。所有非深度模型都使用ImageNet预训练的CNN提取视觉特征。它们在使用的CNN模型上有所不同:FO表示使用overfeat [40];F G表示GoogLeNet [44];FV表示VGG net[42]。第二组都是基于神经网络的,具有CNN子网络。为了公平比较,我们在AwA和CUB上实现了[10, 43, 46,24]中的模型,使用Inception-V2作为CNN子网络,与我们的模型和[34]相同。比较的方法在使用的语义空间上也有所不同。所有方法都使用属性(A);有些方法还使用词向量(W),要么作为属性的替代,要么与属性(A+W)结合使用。对于CUB,最近还使用了实例级别的句子描述(D)[34]。请注意,只考虑归纳方法。一些最近的方法[49, 11,12]是传导性的,它们一次性使用所有测试数据进行模型训练,这给了它们一个巨大的不公平优势。AwA的比较结果从表1中我们可以得出以下观察结果:(1)我们的模型无论是使用属性还是词向量都取得了最好的结果。当两个语义空间都被使用时,我们的结果进一步提高到了88.1%,比迄今为止报告的最佳结果[48]高出7.6%。(2)我们的模型与现有的基于神经网络的模型之间的性能差距特别明显。事实上,四个模型[10, 43, 46,24]的结果比大多数仅使用深度特征且不进行端到端训练的非深度模型要弱。这验证了我们的论断,即选择适当的视觉-语义嵌入空间对于深度嵌入模型的工作至关重要。(3)如预期,词向量空间比属性空间信息量较少(86.7% vs.78.8%),尽管我们的词向量空间单独的结果已经超过了除一个之外的所有已发表结果[48]。然而,融合这两个空间仍然带来了一些改进(1.4%)。AMP [14]FOA+W66.0-SJE [2]FGA66.750.1SJE [2]FGA+W73.951.7ESZSL [37]FGA76.347.2SSE-ReLU [47]FVA76.330.4JLSE [48]FVA80.542.1SS-Voc [13]FOA/W78.3/68.9-SynC-struct [4]FGA72.954.5SEC-ML [3]FVA77.343.3ConSE [31]7.815.5DeViSE [10]5.212.8AMP [14]6.113.1SS-Voc [13]9.516.820270CUB上的比较结果表1显示,在细粒度数据集CUB上,我们的模型也取得了最佳结果。特别是,仅使用属性时,我们的结果为58.3%,比最强竞争对手[4]高出3.8%。然而,迄今为止报告的最佳结果是由基于神经网络的DS-SJE[34]在使用句子描述时获得的,达到了56.8%。值得指出的是,这个结果是使用了一个词-CNN-RNN神经语言模型,而我们的模型使用了一个双向LSTM子网络,更容易与网络的其余部分一起进行端到端训练。当使用相同的基于LSTM的神经语言模型时,DS-SJE报告的准确率为53.0%。此外,仅使用属性时,DS-SJE的结果(50.4%)远低于我们的结果。这是重要的,因为为细粒度类别注释属性可能是可行的;但为每个图像注释10个描述可能无法扩展到大量的类别。同时,融合属性和描述也导致了进一步的改进。0模型 F SS AwA CUB0DeViSE [ 10 ] N G A/W 56.7/50.4 33.5 Socher 等 [ 43 ] N G A/W60.8/50.3 39.6 MTMDL [ 46 ] N G A/W 63.7/55.3 32.3 Ba 等 [ 24 ] N GA/W 69.3/58.7 34.0 DS-SJE [ 34 ] N G A/D - 50.4/ 56.80我们的 N G A/W(D) 86.7 / 78.8 58.3 /53.50我们的 N G A+W(D) 88.1 59.00表1. AwA和CUB上的零样本分类准确率(%)比较。SS: 语义空间;A: 属性空间; W: 语义词向量空间; D:句子描述(仅适用于CUB)。F: 如何计算视觉特征空间;对于非深度模型: 如果使用overfeat [ 40 ],则为 F O ;对于GoogLeNet [ 44 ],为 F G ; 对于VGG net [ 42 ],为 F V。对于基于神经网络的方法,所有方法都使用Inception-V2(带有批归一化的GoogLeNet)[ 44 , 19 ]作为CNN子网络,表示为 NG 。04.3. 在ImageNet上的实验0ILSVRC 2010上的比较结果与AwA和CUB相比,关于大规模ImageNetZSL任务的研究结果较少。我们在表2中将我们的模型与8种替代方法进行比较,其中我们使用hit@5而不是小数据集实验中的hit@1准确率。请注意,现有的研究遵循两种设置。其中一些方法 [ 30 , 18 ] 使用现有的CNN模型0(例如VGG/GoogLeNet)从ILSVRC2012的1K类别中预训练他们的模型或提取深度视觉特征。在相同的设置下,与这两种方法相比,我们的模型给出了60.7%,超过了最近的竞争对手PDDM [ 18]超过12%。为了与其他6种方法进行比较,我们按照他们的设置,使用Alexnet [ 21]架构从头开始预训练我们的CNN子网络,使用800个训练类别进行公平比较。结果显示,我们的模型再次取得了显著的改进。0模型 hit@50ConSE [ 31 ] 28.5 DeViSE [ 10 ] 31.8Mensink 等 [ 27 ] 35.7 Rohrbach [36 ] 34.8 PST [ 35 ] 34.0 AMP [ 14 ]41.00我们的 46.70高斯嵌入 [ 30 ] 45.7 PDDM [ 18 ]48.20我们的 60.70表2. ILSVRC 2010上的比较结果(%)0ILSVRC 2012/2010上的比较结果即使在这个数据集上,发表的结果也很少。表3显示,我们的模型明显优于现有的替代方法。0模型 hit@1 hit@50我们的 11.0 25.70表3. ILSVRC 2012/2010上的比较结果(%)04.4. 进一步分析0选择嵌入空间的重要性我们认为有效的深度嵌入模型的关键是使用CNN输出的视觉特征空间而不是语义空间作为嵌入空间。在这个实验中,我们修改了图1中的模型,将两个FC层从语义嵌入分支移动到CNN特征提取分支,使得嵌入空间现在变成了语义空间(使用属性)。表4显示,通过将视觉特征映射到语义嵌入空间,AwA上的性能下降了26.1%,突出了选择正确的嵌入空间的重要性。我们还假设使用CNN视觉特征空间作为嵌入层会导致较少的hub-chimpanzeegiant pandaleopardpersian catpighippopotamushumpback whaleraccoonratseal(a) S → V(b) V → S20280图4. 使用t-SNE [ 25]在AwA上可视化10个未见类别图像在两个嵌入空间中的分布。不同的类别以及它们对应的类别原型(在方框中)以不同的颜色显示。最好以彩色查看。0性问题。为了验证这一点,我们使用偏斜度得分(见第3.5节)来测量枢纽问题。表5清楚地显示了当选择错误的嵌入空间时,枢纽问题更加严重。我们还绘制了AwA的10个未见类别的数据分布,与原型一起。图4表明,当将视觉特征空间作为嵌入空间时,这10个类别形成紧凑的聚类,并且接近它们
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功