双曲视觉嵌入网络用于零样本识别

84 浏览量更新于2023-10-23 收藏 14.67MB PDF 举报

层次结构

深度学习网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

432192730双曲视觉嵌入学习用于零样本识别0Shaoteng Liu 1,2 Jingjing Chen 1 † Liangming Pan 3 Chong-Wah Ngo 4 Tat-Seng Chua 3 Yu-Gang Jiang 101 上海智能信息处理重点实验室，复旦大学计算机科学学院 2 西安交通大学 3 新加坡国立大学 4香港城市大学0摘要0本文提出了一种用于零样本识别的双曲视觉嵌入学习网络。该网络在双曲空间中学习图像嵌入，能够在低维度中保留语义类别的层次结构。与现有的零样本学习方法相比，该网络更加鲁棒，因为双曲空间中的嵌入特征更好地表示了类别层次结构，从而避免了与无关的兄弟类别相关的误导。在极具挑战性的层次评估中，我们的网络在仅从1,000个类别中学习来识别20,841个未见过的类别的情况下表现优异。而在平坦评估下，它具有与最先进方法相媲美的性能，但嵌入维度降低了五倍。我们的代码公开可用。01. 引言0实际图像识别应用通常面临成千上万个对象类别。为每个类别收集足够的训练数据是耗时且有时不可行的。因此，零样本学习（Zero-ShotLearning，ZSL）旨在识别在训练阶段未见过的新类别，已成为需要研究的重要问题。然而，零样本学习通常被认为是一个困难的问题。据报道，在广义的大规模零样本图像识别中，ImageNet数据集（包含2,841个类别）的最佳性能在top-5准确率方面不到10％，远远低于实际应用。一方面，ImageNet中的类别按照WordNet层次结构进行组织，包括一般和细粒度对象。例如，有数百种狗的品种；用足够的标记训练数据来区分它们是困难的，更不用说在没有训练样本的情况下。因此，学习一个旨在0† 通讯作者。电子邮件：chenjingjing@fudan.edu.cn �https://github.com/ShaoTengLiu/Hyperbolic_ZSL0松鼠0地松鼠飞鼠树松鼠0北极松鼠岩松鼠黑松鼠红松鼠0图1.给定一个来自“北极松鼠”的未见过的图像（绿色边界），提出的双曲视觉嵌入学习网络将倾向于预测其直接父类“地松鼠”（蓝色边界），而现有方法将其预测为错误的兄弟类别“岩松鼠”。0在大规模零样本设置下，尝试预测正确的特定类别是不切实际的。为了使零样本学习在实际应用中更加适用，我们注意到当零样本系统无法对叶子类别进行具体预测时，用户更倾向于接受相对一般但正确的预测，而不是具体但错误的预测。例如，图1展示了ImageNet中的部分类别层次结构。给定一个未见过的“红松鼠”的图像，用户可能更喜欢预测为“树松鼠”而不是“袋鼠”。此外，进行稍微一般但正确的预测可以方便地设计用户界面以改进结果。因此，在本文中，我们认为一个强大的零样本学习系统应该具备输出一个正确但不那么细粒度的标签（例如，与真实标签的直接父类）的能力。然而，现有的方法并没有设计来优化零样本识别系统的鲁棒性。一般来说，大多数现有的方法是隐式模型，直接学习从视觉空间到语义空间的映射。语义空间通常由语义向量表示，例如从GloVe或Word2Vec模型中获得的词向量。由于语义空间中没有编码类别之间的层次关系，这些模型很难实现鲁棒的识别。最近的研究提出通过使用图神经网络对类别层次关系进行建模来引入类别层次结构。̈́́́432292740深度ConvNet0特征提取器图像特征0投影后的图像特征0欧几里得空间双曲空间0指数映射0M �o bius变换层0Poincar �e距离0转换后的图像特征0连接0词嵌入0词嵌入0来自维基百科的大型文本语料库0Poincar�e嵌入0Poincar�e GloVe0WordNet层次结构0图2.通用模型框架。对于给定的图像，我们的模型首先使用深度ConvNet提取其视觉特征。然后，通过指数映射和M ¨ obius变换将提取的特征投影到双曲空间中，以与类别嵌入对齐，这是通过在双曲空间中组合两种嵌入（Poincar´e嵌入和Poincar´eGlove）来学习的。0工作[34][17]。通过图传播，将经过良好训练的已见类别的分类器权重传播到未见类别。与隐式方法相比，这些明确利用层次结构（显式模型）的模型更加稳健和有效。然而，由于层次关系反映在在欧几里得空间中学习的分类器中，不能保证类别与其直接父节点相比与其无关的兄弟节点更近。当未见类别的数量增加时，这变得更加困难。在本文中，我们发现双曲空间非常适合解决上述问题，从而得到更稳健的ZSL模型。双曲空间是在黎曼几何中研究的一种流形空间，其中基本的数学运算（例如距离测量）与欧几里得空间有所不同。已经证明双曲空间特别适合建模分层数据[26,13]。例如，我们可以用双曲空间中的二维嵌入表示具有分支因子b的树，以便其结构在嵌入中得到反映。这个特性使我们能够在低维空间中编码类别的层次结构，从而得到一个轻量级的ZSL模型。更重要的是，在双曲空间中，一个类别与其直接祖先更近，而与其兄弟节点更远，这完全符合我们对稳健性的要求。通过在双曲空间中学习的图像嵌入，我们的模型天然具有稳健性。因此，我们提出了一个新颖的ZSL框架（如图2所示），该框架在双曲空间中学习具有层次感知的图像嵌入特征。在我们的框架中，图像标签通过Poincar´e层次嵌入模型[26]和Poincar´e Glove[33]投影到双曲空间中。Poincar´e层次嵌入模型[26]学习了保留层次结构的标签嵌入。0信息，而Poincar´e Glove[33]捕捉了语义信息。同时，从欧几里得空间中提取的DCNN图像特征首先通过指数映射投影到双曲空间中，然后通过学习M¨obius版本的变换网络与相应的双曲标签嵌入进行对齐。M¨obius版本的变换网络的目标是在双曲空间中将图像嵌入到其标签嵌入的Poincar´e距离最小化。在测试过程中，可以通过搜索与其图像嵌入具有最小Poincar´e距离的标签嵌入来获得未见图像的标签。本文的贡献总结如下：0•我们提出了一种在双曲空间中学习具有层次感知的图像嵌入的超几何视觉嵌入学习网络，用于ZSL。据我们所知，这是首次尝试将非欧几里得空间引入零样本学习问题。0•我们进行了实证和分析研究，以证明将双曲空间引入到零样本学习问题中会产生更稳健的预测模型。02. 相关工作0由于在训练样本充足时，图像识别系统已经达到了接近人类准确度的水平[15]，因此最近的研究重点转向了零样本图像识别问题[16, 38, 22, 8, 14, 12,37]，这是一个具有挑战性但更实际的设置，在这种设置中，识别是在训练期间未见过的类别上进行的。早期的零样本学习工作主要依赖于语义属性，包括用户定义的属性[18,19]和数据驱动的属性[10, 23]，这些属性是自动发现的。432392750从视觉数据中发现。然后，这些属性被用作跨类别的知识传输的中间表示，支持未见类别的零样本识别。最近的零样本学习工作主要基于深度学习技术，基本上可以分为两个主要范式。第一个范式基于语义嵌入（隐式知识），它直接学习从视觉空间到语义空间的映射[4, 5, 11, 9, 36, 29,31]，由语义向量（如词向量）表示。例如，Socher等人[32]提出了学习线性映射以对齐从两个不同神经网络学习的图像嵌入和标签嵌入的图像嵌入的方法。受到这项工作的启发，Frome等人[9]提出了DeViSE模型，使用ConvNet和转换层来训练这个映射，结果表明这个范式可以用来对数以万计的未见图像标签进行预测。Norouzi等人[27]提出了通过凸组合将图像特征映射到语义嵌入空间的方法，这不需要额外的训练。0第二范式直接对零样本识别中的类别之间的关系进行建模，而不是将图像类别表示为语义嵌入。例如，Salakhutdinov等人[30]使用WordNet层次结构在不同的分类器之间共享知识，以便将已见类别的知识传播到未见类别。发现知识图对于执行这种知识传播非常有效。Deng等人[6]应用知识图来组织对象之间的属性关系，并将其用于将已见类别的知识传播到未见类别。0最近的研究[34][17]表明，结合隐式知识和显式知识可以使模型实现更好的识别性能。正如[34]所示，通过利用图卷积网络（GCN）将语义嵌入和类别层次结构相结合，它在ImageNet数据集上实现了零样本识别的最新结果（例如“2跳”，“3跳”和“全部”），几乎使只使用语义嵌入的模型的性能翻倍。与[34]和[17]类似，我们的工作也利用了语义嵌入和类别层次结构，充分利用了隐式知识和显式知识进行零样本识别。然而，与[34]和[17]不同的是，我们的工作在双曲空间中对隐式知识和显式知识进行建模。显式知识——WordNet层次结构使用具有层次感知的Poincar´e嵌入进行编码，这样可以用较少的维度更好地捕捉类别层次结构。同时，语义嵌入在双曲空间中使用Poincar´eGloVe进行学习。由于双曲空间更适合对层次数据进行建模，因此我们的模型具有更好的鲁棒性。0与在欧几里得空间中工作的现有模型相比。03. 预备知识0双曲空间是双曲几何中的一个重要概念，被认为是黎曼几何的一个特例。在介绍我们提出的模型之前，本节将介绍黎曼几何和双曲空间的基本信息。03.1. 黎曼几何基础0流形是微分几何中研究的曲面的推广。黎曼几何是微分几何的一个分支，研究带有黎曼度量的空间。流形上的每个点都可以被赋予一个曲率。当曲率是一个负常数时，几何变成双曲几何。对于流形M中的点x，可以将M在x点的切空间TxM定义为一个包含所有可能的切向通过的方向的向量空间。可以在TxM上定义内积。M上的黎曼度量g是一组内积gx：TxM×TxM→R，x∈M。黎曼流形（M，g）是一个流形M和黎曼度量g的组合。基于这些概念，我们引入以下定义： •测地线是两点之间的最短曲线，类似于欧几里得空间中的直线。 •平行传输是一种沿着流形上的光滑曲线（如测地线）传输切向量的方法，可以表示为Px−→y：TxM−→TyM。 •指数映射是从黎曼流形M上的切空间TxM的子集到M本身的映射，它提供了一种将欧几里得空间中的向量投影到双曲空间的方法。对于任意切向量v∈T0M\{0}，指数映射exp0：T0M−→M的形式定义如下：0exp0(v) = tanh(∥v∥)0∥ v ∥ ，（1）0其中我们选择0作为参考点。我们使用指数映射将在欧几里得空间中学习到的图像特征投影到双曲空间中，这将在后面详细说明。指数映射的逆过程是对数映射log0(y)：M−→T0M。显然，log0(exp0(v)) = v。03.2. 庞加莱球0双曲空间有5种常见的模型。其中，庞加莱球模型和洛伦兹模型在机器学习中最常用。与[26]类似，我们选择庞加莱球作为嵌入模型，因为它的距离函数是可微的，并且x∥2(2)dD(x, y) = cosh−1(1 + 22L = −�(u,v)∈Eloge−dD(u,v)�v′∈N (u) e−dD(u,v′)(5)J =V�i,j=1f(Xij)(−12d2D(wi, ˜wj)+bi+ ˜bj−log Xij)2, (6)432492760它对表示有一个相对简单的约束。庞加莱球是一个模型，其中的点位于一个单位球内。它可以被定义为一个流形（Dn，gD），其中Dn = {x ∈ Rn：∥x∥ <1}是庞加莱球内的n维双曲空间。庞加莱球的黎曼度量如下所示：0gDx = λ2xgE，其中λx = 10其中gE =In是欧几里得度量张量，x是庞加莱球上的一个点。两点（x，y）之间的庞加莱距离可以通过黎曼度量来诱导，如下所示：0(1 − ∥x∥)(1 − ∥y∥))（3）0由于庞加莱球与欧几里得空间是共形的，所以这两个空间的角度定义是相同的。形式上，庞加莱球中两个向量（u，v）之间的角度定义为：0cos(∠(u，v)) = gDx(u，v)�0gDx(v，v)（4）04. 方法0提出的框架旨在学习图像和标签在双曲空间中的嵌入，以便层次信息和语义信息可以在少量维度下得到很好的保留，用于零样本识别。如图2所示，提出的框架包括两个模块：（1）超球面标签嵌入学习，将图像标签C嵌入到一个超球面空间H中，通过Poincar´e嵌入编码层次信息（通过Poincar´e嵌入）和语义信息（通过Poincar´eGlove）；（2）Poincar´e图像特征嵌入学习，学习在超球面空间H中与相应的庞加莱标签嵌入最近的图像嵌入。04.1. 双曲标签嵌入学习0对于文本标签，我们研究了两种双曲嵌入模型用于嵌入学习：Poincar´e层次嵌入模型[26]和Poincar´e Glove[33]。前者使用WordNet层次结构[25]学习双曲词嵌入，而后者使用GloVe的双曲版本[28]嵌入标签。最终的标签嵌入是通过结合从两个模型学习的嵌入得到的。0Poincar´e嵌入。根据[26]的方法，我们将WordNet名词层次结构嵌入到Poincar´e球中。WordNet名词层次结构包括82,115个同义词集（节点）和0我们学习每个同义词集的嵌入，使得同义词集对之间的距离在Poincar´e球中保持不变。为此，我们采用训练目标来确保具有上位词关系的节点之间的距离最小化，而没有关系的节点之间的距离最大化。形式上，设 E = { ( u, v ) }为两个类别 u, v ∈ C之间的观察到的上位词关系集合，我们在双曲空间中最小化以下目标。0其中 N ( u ) = { v | ( u, v ) / ∈ E} ∪ { u } 是 u的负例集（包括 u本身）。与[26]相同，我们在训练过程中每个正例随机采样10个负例。由于我们在双曲空间中进行训练，距离度量被替换为方程3中定义的Poincar´e距离。训练完成后，我们获得了每个可以映射到图像类别的WordNet同义词集的嵌入。0Poincar´eGlove。除了层次结构，图像类别之间的语义关系也在零样本学习中起着重要作用。图像类别的语义信息通常通过学习类别标签的词嵌入来获得。GloVe[28]是一种常用的方法，它基于大型文本语料库中的词共现来学习欧几里德空间中的词嵌入。然后，词之间的语义关系通过它们在嵌入空间中的距离来反映。为了捕捉图像类别之间的语义关系，我们在Poincar´e球中训练了一个GloVe模型，按照[33]的方法进行。在图像类别具有多个意义的情况下，我们只选择WordNet同义词集中的第一个意义来学习语义嵌入。训练Poincar´eGloVe的主要挑战是在双曲空间中没有明确的内积定义。根据[33]的方法，我们将原始GloVe损失函数中的内积替换为方程3中定义的Poincar´e距离，得到如下的双曲版本的GloVe损失函数 J。0其中 V 是文本语料库的大小，X ij 是单词 i 和 j在同一个窗口上下文中出现的次数，w i 是单词 i 的嵌入，˜w j 是上下文单词 j 的嵌入，d D是方程3中的Poincar´e距离。对于训练语料库，我们使用由[21]和[20]提供的包含14亿个标记的英文维基百科转储。0特征融合。我们将Poincar´e嵌入 p c 和Poincar´eGloVe嵌入 q c 连接起来形成Poincar´e球中的最终类别嵌入t c。该嵌入包含了类别的结构和语义信息。̸432592770然而，尽管 p c 和 q c的范数都小于1（Poincar´e球的半径），但连接向量 t c的范数可能大于1，这可能使其超出Poincar´e球的范围。为了解决这个问题，我们使用指数映射将向量投影回球体上。这给出了 t c 的最终表示如下。0t c = exp 0（[p c; q c]）（7）0其中exp 0是方程1中定义的指数映射。04.2. 双曲图像嵌入学习0使用ResNet [15]从未见过的图像I中提取特征v I。vI是欧几里得空间中的一个2048维向量。提出了超球面视觉特征变换网络，将vI投影到双曲空间并与其类别标签对齐。变换网络由一个指数映射用于将图像特征投影到双曲空间，以及一个M ¨obius变换网络用于将图像与标签对齐组成。0指数映射。使用方程1中的指数映射，我们首先将图像特征vI投影到Poincar´e球中。通过选择欧几里得空间作为双曲空间的切空间，指数映射可以将欧几里得空间中的图像特征投影到双曲空间中，如下所示：0˜ v I = exp 0（v I）（8）0其中˜ v I是图像I的投影特征。M ¨obius变换。然后，我们训练一个M ¨obius变换器，将投影的图像特征˜ v I与相应的标签嵌入t cI对齐。我们的M ¨obius变换器本质上是一个在双曲空间中实现的两层前馈神经网络。对于欧几里得空间中的任意函数f：R n → R m，M¨o bius版本的f是一个将D n映射到D m的函数，其中Dn和D m是双曲空间中的D n和D m：0f �（x）= exp 0（f（log 0（x）））（9）0其中exp 0：T 0 m D m → D m和log 0：D n → T 0 n Dn。当M：R n → Rm是一个线性映射且Mx≠0时，将M代入方程9得到M ¨obius矩阵-向量乘法M �（x）如下所示。0M �（x）= tanh（∥0∥ x ∥ tanh − 1（∥ ∥））Mx0∥ Mx ∥（10）0根据方程10，我们可以在双曲空间中实现一个前馈层，我们的M ¨obius变换是由两个前馈层堆叠而成的两层网络。经过M ¨obius变换后，投影的图像特征˜ vI被转换为图像嵌入特征（表示为h I），其与0在双曲空间中嵌入标签嵌入。通过这样做，将图像特征最接近的类别标签分配给图像。模型训练。使用排序损失作为模型训练的损失函数，目标是最小化从M ¨obius变换器学习的图像嵌入h I与其标签嵌入t cI之间的距离。由于模型在双曲空间中训练，我们使用方程3中定义的Poincar´e距离作为距离度量。损失函数的输入是一个三元组�h I，t c I，t − c I�，其中t − cI表示具有负标签的随机样本。设边界为δ∈（0，+∞），损失函数定义为0L = max[0，δ + d D（t c I，h I）− d D（t c I，t − c I）]。（11）0为了优化，我们在双曲空间中采用不同的优化工具。Poincar´e Glove的训练使用RADAGRAD[1]进行优化。对于Poincar´e嵌入，RADAGRAD不适用，因为它要求双曲空间是Riemann流形的乘积。因此，我们使用完整的Rieman随机梯度下降（RSGD）[2,13]来训练Poincar´e嵌入，并将学习率设置为0.01。05. 实验05.1. 数据集0实验在ImageNet[7]上进行，这是一个流行的零样本学习的基准测试[27, 9,34, 17]。该基准测试包括来自ImageNet 20121K数据集的1,000个已知类别。未见类别根据WordNet层次结构分为“2跳”，“3跳”和“全部”概念的三个数据集。例如，“2跳”未见概念在已知概念的2跳内，总共有1,589个类别。“3跳”数据集有7,860个类别，而“全部”数据集包括ImageNet中的所有20,841个类别。请注意，在这三个数据集中，已见类别和未见类别之间没有重叠。数据集的难度与未见类别的数量成正比。我们在这三个数据集上评估我们的模型，包括零样本学习（ZSL）设置和广义零样本学习（GZSL）设置。在ZSL中，我们只评估模型在未见类别上的性能，即模型能够识别测试样本属于哪个未见类别。然而，在GZSL中，我们使用所有类别（已见类别和未见类别的并集）作为候选集来评估模型。我们将上述3个数据集的GZSL设置命名为：“2跳+1K”，“3跳+1K”和“全部+1K”。GZSL是一种更具挑战性的设置。我们采用与[9,34]相同的训练/测试分割设置。05.2. 基线0我们将我们的模型与几种最先进的ZSL基线模型在ZSL和GZSL设置下进行比较。基-DeViSE3.25.39.515.621.2DeViSE∗4.57.09.915.622.0ConSE4.26.812.318.525.1GCNZ9.215.627.536.844.5Ours16.624.343.858.670.3DeViSE1.32.13.34.97.3DeViSE∗1.72.64.46.69.3ConSE1.92.64.47.29.7432692780以下是列出的几种方法。DeViSE[9]：这是一种典型的隐式知识转移方法，通过学习使用铰链排序损失函数的变换，将视觉特征线性映射到语义词嵌入空间。DeViSE�：我们在联合空间学习期间将文本的分层嵌入与语义嵌入进行串联，以增强原始的DeViSE。分层嵌入与Poincar´e嵌入串联的维度相同，为了公平比较，通过使用[26]中的损失函数进行学习，该损失函数鼓励在嵌入空间中语义上相似的对象彼此接近。ConSE[27]：ConSE将DeViSE的特征转换改为从T个最接近的已见类中的语义嵌入的凸组合，权重由图像属于已见类的概率加权。SYNC[3]：SYNC是另一种隐式知识转移方法，通过添加一组幻影对象类别，将语义空间与视觉模型对齐，从而导出新的嵌入，该嵌入是这些幻影类别的凸组合。GCNZ[34]：GCNZ利用Word2vec嵌入来表示类别标签，并利用GCN来建模未见类别的类别关系进行预测。Word2vec嵌入被用作GCN的输入，并且在图传播期间将已见类别的分类器权重转移到未见类别。DGP[17]：作为GCNZ的改进版本，DGP提出了一种密集图传播模块，以减轻来自远节点的知识稀释。05.3. 实验设置0对于Poincar´e嵌入，我们使用[26]在WordNet名词层次结构的传递闭包上训练的100维向量。对于Poincar´eGlove，我们基于[21]和[20]提供的英文维基百科转储（包含14亿个标记）为每个图像类别训练了一个100维向量。最后，我们得到了一个200维的组合类别嵌入。M ¨obius特征转换使用RSGD [2,13]进行了2000个时期的训练，学习率为0.01，输入是2048维的投影图像特征向量，输出是200维的向量。方程11中的边界δ通过交叉验证设置为1。该模型使用PyTorch实现，在四个GTX 1080Ti GPU上进行训练。05.4. 分层评估0ZSL的标准评估指标是Top-k HitRatio（Hit@k），它衡量了在预测的前k个位置中命中真实标签的百分比。然而，这个指标并不能反映ZSL模型的鲁棒性。因此，我们提出了一种分层评估指标，它将GT标签与其直接的标签进行扩展。0表1.在ImageNet数据集上，不同模型的Top-k准确率进行分层评估。候选项成为“跳跃”测试集和其父类别中的类别。基线模型由我们重新实现。对于所有模型，图像特征是使用ResNet-101提取的。0数据集模型分层精度@ k (%) 1 2 5 10 2002跳 &它们的父类别03跳 &它们的父类别0GCNZ 2.7 4.6 8.2 12.5 15.10我们 7.9 12.5 21.4 28.7 37.50全部0DeViSE � 1.0 1.6 2.9 4.4 6.50ConSE 1.5 2.4 4.2 6.5 9.70GCNZ 2.2 3.8 7.2 10.5 13.90我们 5.1 6.9 12.9 16.5 19.30父类。准确预测直接父类反映了ZSL模型的鲁棒性。为了说明这一点，图1展示了ImageNet中部分类别层次结构。给定一张“红松鼠”的图像，当模型无法做出正确预测时，一个更鲁棒的ZSL模型应该能够输出第二好的预测，即将图像分类为其父类“树松鼠”，这比将图像错误地分配给层次结构的另一个分支（如“袋鼠”）的错误标签更可接受。具备这种能力的ZSL系统在实际应用中更加适用，因为可以设计一个简单的用户界面来帮助用户选择正确的叶类别。在层次评估中，给定一个测试图像I，其类别标签为c（例如，红松鼠），我们将c和c的直接父类（例如，树松鼠）都设置为基准，并评估Hit@k的得分。表1列出了性能比较结果。与DeViSE相比，DeViSE�取得了更好的性能，在层次评估下展示了引入层次嵌入在ZSL中的优势。此外，显然我们的模型明显优于所有基线方法，甚至比DeViSE�的性能提高了三倍，比另一个强基线方法GCNZ的性能提高了一倍。这些结果表明，双曲空间可以更好地捕捉类别层次结构，从而得到一个鲁棒的ZSL模型，即使无法确定其确切的特定类别（在本例中为红松鼠），也倾向于将一个通用类别（例如松鼠）分配给未见过的图像。我们的方法的卓越性能归功于双曲空间中类别分布的特性；一个类别倾向于接近其父类而远离其兄弟类。我们相信这是通过202-hopsConSE [3]Inception-v18.312.921.830.941.7ConSE [3]ResNet-507.63----SYNC [3]Inception-v110.516.728.640.152.0GCNZ [34]ResNet-5019.833.353.265.474.6DGP [17]ResNet-5026.240.460.271.981.03-hopsConSE [3]Inception-v12.64.17.311.116.4ConSE [3]ResNet-502.18----SYNC [3]Inception-v12.94.99.214.220.9SYNC [3]ResNet-502.31----GCNZ [34]ResNet-504.17.514.220.227.7DGP [17]ResNet-506.010.418.927.236.9ConSE [3]Inception-v11.32.13.85.88.7ConSE [3]ResNet-500.95----SYNC [3]Inception-v11.42.44.57.110.9SYNC [3]ResNet-500.98----GCNZ [34]ResNet-501.83.36.39.112.7DGP [17]ResNet-502.84.99.113.519.320ConSE [34]ResNet-500.111.224.329.132.7GCNZ [34]ResNet-509.720.442.657.068.2DGP [17]ResNet-5011.927.050.865.175.9ConSE [34]ResNet-500.23.27.310.012.2GCNZ [34]ResNet-502.25.111.918.025.6DGP [17]ResNet-503.27.116.124.634.6ConSE [34]ResNet-500.11.53.54.96.2GCNZ [34]ResNet-501.02.35.38.111.7DGP [17]ResNet-501.53.47.812.318.2432792790DeViSE：泰迪熊，猩猩，山谷，叶猴，悬崖0GCNZ：负鼠，红松鼠，袋鼠，狐猴，树袋鼠0我们的方法：红松鼠，树松鼠，松鼠，袋鼠，负鼠0DeViSE：橄榄球，足球，高尔夫球，篮球，板球0GCNZ：排球，篮球，高尔夫球，沙袋，橄榄球0我们的方法：排球，球，篮球，橄榄球，足球0DeViSE：子弹火车，货车，校车，警车，小型巴士0GCNZ：邮政列车，快车，客运火车，货船，班车0我们的方法：客运火车，铁路火车，公共汽车，校车，电车0图3。定性结果比较。真实类别以粗体突出显示。真实类别的直接父类以粗体和“*”突出显示。我们列出了前5个预测。0双曲嵌入非常适合实际的ZSL系统。我们在图3中进一步展示了一些预测示例。对于一张“红松鼠”的图像，虽然GCNZ和我们的模型都将真实标签排在前两位，但我们的模型成功地将直接父类“树松鼠”排在前两位。对于一张“排球”的图像，我们的模型成功地将直接父类“球”排在前两位。05.5.性能比较0然后我们分别在标准的ZSL和GZSL设置上进行性能比较。结果总结在表2和表3中，根据这些结果我们得出了四个主要观察结果。首先，同时考虑隐式知识和显式知识的方法基本上优于仅考虑隐式知识的方法。在ZSL和GZSL设置上，GCNZ、DGP和我们的方法在所有评估指标上都明显优于DeViSE、ConSE和SYNC。在ZSL设置中，当使用ResNet-50进行图像特征提取时，我们的模型在Hit@1方面分别比DeViSE、ConSE和SYNC提高了98.5%、74.3%和38.5%。值得注意的是，与DeViSE相比，将层次嵌入和语义嵌入连接起来进行联合嵌入空间学习的DeViSE�表现得更差，这表明在欧几里得空间中直接连接不同类型的词嵌入可能不是利用不同类型知识的正确方式。其次，我们的方法与其他隐式方法相比显示出更稳定的结果。例如，当使用ResNet-50进行图像特征提取时，将测试集从“2-跳”更改为“3-跳”时，DeViSE、ConSE和SYNC的Hit@1性能下降了74.6%、71.4%和75.9%，而我们的方法只下降了51.1%。在第5.4节中，我们已经展示了在双曲空间中，一个类接近其父类而远离其兄弟类。这使得我们的模型很难将图像错误分类为其兄弟类。然而，这种错误很容易发生。0表2. ZSL设置下不同方法的前k准确率。0测试集模型ConvNets平坦Hit@ k（%）0DeViSE � (我们) ResNet-50 6.1 10.6 18.8 27.4 37.20SYNC [3] ResNet-50 9.6 - - - -0我们的ResNet-50 13.3 20.8 39.2 52.7 62.40我们的ResNet-101 14.2 22.1 40.7 53.7 63.20DeViSE � (我们) ResNet-50 1.9 3.3 6.0 9.1 13.60我们的ResNet-50 6.5 10.6 18.8 25.8 35.20我们的ResNet-101 7.3 11.3 19.6 26.3 35.70DeViSE � (我们) ResNet-50 0.9 1.7 2.9 4.3 6.80我们的ResNet-50 3.7 5.9 10.3 13.0 16.40我们的ResNet-101 4.2 6.3 10.8 13.3 16.60表3. GZSL设置下不同模型的前k准确率。0测试集模型ConvNets平坦Hit@ k（%）02-hops（+1K）0DeViSE � (我们) ResNet-50 1.0 2.9 8.2 14.7 23.40我们的ResNet-50 6.4 11.9 27.2 35.3 45.20我们的ResNet-101 6.8 12.2 27.4 35.4 45.203-hops（+1K）0DeViSE � (我们) ResNet-50 0.5 1.5 3.6 6.3 10.20我们的ResNet-50 3.6 8.7 15.3 20.5 29.10我们的ResNet-101 3.7 8.8 15.3 20.5 29.10全部（+1K）0DeViSE � (我们) ResNet-50 0.3 0.8 2.0 3.4 5.50我们的ResNet-50 2.2 4.6 9.2 12.7 15.50我们的ResNet-101 2.3 4.6 9.2 12.7 15.50在欧几里得空间中发生，因为共享共同祖先的类倾向于聚集在一起。第三，与基于GCN的最新知识转移方法相比，包括GCNZ和DGP，我们的模型在“2-hops”测试集上的性能较低。然而，在“3-hops”和“全部”上，我们的模型与它们取得了可比较的结果，具有更好的Hit@1、Hit@2和Hit@5，但稍微差一些的是Hit@10和Hit@20。020PG Only2.43.36.58.610.70246810121416As the volume of hyperbolic space increases exponen-tially with the radius, the embedding dimension needed torepresent the feature embeddings can be much lower thanthat in Euclidean space. To demonstrate this, we investigatethe performance of our model regarding different semanticembedding dimensions. In Figure 4, we compare the perfor-mance of our model with DeViSE and ConSE. The Hit@1on the “2-hops” dataset is reported for different embeddingdimensions. As shown in the Figure, when the dimensionof the semantic embedding decreases to 10, our model stillachieves a satisfactory Hit@1 of 8.3. On the contrary, theperformance DeViSE and ConSE, which learns the embed-dings in Euclidean space, decreases to 0 as both modelscannot converge in training with 10-dimensional semanticembeddings. The results clearly show the advantages oflearning embeddings in hyperbolic space.432892800表4.不同双曲标签嵌入的影响。图像特征使用ResNet-101提取。测试是在未见类别上进行的。0（#类别）模型平均命中@ k（%）02跳（1,589）0仅PH 12.1 18.5 34.4 46.5 53.60仅PG 10.6 15.4 32.6 43.1 51.70PH + PG 14.2 22.1 40.7 53.7 63.203跳（7,860）0仅PH 6.2 9.7 16.1 23.5 31.50仅PG 3.7 7.3 13.1 18.8 26.30PH + PG 7.3 11.3 19.6 26.3 35.70全部（20,841）0仅PE 3.6 4.6 8.8 10.0 13.70PE + PG 4.2 6.3 10.8 13.3 16.60仅PG 2.4 3.3 6.5 8.6 10.705.6. 消融研究0我们进一步进行消融研究，以展示结构信息和语义信息相结合的有效性。如表4所示，我们评估了我们模型的三个版本：仅使用Poincar´e层次嵌入的模型（PHOnly），仅使用Poincar´e GloVe的模型（PGOnly），以及两者都使用的模型（PH +PG）。结果显示，PH+PG的性能始终优于仅使用Poincar´e嵌入或仅使用Poincar´eGloVe的模型。这证明了层次信息和语义信息在零样本学习中的互补作用。我们使用一个具体的例子来解释这两种嵌入是如何相互补充的。以红松鼠（图1）的图像为例，Poincar´e嵌入的前5个预测标签是：“红松鼠”，“树松鼠”，“松鼠”，“树袋鼠”和“袋鼠”；而Poincar´eGloVe的前5个预测标签是：“红松鼠”，“袋鼠”，“树袋鼠”，“树松鼠”和“狐猴”。我们发现，Poincar´e嵌入倾向于预测一般的标签，如“树松鼠”和“松鼠”，因为它主要捕捉到了类别层次结构。相反，Poincar´eGloVe倾向于预测相似和具体的标签（例如“袋鼠”），因为它建模了不同类别之间的语义相似性。010 20 30 40 50 60 70 80 90 100 200 300 400 500语义嵌入的维度02跳上的hit@1(%)0我们的方法 ConSEDeViSE0图4.在不同语义嵌入维度下的性能比较。测试是在“2跳”数据集上进行的。0因为双曲空间的体积随半径呈指

下载后可阅读完整内容，剩余1页未读，立即下载