基于知识转移的少样本图像识别

145 浏览量更新于2023-10-16 收藏 12.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4410基于知识转移的少样本图像识别0彭志茂†，李泽超†�，张俊戈‡，李岩‡，齐国俊�，唐金辉†0† 南京理工大学计算机科学与工程学院 ‡ 中国科学院自动化研究所 � 华为云0{ zhimaopeng, guojunq } @gmail.com, { zechao.li, jinhuitang } @njust.edu.cn0jgzhang@nlpr.ia.ac.cn, yan.li@cripac.ia.ac.cn0摘要0人类在浏览这些类别的少量示例后就能很好地识别新类别的图像。一个可能的原因是他们从先验知识中获得了一些关于这些类别的外部有区分性的视觉信息。受此启发，我们提出了一种新颖的知识转移网络架构（KTN）用于少样本图像识别。所提出的KTN模型将视觉特征学习、知识推理和分类器学习融合到一个统一的框架中，以实现它们的最佳兼容性。首先，基于卷积神经网络和余弦相似度优化，学习了新类别的视觉分类器。为了充分利用先验知识，然后开发了一个语义-视觉映射网络来进行知识推理，从基类别推断出新类别的分类器。最后，我们设计了一种自适应融合方案，通过有效地整合上述知识和视觉信息来推断出所需的分类器。在两个广泛使用的Mini-ImageNet和ImageNetFew-Shot基准上进行了大量实验，以评估所提方法的有效性。与最先进的方法相比，所提方法在1-shot和2-shot任务上表现出令人鼓舞的性能。01. 引言0最近，经典的深度学习模型在许多计算机视觉和图像理解任务上取得了显著的成功[11, 7, 16, 27,15]。为了进一步提高性能，神经网络变得更深，这通常需要更多丰富类别的标注数据。不幸的是，人工标注数据不仅往往非常昂贵，而且经典的深度学习方法容易出现过拟合和泛化能力差的问题。0� 通讯作者0图1.给定一张带有标注的老虎图像，人们对老虎有一些先验知识（如“猫科动物”和“黑色竖纹”），然后进行知识推理，生成老虎的有区分性的视觉信息。所提出的方法模仿这个过程，以提高少样本识别性能。0有限标注数据的情况下的图像0为了减轻深度模型训练所需的标注数据的需求，最近引起了对少样本学习的广泛关注[33, 3, 24, 29, 39, 18, 36, 6, 23,5]。少样本学习的目标是仅使用一个或少量标注示例来识别新类别。其关键思想是将从基类别获得的视觉模式转移到描述新类别。大多数现有的与深度学习结合的少样本学习方法可以大致分为两组：基于度量学习的方法[10, 33, 29,39]和基于元学习的方法[3, 24, 18, 36,39]。基于度量学习的方法主要关注使用深度网络学习适当的视觉特征嵌入空间，并选择一个良好定义的度量来计算新类别的少量示例与测试示例之间的相似性。基于元学习的方法试图从过去的经验中学习一些可转移的“元知识”。𝑊𝑣4420� 图像0归一化0Softmax0词嵌入0M-Net0归一化0� �0损失0� � �W0平均集成0λ0知识图0� �0�(�) T0T0分类得分0视觉特征学习模块知识迁移模块0视觉-知识融合模块0�(� � ) 新类0基类别分类器基类别分类器0新类别分类器0新类别分类器0基类别分类器0图2. 提出的少样本图像识别知识迁移网络架构（KTN）的示意图。0以便模型能够快速学习新任务。这些“元知识”包括良好的网络初始化[3]、距离度量[39]或优化策略[24]等。然而，由于先验知识大多未被探索，它们的结果仍然不尽人意。0实际上，人类视觉在浏览少量新类别图像后就能很好地识别这些类别的图像。原因可能是人类视觉不仅可以探索新对象的显式视觉信息，还可以从先验知识中获取一些外部的区分性视觉信息。当他们下次看到新对象时，将联合探索视觉信息和推断出的区分性信息，做出最终的判断，如图1所示。受此启发，我们提出了一种新的深度网络少样本学习模型，通过同时有效地探索显式视觉信息和隐含的先验知识，学习新类别的视觉分类器。0为此，我们提出了一种新的少样本学习方法，称为知识迁移网络（KTN），通过将视觉特征学习、知识推理和分类器学习融合到一个统一的框架中，以实现它们的最佳兼容性，如图2所示。它能够自适应地利用显式视觉信息和隐含的先验知识。具体而言，基于卷积神经网络（CNN）[11]的视觉特征提取器通过优化与基类别的训练数据的余弦相似度进行训练，用于提取示例的表示并生成基于视觉的新类别分类器。为了充分利用先验知识，开发了一个语义-视觉映射网络（M-Net）来进行知识推理和语义-0通过使用图卷积网络[9]和知识图，明确探索了所有类别之间的语义关系。这种映射可以作为生成新类别基于知识的分类器的方法。最后，提出了一种自适应融合方案，通过整合上述两个分类器来推断最终的分类器。为了评估所提方法的有效性，在广泛使用的Mini-ImageNet [33]和ImageNetFew-Shot[6]基准上进行了大量实验。结果表明，与最先进的方法相比，所提方法在1 shot和2shot任务上表现出令人鼓舞的性能。本文的主要贡献总结如下：（1）我们提出了一种新颖的知识迁移网络架构（KTN），将视觉特征学习、知识推理和分类器学习融合到一个统一的框架中，用于少样本图像识别。（2）为了充分利用先验知识，开发了一个语义-视觉映射网络，用于从基类别中推断新类别的知识。（3）提出了一种自适应融合方案，通过整合视觉信息和知识信息来推断分类器。02. 相关工作0本节将简要讨论与我们的工作相关的最新方法。基于度量学习的方法。度量学习方法试图学习一个合适的特征嵌入空间，在这个空间中，同一类别的图像是相似的，而不同类别的图像是不相似的[20, 30,14]。结果可以通过最近邻搜索获得。4430对于少样本学习，[10]提出了一种孪生神经网络，用于计算一对输入图像的相似度得分。[33]引入了注意力机制和记忆单元，提出了一种匹配网络，用于比较测试示例和支持示例。原型网络[29]将新类别中图像的嵌入的均值作为类别原型，并通过寻找最近邻来预测结果。Ren等人通过引入基于半监督学习的三种聚类算法改进了原型网络[26]。Sung等人认为当前固定的度量在少样本学习中是不合适的，并提出了一种关系网络来学习可传递的深度度量[39]。基于元学习的方法。元学习方法在训练数据上进行“学习如何学习”，以学习可以指导当前新任务的快速学习的“元知识”[2, 28, 32,31]。对于少样本学习，[37]提出了一种回归网络，通过回归已知类别上的少样本分类器和相应的多样本分类器，学习一个通用的、与类别无关的变换。通过观察到梯度下降的过程与LSTM的更新过程非常相似[8]，在[24]中设计了一个LSTM元学习器，用于学习梯度下降的过程。与它们不同的是，在[3]中学习了良好的初始网络权重，以便轻松微调新任务。Mishra等人提出了使用时间卷积和软注意力来聚合过去经验的方法[18]。基于参数生成的方法。基于参数生成的方法可以根据新样本的特征嵌入自适应地预测新类别的分类器权重[23, 5,22]。在[5]中，提出了一种基于注意力机制的方法来增强生成的分类器。Qi等人在生成分类器后应用微调步骤，使每个新类别的嵌入空间符合单峰分布[22]。然而，所有这些方法仅从新样本的视觉信息中预测分类器权重。尚未探索包含在类别标签的语义嵌入中的丰富先验知识。所提出的方法可以有效地利用先验知识，获取一些外部信息，并将其合并到生成的用于少样本学习的新类别的更具区分性的分类器中。零样本学习。零样本学习（ZSL）和少样本学习是相关的问题。ZSL[12,13]旨在识别以前从未见过的新类别的对象实例。未见类别的特征是从辅助先验知识中学习的。ZSL中常用的先验知识包括图像的人工注释属性特征[12,1]、图像类别的文本描述[25]和类别标签的词嵌入[4,19]。有关更多当前的零样本方法，请参阅[38]。少样本学习学习新类别0通过仅使用一个或少数示例来对类别进行建模，会导致识别准确率较低。因此，合理地引入一些在零样本学习中使用的先验知识，以提高少样本图像识别的准确性。03. 初步03.1. 问题定义0给定用于训练少样本图像分类模型的数据集，它包含三个部分：训练集D train，支持集D support和测试集Dtest。训练集具有单独的类别空间，每个类别都有大量带标签的图像示例。D train中的这些类别被定义为基类别Cbase。相反，支持集D support和测试集Dtest具有与训练集D train不相交的相同类别空间。Dsupport和D test中的类别被定义为新类别Cnovel。如果支持集包含M个新类别，每个新类别有K个图像示例，这个少样本学习问题被定义为M-wayK-shot学习。少样本学习的目标是通过使用训练集和支持集来学习一个图像分类模型，当K很小时，能够准确地对来自新类别的测试集中的图像进行分类。03.2. 图卷积网络0我们引入图卷积网络（GCN）通过探索类别相关性来学习语义-视觉映射[9]。给定一个图G = (V, E)和一个数据集X ={xj}Nj=1，其中G中的每个节点都与一个特征描述相关联，即xj是身份j的特征向量。这个图G中的两个节点之间的边表示它们之间的相关性。这里G中的节点数为N，特征表示的维度为D。因此，我们有一个特征矩阵X∈RN×D和一个邻接矩阵A∈RN×N。然后，特征矩阵X和邻接矩阵A同时被整合到一个两层的GCN中，通过在图中结合节点内容和边相关性，得到每个节点的以下表示：F = ˆAReLU(ˆAXU0)U1 (1)0其中，ˆA是规范化的A，U0是第一层的权重矩阵，U1是第二层的权重矩阵。U0将节点的表示映射到相应的隐藏状态，而U1将隐藏状态映射到相应的输出。需要注意的是，这个图卷积网络可以扩展到多层，以输出图节点的更深层次的表示。04. 提出的KTN模型0在本节中，我们将详细介绍用于少样本图像识别的KTN模型。所提出的模型-minKK4440架构包含视觉特征学习模块、知识传递模块和视觉-知识融合模块，如图2所示。对于视觉特征学习模块，通过在整个训练数据Dtrain上优化余弦相似度来训练CNN。余弦相似度度量可以减小训练和测试阶段使用的度量之间的差距，使得来自新类别的测试样本在嵌入空间中更接近相应的支持样本。并且通过对新颖图像的特征嵌入进行归一化，可以获得新类别的基于视觉的分类器Wv。对于知识传递模块，语义-视觉映射网络（M-Net）的输入是所有类别标签的词嵌入和由知识图中的类别相关性编码的对称邻接矩阵。通过最大化基于训练CNN得到的基于视觉的分类器Wv和由M-Net生成的基于知识的分类器Wk之间的一致性来学习M-Net。然后，使用学习到的M-Net推断出新类别的基于知识的分类器Wk。对于视觉-知识融合模块，设计了一种自适应方案来学习最终的分类器W，将基于视觉和基于知识的分类器进行整合。04.1. 视觉特征学习模块0给定基类别Cbase的训练数据集Dtrain，基于CNN使用Dtrain中的所有训练数据进行训练图像分类模型。传统的CNN模型使用内积而不进行归一化作为度量，导致训练和测试阶段使用的度量之间存在差距[34]。为了解决这个问题，我们引入了余弦相似度度量来计算CNN模型中的分类得分。余弦相似度度量可以看作是内积的归一化版本，可以很好地提高性能[5,22]。通过提取训练数据的特征表示φ(x)和ℓ2-归一化的分类器Wv，可以得到基类别y的分类得分sy，如下所示：0sy = κ(0||φ(x)||2)TWvy (2)0其中，κ是用于控制sy范围的标量参数，可以在模型训练过程中保持收敛。为了使特征表示φ(x)与Wv相似。0由于最后一个隐藏层之后包含正负值，因此移除最后一个隐藏层后的ReLU非线性。通过使用softmax交叉熵损失函数，CNN模型通过以下目标进行训练：0(x, y) ∈ Dtrain [−sy + 0y' ∈ Cbase esy' ] (3)0其中sy'是类别y'的分类得分，y' ∈Cbase。一旦训练了具有余弦相似度优化的CNN模型，就可以提取Dsupport中图像的特征表示。给定新类别Cnovel的支持数据集Dsupport，每个新类别中的图像数量为K。通过使用具有余弦相似度的CNN模型的特征提取器，可以通过对Dsupport中相应示例的归一化特征表示进行平均来推断新类别的基于视觉的分类器[22]。即，新类别y的基于视觉的分类器如下所示：0Wvy =0i = 1 φ ( x i) / ∥0i = 1 φ ( x i ) ∥ 2 (4)0其中{x i }是类别y的K-shot示例。04.2. 知识传递模块0对于few-shot学习问题，仅通过探索视觉信息可能不足以推断新类别的分类器。这是因为支持集中的示例数量很少，这使得直接在嵌入空间中建模新类别变得困难。支持集中每个新类别的示例越少，识别该类别就越具有挑战性。为了解决这个挑战，有必要探索外部知识来补充视觉信息。因此，我们提出引入知识图谱来训练基于视觉对应物增强的基于知识的分类器，受[35]启发。为此，我们提出了一个语义-视觉映射网络，用于基础类别和新类别之间的知识传递。语义-视觉映射网络的输入由具有类别之间相关性的知识图谱和类别标签t的词嵌入组成。具体而言，我们选择WordNet的一个子图作为这个知识图谱，其中包含21KImageNet数据集中的所有类别[4]。这个知识图谱中的每个节点表示一个语义类别，如果它们在WordNet中相关，则链接两个节点。类别相关性由对称邻接矩阵编码。然后，通过多层知识图谱的图卷积，语义-视觉映射网络输出新类别每个节点的结果基于知识的分类器Wky的权重。为了学习一个好的映射网络，我们的目标是最大化基础类别的基于视觉的分类器和映射网络生成的基础类别的分类器之间的一致性。为了更好地与具有余弦相似度优化的视觉特征学习模块相结合，引入余弦相似度来衡量一致性。即，基础类别的一致性得分s k y为：min�(t,y)∈Cbase[−sky + log�y′∈Cbaseesky′ ](6)y∗ = arg max(⟨[φ(xt), φ(xt)], [W vy , λW ky ]⟩)= arg max(⟨φ(xt), (W vy + λW ky )⟩)= arg max(⟨φ(xt), �Wy⟩)(7)KF55.03 ± 0.77--KG59.97 ± 0.74--V + KF-62.14 ± 0.75 73.66 ± 0.56V + KG-64.42 ± 0.72 74.16 ± 0.56For the Mini-ImageNet dataset, following previous few-shot learning approaches [33, 24, 3, 29, 39, 5], we utilizea four layer CNN (ConvNet) in which each convolution-al block has 64 ﬁlters (64F) and the size of all ﬁlters is3 × 3. For fair comparison, we also employ another fourlayer CNN in which the ﬁrst two convolutional layers have64 ﬁlters and the latter two convolutional layers have 128ﬁlters (128F) and a ResNet that used in previous works[5, 18]. For the ImageNet Few-Shot dataset, the ResNet-10 and ResNet-50 are used by following [36]. For CovNet,the ﬁrst three convolutional blocks are set with batch nor-malization, ReLu non-linearity and 2 × 2 max-pooling, thelast convolutional block only with batch normalization and2 × 2 max-pooling, respectively. For the knowledge trans-4450表1. 使用不同信息的提出方法在5-wayfew-shot学习中的准确率（%）。“Vis.”和“Kno.”分别表示基于视觉分类器和基于知识分类器的方法。“V+K”表示基于综合视觉-知识分类器的方法。0模型 0-shot 1-shot 5-shot0Vis. - 54.17 ± 0.77 72.24 ± 0.57 Kno. 59.97 ±0.74 - -0V+K - 64.42 ± 0.72 74.16 ± 0.560y的计算如下：0s k y = κ (Wky)TWvy (5)0其中，Wky是基础类别每个节点的映射网络的ℓ2归一化输出，Wvy是CNN模型学习到的基础类别y的ℓ2归一化分类器。通过使用softmax交叉熵损失函数，映射网络通过以下目标进行训练：0其中sk'y是类别y'∈Cbase的相似度得分。04.3. 视觉-知识融合模块0仅探索视觉信息学习到的分类器由于基本类别和新类别的分类器分布差异而不令人满意。特别是当支持集中每个新类别示例的数量很少时，差异将变得显著。因此，有必要探索额外的信息来补充视觉信息。为了实现这个目标，使用提出的语义-视觉映射网络来输出基于新类别的语义知识的基于知识的分类器Wk。直观上，基于知识的分类器和基于视觉的分类器互补。因此，我们提出了一个融合模块来将它们集成在一起以获得最终的分类器W。给定一个测试图像xt，进行few-shot图像预测的过程如下：0其中“[ ]”表示连接操作，λ是两个分类器之间的正平衡系数。λ被设定为1。0在实验中使用的K。0表2. 在5-way学习中探索类别相关性的准确率（%）。“ K F”和“ K G”分别表示基于FCN和GCN推断的基于知识的分类器的方法。“ V+ K F ”和“ V + K G”分别表示基于相应的综合视觉-知识分类器的方法。0模型 0-shot 1-shot 5-shot05. 实验0为了评估所提方法的有效性，进行了大量的few-shot图像识别实验。05.1. 数据集0在这项工作中，我们在两个公开可用且广泛使用的数据集上进行了大量实验：Mini-ImageNet数据集[33]和ImageNetFew-Shot数据集[6]。Mini-ImageNet。Mini-ImageNet数据集是ImageNet数据集的一个子集，包含100个不同的类别，每个类别有600张图像。每个图像的尺寸为84×84。根据[24]的做法，训练集包含64个类别，验证集包含16个类别，测试集包含20个类别。ImageNetFew-Shot数据集。ImageNetFew-Shot数据集包含ImageNet1K挑战中的所有1000个类别。它们分为389个基本类别和611个新类别。用于交叉验证的基本类别和新类别的图像分别来自193个类别和300个类别。剩下的196个基本类别和311个新类别的图像用于测试（更多细节请参考[6]）。05.2. 实验设置4460表3. Mini-ImageNet数据集上的平均分类准确率（%）及95%置信区间。0模型特征提取器 5路1样本 5路5样本0匹配网络[33] ConvNet(64F) 43.56 ± 0.84 55.31 ± 0.73 元学习器LSTM [24]ConvNet(32F) 43.44 ± 0.77 60.60 ± 0.71 MAML [3] ConvNet(64F) 48.70± 1.84 63.11 ± 0.92 原型网络[29] ConvNet(64F) 49.42 ± 0.78 68.20 ±0.66 关系网络[39] ConvNet(64F) 50.44 ± 0.82 65.32 ± 0.70 SNAIL [18]ResNet 55.71 ± 0.99 68.88 ± 0.92 DFVL [5] ConvNet(64F) 56.20 ± 0.8672.81 ± 0.62 DFVL [5] ConvNet(128F) 55.95 ± 0.71 73.00 ± 0.64 DFVL [5]ResNet 55.45 ± 0.89 70.13 ± 0.680我们（可视化） ConvNet(64F) 54.61 ± 0.80 71.21 ± 0.66 我们（V+K）ConvNet(64F) 64.06 ± 0.72 73.27 ± 0.54 我们（可视化） ConvNet(128F)54.17 ± 0.77 72.24 ± 0.57 我们（V+K） ConvNet(128F) 64.42 ± 0.7274.16 ± 0.56 我们（可视化） ResNet 54.34 ± 0.77 69.02 ± 0.65我们（V+K） ResNet 61.42 ± 0.72 70.19 ± 0.620fer模块，我们使用ImageNet21K数据集中的所有类别及其在WordNet中的相关性来构建知识图谱。0对于Mini-ImageNet数据集，基于CNN的特征提取器训练了60个epochs。参数通过使用小批量大小为256的随机梯度下降学习。对于ImageNetFew-Shot数据集，基于CNN的特征提取器训练了100个epochs。参数通过使用小批量大小为400（ResNet-10）和160（ResNet-50）的随机梯度下降学习。初始学习率分别设置为0.1（ResNet-10）和0.025（ResNet-50）。权重衰减设置为0.0005，动量设置为0.9。语义-视觉映射网络（M-Net）由三层组成。隐藏层和输出层的节点数与Wv的大小相同。使用负斜率为0.2的LeakyReLu。映射网络的每一层后面都跟着一个Dropout操作，丢弃率为0.5。映射网络分别在Mini-ImageNet数据集和ImageNetFew-Shot数据集上进行了20和250个epochs的训练。使用在Wikipedia数据集上训练的Glove嵌入模型[21]进行每个类别的词嵌入，词嵌入的维度为300。学习率设置为0.001，权重衰减设置为0.0005。训练时使用Adam优化器。实验中所有的比例参数κ都设置为10。0分类准确率用于评估少样本学习方法的性能。对于Mini-ImageNet数据集，按照之前的少样本学习方法，进行了5路1样本和5路5样本图像分类任务的实验。每个新颖类别有15个测试图像。对于ImageNet Few-0在本节中，我们在Mini-ImageNet数据集上进行了消融研究。首先，进行实验验证融合不同信息的有效性。分别比较了仅使用视觉信息和仅使用知识信息的两个变体的提出模型。比较结果如表1所示。使用ConvNet(128F)作为特征提取器。为了方便比较，报告了基于知识的分类器在0样本学习中的性能。从结果可以看出，提出的模型通过同时考虑视觉和知识信息取得了最佳结果。与仅使用基于视觉的分类器的模型相比，提出的方法在5路1样本分类任务上有显著的改善约10%，在5路5样本分类任务上有约2%的改善。这表明了探索外部知识的有效性和必要性。此外，提出的方法优于仅使用先验知识的模型，这表明了视觉信息的重要性。最后，当支持集中的图像数量增加时，改进效果减小。这可能是因为支持集中的图像分布差异随着图像数量的增加而减小。总之，05.3. 消融研究0本节中，我们在Mini-ImageNet数据集上进行了消融研究。首先，进行实验验证融合不同信息的有效性。分别比较了仅使用视觉信息和仅使用知识信息的两个变体的提出模型。比较结果如表1所示。使用ConvNet(128F)作为特征提取器。为了方便比较，报告了基于知识的分类器在0样本学习中的性能。从结果可以看出，提出的模型通过同时考虑视觉和知识信息取得了最佳结果。与仅使用基于视觉的分类器的模型相比，提出的方法在5路1样本分类任务上有显著的改善约10%，在5路5样本分类任务上有约2%的改善。这表明了探索外部知识的有效性和必要性。此外，提出的方法优于仅使用先验知识的模型，这表明了视觉信息的重要性。最后，当支持集中的图像数量增加时，改进效果减小。这可能是因为支持集中的图像分布差异随着图像数量的增加而减小。总之，ResNet-10PN [29]39.354.466.371.273.949.561.069.772.974.653.661.468.872.073.8MN [33]43.654.066.072.576.954.461.069.773.776.554.560.768.272.675.6LogReg [36]38.451.164.871.676.640.849.964.271.976.952.960.468.672.976.3LogReg w/A [36] 40.750.862.069.376.552.259.467.672.876.953.259.166.871.776.3PMN* [36]43.355.768.474.077.055.863.171.175.077.154.762.070.273.975.9PMN w/G* [36]45.857.869.074.377.457.664.771.975.277.556.463.370.674.076.2DFVL Avg. [5]45.23 59.60 68.68 74.36 77.6957.65 64.69 72.35 76.18 78.4656.43 63.41 70.95 74.75 77.00DFVL Att. [5]46.02 57.51 69.16 74.83 78.1158.16 65.21 72.72 76.50 78.7456.76 63.80 72.72 75.02 77.25ResNet-50MN [33]53.563.572.777.481.264.971.077.080.282.763.869.975.979.381.9PN [29]49.664.074.478.180.061.471.478.080.081.162.970.577.179.580.8PN w/G* [29]53.965.275.780.282.865.272.078.981.783.163.970.577.580.682.4PMN* [36]53.365.275.980.182.664.872.178.881.783.363.470.877.980.982.7PMN w/G* [36]54.766.877.481.483.865.773.580.282.884.564.471.878.781.583.34470表4. ImageNet Few-Shot数据集上的前5个平均分类准确率结果。“w/A”和“w/G*”表示使用虚构的额外示例进行新类别的分类。0新颖类别所有所有带先验的方法 n=1 2 5 10 20 n=1 2 5 10 20 n=1 2 5 10 200我们的(仅视觉) 45.44 56.71 68.91 74.50 77.71 55.90 63.34 71.89 76.08 78.31 56.37 63.20 70.86 74.64 76.77我们的(视觉+知识) 54.74 61.69 70.36 74.98 77.86 62.08 66.79 73.08 76.44 78.44 61.71 66.07 71.78 74.92 76.910我们的(仅视觉) 53.6 65.2 75.5 79.8 82.3 64.8 71.8 78.9 81.9 83.6 63.6 70.7 77.7 80.7 82.4 我们的(视觉+知识) 61.968.7 76.4 80.1 82.4 69.7 74.1 79.4 82.0 83.7 68.6 73.0 78.3 80.9 82.50为了补充视觉信息，有必要探索外部知识。接下来，进行实验以展示基于知识的分类器学习中显式类别相关性的有效性。为了公平比较，我们采用全连接网络(FCN)作为语义-视觉映射网络，该网络不探索类别相关性。它可以作为一种探索视觉和知识信息的朴素基准方法。基于GCN和FCN的映射网络的比较结果如表2所示。可以看出，基于GCN的语义-视觉映射网络优于基于FCN的网络，这表明在知识图中探索显式类别相关性的重要性。引入GCN进行语义-视觉映射可以揭示更多的类别详细信息。05.4. 实验结果与分析0本节讨论了所提出方法在两个数据集上的结果。首先，在Mini-ImageNet数据集上进行了实验。将所提出的KTN与几种先进的少样本学习方法进行了比较，包括匹配网络[33]、元学习LSTM[24]、MAML[3]、SNAIL[18]、原型网络[29]、关系网络[39]和动态少样本视觉学习(DFVL)[5]。0在表3中展示了平均分类准确率及其95%置信区间的比较结果。实验独立重复了600次，并随机抽取了测试数据，报告了平均结果。可以看出，所提出的KTN在5-way1-shot和5-way5-shot图像识别任务中取得了最佳性能。这个结果表明，在支持集中的示例数量非常少的情况下，将视觉特征学习、知识推理和分类器学习融合在一个统一的框架中是有效的。这可以很好地验证所提出方法的动机。通过比较DFVL和KTN在不同特征提取器上的结果，可以看出具有64个滤波器的所提出模型在5-way 1-shot任务和5-way5-shot任务上取得了比具有128个滤波器的DFVL更好的结果，这充分显示了所提出方法的有效性。0对于ImageNetFew-Shot数据集，我们进行了实验，将KTN与几种先前的方法进行比较，包括Matching Networks[33]，Prototypical Nets [29]，Logistic regression[36]，Prototype Matching Nets (PMN) [36]和DFVL[5]。实验独立重复100次，随机抽样测试数据，并报告平均结果。表4显示了带有95%置信区间的比较方法的结果。所有比较方法的结果来自[5]和[36]。我们可以观察到KTN取得了最好或有竞争力的性能。6. ConclusionIn this paper, we propose a novel Knowledge TransferNetwork architecture (KTN) by jointly incorporating visualfeature learning, knowledge inferring and classiﬁer learn-ing into one uniﬁed framework for few-shot image recogni-tion. To well explore the external knowledge information, asemantic-visual mapping network based on GCN is devel-oped for knowledge transfer. The visual information and theknowledge information are fused to learn the ﬁnal classiﬁ-er. Experimental results on two publicly available datasetsshow the encouraging performance of the proposed method.7. AcknowledgmentsThis work was partially supported by the NationalKey Research and Development Program of China un-der Grant 2017YFC0820601, the National Natural ScienceFoundation of China (Grant No.61772275, 61732007,61720106004 and 61876181) and the Natural ScienceFoundation of Jiangsu Province (BK20170033).4480表5. ImageNetFew-Shot数据集上根据AFNE的前5个平均准确率的结果。0模型 AFNE N=1 2 5 10 200DFVL [5] 40.68 51.61 63.75 70.09 74.00我们的(仅视觉) 34.26 46.46 61.55 69.19 73.63我们的(视觉+知识) 45.35 53.22 63.98 70.09 73.930性能。特别地，所提出的方法在1-shot和2-shot图像识别任务上取得了显著的改进。这充分证明了通过利用外部知识信息的方法的有效性。当支持集中的样本数量增加时，所提出的KTN的优势不明显，因为支持集中的更多样本可以提供足够的信息进行分类。总之，通过引入知识迁移，所提出的KTN取得了非常令人鼓舞的结果。最后，由于本工作关注的是少样本图像识别问题，我们只关注来自Cnovel的测试样例的性能。然而，对于ImageNetFew-Shot数据集，我们计算了两个评估标准（“All”和“All withprior”），以评估不忘记基础类别的能力，通过从Cbase和Cnovel中采样测试样例。我们假设这可能导致来自Cbase的测试样例的性能影响来自Cnovel的测试样例的性能。为了解决这个问题，我们使用了一个新的评估标准，即测试样例仅来自Cnovel，真实标签来自C base和Cnovel。这可以更合理地评估不忘记基础类别的能力。本工作将此标准称为All For Novel categoriesExamples（AFNE）。在ImageNetFew-Shot数据集上，根据AFNE的前5个平均分类准确率的结果如表5所示。从表4和表5可以看出，根据AFNE的结果明显低于“All”和“All withprior”的结果，这很好地验证了我们的假设。同时，结果表明所提出的方法相对于不考虑知识迁移的方法取得了更大的改进，这更好地证明了探索外部知识信息的有效性。05.5. 可视化融合权重0为了充分展示引入的知识信息的重要性，我们进行了t-SNE可视化，展示了考虑了知识信息和未考虑知识信息的模型所学习的分类器。图3展示了在Mini-ImageNet测试集上进行1-shot任务和5-shot任务的所有20个新类别的结果。可以很容易地观察到聚类结果。0(a)0(b)0(c)0(d)0图3.在Mini-imagenet数据集上进行1-shot和5-shot任务的所有新类别的t-SNE可视化结果。每个散点图包含20个彩色的分类器参数聚类，每种颜色代表一个新类别。(a): 1-shot基于视觉的分类器。(b):1-shot基于视觉和知识的分类器。(c):5-shot基于视觉的分类器。(d): 5-shot基于视觉和知识的分类器。0通过融合视觉信息和知识信息，提出的模型的结果比仅考虑视觉信息的结果更紧凑，这能很好地说明所提出模型的区分能力。References[1] Zeynep Akata, Florent Perronnin, Za¨ıd Harchaoui, andCordelia Schmid. Label-embedding for image classiﬁcation.TPAMI, 2016.[2] MarcinAndrychowicz,MishaDenil,SergioGomez,Matthew W Hoffman, David Pfau, Tom Schaul, BrendanShillingford, and Nando De Freitas. Learning to learn bygradient desc

下载后可阅读完整内容，剩余1页未读，立即下载