使用可微分的地球移动距离和结构化分类器进行少样本图像分类

184 浏览量更新于2023-10-25 收藏 12.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…………122030DeepEMD：使用可微分的地球移动距离和结构化分类器进行少样本图像分类0Chi Zhang 1，Yujun Cai 1，Guosheng Lin 1�，Chunhua Shen 201 新加坡南洋理工大学，新加坡 2 澳大利亚阿德莱德大学，澳大利亚电子邮件：chi007@e.ntu.edu.sg，gslin@ntu.edu.sg0摘要0本文从图像区域之间的最优匹配的新视角来解决少样本分类任务。我们采用地球移动距离（EMD）作为度量，计算密集图像表示之间的结构距离，以确定图像的相关性。EMD生成最小匹配成本的结构元素之间的最优匹配流，用于表示分类的图像距离。为了生成EMD公式中元素的重要权重，我们设计了一个交叉引用机制，可以有效地减小杂乱背景和大量类内外观变化所带来的影响。为了处理k-shot分类，我们提出了学习一个结构化全连接层，可以直接对密集图像表示进行EMD分类。基于隐函数定理，EMD可以作为网络的一层插入到端到端训练中。我们进行了全面的实验证明了我们的算法，并在四个流行的少样本分类基准数据集上取得了最新的最佳性能，分别是miniImageNet、tieredImageNet、Fewshot-CIFAR100（FC100）和Caltech-UCSDBirds-200-2011（CUB）。01. 引言0在过去几年中，深度神经网络在各种视觉理解任务中取得了突破。然而，由于其数据驱动的特性，当没有足够大的标记训练数据可用时，它往往很难应对。另一方面，元学习被提出来学习一个可以快速适应新任务的模型，只需要进行少量的调整步骤。其中最为研究的元学习算法之一是少样本图像分类，其目标是在只有少量标记训练数据的情况下对新的图像类别进行分类。为了解决这个问题，之前的研究提出了一系列方法。0� 通讯作者：G. Lin（电子邮件：gslin@ntu.edu.sg）0图1：使用地球移动距离进行一次性图像分类的示意图。我们的算法使用图像区域之间的最优匹配成本来表示图像距离。0ture采用基于度量的方法[30, 43, 63, 66, 67,73]，学习在适当的特征空间中表示图像数据并使用距离函数预测图像标签。在标准图像分类网络[16, 24,62]的基础上，度量方法通常采用卷积神经网络学习图像特征表示，但将全连接层替换为距离函数，例如余弦距离和欧氏距离。这样的距离函数直接计算测试图像和训练图像的嵌入之间的距离，绕过了在少样本设置中学习分类器的困难优化问题。网络通过从任务分布中进行采样进行训练，以期望获得对未见过但相似的任务具有泛化能力。0尽管它们有着令人期待的结果，但我们观察到杂乱的背景和大量的类内外观变化可能会导致同一类别的图像级嵌入在给定的度量空间中相距甚远。虽然在完全监督训练下，神经网络可以缓解这个问题，但由于激活函数和丰富的训练图像，这几乎是不可避免的。122040在低数据情况下，这种方法在简化图像分类方面表现不佳，从而对图像分类产生负面影响。此外，混合的全局表示破坏了图像结构并丢失了局部特征。局部特征可以提供跨类别的有区分性和可传递性信息，这对于少样本情况下的图像分类可能很重要。因此，一种理想的基于度量的算法应该能够利用局部有区分性的表示进行度量学习，并最小化无关区域所造成的影响。比较两个复杂结构表示的一种自然方法是比较它们的构建块。困难在于我们没有它们的对应关系的监督进行训练，而且并不是所有的构建元素总是能够在另一个结构中找到对应的元素。为了解决上述问题，本文将少样本分类形式化为最优匹配的一个实例，并提出使用两个结构之间的最优匹配成本来表示它们的相似性。给定两个图像生成的特征表示，我们采用地球移动距离（EMD）[50]来计算它们的结构相似性。EMD是计算结构表示之间距离的度量，最初用于图像检索。给定所有元素对之间的距离，EMD可以获得两个结构之间的最小成本的最优匹配流。它还可以解释为用另一个结构重建一个结构表示所需的最小成本。我们的动机示例如图1所示。EMD具有运输问题[17]的公式化，通过解决一个线性规划问题可以实现全局最小值。为了将优化问题嵌入到端到端训练的模型中，我们可以应用隐函数定理[3, 8,22]来形成优化变量相对于问题参数的雅可比矩阵[3]。EMD公式化中的一个重要问题参数是每个元素的权重。具有较大权重的元素会生成更多的匹配流，从而对整体距离做出更大贡献。理想情况下，算法应该具有灵活性，能够对无关区域分配较小的权重，使其无论与哪些元素匹配，都对整体距离的贡献较小。为了实现这一目标，我们提出了一个交叉引用机制来确定元素的重要性。在我们的交叉引用机制中，每个节点是通过将其与另一个结构的全局统计信息进行比较来确定的。这旨在对高方差背景区域和两个图像中不共现的对象部分给予较小的权重。在多个支持图像呈现的k-shot设置中，我们提出学习一个结构化全连接（FC）层作为分类器进行分类，以利用越来越多的训练图像。0结构化全连接层包括每个类别的一组可学习向量。在推理时，我们使用EMD计算图像嵌入和每个类别的可学习向量集之间的距离进行分类。结构化全连接层是标准全连接层的扩展，它用EMD函数替换了向量之间的点积运算，使得结构化全连接层可以直接对特征图进行分类。结构化全连接层还可以解释为为每个类别学习一个原型嵌入，以便测试图像可以与它们匹配进行分类。为了验证我们的算法，我们在多个数据集上进行了大量实验，以证明我们算法的有效性。我们的主要贡献总结如下：0•我们提出将少样本图像分类形式化为最优匹配问题，并采用地球移动距离作为结构化表示之间的距离度量。EMD层可以嵌入到网络中进行端到端训练。•我们提出了一个交叉引用机制，用于生成EMD公式中元素的权重，可以有效减少图像中背景区域引入的噪声。•我们在k-shot设置中提出了学习结构化全连接层的方法，可以使用地球移动距离直接对图像的结构化表示进行分类。•在四个流行的少样本分类基准数据集（miniImagenet、tieredImagenet、FC100和CUB）上的实验证明，我们的算法在1-shot和5-shot任务上明显优于基线方法，并在所有数据集上取得了新的最佳性能。02. 相关工作0少样本学习。在少样本分类文献中，有两个主要流派，基于度量的方法和基于优化的方法。基于优化的方法[2, 5, 9-11,18, 26, 31-33, 36, 38, 40-42, 44, 46, 47, 54, 55, 58, 64,79]旨在有效地调整模型参数以适应低样本情况下的新任务。我们的方法与基于度量的方法[30, 43, 63, 66, 67,73]更相关，这些方法旨在在适当的特征空间中表示样本，以便可以使用距离度量区分不同类别的数据。除了这两个流行的分支外，还有许多其他有前途的方法被提出来处理少样本分类问题，例如基于图论的方法[13, 15,21]，强化学习[6]，可微分的minimizexij(1)A(θ)x = b(θ).(4)122050SVM [25]，时间卷积[39]等等[4, 12, 14, 20, 27, 28, 37, 45,49, 57, 60, 61, 65, 69-71, 76,77]。其他相关主题。除了图像分类之外，还在图像分割[34,74,75]和目标检测任务[72]中研究了少样本学习。还有一些先前的工作与本文中采用的技术相关。例如，Schulter等人[56]使用网络流形式解决多目标跟踪问题。Zhao等人[78]提出使用差分EMD来处理基于单纯形法敏感性分析的视觉跟踪问题。Li [29]使用基于张量-SIFT的EMD来解决轮廓跟踪问题。03. 方法0在本节中，我们首先简要回顾了地球移动距离，并描述了如何将一次性分类问题构建为可以进行端到端训练的最优匹配问题。然后，我们描述了我们的交叉引用机制，用于生成每个节点的权重，这是EMD公式中的一个重要参数。最后，我们演示了如何使用EMD距离函数来处理我们提出的结构化全连接层的k-shot学习。我们的一次性分类框架概述如图2所示。03.1. 重新审视地球移动距离0地球移动距离是两组加权对象或分布之间的距离度量，它建立在个体对象之间的基本距离之上。它具有线性规划中的经典运输问题（TP）的形式。特别地，假设一组源或供应商S= {s i | i = 1, 2,...m}需要将货物运输到一组目的地或需求者D = {d j | j = 1,2, ...k}，其中s i表示供应商i的供应单位，dj表示第j个需求者的需求。从供应商i到需求者j的每单位运输成本由c ij表示，运输的单位数量由xij表示。运输问题的目标是找到从供应商到需求者的最廉价的货物流˜X = {˜x ij | i = 1, ...m, j = 1, ...k}：0m0i = 10k0j = 1 c ij x ij0满足x ij � 0, i = 1, ..., m, j = 1, ..., k � k0j = 1 x ij = s i, i = 1, ...m � m0i = 1 x ij = d j, j = 1, ...k0请注意，供应商和需求者的角色可以互换而不影响总运输成本。s i和dj也被称为节点的权重，它们控制每个节点生成的总匹配流量。EMD寻找一种最优匹配流˜X，使得总体匹配成本最小。0通过解决线性规划问题，可以实现供应商和需求者之间的全局最优匹配流˜X，从而最小化总体匹配成本。03.2. 少样本分类的EMD0在少样本分类任务中，基于度量的方法旨在找到一个良好的距离度量和数据表示，用于计算图像之间的相似度，用于分类。与以前的方法不同，以前的方法在图像级别的嵌入之间执行距离计算，我们的方法提倡使用有区分性的局部信息。我们将图像分解为一组局部表示，并使用两个图像之间的最优匹配成本来表示它们的相似性。具体而言，我们首先部署一个全卷积网络（FCN）[59]来生成图像嵌入U ∈ RH × W×C，其中H和W表示特征图的空间尺寸，C是特征维度。每个图像表示包含一组局部特征向量[u 1, u 2, ... uHW]，每个向量ui可以看作是集合中的一个节点。因此，两个图像的相似性可以表示为两组向量之间的最优匹配成本。根据方程1中的原始EMD公式，每单位成本通过计算两个图像特征中的嵌入节点u i，v j之间的配对距离来获得：0c ij = 1 - u i T v j0∥ u i ∥∥ v j ∥, (2)0其中，具有相似表示的节点之间往往会生成较少的匹配成本。至于权重s i和dj的生成，我们将在第3.4节中详细阐述。一旦获得最优匹配流˜X，我们可以计算图像表示之间的相似度得分s：0s ( U , V ) =0硬件0i = 10j = 1 (1 - c ij )˜ x ij. (3)03.3. 端到端训练0为了将最优匹配问题嵌入到神经网络中进行端到端训练，有助于使最优匹配˜X相对于问题参数θ可微分。正如[3]所指出的，我们可以将隐函数定理[3, 8,22]应用于最优性（KKT）条件，以获得雅可比矩阵。为了完整起见，我们从方程1开始，将其以矩阵形式分配：0最小化 x c ( θ ) T x0满足 G ( θ ) x � h ( θ ) ,FCN…𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑸, 𝑨 = ෍𝑖𝑗෤𝑥𝑖𝑗(1 − 𝑐𝑖𝑗)𝒔𝟏𝒔𝟐𝒔𝟑𝒔𝟒𝒔𝟓𝒔𝟔U𝜖 𝑹𝐻×𝑊×𝐶L(θ, x, ν, λ) = cT x + λT (Gx − h) + νT (Ax − b),(5)g(θ, x, ν, λ) =∇θL(θ, x, ν, λ)diag(λ)(G(θ)x − h(θ))A(θ)x − b(θ) .(6)Jθ˜x = − Jxg(θ, ˜λ, ˜ν, ˜x)−1Jθg(θ, ˜x, ˜ν, ˜λ).(7)Jθg(θ, ˜λ, ˜ν, ˜x) =Jθ∇xL(θ, ˜x, ˜ν, ˜λ)diag(˜λ)Jθ(G(θ)x − h(θ))Jθ(A(θ)˜x − b(θ)) .(8)122060权重共享0查询图像�0支持图像�0Earth Mover's Distance0�� ×�×� U � � �×�×�：图像Q的特征映射 V � � �×�×�：图像A的特征映射 �� ×��：最优匹配流的值 c ��：向量 � � 和 � � 之间的匹配成本 � �：向量 � � 的权重 � �：向量 � � 的权重0图2：我们的1-shot图像分类框架。给定一对图像，我们首先使用全卷积网络生成它们的密集表示，其中包含两组特征向量。模型使用我们提出的交叉参考机制（在图中未标示）生成所有向量的权重。然后，我们使用Earth Mover'sDistance生成两组之间具有最小总匹配成本的最优匹配流。最后，根据最优匹配流和匹配成本，我们可以计算两个图像之间的距离，用于分类。0这里，x∈Rn是我们的优化变量，其中n=HW×HW表示X中匹配流的总数。θ是与之前层以可微的方式相关的问题参数。Ax = b表示等式约束，Gx �h表示不等式约束。因此，方程1中LP问题的Lagrangian为：0其中，ν是等式约束的对偶变量，λ�0是不等式约束的对偶变量。根据KKT条件和符号方便性，我们可以通过使用原始-对偶内点方法求解g(θ, ˜ x, ˜ ν, ˜ λ) =0来获得目标函数的最优解(˜ x, ˜ ν, ˜ λ)，其中0然后，以下定理有助于我们推导LP参数的梯度。定理1（来自Barratt [3]）假设g(θ, ˜ λ, ˜ ν, ˜ x) =0。那么，当所有导数存在时，最优解(˜ λ, ˜ ν, ˜x)处的x相对于θ的部分雅可比矩阵，即J θ ˜x，可以通过满足以下条件得到：0这里，通过将隐函数定理应用于KKT条件，可以得到解映射的雅可比公式。例如，(部分)解映射的雅可比矩阵与0相对于θ的梯度可以定义为0因此，一旦得到LP问题的最优解˜x，我们可以获得关于输入LP参数θ的梯度的闭式表达式。这帮助我们在整个优化过程中实现高效的反向传播，而不会对初始化和优化轨迹进行干扰。03.4. 权重生成0从EMD公式中可以观察到，一个重要的问题参数是每个节点的权重，例如，s i，它控制从该节点的总匹配流� n j =1 xij。直观上，具有较大权重的节点在两组比较中起着更重要的作用，而具有非常小权重的节点无论与哪些节点匹配，都很难影响整体距离。在采用EMD进行基于颜色的图像检索的开创性工作中[50]，他们使用直方图作为基本特征，并对所有像素进行特征聚类以生成节点。每个节点的权重设置为相应聚类的大小。这是有道理的，因为对于基于颜色的图像检索，应该给予具有更多像素的主导颜色较大的权重，以使检索到的图像在视觉上接近查询图像。然而，在少样本图像分类任务中，用于分类的特征通常具有高级语义含义，像素数量并不一定反映其重要性。常见的情况是找到具有…𝚽𝑵𝑢 ∈ 𝑅𝑐𝚽𝟏EMD𝚽𝟐𝚽𝐍…𝑼 ∈ ℝ𝑯×𝑾×𝑪𝚽𝐢 ∈ ℝ𝑯𝑾×𝑪𝚽 ∈ ℝ𝑪si = max{uTi ·�HWj=1 vjHW, 0},(9)ˆsi = siHW�HWj=1 sj.(10)122070图像嵌入0� ∈ � � 分数0分数 20分数 �0参数点积0参数0分数 10分数 20分数 �0(a) 标准全连接层0(b) 结构化全连接层0图像嵌入0图3：标准全连接层 (a) 与我们提出的结构化全连接层 (SFC) (b)的比较。SFC学习了一组向量作为每个类别的原型，这样我们就可以使用EMD生成类别分数。0在分类数据集（如ImageNet）中，背景区域往往比目标对象更多。因此，仅通过检查单个图像很难确定局部特征表示的重要性。相反，我们认为对于少样本分类任务，节点特征的权重应该通过比较两侧的节点来生成。为了实现这个目标，我们提出了一个交叉参考机制，该机制使用节点特征与另一个结构中的平均节点特征之间的点积来生成相关性分数作为权重值：0其中 u i 和 v j 表示来自两个特征图的向量，函数 max ( ∙ )确保权重始终为非负。为了清晰起见，这里我们只是以 s i为例，d i可以以相同的方式获得。交叉参考机制旨在给高方差的背景区域分配较小的权重，并给两个图像中共同出现的对象区域分配较大的权重。这样也可以减少对两个图像中不存在的对象部分的权重，从而在一定程度上允许部分匹配。最后，我们对结构中的所有权重进行归一化，使两侧具有相同的总权重以进行匹配：0模型嵌入度量 5-way 10-way0ProtoNet [ 63 ] 全局欧氏距离 60.37 44.34 MatchingNet [ 67 ]全局余弦距离 63.08 47.09 FC [ 5 ] 全局点积 59.41 44.08 FC [ 5 ]全局余弦距离 55.43 40.420KNN [ 30 ] 局部余弦距离 62.52 47.08 Prediction Fusion [ 33 ]局部余弦距离 62.38 47.04 DeepEMD（我们的）局部EMD距离 65.9149.660表1：1-shot分类的不同基于度量的方法的比较。我们的模型使用EMD作为距离度量，在基于图像级表示和局部表示的基线模型上取得了显著的性能提升。03.5. 结构化全连接层0到目前为止，我们已经讨论了使用地球移动距离作为度量来生成成对图像之间的距离值。然后，一个问题就出现了——在有多个支持图像的 k-shot设置中，我们该如何处理？在详细介绍我们的设计之前，让我们回顾一下标准的全连接层如何对由CNN提取的图像嵌入进行分类。一个由参数 [ Φ 1 , ..., Φ N ] ∈ R C × N参数化的FC层包含一组可学习的向量 Φ i ∈ RC，每个类别对应一个向量。在推理时，给定由卷积层生成的图像嵌入 u ∈ R C，FC层通过计算图像向量 u和参数向量 Φ i 之间的点积来生成类别 i的分数，并且通过矩阵乘法并行地应用于所有类别。也有一些先前的工作将FC层中的点积操作替换为余弦函数来计算类别分数。FC层的学习可以被看作是为每个类别找到一个原型向量，以便我们可以使用距离度量来对图像进行分类。标准FC层的示意图如图3(a)所示。使用相同的公式，我们可以学习一个结构化的全连接层，该层采用EMD作为距离函数来直接对结构化特征表示进行分类。每个类别的可学习嵌入变成了一组向量，而不是一个向量，这样我们就可以使用结构化距离函数EMD来进行图像分类。这也可以解释为为每个类别学习由虚拟图像生成的原型特征映射。结构化FC和标准FC的比较可以在图3中找到。在推理时，我们将训练好的1-shotFCN模型固定为特征提取器，并使用SGD从支持集中采样数据来学习结构化全连接层中的参数。04. 实验0为了评估我们提出的少样本分类算法的性能，我们在多个数据集上进行了广泛的实验。在本节中，我们首先介绍了数据集信息和我们网络设计中的一些重要实现细节。然后，我们进行了各种剖析实验，验证了我们网络中的每个组件。最后，我们将我们的模型与流行的基准数据集上的最新方法进行了比较。0102065 %70 %75 %95 %90 %85 %80 %122080原型学习余弦分类器EMD+NNEMD+FusionEMD+SFC030 40 50 shot0准确率0图4：5-wayk-shot分类实验。提出的结构化FC层明显优于以前的k-shot解决方案。0方法操作 5-way 10-way0全连接平均55.16 40.88 全连接CR 55.41 41.600EMD Equal 56.95 42.89 EMD K-means [19] 56.2541.85 EMD mean-shift [7] 53.56 39.70 EMD CR61.13 46.920表2：EMD中设置权重的不同方法。我们仅报告特征预训练步骤的1-shot性能。EMD与我们的交叉参考（CR）机制产生了最佳结果。仅基于交叉参考机制的模型变体，即注意力机制并去除EMD，会导致显著的性能下降。EMD和交叉参考的组合生成了最佳结果。0我们在网络设计中提供了数据集信息和一些重要的实现细节。然后，我们进行了各种剖析实验，验证了我们网络中的每个组件。最后，我们将我们的模型与流行的基准数据集上的最新方法进行了比较。04.1. 实现细节0为了与以前的工作进行公平比较，我们采用了一个10层的ResNet（ResNet10）作为我们的模型骨干，这在少样本分类文献中被广泛使用。我们通过去除末尾的分类器将其转化为完全卷积的方式。给定一个大小为84×84的图像，模型生成一个大小为5×5×512的特征图，即25个512维向量。我们采用GPU加速的凸优化求解器QPTH[1]来解决我们网络中的线性规划问题，并计算反向传播的梯度。与最新的文献中常见的实现方式一样，我们采用特征预训练步骤，然后进行情节式元训练[67]来学习我们的网络。在网络预训练期间，我们发现两层FC层比单层分类器更好。对于k-shot分类任务，我们初始化结构化的FC层0在每个类别中，我们使用支持集中所有支持数据的平均特征图来初始化结构化的FC层，并从支持集中随机选择一个批次的5张图像来微调结构化的FC层，进行100次迭代。04.2. 数据集描述0我们在四个流行的基准数据集上进行了少样本分类实验：mini ImageNet [67]，tiered ImageNet[49]，Fewshot-CIFAR100 (FC100) [43]和Caltech-UCSDBirds-200-2011 (CUB) [68]。mini ImageNet。miniImageNet首次在[67]中提出，并成为少样本分类文献中最受欢迎的基准。它包含100个类别，每个类别有600张图像，这些图像是基于ImageNet数据集[51]构建的。这100个类别分别划分为64、16、20个类别，用于元训练、元验证和元测试。tiered ImageNet。tieredImageNet也是ImageNet的一个子集，包括34个超类的608个类别。与miniImageNet相比，元训练（20个类别）、元验证（6个类别）和元测试（8个类别）的划分是根据超类进行的，以扩大训练和测试阶段之间的领域差异。该数据集还包括更多的训练和评估图像（总共779,165张图像）。Fewshot-CIFAR100。FC100是基于CIFAR100[23]构建的少样本分类数据集。我们遵循[43]中提出的划分方式，将36个超类划分为12个（包括60个类别）、4个（包括20个类别）、4个（包括20个类别）用于元训练、元验证和元测试，每个类别包含100张图像。Caltech-UCSDBirds-200-2011。CUB最初是为了细粒度鸟类分类而提出的，包含来自200个类别的11,788张图像。我们遵循[73]中的划分方式，将200个类别划分为100个、50个和50个用于元训练、元验证和元测试。该数据集的挑战在于类别之间的细微差异。04.3. 消融分析0在我们的消融研究中，我们进行了各种实验来评估我们算法的有效性。所有实验都在miniImageNet数据集上进行。与基于图像级表示的方法进行比较。首先，我们将我们的方法与一组基于度量的方法进行比较，这些方法在1-shot任务上利用图像级向量表示。这些方法采用全局平均池化来生成图像的向量表示，并使用各种距离度量进行分类。我们选择了文献中代表性的基于度量的方法进行比较：1）原型网络[63]，使用欧氏距离。2）匹配网络[67]，使用余弦距离。3）微调FC分类器[5]。122090方法骨干网络 mini ImageNet tiered ImageNet01-shot 5-shot 1-shot 5-shot0余弦分类器[5] ResNet12 55.43 ± 0.81 77.18 ± 0.61 61.49 ± 0.91 82.37 ± 0.67 TADAM[43] ResNet12 58.50 ±0.30 76.70 ± 0.30 - - ECM[48] ResNet12 59.00 ± − 77.46 ± − 63.99 ± − 81.97 ± − TPN[35] ResNet12 59.46 ±− 75.65 ± − 59.91 ± 0.94 73.30 ± 0.75 PPA[46] WRN-28-10† 59.60 ± 0.41 73.74 ± 0.19 65.65 ± 0.92 83.40 ±0.65 ProtoNet[63] ResNet12 60.37 ± 0.83 78.02 ± 0.57 65.65 ± 0.92 83.40 ± 0.65 wDAE-GNN[15]WRN-28-10† 61.07 ± 0.15 76.75 ± 0.11 68.18 ± 0.16 83.09 ± 0.12 MTL[64] ResNet12 61.20 ± 1.80 75.50 ±0.80 - - LEO[52] WRN-28-10† 61.76 ± 0.08 77.59 ± 0.12 66.33 ± 0.05 81.44 ± 0.09 DC[33] ResNet12 62.53 ±0.19 79.77 ± 0.19 - - MetaOptNet[25] ResNet12 62.64 ± 0.82 78.63 ± 0.46 65.99 ± 0.72 81.56 ± 0.53FEAT[73] ResNet24† 62.96 ± 0.20 78.49 ± 0.15 - - MatchNet[67] ResNet12 63.08 ± 0.80 75.99 ± 0.60 68.50 ±0.92 80.60 ± 0.71 CTM[28] ResNet18† 64.12 ± 0.82 80.51 ± 0.13 68.41 ± 0.39 84.28 ± 1.730DeepEMD（我们的）ResNet12 65.91 ± 0.82 82.41 ± 0.56 71.16 ± 0.87 86.03 ± 0.580（a）mini ImageNet和tiered ImageNet数据集上的结果0方法骨干网络 1-shot 5-shot0余弦分类器[5] ResNet12 38.47 ± 0.70 57.67 ± 0.77 TADAM[43] ResNet1240.10 ± 0.40 56.10 ± 0.40 MetaOptNet[25] ResNet12 41.10 ± 0.60 55.5± 0.60 ProtoNet[63] ResNet12 41.54 ± 0.76 57.08 ± 0.76 DC[33]ResNet12 42.04 ± 0.17 57.05 ± 0.16 MatchNet[67] ResNet12 43.88 ±0.75 57.05 ± 0.71 MTL[64] ResNet12 45.10 ± 1.8 57.6 ± 0.90DeepEMD（我们的）ResNet12 46.47 ± 0.78 63.22 ± 0.710（b）Fewshot-CIFAR100数据集上的结果。0方法骨干网络 1-shot 5-shot0ProtoNet[63] ResNet12 66.09 ± 0.92 82.50 ± 0.58 RelationNet[5, 66]ResNet34† 66.20 ± 0.99 82.30 ± 0.58 DEML[79] ResNet50† 66.95 ± 1.0677.11 ± 0.78 MAML[5, 9] ResNet34† 67.28 ± 1.08 83.47 ± 0.59余弦分类器[5] ResNet12 67.30 ± 0.86 84.75 ± 0.60 MatchNet[67]ResNet12 71.87 ± 0.85 85.08 ± 0.570DeepEMD（我们的）ResNet12 75.65 ± 0.83 88.69 ± 0.500（c）Caltech-UCSD Birds-200-2011数据集上的结果。0表3：在mini ImageNet（a）、tiered ImageNet（a）、Fewshot-CIFAR100（b）和Caltech-UCSD Birds-200-2011（c）数据集上，与最先进的1-shot5-way和5-shot5-way性能（%）进行比较，带有95%置信区间。我们的模型在所有数据集上都取得了新的最先进性能，甚至超过了使用更深的骨干网络的方法†。0在[5]中，Chen等人提出固定预训练的特征提取器，并使用支持图像对FC层进行微调。为了公平比较，我们对所有这些基线方法采用相同的骨干网络和训练方案，并在表1中报告实验结果。从结果可以看出，在1-shot 5-way和1-shot10-way设置下，我们的算法明显优于依赖图像级向量表示的基线方法，这表明了基于局部特征的最优匹配方法的有效性。0与基于局部表示的方法进行比较。文献中还有一些方法专注于使用局部表示解决少样本分类问题。它们都移除了CNN中的全局平均池化以实现图像的密集表示。在[30]中，Li等人使用两个特征图之间的前k个最近向量（KNN）来表示图像级距离。Lifchitz等人[33]提出使用每个局部表示进行预测，并平均它们的输出概率。我们用他们的方法替换了我们的EMD头部进行比较。结果如表1所示。我们基于最优匹配的算法优于所有其他模型变体。可能的原因是，虽然EMD中的基本地面距离是基于局部特征的，但我们的算法以全局方式比较两个结构。仅基于两个图像中最近的局部特征可能无法提取足够的信息来区分图像。例如，眼睛可能是动物图像之间最近的特征，但这种特征几乎无法用于区分动物物种。0EMD中的权重。接下来我们研究EMD公式中的权重。在早期使用EMD进行图像检索的工作中，他们使用像素颜色作为特征，并对像素进行聚类以生成节点。节点的权重设置为该聚类中像素的比例。我们0实验两种聚类算法作为基线模型生成权重：K-means[19]和mean-shift[7]。由于所提到的算法的聚类过程是不可微分的，为了公平比较，我们使用预训练后的特征来评估所有方法。我们还将具有相等权重的基线模型纳入比较。为了测试我们的性能是否仅由交叉参考机制带来，我们还将我们的网络与仅基于交叉参考机制而没有EMD的模型变体进行比较。我们计算所有向量对之间的余弦距离，并使用交叉参考机制生成的节点权重计算这些距离的加权和。从表2的结果可以看出，我们的交叉参考机制相比具有相等权重的基线模型提高了4.2%的性能，而基于聚类的方法并没有帮助提高性能，这证明了像素数量在少样本情况下不一定表示重要性。对于仅基于交叉参考机制作为注意力的模型变体，它只能稍微改善简单平均操作的结果，而交叉参考机制和EMD的组合可以显著提高性能，这再次验证了使用EMD作为度量和交叉参考机制的有效性。0与其他k-shot方法进行比较。由于EMD距离度量是两个结构的配对函数，k-shot实验的第一个基线模型是最近邻（NN）方法，将查询图像分类为最近支持样本的类别。我们还测试了使用每个支持样本进行预测并融合它们的逻辑回归的方法。然后，我们将我们的网络与以前的几种k-shot解决方案进行比较：1）原型学习。在[63]中，他们将每个类别的支持图像的特征嵌入平均值作为原型，并应用最近邻方法进行分类。2）微调余弦分类器[5]。我们在多个k值下测试了k-shot5-way任务的模型性能，结果如图4所示。我们的结构化FC层始终优于基线模型，并且随着支持集数量的增加，我们的网络显示出更多的优势。匹配流和权重的可视化。有趣的是，可视化网络推理过程中的最佳匹配流和节点权重。在图5中，我们提供了一些可视化示例。中间图像绘制了左图中每个局部区域的最佳匹配补丁，权重控制相应区域的亮度。中间图像也可以看作是使用右图的局部补丁对左图进行重建的版本。正如我们所看到的，我们的算法可以建立局部区域之间的语义对应关系，并且左图中的背景区域给予较小的权重，从而对整体距离的贡献较小。完整匹配流和更多示例的可视化可以在我们的补充材料中找到。they average the feature embeddings of support images ineach class as the prototype and apply the nearest neigh-bour method for classiﬁcation. 2) Finetuning a cosine clas-siﬁer [5]. We test the model performance on the k-shot5-way tasks under multiple k values , and the results areshown in Fig. 4. Our structured FC layer consistently out-performs baseline models and with the number of supportsets increasing, our network shows even more advantages.Visualization of matching ﬂows and weights. It is in-teresting to visualize the optimal matching ﬂows and nodeweights in the network inference process. In Fig. 5, we pro-vide some visualization examples. The middle image plotsthe best matched patch of each local region in the left image,and the weight controls the brightness of the correspond-ing region. The middle image can also be seen as a recon-structed version of the left image, using the local patchesfrom the right image. As we can see, our algorithm can es-tablish semantic correspondence between local regions, andthe background regions in the left image are given smallweight, thus contributing less to the overall distance. Thevisualization of full matching ﬂows and more examples canbe found in our supplementary material.122100图5：最佳匹配流的可视化。给定两个图像（左和右），我们绘制左图中每个局部区域的最佳匹配补丁（中间）。权重控制相应区域的亮度。中间图像也可以看作是使用右图的补丁对左图进行重建。我们的算法可以有效地建立局部区域之间的语义对应关系，并对背景区域给予较小的权重。04.4. 时间复杂度。0与基线模型相比，DeepEMD的训练和推断需要更多的计算成本，因为每个前向过程都必须解决一个LP问题。正如[1]中所讨论的，主要计算在于KKT矩阵的因式分解以及使用内点法解决LP问题时的回代，它们分别具有立方和二次时间复杂度。我们还尝试了使用OpenCV库通过修改后的单纯形算法来解决LP问题，这比使用内点法的QPTH[1]求解器要快得多。因此，我们可以在训练中使用QPTH。0我们使用OpenCV对网络进行验证和最终测试。04.5. 与最先进技术的比较0最后，我们将我们的算法与最先进的方法进行比较。我们在4个流行的基准测试中报告了1-shot 5way和5-shot5-way的性能：mini ImageNet，tieredImageNet，FC100和CUB

下载后可阅读完整内容，剩余1页未读，立即下载