联合分布的重要性：用于少样本分类的深度布朗距离协方差

193 浏览量更新于2023-10-25 收藏 12.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

79720联合分布的重要性：用于少样本分类的深度布朗距离协方差0谢江涛1，�，龙飞1，�，吕佳明1，王启龙2，李培华1，†01 大连理工大学，中国 2 天津大学，中国0摘要0少样本分类是一个具有挑战性的问题，因为每个新任务只给出了很少的训练样本。解决这个挑战的一种有效研究方法是通过测量查询图像和一些类别的少量支持图像之间的相似性度量来学习深度表示。从统计上讲，这相当于测量图像特征的依赖性，将其视为高维嵌入空间中的随机向量。先前的方法要么只使用边缘分布而不考虑联合分布，受限于表示能力有限，要么虽然利用了联合分布，但计算成本很高。在本文中，我们提出了一种用于少样本分类的深度布朗距离协方差（DeepBDC）方法。DeepBDC的核心思想是通过测量嵌入特征的联合特征函数与边际乘积之间的差异来学习图像表示。由于BDC度量是解耦的，我们将其形式化为一个高度模块化和高效的层。此外，我们在两个不同的少样本分类框架中实例化DeepBDC。我们在六个标准的少样本图像基准上进行了实验，涵盖了一般对象识别、细粒度分类和跨领域分类。广泛的评估结果显示我们的DeepBDC在性能上显著优于对应方法，同时建立了新的最先进结果。源代码可在http://www.peihuali.org/DeepBDC上获得。01. 引言0少样本分类[15,17]是一个任务，其中分类器可以适应区分以前未见过的类别，只给出这些类别的非常有限数量的示例。这是一个具有挑战性的问题，因为稀缺标记的示例远远不足以学习丰富的知识，也可能导致过拟合。一种实际的解决方案是基于元学习的技术。0� 平等贡献。†通讯作者，peihuali@dlut.edu.cn。该工作得到了中国国家自然科学基金（61971086，61806140）和CCF-Baidu开放基金（2021PP15002000）的支持。0元学习或学习如何学习[12,39]，其中情节式训练被制定为将在大量已知类别的大型元训练集上获得的知识转移到新类别的少样本情况下。在取得重大进展的同时，基于度量的方法引起了相当大的研究兴趣[15, 26, 33, 39]，近年来在性能上取得了最先进的成果[45,47]。基于度量的少样本分类的主要思想是通过深度网络学习表示，通过查询图像和一些类别的少量支持图像之间的相似性度量来驱动[33,47]。从统计上讲，查询图像（响应，支持图像）的特征可以被视为高维嵌入空间中随机向量X（响应，Y）的观测值。因此，图像之间的相似性可以通过概率分布来衡量。然而，对高维（通常是少量）特征的建模是困难的，常见的方法是对统计矩进行建模。ProtoNet[33]及其变体（例如，[26]）通过第一矩（均值向量）表示图像，并使用欧氏距离或余弦相似度进行度量学习。为了捕捉更丰富的统计信息，一些工作研究了第二矩（协方差矩阵）[44]或以高斯形式组合第一和第二矩，用于图像表示，同时采用Frobenius范数或Kullback-Leiberler（KL）散度作为相似性度量。然而，这些方法只利用了边缘分布，而忽略了联合分布，限制了学习模型的性能。此外，协方差只能建模线性关系。一般来说，应该根据它们的联合分布fXY（x，y）来衡量X和Y之间的依赖关系[6]。地球移动距离（EMD）是衡量这种依赖性的有效方法。如[29，第2.3节]所述，EMD寻求一个最优的联合分布fXY（x，y），其边际分布被约束为给定的fX（x）和fY（y），以使运输成本的期望值最小。在少样本分类中，DeepEMD[47]提出了用于图像区域的最优匹配的差分EMD。尽管取得了最先进的性能，但DeepEMD的计算成本很高[45]，因为它具有固有的线性规划问题。ProtoNet [33]Meanvector∥µX − µY ∥2 or79730方法概率模型不相似性/相似性度量联合依赖性延迟准确率（%）0分布 1-shot 5-shot0∥ µ X ∥∥ µ Y ∥ No 不适用低 49.42 68.200CovNet [44] 协方差矩阵 ∥ Σ X − Σ Y ∥ 2 No 线性低 49.64 69.450ADM [20] 高斯分布 D KL ( N µ X , Σ X ||N µ Y , Σ Y ) No 不适用低 53.10 69.730DeepEMD [47] 离散分布 min f x j , y l ≥ 0 � j � l f x j , y l c x j , y l s . t . � l f x j , y l= f x j , � j f x j , y l = f y l for � j, l0是不适用高 65.91 82.410DeepBDC（我们的）特征函数 �0c p c q ∥ t ∥ 1+ p ∥ s ∥ 1+ q d t d s 是非线性和独立性低 67.34 84.460表1. 我们的DeepBDC与其他方法之间的比较。基于矩的方法[20, 33, 44]只对边际分布进行建模，表示能力有限；DeepEMD[47]通过考虑联合分布而取得了最先进的性能，但计算代价高。我们的DeepBDC通过衡量联合特征函数与边际乘积之间的差异，可以在闭合形式下高效计算，并且可以建模非线性关系并完全表征独立性。注意，对于一个随机向量，其特征函数和概率分布是等价的，因为它们构成了一个傅里叶变换对。这里我们报告了在mini ImageNet上进行的5-way 1-shot / 5-shot分类的准确率；我们的结果是通过MetaDeepBDC获得的，其他方法的结果是从各自的论文中复制的。0互信息（MI）[3,28]是一种众所周知的度量方法，可以通过两个随机变量的KL散度量化它们之间的依赖关系，但在实值、高维度的情况下计算MI是困难的[2]，通常涉及复杂的密度建模或KL散度的下界估计[14]。0在本文中，我们提出了一种用于少样本分类的深度布朗运动距离协方差（DeepBDC）方法。BDC度量首次在[35,36]中提出，它被定义为联合特征函数与边际乘积之间的欧氏距离。它可以自然地量化两个随机变量之间的依赖关系。对于离散观测（特征），BDC度量是解耦的，因此我们可以将BDC形式化为一个汇聚层，它可以无缝地插入到深度网络中，接受特征图作为输入，并输出一个BDC矩阵作为图像表示。通过这种方式，两个图像之间的相似性被计算为相应的两个BDC矩阵之间的内积。因此，我们的DeepBDC的核心是高度模块化的，适用于不同的少样本图像分类方法。具体而言，我们在元学习框架（MetaDeepBDC）和依赖非时序训练的简单迁移学习框架（STLDeepBDC）中实例化了我们的DeepBDC。与协方差矩阵相反，我们的DeepBDC可以自由处理非线性关系并完全表征独立性。与EMD相比，它还考虑了联合分布，并且可以通过解析和高效的方式计算。与MI不同，BDC不需要密度建模。我们在表1中介绍了我们的BDC与其他方法之间的差异。0我们的贡献总结如下。（1）我们首次引入了布朗运动距离协方差（BDC），这是一种基本但很大程度上被忽视的依赖关系度量方法。0我们的工作将建模方法引入到基于深度网络的少样本分类中。我们的工作显示了BDC在深度学习中的巨大潜力和未来应用。（2）我们将DeepBDC形式化为一个高度模块化和高效的层，适用于不同的少样本学习框架。此外，我们提出了两种少样本分类的实例，即基于元学习框架的MetaDeepBDC和基于简单迁移学习框架的STLDeepBDC。（3）我们对我们的方法进行了彻底的消融研究，并在六个少样本分类基准上进行了广泛的实验。实验结果表明，我们的两种实例都取得了优越的性能，并同时创造了新的最佳结果。02. 相关工作0少样本分类中的表示学习图像表示和相似度度量在只有有限标记样本的少样本分类中起着重要作用。根据图像表示，我们可以粗略地将少样本分类方法分为两类。在第一类中，图像表示基于分布建模。它们使用一阶矩（均值向量）[33]、二阶矩（协方差矩阵）[44]、高斯分布[20]或离散概率[47]，并相应地采用欧氏距离（或余弦相似度）、Frobenius范数、KL散度或EarthMover'sDistance作为相似度度量。第二类与查询图像和支持图像之间的特征重建有关，通过岭回归[45]或注意机制[9,46]直接进行线性重建，或者通过设计关系模块来学习可传递的深度度量[34,48]。我们的方法属于第一类，并且与现有方法最大的区别是我们在少样本情况下使用Brownian DistanceCovariance进行表示学习。RRp�79740属于第一类，并且与现有方法最大的区别是我们在少样本情况下使用Brownian Distance Covariance进行表示学习。0元学习与简单迁移学习元学习是少样本分类的一种事实上的框架[12,39]。它涉及到一个任务族（episode），被分为互不相交的元训练集和元测试集。通常，每个任务被制定为N-wayK-shot分类，其中N个类别每个类别提供K个支持图像和一些查询图像。元训练集和元测试集共享这种分集训练策略，有助于跨任务的泛化能力。大多数方法，无论是基于优化的[12, 30]还是基于度量的[33,34]，都遵循这种方法。许多研究[5, 45,47]表明，与从头开始元训练相比，对整个元训练集进行预训练对元学习是有帮助的。最近发现，简单迁移学习（STL）框架在不依赖分集训练的情况下取得了非常有竞争力的性能[4, 8,37]。对于STL方法，在元训练期间，通过在跨越所有类别的整个元训练集上使用标准的交叉熵损失来训练一个深度网络，用于解决一个普通的分类问题；在元测试期间，训练好的模型被用作特征提取的嵌入模型，然后构建一个线性模型，如softmax分类器[4,8]或逻辑回归模型[37]，并用于少样本分类。最后，我们提到很少有研究在机器学习或计算机视觉中使用BDC，到目前为止，我们发现只有一种基于BDC的降维方法[7]与深度学习无关。03. 提出的方法0在本节中，我们首先介绍Brownian DistanceCovariance（BDC）。然后我们在卷积网络中制定我们的DeepBDC。最后，我们将我们的DeepBDC实例化为少样本图像分类。03.1. Brownian Distance Covariance (BDC)0BDC理论首先在[35,36]中基于特征函数建立起来。随机向量的特征函数等价于其概率密度函数（PDF），因为它们构成了一个傅里叶变换对。设X∈Rp，Y∈Rq是维度分别为p和q的随机向量，fXY(x,y)是它们的联合概率密度函数。X和Y的联合特征函数定义为0φXY(t, s)= �0Rq exp(i(tTx + sTy)) fXY(x, y) dxdy (1)0其中 i是虚数单位。显然，X和Y的边际分布分别为φX(t)=φXY(t,0)和φY(s)=φXY(0,s)，其中0是一个元素为的向量。0全为零。根据概率论的理论，我们知道当且仅当 φ XY ( t , s)= φ X ( t ) φ Y ( s ) 时，X 和 Y 是独立的。假设 X 和 Y具有有限的一阶矩，BDC 度量定义为0ρ ( X, Y )= �0R q | φ XY0c p c q ∥ t ∥ 1+ p ∥ s ∥ 1+ q dt d s (2)0其中 ∥ ∙ ∥ 表示欧几里得范数，c p = π (1+ p ) / 2 / Γ((1 +p ) / 2) ，Γ 是完全伽玛函数。对于独立同分布的 m个观测值 { ( x 1 , y 1 ) , . . . , ( x m , y m ) }，自然的方法是根据经验特征函数定义 BDC 度量：0φ XY ( t , s ) = 10m0k =1 exp( i ( t T x k + s T y k ))(3)0尽管方程 (2) 看起来很复杂，但是对于离散观测值，BDC度量有一个闭合形式的表达式。设 � A =( � a kl ) ∈ R m × m，其中 � a kl = ∥ x k − x l ∥ 是计算 X的观测对之间的欧几里得距离矩阵。类似地，我们计算欧几里得距离矩阵 � B = ( � b kl ) ∈ R m × m ，其中 � b kl =∥ y k − y l ∥ 。那么 BDC 度量具有以下形式 [ 35 ] 1 ：0ρ ( X, Y ) = tr � A T B � (4)0其中 tr( ∙ ) 表示矩阵的迹，T 表示矩阵的转置，A = ( a kl ) 被称为 BDC 矩阵。这里 a kl= � a kl − 1 m � m k =1 � a kl − 1 m � m l =1 � a kl − 10m 2 � m k =1 � m l =1 � a kl ，其中最后三项表示矩阵 A的第 l 列、第 k 行和所有元素的均值，类似地，矩阵 B可以从矩阵 B 计算得到。由于 BDC 矩阵是对称的，ρ ( X, Y) 也可以写成两个 BDC 向量 a 和 b 的内积，即0ρ ( X, Y ) = � a , b � = a T b (5)0其中 a (分别为 b ) 是通过提取 A (分别为 B )的上三角部分并进行向量化得到的。度量 ρ ( X, Y )具有一些理想的性质。 (1) 它是非负的，当且仅当 X 和 Y是独立的时候才等于 0。 (2) 它可以表征 X 和 Y之间的线性和非线性依赖关系。 (3) 它对 X 和 Y的个体平移和正交变换是不变的，并且对它们的个体缩放因子是等变的。也就是说，对于任意向量 c 1 ∈ R p ，c 2 ∈R q ，标量 s 1 ，s 2 和正交矩阵 R 1 ∈ R p × p ，R 2 ∈R q × q ，有 ρ ( c 1 + s 1 R 1 X, c 2 + s 2 R 2 Y ) = | s 1s 2 | ρ ( X, Y )。0m 2 被合并到一个可学习的缩放参数 τ 中（见第 3.3 节），因此被省略。1A……………………797503.2. DeepBDC作为汇聚层的构建0根据方程 (4) 和方程 (5) ，我们可以看出 BDC度量是解耦的，也就是说我们可以独立地为每个输入图像计算 BDC矩阵。具体地，我们设计了一个适用于卷积网络的两层模块，分别进行维度缩减和 BDC矩阵的计算。由于 BDC矩阵的大小与网络中的通道数（特征图数）呈二次增长，我们在网络主干的最后一个卷积层之后插入一个 1 × 1 卷积层进行维度缩减。假设网络（包括维度缩减层）由参数 θ参数化，将彩色图像 z ∈ R 3 嵌入到特征空间中。图像的嵌入是一个 h × w × d的张量，其中 h 和 w 是空间高度和宽度，d 是通道数。我们将张量重塑为矩阵 X ∈ R hw× d ，可以将每一列 χ k ∈ R hw 或每一行（经过转置后） x j ∈ R d 视为0作为随机向量X的观测值。我们提到，在实践中，无论哪种情况，独立同分布的假设可能不成立，并且在第4.2节中给出了两种选择的比较。接下来，我们以χk为随机观测为例。我们开发了三个运算符，依次计算平方欧氏距离矩阵�A =(˜akl)，其中˜akl是X的第k列和第l列之间的平方欧氏距离，欧氏距离矩阵�A =(√�akl)，以及通过从�A减去其行均值、列均值和所有元素的均值得到的BDC矩阵A。即，0�A = 2�1(XTX ◦ I)�0sym − 2XTX (6)0�A = � �0A = �A − 20sym +0d2 1 �0这里的1 ∈Rd×d是一个每个元素都是1的矩阵，I是单位矩阵，◦表示Hadamard积。我们表示(U)sym= 102 (U + UT)。此后，我们使用 Aθ(z)表示由参数化为θ的网络从输入图像z计算得到的BDC矩阵。因此，我们将DeepBDC构建为一个无参数的空间汇聚层。它非常模块化，适用于不同的网络架构和少样本分类的不同框架。BDC矩阵主要涉及标准矩阵运算，适合在GPU上进行并行计算。从公式（6）可以看出，BDC矩阵通过欧氏距离建模通道之间的非线性关系。协方差矩阵可以类似地解释，然而，它通过内积建模通道之间的线性关系。从理论上讲，它们是非常不同的，因为BDC矩阵考虑了联合分布，而协方差矩阵只考虑了边缘分布。0主干网络0共享0BDC模块0BDC模块0平均0主干网络0BDC 矩阵0BDC 矩阵原型0相似度 Softmax0查询图像0支持图像0(a) Meta DeepBDC - 以 ProtoNet [33] 为蓝本的实例化。0整个元训练0所有类的集合0BDC 模块主干网络0BDC 矩阵0Softmax0权重矩阵0(b) STL DeepBDC - 基于 Good-Embed [37] 的实例化，依赖于非情节式训练。0图1. 我们的DeepBDC用于少样本分类的两种实例化。MetaDeepBDC（a）基于元学习的思想，依赖于情节式训练；这里以3-way 2-shot分类为例进行说明。在STLDeepBDC（b）中，我们使用传统的softmax分类器和交叉熵损失在整个跨越所有类别的元训练上训练网络；在元测试期间，我们使用训练好的网络作为嵌入模型进行特征提取，构建和训练逻辑回归模型进行分类。03.3. 实例化 DeepBDC 用于少样本学习0我们基于元学习框架和简单的迁移学习框架实例化了我们的DeepBDC，得到的Meta DeepBDC和STLDeepBDC分别如图1a和图1b所示。0在多个任务上以一种情节方式执行标准的少样本学习。任务通常被构建为一个 N-way K-shot 分类问题，其中涉及 N个类，每个类有 K 个支持图像和 Q 个查询图像，支持集Dsup = {(zj, yj)}NKj=1 和查询集 Dque = {(zj,yj)}NQj=1。学习器在 Dsup 上进行训练，并在 Dque上进行预测。我们以 ProtoNet [33] 为蓝本实例化 MetaDeepBDC。它学习了一个度量空间，其中分类是(zj,yj)kAθ(zj)(7)arg minθ−�(zj,yj)∈Dquelogexp(τtr(Aθ(zj)T Pyj))k exp(τtr(Aθ(zj)T Pk))(8)arg minθ,Wk −�(zj,yj)trainlogexp(τtr(Aθ(zj)T Wyj))k exp(τtr(Aθ(zj)T Wk)) (9)79760通过计算到每个类别原型的距离来执行分类。在一个任务 (D sup , D que ) 上，我们将图像 z j 输入网络以生成 BDC矩阵 A θ ( z j )。支持类别 k 的原型是属于该类别的 BDC矩阵的平均值(Avg)：0P k = 10其中 S k 是 D sup 中标记为类别 k的示例集合。我们基于与支持类别原型的距离的 softmax构建一个类别分布，并制定以下损失函数：0其中 τ 是可学习的缩放参数[5, 45,46]。我们通过从大规模元训练集 C train中采样任务来训练学习器，其中类别的数量远大于N。然后，我们从一个保留的元测试集 C test中采样任务，评估学习器的性能。这种分集训练确保了元训练和元测试之间的一致性，这对于元学习方法[33,39]至关重要。0STL DeepBDC这个实例基于广泛使用的简单迁移学习（STL）框架[10]，其中一个深度网络在大型数据集上进行训练，然后作为嵌入模型用于提取少量标记示例的下游任务的特征。我们在跨越所有类别的整个元训练集 C train上训练一个常规的图像分类任务。使用预测和真实标签之间的交叉熵损失来从头开始训练学习器：0其中 W k ∈ R d × d 是第 k 个权重矩阵，τ是可学习的缩放参数。对于从元测试集 C test 中采样的任务( D sup , D que )，我们在 D sup上构建和训练一个新的线性分类器，使用训练好的模型作为特征提取器。根据[37]，我们采用逻辑回归模型进行分类，并且在元训练集上使用顺序自蒸馏技术从训练好的模型中提取知识，而不是直接使用训练好的模型进行元测试任务。通过参考公式(8)和公式(9)，我们可以将 W k 解释为类别 k的原型，通过训练学习到的虚拟 BDC矩阵。值得一提的是，通过对 BDC矩阵和权重矩阵进行向量化操作，公式(9)中的 softmax函数可以通过标准的全连接（FC）层来实现。03.4. 与先前方法的关系0设 { x j } n j =1 是查询图像的特征，被视为随机向量 X 的观测值。可以计算均值向量 µ X= 10n � n j =1 x j ，协方差矩阵 Σ X = 10n � n j =1 ( x j − µ X )( x j − µ X ) T 或高斯分布 N µ X， Σ X，作为图像表示。请注意，这些表示在少样本学习范式之外已经得到了广泛的研究，被认为是全局平均池化[13]、双线性[22]或协方差池化[42]和高斯池化[41]。支持类别的相应原型，µ Y ，Σ Y 或 N µ Y ，Σ Y ，可以使用 K个支持图像的特征来计算。ProtoNet[33]使用均值向量表示图像，并使用欧氏距离ρ ProtoNet(X, Y) = ∥ µ X − µ Y∥2或余弦相似度µ T X µ Y / (∥ µ X ∥∥ µ Y∥)来测量差异，用于度量学习。CovNet[44]采用协方差矩阵作为图像表示，以改进一阶表示。协方差矩阵经过带符号平方根归一化，然后在矩阵空间（即Frobenius范数）中与欧氏距离进行比较ρ CovNet(X, Y) = ∥ Σ X − Σ Y∥2。ADM[20]提出使用非对称分布度量（ADM）来评估查询图像与支持类别之间的不相似性。图像的分布由多元高斯表示，其差异通过KL散度来衡量ρ ADM(X, Y) = D KL(N µX, Σ X ||N µ Y, ΣY)。DeepEMD[47]使用离散分布作为图像表示。具体而言，查询图像的离散概率密度函数为f X(x) = � n j =1 f x j δ x,x j，其中f x j表示x j的概率，δ x, x j是Kroneckerdelta，如果x = xj，则等于1，否则为零。支持图像的概率密度函数为f Y(y) =� n j =1 f y j δ y, y j。f X(x)和fY(y)之间的距离被公式化为EMD，即ρ EMD(X, Y) = min fx j, y l ≥ 0 � n j =1 � n l =1 f x j, y l c x j, yl，其中约束条件为� n l =1 f x j, y l = f x j和� n j =1 f x j, y l= f y l，对于j，l = 1，...，n。这里c x j, yl是运输成本。因此，EMD寻求一个最优的联合分布f XY(x j,y l) △ = f x j, yl，使得运输成本的期望值最小化[29，第2.3节]。DeepEMD提出了一个交叉引用机制来定义f x j和f yl，并使用一个结构化的FC层来处理K-shot分类(K>1)。04. 实验0我们首先简要描述实验设置。接下来，我们对我们的两种实例（即Meta DeepBDC和STLDeepBDC）进行消融研究，并与对应的方法进行比较。最后，我们与六个少样本数据集上的最新方法进行比较，涵盖了一般物体识别、细粒度分类和跨域分类。128013.2566.36±0.4348883.23±0.3061496013.0466.81±0.4428083.68±0.2835164012.8467.34±0.4316184.46±0.2819851212.7567.10±0.4513484.23±0.2816425612.5966.90±0.4312184.15±0.28148ProtoNet [33]62.110.4411580.770.3014351213.4164.92±0.43111084.61±0.29201625612.7566.15±0.4337185.44±0.2958719612.6566.57±0.4328585.36±0.2942412812.5567.83±0.4318485.45±0.302456412.4866.97±0.4413783.18±0.30172Good-Embed [37]64.820.4412182.140.43155ProtoNet [33]62.11±0.4411580.77±0.30143ADM [20]65.87±0.4319982.05±0.29221CovNet [44]64.59±0.4512082.02±0.29144DeepEMD [47]65.91±0.8245782.41±0.5612617Meta DeepBDC67.34±0.4316184.46±0.28198STL DeepBDC67.83±0.4318485.45±0.2924579770d 参数 1-shot 5-shot0(M) 准确率延迟准确率延迟0相似度函数 1-shot 5-shot0准确率延迟准确率延迟0内积 67.34 ± 0.43 161 82.38 ± 0.32 193 余弦相似度 61.74 ±0.42 172 82.49 ± 0.31 207 欧氏距离 56.70 ± 0.45 163 84.46 ±0.28 1980(a) 基于ProtoNet [ 33 ]的Meta DeepBDC作为蓝图。0d 参数 1-shot 5-shot0(M) 准确率延迟准确率延迟0分类器 1-shot 5-shot0准确率延迟准确率延迟0逻辑回归 67.83 ± 0.43 184 85.45 ± 0.30 245 支持向量机 66.29± 0.44 113 84.73 ± 0.29 144 Softmax 66.30 ± 0.44 1250 85.20± 0.29 43740(b) 基于[ 37 ]的STL DeepBDC，依赖于非情节性训练。0表2. 使用ResNet-12作为骨干网络在miniImageNet上对DeepBDC的两种实例进行消融分析。我们报告了5-way分类一个元测试任务的准确率和延迟（毫秒）。延迟是使用GeForce GTX 1080测量的。0方法 1-shot 5-shot0准确率延迟准确率延迟0表3. 在miniImageNet上，使用ResNet-12作为骨干网络进行5-way分类的准确率和延迟（毫秒）的比较。0领域分类。04.1. 实验设置0数据集我们在两个一般物体识别基准上进行实验，即miniImageNet [ 39 ]和tiered ImageNet [ 31]，以及一个细粒度图像分类数据集，即CUB-200-2011 [40 ]（简称CUB）。我们还通过在miniImageNet上训练，然后在CUB [ 40 ]、Aircraft [ 24]和Cars [ 16]上进行测试，评估模型的领域迁移能力。骨干网络为了与之前的方法进行公平比较，我们使用两种类型的网络作为骨干网络，即ResNet-12 [ 18 , 37 ]和ResNet-18 [ 1 , 23 , 34]。与常用做法相同，ResNet-12的图像输入分辨率为84×84，ResNet-18的图像输入分辨率为224×224。此外，我们采用更深的模型和更高的容量，即输入图像为224×224的ResNet-34 [ 13]和适用于输入图像为84×84的ResNet-34的变体。与[ 9 ,20]类似，我们去除骨干网络的最后一次下采样，以获得更多的卷积特征。训练我们的MetaDeepBDC基于元学习框架，依赖于情节性训练。每个情节（任务）涉及标准的5-way 1-shot或5-way5-shot分类，均匀采样自元训练或元测试集；在情节性训练之前，按照[ 5 , 45 , 47 ]的方法，0我们预训练了模型，其权重被用作初始化。与MetaDeepBDC相反，我们的STLDeepBDC基于简单的迁移学习框架，不需要分集训练。根据[37]的方法，我们使用交叉熵损失在整个元训练集上训练一个嵌入模型作为嵌入模型，并为每个元测试任务使用嵌入模型提取的特征训练一个新的逻辑回归分类器。在补充材料(Supp.)S1中，我们提供了数据集的统计信息和元训练/验证/测试集的划分，以及网络架构、优化器、超参数等的详细信息。04.2. 消融研究0我们对我们的两个实例进行了消融分析，并与miniImageNet上的对应方法进行了比较，使用ResNet-12作为骨干网络。有关对应方法和额外实验的实现细节分别在Supp. S-2和Supp. S-3中给出。Meta DeepBDC的消融分析由于BDC矩阵的大小与通道数的平方成正比，我们引入了一个1×1的卷积层(conv)，将通道数减小到d。在我们的实现中，每个BDC矩阵被向量化，如公式(5)所示，因此大小为d(d+1)/2。表2a(顶部)显示了在准确性和元测试时间每个episode上变化d的效果。我们可以看到当d=640时，获得了最高的准确性；与此同时，随着d的增大，元测试时间只有适度的增加。我们还通过直接将BDC模块附加到骨干网络上进行实验，我们分别获得了1-shot和5-shot的67.10±0.43和84.50±0.28的结果，与使用额外的1×1卷积层获得的最佳结果相当。除了公式(5)中所示的内积，我们还可以使用欧氏距离或余弦相似度作为度量标准，相应的结果在表2a(底部)中给出。可以看出，对于1-shot任务，内积的表现最好，而欧氏距离和余弦相似度的表现较差。CTM [19]ResNet-18 64.12±0.82 80.51±0.13 68.41±0.39 84.28±1.73S2M2 [25]ResNet-18 64.06±0.18 80.58±0.12––TADAM [26]ResNet-12 58.50±0.30 76.70±0.38––MetaOptNet [18]ResNet-12 62.64±0.44 78.63±0.46 65.99±0.72 81.56±0.63DN4 [21] †ResNet-12 64.73±0.44 79.85±0.31––Baseline++ [4] †ResNet-12 60.56±0.45 77.40±0.34––Good-Embed [37] ResNet-12 64.82±0.60 82.14±0.43 71.52±0.69 86.03±0.58FEAT [46]ResNet-12 66.78±0.20 82.05±0.14 70.80±0.23 84.79±0.16Meta-Baseline [5] ResNet-12 63.17±0.23 79.26± 0.17 68.62±0.27 83.29±0.18MELR [11]ResNet-12 67.40±0.43 83.40±0.28 72.14±0.51 87.01±0.35FRN [45]ResNet-12 66.45±0.19 82.83±0.13 71.16±0.22 86.01±0.15IEPT [50]ResNet-12 67.05±0.44 82.90±0.30 72.24±0.50 86.73±0.34BML [51]ResNet-12 67.04±0.63 83.63±0.29 68.99±0.50 85.49±0.34ProtoNet [33] †ResNet-12 62.11±0.44 80.77±0.30 68.31±0.51 83.85±0.36ADM [20] †ResNet-12 65.87±0.43 82.05±0.29 70.78±0.52 85.70±0.43CovNet [44] †ResNet-12 64.59±0.45 82.02±0.29 69.75±0.52 84.21±0.26DeepEMD [47]ResNet-12 65.91±0.82 82.41±0.56 71.16±0.87 86.03±0.58Meta DeepBDCResNet-12 67.34±0.43 84.46±0.28 72.34±0.49 87.31±0.32STL DeepBDCResNet-12 67.83±0.43 85.45±0.29 73.82±0.47 89.00±0.30ProtoNet [33]Conv464.42±0.48 81.82±0.35FEAT [46]Conv468.87±0.22 82.90±0.15MELR [11]Conv470.26±0.50 85.01±0.32MVT [27]ResNet-10–85.35±0.55MatchNet [39]ResNet-12 71.87±0.85 85.08±0.57Wang et al. LR [43] ResNet-12 76.1690.32MAML [12]ResNet-18 68.42±1.07 83.47±0.62∆-encoder [32]ResNet-18 69.8082.60Baseline++ [4]ResNet-18 67.02±0.90 83.58±0.54AA [1]ResNet-18 74.22±1.09 88.65±0.55Neg-Cosine [23]ResNet-18 72.66±0.85 89.40±0.43LaplacianShot [52]ResNet-18 80.9688.68FRN [45] †ResNet-18 82.55±0.19 92.98±0.10Good-Embed [37] † ResNet-18 77.92±0.46 89.94±0.26ProtoNet [33] †ResNet-18 80.90±0.43 89.81±0.23ADM [20] †ResNet-18 79.31±0.43 90.69±0.21CovNet [44] †ResNet-18 80.76±0.42 92.05±0.20Meta DeepBDCResNet-18 83.55±0.40 93.82±0.17STL DeepBDCResNet-18 84.01±0.42 94.02±0.2479780方法 Backbone mini ImageNet tiered ImageNet 1-shot 5-shot 1-shot 5-shot0(a) 通用物体识别数据集上的结果。0方法 Backbone CUB 1-shot 5-shot0（b）细粒度分类数据集的结果。0表4. 与最先进方法在一般和细粒度few-shot图像分类上的比较。最佳结果以黑体显示，次佳结果以红色显示。†使用我们的设置复现。05-shot情况下距离达到最高准确率。在接下来的论文中，我们将使用此最佳设置。最后，我们注意到MetaDeepBDC的性能比基线（即ProtoNet）要好得多，无论d的值如何，而延迟的增加很小。0STL DeepBDC的消融分析对于STLDeepBDC的每个元测试任务，我们需要构建和训练一个新的线性分类器，这会引入参数和计算。由于BDC矩阵的大小与d的平方成正比，参数的数量相对于训练样本的数量是相当可观的，特别是对于较大的d。因此，随着d的增加，过拟合的风险也越大，这可能解释了为什么在1-shot和5-shot任务中，当d较大时，准确率总体上变低，如表2b（顶部）所示。STL DeepBDC在d =128的情况下获得了最佳结果，高于MetaDeepBDC的最佳结果，同时所花费的时间相当。除了逻辑回归模型，我们还与softmax分类器和线性SVM进行了比较。从表2b（底部）的结果可以看出，softmax分类器与SVM相当，但它们都不如逻辑回归好；逻辑回归的延迟大于SVM，而softmax分类器的时间明显比其他两者长。最后，我们提到STL DeepBDC在d =128的情况下以适度增加延迟的方式大幅优于Good-Embed的基线。0DeepBDC的独立同分布假设BDC指标依赖于独立同分布假设[35]，这在统计学和机器学习中很常见。如第3.2节所述，通过

下载后可阅读完整内容，剩余1页未读，立即下载