少样本学习中的自适应度量学习方法的研究

112 浏览量更新于2023-10-16 收藏 1.22MB PDF 举报

少样本学习

北京大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于少样本学习的李梦乔1，4，石业民2，4，李佳3，4，王耀伟4，黄铁军2，4，田永红2，4，1北京大学2北京大学电子工程学院视频技术国家工程实验室3北京航空航天大学虚拟现实技术与系统国家重点实验室4深圳市鹏程实验室摘要小样本学习是近年来元学习范式中的一个重要分支，它的目标是从极少的新类别中快速提取新概念。然而，如何学习一个具有适应特定任务能力的通用分类器仍然是该领域的关键挑战。为此，我们提出了一个用于少量学习的TtransductiveE pisodic-wiseA daptiveMetric（TEAM）框架通过分析每个任务中的成对约束和正则化先验，我们将自适应过程明确地表示为标准的半定规划问题。通过使用转换的设置动态地解决问题的封闭形式的解决方案，我们的方法有效地为每个任务定制了一个episodic-wise度量，以将所有特征从共享的任务不可知的嵌入空间调整到更具区分性的任务特定度量空间。此外，我们进一步利用基于注意力的双向相似性策略来提取查询和原型之间更鲁棒的关系。在三个基准数据集上的大量实验表明，我们的框架优于其他现有的方法，并达到了最先进的性能在少数镜头的文献。1. 介绍深度神经网络最近在许多实际应用中取得了巨大成功，甚至在图像识别领域超越了人类[8，15，28]。然而，这些成功在很大程度上得益于成千上万的标记数据，大量的参数和复杂的训练策略。针对医学图像分类、多媒体检索等* 信件应寄往 Yonghong Tian 和 Jia Li 。（ yhtian@pku.edu.cn 和jiali@buaa.edu.cn）。图1.左边部分显示了以前基于Meta学习的方法的一般框架。该模型将所有样本嵌入到具有共享CNN的任务独立度量空间中。然而，考虑到每个任务中的独特信息，我们进一步学习了用于分类的逐段自适应度量。右边的部分简要说明了我们的方法的动机在生物识别中，深度神经网络将过度拟合并严重崩溃，因为只有很少的标记样本被提供用于训练。为此，通过探索尝试快速学习新概念并以极少的示例或甚至单个示例很好地概括的令人兴奋的想法，少数学习最近吸引了显著的研究兴趣[5，19，24，27，29，35，38]。具体而言，我们专注于与元学习范式，利用一系列独立和相同分布的少镜头任务，以学习一个所需的分类器在训练时的情况下，我们的模型直接应用到非重叠的不可见目标分类问题在测试阶段。所谓的情景训练策略，在许多先前的工作中得到了广泛的发展[29，35]，保持了训练和真实测试场景之间的一致性，并提高了泛化性能。在每个任务（或事件）中，每个类（支持集）只有少数标记的示例被提供给分类器用于训练，然后大量未标记的点（查询集）需要被分配标签用于预测。具体来说，[29，35，38]将元学习与度量学习作为前馈方式结合起来，并采用最优学习方法。36033604在所有任务之间最大化共享距离度量。此外，委员会认为，[5]提出学习一个通用的初始化策略，[17，24]学习直接用更高级别的元优化器（例如，LSTM）。虽然这些基于元学习paradig-m的方法在少数镜头分类方面取得了重大进展一个是来自各种不同任务的所有示例都不加区别地嵌入到任务无关的度量空间中，见图2。1（左）。也就是说，这种假设没有考虑任务级信息（元数据），而只考虑示例级特征，这忽略了不同任务的特殊性。实际上，这个想法缺少的是一个自适应模块，为每个任务量身定制度量空间。另一个问题是目前的方法大多遵循归纳推理的模式，即在支持数据非常有限的情况下训练元学习者，并在每个任务中逐个预测查询显然，这一过程没有充分考虑支持集和未标记测试集之间的相互作用，从而削弱了元学习的优势。为了解决如何学习一个具有适应特定任务能力的可泛化分类器的关键挑战，我们提出了一种新的用于少镜头分类的元学习框架，称为TtransductiveE pisodic-wiseA daptive Metric（TEAM），该框架利用直推推理的思想有效地定制了一个episodic-wise度量空间具体来说，我们不仅提出了在少量任务池上端到端学习任务不可知的实例嵌入模型作为元学习方式，而且还为每个任务构建了具有独特信息的任务特定距离度量，例如成对约束和正则化先验，见图。1（右）。此外，我们将任务特定度量的优化过程表示为标准的半定规划（SDP）问题[2]，并最终通过动态求解SDP问题获得封闭形式的解。此后，由任务不可知模型生成的所有特征被适配到任务特定的度量空间中，其中来自同一类的样本更接近，而不同类的样本更远。根据变换后的嵌入，我们采用一种新的基于注意力的双向相似性策略来计算每个未标记查询和类原型之间更鲁棒的关系，从而进一步提高了我们方法的性能此外，通过利用每个任务中所有样本的凸组合整个框架如图所示。2详细主要贡献可归纳为三个方面。(1)我们提出了一个通用的元学习框架，应用转导推理将适应过程公式化为SDP问题，并定制情景式学习。智能度量在每个任务的少数拍摄学习，这也可以直接扩展到其他现有的方法，甚至半监督学习。(2)我们确定了一种新的双向相似性策略，用于提取查询和原型之间更强大的（3）在三个基准数据集上的实验结果表明，该框架优于现有的方法。2. 相关工作元学习在少镜头学习。元学习，或学习学习[31]，是一种观察不同机器学习方法如何在广泛的任务上执行而不是批量数据点的技术，然后从这种经验或元数据开始，更快地学习新任务并获得更高的性能。在最近的几次学习文献中，越来越多的方法遵循元学习的思想来减轻过拟合。Meta- LSTM [24]旨在学习有效的参数更新规则，用于使用基于LSTM的元学习器训练神经网络（学习器）。另一方面，MAML [5]试图学习一个好的模型参数初始化策略，该策略可以更好地通用于类似的任务。类似地，Reptile [21]是MAML的近似，它执行一阶形式的随机梯度下降。Meta-SGD [17]在元学习中更进一步，主张在单个步骤内学习权重然而，上述这些方法存在微调问题。相比之下，在一系列任务上优化元学习器之后，我们的方法以前馈方式解决看不见的目标任务，而无需任何进一步的模型更新，并且仅有效地为每个任务优化情节式距离度量，从而避免梯度计算和严重的过拟合。距离度量学习方法。另一类方法集中于获得可推广的嵌入模型将所有样本转换为一个通用的度量空间，可以直接执行简单的分类器，如最近邻。匹配网络[35]通过使用深度神经网络训练可学习的最近邻分类器，首次将Prototypical Network [29]利用类原型表示为查询点分配标签，并直接用欧氏距离公式化最终的损失函数。后来，这项工作被 [25] 扩展到半监督的少镜头 s-cenario，未标记的数据被用于改进类原型。关系网络[38]训练一个辅助网络来计算每个查询和支持集之间的相似性得分，这相当于进一步学习非线性度量。这些方法假设所有样本都嵌入到任务不可知的度量空间中。相反，我们的框架旨在强调不同任务之间的特异性，即来自不同任务的样本应嵌入到更具区分性的任务特定空间中3605不i=1图2.用于少量学习的transductiveE pisodic-wise适应性度量（TEAM）框架的架构该方法首先将训练数据重组为一个小样本任务池（元训练集），然后采用任务级数据增强技术（TIM）对每个任务中的所有样本进行凸组合之后，将增强的情节数据馈送到CNN中，并且EAM模块利用成对约束和正则化为每个任务显式地构建任务特定的距离度量Mt前科Bi-SIM模块中的符号“”表示使用双向相似度为每个查询分配标签任务适应方法。第三类方法是目前少数学习研究的热点方向，其目的是利用元学习范式挖掘任务适应性。MT-Net [16]提出元学习器在每层激活空间上学习，特定于任务的学习器在子空间上执行梯度下降，这对任务标识更敏感。 TADAM[22]提出了一个任务编码网络，为每一层权重产生我们的方法与这些方法略有相似，因为我们都专注于任务适应的想法。然而，在没有附加辅助网络或应用复杂的训练策略的情况下，我们提出的框架将自适应过程公式化为一个标准的SDP问题，在直推推理设置下，这是更有效和方便的。转化推理。 [34]第三十四话降低了从训练集泛化到直接测试集，避免了估计函数的中间问题。在数据稀缺的情况下，它可以显着提高归纳方法的性能。Reptile [21]通过批量归一化[11]在所有测试样本之间隐式共享信息，是在少数学习中应用转导设置的第一个工作。TPN [18]通过学习一个图构造模块来显式地建模直推推理，该图构造模块将标签从标记的实例直接传播到未标记的查询点。与[18]中使用静态欧几里得距离的示例参数不同，我们的方法通过将小支持集与整个查询集集成以进行转换来探索逐段距离度量。3. 换导逐段自适应度量在本节中，我们描述了少次学习问题（FSL）的定义，然后详细介绍了transductive episodic-wise AdaptiveMetric（TEAM）。3.1. 问题公式化就像在以前的各种工作中所采用的那样[25，29，35，38]，我们以情景范式的形式组织学习过程，逐步收集源任务池中的元知识，并快速执行目标任务的适应。在这种情况下，我们的算法的最终目标是用一个大的标记数据集Dtrain训练模型，该数据集由一组可见的类Ctrain组成，并将分类器应用于一个新的测试集Dtest和许多不可见的类Ctest。请注意，Ctest和CtestCtrain=中的每个类别只有几个带标签的示例。为了在训练过程中模拟少量测试场景并充分利用大量的标记D训练，我们将D训练中的所有示例重新组织为一系列N路K-shot任务（或片段）。具体地说，N路K-shot任务通常是通过从C训练中随机选择N个类，然后从所选择的类中生成支持集和查询集来构造的。支持集每类包含K个样本，称为S={ （ xi ， yi ） }N×K ，而查询集 Q={ （ x∈1 ，y∈1），. . . ，（x<$M，y<$M）}包含来自与S相同的标签空间的不同样本。在每一集中，我们用小的标记支持集S训练学习器，并最小化大查询集Q上的损失。在一集接一集地训练直到收敛之后，学习的模型可以在新的少数任务上表现得很好。然而，我们认为，这是不理想的应用，学习模型直接应用于所有目标任务，而不考虑它们的特殊性。我们的方法提出了一个episodic-wise度量构建模块转换到一个特定于任务的度量空间，即情节适应的任务不可知的嵌入。此外，为了缓解支持集的数据稀缺问题，并构造一个更具推广性的任务自适应度量，我们遵循的范式转换推理和考虑的查询集作为一个整体进行预测，而不是一个接一个。3606θ˜Σ˜Σi=1c=1我我我 JMtMt具体来说，我们的少数镜头分类框架（见图1）。2）由三个模块组成：（1）学习任务无关的特征提取器以将原始输入嵌入到共享嵌入空间中，该过程包括用于驱动参数更新的损失函数和用于提高泛化能力的新颖的任务级增强策略，（2）通过有效地解决标准SDP问题来为每个任务定制逐段自适应度量，以及（3）执行新颖的双向相似性策略，为每个查询分配标签的任务特定空间。值得注意的是，后两个模块利用了转导的设置我们将在以下部分中详细介绍每个模块。3.2. 与任务无关的特征提取器学习嵌入函数。该方法首先利用嵌入函数fθ提取物体x的特征，其中fθ（x）表示x的嵌入，θ表示深度模型的参数给定来自Dtrain的少量任务序列T，我们通过SGD最小化每个样本的真标签的负对数概率来逐集训练特征提取器fθ，如下所示：3.3. 逐集自适应度量与公制M的距离t。给定向量空间V ∈Rd中的两个嵌入xi和xj，我们用度量Mt表示它们之间的距离，如下所示：dMt（xi，xj）=.tr<$Mt（xi−xj）（xi−xj）T<$（3）其中tr·t表示迹算子，Mt是对称半正定矩阵，它保证dMt满足伪距离的性质[1].一般来说，矩阵Mt参数化向量空间V中的马氏距离族。特别是，d Mt 由方程式(3)将退化为流行的欧几里得距离，如果我们设M t= I，也就是说，假设所有特征都具有相同的尺度和相同的相关性[32]。受这些观察结果的启发，我们提出了通过利用每个任务的特定信息（例如成对约束和正则化先验）来显式地构建逐段自适应度量。成对约束损失。给定一个少次任务，我们的目标是最小化所有相似样本对之间的距离均值（必须链接约束，用M表示），同时保持所有不相似样本之间的距离均值argminfθΣTiTΣ（x，y）∈TIM（Ti）−log p（y |f θ（x，MTi））（1）对（不能链接约束，用C表示）大于1与此同时。基于上述想法，我们制定了其中Ti是从任务序列中随机采样的少量片段，TIM（·）是新的任务级数据增强操作，MT代表逐片段自适应最小最大原理作为一个凸优化问题，当量（4）从有效性和效率的角度考虑，采用平方距离我度量Ti。在收敛之前，最佳嵌入模型f *minMt≥01|M|（xi，xj）∈M2（xi，xj）（四）从D测试而不是D训练中采样。任务内部混合增强策略。最近，1S.T.|C|（xi，xj）∈Cd2（xi，xj）≥1一些数据增强技术，如翻转，旋转，为了避免输入失真，遵循名为邻域风险最小化（VRM）[3]的学习原则，以提高深度神经网络的泛化性能受[10，39]的启发，我们进一步提出了一个任务级数据aug-基于等式（3）利用拉格朗日乘子法，我们重写Eq。(4)转化为一个成对约束损失函数：LC（Mt|M，C）=tr（Mt·M）−λ·tr（Mt·C）（5）其中λ是乘数r，M和C具有以下形式：任务内部混合（Task Internal Mixing，TIM）技术，在每个任务的所有支持样本之间进行凸组合，合成新的片段。具体来说，对于源任务中的每个实例（x，y），我们M=1|M|C =1| C|（xi，xj）∈M（x，x）∈C（xi（xi— xj）（xi— xj）（xi— xj）T— xj）T（六）从同一任务中随机选择另一个样本（xj，yj）并如下合成新的训练示例（x，y）：此外，给出了一个支持集为N路K-shot的S={（xi，yi）}NK及其查询集Q，我们首先将x=ω·xi+（1−ω）·xj，y=yi（2）支撑集S到原型集P={pc}N签署人：其中ω∈U（l，h）和0. 5≤l< h≤1。0的情况。注xi和p =1x（七）xj只是原始输入张量而不是特征。然后C| Sc|（xii，y i）∈ Sc我们用Eq处理每个实例几次。(2)以形成虚拟任务（即，TIM（Ti）在方程中（1）培训。本质上其中Sc是包含S中具有相同标签c的样本的子集。我们定义了相似和不同TIM通过合并约束M={xi∈Sc，xj∈Sc，ij}<${xi∈如果两个样本在原始像素空间，那么它们在特征空间中可能更接近。因此，xi和xn比等式中的xj和xn彼此更相似。（2）由于ω>0。5，这导致合成标记y应该是yi而不是yj。DΣΣ3607′Sc，xj∈ Pc}<${xi∈ Sc，xj∈ N（xi，k，Q）}且C={xi ∈Pc，x j∈Pc′，c/=c}<${xi ∈Pc，x j∈PT}其中Pc是P中具有标签c的原型，N（xi，k，Q）是查询集Q中xi的k个最近邻居的集合，PT是来自所见类C训练的原型集。36080不√不不i→cMt≥0˜˜0不0˜˜˜˜˜˜正则化损失在不对方程施加任何限制或先验信息的情况下，（5）由于Mt∈ Rd×d，每个任务有d2个参数需要优化，而我们只能在少数情况下构造少数几个成对约束。从机器学习理论的角度来看，这种不一致性将导致我们的模型严重过度拟合为此，我们提出了第二个原则，规范的episodic明智的度量Mt接近一个给定的度量M0，这是与所有少数拍摄任务的先验具体地说，我们试图最小化Bregman发散DΦ（M t<$M0）= Φ（Mt）−Φ（M0）− ψΦ（M0），M t−M0在Mt和M0之间的对数行列式函数Φ（M）=−log det（M），这是一个严格凸的、连续可微的发散函数。然后我们给出了正则化损失函数LR（Mt|M0）为：LR（M t|M0）=tr<$M−1M t<$<$−log det（Mt）（8）其中tr<$·<$是指矩阵上的迹算子，等式（8）忽略关于M0的常数项。更确切地说，利用信息论，优化LR相当于最小化由Mt和M0参数化的两个多变量高斯分布之间的KL散度。逐段自适应度量。通过整合上述两个原则，我们为每个任务制定了一个新的逐段自适应度量（EAM）损失函数：在前面的工作中，我们计算了每个事件中支持集和查询集的任务协方差矩阵显然，Eq。(12)只涉及简单的矩阵运算，如求逆和转置，这是更有效的，比基于SGD的优化器和朴素SDP求解器更好。此外，作为对称正定矩阵，对学习的逐段度量的性质的另一个见解是自适应线性投影层，其通过将Mt表示为LtTLt，然后等式（1）中的dM（xi，xi）表示(3)可以配制成tr（L t x i−L t x j）T（L t x i−L t x j）<$，其中Lt∈ Rr×d是特定于任务的变换矩阵。引理1设X，Y是两个大小相同的对称正定矩阵，则函数f（X）= tr（XY）-log det（X）通过下式唯一最小化：X = Y−1。证据更多详情请参见补充材料。3.4. 双向相似性假设所有样本已经被变换到具有学习的特征提取器fΦ和等式（1）中的逐段自适应度量Mt的任务特定的嵌入空间中(12)在此基础上，提出了一种新的双向相似度策略（Bi-SIM），计算每个查询属于每个类别的概率。详细地，在将支持集S收缩为具有等式（1）的原型集之后，(7)，我们用公式表示查询xi和minMt≥0 LR（Mt|M0）+γ·LC（Mt|（9）第二名（第三名）每个具有softmax函数的原型pc其中LC和LR定义在等式中。(5)和等式(8)因此，γ是正的折衷参数。总的来说exp（−dMt（xi，pc））S=c′exp（−dMt（xi，pc′））（十三）最小化等式（9）使用基于SGD的优化器或其他非凸优化求解器[30]将为每个任务产生然而，由于SDP求解器的高时间复杂度并且需要与基于SGD的优化器进行太多的迭代，每个任务内的这种子优化过程将导致低效的学习。大多数以前的方法使用这种相似性作为查询xi属于每个类别的最终概率然而，考虑到整个查询集与转换推理，我们进一步计算属于每个查询xi的原型pc的概率，公式如下：exp（−dM（pc，xi））ing过程。在这里，我们提出了一个更快，更有效的-t方法来构建每个事件的逐段度量sc→i=0不i′exp（−dMt（pc，xi′））（十四）任务首先，我们重新定义了Eq。（9）如下：mintr<$Mt·（M−1+γ·M<$−γλ·C<$）<$−logdett（Mt）（10）我们称sc→i为负方向相似性，可以被解释为亲的基于注意力的权重在整个查询集Q上键入pc。最后，我们执行-基于引理（1），我们得到最优解Mm是si→c和sc→i的乘积，-1t相似度（用Bi-Sim表示）在查询xi和设Y=M0+γ·M-γλ· C，并假设Y =0，M=（M−1+γ·M−γλ·C）−1（11）如果我们选取一个正定矩阵作为先验度量M0，则Y ≠0的假设总是成立的。除了考虑成对约束和正则化先验外，我们还将特征相关性信息引入到具有任务协方差矩阵的最终度量M†中原型pc ，即si Participic=sc→i·si→c。从本质上讲，Bi-Sim策略背后的基本思想是，如果一个查询与一个原型相似，而原型也与查询相似，那么我们认为它们彼此更匹配。在不增加任何计算负担或不需要任何人工交互的情况下，我们提出的策略可以有效地计算出更强大的相似性。1Σn不¯ ¯Tt=n−1†i=1（Xi−X）（Xi−X）−1，其结果是：−14. 实验M t =（M0+γ·M−γλ·C）+α·λt（12）其中，α、λ、γ是正的折衷参数，M、C来自等式（六）、此外，随着跨-3609在本节中，我们详细介绍了我们的实验设置，并在三个具有挑战性的数据集上将TEAM与最先进的方法进行了比较。迷你ImageNet [35]、Cifar-100 [14]3610不和CUB [36]，它们在文献中被广泛用作少数镜头分类基准。4.1. 数据集迷你ImageNet。迷你ImageNet数据集是少数学习社区中最受欢迎的基准，最初由[35]提出。该数据集由从ImageNet [15]中随机选择的100个类组成，每个类有600个图像，这些图像被调整为84×84像素，以进行快速训练和推理。请注意，我们遵循[24]提供的设置，将总共100个类分为64个类，16个类和20个类，分别用于训练，验证和评估。验证集仅用于跟踪所有实验中的模型泛化。Cifar-100 Cifar-100 [14]是一个简单的图像分类数据集，由100个类别组成，每个类别有600个RGB图像（32×32）。我们进一步将整个数据集分为64个类别，分别用于训练，16个和20个类别用于验证和测试[40]。Cifar-100与miniImageNet的兼容性保持了数据集的简单性，降低了推理的复杂性。小熊CUB [36]最初是细粒度分类的基准数据集，由超过200个鸟类类别的11788个图像组成。遵循与[9]相同的划分，我们使用100个类进行训练，另外两个50个类作为不可见的类进行验证和评估。所有图像都使用提供的边界框进行裁剪[33]。4.2. 实验设置骨干网络。为了与以前的基线进行公平和全面的比较，我们采用两个骨干网络作为嵌入函数。1)四层卷积网络（ConvNet）和2）标准深度残差网络（ResNet-18）在少数学习文献中被广泛采用。具体来说，ConvNet包含4个重复的卷积块，其中每个块由一个具有64个过滤器（3×3内核）的卷积层，一个批归一化层[11]，一个ReLU非线性和一个大小为2的最大池化层组成。此外，我们经验性地添加了一个全局平均池层作为最后一层，以加速模型的收敛并降低特征的维数。所有输入的尺寸统一调整为84×84×3，最终输出的尺寸为256。对于ResNet，我们利用[8]提出的标准架构，并删除最后一个fc层以减少参数。此外，所有输入的大小都调整为224×224×3，就像许多以前的作品一样。在最后一个平均池化层之后，它导致每个图像的512矢量培训战略。所有骨干网络都通过Adam的SGD在DGX-1上进行端到端优化。遵循[23，26]中的策略，我们预训练ConvNet以分类所有可见的类并利用最佳权重进行模型初始化，并且我们从头开始训练ResNet以进行简单的是的此外，我们在所有实验中执行TIM策略，并设置l=0。5，h=1。对于U（l，h）为0。受[10]的启发，我们在5000集之后启动TIM策略，并在训练过程中间歇性地禁用它，即，在Y集执行任务混合，然后在下一集关闭它Z集。在我们的实验中，我们根据经验设置Y=4和Z=1。我们每10000集将学习率衰减一半，并将提前停止的耐心设置为20000。M中的参数设置由方程式(9)，我们将折衷参数设置为α=2，γ=0。2，λ=0。01和先验矩阵为M0=I。在一般情况下，M0的选择是不固定的，并有一个重要的影响，generalization的学习episodic-wise度量。然而，基于以下两个观察，我们认为识别矩阵是M0的一个很自然的选择。首先，从欧几里得距离学习提供了所有少数任务中最无偏的先验，也就是说，假设来自任务不可知嵌入空间的所有特征都是同等规模和同等相关的。其次，我们观察到，每个少数任务的最佳自适应度量接近于识别矩阵，如图1所示。三是纸。请放大图。3或参考附录了解更多详细信息。4.3. 几个镜头学习结果为了验证我们的方法对少数镜头分类的有效性，我们将所提出的TEAM 框架与我们重新实现的基线（ ProtoNet[29] ）以及三个基准数据集（miniImageNet，Cifar-100和CUB）的各种设置中的许多最先进的方法进行了比较。为了与以前的作品进行公平的比较，我们专注于两个流行的少镜头学习设置，即5路1镜头和5路5镜头任务，每集都包含15个查询进行验证。除了上述设置之外，我们还在所有数据集中使用了转换设置，其中模型在每个任务中使用了整个查询集。具体地说，我们考虑两种类型的转导在我们的实验。1)Transductive batch normalization [5，21]，其通过batch normalization层在所有测试示例之间共享信息，在所有表中用BN此外，为了使评估更有说服力，我们报告了所有实验的1000次测试试验的最终平均准确度，并在我们的补充材料中提供了所有结果的95%置信区间请参阅我们的附录更完整的结果。结果在miniImageNet上。在mi- niImageNet上的实验结果如表1所示，我们可以看到，我们的模型在ConvNet主干上实现了最先进的性能，在ResNet架构上实现了竞争性结果我们使用[23]提出的简单预训练策略重新实现ProtoNet作为我们的基线，并实现了比[29]中先前报告的更好的性能。以 ConvNet 为例，我们得到51.68%和68.71%的5-3611表1. miniImageNet上的少量分类精度所有结果均为从测试集中随机选择的1000个测试任务的平均值。transan：不同类型的转导。表2.Cifar-100上的少镜头分类性能型号Tran.5路1次5路5次ConvNet ResNet型号Tran.5路1次5路5次ConvNetResNetConvNet ResNetLEO [26]没有-60.06-75.72MatchNet [35]没有56.53-63.54-主题方案网络[18]是的55.5159.4669.8675.65MAML [5]BN50.45-59.60-基线（我们的）否51. 68 55. 25 68. 71 70. 58团队（我们的）是56. 57 60. 07 72. 0475. 90得到了进一步的显著改善例如，TEAM相对于已发表的最新技术水平的绝对提升分别为1次发射1.06%和5次发射 2.18% ，相对于我们的基线分别为 4.89% 和3.33%。请注意，与PFA [23]，LEO[26]和TADAM [22]的比较有点不公平，因为我们在没有任何预训练权重或包括分类目标的情况下训练了TEAM（ResNet），然而，我们的模型仍然在1次任务上实现了最佳性能。Cifar-100的结果。接下来，我们转向在Cifar-100上评估的丰富实验，所有结果都显示在表2中，以进行详细比较。请注意，表2中的MatchNet [35]，MAML [5]和DEML [40]的所有结果都是指[40]中报告的性能。与我们的基线相比，其准确率略高于以前的点，我们注意到我们的 TEAM （ ConvNet ）在 1 次任务上增加了6.24%，在5次任务上增加了2.65%，这证明了我们方法的有效性。CUB的结果。CUB数据集[36]最初被提出用于细粒度识别，并且在当前的少数分类文献中也被广泛使用。从表3中，我们观察到我们的基线的性能远远优于之前的ProtoNet [29]，这是因为我们使用提供的边界框[33]预处理所有图像，以减少背景对最终性能的影响。将TEAM与我们重新实现的基线进行比较，ConvNet和ResNet主干在1次和5次任务中均实现了出色的性能。进一步分析。表1 - 3中总结的所有结果表明，我们的方法可以一致地提高不同数据集上的少样本学习性能。这证实了，在transductive推理的设置下，我们的模型可以有效地为每个任务定制一个情景式自适应度量，并执行一个合适的所有样本之间的相似性此外，我们注意到，我们的方法在1镜头sce- nario的性能提升比在5镜头。这一观察结果与转导的性质一致[12，18]，其中更多的训练数据可用，性能改进将越少。关于这一点，我们然后在mini-ImageNet上执行5路k-shot（k=1，3，5，7，9）实验，所有结果如表所示六、随着镜头数量的增加，我们注意到我们的TEAM始终以较大的幅度超过我们的基线，但TEAM的性能改善略有下降，这进一步验证了上述关于转导推理的分析。4.4. 消融研究不同模块的有效性。根据前面的分析，提出的TEAM框架是远远优于我们的基线，并成为新的国家的最先进的方法在少数镜头分类文献。作为消融研究的必要步骤，我们首先分析每个模块（TIM、EAM和Bi-Sim）对最终性能的贡献所有结果在表4中非常详细地示出请注意，我们的基线（ProtoNet）使用ConvNet作为骨干网络，并在所有三个数据集上实现了比以前更高的性能（见表4中的第二行），因为预训练权重初始化。此外，我们执行TEAM框架的各种设置如下。1)TEAM将TIM策略添加到我们的基线中，2）TEAM†同时使用TIM策略和逐段自适应度量（EAM），3）TEAM将所有三个模块组合在一起以获得最终性能。通过比较表4中的第二行和第三行，我们观察到TIM策略可以一致地提高所有少数任务的性能。然后我们模型交易。5向 1次注射5向 5次射击MatchNet [35]没有50.53-60.30-ConvNetResNetConvNetResNetMAML [5]BN49.28-58.30-MatchNet [35]没有43.56-55.31-ProtoNet [29]DEML [7]没有没有56.66--61.6276.29--77.94MAML [5]BN48.70-63.10-MAML+[18]是的50.83-66.19-基线（我们的）没有57.8366.3076.4080.46爬行动物[21]BN49.97-65.99-团队（Ours）是的64.0770.4379.0581.25ProtoNet [29]没有49.42-68.20-GRN [6]没有50.33-64.02-表3.CUB上的少镜头分类性能分别为1路和5路5路，这是轻微的-基线（我们的）没有69.3974.5582.7885.98优于文献[29]的49.42%和68.20%。先在脸上涂抹团队（我们的）是的75.7180.1686.0487.17PFA [23]没有54.5359.6067.8773.74TADAM [22]没有-58.50-76.70AdaResNet [20]没有-56.88-71.94ProtoNet [29]没有58.43-75.22-[第38话]BN62.45-76.11-DEML [7]没有-66.95-77.11TriNet [4]没有-69.61-84.103612表4.用于消融研究的少射分类性能。原型（我们的）：基线。团队训练：基线+TIM。团队†：基线+TIM+EAM。团队：基线+TIM+EAM+Bi-SIM。模型miniImageNet Cifar-100 CUB单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击[35]第三十五话49.4268.2056.6676.2958.4375.22原型（我们的）51.6868.7157.8376.4069.3982.78团队介绍52.9770.4559.5677.6570.2784.68团队†55.3571.5962.7678.8075.0686.06团队56.5772.0464.0779.0575.7186.04表5.基于miniImageNet的半监督比较方法5向1次5向5次软k均值[25]50. 09± 0. 4564. 59±0。28[25]第49话，我的世界03± 0. 2463. 08± 0. 18[25]第50话：我的世界41± 0。3164.39± 0。24[18]第十八话78± 0。2766。42± 0。21TEAM-semi（我们的）54.81±0.59 68.92±0.38进一步比较了TEAM模块和TEAM模块，它们之间的唯一区别是是否使用EAM模块。以miniImageNet的1次任务为例，TEAM†比TEAM x2高出2.38%，这表明在少次学习中为每个任务构建episodic自适应度量是可行的。表4的最后一行进一步显示了我们整个框架的有效性。与半监督少镜头学习的比较。从未标记数据的角度来看，直推推理是半监督学习的一种特殊情况，即前者直接使用测试集作为未标记数据，后者使用更多的辅助未标记数据。因此，我们提出了一个半监督版本的TEAM框架，即TEAM-semi，将其与其他半监督少镜头方法进行比较。具体来说，按照[25]中的标记/未标记数据划分，我们分别使用每个类别中的40%和60%请注意，每个任务中的支持/查询示例都是从标记集中随机采样的，仅用于公平比较。在训练集的10个随机标记/未标记分区上平均的所有结果详细报告于表5中。与之前的最先进的方法TPN [18]相比，我们的TEAM-semi框架对于1-shot/5-shot分别增加了2.03%和2.50%，这验证了其处理监督和半监督少数镜头分类的能力。逐段自适应度量的稀疏性在本节中，我们将探讨在少数学习中逐段自适应度量的稀疏性。以5路5次任务为例，我们在每个类中设置15个查询，并利用经典的LMNN算法[37]与所有支持和查询样本来优化Oracle度量，这确保了该任务中的所有示例都可以完全区分。然后，我们将度量的所有元素缩放到区域[0，1]中，并在图中可视化其热图。3（左）。我们图3.该图说明了在少次学习中度量的稀疏性左：Oracle指标的热图（请放大以了解更多细节）。右：矩阵中不同位置的值分布（按降序排列）。表6.5路性能与各种训练/测试镜头。团队（我们的）56.5767.6472.0473.4775.04准确度（+）4.89 3.77 3.33 2.19 1.69观察到对角线元素总是保持比非对角线元素（接近蓝色）更大的值（接近红色）在用图中的数字降序重新组织所有值之后。3（右），我们进一步注意到对角元素和非对角元素之间存在很大的值差距。这些实际观察表明，由于低数据设置，我们不能有足够的先验来找到所有维度之间的准确相关性，除了对角线上的强自相关性，这导致逐段自适应度量的稀疏性。此外，从这个实际的观点，我们进一步验证了它是合理的设置单位矩阵作为先验度量M0在方程。（十二）、5. 结论我们提出了用于少量学习的TtransductiveE pisodic-wiseA daptive Metric（TEAM），这是一个基于元学习的简单有效的框架它不仅在所有任务端到端学习共享嵌入模型，而且还通过在每个任务中获取更多独特的信息来进一步定制episodic-wise度量。此外，使用整个查询集一次进行推理，我们利用双向相似性策略提取查询和原型之间的更强大的关系我们的TEAM在三个少量基准数据集上实现了最先进的性能，并且很容易扩展到半监督版本。今后还可以将贸易效率评估方法扩展到其他几种方法。谢谢。这项工作得到了中国国家重点研发计划（2017YFB 1002400）、中国国家自然科学基金（合同编号U1611461、61825101和61672072）的部分资助，还得到了NVIDIA和NVIDIA DGX-1人工智能超级计算机以及北京新星计划（Z181100006218063）的资助。方法单次拍摄三发5次射击7发9发基线（我们的）51.6863.8768.7171.2873.353613引用[1] 作者：AmauryHabrard，andMarcSebban. 特征向量和结构化数据的度量学习综述.arXiv：1306.6709，2013年。[2] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社，2004年。[3] OlivierChapelle ， JasonWeston ， Le'onBottou ，andVladimirVapnik.邻近风险最小化。NIPS，第416-422页，2001年[4] Zitian Chen ， Yanwei Fu ， Yinda Zhang ， Yu-GangJiang，Xiangyang Xue，and Leonid Sigal.少量学习中的语义特征扩充。arXiv：1804.05298，2

下载后可阅读完整内容，剩余1页未读，立即下载