从外在和内在的监督中学习幻觉例子

164 浏览量更新于2023-10-15 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8701→←从外在和内在的监督中学习幻觉例子Liangke Gui1*Adrien Bardes2*†Ruslan Salakhutdinov1Alexander Hauptmann1Martial Hebert1Yu-XiongWang31 CMU2 Facebook AI Research，Inria3 UIUC{liangkeg，rsalakhu，alex，hebert}@cs.cmu.eduadrien. inria.fryxw@illinois.edu摘要学习幻觉额外的例子最近已这项工作调查了两个重要但被忽视的自然监督信号，用于指导幻觉过程-（i）外在的：在Hallucinated示例上训练的分类器应该接近从大量真实示例中学习的强分类器;和（ii）内在的：属于同一类别的幻觉和真实示例的集群应当被拉到一起，同时将来自不同类别的幻觉和真实示例的集群推开。我们通过在数据丰富的基类上引入额外的导师模型来指导幻觉器来实现（i），并通过在幻觉和真实示例之间执行对比学习来实现（ii）。作为一个通用的，模型不可知的框架，我们的双导师和自我导向（DMAS）幻觉器显着提高了在各种情况下广泛使用的基准测试的几杆学习性能。1. 介绍为了减轻对用于学习深度模型的大型标记数据集的依赖，少量学习引起了越来越多的关注，其目标是从一个或仅几个注释示例中学习新概念[20，68，71，59，21]。现有的工作试图从元学习的角度解决这个问题[55，7，64]，这是由人类在处理新任务时利用先前经验的能力所与标准机器学习范式不同，其中模型是在一组示例上训练的，元学习是在一组“模拟”任务上执行的，每个任务都支持集被用作学习器的少量训练数据，查询集被用作测试数据以评估学习器的质量。通过从大的col*平等贡献†访问CMUmin(a)(b)（ c ）第（1）款图1：通过外部和内部监督，学习幻觉器以生成用于少量学习的有用示例。在元训练期间，我们对一个少量任务（例如2-方式2-镜头分类）上的基本类（图1a）。外部监督：该任务所需的分类器是（虚线）一个，将从大量的真实示例中学习（图2）。（见第1b段）。我们明确地引入这个强分类器作为然后，我们以最小化（实线）“学生”分类器（在幻觉示例和几个真实示例上训练）和（虚线）导师分类器之间的差异的方式学习幻觉器（图2）。第1c段）。内在监督：通过对比学习，属于同一类别的幻觉和真实示例的集群被拉到一起（），同时将来自不同类别的幻觉和真实示例的集群推开（）（图10）。第1c段）。在元测试期间，我们使用经过元训练的固定幻觉器来生成额外的示例，作为在新类上学习分类器的增强。真实示例为亮菱形，幻觉示例为暗三角形，分类器为实线或虚线。选择标记的基本类的示例，基于元学习的方法学习提取任务不可知的知识，并将其应用于新类的新的少量学习任务一种值得注意的任务不可知（或Meta）知识来自数据扩充的共享机制或跨类别的幻觉[70，22，56，84]。由于合成原始图像通常具有挑战性或有时是不必要的，因此最近的工作集中在学习特征空间中的幻觉示例[70，22，56，84，76，83，87]。这可以通过例如将“幻觉器”模块集成到元学习框架中来实现幻觉器捕获跨类别共享的类内变化，其推广到未看到的类。然后，学习器使用增强的训练集，其包括真实和幻觉的示例以确定是否存在幻觉。8702学习分类器。通过基于查询数据的地面实况标签反向传播分类损失，幻觉器与学习器进行端到端的元训练尽管先前的方法的成功，我们认为，仅仅使用分类损失的小查询集作为监督是不够的，以调整的幻觉器，以产生有效的样本，在少数拍摄制度。因此，在幻觉示例上训练的分类器的性能仍然大大低于在真实示例上训练的分类器的性能[16，58]。为了克服这一挑战，我们的关键见解是，有两个重要的，但未充分探索的自然信号，指导数据生成过程-外在和内在的这项工作探讨了如何利用这样的监督，使幻觉的例子的方式，帮助分类算法学习更好的分类器。监督的第一个来源是来自大样本学习的外部信号。如图1所示，为了最有助于作为超分辨率器，在超分辨率示例（其从真实样本的小支持集生成）上训练的分类器被期望接近于将在大量真实示例上训练的强分类器。这种来自大样本学习的外在信号是少量学习的自然监督来源，但在以前的工作中，它在很大程度上被忽视了。虽然我们对新类的数据很少，但我们确实有大量关于基类的真实示例。因此，在基类上，我们引入了一个相应地，在幻觉示例以及很少的真实支持示例上训练的分类器成为我们现在最小化学生和导师分类器之间的差异。一种直接的方法是最小化参数空间中两个分类器之间的距离[71，72，11]，由于缺乏合适的度量，这往往是困难因此，我们反而鼓励学生分类器的输出预测（例如，类概率的分布）与指导者在查询集上预测的那些相似。这种学习方式让人想起知识的升华[29]。通过这样做，幻觉者明确地学习如何产生使得学生分类器能够模仿导师的行为的示例。请注意，学生-导师对仅用于基类上的元训练;不存在用于对新类进行元测试的指导分类器。在实践中，如果导师是由大量真实示例产生的，而学生只能访问很少的真实示例，则学生和导师分类器在训练开始时可能彼此相当不同为了解决这个问题，我们提出了一个渐进式的指导方案，启发课程学习[8]，并探讨了两个双重方向一个学生，都是在少量的真实例子上训练的，我们通过用越来越多的真实例子重新训练它来逐渐加强导师;（2）我们从一个导师和一个学生开始，他们都接受了大量真实例子的训练，我们通过删除真实例子来逐渐削弱学生。在这两个过程中，幻觉者也在逐步训练。监督的第二个来源是幻觉和真实例子之间的内在标签一致性。如图1所示，属于同一类别的幻觉和真实示例应该被拉在一起，同时将来自不同类别的幻觉和真实示例的集群分开。然而，在没有适当约束的情况下，幻觉化的示例可能是有噪声的并且跨越类边界（例如，幻觉的狗实例位于猫群集内为此，我们将问题表述为监督对比学习，受到自我监督学习的最新进展的启发[74，28，12，30]。我们把幻觉和真实的例子作为数据的不同视图，并相应地生成正面和负面对。例如，从同一类的幻觉样本和真实样本两者中提取阳性。请注意，与学习嵌入空间（其中数据增强是预定义的）的传统对比学习不同，我们使用对比损失来自引导右类集群或流形中的幻觉示例（其中特征空间是预先训练的）。我们的贡献是三方面的。(1)通过共同杠杆老化的互补外部和内部监督，我们开发了一个通用的元学习与幻觉框架。(2)我们不仅提取共享的知识，在一个集合的少数拍摄学习任务，类似于大多数现有的元学习方法，但也逐步exploit外部知识的大样本模型训练的基础类作为导师，以指导幻觉和少数拍摄学习。(3)通过一个对比学习过程，幻觉的例子是自我指导，以保持与真实的例子的内在标签的一致性。我们的双导师和自我导向（DMAS）幻觉器是模型不可知的，它可以在不同的特征空间中生成数据，并且可以与不同的分类模型相结合，以在各种基准测试中持续提高其少量学习性能，包括ImageNet 1K [27，70]，迷你ImageNet[68，49]，分层ImageNet [51]和CUB [69]。2. 相关工作生成模型。生成模型最近已经显示出作为少数学习[5，70，84，22]和半监督学习[16]的数据增强方式的巨大潜力，但识别性能的改善仍然有限[58]。生成可以在图像空间[15]或预训练的特征空间[27]中执行，通过使用自动编码器架构[56]，GAN。8703DCDCCDSSC ∩CDCC例如生成器[70]，或GAN和自动编码器[75，76]的组合。我们的工作是独立的这些不同类型的发电机，我们主要集中在如何训练发电机，以提高其使用的识别任务，通过杠杆老化大量的辅助数据和自我监督。少镜头学习和元学习。Meta学习，或学习学习的能力[64]，是解决有限数据学习问题的强大框架。大多数现代方法都属于基于优化和基于度量学习的方法之间的类别之一。基于优化的方法通过学习适当的参数更新[49]或一般初始化[21]来学习如何快速适应新任务。自适应可以在原始特征空间[21，4，6]或嵌入空间[52]中完成先前关于少数域自适应的工作[53，31]学习如何平衡域不变的跨域度量学习方法专注于学习相似性度量[33]。已经探索了几个距离函数，从欧几里得距离[59，2]和余弦距离[13，23，19]到更复杂的参数函数和度量[68，62，37，82]，或者使用额外的特定于任务的度量[46]。大多数方法往往对每一类分类单独处理，而没有考虑它们之间的关系。因此，引入图神经网络来利用这些关系[54，32，24]。为了更有效地进行元学习，最近的方法通常首先使用经训练的特征提取器网络来计算图像的一组特征考虑到高维特征具有更好的建模能力，但计算成本很高，每个元学习任务然后被公式化为凸优化问题，并在其低维对偶空间中求解[9，34]。我们的幻觉器组件是通用的，可以集成到不同的元学习方法中。师生网络。在教师或导师模型的指导下学习模型已广泛用于模型压缩。将一个笨重的或几个模型压缩成一个较小的模型是一个经典的想法[18，10]，并已通过蒸馏公式推广[29]。最近的工作重点是指导蒸馏过程的先进技术[42，78，1]及其在实际问题中的应用，例如对象检测[77，73]和分布式机器学习[3]。此外，知识蒸馏已经扩展到解决其他任务，包括多任务学习[63]和持续学习[38，57]。据我们所知，我们的工作是第一次引入一个导师网络学习识别面向任务的生成模型。重要的是，与解决不同容量模型的现有工作不同，我们考虑具有相同容量但在真实或合成数据。对比学习强大的自我监督表示学习方法最近已经在图像领域通过手动指定的借口任务开发。示例包括自动编码方法，其利用con-[47]，通道[86]，和颜色[85]，以恢复输入下的一些腐败。一些借口任务通过相对补丁位置[17]，图像旋转[25]和拼图[44]形成伪标签。这些借口任务被收集在对比学习框架的保护伞下，该框架保持了图像及其增强视图的表示之间的相对一致性[45，74，80，28，12，65，26，14，81]。在我们的工作中，我们把幻觉和真实的例子作为数据的不同视图，并使用对比损失在正确的类簇或流形中自引导幻觉的例子。3. 双导师和自我指导的幻觉少量学习设置。我们给出了一组基本范畴base和一组新颖范畴novel，其中basenovel =。我们有一个基本数据集基础，每个类有大量带注释的训练示例，还有一个新的数据集，每个类只有很少的带注释的训练示例。少镜头学习旨在基于小数据集novel学习用于novel的良好分类模型h。最近的工作通过元学习程序[68]实现了这一点，该程序从采样的少数镜头分类集合中学习。基于C的阳离子任务。给定一组类别C和一组数据D，m路k次任务由来自C的m个类别的子集C sub、针对Csub中的每个类别的来自D的k个示例的支持（训练）集Ssupp、以及针对C sub中的每个类别的来自D的一个或几个示例的查询（测试）集Squery组成。元学习在如下两个阶段中执行。在元训练期间，分类器从从基地和基地采样的m路k次任务的集合中学习。虽然我们的工作对不同的分类模型是不可知的，但在这里我们以一个简单的余弦分类器[13]为例-一个使用余弦而不是标准欧氏距离函数的原型网络[59]的变体。在每次迭代中，我们为sub中的每个类计算原型表示。每个例子都被馈送到具有可学习参数θ的嵌入函数f θ。类c的原型是supp中c的例子通过fθ的输出的平均值。然后，我们将查询中的示例馈送到分类器并更新参数θ。在元测试期间，我们使用相同的方法，并使用C noverel构建我们先前的元学习分类器，该分类器具有一个唯一的m-way-k-shot任务。而不是基于C和基于EL的D。我们评估最终分类器对具有来自Cn ovel的标签的未见过的示例进行分类。幻觉的元学习。结合产生用于数据增强的附加示例的生成模型已经被示出为促进Meta学习[70，22，56]。虽然我们的方法不依赖于特定类型的生成模型，但由于其简单性和最先进的性能，我们在这里关注[70]中的特征幻觉器，它被实现为轻量级多层感知器（MLP）模块。幻觉者是一个8704S（er*LexMsu##$u%su##&su##GSuppSuppR→ RCSuppSSuppSuppSSSSC训练学生分类器SuppSSS中文（简H+（页$（&i/+（页G+（页#G(a) 基类上的元训练(b) 新类Back propSampleBuild向前图2：我们的双导师和自我导向的幻觉“DMAS”的概述期间在元训练的每次迭代中，利用由幻觉器G产生的一组示例SG来增强小支持集Ssupp。示例从结果集Saug中提取的所有数据用于构建学生分类器模型S。导师模型M从包含大的大量关于基类的真实示例。通过联合利用来自L_ex的外在监督和来自L_in的内在监督来训练幻觉器G。也就是说，L_ex强制学生分类器模仿由导师模型在查询集S查询上预测的类概率的分布;同时，L_in强制来自学生分类器的幻觉示例和真实示例之间的固有标签一致性。八月晚餐通过对比学习。在元测试期间，我们使用经过元训练的固定G来生成额外的示例作为增强用于在新类上学习分类器h;不存在导师分类器。真实的例子是钻石，幻觉的例子是三角形。函数G（x，z;w）：d+d噪声d，其在维度d的预训练特征空间中产生样本，其中X是真实样本的特征向量，z是从高斯分布采样的维度d噪声的随机噪声向量，并且w是G的参数。幻觉化的例子G（x，z;w）与x属于同一范畴。现在，在图2中示出了与超幻觉器G集成的元学习的过程。在元训练的每次迭代期间，首先对支持集Ssupp进行扩增。由生成集SG分割.具体来说，对于每一个类例子.这使得缩小这两个分类器之间的差距至关重要。事实上，在元训练期间，大量的注释示例已经可用于基本类别库，这允许我们显式地获得在大量示例集合上训练的分类器，并使用它来指导幻觉器的学习。形式上，我们对待的分类器训练的增强集的幻觉的例子和几个支持的例子，作为一个学生模型，我们对待的分类器训练的一个大的一组真正的基础的例子作为导师模型。我们然后目标是通过最小化dis-to-learn的幻觉-y，我们在supp中采样k个训练样本（x，y），样本asso-引用的随机噪声向量z，然后将（x′，y）加到G，其中x′=G（x，z;w）。我们的最终支持训练集是学生分类器和其导师模型之间的差异虽然一种简单的方法是直接描述它们的模型参数之间的差异，但事实证明AugSupp=Ssupp∪ SG.如果G是可微的由于高维度的PA是具有挑战性的相对于生成的集合G，查询上的最终分类损失的梯度可以被反向传播到G中以产生有用的超分辨率示例。通过大量迭代的Meta训练，幻觉器学会在不同的环境中捕获共享的变异模式。类，因此可以泛化到看不见的类。在元测试期间，我们使用学习的G来生成用于识别Cn ovel中的类别的附加示例。在导师的外在指导下产生幻觉。分类损失的端到端优化使幻觉器能够在少数镜头单位空间受师生网络[29]的启发，我们强制学生模仿导师网络预测的类概率分布，这可以被视为一种正则化方法，以提高学生模型的泛化性能[43]。如图2所示，以以下方式进行对超幻觉器G的元训练我们首先抽样一个大的例子在base中，每个类具有k个大的e个示例，并且使用所有大的示例来训练导师分类器。在元训练的每次迭代期间，我们通过使用幻觉器G生成新的示例来增强supp。我们政权然而，由于分类损失是在小的查询集上计算的，因此仅这样的监督是不够的AugSupp[29]中的蒸馏损失函数通过知识调整幻觉器产生有区别的检查L（s，m，y）=L（σ（s），e）+ατ2L（σ（s），σ（m）），（1）ττex最有助于制定分类器决策CEy1CE第11章边界因此，所得到的分类器在幻觉的例子可能仍然远离期望的分类器，期望的分类器将从大量的真实样本中学习。其由标准交叉熵损失（第一术语）和测量学生和导师输出之间差异的附加组件（第二个SGen8705我M+Ni=1S||SSSDD\{}S术语）。 s和m分别是学生和指导者针对S查询中的标签y的测试示例产生的logit。σ表示softmax函数，LCE表示softmax函数。I类中的实例第二I类中生成的示例II类中生成的示例交叉熵损失，ey是y的独热编码，α是平衡两项的折衷超参数。请注意，τ1>0是一个关键的可学习参数，称为温度，它平滑了导师产生的概率分布，并使学生比原始决策边界更容易学习具有内在标签一致性的自我导向学习。虽然由外部指导者指导的幻觉示例是有用的，但是在没有其他约束的情况下，它们可能跨越类边界传播并且因此是嘈杂的。受监督对比学习[30]的启发，我们在幻觉示例之间强制执行内在标签一致性和真实的例子。形式上，假设我们对每个小批量的N个真实示例进行采样并且生成M个超分辨率示例，从而产生一批M+N个示例。给定锚示例xi，P（i）是批次中不同于i和A（i）的所有阳性的索引的集合。监督对比损失为定义为Lin=1ΣM+NLi且图3：在识别两个类的情况下，通过削弱学生分类器来进行渐进式指导的图示。我们从学生和导师的大量真实示例开始，并学习相应的导师模型（最左边的图像）。然后，我们在训练过程中逐渐删除学生的真实示例幻觉器学习基于剩余的真实示例生成附加示例，以保留导师决策边界（中间两个和最右边的图像）。圆滑的举止具体地，这可以在以下两个双重方向上实现。通过加强导师的渐进式指导。在这种情况下，学生和导师都以少量的真实例子。然而，导师的真实示例的数量在培训过程中逐渐增加。然后，幻觉器的目标是学习生成额外的示例，使得每当导师用更多的样本重新训练并且变得更强时，其对应的学生总是可以匹配导师的表现。更具体地，在元训练期间，一个Li=−|P（i）|p∈ΣP（i）对数Σexp（xi·xp/τ2）a∈A（i）exp（xi·xa/τ2）、（二）组成每个少镜头任务支持集SUPP每类有四个例子，k列，如常规Meta其中，τ2>0是温度参数，并且P（i）是其car。二进制这种损失允许真实的和幻觉的例子来自相同类别的样本相互吸引，而它们排斥来自小批次中不同类别的其他样本因此，我们的双重导师和自我导向的幻觉器可以从等式11导出。1和Eqn. 2作为其中β是平衡两项的折衷超参数。最小化方程因此，在查询上的3引导幻觉器产生有用的示例，这些示例帮助学生分类器从导师模型恢复决策边界。4. 导师模式在具有外部指导的元学习框架下，一种直接的方法是通过以下方式构建导师模型训练在开始时，我们取样大e，k大被设置为k列的值。然后，我们进行了详细的示例新的实际例子中的相同数量的每一类，并添加到拉格河 k个大的增长在线性或对数尺度上从k个训练到k个最大值，其中k个最大值是基中每个类的最大可用示例数。每次添加新示例时，我们都会重新训练导师模型。弱化学生的渐进式引导。在这种情况下，学生和导师都从大量的真实例子开始然而，我们在训练过程中逐渐删除了学生的真实示例然后，幻觉器的目标是学习基于剩余的真实示例生成缺失的示例。这允许学生保留或稳定由大组示例制定的原始决策边界（即，导师边界），当学生有机会获得更少的真实使用k 大尽可能大（可能是完整的的例子，变得越来越弱。更具体地说，在元训练，每个“少量”任务的支持集Ssuppbase）并保持其固定，并且仅使用几个真实示例来训练幻觉器和学生分类器然而，这样做，我们面临的问题是决策的边界由这两个模型获得的幻觉可能在训练开始时彼此相距很远，使得幻觉器的学习为了解决这个问题，我们执行的学习过程中，以渐进的方式与不同数量的真实的例子。我们从一个导师和一个学生开始，他们可以接触到数量相差不大的真实例子，然后逐渐改变例子的数量，这样决策边界就转变为每个类由大量的示例组成，这与常规的元训练不同。在suppktrain中的每类的示例的数量以线性或对数比例减小，直到其达到小值。5. 评价我们现在提出的实验，以评估我们的双导师和自我导向（DMAS）的幻觉器上的几杆classi- fication，并研究从外部和内部监督的渐进式指导的效果。因为DMAS是agnos-8706--方法骨干k= 15ProtoNet [59]ResNet12 66.09±0.92 82.50 ± 0.5866.20±0.99 82.30 ± 0.5866.95±1.06 77.11 ± 0.7867.28±1.08 83.47 ± 0.5967.30±0.86 84.75 ± 0.6071.87±0.85 85.08 ± 0.5775.65±0.83 88.69 ± 0.50RelationNet [13，62] ResNet34DEML [88]ResNet50MAML [13]ResNet34余弦分类器[13]ResNet12[第68话]ResNet12DeepEMD [82]ResNet12DMAS（我们的）ResNet1278.47± 0.62 90.67± 0.39（b）CUB的新类别的测试准确度（%）。‘方法骨干k=1二五十ProtoNet [59]ResNet10 39.3 54.4 66.3 71.2ProtoNetGen [70]ResNet10 45.0 55.9 67.3 73.0[第68话]ResNet10 43.6 54.0 66.0 72.5逻辑回归[27]ResNet10 38.4 51.1 64.8 71.6逻辑回归类比[27]ResNet10 40.7 50.8 62.0 69.3原型匹配网络生成[70]ResNet10 45.8 57.8 69.0 74.3余弦属性体重[23]ResNet10 46.0 57.5 69.1 74.8DMAS（我们的）ResNet10 46.5 58.3 69.7 75.1(a)测试miniImageNet和分层ImageNet的新类的准确率（%）‘（c）ImageNet1K上的311路新类分类的前5个准确度（ % ）所有数值的 95% 置信区间均为0.2%。表1：在四个广泛基准化的少数拍摄分类数据集上与现有技术的比较使用简单的余弦分类器，我们的DMAS显著且一致地优于所有基线（包括复杂的分类模型）。tic的分类模型的选择，我们验证了它的推广到不同类型的功能和各种元学习模型。特别地，我们专注于简单的余弦分类器，其最近被证明可以实现非常有竞争力的少数拍摄性能[13]。数据集。我们在四个广泛使用的数据集上进行评估：（1）迷你ImageNet [68，49]，分别具有64，16和20个用于Meta训练，元验证和元测试的类;（2）分层ImageNet [51]，分别具有20，6和8个用于元训练，元验证和元测试的超类;（3）ImageNet 1 K [27，70]，具有用于交叉验证的193个基本类和300个新类以及用于评估的196个基本类和311个新类;（4）Caltech-UCSDBirds-200- 2011（CUB）[69，79]，分别具有100、50和50个用于Meta训练、元验证和元测试的类。实施详情。为了与以前的工作进行公平比较，我们采用 ResNet10 作为 ImageNet1K 的模型骨干 [70] ，ResNet12作为其他三个数据集的模型骨干[82]。如在最先进的工作中通常实现的，我们遵循特征预训练步骤[82]。我们首先在基类上训练基于卷积网络的然后我们提取这些特征并保存到磁盘上，并使用这些预先计算的特征作为元学习的输入。我们遵循[70]中的特征幻觉器架构，并使用具有ReLU的三层MLP作为激活。我们的余弦分类器的嵌入函数fθ是一个两层MLP。在通过削弱学生来进行渐进式指导的过程中，我们开始训练指导者，klarge=256，然后在12，000次迭代中，以对数尺度将数字减少到1。我们初始化可学习的参数，包括温度τ1到7，余弦距离的比例因子至75，温度τ2至0. 07.由于性能对权衡超参数α和β不敏感，我们根据经验将它们分别设置为5和1。幻觉示例的数量是一个超参数，范围为210个。关于改进性能的超分辨率示例的饱和点通常为6。对于ImageNet1K，我们遵循[70]中的设置，并对5个预定的k次拍摄（即，k=1，2，5，10）任务。我们报告的平均前5名的准确度和95%的置信区间为0的顺序。百分之二。对于其他数据集，我们对1000个随机抽样任务进行平均，并报告准确率和95%置信区间。与最新技术水平的比较。我们比较我们的模型与国家的最先进的方法。我们在三个基准测试中报告了5路1次拍摄和5路5次拍摄的性能：mini ImageNet、分层ImageNet 和 CUB ，以及 ImageNet 1 K 上的 311 路 k -shot。结果总结于表1中。在相同的主干下，我们的模型在所有数据集和不同的样本大小制度上始终实现最佳性能，甚至优于复杂的方法，例如基于注意力的分类器的余弦Weight’ [特别是，我们的单次模型比最先进的方法有显著的优势，例如 1 . 一、 5% 在 miniImageNet上，2%在分层ImageNet上，2. 8%的CUB。消融分析。为了解开性能增益并了解不同组件的影响，我们对具有挑战性的ImageNet1K数据集进行了一系列消融表2总结了前5个准确度，所有数字的95%置信区间均为0。百分之二。对不同类型的预训练特征和分类器具有鲁棒性表2显示DMAS可以有效地产生幻觉方法骨干迷你图像Genet分层ImageNetk=15k=15余弦分类器[13]ResNet1255.43 ±0.8158.50 ±0.3059.00±59.46±65.91 ±0.8277.18 ±0.6176.70 ±0.3077.46±75.65±82.41 ±0.5661.49 ±0.91-63.99±–68.18 ±0.16–-65.99 ±0.72–68.41 ±0.3971.52 ±0.6971.16 ±0.8782.37 ±0.67-81.97±–83.09 ±0.12–-81.56 ±0.53–84.28 ±1.7386.03 ±0.4986.03 ±0.58TADAM [46]ResNet12ECM [50]ResNet12TPN [40]ResNet12PPA [48]WRN-28-10ProtoNet [59]ResNet12wDAE-GNN [24]WRN-28-10MTL [61]ResNet12LEO [52]WRN-28-10DC [39]ResNet12MetaOptNet [34]ResNet12[79]第79话ResNet24[第68话]ResNet12CTM [35]ResNet18RFS [66]ResNet12DeepEMD [82]ResNet12DMAS（我们的）ResNet1267.42± 0.2883.74± 0.2073.54± 0.7386.27± 0.478707↓↑↓↑转方法骨干k=15[70]第70话：我的世界MetaOptNet + DMAS（我们的）ResNet12ResNet12ResNet1262.64 ±0.6163.46 ±0.4364.55± 0.6478.63 ±0.4680.02 ±0.2880.42± 0.46S2M2 [41]S2M2 +Gen[70]S2M2 + DMAS（我们的）WRN-28-10WRN-28-10WRN-28-1063.90 ±0.1863.37 ±0.5665.35± 0.6381.03 ±0.1181.23 ±0.1983.55± 0.41DeepEMD [82]DeepEMD +Gen[70]DeepEMD + DMAS（我们的）ResNet12ResNet12ResNet1265.91 ±0.8264.73 ±0.3067.42± 0.2882.41 ±0.5679.92 ±0.2183.74± 0.20表2：ImageNet 1 K 311路分类的消融研究（前5名准确度）：（1）用于幻觉的不同预训练特征空间-“标准”（特征主干是使用基类上的标准交叉熵线性分类器预训练的ResNetlO）与余弦分类器;（3）不同监督源和渐进式培训的影响。w/aug：使用标准数据增强。Gen：使用仅使用查询集上的分类损失训练的普通幻觉器[70]DMAS w/ex：DMAS仅在导师的指导下接受培训，无渐进式培训。DMAS w/ ex：通过加强导师进行渐进式指导。DMAS w/ ex：通过削弱学生的渐进式指导。DMASw/ in：DMAS只通过对比学习以自我导向的方式进行训练。DMAS（完全）：在（渐进）外部和内部监督下进行培训。表4：对我们的方法的可推广性的消融研究并与miniImageNet上的最新技术进行了额外的比较。我们的DMAS幻觉器是通用的，可以与不同类型的分类模型和不同的骨干模型一起工作，以不断提高其性能。此外，DMAS始终优于普通幻觉器[70]。形成基线。当例子非常少时，这种改进更加明显，例如，五、当k=1时，改善6%。这意味着保持幻觉和真实示例之间的标签一致性的重要性。此外，完整的DMAS模型实现了最佳的性能，表明外在监督和内在监督是相辅相成的。加强导师与削弱学生。我们比较了加强导师（W/EX）和削弱学生（W/ EX）的两个渐进式指导方向当改变训练学生或导师模型的示例数量时，我们使用对数尺度[60，72]。如表2所示，两个方向均超过正常引导，无进展（w/ ex），以及方法k= 15ProtoNet[59]50.01 ±0.8272.02 ±0.67MatchingNet[68]51.65 ±0.8469.14 ±0.72余弦分类器[13]44.17 ±0.7869.01 ±0.74线性分类器[13]50.37 ±0.7973.30 ±0.69KNN[36]50.84 ±0.8171.25 ±0.69DeepEMD[82]54.24 ±0.8678.86 ±0.65DMAS（我方）63.72±0.2981.24± 0.20表3：跨域评估（miniImageNet CUB）。我们的模型优于其他基线方法的大利润率，显示- ING我们的学习幻觉的泛化。数据在不同类型的预训练的特征空间中，并且可以与不同类型的分类器一起工作。值得注意的是，DMAS在同质设置中实现了最佳性能，其中通过使用余弦分类器对特征进行预训练，并且最终分类模型也是余弦分类器。导师的外在指导。从表2中，我们可以观察到DMAS通过受益于导师的外在指导而显著优于基线。有5个。8%的改进时，结合原型网络和6。7%的改进时，与余弦分类器相结合。更重要的是，DMAS优于仅使用分类损失训练的普通幻觉器[70]请注意，基线和DMAS都使用相同数量的数据用于基类的元训练。内在监督。表2还显示，仅用内在监督训练的DMAS已经超过了弱化学生取得更好的效果。它来自这样一个事实，即如果导师和学生都开始变弱，由于导师和学生的高方差，学习问题实际上可能很难。与标准数据增强的比较。表2示出了我们学习的数据幻觉优于具有标准手工制作的数据增强（“w/aug”）的Meta学习跨域评估。到目前为止，我们一直关注域内场景。现在，我们考虑跨域场景，这使我们能够调查我们的DMAS幻觉器的一般化，并了解域转移的影响。在[13，82]中的跨域设置之后，表3中的实验表明，我们在迷你ImageNet上训练的DMAS幻觉器对于CUB上从未见过的类是有效的，无需任何微调。作为通用即插即用模块的DMAS。表4进一步示出了我们的方法的可推广性一一DMAS幻觉器可以与不同类型的分类模型和不同的骨干模型一起工作以不断地提高它们的性能。为了充分研究DMAS的影响并进行公平的比较，我们在具有相同训练设置的迷你ImageNet上进行实验（例如主干、数据增强技术和培训方法特征k=12510ProtoNet [59]（基线）ProtoNetw/ aug（基线）ProtoNetGen [70]（基线）ProtoNetDMAS w/exProtoNetDMAS（完整）标准标准标准39.340.245.045.145.954.455.055.955.556.566.366.767.367.368.271.271.673.073.373.9余弦分类器（基线）Cosine ClassifierGen（baseline）CosineClassifierDMAS w/ in CosineClassifierDMAS w/ ex CosineClassifierDMAS w/ex↑余弦分类器DMAS w/ex↓余弦分类器DMAS（完整）标准标准标准37.842.643.444.544.345.446.551.053.954.756.256.356.758.365.566.467.168.668.868.869.772.572.673.574.274.274.875.1余弦分类器（基线）Cosine ClassifierGen（基线）Cosine ClassifierDMAS w/余弦余弦余弦45.847.047.247.957.057.858.259.368.969.169.270.174.374.374.475.58708图4：当通过弱化学生的渐进式指导对我们的DMAS幻觉器进行元训练时，两个新真实的例子（小点）被逐步删除，并且以一种有助于保持学生决策边界（黑色实线）尽可能接近由大量真实例子（红色虚线）制定的期望决策边界的我们观察到PCA可视化具有类似的现象。最佳的彩色观看与缩放。图5：四个新类别的幻觉示例的最近邻真实图像的可视化。对于每个类，单个黑框图像来自原始数据集，并用作生成新示例的种子。彩色帧图像对应于特征空间中的超分辨率示例的最近邻真实图像。最佳的彩色观看与缩放。图6：两个新类别的分类结果的可视化（顶行：阿拉斯加雪橇犬;底行：混合碗）以及我们的DMAS幻觉器和普通幻觉器之间的比较[70]。左侧框示出了通过两种方法正确分类的图像中间的块显示了被[70]错误分类为其他类的图像（预测的类名覆盖在图像上），但通过我们的方法正确分类右边的块显示了来自其他类别的图像，这些图像被[70]错误分类为目标类别，但被我们的方法正确分类在这些示例中，我们的分类器能够识别具有不同姿势和视点的对象，而[70]无法区分相似的类别。战略）作为国家的最先进的方法[34，41，82]。在所有情况下，DMAS都可以无缝地结合到这些方法中（表示为1.一、当与MetaOptNet [34]和1. 在具有挑战性的单次拍摄设置下，与S2M2 [41]结合时，改善5%与普通的幻觉者相比。表4还显示，对于不同类型的模型，DMAS始终优于普通的幻觉器[70]（表2已经显示了ProtoNet和余弦分类器）。更重要的是，这些结果表明，虽然DMAS是通用的，但[70]不是不同少数模型的通用模块。对于更复杂的模型（S2M2和DeepEMD），仅使用[70]中的分类损失不足以调整幻觉器以产生有效样本。这进一步验证了外在监督和内在监督的重要性可视化。为了进一步了解我们的模型如何帮助学习分类器和改进幻觉器，我们在ImageNet1K上进行了可视化。我们首先在图4中可视化两个决策边界的演变通过削弱学生使用t-SNE [67]的渐进式指导期间的新课程然后，我们在图5中可视化像素空间中的幻觉示例，使用特征空间中的最近邻真实图像最后在图6中，我们将我们的方法与最先进的元学习幻觉器[70]进行了比较，并表明我们的方法能够识别大范围的视觉变化。6. 结论我们提出了一种方法，少数镜头分类，使用双导师和自我导向的幻觉生成额外的例子。这是通过利用两个重要的自然监督信号来实现的，这两个重要的自然监督信号以最大程度地提高分类性能的方式促进数据分割，并且通过元学习进行端到端的我们的幻觉器可以作为一个即插即用模块插入到不同的分类模型中。广泛的实验证明了我们在各种场景下对广泛基准化的少数镜头数据集鸣谢：这项工作得到了ONR MURI N 000014 -16-1-2007的部分支持， AFRL Grant FA23861714660，关于NSF Grant2106825. 我们还要感谢AWS Cloud Credits

下载后可阅读完整内容，剩余1页未读，立即下载