基于伙伴辅助学习的少镜头图像分类

104 浏览量更新于2023-09-28 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10573基于伙伴辅助学习的少镜头图像分类Jiawei Ma†，1Hanchen Xie†，2Guangxing Han1Shih-Fu Chang1Aram Galstyan2Wael Abd-Almageed21哥伦比亚大学2南加州大学信息科学研究所{jiawei.m，gh2561，sc250} @ columbia.edu，{hanchenx，galstyan，wamageed} @ isi.edu摘要已经研究了少量学习来模仿人类视觉能力并学习有效的模型，而不需要详尽的人类注释。尽管适应性元学习的思想已经主导了少量学习方法，但如何训练特征提取器仍然是一个挑战。在本文中，我们专注于设计的训练策略，以获得一个元素的表示，每个新的类的原型，可以估计从一些标记的样本。我们提出了一个两阶段的训练计划，合作伙伴辅助学习（PAL），首先训练一个合作伙伴编码器模型成对的相似性和提取功能作为软锚，然后训练一个主编码器对齐其输出与软锚，同时试图最大限度地提高分类性能。分别从逻辑级和特征级设计了两个对齐约束对于每一个少数镜头的任务，我们per-form原型分类。我们的方法在四个基准上始终优于最先进的方法。提供了PAL的详细消融研究，以证明训练中涉及的每个组件的选择是1. 介绍深度学习在许多视觉任务中取得了令人印象深刻的成功，例如图像分类[21，38，17]，对象检测[36，34，37]和图像分割[26，3，16]，特别是当有足够的标记数据可用于训练时。然而，数据注释可能是昂贵的，并且大规模注释数据并不总是可用的[13，24，43，49]。已经提出了少镜头学习来模仿人类视觉系统，其能够仅用几个镜头（例如，1或5）实例[24，46]。为了便于快速模型自适应的少拍学习，元学习已被用于在训练期间模拟少拍任务，通过设计用于自适应的最佳算法[10，30]或学习†同等贡献。车辆狗(a)原型分类鱼(b)判别紧131322(c)合作伙伴辅助学习[我们的]软锚（随机抽样）硬锚（权重向量）PartnerEncoderP（“）主编码器M（“）训练：训练P“fixP（“）和训练��M（“）测试：使用CARM（“）进行原型分类图1：（a）原型分类计算几个镜头的原型，并通过比较其与每个原型的相似性来分类样本。(b)具有紧凑聚类的区别性特征分布有利于原型分类[47，25]。（c）我们提出了伙伴辅助学习框架，其中预训练的伙伴编码器fP用于生成软锚以正则化将在推理时间使用的主编码器fM使用共享特征空间进行基于原型的分类[41，31，23]。如图1（a）中，原型分类方法[6，8，41，45]通过平均几个标记样本的特征来估计几个拍摄原型（即，支持）。新样本（即，查询）通过使用最近邻域搜索比较其与所有原型的余弦相似性来分类。如示于图1（b），在分类上下文中，特征分布被假设为（1）在每个簇内是紧凑的（即，支持高的类内相似性），以及（2）聚类之间的区分性（即，支持大的类间距离）。最近的工作表明，在具有完全监督的大规模（基础）数据集上预训练模型可以作为新的少数任务的强基线[6]。10574ing原型分类[6，8，41，45]。对于每个基类，使用类标签[45，6]的传统全监督预训练学习一个唯一的权重向量，该向量用作硬锚。通过最小化关于（w.r.t.）类标签，每个图像特征被推向其对应的类锚。因此，对于每个类别，期望特征的平均值在少数镜头分类期间表示类别。在用于分类的基本类上预训练的特征提取器可以抑制与基本域无关的细节[4]，而这些细节对于新类可以是有区别的。因此，结合实例比较以保留细节可以促进对新领域的少量学习知识蒸馏制定了教师-学生设置，并比较了同一图像的两个模型的输出[45]。对于每个图像，教师模型生成软标签以模拟不同类之间的接近度。通过比较教师模型和学生模型的输出，使用软标签训练学生模型，从而可以保留更多表示类关系的细节因此，学生模型在少量任务上实现了更高的准确性。尽管知识蒸馏取得了成功，但由于教师模型曾经根据基类的硬锚进行过严格除了使用余弦相似性比较来自两个网络的相同实例的输出之外，还可以训练单个网络进行成对比较，以便其一些随机选择的支持样本的输出可以动态地表示类中心[41]。基于度量的元学习方法，例如原型网络[41]，已经被提出来学习通过聚合支持特征来表示类。这样，根据一些标记的数据动态地估计代表性中心。类似地，监督对比学习[19]执行成对比较，其中每个特征都是从训练集中采样的，并且单独表示没有聚合的类。受原型学习和有监督对比学习中的动态和个体代表性的启发，为了提高特征提取器的泛化能力，我们提出提取可用于动态表示类的特征，并将这些特征设置为软锚来正则化用硬锚训练的特征提取器。与知识提取方法相比，该方法不是针对已经优化过的特征提取器，而是利用基域上的不同特征，从头开始在交叉熵损失下对一个新的特征提取器进行正则化本文的贡献如下：• 我们提出了伙伴辅助学习（PAL）：一个框架，在少数镜头分类设置的表示学习，其中伙伴编码器和主编码器被顺序地训练，使得来自伙伴编码器的特征被用作软锚以从头开始规则化主编码器的训练。• 我们提出了两种对齐方法的特征级和logit级，利用软锚的正则化训练过程中的类标签。• 我们表明，PAL始终达到国家的最先进的性能在四个少数拍摄基准，并提高了监督学习设置中的分类精度。我们还提供全面的消融研究，以证明每个组件的设计。2. 相关工作原型分类已广泛用于基于度量的方法中以用于少数镜头分类。原型网络[41]在元训练期间使用情节模拟少量任务。在每一集中，随机抽取少量标记的训练样本，然后通过对提取的特征进行平均来估计类原型。通过对查询特征进行分类来评估估计类原型的质量类似地，由监督对比损失（SupCT）[19]训练的模型学习最大化同一类的所有实例之间的相似性，以便将所有实例聚类在一起，并且每个类可以由该类的每个实例特征表示。此外，元学习的概念也被用来通过学习缩放度量或为原型分类添加余量来估计任务自适应度量，这在少数任务上显示出明显的优势[31，23，14，15]。最近，使用全监督分类任务预训练的网络[6]已被视为少数分类的强每个类的唯一原型通过类标签学习，即one-hot向量，用于表示类别之间的区分。此外，RFS [45]显示了使用基于交叉熵损失训练的传统网络的软标签知识蒸馏的进一步改进交叉熵（CE）损失的正则化。CE损失[29]由于其简单性而广泛用于全监督任务，其中它在高维表示空间中学习分类超平面。可以通过设置大的margin来添加正则化以鼓励类内紧凑性[25]。已经引入了各种损失函数，例如中心损失[48]，L-GM损失[47]和环损失[53]，以强调潜在空间中的某些嵌入分布。在人脸识别中，三重丢失[40]已被广泛使用，其中通过采样正对和负对作为锚来构建图像三重。网络之间的知识转移：知识蒸馏[18]已经被提出来执行单向知识转移，它使用强大的教师模型来训练相同任务的简单学生模型。知识蒸馏的其他工作也显示了半-10575D∈I <${}I<$I\{}D ∈IDLDDCDDLLLLLI{}≤I{− }∈ILDLD监督学习[44，5]。强教师模型使用独热向量进行预训练，然后为学生模型生成软标签。虽然教师模型可以作为强基线，但大的负对数可能会损害蒸馏过程，并且需要通过修改Softmax操作来平滑这种对数[18]。相反，相互学习[52]研究双向知识共享，其中两个网络从零开始以相同的目标联合训练单向和双向知识转移都证明了学习比单个网络更好的表示的能力通过对每个图像执行两个单独的增强来生成2B个D=Concat（ Aug（Draw）， Aug（Draw）），（1）其中Aug指示随机变换图像的数据增强函数组。对于每个图像（i），其中i 1…2B，正索引集pos（i）i被选择，使得j个位置（i）的所有图像（j）与（i）属于同一类。然后，监督对比损失被定义为LSupCT （D）=Σ−1ΣΘ（i，j）（2）3. 伙伴辅助学习在本节中，我们将介绍建议的合作伙伴辅助i∈I| I位置（i）|j∈Ipos（i）exp（zfP，D（i）·zfP， D（j）/τ）学习（PAL）学习嵌入函数。作为插图-图中2、PAL由伙伴编码器和主编码器组成Θ（i，j）=logΣa∈Iexp（zfP、D（i）·zfP，D（a）/τ）第3.1节中定义了任务制定和符号。合作伙伴编码器的目标如第3.2节所示。在第3.3节中讨论了对主编码器施加对准约束的框架。3.1. 学习任务制定在少次学习中，我们首先给出一个基本数据集Dbase，它由大量的标记样本组成。Dbase中的所有示例标签都属于基类集其中，表示在I2归一化之后由伙伴编码器fP提取的图像X的特征，并且τ是用于重新缩放亲和度分数的温度超参数。最小化SupCT（）训练模型以最大化相同类别（正对）的特征之间的相似性，同时推开来自不同类别（负对）的特征。根据等式（2），如[19]中所述，正对中的两个特征之间的不一致是由图像实例之间的变化引起的，并且不同-这是由数据增强引起的。C碱基。然后，我们给出一个小说集D小说，其中对每个情节Depi进行采样。Dnovel中的所有样本标签作为替代trasive损失SupCT 无监督的骗局是来自小说类集合C小说，其中类集合为基础和新颖是不相交的，即， Cbase∩ Cnovel=. 每个事件Depi=（DS，DQ）由用于原型估计的支持集DS和用于评估的查询集DQ组成。对于N向K-shot任务，一个片段中的DS ∪DQ包含从novel中抽取的N个novel类，S包含每个类的K个标记样本.如示于图在图2中，base首先用于训练伙伴编码器fP以生成软锚。然后，fP是固定的，并且base用于训练主编码器fM，其通过PAL框架下来自fP的在少数镜头评估期间，类似于[45，6]，我们直接使用预训练的fM来估计每个类使用DS和分类测试样本在DQ。3.2. 合作伙伴编码器使用监督对比学习（SupCT）来训练伙伴编码器fP以进行聚类并在所有特征实例之间执行同一类的特征被推到一起，而来自不同类的特征被推开。监督对比学习的细节如下所示。有监督的对比学习：给定一批Draw对于B图像，即， |D原料|= B，一个增广批处理，其中CT（）与以下公式相同SupCT（），同时排除类标签的语义信息。然后，针对每个i的正索引集合是pos（i）=I+B因为我B和pos（i）=我B对于i> B，即，正对中的两个特征之间的不一致仅由穷举增强引起在PAL中，我们使用SupCT来训练伙伴编码器。CT用作消融研究SupCT由于SupCT对正对中的特征之间的实例级相似性进行建模，并推开不同类别的特征，如我们在第4.3节中的实验所示，在所考虑的备选变体中，从SupCT训练的Partner Encoder中提取的特征有助于训练主编码器的最大值。3.3. 主要编码器在本节中，我们首先回顾在知识蒸馏中引入的软标签，然后在主编码器训练期间引入由Partner编码器3.3.1知识蒸馏初步如[45]中所讨论的，教师模型提供了软标签，描述了一些类彼此相对接近的事实。软标签p∈ R |C碱基|计算出L10576LLE∈RΣΣΣL−(a) 合作伙伴编码器培训（b）主编码器培训正对P（#）（固定）特征级)P 数量逻辑电平2012年3月（#）锚P（#）合作伙伴编码器)P(#)样品鱼狗样品（固定）+吃（#）4567t负对(#))/2012年3月（#）$8取样批次Su#$T主要图2：合作伙伴辅助学习的培训管道。(a)通过监督对比学习SupCT训练伙伴编码器fP，以对所有特征之间的成对相似性建模。（b）通过使用预训练的fP施加对数级或特征级对准来训练主编码器fM。fP和fM都使用ResNet-12[17]，每个灰色块表示一个全连接层。输出logits v| C 碱基 | 通过 softmax 运算，p =Softmax（v/τ），其中温度τ可以缩放logits，并且较高的τ产生较软的概率分布。基础类之上的操作。除了学生模型上的交叉熵损失之外，KL-散度KL被用作教师-学生设置中的知识蒸馏的目标，并且被定义为建议使用由Partner Encoder提取的特征作为软锚，用于提供对齐正则化。为了约束分类器的logit值，我们首先将分类器设计为特征表示与类权重向量之间的余弦相似度函数。然后，除了最小化每个样本的交叉熵损失外，我们还使用Partner Encoder的特性来正则化Main Encoder并在任一logit级别LKL（pt，x||ps，x）=的c∈| C碱基|pt，x（c）logpt，x（c）ps，x（c）（三）或特征级对准。=c ∈| C碱基|pt，x（c）logpt，x（c）−c∈| C碱基|pt，x（c）logps，x（c）3.3.2Logit-Level对齐在知识提炼期间，给定=−H（pt，x）+H（pt，x，ps，x），其中pt，x和ps，x是教师模型和学生模型对同一图像x最小化KL将最小化教师软标签和学生预测之间的交叉熵H（pt，x，ps，x）当教师也被训练时，其输出H（pt，x）的负熵被最小化。因为教师模型是预先训练好要努力学习的-锚定分类，然后通过单个线性映射预测logits，logits输出没有很好地约束，并且存在具有大绝对值的负logits[18]。如[18]中的实验所示，在学生模型训练期间，必须为学生预测和软标签之间的交叉熵H（pt，x，ps，x）设置高温，以便可以减轻教师模型的大负logits的影响，并且学生模型可以更好地工作。不是首先训练一个曾经被严格优化为硬锚的模型，然后设置一个高温度以减少大的负对数的影响，而是在从头开始训练具有类标签的主编码器时，我们目标类，我们计算亲和度得分作为查询特征和每个基本候选类的训练有素的类权重向量之间的点积。然后可以使用亲和度分数来描述所有类之间的关系。如果对应的亲和度分数高，则候选类接近目标类。类似地，我们使用所有类权重向量与经过良好训练的查询特征之间的余弦相似度来生成软标签，然后最小化交叉熵。Llogit=H（pp，x'，pm，x），在由伙伴编码器生成的软标签pp，x’与来自主编码器的预测pm，x之间的预测p m，x，而图像x’和x属于同一类。由于Partner Encoder已经通过最大化所有正对中的特征之间的余弦相似性进行了良好的聚类训练，因此我们修复了伙伴编码器，然后提取特征作为软锚。由于主编码器也是通过最大化查询特征和类权重向量之间的余弦相似性来训练的，因此我们假设合作伙伴和主编码器的特征共享共同的特征空间。因此，在本发明中，共享10577D| D|LP、D和M（一）∈{|D=D（i）LLLL|}（a）苏丹$%C&5个基类样本的可视化(b)CE5个新类别样本的可视化（c）CE(d)L图3：使用通过（a）监督对比损失LSupCT和（b）交叉熵损失LCE训练的模型对五个基类进行可视化，以及使用通过（c）LCE和（d）PAL学习的模型对五个新类进行可视化（我们的方法）。(a)LSupCT用于使用类别标签对所有特征进行聚类，并且每个聚类中的特征可以用作软锚，而（b）LCE训练网络以学习用于分类的硬锚。与LCE的分布相比，（d）PAL在新类上的特征分布有利于原型分类。更多的可视化可以在supp.材料我们将来自伙伴编码器的特征馈送到共享分类器中并计算pp，x′。在实现方面，Partner Encoder共享Main Encoder的分类器，以生成余弦相似度作为logits。由于类权重向量在训练前是随机初始化的，因此我们采用了预热策略并损失，我们对特征级对齐进行成对比较给定由主编码器提取的M个特征组成的批次M，对于由i∈I索引的每个特征实例，M={1…|}，根据类别标签，一组|},acco r d i ngtoclasslabels,asetof位置特征DP、DM⑴和位置特征DP-、DM⑴由Partner Encoder从池中随机采样，随着损失的收敛和类权重向量的逐渐学习，将logit的权重使得D+DM（i）和DP−，D和我们的（i）属于不同类别对于每一个班级。值得注意的是，我们的logit水平约束不同于知识蒸馏，并且不会最小化从MDM（i）.然后，我们将特征级约束定义为伙伴编码器的负熵。自合作伙伴成立L（D））=Σ−1ΣΘ（i，j），编码器没有经过训练来学习硬锚，从而最小化了不需要伙伴编码器的负熵。平均值-同时，如表5中的消融研究所示，feat Mi∈IM |DP,DM(i)|J一...... +的P、D和M（一）（四）由于分类器在开始时被随机初始化，与我们提出的逻辑级对齐（Row）相比，exp（DM（i）·D+（j）/τ）2最小化p，p，x’（行3）的负熵将混淆共享分类器并且对两者都具有负面影响。Θ（i，j）=logΣa∈IP，DM（i）exp（DM（i）DP、D和M（一）、（a）/τ）分类器和主编码器。其中DP，DM+P、D和M（一）∪DP−，DM（i），和IP，DM（i）=3.3.3要素级对齐特征级对齐是通过由伙伴和主编码器提取的特征之间的成对比较来实现的。如第3.3.1节所述，主编码器使用基于余弦相似性的分类器进行训练，以生成logits，并且logits值的范围是有界的。等效地，学习这样的分类器有效地学习每个类的唯一锚点，并且每个特征都被训练以最大化与其对应的类锚点的余弦相似度。在具有SupCT的伙伴编码器的训练过程期间，属于同一类的特征被聚类在一起并且与其他类的特征分离。因此，基础类别的聚类可以被认为是池，并且每个特征可以被认为是用于比对的软锚。对于每幅图像，除了提供类别标签的监督分类信号之外，还提供了分类信号的子集。从池中取样软锚。具体来说，类似于监督对比中的想法{1…|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}|}.3.3.4主编码器培训总之，除了每个样本的交叉熵损失CE=H（1y（x），pm，x）（其中1y（x）表示类别标签的独热向量）之外，我们在主编码器的最终训练目标中包括对数级和特征级比对，而用于提取软锚的伙伴编码器是固定的。在实践中，我们发现使用logit或feat在正则化主编码器方面提供了明显的好处，而将两者相加则会产生最佳性能。4. 实验评价我们在四个基准数据集上评估了PAL，以证明其稳健性： miniImagenet [46] 、 tieredImagenet [35] 、CIFAR-FS [2]和FC100 [31]。结果示于表1和表2中。详细消融研究在第4.3节中讨论。P、D和M（一）10578表1：miniImageNet和tieredImageNet数据集上的PAL结果†：在Train+Val集合上生成结果算法骨干miniImageNet，5向tieredImageNet，5向单次拍摄5次射击单次拍摄5次射击MAML [10][27]第27话我的世界AdaResNet [28]TADAM [31]免费射击[33]TEWAM [32]MTL [42][51]第五十一话[22]第二十二话[39]第三十九话：我的世界多元与合作[9]相关对齐[1]AdaMargin [23]DeepEMD [50]马巴斯[20]RFS-simple [45][45]第四十五话32-32-32-3264-64-64-64ResNet-12ResNet-12ResNet-12ResNet-12ResNet-12ResNet-12WRN-28-10 WRN-28-10ResNet-18ResNet-18ResNet-12ResNet-12ResNet-12ResNet-12ResNet-12四十八70±1。84四十九42±0。7855. 71 ±0。99五十六88±0。62五十八50±0。30五十九04±n/a六十岁。07±n/a61。20±1 。806123±0 。 2662.64±0 。615773±0 。 62 61.76± 0 。 0859.48±0 。 655988±0 。676710±0 。 52 65.91± 0 。 826508± 0. 8662. 02± 0.63六十四 82±0。6063岁11 ±0。9268岁20 ±0。6668岁88 ±0。92七十一94±0。57七十六。70±0。30七十七。64±n/a75.90±n/a75.50±0 。807769±0 。 177863± 0 。四六七八17±0 。 49 77.59±0 。127562±0 。 48 80.35± 0 。七三七九54±0。608241± 0 。568270±0 。 54 79.64± 0。4482岁14 ±0。4351岁67 ±1。81五十三31±0。89---63岁52±n/a---六十五99±0。7266岁。58 ±0。7066岁。33 ±0。05-69岁。29 ±0。56-七十一16±0。87-69岁。74 ±0。72七十一52±0。69七十30 ±1。75七十二69±0。74---82岁59±n/a---81. 56 ±0。53八十五55±0。4881. 44 ±0。09-八十五97±0。49-86岁。03 ±0.58-84. 41 ±0。5586岁。03 ±0.49PAL（我们的）ResNet-1269岁。37±0。6484. 40± 0。44七十二25±0。7286岁。95±0。474.1. 基准数据集培训设置来自ImageNet [7]的数据集：miniImageNet [46，12]和tieredImageNet [35]。MiniImageNet [46]包含100个类，（训练，少量验证，少量测试）的类划分为（64，16，20）。每个基本类有600个图像用于训练，300个图像用于全监督分类评估[12]。TieredImageNet [35]包含608个类，类分裂（351，97，160）和来自基础数据集的大约450K图像用于网络训练。所有图像两组的尺寸为84×84。来自CIFAR 100的数据集：CIFAR-FS [2]和FC 100[31]。CIFAR-FS [2]包含100个类类分裂为（64，16，20）。FC100 [31]包含100个类，类拆分为（60，20，20）。每个类有600个图像，两组的所有图像都是32×32。层次类结构，即一些叶类可以被研磨在一起成为粗略的类，被考虑用于TieredImageNet和FC100的类分割。同一粗集下的叶类具有更强的语义相关性。由于基本类集合和新类集合之间不存在粗类的重叠，因此从基本类集合到新类集合的自适应将更具挑战性。培训设置：在所有基准数据集上，我们使用ResNet12[17]作为使用随机梯度下降（SGD）优化的主干运行实验。我们使用0.03的初始学习率，衰减因子为1010579LL在第 60 个时期，并训练 90 个时期。在 Mini-ImageNet 、 CIFAR-FS 和FC 100 上，批量大小为64，在tiered-ImageNet上为400。SupCT中的温度缩放因子τ（等式（2））和feat（Eq.（4））在ImageNet衍生数据集上为0.5，在CIFAR衍生数据集上为0.1我们采用SupCT [19]中使用的数据增强方法，并包括图像旋转预测以减少偏差[11]。对于每个数据集，伙伴编码器和主编码器的超参数设置相同。4.2. 与最新技术水平的我们比较PAL的性能与国家的最先进的（SOTA）的方法。文献[31]采用了多任务训练的思想，在训练过程中将分类任务和5向少镜头任务类似地，首先通过预训练获得强基线，然后使用迁移学习的想法来执行硬任务[42]或通过微调[8]的训练。最近，知识蒸馏已经由[45]实现，并且明显提高了少数任务的性能。尽管之前的工作取得了成功，PAL优于SOTA方法在所有四个基准数据集在1-shot和5-shot的情况下，这证明了所提出的PAL学习方案的优点，其中我们训练伙伴编码器和主编码器在不同的目标和目的约束下，通过逻辑级对齐和特征级对齐。此外，AdaMargin [23]引入了外部10580LLL L → LL参与LL → L L → LLLLLLLLL → L1-镜头5-镜头表2：CIFAR-FS和FC 100数据集上的PAL结果算法骨干CIFAR-FS，5路FC100，5路单次拍摄5次射击单次拍摄5次射击MAML [10]32-32-32-32五十八9±1。9七十一5±1。0-三十五3±0。6--四十1 ±0。4--三十七5±0。6-41岁1 ±0。6四十五8±0。5四十六岁。5 ±0。8四十二3±0。8四十二6±0。744. 6 ±0。7-四十八6±0。6--五十六1±0。4--52岁5 ±0。6-55. 5 ±0。6五十九7±0。663岁2 ±0。7五十七6±0。8五十九1±0。6六十岁。9±0。6[41]第四十一话64-64-64-6455. 5 ±0。7七十二0±0。6联系网络[43]64-96-128-25655. 0 ±1。069岁。3±0。8R2D2 [2]96-192-384-512六十五3±0。279岁。4±0. 1TADAM [31]ResNet-12--免费射击[33]ResNet-1269岁。2±n/a84. 7±n/aTEWAM [32]ResNet-12七十4±n/a81. 3±n/a[41]第四十一话ResNet-12七十二2±0。783岁5 ±0。5提升[11]WRN-28-10七十三。6±0。386岁。0±0。2[22]第二十二话ResNet-12七十二6±0。784. 3 ±0。5相关对齐[1]ResNet-18--DeepEMD [50]ResNet-12--马巴斯[20]ResNet-12七十三。5±0。9八十五5±0。7RFS-simple [45]ResNet-12七十一5±0。886岁。0±0。5[45]第四十五话ResNet-12七十三。9±0。886岁。9±0。5PAL（我们的）ResNet-12七十七。1± 0。788岁0 ±0。5四十七2 ±0。6六十四0 ±0。6结构化语义知识来建模类之间的关系，并元学习判别特征空间。然而，我们的方法仍然取得了更好的结果，在少数镜头的任务。此外，通过比较 mini-ImageNet和tieredImagenet之间以及CIFAR-FS和FC 100之间的性能提升，我们注意到PAL4.3. 讨论伙伴辅助学习涉及训练期间的监督对比损失和交叉熵损失。从伙伴编码器fP到主编码器fM的清晰单向通过将fP的特征采样为软锚来设置，以辅助除了类别标签之外的fM的训练。为此，我们通过（1）改变两种目标类型的整合方向和（2）改变伙伴编码器训练的目标来我们还研究了（3）不同对齐损失的影响，这与知识蒸馏进行了比较。目标整合：PAL使用SupCT来预训练fP以提取软锚，然后使用软锚来正则化由CE训练的fM，即，SupCTCE.我们通过改变积分方向来研究变量，并具有• 单向CE SupCT、SupCT CE、• 互学SupCTCE：同时从头开始训练两个网络，并使用CE下的模型进行评估，• 在一个网络上进行多任务学习：LSupCT+ LCE，表3：mini-ImageNet对组合两个目标的不同训练方案的性能的消融研究。我们的方法在少数镜头分类上效果最好。列车方案5路少射基地第六十三章. 七六八十一17809062. honeymoon 2976。32例不适用67.第67章大结局5382. 148320L SupCTL CE65.2181538013LCE→ LSupCT66。548183803969.第69章我是你的3784408298* 单目标LSupCT不训练基本分类器。• 单一目标培训：CE， SupCT如表3所示，我们观察到使用PAL（SupCTCE）训练的网络在新类别的少量分类上具有明显的边缘，从而最好地在基类测试样本上，PAL继续实现高的前1准确度，其非常接近多任务学习的最佳分数，使用（SupCT+ CE）训练的模型，并且PAL明显优于其余方法。同时，与两种单目标方法相比，即使SupCT训练的模型不如CE训练的模型那么强，但它仍然可以10581用于规则化CE下的训练并提高性能。通过评价主编码器的性能，研究了伙伴编码器对主编码器的影响，即，基于基本测试数据的少量任务和常规分类任务的准确性。我们选择由以下人员培训的合作伙伴编码LCE、LCT和LSupCT进行比较。 Lfeat和Llogit用于所有三种方法以进行公平比较。10582LLLLLLLL如表4中所示，对准损失一致地在少数发射任务上引入性能改进。表4：mini-ImageNet对受不同伙伴编码器影响的主编码器性能的消融研究。我们的方法（LSupCT → LCE ）继续实现LSupCT对主编码器的训练最为有利。在少数镜头和全监督下的最佳表现任务由于LCT不利用类标签信息fP损失5路少射1-镜头5-镜头在训练过程中，提取的软锚不像其它两种方法那样具有区分性，并且性能改进有限。同时，如果在CE下训练主编码器和伙伴编码器两者，则主要通过硬锚来学习特征。因此，知识是相似的两个网络和性能的改善是有限的。相比之下，监督对比度损失包括所有特征之间的标签信息和成对相似性比较，使得它可以保留更多细节以便于主编码器的训练。对齐与知识蒸馏：虽然基于知识蒸馏的师生模型可以训练出一个好的特征提取器来进行小样本原型分类，但是一个好的教师是训练学生的关键前提。如第3.3.1节中所讨论的，如果教师模型也在蒸馏期间被调谐，则教师模型的负为此，如表5所示，我们通过应用各种组合来定量研究feat和logit两者的有效性。我们还比较了师生情境下的表现，并将KL-散度设为logit水平损失。通过比较第1、2、4、5行，使用feat或logit可以正则化fM的训练，并明显提高少数任务和完全监督任务的性能。仅使用专长甚至可以胜过多任务训练（表3中的行3）。同时，将这两个损失相加可以在少数拍摄任务中获得最佳分数。通过比较行2、3或行5、6，最小化来自fP的输出的负熵对fM的训练具有负面影响。由于fP被预训练以执行成对比较，因此所有特征和所有特征聚类之间的距离已经被建模。由于fP未被训练来进行分类，因此可以保留与基本域上的分类无关的细节。因此，最小化fP的负熵可以使得fP的概率输出对实例级距离不太敏感，并且然后嵌入具有更多不确定性的软锚。即使部分编码器（在SupCT下训练）在少量任务中不如教师模型（在CE下训练）那么强，它也可以提供有意义的软锚以辅助我们提出的PAL框架中的主编码器的训练。PAL与相互学习：相互学习在相同任务[ 52 ]或不同任务下从头开始共同训练两个对等网络（表3中的第4行）。应用概率分布输出之间的对齐[52]。即使两个网络被期望在不同的方向上学习，优化方向仍然是相同的。-63岁76± 0。62 8117± 0。458090L CT→ L CE65。89± 0。678084±0。4880. 66L CE→ L CE66。95± 0。六十五八十一54± 0。4881. 45LSupCT→ LCE69。37± 0。六十四八十四40± 0。4482 98表5：在mini-ImageNet上对对齐损失的消融研究。特征级和logit级损失都有助于主编码器的一致训练对准损失5路少拍基地特征logit1发5发- --L罗吉特-LKLLfeat-LfeatLlogitLfeatLKL63岁76± 0。62 8117 ±0。4566岁。35± 0。638132 ±0。46六十四76± 0。628058 ±0。4768岁03± 0. 638338 ±0。4469岁。37 ± 0。6484. 40± 0。4468岁75± 0。62 8283 ±0。45八十9082岁5081. 9883岁9482岁9883岁40在这样的框架中没有明确建模。相比之下，我们的方法将Partner Encoder提取的特征设置为软锚来模拟正对和负对的距离，然后通过对齐来训练Main Encoder5. 结论在本文中，我们提出了合作伙伴辅助学习（PAL），以获得一个必要的特征提取少拍分类。我们用监督对比学习预训练伙伴编码器以获得软锚。然后，我们修复伙伴模型并在特征级或logit级施加约束，以在寻求分类时从头开始训练主编码器。使用主模型，新类别（少数镜头）和基类（大规模）的分类精度都得到了提高。进行详细的消融研究以比较PAL的潜在变体，并且我们的方法在少量任务上明显优于所有变体。四个基准测试的实验证明了我们的方法的有效性。确认本材料基于空军研究实验室（AFRL）赞助的研究，协议编号为FA 8750 -19- 1-1000。美国政府被授权为政府目的复制和分发重印本，尽管其中有任何版权注释。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表空军实验室、DARPA或美国国防部的官方政策或认可（无论是明示还是暗示）。美国政府的基地10583引用[1] ArmanAfrasiyabi，Jean-FrancoisLalonde，andChristianGagn e´. 用于拍摄图像分类的关联对准在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm，编辑，计算机视觉施普林格国际出版社。六、七[2] 放大图片作者：Luca Bertinetto，Joao F.亨里克斯，菲利普·托尔，安德里亚·维达尔迪.使用可微封闭形式求解器的元学习。在2019年的学习代表国际会议上。五、六、七[3] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（4）：834-848，2018。1[4] 陈龙，张汉旺，肖军，刘伟，张世福.使用语义保持对抗嵌入网络的零射击视觉识别。在IEEE计算机视觉和模式识别会议论文集，第1043-1052页2[5] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。3[6] Yinbo Chen ， Xiaolong Wang ， Zhuang Liu ， HuijuanXu，and Trevor Darrell.一个新的元基线为少镜头学习。arXiv预印本arXiv：2003.04390，2020。一、二、三[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[8] GuneetSDhillon ， PratikChaudhari ， AvinashRavichandran，and Stefano Soatto.少数拍摄图像分类的基线。arXiv预印本arXiv：1909.02729，2019。一、二、六[9] 尼基塔·德沃尔尼克，科迪莉亚·施密德，朱利安·麦拉尔.多样性与合作：用于少数镜头分类的集成方法。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。6[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv预印本arXiv：1703.03400，2017。一、六、七[11] Spyros Gidaris ， Andrei Bursuc ， Nikos Komodakis ，Patrick P e'rez，andMatthieuCord. 通过自我监督促进快速视觉

下载后可阅读完整内容，剩余1页未读，立即下载