半监督少样本迁移学习方案：TransMatch方法的应用与评估

5 浏览量更新于2023-10-23 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12856TransMatch：一种半监督少样本学习的迁移学习方案Zhongjie YuYu 1，Lin Chen<$2，Zhongwei Cheng2，andJiebo Luo31威斯康星大学2未来微科技3罗切斯特大学摘要深度学习在许多视觉识别任务中的成功应用在很大程度上依赖于大量标记数据的可用性，而这些数据的获取通常是昂贵的。小样本学习问题因其能在少量标记样本上建立鲁棒模型而受到越来越多的关注。大多数的实验室在元学习框架下通过模仿具有情景训练策略的少量学习任务在本文中，我们提出了一个新的迁移学习框架的半监督少镜头学习，充分利用辅助信息，从标记的基本类数据和未标记的新类数据。该框架由三个部分组成：1）在基本类数据上预训练特征提取器; 2）使用特征提取器来初始化新类别的分类器权重;以及3）用半监督学习方法进一步更新模型。在该框架下，我们提出了一种新的半监督少镜头学习方法，称为TransMatch，通过使用Imprinting和MixMatch实例化这三个组件。在CUB-200-2011和miniImageNet两个小样本学习基准数据集上的实验表明，该方法能够有效地利用标记的基本类数据和未标记的新类数据中的辅助信息，显著提高小样本学习任务的准确性.1. 介绍深度学习方法在人工智能的不同领域取得了令人印象深刻的进展，这篇文章是钟杰在Futurewei Technology- nologies实习期间完成的。†通讯作者：林晨。电子邮件地址：gggchenlin@gmail.com分年然而，大多数流行的深度学习方法都需要大量的标记数据，收集这些数据通常非常昂贵和耗时。直接采用具有有限数量标记数据的深度学习方法通常会导致过拟合。因此，是否能够仅从有限数量的标记数据中学习稳健模型的问题出现了众所周知，人类具有从单个或非常少的标记样本中学习的能力。这激发了最近的研究努力学习一个新的概念，从一个或几个例子，即。少拍学习。在过去的几年里，越来越多的小样本学习方法被提出.一个工作家族专注于在基于情景训练策略的元学习框架下训练模型特别地，随机采样一系列片段，其中每个片段由基本类中的几个样本组成，以模拟测试场景，其中只有几个新类的标记样本可用。每一集的标记样本分为支持集和查询集，支持集用于构造分类器，查询集用于评价。与此同时，另一系列工作集中在如何通过从基类的大量数据上预先训练的模型中转移知识来学习只有少量示例的新类的分类器[16，17]。这种范式与人类行为相似，通过将过去的经验转移到新的任务中。我们将这类方法称为基于迁移学习的方法。我们的方法受到后一系列工作的启发，旨在借助来自基类的丰富数据和来自新类的辅助未标记数据的预训练分类器，为少量样本的我们认为充分和适当地利用额外信息是成功应用少镜头的关键12857图1.基于元学习的半监督少镜头分类框架综述。在训练过程中需要未标记的图像，以允许元学习者学习如何利用未标记的图像进行分类。学习这种额外的信息可以以各种形式存在，而在这项工作中，我们专注于利用额外的信息，从标记的基类数据和未标记的新类数据。这两种类型的信息通常很容易获得。许多现有的用于视觉识别任务的大规模数据集可以用于预训练模型，该模型可以稍后被转移到新任务。同时，它也是相对容易获得大量的未标记的数据为一个新的任务。因此，最近出现了一种称为半监督少次学习的新范式。半监督少次学习的代表性工作[19]采用了元学习框架，并增强了原型网络[22]以使用未标记的数据。在元训练期间的每个事件中，包括基础类的未标记数据以模拟测试场景，其中新类的未标记数据可用。 Liu等人[11]提出了转换传播，将流行的标签传播方法用于在情节训练中使用未标记的数据。这些工作表明，考虑未标记的数据有助于提高元学习框架下的少镜头分类的准确性。在本文中，我们提出了一个新的框架，半监督少镜头学习，充分利用辅助信息，从标记的基本类数据和未标记的新类数据。我们提出的框架的流程图如图所示。2，由三个部分组成。我们首先使用来自基类的大量标记数据训练模型，将来自基类数据的知识编码到预训练模型中。然后，采用此预训练模型作为特征提取器，以从新类别中生成标记的少数样本的特征嵌入，其可以直接用于压印新类别的分类器权重或作为分类器权重的初始化，以进一步微调，遵循迁移学习框架[16]。不同于Meta-学习，在基础类的预训练期间不再需要未标记的图像，并且可以通过最先进的半监督方法（例如MixMatch [1]）直接利用该印记分类器。据我们所知，这是与元学习框架相比，在迁移学习框架下半监督少量学习的第一项工作。总之，我们的工作贡献如下：1. 本文提出了一种新的半监督少样本学习的迁移学习框架，该框架能够充分利用来自标记的基类数据和未标记的新类数据的辅助信息。2. 我们开发了一种新的方法，称为TransMatch下提出的框架。TransMatch融合了基于迁移学习的少样本学习方法和半监督学习方法的优点，不同于以往基于Meta学习的方法。3. 我们在两个流行的基准数据集上进行了大量的实验，以证明我们的方法可以有效地利用未标记的数据进行少量学习，并取得了新的最先进的结果。2. 相关工作在本节中，我们回顾了我们提出的基于迁移学习的半监督少镜头学习框架的相关工作。2.1. 少镜头学习近年来，由于收集标记数据的高成本，少样本学习引起了越来越多的关注。现有的工作可以大致分为（i）Meta学习方法，（ii）迁移学习方法。12858图2.我们提出的半监督少镜头学习的迁移学习方案的框架。我们首先从基本类图像预训练分类器。然后将其作为特征提取器，为新类分类器初始化权值。最后，我们进一步微调的新类分类器与未标记的图像的半监督学习方法MixMatch。基于元学习的方法：基于元学习的少量学习，也称为学习学习，旨在学习一种范式，该范式可以适应于仅用少量训练示例来识别新的类。基于元学习的方法通常包括两个阶段：1）元训练; 2）元测试。在元训练阶段，从基本类的示例中随机采样一系列片段，其中每个片段包含来自N个类的K个支持示例和Q个查询示例，表示为N路K-shot片段。通过这种方式，元训练阶段可以模仿少量测试阶段，其中每个类只有几个示例可用。基于元学习的方法可以进一步分为两类：a) 基于度量的方法;和b）基于优化的方法。a) 在许多现有的工作中已经提出了基于度量的方法[9，15，22，23，25]。这些方法主要集中在学习一个好的度量来衡量支持图像和查询图像之间例如，原型网络[22]计算了支持和查询之间每个类的原型表示的距离。RelationNet [23]实现了一个网络来衡量支持和查询之间的关系相似性。最近邻神经网络[9]探索了特征嵌入的局部描述符中的最近邻。b) 基于优化的方法旨在设计一种优化算法，使元训练阶段的信息适应元测试阶段。Meta- LSTM [18]将该问题表述为基于LSTM的元学习算法，以在少量学习中更新优化算法。MAML [4]学习了一种优化方法，该方法可以遵循快速梯度方向来快速学习新类别的分类器。LEO [20]将基于梯度的适应过程与高尺寸参数到几个镜头的场景。基于迁移学习方法：基于迁移学习的方法不同于基于元学习的方法，因为它们不使用情景训练策略。相反，这样的方法可以使用常规技术来在来自基类的大量数据上预训练模型。预训练的模型，然后适应识别新的类的少数拍摄学习任务。Qi等人。 [16]提出通过少数样本的特征嵌入的平均向量来标记新类别的分类器权重。乔等人。[17]从激活中学习了一个映射函数（即，特征嵌入）到分类器权重。 Gidaris等人[5]提出了一个注意力模块来动态预测新类别的分类器权重。Chen等人。 [2]表明这种基于迁移学习的方法可以实现与基于元学习的方法一样的竞争性能我们提出的框架与[16]通过预训练特征提取器共享类似的想法，并使用它从用于印记分类器权重的新类中提取少量样本2.2. 半监督学习半监督学习专注于开发算法来从未标记和标记的数据中学习。现有的工作可以大致分为（i）一致性正则化方法，和（ii）熵最小化方法。一致性正则化方法：一致性调节放大方法主要集中在添加噪声和增强，在不改变它们的标签分布的情况下，模型[7]增加了一个损失项，通过随机增强来正则化模型。 MeanTeacher [24]通过使用参数的指数移动平均值改进了R-M模型。虚拟对抗训练（VAT）[13]通过在未标记的模型上添加局部扰动来正则化模型。12859数据熵最小化方法：这一系列方法的重点是为未标记的数据提供低熵。它最初是由[6]提出的，它使未标记数据的条件Pseudo-Label [8]通过预测未标记数据的标签直接最小化熵，并将其用于交叉熵，表现出良好的性能。MixMatch [1]结合了不同的一致性规则化和熵最小化方法，与以往的方法相比，其性能有很大的提高。它是半监督学习中的一种整体方法，我们将在3.3节中简要介绍由于其良好的性能，我们在我们的框架中采用混合匹配，并在实验中与其他主流的半监督学习方法进行了比较。半监督学习方法通常在小数据集上进行比较[1，13，14]，其中有少量的标记数据。但是，在典型的半监督学习中，标记图像的数量仍然大于少镜头学习。半监督方法的技术可能不能直接用于少镜头设置，这也在我们的实验中证明，天真地将MixMatch应用于少镜头学习可能会导致性能不佳，特别是在1-shot和2-shot中。2.3. 半监督少镜头学习当新类的例子很少时，可以直接利用额外的未标记数据来改进学习。这导致了半监督少次学习方法（SSFSL）家族。这方面的工作很少。Ren等人。 [19]通过为未标记数据生成原型，扩展了原型网络以包含未标记数据。 Liu等人[11]构造了标记数据和未标记数据之间的图，并利用标记传播获得未标记数据的标记。Sun等人[10]通过在每一轮优化中将未标记的置信预测添加到标记的训练集中来应用自训练。然而，所有现有的半监督少镜头学习方法都是基于元学习的方法，如图1所示。1.如[2]所示，与基于Meta学习的方法相比，基于迁移学习的方法可以实现具有竞争力的性能。这激励了我们的工作。我们需要强调的是，基于元学习的方法已经成功地利用了未标记的数据，将未标记的数据整合到情景训练中。然而，这种情景训练策略与典型的半监督学习不同，并且不适合将它们直接结合在一起。现有SSFSL方法中利用未标记数据的技术在半监督领域中不是最先进的，并且更强大和更全面的方法如MixMatch将难以集成到Meta学习框架中。同时，直接应用半导体在测试期间利用未标记数据的监督方法可能由于标记数据的数量非常少而导致性能差3. 拟议框架在本节中，我们将介绍我们提出的用于半监督少次学习的迁移学习框架。流程图如图1所示。2，包含三个模块：1）在基本类数据上预训练特征提取器; 2）使用特征提取器从新类别数据中提取特征并标记新类别分类器权重; 3）采用半监督学习方法对模型进行进一步的微调。在详细说明每个模块的细节之前，让我们先介绍一下我们的问题定义。问题定义：我们有一个大规模的数据集D基地包含许多镜头标记的例子从每个基类在C基地和一个小规模的数据集D小说只有少数镜头标记的例子和许多镜头未标记的例子从每个新的类在C小说，其中C小说是不相交的C基地。半监督少样本学习的任务是学习一个鲁棒的分类器，以D库中的例子作为辅助数据，对D小说中的镜头标记例子和多镜头未标记例子进行分类通常在传统的几次学习任务中，从Dnovel采样N个类的小支持集，每个类具有K个图像，导致N路K次问题。在半监督少样本学习，附加U未标记从N个新类别或干扰物类别中的每一个中采样图像。3.1. 第一部分：预训练特征提取器我们的框架的第一个模块，如图的左边部分所示。2是预训练模块，它依赖于来自基类D base的多镜头样本，训练一个尽可能多地编码D base信息的基础模型，以供后期使用作为先验信息的少量学习，类似于hu-人类智慧这不同于如图1B所示的传统的基于Meta学习的少量学习。1，其中，针对基础类采用情景训练策略，以在测试阶段模仿少量场景。3.2. 第二部分：分级机重量印记权重印记方法由[16]提出，并且作为基于迁移学习的少镜头学习方法的代表，在少镜头学习任务中取得了令人印象深刻的性能。具体地说，它直接设置分类器的权重的平均特征向量的N-路-K-拍摄的例子，其中的特征是从预训练阶段获得的模型。为了方便起见，我们将大规模基类上的分类器定义为f（x）=fbase（fe（x）），其中x是输入e示例，fe（·）是12860KKKuJK112=2.2特征提取器和fbase（·）是分类器。我们有一个fe（x）∈Rd和fbase（·）∈R|CBASE|.给定来自新类的N路K次射击示例，让我们将它们表示为Dnovel={xc|k=1…K，c=1. N}，其中xc为第c类中的第k个示例。我们可以用特征提取器在基类上学习以提取FEA，可以使用第二部分中的公式来获得U中示例的估计标签，即，fnovel（xu）.在没有混淆的情况下，为了便于说明，我们将省略小说的超脚本为了鲁棒性，我们将每个示例增强M次，以获得每个未标记数据的M个版本，即、{xu，1，.，xu，M}，并使用平均预测值作为标签对于N路K次射击的例子，用fe（xc）表示。估计：p¯u1ΣMMi=1 f（xu，i）的情况。锐化操作同时，让我们将新颖类的分类器写为fnovel（x）= W′x，其中W =[w 1，.，wN] ∈Rd×N。用于增强预测，1=p<$T/ΣNj=11（p<$u）T，请注意，为了简单起见，我们省略了偏差。通过将权重wc和特征向量x归一化到单位球上，上述等式可以进一步简化为fnovel（x）=[cos（θ（w 1，x），.，cos（θ（wN，x））]′，（1）我们设T = 0。5在实验中同样的数据增广也适用于L.在[1]之后，我们将L和U连接起来，并对示例进行洗牌，即，W=Shuffle（Concat（L，U）），然后将该集合拆分为两个新的集合：X′={MixUp（Li，Wi） |i∈1，. -是的-是的、|L|}的情况下，其中θ（wi，x）表示wi和x之间的角度，并且给定示例x的分类基于计算每个wk和x之间的余弦相似性，并且1MixUp.ΣUi，Wi +|L|Σ|i∈ 1，. - 是的- 是的、|U|、基于最大相似性得分预测x的标签。在这个意义上，wi和x之间存在对偶性。基于这一观察，权重印记使用少数拍摄示例的平均特征向量来印记wc，即。通过设置其中MixUp定义为MixUp（（x1，p1），（x2，p2））=（（λ′x1+（1−λ′）x2），（λ′p1+（1−λ′）p2））（3）其中λ′=max（λ，1−λ）。参数λ是随机的wc= 1ΣKKk=1fe（xc）.（二）Beta分布Beta（α，α）。目标-最小化的函数定义为给定示例x的分类也可以被认为是计算x与所有哪里=ΣK-shot的例子。通过用少量样本的平均特征向量压印分类器权重，它提供了一个更好的分类器权重的初始化，以减少特征的类内变化，并有利于微调新的分类器用于新的类。实验结果表明，它可以11=− |X ′|是交叉熵损失，1n=N| X ′|（x，p）∈X′Σplog（f（x）），（5）p − f（x）（六）即使不进行微调也能实现良好的性能3.3. 第三部分：半监督微调在通过imprinting得到充分吸收基类信息的分类器后，在测试中对未标记数据进行微调。这个微调过程是一样的半监督式训练任何半监督学习都可以应用，在这项工作中，我们采用MixMatch [1]不仅是因为它在半监督学习任务中的出色性能，而且因为它是一种在半监督学习领域利用未标记数据的=X12861i=1MixMatch结合了2.2节中讨论的最先进的半监督学习方法的多种现有改进。在我们的设置中，我们将L={（xi，pi）}B定义为B的小批量，其标记为ex-1。U2（x，p）∈X′[21]中的一致性正则化损失。我们的算法的细节总结在算法1中。算法1我们提出的TransMatch算法输入：一个辅助数据集D库，其中包含来自Cbase（base classes），N-way-K-shot数据集Dl={xnk，p|n = 1，···，N; k = 1，···，K}其中p ∈C是新的（n个类），并且Du={xu|u=1，···，U}输出：N-路-K-镜头分类器f新颖的Dl1：在Dbase中的所有示例上预训练一个基础网络，并将其表示为fbase（fe（x））;2：应用特征提取器fe（x）在Dl上提取特征，然后使用这些特征来压印新分类器fnovel的权重;3：应用半监督学习方法MixMatch，用D1和Du更新新分类器fnovel;以pi为标签的样本，并且U={xu}u=1作为最小值，一批U未标记的示例。所述印迹分类器128624. 实验在本节中，我们评估了我们提出的TransMatch，并在两个流行的少次学习基准数据集上与最先进的少次学习方法进行了比较，包括miniImageNet和CUB-200-2011。4.1. miniImageNet上的实验数据集配置：miniImageNet数据集最初由[25]提出。它已被广泛用于评估少镜头学习方法。它由来自100个类的60，000个彩色图像组成，每个类600个示例我们遵循[18]给出的划分，由64个基类，16个验证类和20个新类组成。我们随机选择K（resp. U）个来自每个新颖类的示例作为少数镜头标记（未标记）的示例，并且Q个来自其余的图像作为测试示例。在实验中，我们设置N=5，K={1，5}，Q = 15，并研究了不同U值的影响。我们重复测试实验600次，并报告95%置信区间的平均准确度。比较方法：miniImageNet数据集已被广泛用于评估少数学习方法的性能，并且是比较最先进方法的良好基准。特别是，我们比较了几种传统的少次学习方法，以及最先进的半监督少次学习方法，包括[19]对原型网络的半监督扩展（ Soft k-Means ， Soft k-Means+Cluster ， Masked Soft k-Means ）和 [11] 中的TPN-semi。我们还重新实现了软k均值，软k均值+聚类，掩蔽软k均值具有相同的骨干（即，，WRN-28-10）作为我们进行公平比较的方法。由于半监督少拍学习领域还没有得到太多的探索，我们还进行了大量的实验来评估我们的TransMatch在不同的少拍设置下利用未标记数据的性能。实施详情：在miniImageNet上基于迁移学习的方法的工作[17]之后，我们使用宽残差网络（即，，WRN-28-10）[27]作为基本模型fbase的主干。我们使用基类中的示例从头开始训练它特别是，我们首先训练一个WRN-28-10分类网络的所有例子，从80个基本和验证类。然后，我们将该网络的最后一层替换为256-d完全连接层，然后是L2归一化层和80- d分类器。我们将批量大小设置为128，并将最后两层的学习率设置为0.01，将所有其他层的学习率设置为0.001。我们每10个epoch将学习率降低0.1，总共训练28个epoch。基分类器fbase被用作特征提取器，以从新的类中生成用于少数镜头示例的特征向量。我们使用少量标记的例子来微调基础分类器以适应新的类别。我们还增加了对每幅标记图像进行10次随机变换，并利用平均特征值作为新分类器的权值。我们使用16个批次大小，并将64个批次设置为epoch1。我们将权重衰减设置为0.04，学习率设置为0.001，并使用动量为0.9的SGD优化器对于微调阶段，我们将MixMatch的参数设置如下。我们将M（增强的时间）设置为2，T（标签分布的温度）设置为0。5，γ（正则化项的权重）为5，α（Beta分布中的参数）为0。75.同时，我们使用指数移动平均模型参数时猜测标签。对于5路1次拍摄场景，当有20或50个未标记图像时，我们微调10个时期对于5路5镜头sce nario，当有20和50个未标记图像时，我们微调20个时期，当有100和200个未标记图像时，微调25个时期。所有的测试结果都是基于600次随机实验。miniImageNet上的结果：结果总结于表1中。毫不奇怪，我们的方法在不使用未标记的情况下优于传统的少量学习方法，如图的顶部所示。表1.我们的方法还优于最先进的半监督少次学习方法，这可以从表1的中间部分观察到。这些结果清楚地表明了我们的TransMatch的优越性，因为它有效地利用了来自未标记数据的信息。未标记示例的影响：在表2中，我们报告了使用不同数量的未标记图像的结果。请注意，Imprinting+FT代表在没有未标记数据的情况下微调印记分类器。很明显，我们的TransMatch可以用更多的未标记图像实现更好的性能我们还观察到，结果开始饱和后，100个未标记的图像为1杆设置。实验结果表明，该算法能够有效地利用未标记数据。消融研究：我们对我们的方法进行了消融研究，没有印记或MixMatch。在没有输入输出的情况下，我们的方法简化为半监督学习方法，即。，MixMatch（注意这里的特征提取器仍然是从基类训练的），如果没有Mix-Match，我们的方法就简化为印记。结果示于图3.第三章。很明显，MixMatch和Imprint- ing都MixMatch的性能不如我们的TransMatch，这清楚地表明，直接将MixMatch应用于少数镜头设置不能产生良好的性能，特别是在1镜头和2镜头设置中。这是由于缺乏标记数据，这使得当存在未标记数据时，很难在测试期间微调分类器。然而，我们提出的TransMatch可以获得一个很好的初始化，通过纳入重量印记1我们复制标记的图像数据集以使其更大，以便每个批次可以多次包含相同的图像。12863方法类型单次拍摄5次射击原型网[22日]Meta，公制49.42±0.7868.20±0.66TADAM[第十五条]Meta，公制58.50±0.3076.70±0.30MAML[4]美国Meta，优化48.70±1.8463.11±0.92蜗牛[12个]Meta，优化55.71±0.9968.88±0.92激活网络[17个]迁移学习59.60±0.4173.74±0.19印迹[16个]迁移学习58.68±0.8176.06±0.59[19]第十九话半元学习50.09±0.4564.59±0.28[19]第19话半元学习49.03±0.2463.08±0.18Masked Soft K-Means [19]半元学习50.41±0.3164.39±0.24TPN-semi [11]半元学习52.78±0.2766.42±0.21软k均值（使用WRN-28-10重新实现）半元学习51.88±0.9367.31±0.70软k均值+聚类（使用WRN-28-10重新实现）半元学习50.47±0.8664.14±0.65屏蔽软k均值（使用WRN-28-10重新实现）半元学习52.35±0.8967.67±0.65TransMatch(100每个类的未标记图像）半，迁移学习63.02±1.0781.19±0.59TransMatch(200每个类的未标记图像）半，迁移学习62.93±1.1182.24±0.59表1.miniImageNet上的准确度（%），置信区间为95%最佳结果以粗体显示方法#未标记单次拍摄5次射击印迹--58.68±0.8176.06±0.59压印+FT055.60±0.7774.17±0.60TransMatch2058.43±0.9376.43±0.61TransMatch5061.21±1.0379.30±0.59TransMatch10063.02±1.0781.19±0.59TransMatch20062.93±1.1182.24±0.59表2. miniImageNet上不同数量的未标记图像的准确性（%）。最佳结果以粗体显示。图 3. Imprinting 、 MixMatch 和我们的 Trans- Match 在miniImageNet上使用100张未标记的图像进行5向分类，并使用不同的拍摄次数进行比较。表3.比较我们的方法使用不同的半监督学习方法（即，，Pseudo-Label和MixMatch）在我们的框架中，都有100个未标记的图像，用于miniImageNet上的5向分类。module.我们还观察到，当使用较少数量的镜头时，我们的TransMatch比MixMatch有更大的增益。图中所示的 3是{11。02，4。28秒2 92，1。73，1. 22}在{1，2，3，4，5}-拍摄设置。这是合理的，值得关注，更少的镜头意味着更少的标记示例，这使得微调更加困难。因此，重要的是权重印记给分类器良好的初始权重变得更加明显。比较不同的半监督学习方法：除了MixMatch [1]之外，在本节中，我们还与其他半监督学习方法（即，伪标签[8]），以便了解半监督学习模块的影响。表3所示的结果与我们使用Mix-Match作为半监督学习模块时的观察结果一致由于伪标签比混合匹配差，因此我们使用伪标签的方法的整体性能也比使用混合匹配差。分心物类别的影响：在典型的半监督学习中，未标记图像来自与标记图像相同的类。这可能无法反映现实应用中的实际情况。所以我们也研究了拍摄次数方法精度增益单次拍摄带伪标签使用MixMatch57.01 ±1.1363.02 ±1.07+6.012-拍摄带伪标签使用MixMatch70.07 ±0.9672.36 ±0.88+2.29三发带伪标签使用MixMatch76.01 ±0.8177.41 ±0.76+1.404-拍摄带伪标签使用MixMatch78.35 ±0.7379.74 ±0.65+1.395次射带伪标签80.00 ±0.6681.19 ±0.59+1.1912864型号K=1251020印迹26.0834.1343.3448.9152.94压印+FT26.5934.3349.3961.6570.07MixMatch22.9330.2456.4167.1373.00TransMatch28.0238.0559.8368.6074.61表4. MixMatch和我们的TransMatch与miniIm上来自{1，2，3}个干扰项类的100个未标记图像ageNet.请注意，“印记”不使用任何未标记的图像。的干扰项类，并报告结果的印记，混合匹配，和我们的TransMatch时，有未标记的图像从各种干扰项类。在我们的实验中，分心类是随机选择的其余类是不相交的新类在测试期间。结果示于表4中。我们可以观察到由于干扰项类，MixMatch的所有结果都降低了，而我们的 TransMatch 在所有情况下仍然优于Imprinting。4.2. CUB 200 2011Dataset configuration: The CUB-200-2011 dataset (CUB)is originally proposed by [26] and contains 200 fine-grained classes of birds with 11,788 images in total (about30 images per class for support images and 30 images perclass for query images).我们严格遵循[16]中的设置，以确保公平的比较。特别是我们使用数据集提供的标准训练/测试分割，并将前100个类作为基类Cbase其余100类为C类小说。因此，我们有N=100。我们使用基类中的所有训练示例进行大规模预训练以获得基本模型F_base，并使用来自小说类的少数镜头示例来训练F_novel。在实验中，我们将K设置为{1，2，5，10，20}，并使用其余的图像{29，28，25，20，10}作为未标记的图像，以提供支持图像. 剩下的30张照片仍然用于查询图像。实施详情：我们感兴趣的是我们的TransMatch在100个小说类上的表现，即。[16]中的迁移学习设置为了确保表5.CUB-200-2011的准确度（%）比较最好结果以粗体显示。模型#未标记5次射击10杆印刷[16]--43.3448.91[16]第十六话049.3961.65TransMatch552.9063.79TransMatch1054.7866.21TransMatch1556.8667.71TransMatch2059.2568.60表6.使用CUB-200-2011上不同数量的未标记图像进行准确度（%）比较。在微调阶段，我们将每个epoch的批次数量设置为默认情况下，我们将权重衰减设置为0.0001，使用0.001的学习率，并训练模型100个epoch。对于1次和2次设置（100路）的极端情况，我们将权重衰减设置为0.04，学习率设置为0.0001，并在10个epoch处提前停止，以避免过拟合。CUB-200-2011的结果：我们遵循[16]报告他们提出的印记和印记+FT的结果。然后，我们评估我们提出的跨匹配使用不同数量的镜头和未标记的im的性能，年龄我们在表5 中将 TransMatch 与Imprinting 和Max-Match进行了比较，结果表明我们提出的Trans-Match达到了最好的结果，这证明了它在利用辅助标记的基础类数据和未标记的新类数据方面的有效性。表6显示了我们使用不同数量的未标记图像进行TransMatch的结果，我们可以观察到，使用更多的未标记数据可以实现更好的性能这些结果与miniImageNet数据集上的结果相似。5. 结论现有的半监督少样本学习方法都是基于元学习框架的，本文提出了一种新的半监督少样本学习的迁移学习框架，可以有效地从标记的基类数据和非线性学习中挖掘信息。公平的比较，我们遵循[16]并使用Inception v1作为我们的网络骨干。我们将全连接嵌入层的维度设置为256，然后进行L2归一化。我们将输入图像调整为256×256，然后随机裁剪到224×224。在大规模在预训练阶段，我们将初始学习率设置为0.001，并为嵌入层和分类层设置10倍的乘数。我们在每30个epoch之后将学习率降低0.1，并对模型进行总共90个epoch的训练持续时间beled新奇类数据.我们开发了一种新的方法，在所提出的框架下，结合国家的最先进的半监督方法MixMatch和少镜头学习方法印记，导致一个新的方法称为transMatch。在两个流行的小样本学习数据集上的大量实验表明，我们提出的TransMatch实现了最先进的结果，这表明它在利用标记的基类数据和未标记的新类数据方面的有效性。牵引器方法单次拍摄5次射击--印迹58.68 ±0.8176.06 ±0.591级MixMatchTransMatch50.14 ±1.0662.32 ±1.0479.32 ±0.6380.28 ±0.622级MixMatchTransMatch50.68 ±1.1560.41 ±1.0278.07 ±0.6979.48 ±0.64三级MixMatchTransMatch49.48 ±1.1659.32 ±1.1077.48 ±0.6679.29 ±0.6212865引用[1] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在神经信息处理系统的进展，第5050-5060页[2] 陈伟宇，刘彦成，吉良卓，王玉强和黄家斌。更仔细地看几个镜头分类。2019年，在ICLR[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页[4] Chelsea Finn，Pieter Abbeel，Sergey Levine. 型号-不可知元学习，用于深度网络的快速适应。在ICML，第1126-1135页[5] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少拍视觉学习而不会忘记。在CVPR中，第4367- 4375页[6] Yves Grandvalet和Yoshua Bengio半监督熵最小化学习神经信息处理系统的进展，第529-536页，2005年[7] Samuli Laine和Timo Aila半导体的时间集成监督学习国际学习表征会议（ICLR），2017年。[8] 李东贤伪标签：简单高效深度神经网络的半监督学习方法。在表征学习的挑战研讨会，ICML，2013年。[9] Wenbin Li ， Lei Wang ， Jinglin Xu ， Jing Huo ， YangGao，and罗杰波。重新审视基于局部描述符的图像到类的测量，用于少量学习。在CVPR中，第7260-7268页，2019年。[10] Xinzhe Li，Qianru Sun，Yaoyao Liu，Qin Zhou，ShibaoZheng，Tat-Seng Chua，and Bernt Schiele.学习自我训练半监督少镜头分类。在神经信息处理系统的进展，第10276-10286页[11] Yanbin Liu，Juho Lee，Minseop Park，Saehoon Kim，EunhoYang，Sung Ju Hwang，and Yi Yang.学习传播标签：用于少量学习的直推传播网络在ICLR，2018年。[12] Nikhil Mishra、Mostafa Rohaninejad、Xi Chen和Pieter阿比尔一个简单的神经专注元学习者。在ICLR，2018年。[13] Takeru Miyato，Shin-ichi Maeda，Masanori Koyama，and石井真虚拟对抗训练：用于监督和半监督学习的正则化方法。 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（8）：1979[14] Avital Oliver ， Augustus Odena，Colin A Raffel， EkinDogusCubuk和Ian Goodfellow。深度半监督学习算法的现实评估。神经信息处理系统进展，第3235-3246页，2018年[15] BorisOreshkin、PauRod r'ıguezLo'pez和Ale xandreLa-成本TADAM：用于改进的少数学习的任务相关自适应度量。神经信息处理系统的进展，第721-731页，2018年[16]Hang Qi，Matthew Brown，and David G Lowe. 低射用印记权重学习。在CVPR中，第5822- 5828页5830，2018.[17] Siyuan Qiao，Chenxi Liu，Wei Shen，and Alan L Yuille.通过从激活预测参数的少拍图像识别在CVPR中，第7229-7238页[18] 萨钦·拉维和雨果·拉罗谢尔。作为模型的for few-shot少数-shot射击learning学习.在ICLR，2017。[19] Mengye Ren ， Eleni Triantafillou ， Sachin Ravi ， JakeSnell ， Kevin Swersky ， Joshua B.Tenenbaum ， HugoLarochelle，and Richard S.泽梅尔用于半监督少镜头分类的元学习。在ICLR，2018年。[20] Andrei A Rusu，Dushyant Rao，Jakub Sygnowski，OriolVinyals ， Razvan Pascanu ， Simon Osindero ，和 RaiaHad-sell.具有潜在嵌入优化的元学习。2019年，在ICLR[21] M

下载后可阅读完整内容，剩余1页未读，立即下载