面向少镜头元迁移学习的方式及有效性

184 浏览量更新于2023-10-17 收藏 667KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

403面向少镜头学习的元迁移学习孙倩茹1，3刘瑶瑶2蔡达成1BerntSchiele31新加坡国立大学2天津大学†3马克斯·普朗克信息学研究所萨尔信息学校区{qsun，juele}@ mpi-inf.mpg.deliuyaoyao@tju.edu.cn{dcssq，dcscts}@nus.edu.sg摘要大规模培训元训练元测试元学习已经被提出作为一个框架，以解决具有挑战性的少数镜头学习设置。其关键思想是利用大量类似的少数镜头任务，以学习如何适应基础学习器的新任务，只有几个标记的样本可用。由于深度神经网络（DNN）倾向于仅使用少数样本进行过度拟合，元学习通常使用浅层神经网络（SNN），从而限制了其有效性。在本文中，我们提出了一种称为元迁移学习（MTL）的新的少镜头学习方法具体来说，Meta是指训练多个任务，而迁移是通过学习每个任务的DNN权重的缩放和移位函数来实现的。此外，我们介绍了硬任务（HT）元批计划作为一个有效的学习课程MTL。我们图1. 元迁移学习（MTL）是我们的元学习在两个具有挑战性的少量学习基准上使用（5类，1次）和（5类，5次）识别任务进行实验：miniImageNet和Fewshot-CIFAR 100。大量的比较，相关的工作验证了我们的元迁移学习方法训练与建议的HT元批处理计划达到最好的性能。消融研究还表明，这两个组件有助于快速收敛和高精度1。1. 介绍虽然当有足够数量的标记数据可用时，深度学习系统已经取得了很好的性能[57，17，45]，但人们对减少所需数据量的兴趣越来越大。为此目的，定义了少量学习任务。其目的是从少量标记的示例中学习新概念，例如。一次学习-*同等缴款。[2]Yaoyao Liu在新加坡国立大学实习期间完成了这项工作。1代码：https://github.com/y2l/meta-transfer-learning-tensorflow范式和硬任务（HT）元批处理是我们的训练策略。上面三行显示了MTL与相关方法，迁移学习[34]和元学习[9]之间的差异。底部行比较HT元批处理与常规元批处理[9]。FT代表微调分类器。SS表示MTL方法中的缩放和移位ing [24]。虽然人类在这种情况下往往非常有效，经常掌握新概念与自己的知识和经验之间的基本联系，但机器学习方法仍然具有挑战性例如，在一个示例中，在CIFAR-100数据集上，最先进的方法[33]仅达到40。单次学习的准确率为1%，可达75。7%的全类完全监督情况[6]。少镜头学习方法可以大致分为两类：数据扩充和基于任务的Meta学习。数据增强是一种经典的技术，可以增加可用数据的数量，从而也可以使用-[21]第21话学习提出了几种方法来学习数据生成器，例如条件高斯噪声[28，43，53]。然而，这一代的模型往往...[34]第三十四话任务1模型1任务2模型1+FT元学习[9]任务1.任务N型号1型号N任务N+1模型N+1元迁移学习（我们的）任务1模型+SS1+FT1任务模型任务N模型+SSN+FTN任务N+1模型+SSN+FTN+1[9]第十九话批次i批次i+1...k任务k任务.硬任务Meta-Batch（我们的）批次i批次i+1... k任务+k' 硬任务 k 任务 + k ' 硬任务.在线重采样40449 49为在少量数据上训练时表现不佳[1]。另一种方法是合并来自多个任务的数据，然而，由于任务之间的数据差异，这是无效的[53]。与数据增强方法相比，元学习是一种任务级学习方法[2，32，51]。元学习旨在从学习多个任务中积累经验[9，38，47，30，13]，而基础学习则专注于对单个任务的数据分布进行建模。最先进的代表，即模型不可知Meta- Learning（MAML），学习搜索最佳初始化状态，以快速适应基础学习者的新任务[9]。它的任务不可知属性使得它可以推广到少数监督学习以及无监督的再学习[13，10]。然而，我们认为，这类方法有两个主要局限性限制了其有效性：i）这些方法通常需要大量的类似任务用于元训练，这是昂贵的;以及ii）每个任务通常由低复杂度的基本学习器（例如浅神经网络）建模，以避免模型过拟合，从而不能使用更深和更强大的架构。例如，对于迷你ImageNet数据集[52]，MAML使用仅具有4个CONV层的浅CNN，并且其最佳性能是在240k任务上学习获得的。在本文中，我们提出了一种新的元学习方法，称为元迁移学习（MTL），它利用了迁移和元学习的优点（参见图1中相关方法的概念比较）。简单地说，MTL是一种新的学习方法，它可以帮助深度神经网络更快地收敛，同时在只使用少量标记训练数据时降低过拟合的概率特别地，αX + β。“Meta”大规模训练的DNN权重提供了良好的初始化，使得Meta迁移学习的快速收敛具有更少的任务，例如，miniImageNet 只有8k 个任务[52] ，比MAML少30 倍[9]。轻-DNN神经元上的权重操作需要学习的参数较少，例如如果考虑大小为7 × 7的神经元，则小于2（α为<1，β），减少过拟合的机会-婷此外，这些操作保持那些训练的DNN权重不变，从而避免了“catastrophic forgetting”问题本文的第二个主要贡献是有效的元培训课程。课程学习[3]和硬负挖掘[46]都表明，通过更好地安排训练数据可以实现更快的收敛和更强的性能受这些想法的启发，我们设计了硬任务（HT）元批处理策略，具有挑战性但有效的学习课程。如图1的底部行所示，传统的元批处理包含许多随机任务[9]，但我们的HT元批处理在线重新采样更难的任务，根据过去的失败任务，具有最低的验证精度。因此，我们的总体贡献有三个方面：i）我们提出了一种新的MTL方法，该方法学习转移大规模预训练的DNN权重，以解决少数学习任务; ii）我们提出了一种新的HT元批量学习策略，该策略迫使元迁移“在困难中成长得更快，更强”;和iii）我们在两个少数学习基准上进行了广泛的实验，即miniImageNet [52]和Fewshot-CIFAR 100（FC 100）[33]，并达到了最先进的性能。2. 相关工作关于少镜头学习的研究文献表现出很大的多样性。在本节中，我们重点介绍了使用监督元学习范式[12，51，9]的方法，这些方法与我们的方法最相关，并与实验进行了比较。我们可以将这些方法分为三类。1)Metric学习方法[52，47，50]学习相似性空间，其中学习对于少数样本是有效的。2)记忆网络方法[30，41，33，29]学会在学习可见任务时存储“经验”，然后将其推广到不可见任务。3)基于梯度下降的方法[9，38，23，13，59]有一个特定的元学习者，它通过不同的任务学习适应特定的基本学习者（少数样本）例如MAML [9]使用一个元学习器，学习有效地初始化新学习任务的基本学习器。元学习者优化是通过梯度下降使用的基础学习者的验证损失。我们的方法密切相关。一个重要的区别是，我们的MTL方法利用了迁移学习，并从预先训练的深度网络中引用神经元知识虽然MAML可以从预先训练的网络开始，但它的元素微调使得很难在不过度拟合的情况下学习深度网络（在我们的实验中得到验证）。迁移学习迁移什么以及如何迁移是迁移学习中需要解决的关键问题，因为不同的方法适用于不同的源目标域并桥接不同的迁移知识[34，56，54，58]。对于深度模型，一种强大的转移方法是将预训练的模型用于新任务，通常称为微调（FT）。在大规模数据集上预训练的模型已被证明比随机初始化的模型更好地泛化[8]。另一种流行的传输方法是将预先训练好的网络作为骨干，并添加高级功能，例如。用于对象检测和识别[18，49，48]和图像分割[16，5]。我们的元迁移学习利用了迁移预训练权重的想法，旨在元学习如何有效地迁移。在本文中，大规模训练的DNN权重是什么转移，和操作的405不可见任务（列车样本）不可见任务(test样品）T（tr）访看不见T（te）看不见(c)元测试特征提取器元学习器SSN基本学习器FTN+1特征提取器元学习器SSN基本学习器FTN+1看不见看不见看不见整个训练阶段分类器微调最终评价全职业训练样本特征提取器NHT特征提取器元批次元学习者SSND基础学习者(a)大规模DNN训练{T1k}1N基本学习器FTN(b)元迁移学习图2.我们提出的少次学习方法的流水线，包括三个阶段：（a）大规模数据的DNN培训，即使用所有训练数据点（第4.1节）;（b）元迁移学习（MTL），基于预先训练的特征提取器（第4.2节）学习缩放和移位（SS）的参数。学习由提出的HT元批调度（第4.3节）;以及（c）元测试是针对一个看不见的任务完成的，该任务由基础学习者（分类器）微调（FT）阶段和最终评估阶段组成，在第3节的最后一段中描述。输入数据与箭头一起。名称以粗体显示的模块会在相应的阶段进行更新。具体来说，SS参数通过元训练学习，但在元测试期间固定。基础学习器参数针对每个任务进行优化。缩放和移位指示如何转移。类似的操作已被用于调节视觉推理的激活的每个特征图分布[36]。已经提出了一些少次学习方法来使用预先训练的权重作为初始化[20，29，37，44，40]。通常，权重针对每个任务进行微调，而我们通过所有任务学习元迁移学习器，这在底层学习范式方面是不同的。课程学习是由Bengio等人提出的。[3]并流行于多任务学习[35，42，55，14]。他们表明，与其随机观察样本，不如以有意义的方式组织样本，以便实现快速收敛，有效学习和更好的泛化Pentina等人[35]使用自适应SVM分类器来评估任务难度，以供以后组织使用。同时，我们的MTL方法在事件测试阶段在线进行任务评估，不需要任何辅助模型。硬样本开采是由Shrivastava等人提出的。[46]用于物体检测。它对待形象的建议超过-适应基础学习者。通过测试一组看不见的数据点T（te）来完成最终评估。元训练阶段。这个阶段的目标是从多个片段中学习一个Meta学习者。在每一集中，Meta训练都有两个阶段的优化。第一阶段称为基本学习，其中交叉熵损失用于优化基本学习器的参数。阶段2包含对发作测试数据点的前馈测试测试损失用于优化元学习器的参数具体-通常，给定一个情节T ∈p（T），基学习器θT是从情节训练数据T（tr）及其相应的损失LT（θT，T（tr））中学习的。在优化该损失之后，基本学习器具有参数θ∈T。然后，使用测试损失LT（θ∈T，T（te））更新元学习器。在对所有事件进行元训练{LT（θ<$T，T（te））}T∈p（T）. 因此，Meta-学习者更新等于剧集的数量。元测试阶段。此阶段旨在测试经过训练的元学习器的性能，以便快速适应看不见的任务Giv enTunseen，元学习者θT教授基础-与地面真实重叠作为硬负样本。培训更复杂的数据使模型能够实现更高的学习者θT 看不见为了适应T的目标，更高的性能和更好的性能[4，15，7]受此启发，我们在线采样更难的任务，并使我们的MTL学习者“通过更多的硬度成长得更快，更强”。在我们的实验中，我们表明这可以推广到增强其他元学习方法，例如。MAML [9].3. 初步我们介绍了Meta学习的问题设置和符号，以下相关工作[52，38，9，33]。元学习包括两个阶段：元训练和元测试。元训练示例是从分布p（T）采样的分类任务T。T称为episode，包括用于优化基本学习器的训练分割T（tr）和用于优化元学习器的测试分割T（te）特别是，元训练旨在从许多事件中学习{T}从p（T）采样。在Meta测试中看不见的看不见的任务T将从元学习者的经验开始，一些手段，例如，通过初始化[9]。然后，测试T（te）上的结果用于评估元学习方法。如果存在多个未见过的任务{Tunseen}，则{T（te）}上的平均结果将是最终评估。4. 方法如图2所示，我们的方法包括三个阶段。首先，我们在大规模数据上训练DNN，例如miniImageNet（64类，600次）[52]，然后将低级层固定为特征提取器（第4.1节）。其次，在元迁移学习阶段，MTL学习特征提取器神经元的缩放和移位（SS）参数，从而能够快速适应少数任务（第4.2节）。为了改进整体学习，我们使用HT元批处理策略（第4.3节）。训练步骤详见第4.4节中的算法1。最后，执行典型的元测试阶段，如第3节所介绍的。406..4.1. 大规模数据的DNN训练该阶段类似于经典的预训练阶段，例如，在Imagenet上进行对象识别的预训练[39]。在这里，我们不考虑来自其他数据集的数据/域适应，而是在少量学习基准的现成数据上进行预训练，以便与W：Cx 4x3x 3Cxb：1x 4x 1x1不更新W′：Cx 4x3x 3Cxb′：1x 4x 1x1其他的一些学习方法。具体来说，对于一个parti-(a) 参数级微调（FT）我们合并所有类别的数据D进行预处理，ΦS：Cx 4x 1x 1ΦS：1x 4x1x 1Φ′ ：Cx 4x 1x1Φ′：1x 4x 1x 1训练例如，对于miniImageNet [52]，D的训练分割中共有64个类，每个类包含600个样本，用于预训练64类分类器。我们首先随机地初始化特征提取器Θ（例如ResNets [17]中的CONV层）和分类器θ（例如，1CxW：Cx 4x3x 32+b：1x 4x 1x1不更新S1CxW：Cx 4x3x 3S2+b：1x 4x 1x 1ResNets中的最后一个FC层[17]），然后通过Cx优化它们梯度下降如下，.Σ[Θ;θ]=：[Θ;θ]-αLD[Θ;θ]，（1）其中L表示以下经验损失，Cx(b) 我们的标度S1和移位S2.Σ1Σ。Σ图3. (a)参数级微调（FT）是一种传统的LD[Θ;θ]=|D| （x，y）∈DL f[Θ;θ]（x），y，（2）元训练操作，例如在MAML [9]中。其更新适用于所有神经元参数W和b(b)我们的神经元级缩放和MTL中的移位（SS）操作他们减少了学习的数量例如交叉熵损失，α表示学习率。在该阶段中，学习特征提取器Θ。它将在下面的元训练和元测试阶段冻结，如图2所示。学习的分类器θ将被丢弃，因为后续的少量任务包含不同的分类目标，例如：5级而不是64级设置参数，避免过拟合问题。此外，它们保持大规模的训练参数（黄色）冻结，防止在这一步中，θ用与等式中相同的学习率γ4、miniImageNet的分类[52]。4.2. Meta迁移学习θ=：θ−γ<$θLT（te）.[Θ;θ′]，ΦSΣ.（五）如图2（b）所示，我们提出的元迁移学习（MTL）方法通过HT元批量训练（第4.3节）优化了元操作缩放和移位（SS图3显示了通过SS和FT更新的差异。表示为ΦS1和ΦS2的SS操作在学习期间不改变Θ的冻结神经元权重，而FT更新完整的Θ。下面，我们将详细介绍SS的操作。给予重新连接到Eq。3，我们注意到上面的θ′来自T（tr）上的最后一个基本学习时期。接下来，我们描述如何将ΦS{1，2}应用于如图3（b）所示的冷冻神经元给定训练的Θ，对于包含K个神经元的第l分别作为权重和偏置，表示为{（Wi，k，bi，k）}。注意，为了可读性，将省略神经元位置l、k。基于MTL，我们学习K任务T，T（tr）的损失用于优化电流标量对{ΦS{1，2}{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}假设X是输入，我们应用通过梯度下降的基本学习器（分类器）θ′{ΦS{1，2}}为（W，b），θ′←θ−β<$θLT（tr）.[Θ;θ]，ΦS{1，2}Σ、（3）SS（X;W，b;ΦS）=（W<$ΦS）X+（b+ΦS），（6）{1， 2}1 2这与Eq不同。1，因为我们不更新Θ。注意，这里的θ不同于来自前一阶段的θ，即等式中的大规模分类器θ。1.一、这个θ只涉及几个类，例如。5类，每次分类在一个新的几杆设置。θ'对应于仅在当前任务中工作的时间分类器，由针对前一任务优化的θ（五）。其中⊙表示逐元素乘法。以图3（b）为例，以单个3×3滤波器为例，在SS运算后，该滤波器按ΦS1缩放，然后卷积后的特征图在原始偏置b的基础上移动ΦS2。SS的详细步骤见第4.4节中的算法2。ΦS1 初始化为1，ΦS1被零所取代然后他们可学习冷冻{1，2}407我图3（a）显示了一个典型的参数级微调（FT）操作，其处于通过T（te）的测试损失优化如下，ΦSi=：ΦSi−γ<$ΦSLT（te）.[Θ;θ′]，ΦSΣ.（四）我们的相关工作MAML [9]。很明显，FT更新W和b的完整值，并且具有大量的{1，2}4089JJ参数，并且我们的SS在图的示例中将这个数字减少到2总之，SS可以在三个方面使MTL受益。 1)它从基于大规模训练DNN的强初始化开始，为MTL提供快速收敛2）它不会改变DNN权重，从而避免了在MTL中学习特定任务时的“灾难性遗忘”问题3)它是轻量级的，减少了MTL在少数情况下过拟合的机会。4.3. 硬任务（HT）Meta批处理在本节中，我们将介绍一种在元训练批次中调度硬任务的方法。传统的Meta批处理由随机抽样的任务组成，其中随机性意味着随机困难[9]。在我们的Meta训练管道中，我们有意地在每个任务中挑选失败案例，并将其数据重新组合为更难的任务，以便进行不利的重新训练。我们的目标是迫使我们的元学习者渠道. 每个任务T有两个分裂，T（tr）和T（te），分别用于基础学习和测试。如算法2第2-5行所示，基础学习器通过T（tr）的损失（在多个时期中）来优化。SS参数则是最优的，一次损失T（te）我们还可以把-M类的T（te）的点火精度然后，我们选择精度最低的Accm来确定最困难的class-m（也称为失败类）。计算所有测试类的识别率，并将其返回到算法1（行14）以进行硬任务采样。算法1：元迁移学习（MTL）输入：任务分布p（T）和相应的数据集D，学习率α，β和γ输出：特征提取器Θ，基础学习器θ，SS参数ΦS{1，2}1随机初始化Θ和θ;D中的样品为23通过等式2评估LD（[Θ;θ]）。2个;4通过等式优化Θ和θ1个;5端6用1初始化ΦS1，用0初始化ΦS27针对少拍任务重置和重新初始化θ8元批处理9从p（T）随机抽取任务{T};10. Whilenotdone11样本任务Ti∈ {T};12优化ΦS{1，2}和θ与Ti，通过算法2;13获取返回的类-m，然后将其添加到{m};14的端15个硬任务样本{Thard}，来自Cup（T|{m}）;16、如果没有做17样本任务Thard∈ {Thard};在从18获得所有故障类别（索引为{m}）优化ΦS{1，2}和θ，T很难，k个任务，我们对任务进行重新采样从他们的数据。具体地，我们假设p（T|{m}）是任务分布，我们采样一个“更难”的任务T hard∈p（T|{m}）。两个重要的细节是givenbeloww。算法2;19终20空{m}。21end选择硬类-m。我们选择失败类-m从每一个任务，通过排名类级的准确性，而不是设定一个门槛。在我们这样一个动态的在线环境中，更明智的做法是根据等级来而不是提前设定一个阈值。使用{ m }执行硬任务的两种方法。选择{m}，我们可以通过（1）直接使用当前任务T中的类-m的样本，或者（2）间接使用类-m的标签来采样该类的新样本，来重新采样任务T在事实上，设置（2）考虑到包括更多的-m类数据方差，并且它通常比设置（1）工作得更好。4.4. 算法算法1总结了两个主要阶段的训练过程：大规模DNN训练（第1-5行）和Meta迁移学习（第6-22行）。HT元批次重新采样和连续训练阶段在第16-20行中示出，对于这些阶段，故障类由算法2返回，参见第14行。算法2在单个任务上呈现学习过程，其包括情节训练（第2-5 行）和情节测试，即，元级更新（第6行）。在第7-11行中，算法2：在任务T中详细描述学习步骤输入：T、学习率β和γ、特征提取器Θ、基础学习器θ、SS参数ΦS{1，2}输出：更新了θ和ΦS{1，2}，T中最早分类的类-m1 从T采样T（tr）和T（te）;2 对于T（tr）中的样本，3求LT（tr）;4通过等式优化θ′3个;5端6通过等式优化ΦS{1，2}和θ。 4和方程式5个;7 不做就做8样本类-kinT（te）;9计算对于T（te）的Acck;10端部11 返回class-m，精度最低。4095. 实验我们评估建议MTL和HT元批次的少拍识别精度和模型收敛速度。下面我们描述了数据集和详细设置，随后进行了消融研究并与最先进的方法进行了比较5.1. 数据集和实现细节我们在两个基准测试上进行了少量学习实验，miniImageNet [52] 和 Fewshot-CIFAR 100 （ FC 100 ）[33]。miniImageNet被广泛用于相关工作[9，38，13，11，31]。FC 100是在[33]中新提出的，在较低的图像分辨率和更严格的训练测试分割方面比miniImageNet更具挑战性。miniImageNet由Vinyals等人提出。[52]用于少数镜头学习评估。由于使用ImageNet图像，其复杂性很高，但比在完整的ImageNet数据集上运行需要更少的资源和基础设施[39]。总共有100个类，600个样本，84 ×84彩色图像每类。这100个班级分为64，16和20类分别用于元训练，元验证和元测试的采样任务，以下相关工作[9，38，13，11，31]。Fewshot-CIFAR 100（FC 100）基于流行的对象分类数据集CIFAR 100 [22]。拆分由[33]提出（请查看附件中的详细信息）。它提供了一个更具挑战性的场景，具有较低的图像分辨率和更具挑战性的元训练/测试分割，这些分割根据对象超类进行分离它包含100个对象类，每个对象类有600个32×32彩色图像样本。这100个类属于20个超类。元训练数据从60个类到12个超类。元验证集和元测试集分别包含属于4个超类的20个类。这些分割符合超类，从而最小化在训练和val/test任务之间的信息重叠。以下设置用于两个数据集。我们用所有训练数据点训练了一个大规模的DNN（第二节）。步骤4.1），并在10k次迭代后停止该训练。我们使用与相关作品相同的任务抽样方法[9，38]。具体而言，1）我们考虑5类分类，2）我们对5类、1次（5次或10次）发作进行采样，以包含1个（5或10个）样本用于训练发作，15个（统一形式）样本用于发作测试。请注意，在最新技术水平的工作[33]中，在发作测试的5次和10次设置中分别使用32和64个样本。我们总共抽取了8k个任务进行元训练（对于w/和w/o HT元批处理相同），并分别抽取了600个随机任务进行元验证和元测试。请查看文档（或GitHub存储库）了解其他实现细节，例如：学习率和辍学率。网络架构。我们将详细介绍FEA-真提取器Θ，具有缩放ΦS1的MTL元学习器，以及移位ΦS2，MTL基学习器（分类器）θ.Θ的架构有两个选项，ResNet-12和4CONV，通常用于相关作品[9，52，38，31，29，33]。4CONV由4层组成，具有3×3卷积和32个过滤器，然后是批量归一化（BN）[19]，ReLU非线性和2×2最大池化。 ResNet-12在最近的作品中更受欢迎[33，29，11，31]。它包含4个残差块，每个残差块有3个CONV层，每个CONV层有3×3核。在每个残差块的末尾，2 应用了x2最大池化层。滤波器的数量从64开始，每隔一个块加倍以下4块，有一个均值池层来压缩输出特征映射到特征嵌入。在我们的方法中使用4CONV和使用ResNet-12的区别是ResNet-12 MTL可以看到大规模数据训练，但4CONVMTL是从头开始学习的，因为它在大规模数据训练方面的性能很差（参见补充资料中的结果）。因此，我们强调使用ResNet-12 MTL的实验，因为它具有优越的性能。Φ S 1的体系结构和ΦS2 根据以下公式如4.2节所介绍的，Θ的体系结构。即当在MTL中使用ResNet-12时，ΦS1和ΦS2也分别具有12层。 θ的架构是FC层。我们根据经验发现，单个FC层比多层更快训练，分类更有效。(see补充资料中的比较）5.2. 消融研究设置为了证明我们的方法的有效性，我们设计了一些消融设置：两个基线没有Meta学习，但更经典的学习，三个基线的微调（FT）的参数数量较少（表1），和两个MAML变体使用我们更深的预训练模型和HT元批处理（表2和表3）。请注意，SS的替代元学习操作是MAML中使用的FT一些项目符号名称解释如下。更新[Θ;θ]（或θ）。没有元训练阶段。在测试阶段，每个任务的整个模型[Θ;θ]（或分类器θ）在T（tr）上更新，然后在T（te）上测试。FT[Θ4; θ]（或θ）。这些都是定义比MAML更小的元学习器参数集的直接方法。我们可以冻结低级别的预训练层，并在有（或没有）高级别CONV层Θ4的情况下元学习分类器层θ，该层是ResNet-12的第4个残差块。5.3. 结果和分析表1、表2和表3显示了miniImageNet和FC100数据集的总体结果广泛的比较与烧蚀方法和国家的最先进的。请注意，表格显示了通过验证选择的迭代的最高精度。对于迷你图像-410<9（一）62605856540.4k 1k5k10k15k迭代（b）第（1）款76757473720.4k 1k5 公里10公里15k迭代(c)45444342410.4k 1k5公里 10公里15k迭代(d)58575655540.4k 1k5 公里 10公里15k迭代(e)63.56362.56261.50.4k 1k5 公里10公里15k迭代图4.（a）（b）显示miniImageNet上的1次拍摄和5次拍摄的结果;（c）（d）（e）显示FC 100上的1次拍摄，5次拍摄和10次拍摄的结果geNet中，1次和5次的迭代分别为17k和14k。对于FC100，迭代都在1k处。图4显示了在精度和收敛速度方面，使用和不使用HT元批处理miniImageNet上的结果概述。在表2中，我们可以看到，所提出的具有SS[Θ;θ]、HT元批处理和ResNet-12（预处理）的MTL实现了最佳的少拍分类性能，具有61。2%（5级，1次射击）。除此之外，它处理（5级，5杆）任务的准确性为75。5%，与最先进的结果相当即76。7%，由TADAM [33]报告，其模型在ResNet-12弓中使用了72个额外的FC层。在网络拱方面，很明显，使用ResNet的模型-12（前）优于那些使用4CONV的大幅度，例如。4CONV 模型具有最好的单次拍摄结果，为 50 。44%[50]，即10。比最好的低8%FC 100的结果概述。在表3中，我们使用论文[33]中报告的数字给出了TADAM的结果。我们使用MAML的公共代码[9]来获取这个新数据集的结果。比较这些方法，我们可以看到MTL始终以较大幅度优于MAML即在所有任务中约占7%;并且超过TADAM相对较大的数量，对于1次注射为5%，并且对于1. 5%和1. 8%，分别为5杆和10杆的任务。MTLvs. 没有元学习。表1显示了在顶部块上无元学习的结果。与这些相比，我们的方法即使没有HT元批处理也能实现更好的性能，例如。最大的边际是10。2%，一次注射8. 在miniImageNet上5次拍摄的6%。这验证了我们的元学习方法在解决少数学习问题上的有效性。两个之间不miniImageNet FC1001（拍摄）51510更新[Θ;θ]45.364.638.452.658.6更新θ50.066.739.351.861.0FTθ55.971.441.654.961.1FT[Θ4;θ]57.271.640.954.361.3FT[Θ;θ]58.371.641.654.461.2SS[Θ4;θ]59.273.142.455.161.6SS[Θ;θ]（我们的）60.274.343.655.462.4使用元学习方法，我们可以看到更新特征提取器Θ和分类器θ都不如仅更新θ，例如miniImageNet 1-shot减少约5%。原因之一是在少数拍摄设置中，有太多的参数需要用很少的数据进行优化。这支持了我们在基础学习期间只学习θMTL组件的性能影响。具有全分量、SS[Θ;θ]、HTmeta-batch和ResNet-12（pre）的MTL在两个数据集上的所有少数拍摄设置中实现了最佳性能，参见表2和表3。我们可以得出结论，我们在深度CNN上进行的大规模网络训练显著提高了少量学习性能。这是我们MTL方法中迁移学习思想带来的重要收获。值得注意的是，FC 100上的增益没有miniImageNet那么大：只有1.7%、1. 0%和4. 0%。可能的原因是，FC100的元训练和元测试任务根据超类进行了明确的划分。数据域间隙比miniImageNet更大，这使得传输更加困难。我们的方法中的HT元批处理和ResNet-12（pre）可以推广到其他元学习模型。使用HT元批处理的MAML4CONV在两个数据集上平均增益1%。当通过深度ResNet-12（pre）改变4CONV时，它实现了显著的改进，例如10%和9%在miniImageNet上。与MAML变体相比，我们的MTL结果始终更高，例如。二、百分之五点三。FC 100的3%。人们可能会认为，MAML微调（FT）所有网络参数可能会过度拟合少数数据。在表1的中间块中，我们显示了冷冻消融研究低级预训练层，并且仅元学习高级层（例如，ResNet-12的第4个残差块）。这些都产生劣性能比使用我们的SS。另一个观察结果是SS * 的性能始终优于FT *。MTL的收敛速度。MAML [9]使用240k任务来实现miniImageNet的最佳性能。令人印象深刻的是，我们的MTL方法只使用了8k个任务，参见图4（a）（b）（请注意，每次迭代包含2个任务）。这一优势在FC100上更为明显，MTL方法最多需要2k个任务，见图4（c）（d）（e）。我们证明这一点有两个原因。首先，MTL从预训练的ResNet-12开始。第二，SS（在MTL中）只需要学习表1.在两个数据集上使用消融模型的分类准确度（%）“meta-batch” and “ResNet-12(pre)” are使用ResNet-12时FT数量的2个SS[Θ;θ]，HT元批次SS[Θ;θ]，元批次准确度411特征提取器1-shot 5-shot数据扩充高级ResNet，[28] WRN-40（pre）55.2 69.6<$额外的2个卷积层<$额外的1个卷积层<$额外的72个全连接层表2. miniImageNet数据集上的5向、1次和5次分类准确率（%）。“pre” means pre-trained for a single classifi- cation task using alltraining少样本学习方法特征提取器单次拍摄5次射击10杆梯度下降MAML，[9]4 CONV38.1±1。750.4±1。056.2±0。8存储器网络TADAM，[33]ResNet-12（前）†40.1±0。456.1±0。461.6±0。5MAML，HTFT[Θ;θ]，HT元批次4 CONV39.9±1。851.7±0。957.2±0。8MAML深，HTFT[Θ;θ]，HT元批次ResNet-12（预）41.8±1。955.1±0。961.9±0。8MTL（Ours）SS[Θ;θ]，元批次ResNet-12（预）43.6±1。855.4±0。962.4±0。8SS[Θ;θ]，HT元批次ResNet-12（预）45.1±1。857.6±0。963.4±0。8†额外的72个完全连接的层我们的实现使用MAML的公共代码。表3. Fewshot-CIFAR 100（FC 100）数据集上的5向1次、5次和10次分类准确率（%）。“pre” means pre-trained for a singleclassification task using all trainingHT元批处理的收敛速度。图4示出了1）就所有设置中的识别准确度而言，具有HT元批处理的MTL一致地实现了比具有常规元批处理的MTL更高的性能[9];和2）令人印象深刻的是，具有HT元批料的MTL在早期实现了最佳性能，例如，在更有挑战性的数据集-FC100上，1次激发约2k次迭代，5次激发约1k次迭代，10次激发约16. 结论在本文中，我们表明，我们的新MTL训练HT元批学习课程实现了最佳性能，为解决少数拍摄学习问题。MTL在预先训练的DNN神经元上的关键操作被证明是非常有效的，可以使学习经验适应看不见的任务。这种优越性在极端情况下尤其明显，1-在两个具有挑战性的基准测试上拍摄案例在学习方案方面，HT元批处理对所有基线和消融模型表现出一致良好的性能在更具挑战性的FC100基准测试中，它显示出对提高收敛速度特别有帮助。这种设计不依赖于任何特定的模型，并且可以很好地推广到在线迭代中任务难度易于评估的情况。致谢这项研究是NExT研究的一部分，该研究由新加坡总理办公室国家研究基金会在其IRC@SG基金倡议下支持。该项目也得到了德国研究基金（DFG CRC 1223）和国家自然科学基金（61772359）的部分资助。Delta-encoder，[43]VGG-16（前）58.773.6[52]第五十二话4 CONV43.44 ±0. 7755.31 ±0. 73度量学习ProtoNets，[47]4 CONV49.42 ±0. 7868.20 ±0. 66[50]第五十话4 CONV50.44 ±0. 8265.32 ±0. 70Meta Networks，[30]5 CONV49.21 ±0. 96–内存网络SNAIL，[29]ResNet-12（预）插件55.71 ±0. 9968.88 ±0. 92TADAM，[33]ResNet-12（前）†58.5±0。376.7±0。3MAML，[9]4 CONV48.70 ±1。7563.11 ±0. 92Meta-LSTM，[38]4 CONV43.56 ±0. 8460.60 ±0。71Hierarchical Bayes，[13]4 CONV49.40 ±1。83–梯度下降双层规划[11]ResNet-1250.54 ±0. 8564.53 ±0. 68MetaGAN，[59]ResNet-1252.71 ±0. 6468.63 ±0. 67AdaResNet，[31]ResNet-1256.88 ±0. 6271.94 ±0. 57MAML、HTFT[Θ;θ]、HT元批处理4 CONV49.1±1。964.1±0。9412引用[1] S. Bartunov和D.P. 维特洛夫使用生成匹配网络的少镜头生成在AISTATS，2018年。2[2] S.本焦湾Bengio，J. Cloutier，and J. Gecsei关于突触学习规则的优化。在人工和生物神经网络的最优性，第6Univ. 德克萨斯州，1992年。2[3] Y. Bengio，J. Collobert和J.韦斯顿当前学习。InICML，2009. 二、三[4] O. 我能和F. 弗勒特用蒙特卡洛树搜索进行大规模硬样本挖掘在CVPR，2016年。3[5] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE传输模式分析马赫内特尔，40（4）：834- 848，2018. 2[6] D. Clevert，T.Unterthiner和S.Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习ICLR，2016年。1[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。3[8] D. Erhan，Y. Bengio，A. C.库尔维尔山口曼萨戈尔山口Vin-cent和S.本吉奥。为什么无监督预训练有助于深度学习？Journal of Machine Lear

下载后可阅读完整内容，剩余1页未读，立即下载