学习忘记元学习:初始化对于任务自适应的影响的研究与改进

56 浏览量更新于2023-10-23 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1学习忘记元学习Sungyong Baik Seokil Hong Kyoung Mu Lee ASRI，首尔国立大学{dsybaik，hongceo96，kuanmu}@ snu.ac.kr摘要少样本学习是一个具有挑战性的问题，其目标是从很少的例子中实现泛化。模型不可知元学习（MAML）通过将先验知识作为跨任务的公共初始化来解决这个然而，强制共享初始化可能导致任务之间的冲突和优化景观上的妥协（任务不期望的）位置，从而阻碍任务自适应。此外，我们观察到，冲突的程度不仅在任务中不同，而且在任务的层次中也不同。神经网络。因此，我们提出了任务和逐层衰减妥协的初始化，以减少其影响。由于衰减动态地控制（或选择性地忘记）给定任务和每个层的先验知识的影响，我们将我们的方法命名为L2F（学习忘记）。实验结果表明，该方法具有更快的自适应能力，大大提高了性能。此外，L2F可以很容易地应用和改进其他最先进的基于MAML的框架，说明了它的简单性和通用性。1. 介绍最近的深度学习模型在各个领域都表现出了出色的性能;然而，它们需要有大量标记数据的监督学习。另一方面，人类只能从很少的例子中学习概念。考虑到数据注释的成本，人类从很少的例子中学习的能力是可取的。当在少数据状态下存在过拟合问题时，通常使用数据增强和正则化技术另一种常用的技术是微调在来自另一个数据集或任务的大型标记数据上预先训练的网络[19，26]。微调通常提供自适应而不会过度拟合，即使在少量数据的情况下，但由于许多更新迭代而以计算为代价[31]。相比之下，元学习通过学习者的两个阶段系统地解决问题：元学习者学习共同的图1：当有很大程度的冲突时，更新的初始化在两个任务都不希望的位置结束。这种不期望的（因此受损的）初始化位置可能使得在快速适应每个任务期间学习困难我们的方法通过由任务条件网络g产生的衰减参数γ来最小化每个任务的折衷初始化的影响，从而使快速自适应变得更容易。这使得优化前景更加平滑，因此有助于更好地推广到看不见的示例。跨任务分布的知识，然后用于学习者快速学习任务特定的知识，很少的例子。一个流行的例子是模型不可知的元学习（MAML）[5]，其中元学习者被公式化，使得它学习一个公共初始化，该初始化对跨任务的公共知识进行编码。任务分布存在的假设可以证明MAML在任务之间寻求公共初始化是合理的。但是，任务之间仍然存在差异，其中一些差异可能导致任务之间对初始化位置的不一致。我们称这种分歧为冲突，并在本文中正式定义。编码在这种妥协的初始化中的一些先验知识对于一个任务是有用的，但对于另一个任务可能是不相关的，甚至是不必要的。因此，学习者努力快速学习新概念，而先前的知识与来自新示例的信息相冲突，如图所示。237923806050403020(a) （b）梯度预测性100 50001000015000200002500030000步骤（c）图2：优化景观的可视化：在[23]中，他们通过测量Lipschitzness和损失的“有效”β -平滑来分析优化景观的稳定性和平滑性。我们使用这些测量来分析MAML和我们提出的方法在5路5次miniImageNet分类任务训练期间的学习动态，即研究快速自适应（或内环）优化。在每个内循环更新步骤中，我们测量损失的变化（a），梯度的l2差异（b），以及当我们沿着梯度下降的计算梯度移动到不同点时距离上的最大梯度差异（c）我们将这些值与内部循环更新的数量进行平均，并将它们与训练迭代进行图（a）和（b）中的阴影越薄，图（c）中的值越低，表明损失景观越平滑，因此训练难度越小[23]。ure1.这种学习困难可以表现为急剧损失景观，从而对新示例的概括性差[11，23]。受我们的假设的启发，我们分析并确实观察到快速适应新示例期间的尖锐景观（如图2所示），并建议通过MAML学习的初始化是一个元学习者的一个解决方案是简单地忘记初始化中阻碍适应任务的部分，最大限度地减少其影响。这就提出了两个问题：这些冲突发生在哪里？到什么程度？我们假设，神经网络（尤其是CNN）的各层之间的冲突程度各不相同，因为更深层在分类中学习更多的任务特定知识或类特定知识[34]。为了验证这一假设，我们测量了每一层的冲突，并观察到冲突在更深的层次上确实更严重，如图3（a）所示。我们还观察到，对于图3（c）中的每个任务，学习的初始化和给定任务所需的初始化之间的一致性程度不同。因此，我们认为冲突发生在两个层面：任务和层。受观察的启发，我们提出通过对MAML初始化应用任务和层的衰减来学习选择性遗忘对于每个任务，我们认为初始化权重及其梯度（从任务的支持示例中获得）一起编码关于特定于任务的优化的信息，从而建议以它们为条件来生成衰减参数。至于逐层衰减，我们为每一层生成一个衰减参数。所提出的方法，名为L2F（学会忘记），确实提高了质量的初始化（如图2中更平滑的损失情况所示）和跨不同域的一致性能改进，设法保持MAML的简单性和通用性。2. 相关工作元学习旨在学习跨任务的先验知识，以实现对特定任务的快速适应[2，7，24，25，29]。最近的元学习系统可以大致分为三类：基于度量、基于网络和基于优化。基于度量的系统的目标是通过学习嵌入空间来学习查询和支持示例之间的关系，其中相似的类更接近，不同的类更远离[9，27，28，32]。基于网络的方法将快速自适应编码到网络架构中，例如，通过生成输入条件权重[14，17]或采用外部神经网络[15，22]。另一方面，基于优化的系统调整优化以实现快速适应[5，18，16]。在基于优化的系统中，MAML [5]由于其简单性和通用性而最近受到关注其可推广性源于其学习跨任务初始化的模型不可知算法。初始化的目的是编码先验知识，帮助模型快速学习，并在平均任务上实现良好的泛化性能。虽然MAML拥有简单性，但它在少量学习上表现出相对较低的性能。已经有几项工作试图提高性能，特别是在少数镜头分类[1，10，12，35，8]。然而，这些方法都不能解决这个问题MAMLMAML+L2F- 平滑度2381我我iθTiθ共同适应不同任务的起点最近，有一些作品[17，21，33]试图通过他们提出的任务嵌入来实现任务智能模型或初始化基于度量的系统与MAML有类似的问题，因此TADAM [17]提出学习任务嵌入，然后用于生成仿射变换参数来变换特征。在这项工作中，我们专注于分析MAML的问题，并提高其性能，同时保持其普遍性。LEO [21]试图通过关系网络学习任务嵌入来解决共享初始化的问题，另一项试图放松共享初始化约束的工作是MultimodalMAML [33]，他们提出学习任务嵌入并使用仿射参数转换与[33，21]仅关注初始化任务相关性相比，我们从优化的角度来处理问题，并提供了一个新的见解，即由于优化景观中初始化位置上的任务之间的冲突，MAML初始化的质量受到了影响这种受损的初始化将阻碍快速适应，如图2中的急剧损失情况所示。受冲突现象的启发，我们认为我们只需要减弱（忘记）初始化的妥协部分。事实上，性能提升的很大一部分来自衰减，而不是来自任务条件转换（参见表4）。从优化的角度来看，我们还提供了更有效和高效的任务嵌入。以前的作品[21，33]试图通过直接从输入中学习任务嵌入来实现任务式初始化然而，在没有任何任务标签的情况下学习这种任务嵌入是困难的，需要专门的技术，例如关系网络[21]和度量学习[17]，这些技术可能不适用于其他复杂问题，例如强化学习。我们认为，并观察到的冲突量不同的任务，暗示冲突可以用来识别任务。由于任务的期望初始化和学习的初始化之间的冲突可以用梯度来描述（见3.3节），我们证明梯度本身给出了特定于任务的优化信息，因此可以用来表示任务。因为梯度很容易获得，而且与模型无关，我们不仅实现了有效的，其他基于MAML的方法。3. 该方法3.1. 问题公式化在介绍所提出的方法之前，我们首先制定一个通用的元学习算法。我们假设存在一个任务分布p（T），元学习算法旨在从中学习先验知识，由参数θ的模型表示。每个任务都是从p（T）中采样的，被分成三个不相交的集合：元训练集、元验证集和元测试集。在k-shot学习中，首先从任务T i中采样任务Ti元训练集，随后从Ti中采样k个示例DTi。然后，使用这k个示例来快速适应具有参数θ的模型。然后，新的前-′样本DTi是从相同的任务Ti中采样的，以评估的泛化性能看不见的例子与相应的损失函数，LTi。然后使用来自损失的反馈来调整模型参数θ以实现更好的泛化。最后，元验证集用于模型选择，而元测试集用于对所选模型的最终评估。3.2. 模型不可知的Meta学习为了解决快速适应看不见的任务的问题，我们借用了MAML的哲学和方法 [5]。MAML在初始化中对先验知识进行编码，并为跨任务的神经网络的权重寻找一个“好的形式上，给定一个具有权重θ的网络fθ，MAML学习一组初始权重值θ，这将作为一个良好的从任务分布p（T）中采样的快速适应新任务Ti的起始点。给定来自任务Ti的几个示例DTi和损失函数LTi，网络权重在内环更新期间如下适应Tiθ′=θ−α<$LDTi（f）.（一）为了对具有针对每个任务的自适应权重θ′的模型的泛化性能给出反馈，该模型为：′在新的示例上进行评估，DTi从相同的任务中采样Ti. 以损失梯度的形式表现的反馈是用于更新初始化θ，以便更好地泛化实现了有效的任务式初始化，但也设法保持MAML的简单性和通用性。总的来说，我们提出的方法大大提高了性能-θ←θ−η∇θ′DTiLTi（f θ′）。（二）我不是管理MAML，同时设法保持MAML的简单性和通用性由于它的普遍性，我们进一步表明，我们的方法不仅表现出跨领域的一致改进，包括强化学习;而且我们的方法可以很容易地应用于3.3. 冲突的定义虽然MAML非常简单，但它的局限性来自于这样一个事实，即初始化是跨任务分布共享的。尽管MAML的目标，Σ2382D我乌岛1.551.501.451.401.351.30MAML_layer 4MAML_layer 3MAML_layer 2MAML_layer1Ours_layer4 Ours_layer3 Ours_layer2 Ours_layer11.701.651.601.551.501.451.4030025020015010050020 40 60 80 100时代(a) 每层的冲突程度（b）每层的手册γ0 100 200 300 400 500任务索引(c) 每项任务的冲突程度0.0 0.2 0.4 0.6 0.8 1.0衰减参数(d) 为每个任务生成γ图3：冲突程度和衰减分析：（a）在整个培训过程中，冲突程度被测量并观察到在各层之间存在差异。对于MAML，更深的层表现出更大程度的冲突，这与更深的层编码更多任务特定特征的观察结果一致[34]。在将L2F应用于MAML之后，观察到冲突大大减少。(b)每个层的初始化的不同级别的手动衰减（γ越低，衰减越强）会影响miniImageNet上4层CNN的分类准确性。该图表明，较深的层更喜欢较强的衰减。这支持了我们的论点，即较大程度的冲突表明初始化质量受到更多的损害，并且需要将受损部分最小化。（c）观察到每个元列车任务与MAML初始化之间的冲突程度是变化的。这表明，有用的先验知识量对于每个任务是（d）对于每个元测试任务，特别是对于中间层，所提出的方法产生不同的衰减参数γ这表明每个任务的冲突程度不同，特别是在中层。是学习快速适应新任务的“好”起点，共享的初始化实际上阻碍了快速学习过程。图2中快速自适应期间的急剧优化景观说明了这一点。这主要是由于任务之间在“良好”起点的位置上存在分歧我们称这种分歧为冲突。在每次训练迭代中，每个任务Ti通过梯度使初始化更接近期望位置：ui=′元更新期间的− <$θLTi（f θ′）。然而，由于MAML共享初始化，则通过在一批任务iui上累积的梯度来进行更新，如等式（二）、因此，在两个任务的示例中，当任务Ti和任务Tj的梯度方向，即，ui和uj的方向不同。它们的方向越不同，初始化更新就越偏离ui和uj，指向对于Ti和Tij 都不期望的位置。我们把这种现象称为初始化中的compromise。我们将任务间的冲突度定义为ui与iui之间的平均夹角，并将其作为平均绝对弧来度量。点P的直线产品介绍归一化向量，ETip（T）[. cos−1（ui·v）. ]，其中ui是快速学习新任务，如图2中的急剧损失景观所示。这表明学习者发现初始化的某些部分与学习给定任务无关甚至有害。因此，我们建议通过直接衰减初始化参数θ来丢弃先验知识的这种折衷部分。那么，人们可能会问，哪个参数会受到损害？为了回答这个问题，我们参考了之前的发现，即CNN的较低层编码一般知识，而较深层包含更多特定于任务的信息[34]。根据这一观察，我们假设较低的层不需要太多的衰减，而较深的层需要。为了支持我们的假设，我们进行了一个实验，如图3（b）所示，我们改变了每层的衰减量（γj），以观察每层的收益。正如预期的那样，较深的层有利于较强的衰减，而较低的层则倾向于几乎没有衰减。这就引出了第二个问题：这些参数应该逐层衰减多少？一个答案是让模型学会找到一组最佳的衰减。这两个问题的答案引出了我们的建议：通过ap学习逐层衰减ui并且v是伊苏岛Σiiui. 图3（a）测量了将单个可学习参数γj应用于每个层θj的初始化参数，如下：在每个时代的冲突，并表明，冲突在更深层中确实更突出，这与更深层编码更多特定于任务的特征的观察结果一致[34]。3.4. 学会遗忘当冲突程度高时，我们说初始化更妥协，因此更困难θ<$j=γjθj，（3）其中j是神经网络的层索引。衰减的初始化θ<$用作快速适应任务的新起点尽管这可能会降低原始MAML初始化中可能存在的妥协程度，但人们可能会问，初始化中不必要或矛盾的信息量是否在第4层（MAML+L2F）第3层（MAML+L2F）第2层（MAML+L2F）第1层（MAML+L2F）层（MAML）程度的冲突程度的冲突任务索引2383我我不我我′θ Tθi我不我我i iθ′Tiθ′算法1元学习Require：任务分配p（T）要求：学习率α，η1：随机初始化θ，φ2：设θ={θj}j=1. 其中j是层指数x，l是网络的层数第三章：而不收敛4：对一批任务Tip（T）进行5：对于每个任务Ti，′6：来自Ti的示例（DTi，DTi）D7：通过评估L来计算L（f）其中γi={γj}是第i个任务的逐层伽马的集合，gφ是参数φ的3层MLP网络，在末端具有S形以便于衰减。为为了生成逐层伽马，网络以梯度的逐层平均值为条件。在初始化适应每个任务之后，网络经历如等式（1）中的快速适应，并且在训练期间如等式（2）中更新初始化。算法1中总结了整个训练过程。4. 实验到DTiTiθTi在本节中，我们展示了有效性和生成-图8：计算每层的衰减参数γ通过大量实验验证我们的方法{γj}j =1. l= g（L.D.Ti（f）），在各种问题上，包括少数镜头分类，重新，iφ θTiθ9：计算衰减初始化：θ<$j=γjθj10：初始化θ′={θ<$j}j=1. L回归和强化学习。i i4.1. 少炮分类11：对于内部循环更新的数量，D12：通过评估L来计算L（f′）关于RE-两个著名的数据集，miniImageNet和tieredIma-Tiθ iTt我不是geNet用于分类测试，两者都是13：执行梯度下降以计算自适应权值：θ′=θ′−α<$LDTi（f）从ImageNet数据集提取，同时考虑到对于学习较少的场景。miniImageNet是通过从ILSVRC-12中随机选择100个类来14：结束我我′DTi数据集，每个类由600个大小为8415：计算LTi （f θ′）通过对LTi求′到DTi16：结束17：执行梯度下降以更新权重：（θ，φ）←×84 [32]。构建的数据集被分为3个不相交的子集：64个类用于训练，16个用于验证，20个用于测试[18]。tieredImageNet是一个更大的子集，有608个类，（θ，φ）−η（θ，φ）18：结束时任务TiTiLTi（fθ′）共779，165张84× 84的图像根据ImageNet层次结构，类被这些类别然后被分成3个不相交的集合：20个类别6个用于培训，6个用于验证，8个用于测试。根据[20]，这最小化了训练和测试之间的类相似性，从而使问题更具挑战性，当然，同意和不同意的程度其他的则针对不同的任务而有所不同这可以在图3（c）中观察到，其中观察到所测量的冲突程度对于每个任务是不同的。因此，对于层2的最佳衰减是什么，任务之间没有共识，如图3（d）中每个任务优选的不同衰减所示。为了解决这种冲突，除了逐层衰减之外，我们提出了任务相关衰减。但是，这提出了另一个问题：哪些信息可用于使衰减依赖于任务？我们求助于梯度函数来寻找答案。用于通过梯度下降进行快速自适应的梯度不仅保存任务特定的信息，而且还对来自给定任务Ti的初始化质量进行编码。优化的视角。因此，我们建议计算D现实tieredImageNet和miniImageNet的实验在典型设置下进行：5路1次和5路我不是在初始化和条件a下的梯度Δ L （f）联系我们网络gφ，以生成任务相关衰减：一个预先训练好的网络DTiγ=g（μL（f）），（4）表1：5路miniImageNet分类的测试精度iφ θTiθ骨干迷你图像单次拍摄Genet5次射击[32]第三十二话4转换四十三44 ±0。百分之七十七55. 31 ±0。百分之七十三元学习者LSTM（Ravi et al. （2017年）4转换四十三56 ±0。百分之八十四六十岁。60 ±0。百分之七十一MetaNet（Munkhdalai et al. （2017年）5转换四十九21 ±0。百分之九十六−LLAMA [6]4转换四十九40 ±0。百分之八十四−[28]第二十八话原型网络（Snell et al. （2017年）4转换4转换50块44 ±0。百分之八十二四十九42 ±0。百分之七十八六十五32 ±0。百分之七十68岁20 ±0。百分之六十六MAML（Finn et al. （2017年）4转换四十八70 ±1。百分之七十五63岁11 ±0。百分之九十一MAML++（Antoniou et al. 2019年度）4转换52岁15 ±0。百分之二十六68岁32 ±0。百分之四十四MAML+L2F（我们的）4转换52岁10 ±0。百分之五十69岁。38 ±0。百分之四十六MetaGAN [35]ResNet1252岁71 ±0。百分之六十四68岁63 ±0。百分之六十七[第13话]ResNet 12*55. 71 ±0。百分之九十九68岁88 ±0。百分之九十二AdaResNet [15]ResNet12五十六88 ±0。百分之六十二七十一94 ±0。百分之五十七2384*预先训练的网络。tieredImageNet整个网络，或网络的每一层、每一滤波器和每一权重的个别衰减参数。为了专注于研究哪个范围的衰减是最有益的，我们删除了与任务相关的部分，并使衰减参数可学习（值初始化为1），而不是由网络gφ生成。我们在miniImageNet上使用4层CNN在5路5次分类设置中进行了消融研究，结果见表4。正如预期的那样，分层-表2：5-way tieredImageNet分类5次射击分类。有关其他数据集的更多实验，如FC 100[17]，CIFAR-FS [3]和Meta-Dataset [31]，请参阅补充材料。4.1.1结果我们提出的方法的结果，其他基线和miniImageNet和tieredImageNet上现有的最先进的方法分别在表1和表2中给出。该方法大大提高了MAML的性能。我们注意到，我们提出的方法仍然是模型不可知的，并且即使没有微调，也可以达到比具有相同主干的最先进方法更好或相当的为了显示概括的contrary，我们应用L2F的国家的最先进的基于MAML的系统LEO和演示的性能改善，实现新的国家的最先进的性能。4.1.2消融研究内环MAML MAML+L2F（Ours）表3：5路5次miniImageNet分类的内环更新步骤的消融研究。内部循环更新步骤有人可能会说，比较是不公平的，因为有一个额外的调整初始化参数之前，内部循环更新。表3显示了针对拟定和基线的内环更新次数的消融研究，以证明每次增益不是由于参数的额外调整次数。相反，好处来自于忘记不必要的信息，帮助学习者快速适应新任务。衰减范围1可能会好奇并问：逐层衰减是最好的方法吗？因此，我们分析了不同的衰减范围;衰减给出了最大的性能增益。加权或滤波衰减参数可以具有更精细的控制，但是这些参数具有有限的范围，因为它们不具有关于在层或网络级别发生的冲突的信息。另一方面，当梯度通过不同的权重/滤波器以达到相同的衰减参数时，逐层和逐网络参数获得关于相邻权重中的冲突的信息，因为衰减参数由这些权重/滤波器共享同时，网络式参数没有足够的控制，因此比层式参数表现更差。在控制和信息增益之间的权衡中，逐层已经显示出达到了正确的平衡。任务调节的影响表 4 报告了与我们的完整模型MAML+L2F相比，逐层衰减模型的较低性能。分层衰减模型和我们的模型之间的唯一区别是，分层衰减模型缺乏任务条件化。可以观察到，在我们的方法中，最大的性能增益来自衰减，暗示衰减的重要性。无论如何，任务调节也确实提高了表现。任务嵌入的表示为了验证gra-texture包含关于任务的高质量信息，我们将网络g设置为来自预训练的原型网络[27]（类似于TADAM [17]）的类原型的平均值作为任务表示。表5表明，我们使用梯度作为任务表示的方法与使用类原型的平均值的方法类似或稍好这表明了GRA的有效性。衰减范围精度无（MAML，我们的复制品）63岁94 ±0。百分之四十八参数式六十四7 ±0。百分之四十三过滤式六十五35 ±0。百分之四十八逐层68岁49 ±0。百分之四十一网络式67岁84 ±0。百分之四十六MAML+L2F（我们的）69岁。38 ±0。百分之四十六表4：衰减范围的消融研究。除MAML+L2F外，所有模型都学习与任务无关的衰减参数，以单独说明衰减范围的影响，而没有任务条件化。骨干单次拍摄5次射击MAML4转换四十九06 ±0. 百分之五十67岁48 ±0。百分之四十七MAML+L2F（我们的）4转换五十四40 ±0。百分之五十七十三。34 ±0。百分之四十四MAMLResNet12五十八58 ±0。百分之四十九七十一24 ±0。百分之四十三MAML+L2F（我们的）ResNet1263岁94 ±0。百分之四十八七十七。61 ±0。百分之四十一更新步骤1五十六93±0。百分之三十二68岁16 ±0。百分之四十七255. 63 ±0。百分之五十66岁。85±0。百分之四十九3五十八79±0。百分之四十九68岁61 ±0。百分之四十六2385我我我miniImageNet5次射击68.第68章大结局73 ±0。百分之四十六69.第69章我的世界48 ±0。百分之四十六表5：任务嵌入表征类型的消融研究型号描述精度163.我的超次元帝国94±0。百分之四十八型号1步2步5步1.2247 1.0268 0.89955发训练MAML+L2F（Ours）1.05370.84260.7096MAML0.98840.61920.407210发训练MAML+L2F（Ours）0.80690.53170.369620发训练MAML0.61440.33460.1817MAML+L2F（我们的）0.54750.28050.1629表7：在k-shot回归上具有95%置信区间的我们的方法在所有梯度步骤中始终优于。2MAML+任务相关非sigmoided γj，δj66. 22± 0。百分之四十七我我3MAML+任务相关非S形γj67岁56 ±0。百分之四十七4.2. 回归我们的 MAML + L2F（任务相关sigmoided γj）69. 38 ±0。百分之四十六表6：对任务条件转换的消融研究，以说明衰减的有效性。从优化的角度来看，梯度是任务表示，特别是因为梯度是简单的获得和模型不可知的，而类原型是高维的，不适用于不同的领域。衰减效应分析L2F的每个部分（即，遗忘和任务依赖），我们将每个模块分别应用于MAML，并在表6中给出结果。由于对任务依赖性的有效性的研究已经在表4中给出，因此我们现在关注与其他变体转换相比的衰减的有效性为此，我们探索不同类型的任务相关的初始化转换。我们从衰减的简单超集开始：无S形的γ（模型3），使得γ i不再被限制在0和1之间，并且因此不促进衰减。我们还探索了一个更灵活的选择：仿射变换（模型2），其中网络g φ生成两组参数γ i，δ i，而没有sigmoid，这将通过γjθj+δj调制fθ。我们研究了所提出的方法跨域的推广性，从评估的性能在k-shot回归。在k-shot回归中，目标是拟合给定k个点样本的函数。根据[5，12]的一般设置，目标函数被设置为在任务之间具有变化的幅度和相位的正弦曲线。振幅、频率和相位的采样范围定义了任务分布，并且对于训练和评估都设置为回归在图4（a）中可视化，而其预测，以均方误差（MSE）衡量，见表7。结果表明，该方法不仅收敛速度快，而且对目标函数的拟合精度更高。为了进一步强调MAML+L2F初始化的通用性，我们广泛地增加了新任务与先验知识之间的冲突程度为此，我们修改了设置，以便从非重叠范围中采样幅度、频率和相位，用于训练和评估（有关详细信息，请参阅补充材料）。在图4（b）中，我们的模型具有更高的准确性，因此具有更好的泛化能力。4.3. 强化学习i i为了进一步验证L2 F的普遍性，我们评估-表6说明了MAML获得的性能提升在不同类型的任务依赖转换，表明任务依赖的好处我们有理由期望，更灵活的转换（模型2和3）将允许任务将初始化带到更合适的位置，以实现快速适应。有趣的是，分类准确度下降，因为更多的灵活性被赋予初始化的转换这种表面上的矛盾强调了衰减的必要性（在我们的模型中是sigmoidedγj），而不仅仅是初始化的简单变换，以忘记初始化中编码的先验知识的受损部分我们想要强调的是，具有表4中的任务无关层或网络方式衰减的MAML比表6中的其他任务条件转换执行得更好。这表明，忘记受损的初始化比使其适应任务更重要。增强学习的性能，特别是在[4]和[5]中的2D导航和运动环境中。我们在下面简要概述了任务说明（详情请参阅补充材料）。图5显示了在不同实验中相对于MAML的一致改善。这巩固了我们提出的方法的通用性和有效性。4.3.12D导航2D导航任务是在2D空间中将智能体从起点移动到目的地点，其中奖励被定义为到目的地点的距离的平方的负数我们遵循[5]中的实验程序，其中他们固定起点，仅在任务之间改变目的地的位置。图5（a）显示了我们的模型在两个实验设置中更快，更精确的导航，2386真正功能MAML 1级步进MAML 5级步进42024MAML我们的先知MAML 3级步进我们的3级阶梯起点终点0.50.00.5MAML我们的先知442200224 4(a) 5，10次回归（b）5次回归图4：MAML + L2F（我们的）与MAML的少次回归：（a）从同一分布中抽取任务进行培训和评价。（b）从非重叠分布中抽取任务进行训练和评估。在这两种情况下，MAML+L2F（Ours）更适合真实函数。400600.51030080200.0300.52001000100120140160MAML我们的先知0 1 2 3梯度阶数(a) 2D导航0 1 23梯度阶(b) 半猎豹（方向）0 1 2 3梯度阶(c) 半猎豹（速度）图5：3种不同环境下的强化学习结果结果表明，MAML+L2F（Ours）可以比MAML更快地适应每个任务。和质量。这巩固了任务之间冲突的严重性4.3.2Mujoco作为一个更复杂的学习环境，我们使用MuJoCo模拟器进行运动实验[30]，其中有两组任务：要求机器人在一组中沿特定方向移动，而在另一组中以特定速度移动。对于这两个实验，我们的方法在大的边缘优于MAML，如图5（b），（c）所示。4.4. 损失景观我们进一步验证了我们的模型的有效性，展示了在将L2F应用于miniImageNet分类任务的MAML后更平滑的损失情况，如图2所示。在训练的初始阶段，L2F似乎更困难，而MAML的优化似乎更稳定。这一点乍看起来似乎矛盾，但实际上进一步证实了我们关于任务之间冲突的论点。在开始时，MAML初始化没有得到足够的训练，因此还没有足够的任务分配的先验知识。随着训练的进行，初始化编码更多关于任务分配的信息，并且更频繁地遇到任务之间的冲突对于L2F，衰减器gφ最初不具有关于任务分布的足够知识，因此生成无意义的衰减γi，从而使初始化恶化。但是，衰减器越来越多地编码更多的信息，关于任务分布，产生更合适的衰减γi，与任务很好地对应。因此，生成的γi允许学习者忘记先前知识的不相关部分，以帮助快速适应，如通过增加景观的稳定性和平滑度所示。5. 结论在本文中，我们认为，强制共享一个共同的初始化在MAML引起冲突的任务，从而导致在妥协的初始化位置严重急剧的损失情况表明，这种妥协使MAML初始化成为快速适应的“坏”起始位置。我们建议通过促进遗忘（衰减）可能阻碍快速适应的不相关信息来解决这种差异。具体来说，我们提出了一个任务相关的逐层衰减，命名为L2F，动机是观察到妥协的程度在网络层和任务之间变化。通过在不同领域的广泛实验，我们验证了我们的论点，即选择性遗忘大大促进快速适应，同时保持MAML的简单性和普遍性致谢这项工作得到了韩国科学和信息通信技术部资助的IITP赠款的支持（第100号）。2017-0-01780），以及现代汽车集团通过HMG-SNU AI Consortium 基金（No.5264-20190101）。42024真正功能我们的5个梯度步骤MAML 5个梯度步骤420243210123真正功能我们的5个梯度步骤MAML 5个梯度步骤42024真正功能我们的1个梯度步骤我们的5个梯度步骤42024平均报酬平均报酬平均报酬2387引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。2019年，在ICLR。2[2] Samy Bengio ， Yoshua Bengio ， Jocelyn Cloutier ， andJan Gecsei.关于突触学习规则的优化。在预印本会议中人工和生物神经网络中的最优性，第6-8页。德克萨斯大学，1992年。2[3] 放大图片作者：Luca Bertinetto，Joao F.亨里克斯，菲利普·托尔，安德里亚·维达尔迪.使用可微封闭形式求解器的元学习。2019年，在ICLR。6[4] Yan Duan，Xi Chen，Rein Houthooft，John Schulman，and Pieter Abbeel.对标深度强化学习进行持续控制。InICML，2016. 7[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。一、二、三、七[6] Erin Grant ， Chelsea Finn ， Sergey Levine ， TrevorDarrell和Thomas Griffiths。将基于梯度的元学习重构为分层贝叶斯。在ICLR，2018年。5[7] Sepp Hochreiter，A Younger，and Peter Conwell.学习使用梯度下降。人工神经网络，ICANN 2001，第87-94页，2001年。2[8] Xiang Jiang ， Mohammad Havaei ， Farshid Varno ，Gabriel Chartrand，Nicolas Chapados，and Stan Matwin.学习学习有条件的类依赖。2019年，在ICLR。二、五[9] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，2015年。2[10] Yoonho Lee和Seungjin Choi。基于梯度的Meta学习，学习分层度量和子空间。在ICML，2018。2[11] Hao Li，Zheng Xu，Gavin Taylor，Christoph Studer，and Tom Goldstein.可视化神经网络的损失景观。在NIPS，2018年。2[12] Zhengguo Li，Fengwei Zhou，Fei Chen，and Hang Li.Meta- sgd：学习快速学习，进行少量学习。CoRR，abs/1707.09835，2017。二、七[13] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel.一个简单的神经专注元学习者。在ICLR，2018年。5[14] Tsendsuren Munkhdalai和Hong Yu。Meta网络。在ICML，2017. 2[15] Tsendsuren Munkhdalai，Xingdi Yuan，Soroush Mehri，and Adam Trischler.有条件移位神经元的快速适应。在ICML，2018。二、五[16] Alex Nichol，Joshua Achiam，and John Schulman.一阶元学习算法。CoRR，abs/1803.02999，2018。2[17] 鲍里斯 ·N. Oreshkin ， Pau Rodriguez ， and AlexandreLacoste. Tadam：用于改进少镜头学习的任务相关自适应度量。在NIPS，2018年。二、三、六[18] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。二、五[19] Ali Sharif Razavian 、 Hossein Azizpour 、 JosephineSullivan和Stefan Carlsson。Cnn的特色现成的：一个惊人的识别基线。2014年CVPR研讨会。12388[20] Mengye Ren ， Eleni Triantafillou ， Sachin Ravi ， JakeSnell ， Kevin Swersky ， Joshua B.Tenenbaum ， HugoLarochelle，and Richard S.泽梅尔用于半监督少镜头分类的元学习。在ICLR，2018年。5[21] 安德烈·A. Rusu、Dushyant Rao 、Jakub Sygnowski、Oriol Vinyals、Razvan Pascanu、Simon Osindero和RaiaHadsell。具有潜在嵌入优化的元学习。2019年，在ICLR。三、五[22] Adam Santoro，Sergey Bartunov，Matthew Botvinick，Daan Wierstra，and Timothy Lillicrap.使用记忆增强神经网络的元学习ICLR，2016年。2[23] Shibani Santurkar，Dimitris Tsipras，Andrew Ilyas，andAlek- sander Madry.批处理规范化如何帮助优化？在NIPS，2018年。2[24] 尤尔根·施密德胡贝尔自我参照学习中的进化原则。学习如何学习：Meta... hook.）毕业论文，f研究所信息技术慕尼黑大学，1987年。2[25] J ür genSchmidhube r. 学习控制快速权重备忘录：动态递归网络的替代方案。Neural Computation，4（1）：131-139，1992. 2[26] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深2015年，国际会议。1[27] 杰克·斯内尔凯

下载后可阅读完整内容，剩余1页未读，立即下载