基于任务自适应损失函数的少镜头学习元学习

132 浏览量更新于2023-10-15 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9465基于任务自适应损失函数的少镜头学习元学习Sungyong Baik1 Janghoon Choi1 Heewon Kim1 Dohee Cho1 Jaesik Min2 Kyoung Mu Lee11首尔国立大学幼儿教育系ASRI2现代汽车集团2{dsybaik，ultio791，ghimhw，jdh12245，kyoungmu}@hyundai.com snu.ac.kr摘要在少数镜头学习场景中，挑战是在只有很少的标记示例可用于每个任务时，在新的看不见的示例上生成并表现良好。模型不可知元学习（MAML）以其灵活性和对不同问题的适用性，作为具有代表性的少样本学习方法之一，得到了广泛的应用。然而，MAML及其变体通常采用简单的损失函数，而没有任何辅助损失函数或正则化项，可以帮助实现更好的泛化。问题在于，每个应用和任务可能需要不同的辅助损失函数，特别是当任务是多样的和独特的。我们引入了一个新的元学习框架，它具有适应每个任务的损失函数，而不是试图为每个应用程序和任务我们提出的框架，命名为元学习与任务自适应损失函数（METAL），展示了跨各个领域的有效性和灵活性，如少数镜头分类和少数镜头回归。1. 介绍训练深度神经网络需要大量的标记数据和相应的工作，这阻碍了它在新领域的快速应用。因此，人们对少次学习的兴趣越来越大，其中目标是使人工智能系统具有学习新概念的能力，仅给出很少的标记示例（例如：支持示例）。少样本学习的核心挑战是减轻深度神经网络在少数据状态下过度拟合的敏感性，并实现对新示例的泛化（例如，在新示例上的泛化）。查询示例）。最近，元学习[34，40]，a.k.a. learning-to- learn已经成为少数学习的主要方法之一。元学习被用于少样本学习领域，以学习能够适应新任务并在少数据状态下泛化的学习框架。图1.基于优化的元学习框架中的内循环优化的概述。(a)传统的方法，如MAML [10]，利用固定的给定经典损失函数（例如，用于分类的交叉熵）。(b)我们提出的方案Metal替代地元学习损失函数，该损失函数的参数在适应第i个任务的第j个步骤处适应于当前任务状态τ在元学习算法中，基于优化的元学习算法由于其灵活性和跨领域的应用而受到不同领域的关注。基于优化的元学习算法通常被公式化为双层优化[10，25，29]。在这样的公式中，外循环优化训练学习算法以实现泛化，而内循环优化使用学习算法来使基础学习器适应具有很少示例的新任务。模型不可知元学习（MAML）[10]是一种开创性的基于优化的元学习方法，它学习网络权重的初始值集以实现泛化。所学习的初始化充当用于适应具有很少示例和很少更新的新任务的良好起点。虽然学习的初始化是19466虽然MAML被训练成一个很好的起点，但它经常面临实现泛化的困难，特别是当训练和测试阶段之间的任务不同或显著不同时[9]。一些工作试图通过尝试找到更好的初始化[5，13，11，15，43，47]或更好的快速自适应过程（内部循环更新规则）[2，7，19，20，32]。然而，这些方法诉诸于一个简单的损失函数（例如分类中的交叉熵），即使其他辅助损失函数，例如2正则化项，也可以帮助实现更好的泛化[4]。另一方面，我们专注于设计一个更好的损失函数的内环优化MAML框架工作。如图1所示，我们提出了一个名为Meta-LearningwithT ask的新框架-一个自适应的Loss函数（Metal），以学习一个自适应的损失函数，从而为每个任务带来更好的泛化。具体来说，Metal通过两个元学习器学习任务自适应损失函数：一个元学习器用于学习损失函数，一个元学习器用于生成变换学习的损失函数的参数。我们的任务自适应损失函数被设计成灵活的，因为两者都被标记（例如，支持）和未标记（例如，查询）示例可以一起使用，以在内循环优化期间使基础学习器适应每个任务实验结果表明，MetAL极大地提高了MAML的泛化能力。由于METAL的简单性和灵活性，我们进一步证明了它的有效性，不仅在不同的领域，而且其他基于MAML的算法。当应用到其他基于MAML的算法，金属始终带来了大量的推广性能的提高，引入一个新的国家的最先进的性能之间的MAML基于算法。这暗示了任务自适应损失函数的重要性，与初始化方案和内循环更新规则相比，它引起的关注较少。总体实验结果强调，学习更好的损失函数的内部循环优化是重要的补充组成部分，以学习更好的内部循环优化。循环更新或更好的初始化。2. 相关工作少镜头学习旨在解决每个任务只有几个例子的情况。最终目标是用这些给定的几个例子学习新任务，同时在看不见的例子上实现泛化。为此，元学习算法试图通过学习来自先前任务的先验知识来解决少量学习问题，然后将其用于适应新任务而不过度拟合[8，14，34，35，40]。根据先验知识的学习和任务适应过程的制定方式，元学习系统通常可以分为基于度量学习的，基于黑盒或网络的和基于优化的AP。接近基于度量学习的方法将先验知识编码到嵌入空间中，其中相似（不同）类彼此更接近（更远离）[21，17，37，38，42]。黑盒或基于网络的方法采用网络或外部存储器来直接生成权重[23，24]、权重更新[1，14，29]或权重更新[1，14，29]。预测[22，33]。同时，基于优化的方法采用双层优化来学习学习过程，例如初始化和权重更新，这些过程将用于适应具有少量示例的新任务[2，4，5，10，20，25，36]。在这项工作中，我们专注于模型不可知元学习（MAML）算法[10]，这是优化方法中最受欢迎的实例之一MAML公式化的先验知识作为一个可学习的初始化，从一个新的任务后，基于梯度的微调与给定的几个例子，可以实现良好的泛化性能虽然MAML以其简单性和灵活性而闻名，但它也以其相对较低的通用化性能而闻名。最近有研究通过增强初始化的学习方案[5，15，32，41，43]或改进初始化的学习方案来提高整体性能。证明基于梯度的微调过程[2，4，20，36]。然而，上述工作在内环优化期间仍然仅采用对应于任务的公共损失函数（例如，分类中的交叉熵）。另一方面，常见的深度学习框架通常使用辅助损失项，例如2正则化项，以防止过拟合。由于少量学习的目标是在仅使用少量示例进行适应后实现对未知示例的泛化，因此使用辅助损失项似乎是一个自然的选择。最近引入的几种方法在内环优化中应用了辅助损失函数，以降低计算成本[18，28]或提高泛化能力[12]。其他工作试图学习损失函数，用于强化学习（RL）[39，45，46，48]，监督学习[6]，并将无监督学习纳入少数学习[3]。然而，来自这些方法的损失函数具有特定于任务的要求，例如RL中的环境交互，或者在训练后保持固定当新任务可能偏好不同的损失函数时，固定损失函数可能是不利的，特别是在训练任务和新任务显著不同的情况下（例如，训练任务和新任务的损失函数不同）。跨域少数镜头分类[9]）。为此，我们提出了一个新的元学习框架与任务自适应损失函数（METAL）。特别地，任务特定的损失函数由元网络学习，该元网络的参数适于给定的任务。Metal算法不仅具有优异的性能，而且保持了算法的简单性，可以与其他元学习算法联合使用。9467不Q我Qi=1我不不我我=arg minL（D;θ，θ），（1）D我DL我S我Xiq=1我我s=1我我我 s=1我我我我q=1我我我我i，J我 i，J我我我q=1我我SQ QQQQ算法1具有任务自适应损失的Require：任务分配p（）要求：学习率α，η要求：基础学习者网络f，元网络g，l算法2内循环更新子程序Require：基本学习器f的权重θi，j需要：元网络g，l，带参数Require：Support set examplesDS随机初始化要求：我{q}M如果半2：不收敛时3：对一批任务Tip（T）进行4：对于每个任务Tido监督设置1：计算支持集f（xs=1：K;θi，j）={f（xs;θi，j）}K5：样本支持集DS={（xs，ys）}K6：样本查询集D={（x，y）}M从Ti从T2：计算支撑集上的损失：L（DS;θi，j）=L（f（xs=1：K;θi，j），ys）7：初始化θi，θ=θ8：对于内部循环更新的数量J中的j，do9：使用算法2自适应θ ←θ第三章：计算任务状态：第四章：如果监督，则5：τi，j=[L（DS;θi，j），θi，j，{f（xs=1：K;θi，j）}K]10：结束i，j+1i、j我我第六章：否则如果是半监督的，则s=111：计算查询集上的损失：L（D;θ）=L（f（x;θ），y）7：计算查询集上的基本学习器输出f（xq=1：M;θi，j）={f（xq;θi，j）}M12：结束13：执行梯度下降以更新权重：8： τi，j=[L（DS;θi，j），θi，j，f（xs=1：K;θi，j），f（xq=1：M;θi，j）]（θ，，ψ）←（θ，，ψ）−η（θ，，ψ）ΣTi L（Di;θ i，J）我我第九章： end if十四： end while3. 该方法3.1. 预赛3.1.1问题公式化我们首先介绍了在少数学习的背景元学习框架假设任务的集合{Ti}T，其中的每一个都是-10：计算仿射变换参数：γi，j，βi，j=g（τi，j;ψ）十一：调整损失函数参数：′i，j=γi，j12：计算任务适应性损失：L’i，j（τi，j）13：执行梯度下降以使f适应Ti：θi，j+1=θi，j−αθi，jL′i，j（τi，j）元学习算法的目标变为，从任务分布p（T）中提取。每个任务Ti由数据集Di的两个不相交的集合组成：DS和查询集DQ。每一个人，都是一个人，一个人。*= arg minϕETip（ T）[L（DQ; θi，θi）].（二）输入x和输出y对的误码率：DS={（xs，ys）}K3.1.2模型不可知元学习且DQ={（xq，yq）}M。我我我s=1i i iq=1元学习的目标是学习一种学习算法（由具有参数的模型制定），该算法可以从任务分布p（）中快速学习任务。然后，利用所学习的学习算法，通过使用任务支持示例D_S适配由θ参数化的基础学习器来学习新任务i，其由下式给出：θiiθ角其中表示评估任务性能的损失函数。由于支持集S被用于学习任务，因此在以下情况下，少次学习通常被称为k次学习：MAML [10]将先验知识编码为可学习的初始化，该初始化作为跨任务的基础学习器网络的权重的良好初始值集。该公式（其中用于基础学习器的元学习初始化）导致两级优化：内环优化和外环优化。对于内循环优化，基础学习器通过梯度下降从可学习的初始化θ到用于固定数量的权重更新的每个任务用支持示例S进行微调。因此，在初始化θi，θ=θ之后，任务自适应目标（等式（1））经由梯度下降被最小化。第j步的内循环优化表示为：k个支持示例可用于每个任务（|DS|=K= k）。θi，j+1=θi，j−αθi、jL（Di; θi，j）.（三）所得到的特定于任务的基础学习者由参数θi表示。然后评估由参数化的学习算法关于特定于任务的基础学一曰：θ，，ψ无标签查询集示例9468习器θi如何推广到看不见的查询示例DQ。因此，在本发明中，然后，在J个内环更新步骤之后，任务特定的基础学习器参数θi变为θi，J。在外环优化的情况下，Meta学习初始化θ通过泛化来评估。9469我D我我D不L我D不L·L我我D我我LL D不我我（θ，，ψ）θ← θ − ηθΣL（DQ; θi）.（四）我我具有参数θi（或θi，J）的任务特定的基础学习者在看不见的查询示例Q上的表现。然后，将在未见过的示例上评估的泛化用作反馈信号以更新初始化θ。换句话说，MAML使Meta学习算法的目标最小化，如等式（2）所示，如下：我为了训练我们的元学习框架以概括不同的任务，这涉及优化参数θ、和ψ，对于给定相应的任务特定学习者的每个任务Ti执行外循环优化θi及其在查询集合DQ中的示例，如在，（θ，，ψ）←（θ，，ψ）− η ΣL（DQ;θ）.（七）我不是我不是3.2. 任务自适应损失函数（Metal）3.2.1概述先前的元学习公式假设给定任务i的全监督设置，其中它们使用支持集S中的标记示例来通过最小化固定的给定损失函数来找到特定于任务的基础学习者θi.另一方面，我们的目标是控制或元学习损失函数本身，这将调节整个自适应或内环优化过程，以实现更好的泛化。我们从元学习一个内循环优化损失开始函数（），由一个具有元学习参数的小型神经网络建模。因此，等式（3）中的内环更新变为：θi，j+1=θi，j−αθi，jL（τi，j），（5）其中τi，j表示在时间步长j处i的任务状态，其通常仅是在典型元学习公式的情况下的支持集S，如等式（3）中。由于不同的任务（特别是在跨域场景下[9]）可能在适应过程中更喜欢不同的正则化或辅助损失函数，甚至损失函数本身，以实现更好的泛化，我们的目标是学习使损失函数本身适应每个任务。为了使元学习损失函数能够是自适应的，一个自然的设计选择可以是执行梯度下降，类似于如等式（3）中如何更新基础学习器参数θi然而，这样的设计将导致大的计算图，特别是如果元学习算法是用高阶梯度训练的。或者，可以应用仿射变换来使损失函数适应给定任务。在特征响应的生成中，一些工作已经证明了以某些输入为条件的仿射变换是有效的总结了该方法的总体训练过程在算法1中。3.2.2任务自适应损失函数由于我们的损失元学习者和元学习者gΦ是使用神经网络建模的，因此它们的输入可以被公式化为包含关于中间学习状态的辅助任务特定信息，我们将其定义为任务状态τ。在给定任务i的第j个内循环步骤处，除了经典损失信息（S; θi，j）（在标记的支持集示例S上评估）之外，辅助学习状态信息（诸如网络权重θi，j和输出值f（xs;θi，j））可以被包括在任务状态τi，j中。此外，我们还可以在任务状态中包括对来自查询集的未标记示例xq的基础学习者响应，这使得内部循环优化能够执行半监督学习。这表明我们的框架可以使用这种额外的特定于任务的信息进行快速适应，这在以前的基于MAML的元学习算法中很少使用，而基于度量的元学习算法，如[21]，试图利用未标记的查询示例来最大化性能。半监督内循环优化最大化了转换设置的优势（假设所有查询示例一次可用），基于MAML的算法已经隐式地使用了该设置以获得更好的性能[25]。内循环优化的过程与任务自适应损失函数的监督并且在算法2中组织半监督设置。3.2.3架构对于我们的任务自适应损失函数，我们采用了一个2层MLP，在层之间具有ReLU激活，它返回单个标量值作为输出。为了提高计算效率，在内环优化中使用的任务状态τi，j被公式化为均值支撑集损失L（DS;θi，j），基底的分层平均值自适应[27，26，16]并进行元学习初始化自适应[43]。为了使损失函数具有任务适应性学习者权重我θi、j和基本学习器的示例平均值在没有巨大计算负担的情况下，我们提出经由仿射变换来动态地变换损失函数参数’=γ其中，是元可学习损失函数参数，并且γ、β是由Φ参数化的元学习者g（τj;Φ）生成的变换参数。输出值f（xs;θi，j）。假设基本学习器f的L层神经网络返回N维输出值（对于N向分类），任务状态τi，j的维数变为1 +L+N，这在计算上是最小的。这在半监督学习设置下可以稍微增加，其中可以从基础学习者f（xq;θi，j）对未标记查询示例的响应导出附加信息。9470×个元网络gΦ还采用在层之间具有ReLU激活的2层MLP。该网络产生应用于损失函数参数的逐层仿射变换参数。由于我们的Meta学习框架不对基础学习者f及其目标应用施加任何约束，因此我们的公式是通用的，并且可以容易地应用于任何基于梯度的可微学习算法。有关详情，请参阅补充文件及我们的守则1。4. 实验在本节中，我们对几个少镜头学习问题进行了实验，例如少镜头分类，跨域少镜头分类和少镜头回归，以证实任务自适应损失函数的有效性。所有的实验结果，我们提出的方法金属进行半监督内循环优化，其中标记的支持示例和未标记的查询示例一起使用的内循环优化。请注意，我们不使用额外的数据，并且Metal只是从转换设置中获得更多好处（所有查询示例一次可用），其他MAML变体也采用该设置以获得更高的性能[25]。4.1. 少样本分类在少镜头分类中，每个任务被定义为N路k镜头分类，其中N是类的数量，并且k是每个类的示例（镜头）的数量。4.1.1数据集少数镜头分类最常用的数据集是两个ImageNet[31]衍生数据集：miniImageNet [29]和tieredImageNet [30]。这两个数据集是由三个不相交的子集（训练，验证和测试集），其中每一个由图像的大小为84 - 84。数据集的不同之处在于类的拆分方式分成不相交的子集。miniImageNet随机采样并将类分为64个类用于元训练，16个用于元验证，20个用于元测试[29]。另一方面，tieredImageNet根据ImageNet类层次结构将类分为34个类别，并将组分为20个类别用于元训练，6个用于元验证，8个用于元测试[30]，以尽量减少三个不相交集合之间的类相似性。4.1.2结果我们评估了我们的方法Metal，并与miniImageNet和tieredImageNet上的其他MAML变体进行了比较，这两种典型设置是：5路5次和5路1次1代码可从https://github.com/baiksung/获得分类，如表1所示。结果表明，Metal不仅大大提高了MAML的通用性能，而且可以与其他MAML变体（如MAML++ [2]和ALFA [4]）结合使用，以进一步提高性能。MAML++学习固定的逐步和逐层的内循环学习率，而ALFA学习任务自适应的内循环学习率和正则化项。虽然这些方法不认为损失函数是可学习的，但如果损失函数被视为模型的一部分，则Metal可以被视为这些方法的更一般的扩展。然而，Metal对这些方法的进一步改进表明，改进内环优化目标函数并不是一个简单的扩展，而是一个互补的正交因子。Metal的主要贡献在于制定一个可学习和任务自适应的内环损失函数。此外，Metal与ALFA [4]一起大大优于其他使用更大网络（如DenseNet或WideResNet）或预训练或使用数据增强训练的模型。这些结果表明我们学习的任务自适应损失函数在实现更好的泛化方面的有效性。4.2. 跨域少炮分类Chen等人 [9]引入的跨域少数镜头分类解决了更具挑战性和实用性的少数镜头分类场景，其中元训练任务和元测试任务从不同的任务分布中采样。这样的场景被有意地设计成在元训练和元测试之间创建大的域间隙，从而评估元学习算法对元级过拟合的敏感性。具体地，如果元学习算法太依赖于来自先前看到的元训练任务的先验知识，而不是专注于给定的几个示例来学习新任务，则可以说该算法是元过拟合的这种元级过拟合将导致学习系统更有可能无法适应从基本上不同的任务分布中采样的新任务。4.2.1数据集为了模拟这种具有挑战性的场景，Chen等人。 [9]首先在miniImageNet [29]上对算法进行元训练，并在元测试期间在CUB数据集（CUB-200-2011）[44与针对一般分类任务编译的ImageNet相比，CUB针对细粒度分类。按照[9]的协议，200个数据集类被分成100个元训练集，50个元验证集和50个元测试集。4.2.2结果表2呈现了MAML [10]、最近的MAML变体ALFA [4]之一和当它们被组合时9471模型库学习器miniImageNet tieredImageNet〔48〕70± 1。75% 63. 11 ±0。百分之九十一49 .第四十九章64± 0。百分之三十一64. 99± 0。百分之二十七98± 0。26%66. 25 ±0。百分之十九52.第52章我的世界63± 0。百分之三十七52± 0。百分之二十九34± 0。百分之三十一40 ±0。百分之二十一MAML++ +SCA [3]4-CONV54。24± 0。百分之九十九71. 85± 0。百分之五十三MAML++[2]4-CONV52。15± 0。百分之二十六32± 0。百分之四十四MAML+金属（我们的）4-CONV57。18± 0。42% 72. 89± 0。44%59. 93± 0。百分之三十六七十五。39 ±0。百分之二十九ALFA +MAML [4]4-CONV50。58± 0。69. honeymoon 12± 0。47%53. 16± 0。百分之四十九54 ±0。百分之四十六ALFA +金属（我们的）4-CONV57.75±0.38%74.10±0.43%60.29±0.37%75.88±0.29%[2]第五十八章. 37± 0。百分之二十七50± 0。百分之SCA +MAML++[3]DenseNet62. 86± 0。77%。64± 0。百分之四十59.第59章：你是谁？71± 0。77. baby baby 04± 0. 42%64. 04± 0.81. biggest 13 ±0。百分之三十九58.第五十八章60± 0。42%69. 54± 0。百分之三十八82± 0。41%73. 17 ±0。百分之三十二59.第五十九章大结局64± 0。百分之三十八20± 0。百分之十九89± 0。百分之四十三14 ±0。百分之四十59.第59章：你是谁？74± 0。77. baby baby 96± 0。41%64. 62± 0。百分之四十九48 ±0。百分之三十八ALFA +金属（我们的）ResNet 1266.61±0.28%81.43±0.25%70.29±0.40%86.17±0.35%[22]第二十二话71± 0。百分之九十九68. 88± 0。百分之九十二[24]第56话. 88± 0。62%71. 94± 0。百分之五十七[26]第二十六话50± 0。百分之三十76. 70± 0。百分之三十[32]WRN-28-10 76± 0。08% 77. 59± 0。66. honeymoon 33± 0。81.honeymoon 44 ±0。09%[18]第六十二章. 64± 0。61%78. 63± 0。46% 65. 99± 0。81.honeymoon 56 ±0。百分之五十三*预先培训†接受过数据扩充培训。‡复制。表1.在miniImageNet和tieredImageNet上测试5路1次和5路5次分类的准确性基础学习者miniImageNetBackbone→CUB52 .第五十二章70 ±0。百分之三十二金属（我们的）4-CONV58.20±0.24%58.第58章我的小弟弟35 ±0。百分之二十五ALFA +金属（我们的）4-CONV66.37±0.17%53.第五十三章83±0。百分之三十二Metal（Ours）ResNet1261.29±0.21%63.第六十三章64±0。百分之四十二ALFA +金属（我们的）ResNet 1270.22±0.14%表2.5向5炮跨域少炮分类。模型在miniImageNet上训练并在CUB骨干单次拍摄5次射击1发5发MAML + L2F [5]MAML [10]4-CONV4-CONV52岁10 ±0。百分之五十69岁。38 ±0。百分之四十六五十四40± 0。百分之五十73. 34 ±0。百分之四十四- -9472∼上评估。在miniImageNet元训练集上进行训练，并在CUB元测试集上进行评估。类似于表1中概述的少数镜头分类结果，即使在更具挑战性的跨域少数镜头分类场景下，METAL也被示出为实际上，在跨域的少量数据传输中， METAL 在更大程度上提高了 MAML 和ALFA+MAML镜头分类（8%）比少镜头分类（百分之四）。这表明Metal在学习不同领域的新任务时是有效的，并且对领域差距具有鲁棒性，强调了任务适应性损失函数关于结果可以进行另一个观察：由METAL在ALFA + MAML上进行的泛化性能的增加与在MAML上一样大，指示了METAL试图解决的问题的正交性。ALFA [4]也旨在改进内部循环优化，但区别在于他们专注于开发新的权重更新规则（梯度下降）。另一方面，我们着重于一个损失函数，是用在内部循环的优化。Metal在不同基线和架构上的一致泛化改进表明，设计更好的内环优化损失函数是重要因素，也是对设计更好的权重更新规则的补充。4.3. 少镜头回归为了证明我们的方法金属的灵活性和适用性，我们评估MAML和金属的几杆回归，或k杆回归。在k次回归中，9473交叉熵✓习得损失精度（一）✓✓✓六十四99±0。百分之二十七67岁86 ±0。百分之四十二67岁42 ±0。百分之三十四--任务自适应半监督精度（二）（✓67岁42 ±0。百分之三十四✓✓✓68岁56 ±0。百分之三十六68岁24 ±0。百分之三十一70.52±0.29%∈∈∈L五发十发二十发MAML0. 86±0。230的情况。50±0。120的情况。26 ±0。08金属（我们的）0.74 ±0.180.44 ±0.110.21 ± 0.06表3. k-shot回归：均方误差（MSE）在100个采样点上测量，置信区间为95%。表4.内环优化过程中损失函数学习的有效性研究模型⑴表示MAML。每个任务是在仅给出非常少数量（k）的采样点时估计给定的未知函数。任务分布由具有目标函数的任务组成，目标函数的参数值在定义的范围内变化。在这项工作中，我们遵循Finn等人 [10]用于评估MAML的一般设置。具体地，每个任务具有正弦曲线y（x）=Asin（ωx+b）作为目标函数，其参数值在以下范围内：一五0]，频率ω[0. 八，一。2]和相位b[0，π]。对于每个任务，输入数据点X从[ 5. 0，5。0]。回归是通过对基础学习者执行单个梯度下降来执行的，该基础学习者的神经架构由3层大小为80的层组成，中间具有ReLU非线性激活函数。性能以估计的输出值y和地面实况输出值y之间的均方误差（MSE）来测量。表3概述了MAML [10]和金属在5次、10次和20次激发设置下的回归结果再次，金属证明了在不同的设置一致的性能改进。这证明了所提出的任务自适应损失的适用性和灵活性功能，由METAL学习。4.4. 消融研究为了研究Metal中每个模块的贡献，我们在本节中进行了消融研究实验特别是，我们分析的有效性的任务状态信息，学习的损失函数，任务自适应损失函数，和半监督内环优化制定。所有消融研究实验都是用具有4-CONV背骨的基础学习者在5路5激发少数激发分类下进行的4.4.1学习损失函数首先，我们分析学习内环优化损失函数的重要性。详细地说，性能是在执行内环优化时测量的利用在没有自适应的情况下学习的损失函数（即，仅元网络L用于模型（2）、（3））和表5.任务自适应损失函数和半监督设置在内循环优化中的有效性研究模型（6）对应于金属。模型（2）是指用来自表4的固定学习损失训练的MAML。交叉熵表6.考察任务状态τ各因素的作用。与使用简单交叉熵（即，MAML表示为模型（1））。表4中总结的消融研究结果表明，学习的损失函数有助于MAML实现更好的泛化，这表明元学习者已经管理学习对泛化有用的损失函数。此外，当交叉熵和学习损失一起使用时，与仅使用学习损失时没有显著差异，这意味着学习损失能够保持作为输入馈送的交叉熵损失信息。4.4.2任务自适应损失函数然后，我们研究了任务适应性损失函数对整体框架的影响。为此，我们使用元模型gΦ来生成仿射变换参数，然后根据等式（6），仿射变换参数被用于适配来自表4的模型（2）导出的元学习算法（其是没有半监督内环优化的Metal）在表5中被表示为模型⑷。如表中所示，与固定学习函数相比，元学习算法受益于任务自适应学习损失函数。4.4.3半监督内环优化接下来，我们研究半监督内环优化公式的有效性。类似于任务自适应损失函数消融研究，我们首先导出通过将半监督内环优化公式（使用标记的支持示例和未标记的查询示例一起用于经由学习的损失函数的快速适应）添加到来自表4的模型（2）而创建的新模型。因此，与我们的模型相比，表示为模型（5）的所得模型缺乏任务自适应特性（支持集）权重预测精度（七）（✓67岁86 ±0。百分之四十一68. biggestbiggest 66 ±0。百分之四十六67. biggestbiggest 94 ±0。百分之四十七✓70.52±0.29%9474层1的重量1.3751.3501.325层1的重量0.650.600.55生成的值我我我2.03.01.52.51.02.00.50.01.50.51 2 3 4 5内环步1 2 3 4 5内环步图2.所生成的仿射变换参数γ和β的图示由我们提出的Meta网络g之一生成。这些值然后用于使损耗元网络l适应给定任务。特别地，该图可视化了损耗元网络1的第一层的权重的生成值。所生成的值展示了其跨内环步骤的动态范围此外，在不同的任务之间观察到不同的值，特别是在最后的内环步骤，暗示任务对内环优化损失函数的不同偏好最终方法金属。虽然半监督内环优化有助于性能改进，但它仍然落后于全算法 Metal （表示为模型（6）），这暗示了任务自适应损失函数的重要性4.4.4任务状态我们进行了另一个消融研究，以调查任务状态τ的每个因素的影响：即，基本学习者的当前权重值θi，j，支持网络的输出（f（xs;θi，j）和f（xq;θi，j）。状态在内环优化期间改变。此外，所生成的参数值示出为在任务之间变化，特别是在最后的内循环步骤。这可能表明整个框架被训练成在最后一步的任务之间产生最大差异。无论如何，任务之间生成的仿射变换参数值的动态范围验证了Metal在使损失函数适应给定任务方面的有效性。5. 结论我我查询），以及支持集L（DS;θi，j）=L（f（xs;θi），ys）. 消融结果总结见在这项工作中，我们提出了一个元学习框架具有用于少量学习的任务自适应损失函数表6.当原来的交叉熵在支持考试上-如果任务状态中不包括PLE，则整个内环优化变成无监督学习设置，因为在内环优化期间不涉及地面实况信息。在这种情况下，正如人们所期望的，Metal努力实现泛化，从而将这些结果排除在表中当以交叉熵损失作为任务状态（模型（7））为条件时，Metal设法带来更好的泛化。此外，将权重（模型（8））或预测（模型（9））包括到任务状态中有助于进一步改进。最后，当使用任务状态的所有因素时，Metal实现了最佳性能，强调了每个因素的重要性。4.5. 可视化图2示出了针对每个内环步骤由我们提出的跨任务的元网络g之一生成的仿射变换参数γ和β（表示为箱线图）。观察生成的γ和β值如何在内部循环步骤中变化，我们可以声称Metal管理动态地适应损失函数作为学习所提出的方案，名为金属，学习的损失函数，适应每个任务的基础上，当前的任务状态在内环优化。因此，Metal能够学习每个任务特别需要的损失函数，以更好地此外，METAL的灵活性不仅使其能够应用于不同的MAML变体和问题域，而且还允许半监督内环优化，其中标记的支持示例和未标记的查询示例被联合用于适应任务。总的来说，实验结果强调了学习每个任务的良好损失函数的重要性，与在少量学习的背景下的权重更新规则或初始化相比，这引起了致谢本研究部分得到了韩国政府资助的IITP基金的支持。2021- 0-01343，人工智能研究生院课程（首尔国立大学）]，部分由现代汽车和起亚的AIRS公司通过HMC/KIA-SNU AI财团基金提供。生成的值9475引用[1] MarcinAndrycho wicz，米莎·德尼尔马修·戈麦斯先生。Hoffman，David Pfau，Tom Schaul，and Nando deFreitas.通过梯度下降来学习。在NIPS，2016年。二个[2] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。2019年，在ICLR。二、五、六[3] 安特拉斯·安东尼和阿莫斯·斯托奇。通过自我批评学习。NeurIPS，2019。二、六[4] Sungyong Baik 、 Myungsub Choi 、 Janghoon Choi 、Heewon Kim和Kyoung Mu Lee。自适应超参数元学习。在NeurIPS，2020年。二、五、六[5] Sungyong Baik，Seokil Hong，and Kyoung Mu Lee.学习忘记是元学习。在CVPR，2020年。二、六[6] Sarah Bechtle、Artem Molchanov、Yevgen Chebotar、Ed- ward Grefenstette 、 Ludovic Righetti 、 GauravSukhatme和Franziska Meier。通过学习损失进行元学习。在ICPR，2021。二个[7] HarkiratSinghBehl ， AtilimGuünesBaydin ， andPh i lipH.S. 乇Alpha maml：自适应模型不可知元学习。在ICMLW，2019。二个[8] Samy Bengio ， Yoshua Bengio ， Jocelyn Cloutier， andJan Gecsei.关于突触学习规则的优化。在预印本会议中人工和生物神经网络中的最优性，第6-8页。德克萨斯大学，1992年。二个[9] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。2019年，在ICLR。二、四、五[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，2017。一、二、三、五、六、七[11] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。NeurIPS，2018。二个[12] Micah Goldblum、 Steven Reich 、Liam Fowl、 RenkunNi、Va leriia Cherepanova和Tom Goldstein。解析Meta学习：了解少量任务的特征表示。在ICML，2020。二个[13] Erin Grant ， Chelsea Finn ， Sergey Levine ， TrevorDarrell和Thomas Griffiths。将基于梯度的元学习重构为分层贝叶斯。在ICLR，2018年。二个[14] Sepp Hochreiter，A Younger，and Peter Conwell.学习使用梯度下降。在ICANN，2001年。二个[15] Muhammad Abdullah Jamal和Guo-Jun Qi。任务不可知的元学习用于少量学习。在CVPR，2019年。二个[16] Xiang Jiang ， Mohammad Havaei ， Farshid Varno ，Gabriel Chartrand，Nicolas Chapados，and Stan Matwin.学习学习有条件的类依赖。2019年，在ICLR4[17] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。InICMLW，2015. 二个[18] KwonjoonLee，SubhransuMaji，AvinashRavichandran，and Stefano Soatto.可微凸优化的元学习在CVPR，2019年。二、六[19] Yoonho Lee和Seungjin Choi。基于梯度的Meta学习，学习分层度量和子空间。在ICML，2018。二个9476[20] Zhengguo Li，Fengwei Zhou，Fei Chen，and HangLi. Meta- sgd：学习快速学习的几杆学习。arXiv预印本arXiv：1707.09835，2017。二个[21] Yanbin Liu ， Juho Lee ， Minseop Park ， SaehoonKim，Eunho Yang，Sung

下载后可阅读完整内容，剩余1页未读，立即下载