基于语言模型的元学习

181 浏览量更新于2023-12-01 收藏 633KB PDF 举报

语言模型

少样本学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于语言模型上下文调整的元学习陈彦达1钟瑞琦2查晟3乔治·卡里皮斯3何和341哥伦比亚大学，2加州大学伯克利分校，3AWS AI4纽约大学yc3384@columbia.edu，ruiqi-zhong@berkeley.edu，{zhasheng，gkarypis，hehehea}@amazon.com摘要元学习的目标是学习适应一个新的任务，只有几个标记的例子。为了解决NLP中的这个问题，我们提出了上下文内调优，它将自适应和预测重新转换为一个简单的序列预测问题：为了形成输入序列，我们将任务指令，标记的示例和要预测的目标输入连接起来;为了对模型进行元训练以从上下文内的示例中学习，我们微调预训练的语言模型（LM）以从任务集合的输入序列中预测目标标签我们基准测试我们的方法上的两个集合的文本分类任务：LAMA和Bina- ryClfs。与一阶MAML相比，一阶MAML采用梯度下降来适应模型，我们的方法更好地利用了LM 的归纳偏差来执行模式匹配，并在BinaryClfs上以绝对6%的AUC ROC得分超过了MAML，具有越来越大的优势w.r.t.模型尺寸。与非微调的上下文内学习（即，提示原始LM）相比，上下文内调整直接学习从上下文内示例学习。在 Bina-ryClfs上，上下文内调优将平均AUC-ROC分数提高了10%，并将示例排序的方差降低了6倍，将示例选择的方差降低了2倍。1介绍少样本学习（FSL）是指当只有很少的标记样本可用于训练时，系统快速适应新任务的能力。FSL是人类学习和语言理解的一个关键特征（Lake et al. ，2016年），但目前的机器学习系统往往是数据饥饿，并依赖于大量的标记训练数据（Silver et al. ，2016; He等人，2016;Adiwardana et al. ，2020）。能够实现FSL的建筑系统对于建造类似人类的人工智能非常重要。在AWS AI暑期实习期间完成的工作智能，并且还可以减轻收集大规模标记数据的负担（ Altae-Tran et al. ， 2016; Li 等人，2019）。最近的大型预训练语言模型（LM）在FSL中显示出有希望的进展（ Brown et al. ，2020;Schick and Schütze，2021 a）.为了执行新任务， Brown 等人（ 2020 ）提示原始 LM（即，一个预先训练的LM，没有对任何标记的数据进行微调）与任务指令，一些输入-输出示例，以及要预测的输入;然后他们从LM的continuation中提取答案例如，为了诱使模型对目标输入“This movie is a total waste of time“执行情感分类，我们可以用上下文“Ilikethemovie！正面评价？是的恐怖电影！正面评价？不。这部电影完全是浪费时间。正面评价？“，并检查下一个单词更有可能是“是“还是“否“。LM提示对于FSL是非常有效的，并且有时与基于全数据集微调的SOTA相当（Brown et al. ，2020）。然而，原始LM在预训练期间未针对上下文内FSL进行优化，并且在用于FSL提示时表现出不期望的性质例如，Zhao et al. （2021）观察到LM遭受“近因偏差”，其中LM倾向于将更高的概率分配给看起来更接近目标输入的标签。因此，GPT-3的准确性对上下文示例的排序变得极其敏感。以前的工作也表明，提示原始LM通常对示例选择，示例顺序和说明措辞过度敏感（Schick和Schütze，2021 a; Jiang等人。，2020; Zhao et al. ， 2021; Gao 等人，2021; Liu et al. ，2021年）。我们通过Meta学习镜头来解决这个弱点，并直接微调FSL的LM在元学习框架下，我们对模型进行元训练，使其能够从为数不多的例子中学习适应新的任务，对广泛的任务进行学习，从而使其更好地适应新的arXiv：2110.07814v1 [cs.CL] 2021年10+v：mala2277获取更多论文计算损失关于θ′指令x你们∈不不--上下文内调优说明：“评论是正面的吗？”x1：“好电影！”y1：“是”x2：“坏电影！” y2：“否”MAMLθ′：=θ−ΔY1说明x1 y1x2 y2xθ：=θ−ΔY2基于上下文学习的少镜头通过梯度下降的基于梯度下降的少镜头元更新：优化θ以最小化损失。图1：MAML（右）：MAML旨在学习一个与任务无关的模型初始化θ，可以快速适应新任务。为了使模型初始化适应新的任务T，使用来自T的任务示例，使用梯度下降来更新以θ初始化的任务特定模型θ′。MAML的元训练是一种双向优化，其中内部优化使用来自任务T的任务示例学习特定于任务的模型θ′，外部优化学习元初始化θ，以最小化 θ′对任务T的f-shot预测损失。上下文内训练（我们的）（左）：我们的方法通过上下文内学习来适应新任务，并学习所有任务共享的单个模型θ，该模型直接使用FSL目标进行优化（第2.2节）。由于模型参数在任务自适应期间被冻结，因此我们的方法在元训练期间不涉及双层优化在测试时利用少量示例来适应新任务（Finn etal. ，2017年）。由于LM提示框架已经将“任务学习和预测”过程简化为简单的序列预测问题（Brown et al. ，2020年），我们可以通过微调语言模型来对模型进行元训练，以在广泛的任务上针对该序列预测问题进行优化。由于我们微调我们的模型以学习从上下文示例中学习，因此我们将我们的方法称为上下文调优。我们的算法如图1所示我们基准我们的算法LAMA（Petroniet al. ，2019），一个测试模型事实知识的数据集，和BinaryClfs（Zhong et al. ，2021），其包含大范围的二进制分类任务，每个二进制分类任务用任务的一些语言描述来与提示原始LM相比，上下文内调优通过以下方式提高了性能：7.2 LAMA的精确度为1，BinaryClfs的AUCROC评分为10.6%。此外，上下文内调优减轻了原始LM提示的过度敏感性，显著降低了示例排序（ LAMA 上为 68% ， BinaryClfs 上为83% ）、示例选择（ LAMA 上为 56% ，BinaryClfs上为40%）和指令措辞（LAMA上为19%）方面的性能差异。我们的方法也优于MAML，MAML通过几个例子的梯度下降来适应模型，并通过几个梯度步骤来学习可以适应新任务的初始化（Finnet al. ，2017; Nichol et al. ，2018）。自从我们的ap-方法更好地利用了LM的归纳偏差，从上下文示例中推断，我们的方法通过以下方式优于一阶MAML：LAMA为2.8分，BinaryClfs为5.1分，随着模型越来越大，优势越来越大鉴于上下文调整的经验有效性（第4.1节），我们推测大型LM的少量学习潜力（例如，GPT- 3）可能被广泛低估，如果提示没有任何直接优化FSL。我们还推测，在上下文调优可以减轻LM提示的各种不良属性，如对示例顺序的过度敏感，示例选择和说明措辞（第4.2节）。2方法我们介绍问题设置（第2.1节），描述我们的上下文调整算法（第2.2节），将我们的算法与基于梯度的自适应方法（第2.3节）和其他基线（第2.4节）进行比较。2.1问题设置我们专注于少数分类问题，其中模型首先从一组训练任务T TTrain中学习，每个任务都与其自然语言指令I T和大量任务输入输出示例D T=（x i，y i）相关联（参见图1左侧的示例）。在测试时，我们要求模型在给定指令的情况下学习一个新的任务T并且只有f∈ w（K）标记的e个例子，即，STDT，|ST|=K。我们将任务输入表示为说明x1说明x2+v：mala2277获取更多论文˜不不◦◦⊆Σ不T TTT在测试时预测为x目标。不请注意，任务指令和任务输入在广泛的任务（Zhong etal. ，2021年）。形式上，我们输入”。例如，在图1的左侧面板上，训练模型参数θ以预测yi给定任务输入是“好电影！” while the model input2.2上下文内调整算法上下文内调优直接优化预训练IT xi，其中θ在所有任务中共享，表示串联操作。在少镜头适应阶段，该模型被呈现为具有新任务T、其自然语言指令IT和一小组（K）任务输入-输出示例S ={（xi，yi）|i∈ [K]}。然后我们微调具有少量上下文学习对象的LM-（Brown et al. ，2020年）：任务不可知LM是预测任务输出yi的模型不从新的任务给定Ixi，用几个gra更新θ经过元训练，可以在各种各样的训练任务上执行少量的上下文与情境学习类似，LM使用情境TT梯度步骤得到θTθ。最后，我们使用更新的模型θT从任务输入预测输出xta r get和测试任务T下的指令I。用f-shottrain调谐适应新任务将示例作为输入前缀。更正式地说，在元训练期间，我们通过连接任务指令IT、任务输入-输出对ST DT和要分类的任务输入x目标1来我们就可以-MAML MAML的少量自适应阶段与指令调整+微调相同，其中我们通过K个示例S上的梯度下降来更新模型参数（初始化为θ）。然而，在元训练期间，MAML的目标是T目标T调整一个预先训练好的LM来预测yT ，我们希望模型能够学习利用上下文中的实施例ST.以下是几个情境中学习目标L：为了学习任务不可知的模型初始化θ，使得通过用θ初始化并对ST执行梯度下降来找到的θT 将导致良好的性能（ Finn et al. ， 2017年）。因此，MAML涉及两个层次的优化，L（θ）：=θ[−logp（ytgt|xtgt，S，I）]最小化，一个内部优化学习θT给定不（xtgt，ytgt）∈DTT TTT Tθ和ST，以及学习θ的外部优化给定θT。由于这次行动不不（一）最小化问题，MAML已被发现是L（θ）：=T∈T列LT（θ）（2）经验上不稳定，对超参数敏感，计算昂贵（Finn et al. ，2017; Nikolaev et al. ，2020）。更糟糕的是，为了在测试时适应新的任务T，我们直接将f-shoteexamplesST与将指令I和目标任务输入x目标进行分类，形成模型输入，并要求模型预测其相应的输出。自适应期间不执行梯度更新2.3基于顺应性的任务适应我们比较了两个经典的少拍学习方法：多任务微调（指令调整+微调）和MAML的上下文中的调整。这两种方法都通过梯度下降来调整模型参数以适应新的任务。指令调谐+微调我们扩展了最近的工作零拍摄指令调谐（魏等。，2021）到FSL设置作为多任务微调基线。在元训练期间，模型被优化以预测给定的任务输出。1我们有时会将“target”改为已知自适应对优化超参数高度敏感（Antoniouet al. ，2019年），而在FSL设置下可能无法使用用于超参数调整的大型标记验证集（Perezet al. ，2021年）。相比之下，上下文内调整简化了（1）少数任务适应和（2）任务特定预测的两阶段过程，作为一个序列预测问题，其中任务特定的示例被连接到模型输入以提供关于任务的信息。因此，上下文内调优消除了元训练期间的双层优化，这在经验上是不稳定和昂贵的。此外，由于模型权重被冻结，因此它在任务自适应期间对超参数不敏感2.4其他基线我们介绍了另外两个基线，并根据它们的Meta对本文中的所有方法进行˜+v：mala2277获取更多论文方法适应元列车上下文内调优In-context少样本MAML梯度少样本ins-T没有一Zero-shotIns-T +微调梯度Zero-shotLM封装In-contextLM表一：我们根据1）如何使用少量样本（如果有的话）进行自适应，以及2）元训练目标对我们的方法和基线进行分类。Ins-T指的是指令调优。培训目标以及他们如何使用表1中的特定任务示例。在上下文调整是唯一的方法，直接优化FSL目标在元训练，而无需基于梯度的自适应。我们使用相同的评估设置在一个新的任务上直接评估一个原始LM，用于在上下文中调整，而不需要在任何标记的数据上微调LM。指令调整模型学习仅基于指令和目标输入来预测目标输出在自适应阶段，只有指令可用，这种设置也称为零触发学习。3实验装置第3.1节描述了数据集和指标，第3.2节描述了实现细节。3.1数据集和数据库我们用两个包含广泛任务的数据集进行实验，LAMA和BinaryClfs。每个任务都与几种不同的自然语言描述相关联，为了方便起见，我们称它们为LAMALA语言模型分析（Petroniet al. ，2019年）是一个数据集，测试LM学习的事实和常识知识。在我们的实验中，我们使用LAMA的TREx-UHN部分（Poerner et al. ，2020），它由维基数据中的（主体，关系，对象）三元组组成。LAMA是实体预测任务，其中要求模型在给定主体实体和关系的情况下预测对象实体。在我们的实验中，我们把一个关系作为一个任务，在佩雷斯等人。（2021年）。在LAMA上的初步实验表明，LM利用了“多数标记偏差”的显著优势（Zhao et al. ，2021），其中它们将更高的概率分配给已经出现在上下文示例中的对象实体，从而提高了准确性。为了反映由于少量学习而不是这种简单的启发式复制答案而带来的改进，对于所有任务，我们修剪LAMA数据集，以便所有对象实体出现的次数少于2.5%我们最终过滤的LAMA数据集由29个关系（任务）和12k个（主题，关系，对象）示例组成我们使用来自两个数据集的任务指令：LAMA和LPAQA（Jiang et al. ，2020）。LAMA为每个任务包含一个任务指令，辅助LPAQA数据集平均包含10个每个LAMA任务的额外说明。我们使用与Petroni等人（2019）相同的评估协议：1）对象实体是从预定义的21 k单词词汇集预测的; 2）我们计算每个任务的平均精度为1我们在附录B中报告了训练-开发-测试的划分。BinaryClfs这个数据集包含了大量的二进制分类任务，每个任务都可以用1-4个“是/否”问题来描述，我们将这些问题总共有204个不同的任务，其中73个用于测试，包括情感分类，主题分类，定义检测，立场分类等。我们使用与Zhong et al.（2021）相同的评估协议：1）我们按相似性对任务进行分组，不允许训练任务与测试任务相似; 2）我们将为了在我们的LM的最大上下文长度（1024）内拟合模型输入（上下文内示例和要分类的任务输入的串联），我们省略了最大任务输入长度超过230个BPE标记的五个我们还省略了垃圾邮件分类任务，因为它的测试集很小。BinaryClfs没有官方的验证集。为了执行超参数调优，对于每个测试组，我们随机抽样另一个测试组作为其验证组。3.2实现细节架构我们使用BERT模型用于LAMA（BERT-Base [110 M 参数 ] ， BERT-Large [340 M] 和DeBERTa-V2-XLarge [900 M]）和GPT 2模型用于 BinaryClfs （ GPT 2-Medium [345 M] 和GPT 2-Large [774 M] ）。我们使用Huggingface实现（Wolf et al. ，2020）。+v：mala2277获取更多论文超参数我们根据验证任务的少量分类精度选择超参数。我们的验证任务和测试任务是不相交的，因此验证任务上的超参数调优不会在测试任务上使用额外的标记示例（Perez et al. ，2021年）。我们调整的超参数见附录A采样不同的指令和少量的示例选择可能会导致不同的预测（第2.2节）。在训练时，我们通过对每个目标示例随机采样任务指令和少量示例，将模型暴露于不同的任务指令和少量选择。少数镜头的例子是从所有标记的例子，除了目标例子本身随机抽样在测试时，我们报告了任务指令和少量选择的平均准确率。通常，我们会报告所有少数镜头选择的平均值;然而，计算所有少数镜头选择的平均值是棘手的，因为组合上存在因此，我们计算的平均精度的多个随机抽样的几杆的选择近似。4结果上下文内调优优于MAML和各种算法变体（第4.1节）。与提示原始LM而不进行任何微调相比，它还显著降低了对指令措辞、示例选择和示例排序的敏感性（第4.2节）。由于我们修改了LAMA数据集和BinaryClfs数据集（第3.1节），因此我们工作中报告的数字无法直接与其他工作报告的数字进行比较。4.1精度在上下文调整提高了在上下文学习- ING在原始LM的准确性。我们在表2中比较了上下文内调优和原始LM提示.在LAMA和BinaryClfs上，上下文中的调优始终优于原始LM提示7.2分和10.6分（跨模型大小和快照数量的直接优化少量上下文学习目标（第2.2节）提高了少量上下文学习的准确性。较少的例子可以使适应更有效我们在表3中比较了上下文内调优和指令调优。在LAMA和BinaryClfs上，上下文内调优的性能始终优于指令调优，随着射击次数的增加而增加。具体来说，我们观察到5次上下文内调优在LAMA上比指令调优高5.6个点，在BinaryClfs上比指令调优高4.0个点（跨模型大小平均）。实验结果表明，在任务指导之外，示范性样例有助于更有效的任务适应.上下文内调优更好地利用了模式匹配的归纳偏差。通过比较MAML（表4的第一行）和指令调优（表3的第一行），我们看到MAML在大多数评估设置中的性能优于指令调优，这表明MAML确实能够利用少数任务示例进行任务自适应。然而，表4表明，我们的5次上下文内调整方法在两个数据集上一致地优于5次MAML，在LAMA和5.1 BinaryClfs上的点（跨模型大小平均）。我们认为，在上下文调优优于MAML，因为在上下文调优更好地利用现有的归纳偏见的预训练的LM执行模式匹配和上下文学习。我们还将上下文内调优与指令调优+特定于任务的微调的流水线进行了比较（表5）。相当令人惊讶的是，在少至一个特定于任务的标记示例上微调预调模型仍然可以显著提高准确性，而不会过度拟合到少数标记示例。例如，表5显示了指令调优+ 1次微调-在LAMA上执行多达3.3个点的指令调优（跨模型大小平均）。我们的上下文中调优方法的性能与指令调优+微调相当或更好，随着模型变大，精度也会提高对于DeBERTa-XLarge-v2（我们在这项工作中使用的最大模型），在所有数量的镜头中，上下文调整的性能优于Ins-T+FT，在LAMA上实现我们推测，对于具有较强归纳偏差的较大模型，上下文内调优将越来越有效模式匹配。4.2敏感性分析我们分析的敏感性，在上下文中调整准确性方面的例子排序，例子的选择，和指令的措辞，并比较它与提示原始LM。设I表示任务指令的随机选择+v：mala2277获取更多论文›→“我的天，“我的天，“我的天，LAMA BinaryClfsBERT-Base BERT-Large GPT2-Medium GPT2-Large1-S2-S5-S1-S2-S5-S5-S5-S使用Raw LM 8.510.814.112.115.418.757.858.3上下文内调优（我们的）16.317.619.621.623.424.367.469.8表2：在上下文中调整（我们的）与使用原始LM的上下文中学习的比较。K-S：K-shot学习。在两个数据集和所有模型大小上，上下文内调优的性能始终优于少量原始LM提示喇嘛BinaryClfsBert-baseBERT-大型DeberTa-xlargeGPT2-MGPT2-L指令调谐（0次）14.618.021.962.9 66.3单次上下文调整16.321.626.0/打开/关闭2次情境调整17.623.427.5/打开/关闭5次情境调整19.624.328.867.4 69.8表3：上下文内调优（我们的）与指令调优的比较。K-shot上下文内调优一致地执行指令调优，并且相对于K增加性能增益。LAMA BinaryClfsBBBLGPT2-MGPT2-LMAML 16.921.463.363.9ICT19.624.367.469.8表4：在5次拍摄设置下，上下文调谐（我们的）与MAML的比较。伯特基地BL：BERT-大号。GPT 2-M：GPT 2-培养基。GPT2-L：GPT 2-大号。上下文内调优一致地在数据集和所有模型大小上执行MAML。一组大小为K的少量训练样本，σ是K个样本的随机排列。因此，精度μ是这三个随机变量的函数，即μ：（ST，σ，I）[0，1]。我们可以将µ的总方差分解为它的方差w.r.t. 三个随机变量中的每一个，因为它们是独立的：变量ST，σ，I [µ]=变量I[EST，σ [µ|I]]指令措辞差异+EI[Var ST [Eσ[µ|I，S T]样本选择方差+E[变量[µ|I，S]]σI，STT例序方差我们在下面分析每种类型的方差上下文内调优对示例排序的敏感性要低得多。我们近似于-与EST[Varσ[μ（ST，σ，I）]]的示例排序有关，其中I表示LAMA和BinaryClfs的单个默认提示。我们比较了这个数量（跨任务的平均值），用于上下文调优和上下文提示，表6中的LM。结果表明，与在两个数据集和所有模型大小上使用原始LM的上下文提示相比，上下文内调谐对上下文内示例的排序的敏感性显著降低，在LAMA上降低了68%，在BinaryClfs上降低了83%（在模型大小上平均）。上下文内调优对示例选择的敏感性明显降低。我们用VarST[Eσ[μ（ST，σ，Iσ）]]近似关于示例选择的方差，其中 Iσ 是 LAMA 和BinaryClfs的单个默认提示。我们在表7中比较了用于上下文内调整和上下文内提示的这个量与原始LM。结果表明，与在两个数据集和所有模型大小上使用原始LM的上下文提示相比，上下文内调整对上下文内示例的选择的敏感性明显降低，LAMA上的敏感性降低了56%，BinaryClfs上的敏感性降低了40%（跨模型大小的平均值）。我们猜想，在上下文调整是显着不太敏感的例子排序和选择，因为该模型是暴露于各种各样的例子排序和选择在上下文调整。+v：mala2277获取更多论文喇嘛BinaryClfsBert-baseBERT-大型DeberTa-xlarge-v2GPT2-MGPT2-L1-S2-S5-S1-S 2-S5-S1-S2-S5-S5-S5-SIns-T + FT17.518.620.021.622.623.924.725.627.067.069.4IC-T 16.317.619.621.623.424.326.027.528.867.469.8表5：上下文内调优（IC-T）与指令调优+特定于任务的微调（Ins-T+FT）的比较K-S：K-shot学习。GPT2-M：GPT 2-培养基。GPT 2-L：GPT 2-大号。在上下文调整具有可比或更高的精度比Ins-T+FT，并在LAMA的优势增加，随着模型变得更大。LAMA BinaryClfsBB BL GPT2-M GPT2-L原始IC-L 1.82 2.14 9.26 8.84IC-T0.66 0.61 1.41 1.58表6：在它们对示例排序的敏感性方面，使用原始LM（原始IC-L）的上下文内调整（IC-T）和上下文内学习的比较。与使用原始LM的上下文学习相比，上下文LAMA BinaryClfsBB BL GPT2-M GPT2-L原始IC-L 3.74 6.30 18.52 20.33IC-T1.78 11.46 11.62表7：在它们对示例选择的敏感性方面，使用原始LM（原始IC-L）的上下文内调整（IC-T）和上下文内学习的比较与使用原始LM的上下文学习相比，上下文调整对示例选择的敏感性明显降低。上下文内调优对指令措辞不太敏感。我们在表8中报告了关于用于上下文内调整和上下文内提示的指令措辞与原始LM的差异。结果表明，在六个评估设置中的五个中，与使用原始LM的上下文提示相比，上下文调整对任务指令的措辞不太敏感，在LAMA上降低了19%的方差（跨模型大小和拍摄次数的平均值）。我们推测，在上下文调优是不太敏感的任务指令的措辞，因为模型暴露于各种任务指令在上下文调优。5相关工作当提示自然语言任务指令和多个任务时，经过预训练的LM可用于执行各种FSL任务BERT-Base BERT-Large Raw IC-L IC-T Raw IC-LIC-T单杆35.3826.3134.0328.78双发33.7925.40 17.7119.35五发24.9015.646.365.16表8：在它们对任务指令措辞的敏感性方面，使用原始LM（原始IC-L）的上下文内调整（IC-T）和上下文内学习的比较与使用原始LM的上下文学习相比，上下文调整对任务指令选择的敏感性要低得多。任务示例（ Radford et al. ， 2019; Brown etal. ，2020; Gao et al. ，2021年）。最近的研究表明，小型LM也可以通过自我训练进行FSL（Schick和Schütze，2021 b）。另一方面，已知提示用于FSL的原始预训练LM对各种人为因素敏感，例如任务指令的措辞以及少量训练示例的选择和排序（Schick和Schütze ， 2021 a; Jiang 等人，2012 a ）。，2020; Zhao et al. ，2021; Gao等人，2021; Liuet al. ，2021年）。我们的工作是第一个表明，元学习与明确的FSL目标显着降低LM提示- ing的敏感性，相对于上下文的例子的选择和排序。FSL的元学习元学习是NLP中广泛使用的技术，用于改善跨域迁移（Yu et al. ，2018;Geng et al. ，2019; Holla et al. ，2020; Deng等人，2020）和跨任务转移（Gu et al. ，2018;Bansal et al. ，2020; Dou等人，2019）。基于优化的元学习方法（例如，MAML）旨在学习一个任务无关的模型初始化，可以快速适应新的任务（ Finn et al. ， 2017; Jiang et al. ，2019）。示例方法主要通过使用梯度下降对特定于任务的示例微调任务不可知模型来执行任务自适应（Finn et al. ，2017年;+v：mala2277获取更多论文Jiang等人，2019; Nichol et al. ，2018）。然而，对少数任务示例进行微调对超参数敏感（Antoniou et al. ，2019年），元训练期间的嵌套优化通常是不稳定的（Nichol et al. ，2018; Antoniou et al. ， 2019; Rajeswaran etal. ，2019）。相比之下，我们的方法通过使用特定于任务的示例作为模型输入的一部分来执行少量任务自适应，同时在自适应阶段保持模型参数冻结和任务不可知。多任务学习在多任务学习中，单个模型在多个任务的训练集的联合上进行训练，以学习共享表示（Liu et al. ，2019）。然后，多任务模型在特定于任务的示例上进行微调，以适应新的任务。多任务学习被证明可以提高各种下游任务的性能，特别是具有小训练集的任务（ Khashabi et al. ， 2020; Ye 等人， 2021;Aghajanyan et al. ，2021年）。与元学习相比，多任务学习并不直接优化任务适应。最近的工作表明，微调LM以学习各种任务上的任务指令可以进一步利用LM的归纳偏差来执行指令学习（Zhong et al. ，2021; Mishra etal. ，2021; Wei et al. ，2021年）。我们的工作部分受到这一系列工作的启发，但我们在更通用的少镜头元学习设置下工作，并表明我们的方法优于指令调优和现有的少镜头元学习方法（例如，MAML）。虽然以前的工作集中在从指令微调获得的准确性提高，我们的工作也期待到FSL的众所周知的过度敏感性问题，并表明，在上下文调整有效地降低FSL相对于各种因素的敏感性6未来方向扩展和更广泛的应用我们的工作只考虑了简单的二进制分类和知识检索任务，最多5个上下文示例，以及参数少于10亿的模型。然而，将我们的框架扩展到更广泛和更多样化的一般序列到序列任务是很简单的（ Yeet al. ，2021），更多的少镜头示例（其需要更长的上下文大小（Dai et al. ，2019; Childet al. ，2019;Shen et al. ，2021; Wang et al. ，2020））和更大的模型（Brown et al. ，2020; Kaplan et al. 、2020年）。将上下文内调优应用于需要适应新设置的更广泛的场景也很简单适应分类任务中的新标签（Xia et al. ，2021），语义解析任务中看不见的数据库（Suhret al. ，2020;Lee等人，2021），或机器翻译任务中的新语言对（Gu et al. ，2018; Aharoni et al. ，2019年）等。稳健性的元学习我们的工作假设少量训练样本来自与测试样本相同的分布，但这一假设在实践中不一定成立。例如，测试分布可能会构成新的输入组合（Lake和Baroni，2018），罕见的亚组（Sagawa等人，2018）。，2019），其他类型的分布变化（ Hendrycks 和Dietterich ，2019 ），甚至是对抗性的例子（Kanget al. ，2019）。更有效的元学习方法可能会学习更强大的学习机制，并应对这些泛化挑战。理解情境学习情境学习的许多属性仍然是未知的。例如，在上下文学习更强大的分布转移（莱斯特等人。，2021年）？我们能否将上下文学习和梯度学习结合起来，以获得两个世界的好处（Wortsmanet al. ，2021年）？7结论在这项工作中，我们提出了通过上下文调整的元学习，它将任务自适应和任务特定预测的少镜头学习过程重新塑造为一个简单的序列预测问题，其中少镜头标记的示例与目标示例连接以形成模型输入。在准确性方面，上下文调优优于各种基线，包括原始LM提示，MAML和指令调优。与使用梯度下降执行任务自适应的MAML相比，上下文内调优消除了对双层优化的需要以及任务自适应期间对超参数的敏感性。同时，敏感性研究表明，与原始LM提示相比，我们的FSL方法在上下文调整中对少量示例和指令措辞的敏感性显着降低。鉴于上下文调整的经验有效性，我们推测大型LM的少量学习潜力（例如，GPT-3）可能被广泛低估，并且上下文调整可以消除-+v：mala2277获取更多论文产生了一些镜头LM提示众所周知的伪像，例如对示例排序、示例选择和指令措辞的过度敏感。引用放大图片作者：Daniel Adiwardana，Minh-ThangLuong，David R.所以，杰米·霍尔，诺亚·菲德尔，罗马尔·托皮兰，子扬，阿朴夫·库尔什雷斯塔，高拉夫·内梅德，卢一峰，和阔克·V·勒。2020. 一个类似人类的开放域聊天机器人。ArmenAghajanyan 、 AlfreitGupta 、 AkshatShrivastava 、 Xilun Chen 、 Luke Zettlemoyer 和Sonal Gupta。2021. Muppet：具有预微调的大规模多任务表示。Roee Aharoni，Melvin Johnson，Orhan Firat。2019年。大规模多语言神经机器翻译。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第3874-3884页，明尼阿波利斯，明尼苏达州。计算语言学协会。放大图片作者： Han Altae-Tran ， BharathRamsundar，Aneesh S.帕普和维杰·潘德2016. 通过一次性学习进行低数据药物发现。安崔斯·安东尼欧，哈里森·爱德华兹，还有阿莫斯·斯托基。2019. 如何训练你的MAML在国际学习表征上。Trapit Bansal，Rishikesh Jha和Andrew McCallum。2020. 学习在不同的自然语言分类任务中进行少量学习。第28届计算语言学，第5108国际计算语言学委员会。汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal，ArielHerbert-Voss，GretchenKrueger，Tom Henighan，Rewon Child，AdityaRamesh ， Daniel M. Ziegler ， Jeffrey Wu ，Clemens Winter ， Christopher Hesse ， MarkChen ， Eric Sigler ， Mateusz Litwin ， ScottGray，Benjamin Chess，Jack Clark，ChristopherBerner，Sam Mc- Candlish，Alec Radford，IlyaSutskever，and Dario Amodei. 2020年。语言模型是少数的学习者。Rewon Child，Scott Gray，Alec Radford，and IlyaSutskever. 2019. 用稀疏变换器生成长序列。戴梓航，杨志林，杨一鸣，海梅·卡-博内尔，郭克乐，和鲁斯兰 · 萨拉胡迪诺夫。 2019.Transformer-XL：超越固定长度上下文的专注语言模型。在第57届会议上，计算语言学协会年会，第2978-2988页，意大利佛罗伦萨。计算语言学协会。Shumin Deng ， Ningyu Zhang ， Jiaojian Kang ，Yichi Zhang ， Wei Zhang ， and Huajun Chen.2020. 基于动态记忆的原型网络Meta学习用于少镜头事件检测。第13届Web搜索和数据挖掘国际会议论文集。窦子怡，余科一，安东尼奥斯·阿纳斯塔索普洛斯。2019. 研究用于低资源自然语言理解任务的元学习算法。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（ EMNLP-IJCNLP ）的会议记录中，第 1192-1197页计算语言学协会。Chelsea Finn Pieter Abbeel和Sergey Levine 2017. 模型不可知元学习用于深度网络的快速适应。高天宇，亚当·费舍尔，陈丹琪。2021. 使预先训练的语言模型更好地用于少数学习者。Ruiying Geng ， Binhua Li ，Yongbin Li ，XiaodanZhu，Ping Jian，and Jian Sun. 2019. 用于少量文本分类的归纳网络。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）会议录中，第3904-3913页中国计算语言学协会。顾佳涛，王勇，陈云，Victor O. K.李和赵京铉。2018. 低资源神经机器翻译的元学习。2018年自然语言处理经验方法会议论文集，第3622-3631页，比利时布鲁塞尔。计算语言学协会。何开明，张翔宇，任少卿，孙健。2016. 用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770- 778页。丹·亨德里克斯和托马斯·迪特里希。2019.基准神经网络对常见的破坏和扰动的鲁棒性。arXiv预印本arXiv：1903.12261。NithinHolla，PushkarMis

下载后可阅读完整内容，剩余1页未读，立即下载