低资源环境中的记忆模仿文本分类与生成

158 浏览量更新于2023-12-01 收藏 957KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文改善低资源基于记忆模仿的文本分类与生成赵颖秀1，田志良1，黄华秀2，郑颖和3，李东玉1，宋一平4，孙健3，李文.张11中国香港特别行政区香港科技大学2斯坦福大学，3阿里巴巴集团4北京大学计算机科学系，中国{yzhaocx，ztianac，dleear，lzhang}@cse.ust.hk，huaxiu@cs.stanford.edu{zhengyinhe.zyh，jian.sun}@alibaba-inc.com，songyiping@pku.edu.cn，摘要在数据有限的低资源环境中，构建自然语言处理（NLP）模型具有挑战性。基于优化的元学习算法通过适应良好的广义模型初始化来处理新任务，从而在低资源环境中取得了令人满意的结果。尽管如此，这些方法存在记忆过度拟合问题，其中模型倾向于记住元训练任务，而忽略在各种低资源的自然语言处理方案中，途径已经被广泛使用（Madotto et al. ，2019; QianandYu ， 2019; Li et al. ， 2020; Mi 等人， 2019年），因为它们是模型不可知的并且易于应用。具体地说，基于优化的元学习算法旨在学习一个广义的全局模型初始化θ，该初始化θ可以在几步梯度更新内快速适应新任务在元训练过程中，我们首先在支持集上训练θ（即，新任务i）的一些训练样本，以获得任务特定参数θJ。然后，我们选择-在适应新任务时使用支持集迈兹我为了解决这个问题，我们提出了一种记忆模仿元学习（MemIML）方法，增强了模型对任务适应支持集的依赖。具体地说，我们引入了一个任务特定的记忆模块来存储支持集信息，并构造了一个模仿模块来强制查询集模仿存储在记忆模块中的一些代表性支持集样本的行为。理论分析证明了该方法的有效性，实验结果也表明，该方法在文本分类和生成任务上都优于竞争基准。1介绍在资源匮乏的情况下构建自然语言处理（NLP）模型在实际应用中具有重要基于元学习的方法（Thrun和Pratt，2012）由于其快速适应能力而常用于此类场景。Meta学习在低资源NLP任务上取得了显著的成功，例如多领域情感分类（Yu et al. ，2018; Geng et al. ，2019）和个性化对话生成（Madotto et al. ，2019; Song et al. ， 2020; Zheng et al. ，2020）。在不同的元学习方法（Hospedales et al. ，2021），基于优化的ap-通讯作者基于θi性能的θ设置（即，任务i）中的另一组样本。尽管其有效性，基于优化的元学习算法通常遭受记忆过拟合问题 1 （ Yin et al. ， 2020;Rajendran et al. ，2020），其中学习的模型倾向于通过备忘录化来解决所有元训练任务，而不是学习如何通过支持集快速这对于训练过程来说是可以接受的，但是会导致元测试集的泛化能力差，因为记忆模型不知道这些任务，也不知道如何利用基础学习器来学习新任务。因此，这阻碍了模型从支持集捕获特定于任务的特征，从而阻止了模型适应不同的新任务（Ra-jendran et al. ，2020）。例如，在个性化对话生成中，这意味着对话模型不能基于短对话历史来适应个体用户，因此不能生成个性化响应。已经提出了一些工作来解决记忆过拟合问题的回归和图像分类任务。一些研究试图解释正则化模型参数（Yin et al. 、1. 过度拟合与传统监督学习中的过度拟合不同（Hawkins，2004）。后者意味着模型过度拟合训练任务，而无法推广到测试任务。arXiv：2203.11670v1 [cs.CL] 2022年3月+v：mala2277获取更多论文2020; Rajendran等人，2020），但这限制了模型初始化的复杂性并降低了模型容量。另一条研究路线通过数据增强将来自支持集的样本集成到相应的查询集中（Yao et al. ，2021年）。然而，文本数据上的数据增强可能导致噪声标签或分布偏移，这会损害模型性能（Chen et al. ，2021年）。在本文中，我们通过在学习模型初始化时增强模型对支持集的依赖性来解决记忆过拟合问题作为一个类比，考虑一个年轻的投资者，他有能力迅速适应新的环境，但对学习的经验几乎没有记忆，还有一个老投资者，他有经验，但拒绝灵活。我们的想法是使年轻投资者在评估其收益时能够适应各种情况，这样他不仅可以利用老投资者的经验，在本文中，年轻的投资者代表标准的元学习算法（例如，MAML），它容易发生备忘录化过拟合，而老投资者是我们集成到该方法中的一个重要模块，支持集的信息。具体地说，我们提出了一种记忆-模仿Meta-L学习（MemIML）方法，通过动态模仿后者的约束，迫使查询集预测依赖于它们因此，我们引入了一个记忆模块和一个模仿模块来增强这种依赖性。存储器模块是任务特定的，存储支持集的代表性信息。模仿模块通过动态模仿内存结构来帮助预测查询集的样本这样，模型每次对查询集样本进行预测时都必须通过记忆模仿来访问支持集，因此这项工作的贡献是：1. 针对基于优化的元学习算法中记忆过拟合问题，提出了一种新的MemIML方法.它鼓励在适应新任务时利用记忆模块和模仿模块的帮助下利用支持集。2. 在文本分类和生成任务上的综合实验表明，MemIML显著优于竞争基准。3. 理论证明了我们的方法的有效性。2相关工作元学习。元学习旨在基于预先学习的经验来改进学习算法本身（ Thrun 和 Pratt ， 1998;Hospedales等人，2004）。，2021年）。一般来说，有三类元学习方法：基于模型的方法（ Santoro et al. ， 2016; Obamuyide et al. ，2019年），这取决于特定的模型设计，以促进快速学习;基于度量的方法，（Vinyals et al. ，2016; Snell et al. ， 2017; Geng et al. ，2019），其将样本编码到嵌入空间中并基于学习的距离度量对它们进行分类;基于优化的方法（Finnet al. ，2017; Mi等人，2019），其学习良好通用的模型初始化，其允许快速适应新任务。对于NLP中的低资源场景，基于优化的元学习方法在个性化对话生成等任务上取得了可喜的成果（Madotto et al. ，2019; Song etal. ，2020; Tian等人，2021）、低资源机器翻译（Gu et al. ，2018; Sharaf et al. ，2020）和问答（ Yanet al. ， 2020 ）、少射槽标记（Wang et al. 2021年），等等。元学习的过度拟合。元学习算法遭受记忆过度拟合。 Yin等人（2020）为模型构建了一个信息瓶颈，而这种方法通过这种被动正则化降低了模型性能。Rajendran et al.（2020）将随机噪声注入支持集和查询集的基础事实，而很少引入额外的知识来学习良好的初始化。Yao等人（2021）通过混合支持集和查询集来增强元训练任务，从而然而，文本的这种增强需要基于保持标签和数据分布不变的假设，这在实践中通常是不正确的（Chen et al. ，2021年）。代替正则化和数据增强，我们利用存储在内存中的支持集信息来增强元学习。外部存储器用于少量学习。记忆机制已被证明是强大的少数拍摄学习（耿等。， 2019;Santoro et al. ， 2016; Munkhdalai et al. ，2019）。当前方法+v：mala2277获取更多论文不Qθ不我JJj=1我J我J我我我我我我Dl l l=1要么细化存储在内存中的表示（Ramalho和Garnelo，2018），要么使用内存细化参数（Munkhdalai和Yu，2017; Cai等人。，2018;Wang et al. ，2020）。在NLP领域，一些方法将编码的上下文信息存储到存储器中（Kaiseret al. ，2017; Holla et al. ，2020; Zheng et al. ，2019）。Geng等（2019）提出了一个内存感应模块，具有用于少量文本分类任务的动态路由算法Munkhdalai等人（2019）通过学习神经记忆来增强外部记忆模型。 Wang 等人（2021）在少数镜头插槽标记上重用存储在存储器中的3预赛我们首先制定模型不可知元学习（MAML）（ Finn et al. ， 2017 年）。具体来说，将MAML中使用的基本模型表示为fθ，并假设每个任务Ti都是从任务分布p（T）中采样的。与数据集Di相关联。每个数据集Dsicon-支撑集Ds ={（X s，Y s）}N的s和模仿模块增强了模型的初始化学习，增强了模型的任务适应对支持集的依赖性。图1显示了我们的模型架构。4.1存储器模块我们为每个任务i设计了一个内存模块Mi，并将其纳入MAML框架。为了充分利用支持集的信息，我们从支持集样本中构造键值对，并将其存储在内存模块中。关键是从引入的关键网络获得的支持集的样本输入的句子表示。对应的值被构造为存储如在Sec. 4.3：在NLG任务中，值是输出句子的句子嵌入;在NLU任务中，值是样本的类标签（标量）的一个热嵌入。我们的记忆有两种操作：记忆写入，构建记忆;记忆读取，从记忆中获取信息。在下文中，i jjQQj=1我们就这些内容进行详细的阐述。Q Q查询集合D={（X，Y）}N ，其中X和Y分别表示样本的输入和基础真值。在元训练阶段，特定于任务的（也称为，更新后）模型fθ′首先是ob-关键网络代表一个样本与矢量。具体来说，我们使用冻结的预训练BERT模型（Devlin et al.2019年）作为核心网络。的每个任务T我通过梯度下降关键网络的输入是样本输入传感器。其支撑集Ds。然后MAML更新了它的ini，条件Xs∈ Ds（Xq∈ Dq），输出为化（也称为，pre-update）θ，根据fθ′在查询集合D上的性能，如等式（1）中所示一曰：第一令牌的编码表示（即，[2019 - 10 - 1900：00：00][2019 - 01：00][2019 - 01：00][2019 - 01：00]获得的表征i被认为是Xs的密钥Ks（Xq的密钥Kq）。好吧qqθL =minETip（T）fθi′（Xi），j j j jS.T. θJ= θ − α <$θL（f θ（X s），Y s）（2）其中α是内部循环学习率。在元测试阶段，在任务Tt的支持集Ds上微调学习的初始化θs，支持集S中样本的信息。对于每个任务i，任务专用存储器Mi由Ni个存储器槽（即，键值对{K s，V s}Ni）。为了构建这些内存插槽，我们不在查询集上评估结果模型Dq与更新后参数θJ。从支持集中选择样本，并将其信息进入内存。样本选择是根据基于多样性的选择标准不4方法不（Xie et al. ，2015）以确保存储器内容的多样性和代表性。的详细为了缓解记忆过度拟合问题，在元学习的基础上，提出了MemIML，它包括一个记忆模块和一个基于基本模型的模仿记忆模块是任务特定的，记录每个任务的支持集的输入和输出模仿模块在任务之间共享，并通过动态模仿内存结构来预测每个查询集样本的值获取的支持集信息由该标准的描述见附录D。对于每个任务特定的记忆模块Mi，我们在存储的密钥上采用多样性得分S（Mi）。在这里，更多样化的记忆得到更高的多样性分数。当内存未满时，我们直接写入支持集样本而不进行选择;否则，我们计算当前内存的多样性得分，并在每个旧的键值对被新的键值对替换后得分。然后我们把旧的换成新的（一）内存写入使用以下方法构造内存：+v：mala2277获取更多论文J∈DQJJQJωLωL外环MAML优化存储器模块写1存储器每个任务仿模块支撑集信息查询集信息关键内环外环全球价值预测值3读数输出邻居预测值本地情况改造地方适应4地方适应6局部适应值预测器查询集读取25支持集图1：我们的模型MemIML的架构。左侧区域详细描述了在每个任务中预测查询集样本Xq的过程，其中任务特定的记忆模块和模仿模块在任务之间共享。右侧区域示出了值预测器的局部自适应。两个绿色区域表示一个任务中两个查询集样本的全局参数ω其中替换可以使多样性得分最大化通过这种方式，我们构建的记忆可以承载更多可区分和代表性的信息，并有效地利用存储空间。记忆阅读从记忆中获取信息以增强元学习。输入是由关键网络编码的查询集中的样本的句子表示，输出是与查询样本相似的内存槽。具体地说，给定a的密钥表示Kq，而不是直接使用存储器读取输出，特别是当任务是通用的时。这是因为以往的传统阅读操作的相似性度量都是基于固定的BERT表示，忽略了任务的特定信息。4.2.1值预测器在MemIML中，建议的值预测器旨在构建从键到值的映射，样本q q在SEC中提到的Jory模块。4.1.的输入X j i，我们从其任务特定存储器Mi中检索前N个最相似的槽。相似性是基于欧几里德距离测量的Kq和存储器中的每个密钥Ks之间的比率值预测器是从密钥网络获得的密钥，并且输出是相关联的值。具体来说，我们使用一个两层全连接JLslots.检索到的键值对{Ks，Vs}N具有参数ω的网络gω来构建映射。作为存储器读取的输出。l l l=1值预测器是在所有任务的支持集的构造键值对上学习的给定查询集样本输入Xq的键Kq，我们可以4.2仿模块为了更好地利用检索到的内存并增强我们的模型对支持集的依赖性，我们提出了一个模仿模块，以鼓励在对查询集进行预测时模仿支持集的行为。对于查询集中的每个样本Xq，模仿模块的输入是密钥Kj及其检索到的N个存储器槽，并且输出是针对X j. 为了实现模仿，我们构造了一个值预测器，它可以对支持集样本的行为进行建模（即，键值匹配）存储在存储器中。为了估计每个查询集样本的值，我们对值预测器进行局部调整以适应匹配。通过这种方式，所提出的模仿模块是为每个查询集样本定制的，这有助于更好地捕获特定任务信息J J然后将其相关值估计为Vq。4.2.2价值预测者的训练为了训练值预测器，我们最小化重构损失rec（V，V）使预测值尽可能接近由支持集样本的基本事实，其中如果值V是标签，则rec是交叉熵损失，如果V是向量，则rec是训练过程包括任务间共享的全局优化和每个特定任务的局部自适应。具体来说，我们首先使用来自所有任务的支持集的样本来训练值预测器在将查询集样本的存储器读取输出馈送到该网络之后，我们执行局部自适应，并采用自适应网络来估计查询样本的值+v：mala2277获取更多论文JLLJJJJωJJQJJi=1--j=1JJJL（Y，Y）LJLLLL l=1V，j，我们用Ll=1JJ我LLl=1LJq--L10：对于D中的（X，Y），JJq qq全局优化。为了获得与任务无关的全局参数ω，我们在构造的键上训练值预测器（即，作为输入）和值（即，作为输出）。全局优化在整个元训练阶段不断更新。当地适应。为了使值预测器适应每个查询集样本X q，受Sprechmann et al. ，2018年），我们提出了局部适应，微调全局值预测器个性化对话生成。基本模型是Transformer（Vaswani et al. ，2017），其由编码器和解码器组成。在这个任务中，每个样本由输入话语和地面真实话语组成，因此存储在存储器中的值Vs是从支持集样本的地面真实话语Ys中获得的，该支持集样本由LSTM后面的密钥网络嵌入（Hochreiter和Schmidhuber，1997）。这个LSTM是用基本模型优化的。与编码器输出级联的V_ REQ用于gω以得到具有参数ωq的自适应的一个。局部自适应仅在预测Xq时起作用。基于来自全局的初始参数ωJ作为解码器的新输入因此，我们-查询集样本的预测，Yq=Decoder（[Vq; Encoder（X q）]）。j j j优化，我们执行几个梯度下降最小化损失Lloc的步骤，即：N多领域情感分类。基础模型是BERT（Devlin et al. ，2019年）以下-位置21L=γ<$ω<$−ω<$+C=C（Vs，Vs）（3）由一个完全连接的网络所驱动每个样品来，V星人2Nωlll=1=gω（Ks），{Ks，Vs}N 是由一个输入句子和一个情感标签（基础事实）组成，因此记忆值Vs是感兴趣的。时间标签要充分利用查询集样本的理论读取输出，因子γ限制ωq和ω之间的距离。最小化第二项鼓励ω基本模型的原始输出Y q为Yq=βYq+（1−β）Vq（五）gq以更好地估计所检索的存储器值。J的ue VsN. 然后我们就可以在当地自适应值预测网络gq，Jtersωq=argminlo c（ωq）。Givenaquery-sampleω˜因此，我们可以预测其相关值为j j j其中β平衡Y<$ q和V<$ q。请注意，插值不仅适用于预测输出，而且还通过基于插值输出的梯度下降来指导训练。我们在附录C中验证了插值的有效性。Vq=gq（K），（4）jωjj其中丢弃经适配的参数ωq算法1记忆模仿元训练要求：p（T）：任务分布，α1−4：步长此后，模型不会反向传播1：从预训练模型初始化θ;随机初始化ω通过Vq将用于测试任务存储器初始化为MiT第二章：虽然不收敛，={φ}T从这个意义上说，除了任务特定的参数-3：任务样本批次{Ti}n，其中Tip（T）i=1对于MAML提供的θi，也将有ωj4：对于所有任务Tidosq从特定于每个查询集的支持集学习5：样本支持集Di和来自Ti的查询集Di6：获得键{Ks}Ns和值{Vs}NsSsample. 这保证了模型更加依赖关于任务适应的支持集图1（右对于支持集l l=1如在SEC。4.1ll=17：M←{K，V>}#写存储器<部分）说明了局部适应的机制4.3MemIML在NLP应用中的应用在这一部分中，我们将详细介绍NLP中的两个少数应用程序（即，文本生成与文本8：ω←ω−α1<$ωLrec#全局优化9：θ i′← θ − α2<$θLbase #在等式中学习θ i′2j j i11：获得每个样本Xq的密钥Kq12：从M i到K q的N个最近邻居。13：ωq<$ω−α3<$ωLloc#局部自适应十四：Vq=gq（Kq）#预测内存输出分类）来解决记忆过拟合-MAML的问题。的模型结构jωjj15：预测Yq，如在第二节中。4.3这些应用程序基本上是相同的，除了以下三点：基本模型，方式16：结束17：结束18：更新θ←θ−α4<$θTTiP（T）基地qqTi，θi'得到存储在存储器模块中的Vs值，以及平均Sec.4.2.十九： end whilesssN+v：mala2277获取更多论文M我D我我我我我我我我ID|Q方法自动指标人工评价质量多样性一致性PPL BLEU1 BLEU2 BLEU3 BLEU4胭脂苹果酒Dist1Dist2Dist3Dist4C分数质量一致性基础模型38.1415.536.8103.4301.9480.1630.1360.0060.0230.0480.080-0.0240.6890.395微调34.1416.107.2223.6782.1000.1660.1470.0070.0280.0630.1110.0120.8860.641MAML43.2415.567.4563.8582.2290.1720.1520.0130.0460.0990.1690.1560.8070.651MR-MAML 52.5213.355.5712.7831.6010.1420.1100.0040.0110.0210.0340.1320.5120.562MemIML41.61 16.23* 7.941* 4.295* 2.557*0.183* 0.173* 0.014* 0.053* 0.114* 0.1950.241*0.9320.807表1：Persona-Chat数据集的整体性能。带有 * 的结果表明，我们的模型总体基线的改善具有统计学意义，p<0。05在t检验下。4.4理论分析我们从理论上探讨我们的方法如何有助于缓解记忆过拟合问题。继Yin等人（2020）之后，我们使用相互信息-mation （Yq;sθ，X q）来测量记忆过度拟合当学习模型忽略支持集来预测查询集时，I（Yq;Ds）|θ，X q）=0，这表明该存储器检索最相似的存储器插槽。局部自适应微调那些检索到的槽上的值预测器。接下来，自适应值预测器估计每个查询样本的值，并使用它来增强模型初始化的学习。内循环中的总损失函数是 Ltotal=Lbase+Lrec ，其中Lbase=L（f（Xs），Ys）是交叉熵损失。我我我完全记忆Meta学习（Yin et al. ，2020）。因此，越低的互信息意味着越严重的记忆过拟合问题.我们提出了一个标准类似（姚等。，2021）来衡量我们的方法的有效性，解决这个问题。对于任务Ti={Ds，D}，元训练和元测试的过程几乎相同，只是元测试没有优化学习模型的初始化θ和值预测器的初始参数ω为在元测试阶段的每个任务Tt，MemIML还在内部循环中将θ适应于任务特定的参数θiJ，并构造任务特定的记忆。i i在外部循环中，MemIML检索键值该准则旨在通过增强模型的依赖性来减轻记忆过拟合在支撑集Ds上，即增加相互对，以基于初始参数ω进行局部自适应。该esti-来自本地适应的i q匹配值Vq有助于支持集和Yi之间的信息如下：I（Yq;[Ds，Mi]|θ，X q）>I（Y<$ q;Ds|θ，X q），（6）基本模型来推断最终输出Yt。5实验和分析其中，i表示我们提供的额外内存信息，其中包含支持集信息，以增强样本Xq的推断，个性化对话生成和多领域情感分类实验验证了该模型在文本生成和分类上的有效性，QII. 我们证明了我们的方法MemIML满足上述标准（详见附录A）。4.5培训和测试程序在元训练阶段（如Alg. MemIML首先为每个任务构造一个空内存，然后遵循MAML的双层优化过程。在内部循环中，MemIML通过在支持集上进行训练来使基础模型初始化θ同时，从每个支持集样本中，MemIML获得一个键值对，并确定是否将其写入内存。然后，MemIML在这些键值对上进行值预测器的全局优化。在外部循环中，查询集的每个样本都读取在这里，我们使用Persona-Chat和ARSC数据集。5.1个性化对话生成数据集。（Zhang et al. ，2018），我们使用Persona-chat（Madotto et al. ，2019）通过将为每个人构建对话模型视为任务。该数据集由分别具有1137/99/100人（任务）的训练/验证/测试集组成在Persona-Chat数据集中，每个人物描述平均有8.3个唯一的对话，每个任务由三个样本组成。基线。我们将我们的方法与以下基线进行比较：基本模型：我们预训练传统的基于transformer的对话框生成+v：mala2277获取更多论文类型方法精度非元学习微调80.73匹配网81.22基于度量原型网80.13Proto ++82.41元学习关系网81.32感应网79.31MAML82.17基于优化MR-MAML78.14Meta-Aug83.57元学习MetaMix83.63MemIML（我们的）85.69美元 *表2：ARSC的平均准确度结果。* 表明我们的总体基线改善在统计学上是显著的，p<0。01在t检验下。对所有的训练任务进行建模，忽略了说话者微调：我们在每个Meta测试任务的支持集上微调预训练的基础模型 MAML ：我们应用MAML（Madottoet al. ，2019年）的基础模型。MR-MAML：Yinet al. （2020）通过正则化解决MAML的记忆过拟合。指标. 自动评估有三个方面，• 质量：BLEU-n（Papineni et al. ，2002）、CIDEr （ Vedantam et al. ， 2015 ），以及ROUGE（Lin，2004）测量生成的响应和地面实况之间的n-gram匹配。PPL（perplex-ity）衡量句子的流畅性。• 多样性Dist-n（Li et al. ，2016）通过计数唯一的n-gram来评估响应多样性。• 一致性：C评分（Madotto et al. ，2019）通过预先训练的自然语言推理模型来测量生成的响应和人物描述之间的一致性。人的评价包括质量评价和一致性评价。(See详情见附录B.1）。整体表现。如表1所示。Fine-tune在所有指标上都优于基本模型，这验证了特定于任务的数据有助于其在特定任务上的性能。与Fine-tune相比，MAML在多样性和一致性方面表现更好，但在质量方面表现较差预训练基本模型实现了最佳的复杂度（最低PPL），如基本模型和微调所示。分析认为，这我们的模型MemIML在大多数方面都是最好的，包括质量、多样性和任务一致性。特别是，MemIML显着改善MR-MAML在缓解记忆过拟合问题，这表明记忆模仿是更有效的，比只regularizing模型初始化。5.2多领域情感分类数据集。 Amazon Review 情感分类数据集（ARSC）（Yu et al. ，2018年）共包含69项任务。以下（Geng et al. ，2019年），我们构建了一个双向5次元学习，其中有57个元训练任务和12个元测试任务。我们在ARSC上进行实验（Yu et al. ，2018）。它包含23种亚马逊产品的英文评论，其中每个产品由三个不同的二进制分类任务组成。根据 Geng et al.（2019），我们从4个领域（书籍，DVD，电子产品，厨房）中选择12个任务进行元测试任务，这些任务的支持集是固定的（Yu et al. ，2018）。基线。我们将我们的方法与以下基线进行比较：微调：我们在Meta测试任务的支持集上微调预训练的BERT（非元学习方法），如附录B.2所示。我们选择了五个基于度量的元学习基线：匹配网（ Vinyalset al. ， 2016 ），Prototypical Net（Snell et al. ，2017），Proto++ ，（ Ren et al. ， 2018 ）， Relation Net（Sunget al. ，2018）和感应网（Geng et al. ，2019 ）。我们应用基于优化的基线（MAML）（Finn et al. ，2017）到基础模型，并实现了一些基于MAML解决备忘录化过拟合问题的方法： MR-MAML （ Yin etal. ，2020）、MetaMix（Yao et al. ，2021）和Meta-Aug（Rajendran et al. ，2020）。整体表现。表2显示了通过元测试任务的平均准确度测量的per-total。我们的模型MemIML优于所有竞争方法，包括非元学习，基于度量的元学习和基于优化的元学习方法。特别是，我们的模型优于目前的解决方案的记忆过拟合问题（ MR-MAML ， Meta-Aug ，MetaMix），表明我们的方法是更有效的正则化和文本增强相比。5.3过拟合分析在图2中，在更新前θ（在支持集上训练之前）之间的查询集损失的差距+v：mala2277获取更多论文||×||(a) MAML（b）MR-MAML（c）MemIML（Ours）图2：Persona-Chat上的过度拟合分析更新前θ和更新后θi′之间的小损失间隙（在MAML和MR-MAML中）指示严重的记忆过度拟合问题（即，元训练中天蓝和蓝色曲线之间的间隙以及元测试中粉红和红色曲线之间的间隙）。MemIML中的大缺口证明了我们方法的有效性ARSC的内存分析存储比ACC#邻居ACC百分百84.91584.04百分之八十85.691084.47百分之五十84.842085.69百分之二十84.355085.04表3：消融研究。- 意味着删除MemIML表4：ARSC上的内存分析。和更新后θiJ（在支持集上训练之后）指示记忆过拟合问题。天蓝色和蓝色曲线之间的差距衡量了元训练的记忆过拟合（粉红色和红色曲线之间的差距衡量了元测试）。小的损失差距表明，严重的备忘录- rization过拟合的支持集几乎是无用的任务适应。在 MAML 和 MR-MAML中，θ和θIJ之间的损耗间隙在大约3000步后消失这表明更新后的θi，J几乎不受益于支持集，因此记忆过拟合问题很严重。在图2（c）中，MemIML在θ和θiJ 之间有很大的差距，这意味着θiJ在适应新任务时更好地平衡支持集，从而避免了记忆过拟合问题。5.4消融研究在表3中，我们进行了消融研究，以验证每个组件的有效性。删除相似性搜索意味着内存读取操作随机输出内存插槽，而不是搜索相似的内存插槽。该变体的性能低于MemIML，表明存储在内存中的类似样本提供了更多有用的信息来提高模型性能。移除值预测器意味着直接使用内存输出，而无需可学习的网络。其结果并不太坏，表明存储模块有助于减轻记忆过拟合问题。然而，这种用法只是简单地增加了--将支持集信息选通到查询集中，这不如学习查询集本身所需的信息精确因此，它仍然不如我们的模型。去除局部自适应意味着我们只使用全局值预测器来估计内存输出。它对值预测器至关重要，因为从值预测器中删除它会导致比删除值预测器更差的性能。此外，任务一致性（C-score）的显着下降表明，局部适应有助于使模型适应特定任务，因为它学会适应每个查询集样本。5.5内存操作内存大小。在表4和表5中，我们研究了不同大小的任务特定内存模块的变体。我们通过M=存储比率Ds来控制存储器大小。结果表明，我们的模型是能够保持高性能，即使只有20%的内存大小，通过存储不同的和有代表性的样本的支持集。此外，随着存储样本比例的增加，模型的性能也得到了提高，因为它为查询样本的推断和模型初始化的优化提供了更多的存储所有遇到的样本（即，存储率为100%）反而引入了损害模型性能的一些噪声人物聊天ARSCPPL C分数 BLEU3 BLEU4 Dist1 Dist2胭脂苹果酒ACCMemIML41.62 0.2404.2952.557 0.014 0.053 0.1830.173 85.69- 相似度-搜索45.17 0.1533.8172.219 0.011 0.044 0.1680.158 84.14- 值预测器42.93 0.1834.1992.313 0.010 0.039 0.1820.167 84.67- 地方适应48.08 -0.1173.4521.948 0.007 0.023 0.1710.129 84.19+v：mala2277获取更多论文PPLC分数 BLEU3 BLEU4 Dist1 Dist2胭脂苹果酒143.540.1974.2242.4470.014 0.0550.1790.174店0.8 43.210.1984.4142.6220.014 0.0540.1820.183比0.5 41.860.2234.0692.3170.013 0.0520.1790.1620.2 41.970.2044.0212.2710.012 0.0520.1810.168541.980.1923.8552.2030.013 0.0530.1770.162邻居10 41.620.2394.2952.5570.014 0.0530.1830.173number20 42.120.1554.0992.3360.012 0.0460.1790.16550 42.760.1453.6142.0720.011 0.0410.1690.144表5：Persona-Chat数据集的分析。邻居的数量。我们还研究了表4和表5中不同数量的邻居对模型性能的影响。在这两个数据集中，模型在邻居数量较多的情况下表现更好。然而，当邻居的数量太大时，模型从内存模块中检索这些不同的槽带来了很多噪声，这使得查询样本的预测不准确。5.6为例我们在表中的个性化对话框中展示了两个生成的案例。第六章基本模型、微调和MAML生成的一般响应几乎没有有用的信息或响应与人物角色的MR-MAML生成与对话上下文无关的响应我们的模型不仅响应一致的对话历史，但也迎合了每个用户的角色描述。6结论在本文中，我们解决了记忆过拟合问题的元学习的文本分类和生成应用程序。我们提出MemIML增强模型的依赖性的任务适应的支持集。MemIML引入了一个存储支持集信息的记忆模块，并提出了一个模仿模块，通过模仿记忆的行为来更好地利用支持集信息实验和理论结果表明，我们的方法MemIML有效地解决了记忆过拟合问题。7伦理考虑基于人物角色的对话生成任务旨在建立一个对话模型，生成有意义的，流利的，一致的反应。它将在实践中促进人机交互然而，对于个性化的模型的训练表6：Persona-Chat数据集中生成的两个示例。彩色文本表示响应与个性描述相匹配。对话可能导致个人隐私信息的泄露。在这项工作中，我们使用的数据源来自已发布的数据集，并且不涉及数据收集的隐私问题我们提出的方法不包括对个人的推断或判断，也不会产生任何歧视性的、侮辱性的反应。我们的工作验证了所提出的方法和基线模型的人的评价，涉及手工劳动。我们雇佣了五个注释者来对总共750个每小时工资定为每人15美元，高于当地法定最低工资。确认本文的研究得到了香港研究资助局（批准号：16204920）和国家自然科学基金（批准号：20000000）的资助。62106275）。女神像A我是一个职业歌手。我毕业于南加州大学。我喜欢看恐怖片。我出生在南卡罗来纳州。对话A：你是哪里人？我在南卡-奥利纳长大。我出生在阿肯色州，但我现在住在芝加哥。你在那里上的大学吗？是的，我现在在上学，同时兼职做咖啡师.人类响应我刚从南加州大学毕业。我父母逼我让我加入基础模型你是做什么工作的？微调你有麻烦了吗MAML你在健身行业工作吗MR-MAML听起来是违法的。他们不受保护吗MemIML那就太酷了！我喜欢恐怖片。女神像A我有一个大花园。我的爱好是散步。我喜欢旅行。我在一所大学教生物对话B：嗨，我是莫娜。单身，32岁，怕狗。你呢？我叫戴夫，40岁。B：哦，好的。我是个好厨师！人类响应太好了，我在花园里自己种菜-书房基础模型你是做什么工作的？微调你教什么？MAML你是干什么的？MR-MAML我很好。你今晚好吗MemIML我是一名科学教师，热爱旅行。+v：mala2277获取更多论文引用齐彩，潘英伟，姚婷，严成刚，梅涛。2018年记忆匹配网络在单次图像识别中的应用。在IEEE计算机视觉和模式识别会议论文集，第4080Jiaao Chen ， Derek Tam ， Colin Raffel ， MohitBansal，and Diyi Yang. 2021.自然语言处理中有限资料学习之资料扩充实证研究。arXiv电子版，第arXivMostafaDehghani ， StephanGouws ， OriolVinyals ， Jakob Uszkoreit ， and Lukasz Kaiser.2018.通用变压器。在国际学习代表上。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2019年。Bert：深度双向转换器的语言理解预训练在NAACL-HLT（1）中。Thomas Dopierre 、 Christophe Gravier 和 WilfriedLogerais。2021.一个神经少数镜头文本分类现实检查。在计算语言学协会欧洲分会第16次会议的会议记录：主要卷，第935-943页。Chelsea Finn Pieter Abbeel和Sergey Levine 2017.模型不可知元学习用于深度网络的快速适应。《国

下载后可阅读完整内容，剩余1页未读，立即下载