低资源语义解析的快速调优：T5-xl模型及其表现

104 浏览量更新于2023-11-30 收藏 703KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文快速调优在低资源语义解析中的作用Nathan Schucher 1，2 Siva Reddy 2，3 Harm de Vries11ServiceNow Research2Mila/McGill University3Facebook CIFAR AI Chair{nathan.schucher，harm.devries}@servicenow.com摘要快速调优最近成为一种有效的方法，用于使预训练的语言模型适应许多语言理解和生成任务。在这篇文章中，我们研究了语义分析的即时调整-将自然语言话语映射到形式意义表示的任务。在Overnight和TOPv2的低资源分割上，我们发现即时调谐的T5-xl显著优于其微调的对应物，以及强GPT-3和BART基线。我们还在不同的模型尺度和目标表示上进行了消融研究，发现随着模型尺度的增加，及时调整的T5模型在生成远离训练前分布的目标表示方面有所改善。1介绍随着预训练语言模型的广泛成功（ LMs;Devlin et al. 2019 年 ; 拉菲尔等 2020;Bommasani等2021），探索如何使这些模型适应下游任务变得越来越重要。最近引起广泛关注的一种适应性方法是快速设计（Brown etal. ，2020; Shin等人，2020），其通过任务描述和一些输入-输出示例来调节LM的行为。Brown等人（2020）表明，这种适应策略对较大的LM越来越有效然而，提示设计对提示的确切措辞很敏感，更重要的是，在特定任务的例子中，比微调模型表现得更差（Lester etal. ，2021年）。提示调谐最近已经出现作为一个强大的执行替代适应方法（莱斯特等人。， 2021年）。提示调优不是手工设计离散的提示，而是优化许多特定于任务的提示标记的嵌入。与微调相反，该方法保持几乎所有LM参数冻结。在一组语言上图1：我们表明，目标表示之间的T5提示调整每隔一段时间的差异随着参数数量的增加而缩小，其中约束解码的T5-xl实现接近性能平价。理解任务，Lester et al. （2021）表明，对于最大的预训练T5模型，即时调整变得与微调竞争（Raffelet al. ，2020）。Li和Liang（2021）还探索了一个相关的参数有效的适应方法称为前缀调整，发现它优于微调低资源的自然语言生成任务。在本文中，我们调查提示调整语义分析。该任务与上述语言理解和生成任务有根本的不同，因为它要求模型输出形式意义表示，这些表示不类似于在特别是，我们专注于低资源的设置，因为语义解析的例子是困难和昂贵的收集（王等。，2015; Marzoev等人，2020）。因此，我们在两个数据集上评估提示调谐：200镜头版本的隔夜（Wang et al. ，2015; Shin等人，2021）和低资源分裂TOPv2（Chen etal. ，2020）。在这两个数据集上，我们比较了提示调整T5和微调，T5-XLT5-大号T5基T5-小型arXiv：2110.08525v2 [cs.CL] 2022年4+v：mala2277获取更多论文研究规范化的意义表示的效果，即在多大程度上此外，我们还研究了T5模型规模对隔夜以及不同数据制度对TOPv2的影响我们的主要研究结果可归纳如下：• 对于大型T5模型，在低数据状态下，即时调整的性能明显优于微调，从而使Overnight和TOPv2的绝对性能分别提高了6%和15%。当更多的训练数据变得可用时，这种性能差距会减小。• 随着模型大小的增长，即时调优的T5模型越来越能够输出各种目标表示（见图1）。在一夜之间，我们发现，规范和意义表征之间的差距缩小从17%到4%，分别为T5-小和T5-xl。在TOPv 2上，即时调优的T5-large模型在生成词汇表外标记方面比T5-small好得多2相关工作我们的工作与最近的语义解析和提示调优工作有关，我们在下面简要描述。2.1语义分析语义分析是将自然语言话语u=（u1，. . .，uN）转换为形式意义表示z =（z1，. . . ，zM）。这些意义表示，也称为逻辑形式，可以由机器解释并在真实环境中执行。例如，ThingTalk（Campagna et al. ，2019）和TOP（Gupta et al. ，2018）是用于执行虚拟助手的命令的含义表示，而SQL是用于与关系数据库交互的表示。近年来，神经序列到序列模型已成为语义解析任务的主要方法（ Dong 和Lapata，2016）。规范化语义分析中常见的简化步骤是规范化意义表示。也就是说，意义表示z通过语法或规则集自然化为规范形式cOvernight和TOPv2的均值和规范表示的示例（Wang et al. ，2015;Chen et al. 2020年）可以在图中找到。二、当规范表征可用时，Berant和Liang（2014）认为语义解析可以被视为一种释义任务。他们建议使用一个释义模型，例如：在维基百科上训练的词向量-在一组规范话语中找到话语u他们表明，这种释义模型比直接在两个问答数据集上生成逻辑形式的结果更 Marzoev 等人（2020）通过显示BERT等预训练的语言模型可以成为有效的paraprasers来扩展这项工作。虽然 Berant 和 Liang （ 2014 ） ;Marzoev 等人（2020）使用模型对典型的绝对值进行评分，但Shin等人（2021）提出限制自回归模型（如BART和GPT-3）的生成过程。在一些少量的语义分析任务中，他们证明了生成规范表示的好处。2.2自动调谐Lester等人（2021）评估了SuperGLUE的快速调整，SuperGLUE是一个由八个语言理解任务组成的基准。他们发现，对于最大的T5模型，及时调整变得与微调竞争。Li和Liang（2021）提出了前缀调整，以适应BART和GPT-2 的自然语言生成任务。这种方法与Lester等人（2021）的不同之处在于，它为语言模型的每一层预先准备了可训练的嵌入，而不是在输入层引入令牌嵌入他们证明了pre-fix的性能优于微调基线。类似地， Liu et al.（2021）还显示了对自然语言理解和生成任务进行快速调整的令人鼓舞的结果。 Qin 和Reynner（2021）还探索了快速调优，但用于知识提取任务。Houlsby等人也提出了将通用适配器层插入预先训练的语言模型。（2019）; Mahabadi et al. （2021年）。与我们的工作相关的还有其他一些镜头适应技术，如PET（Schick和Schütze，2021）。此外，适配器层也已经在计算机视觉领域中被探索（ Rebuffi et al. ， 2017; de Vrieset al. ，2017年）。3实验为了评估低资源提示调优，我们 com-pronouncement对两个语义解析数据集与规范表示可用的相同模型的微调变体我们比较两个大的+v：mala2277获取更多论文图2：来自TOPv2和Overnight数据集的示例以及相应的规范化方案。和T5架构的小变体，并使用各种规范化表示进行实验3.1数据集Overnight语义解析数据集（ Wang et al. ，2015）由13，682个自然话语、规范形式组成，意味着在八个域中分裂的表示三元组。为了模拟这个数据集的低资源分割，我们遵循Shinet al. 并为每个域创建200个训练示例的随机子采样分割，使用剩余数据的20%进行验证。我们通过使用SEMPRE工具包（Be-rant etal. ，2013）。我们用五种不同的随机分裂重复过夜的每个实验。TOPv2Chen等人（2020）介绍了TOPv2数据集，这是一个面向任务的语义解析数据集，具有八个域，其中两个域具有预定义的低资源分割。作者提出了一种原则性的方法来构建低资源训练集，每个意图和插槽的样本（SPIS），旨在确保不同复杂度的领域中的本体标签的平等暴露我们在10、25和500个SPIS资源分割上对天气和提醒域进行了实验提醒域是最具挑战性的，有19个意图标签，32个插槽标签，21%的程序深度大于2。相比之下，Weather有7个Intent标签，11个插槽标签，并且没有深度大于2的程序。3.2规范化表示3.2.1过夜Overnight使用上下文无关的同步语法来生成逻辑形式的规范表示。如可见于图2、这些典型的表征类似于自然语言。3.2.2TOPv2Chen等人应用一组简单的修改TOPv2的意思表示，以达到在他们所有的实验中使用的规范形式。与Overnight不同，这些预处理步骤在很大程度上是编码上的小差异，并且不会改变逻辑形式的句法结构我们采用所有这些规范化步骤（除了语义解析树的字典排序这些变换的例子可以在图2中看到，并在下面简要描述。语义表示去除了对解释意义表示不必要的冗余话语标记。Out-of-Vocab将整个intent或slot标签作为新的单个标记添加到标记器，并具有相应的随机初始化嵌入。In-Vocab将intent和slot标签替换为可由预训练的分词器表示的简短唯一标识符。我们对这些规范化选择进行消融，用不同的随机种子重复每个实验三+v：mala2277获取更多论文模型表示方法沐浴。布洛Cal.侯Pub.Rec.Res.Soc.AvgT5-小型意义FT0.7670.4540.6850.6080.6400.6980.6910.5810.641PT0.6210.3120.4700.3520.4780.5060.6080.3520.463CanonicalFT0.7750.4660.7210.6160.6650.6730.6360.5680.640PT0.7640.4400.6800.6010.6480.6990.6970.5780.638T5基意义FT0.7690.4550.7170.6120.6700.7130.7140.5870.655PT0.7170.4290.6770.5100.5960.6390.7050.4920.596CanonicalFT0.8000.4660.7360.6420.7110.6940.6960.5970.668PT0.7860.4520.6820.6360.6750.7050.7330.6140.660巴特意义FT0.7340.3700.5140.5400.5140.4770.4170.4240.499CanonicalFT0.5910.3310.7400.3090.6680.5980.5820.5320.544T5-大号意义FT0.7770.4320.6900.6390.7090.7290.7230.5900.661PT0.7920.4690.7390.6760.6960.7340.7780.6000.685CanonicalFT0.7930.4580.7600.6580.6780.7270.7150.5810.671PT0.8190.5250.7680.7120.7440.7890.7690.6550.723T5-XL意义FT0.7740.4130.7020.6300.6820.6910.7050.5800.647PT0.8190.5320.7670.6930.6940.7580.7780.6320.709CanonicalFT0.7990.4860.7810.6470.7240.7320.7250.6190.689PT0.8390.5440.7770.7290.7700.7910.7890.7020.743表1：Overnight数据集上所有模型（无约束解码）的无约束表示精度对于每个域，我们报告了在200个样本的随机采样分割上训练的5次运行的平均值，用于微调（FT）和即时调整（PT）模型。3.3模型我们在附录A中提供了所有模型的训练细节和超参数。下面，我们简要介绍一下自动调优方法。3.3.1提示调整快速调谐，如莱斯特等人提出的。（2021），预先给出一个连续嵌入序列p=（p1，. . .，pK）到序列输入嵌入e（u）=（e（u1），. . . ，e（u N）），然后将其馈送到具有参数θ的语言模型。在提示调优过程中，我们优化了提示嵌入（p1，. . .，p K），保持语言模型参数θ和预训练的向量嵌入固定。请注意，这个过程仍然需要通过完整的语言模型反向传播梯度像微调模型一样，我们最大化生成输出序列z的可能性。4结果在表1中，我们报告了四个T5模型尺度和两个目标表示的过夜结果在表2中，我们将约束解码（见附录A）添加到我们的最佳性能T5模型中，并与先前报告的过夜结果进行比较。在表3中，我们显示了T5-large在TOPv 2的三种不同SPIS-分割上的结果，并包括Chen等人的BART-CopyPtr 结果。（ 2020 年）。在表 4中，我们总结了TOPv2规范化消融研究的结果4.1快速调谐与微调我们发现，即时调整改善了所有大型模型配置和目标表示的微调。在隔夜，提示调谐指示精度超过微调计数器高达5个点与T5-大和T5-xl。对于T5-small和T5-base，在预测规范形式时，快速调整仍然具有竞争力（平均准确度在1%以内）。在TOPv2上，即时调整在最低SPIS分裂上实现了15%平均精度的当训练数据增加时，这种性能差异减小;然而，即时调谐的T5-large在500 SPIS下继续以5个点击败其微调的对应物，并且BART-CopyPtr模型以1.4个点击败其微调的对应物。我们的快速调优模型在这些数据集上的表现优于可靠的报告结果。在隔夜，我们的最佳模型-T5-xlPT与规范表示和约束解码-优于BARTFT模型的申等人。（2021）提高了5个准确点，GPT-3提高了2个多点。在TOPv 2的25个SPIS分割上，与Chen等人的BART-CopyPTR相比，我们看到平均改善超过5个点。（2020年）。4.2规范与意义表征我们的主要发现是，及时调整的T5模型变得更好地产生意义的representations与模型大小的增加在《一夜之间》中，我们看到规范表征和意义表征之间的绝对差异从17.5个点缩小到17.5个点。+v：mala2277获取更多论文模型表示方法解码沐浴。布洛Cal.侯Pub.Rec.Res.Soc.AvgT5-XL意义PT约束0.8410.5920.8020.7650.7760.8140.7890.7250.763T5-XLCanonicalPT约束0.8560.6190.8060.7790.8240.8300.8220.7930.791BART†意义FT约束0.8340.4990.7500.6190.7390.7960.7740.6200.704BART†CanonicalFT约束0.8640.5540.7800.6720.7580.8010.8010.6660.737GPT-2†意义FT约束0.7600.4790.7360.5710.6450.6990.6600.6060.644GPT-2†CanonicalFT约束0.8360.5400.7660.6660.7150.7640.7680.6230.710GPT-3†Canonical上下文约束0.8590.6340.7920.7410.7760.7920.8400.6870.765谷丙转氨酶-3意义上下文约束0.6800.5300.6800.5800.6300.7500.7800.6300.657谷丙转氨酶-3Canonical上下文约束0.8000.6200.8200.7100.7900.8400.8900.7200.774表2：Overnight数据集上所有模型的约束表示精度。对于每个域，我们报告了在200个示例的随机抽样分割上训练的5次运行的平均值。†表示Shin等人报告的结果。（2021年）。表示在二次抽样测试集上的性能。25BART-CopyPtrFT0.5570.7160.637250.560.740.510.730.550.710.270.70T5-大号FT0.5020.6830.5935000.720.850.720.850.720.850.480.83PT0.6420.7390.691500 BART-CopyPtr FT 0.7190.8490.784T5-大号FT 0.649 0.846 0.7480.7490.8470.798表3：TOPv2数据集的不同低资源分割的平均精确匹配精度（5次运行）。BART-CopyPtr结果来自Chen et al. （2020年）。对于T5-xl，从T5-small的3.4分增加到T5-xl的3.4分（表1）。当我们将约束解码应用于T5-xl时，该差距再缩小18%至2.8分（表2）。相比之下，Shin等人（2021）报告了提示GPT-3时的11.7点差异。对于我们的微调基线，我们观察到跨BART和T5-xl的目标表示的4个点的小性能差距，而我们观察到T5-小、T5-基和T5-大模型没有差距。在我们的TOPv2实验中，我们发现了类似的证据，即大T5模型的灵活性，用于生成远离训练分布的序列。特别是，对于我们最具侵入性的规范化方案Out-of-Vocab，它向词汇表中添加了新的标记，并使这些嵌入未经训练，我们发现T5-large在所有数据资源级别上的性能相比之下，T5-small在10 SPIS级别上的性能相对于无规范化（无）下降了近50%，在500 SPIS级别上继续落后33%。有趣的是，我们发现In-Vocab在10 SPIS级别大幅降低了 T5-small 的性能 -30.9% vs.43.4%的None-但在500 SPIS时略优于它。我们推测In-Vocab有效地匿名了ontol-表4：针对不同含义表示规范化选择的TOPv2天气域上的精确匹配准确度（3次运行）（粗体指示在该资源级别的最佳精确匹配准确度），Sm.和Lg.分别表示T5-小和T5-大。ogy标记，模糊对预测有用的信息。在低数据状态下，没有足够的训练数据来学习这些匿名令牌的语义，而有了足够的数据，这个问题就消失了。5结论我们发现，及时调整是一种有效的方法，适应语言模型的语义分析任务。提示调整显着优于微调在低数据制度，并保持竞争力的完全监督设置。我们进一步发现，虽然规范化的意义表示可以稍微提高性能，目标表示之间的差距减少时，及时调整较大的T5模型。这一结果不同于以前的工作（Shin et al. ，2021），这表明预先训练的LM比意义表示更适合输出规范。然而，即时调整的一个显著局限性是，它需要更多的时间来收敛比微调。我们相信，未来研究的一个富有成效的方向是找到减少提示调优所需计算的方法SPIS模型方法提醒天气平均没有一简化In-Vocab非词汇10T5-大号FTPT0.3920.5670.5790.7000.4860.634SPISSm.Lg.10 0.430.70SM.Lg.0.310.66SM.Lg.0.450.64SM.Lg.0.23 0.69+v：mala2277获取更多论文6伦理考虑和限制这项工作有两个主要的局限性。第一是对所学提示的有限分析。虽然同时进行的工作表明，解释提示是一项艰巨的任务，但它仍然是一个重要的考虑因素，并留给未来的工作（Khashabiet al. ，2021年）。第二，关于意义表征的训练提示需要的计算远远多于微调。这可能会加剧数据和计算访问同样有限的地区的不平等（Ahia et al. ，2021年）。引用Orevaoghene Ahia，Julia Kreutzer和Sara Hooker。2021.低资源的双重束缚：低资源机器翻译的剪枝实证研究。计算语言学协会的发现：EMNLP2021，第3316J. Berant，A.周河，巴西-地Frostig和P. Liang。2013. Freebase上的问答对语义分析。自然语言处理中的经验方法（ Empirical Methods inNatural Language Processing，EMNLP）乔纳森·贝兰特和珀西·梁。2014年。通过释义进行语义分析。在计算语言学协会第52届年会的会议记录，第1415- 1425页计算机语言学协会放大图片作者：Rishi Bommasani，Drew A.放大图片创作者：Michael S.作者：Bernstein，JeannetteBohg，Antoine Bosselut，Emma Brunskill，ErikBrynjolfsson ， Shya- mal Buch ， Dallas Card ，Rodrigo Castellon，Ni- ladri Chatterji，Annie S.作者：陈，Kathleen Creel，Jared Quincy Davis，Dorottya Demszky ， Chris Don- ahue ， MoussaDoumbouya ， Esin Durmus ， Stefano Ermon ，John Etchemendy ， Kawin Ethayarajh ， Li Fei-Fei ， Chelsea Finn ， Trevor Gale ， LaurenGillespie，Karan Goel，Noah D.放大图片作者：Goodman ， Shelby Grossman ， Neel Guha ，Tatsunori Hashimoto ， Peter Henderson ， JohnHewitt，Daniel E.黄晶，洪珍妮，许凯尔，托马斯·伊卡尔，萨希尔·贾恩，丹·朱拉夫斯基，普拉秋莎·卡普里，西达斯·卡拉姆切蒂，杰夫·基林，费雷什特·哈尼，奥马尔·哈塔卜，庞伟高，马克 ·S.Krass ， Ranjay Krishna ， Rohith Kudi-tipudi，et al. 2021. 论基金会模式的机遇与风险。CoRR，绝对值/2108.07258。汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal，ArielHerbert-Voss，GretchenKrueger，Tom Henighan，Rewon Child，AdityaRamesh ， Daniel M.Ziegler ， Jeffrey Wu ，Clemens Winter ， Christopher Hesse ， MarkChen ， Eric Sigler ， Mateusz Litwin ， ScottGray，Benjamin国际象棋，杰克克拉克，克里斯托弗伯纳，山姆麦克坎德利什，亚历克雷德福，伊利亚苏茨科弗，和达里奥阿莫代。2020. 语言模型是少数学习者。arXiv：2005.14165 [cs]。GiovanniCampagna，SileiXu，MehradMoradshahi，Richard Socher，and Monica S. Lam.2019. Genie ：用于虚拟助理命令的。第40届ACM SIGPLAN编程语言设计与实现会议论文集，PLDI 2019，第394计算机协会Xilun Chen，Asish Ghoshal，Yashar Meiden，LukeZettlemoyer，and Sonal Gupta. 2020. 面向组合任务的语义分析的低资源域适应。在2020年自然语言处理经验方法会议（EMNLP）上，第5090-5100页，在线。计算语言学协会。Harm de Vries，Florian Strub，Jeremie Mary，HugoLarochelle ， Olivier Pietquin ， and Aaron CCourville.2017.通过语言调节早期视觉处理。神经信息处理系统进展，第 30 卷。 CurranAssociates，Inc.Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。李东和米拉拉帕塔。2016. 把语言转化为逻辑形式。在Proceedings of the 54 th Annual Meeting oftheAssociationforComputationalLinguistics（Volume 1：Long Papers），第33-43页计算语言学协会。Sonal Gupta ， Rushin Shah ， Mrinal Mohit ， AnujKu- mar，and Mike Lewis. 2018. 使用层次表示的面向任务对话的语义分析。2018年自然语言处理经验方法，第2787-2792页，比利时布鲁塞尔。计算语言学协会。NeilHoulsby ， AndreiGiurgiu ， StanislawJastrzebski ， BrunaMorrone ， QuentinDeLaroussilhe，AndreaGesmundo，MonaAttariyan，and Sylvain Gelly. 2019. nlp的参数有效迁移学习。国际机器学习会议，第2790-2799页。PMLR。Daniel Khashabi、Shane Lyu、Sewon Min、LianhuiQin 、 Kyle Richardson 、 Sameer Singh 、 SeanWelleck、Han- naneh Hajishirzi、Tushar Khot、Ashish Sabharwal和Yejin Choi。2021年立即行动：+v：mala2277获取更多论文连续数列的离散化解释的奇怪情况。arXiv：2112.08348 [cs]。Diederik P. Kingma 和 Jimmy Ba。 2015.亚当：随机优化的一种方法。 CoRR ，绝对值/1412.6980。布莱恩·莱斯特，拉米·艾尔-瑞福，诺亚·康斯坦。2021年规模的力量参数有效的提示调整。在2021年自然语言处理经验方法集，第3045-3059页，在线和蓬塔卡纳，多米尼加共和国。计算语言学协会。Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中，第7871-7880页，在线。计算语言学协会。香丽莎李和珀西梁。2021. 前缀调优：优化生成的连续前缀。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议中，第4582-4597页，在线。计算语言学协会。Xiao Liu ， Yanan Zheng ， Zhengxiao Du ， MingDing，Yujie Qian，Zhilin Yang，and Jie Tang.2021. Gpt 也理解。 arXiv 预印本 arXiv ：2103.10385。拉比·卡里米·马哈巴迪，詹姆斯·亨德森，塞巴斯蒂安·鲁德. 2021.压缩器：高效的低秩超复杂适配器层. arXiv预印本arXiv：2106.04647。放大图片作者： Alana Marzoev ， M. FransKaashoek ， Michael J. Cafarella ， and JacobAndreas. 2020. 非自然语言处理：弥合合成和自然语言数据之间. CoRR，abs/2004.13645。Adam Paszke，Sam Gross，Francisco Massa，AdamLerer ， James Bradbury ， Gregory Chanan ，TrevorKilleen，ZemingLin，NataliaGimelshein ， Luca Antiga ， Alban Desmaison ，Andreas Kopf，Edward Yang，Zachary DeVito，Martin Raison ， Alykhan Te- jani ， SasankChilamkurthy，Benoit Steiner，Lu Fang，JunjieBai，and Soumith Chintala. 2019. Py-torch：一个命令式风格的高性能深度学习库。 In H.Wallach，H. 拉罗谢尔，A.Beygelzimer ， F.d'Alché-Buc ， E.Fox 和R.Garnett，编辑，神经信息处理系统进展32，第8024-8035页。Curran Asso-ciates，Inc.Guanghui Qin和Jason Reynner。2021.学习如何提问：使用软提示的混合查询lms。arXiv预印本arXiv：2104.06599。Colin Raffel 、 Noam Shazeer 、 Adam Roberts 、KatherineLee 、 SharanNarang 、 MichaelMatena 、 Yanqi Zhou 、 Wei Li 和 Peter J. Liu 。2020. 使用统一的文本到文本Transformer探索迁移学习的局限性。Journal of Machine LearningResearch，21（140）：1S-A Rebuffi，H. Bilen和A.维达尔迪2017.学习- ing多视觉领域与残余的适配器。神经信息处理系统进展。蒂莫·希克和辛里奇·舒茨 2021. 利用完形填空题进行少镜头文本分类和自然语言推理。在计算语言学协会欧洲分会第16次会议的论文集，第255-269页，在线。计算语言学协会。诺姆·沙泽尔和米切尔·斯特恩 2018. Adafac- tor：具有次线性记忆成本的自适应学习率。第35届国际机器学习集，第4596PMLR。Richard Shin 、 Christopher Lin 、 Sam Thomson 、Charles Chen、Subhro Roy、Emmanouil AntoniosPlatanios 、 Adam Pauls 、 Dan Klein 、 JasonBronner和Benjamin Van Durme。2021. 受约束的语言模型产生少镜头语义分析器。在2021年自然语言处理经验方法会议论文集，第7699-7715页计算语言学协会。放大图片作者：Robert L.洛根四世埃里克·华莱士和萨米尔·辛格2020年。AutoPrompt：从语言模型中自动生成知识。在2020年自然语言处理经验方法会议（EMNLP）上，第4222-4235页。计算语言学协会。Yushi Wang ， Jonathan Berant ， and Percy Liang.2015. 一夜之间构建语义解析器。第53届计算语言学协会年会暨第7届自然语言处理国际联合会议论文集（第1卷：长文），第1332计算语言学协会。Thomas Wolf ， Lysandre Debut ， Victor Sanh ，Julien Chaumond ， Clement Delangue ， AnthonyMoi，Pier- ric Ciudad，Tim Rault，Remi Louf，MorganFuntow-icz ， JoeDavison ， SamShleifer，Patrick von Platen，Clara Ma，YacineJernite ， Julien Plu ， Canwen Xu ， Teven LeScao ， Sylvain Gugger ， Mariama Drame ，Quentin Lhoest ， and Alexander Rush. 2020.transans-formers：最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集：系统演示，第38-45页，在线。计算语言学协会。+v：mala2277获取更多论文A模型在这里，我们提供了所有的模型细节和超参数，以重现我们的结果。我们用BART和T5进行实验（Lewis et al. ，2020年;拉菲尔等人，2020），两个大的预训练的编码器-解码器语言模型。BART是在用于训练RoBERTa的相同160GB文本数据集上训练的（Lewiset al. ，2020 ）具有去噪目标。有两种尺寸配置（ BART-base ， BART-large ），我们仅在Overnight数据集上 T5是在750GB C4数据集上训练的（Raffel et al. ，2020），具有去噪目标。我们使用Lester等人（2021）的T5-v1.1检查点，这些检查点使用Prefix-LM目标进行了额外10万步的训练。T5-v1.1有五种不同规模的配置：小型、基础、大型、xl、xxl，分别具有60 M、220 M、770 M、3B和11 B参数。在这里，我们用T5-xl的模型进行实验所有实验都使用 PyTorch （ v. 1.8.1 ）和 HuggingfaceTransformers（v.4.8.2）文库（Paszke et al. ，2019; Wolf et al. ，2020）。微调基线我们与微调BART和T5所有参数的我们使用AdaFactor（Shazeer和Stern，2018）和Adam（Lewiset al. ，2020; Kingma and Ba，2015）。在TOPv2上，我们使用10−4的学习率和128.在隔夜，我们使用10−3所有规格T5的批量为64。在这两个数据集上，我们训练了5000个epoch，并通过在验证集上提前停止来执行模型选择我们遵循Lester等人提出的快速调谐方案。对于T5。我们对所有模型大小使用150个提示符，使用AdaFactor优化的学习率为0.3我们在大多数域上训练了5000个epoch，尽管有时需要多达20000个epoch才能在低资源分裂上收敛像微调的基线一样，我们在验证集上执行具有最佳精确匹配精度的模型选择。我们将同样的方法应用于BART，发现它在一些超参数配置下不收敛。因此，我们从我们的结果1中排除了即时调整的BART模型。1Li和Liang还发现使用BART进行即时调优是不稳定的，因此使用MLP对前缀进行参数化;我们没有尝试这种设置。约束解码我们通过构建包含数据集中所有规范或含义表示的前缀树来实现语法约束解码，如Shin等人（2021）所述。当进行约束解码时，我们使用10个波束执行波束搜索，并使用前缀树查找解码序列的有效单令牌延续B结果为了完整性，我们在表5中提供了所有过夜结果。B.1训练次数即时调整参数效率是有代价的：我们发现，即时调整需要显着更长的时间来训练与早期停止比微调。在Overnight数据集上，微调的模型通常需要250个epoch才能达到验证平台。我们的即时调整模型在预测规范表征时经常需要超过1000个时期，在预测意义表征时则需要多达5,000个时期。在图3中，我们显示了用

下载后可阅读完整内容，剩余1页未读，立即下载