预训练seq2seq模型的层次句法概括性评估

199 浏览量更新于2023-12-01 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文给空白板着色：预训练对序列到序列模型亚伦·穆勒C罗伯特·弗兰克7 塔尔·林岑Z王鲁恒Z塞巴斯蒂安·舒斯特ZC约翰霍普金斯大学7耶鲁大学Z纽约大学网址：amueller@jhu.edu，schuster@nyu.edu摘要词与词之间的关系是由层次结构而不是线性顺序决定的。序列到序列（seq2seq）模型尽管在下游NLP应用中取得了成功，但在执行句法转换（例如，将陈述句转换为疑问句）时，通常无法以层次敏感的方式进行概括。然而，seq 2seq模型的句法评估仅观察到在被训练以执行句法转换之前未在自然语言数据上进行预训练的模型，尽管已经发现预训练在语言模型中诱导分层语言我们使用预先训练的seq2seq模型T5和BART 以及它们的多语言变体 mT5 和mBART来弥补这一差距。我们评估了他们是否对两种语言中的两种转换：英语和德语中的疑问句形成和被动化进行了层次概括。我们发现，预先训练的seq2seq模型在执行语法转换时会分层泛化，而从头开始训练的模型则不会。这一结果证明了来自未注释的自然语言文本的分层句法信息的可学习性，同时也证明了seq2seq模型能够进行句法生成，尽管只有在暴露于比人类学习者接收到的更多的语言数据之后。1介绍人类语言是有层次结构的。在像自然语言推理这样的NLP任务中，语法能力是鲁棒通用化的先决条件（例如，McCoy等人，2019）。探索性研究发现，掩蔽语言模型（MLM）包含层次表示（ Tenney et al. ， 2019 年 ; Hewitt 和Manning，2019年; Clark图1：刺激实验设计的贫困。我们微调预训练的seq2seq模型，并从头开始训练小的seq2seq模型来执行语法转换。训练集包含符合层次和线性变换规则的混合样本.泛化集包含只有分层规则才能产生正确输出的示例。预训练的模型使用分层规则进行泛化，而从头开始训练的模型使用线性规则进行泛化。等人，2019年），而行为研究的递归神经语言模型（林岑等人。， 2016; Mar-vin andLinzen，2018; Wilcox et al. ，2018; van Schi-jndel et al. ，2019）和MLMs（Goldberg，2019;Huet al. ，2020）发现，模型在很大程度上能够捕获需要句子分层表示的长距离句法依赖关系。最近的证据表明，像BERT这样的MLMs（Devlin et al. ，2019）和RoBERTa（Liu etal. ，2019年）可以通过接触文本来学习进行分层语言概括（ Warstadt 和 Bowman ， 2020年），尽管获得这些语言概括中的许多都需要大量的数据（Warstadt et al. ，2020）。然而，这一证据来自二元可接受性判断任务，其中分类器头被附接到MLM，并且模型被微调以分类给定最小对中的哪个句子与历史语言学概括一致，而不是位置表面启发式。考虑以下arXiv：2203.09397v1 [cs.CL] 2022年3月+v：mala2277获取更多论文实施例（1）的两个变换：(1) 被你的独角兽逗乐的牦牛hasn’ta. Hasn’t娱乐了一只蝾螈b. * 你的独角兽逗过的牦牛没有逗过蝾螈吗例（1a）通过将主要助动词移到句子前面来正确地形成问题，而例（1b）依赖于不正确的位置启发，即陈述句中的第一个助动词应该移到句子前面。当区分语法和非语法的辅助移动时，模型可以依赖于分布信息（Lewis和El-man，2001），例如二元语法分析（Reali和Christiansen， 2005; Kam等人， 2006）。，2008）在许多情况下做出正确的判断，因此在二元分类任务上的高性能可能夸大了模型的语法能力。相比之下，执行句法转换--例如，给定一个像例子（1）这样的陈述句作为输入，将其转换成像（1a）这样的极性问题是更困难的。它需要依赖于层级结构的多个复杂但系统的操作，包括移动、数一致，以及在具有语法格的语言中的格重反，如德语。因此，句法转换能力的评估可以作为神经模型中 McCoy等人（2018）评估非预训练的重复序列到序列（seq2seq）模型（Sutskever et al. ，2014）在问题形成任务上，发现他们依赖于线性/位置表面句法而不是句法结构来执行这种句法转换。最近的研究还专门考虑了递归seq 2seq模型和 trans-former 模型（ Petty 和 Frank ，2021），这些模型从零开始训练其他转换，如时态再反射（McCoy et al. ，2020）和钝化（Mulligan et al. 2021年），发现了类似的结果。预训练模型的负偏差。我们使用这些数据集来分析单语和零杆跨语言设置的性能。此外，我们分析了预训练模型如何执行语法转换。我们的研究结果表明，预训练模型通常以层次敏感的方式执行句法转换，而非预训练模型（包括预训练模型的随机权重版本）主要依赖于线性/位置分析来执行转换。这一发现为Warstadt etal. （2020）和Warstadt和Bowman（2020）从自然语言文本输入的分层句法信息的可学习性。我们的代码和数据是公开的。12句法转换2.1语言我们评估英语和德语的句法转换我们选择英语，以便与以前的结果进行比较（McCoy etal. ，2018; Mulligan et al. ，2021年）。我们进一步扩展我们的evalations到德国，因为它表现出明确的情况下标记的限定词和名词，这种类型学特征已被发现，以增加敏感性的语言模型的句法结构（Ravfogel等。，2019）。这使我们能够比较具有不同层次表面线索的语言的转换能力。2.2任务我们采用了刺激实验设计的贫困（Wilson，2006），我们在与层次规则或线性/位置规则兼容的语言转换的例子上训练模型，然后在只有层次规则导致与语言语法一致的泛化模式的句子上评估模型（图1）。2换句话说，我们感兴趣的是T5和mT5（以下称为（m）T5），以及BART和mBART（以下称为（m）BART）是否表现出分层归纳偏差，3不同于先前工作中非预先训练的模型所显示的线性归纳这些研究旨在了解-各种seq2seq体系结构的归纳偏差，这就是为什么它们在训练模型以执行句法转换之前不在非注释的自然语言数据上预训练模型。在这项研究中，我们创建了德语数据集，并修改了英语数据集，以评估诱导，1https://github.com/sebschu/多语言转换[2]还有其他规则可以正确地转换我们使用的刺激，但我们发现，我们测试的模型确实学习了这些规则中的一个。3当多个泛化与训练数据一致时，+v：mala2277获取更多论文培训、开发、测试结构问题形成被动化没有RC/PP任务：一些木琴已经记住了我的牦牛。→有木琴记得我的牦牛吗？RC/PP对对象的追求：我的斑马逗乐了一些海象谁已经等待。→我的斑马逗乐了等待的海象吗被动：你的鹌鹑逗乐了一些秃鹰。→一些秃鹰被你的鹌鹑逗乐了。被动句：一些恐龙在你的蝾螈后面招待你的鹌鹑→你的鹌鹑在你的蝾螈后面被一些恐龙招待关于主题的表1：句法结构在训练集、测试集和泛化集中的分布。为了在训练和微调过程中将模型暴露给所有结构，我们还使用“decl：“前缀为所有结构提供了身份转换我们使用测试集来评估模型是否已经在分布示例上学习了任务，并使用泛化集来评估模型是否分层泛化。参见附录A中的德语例句。我们重点讨论两个句法转换任务：疑问句的形成和被动化。请参见表1，了解我们在训练期间向模型提供哪些结构以及我们坚持哪些结构来评估分层泛化。表2给出了每个转换的分层和线性推广的例子问题形成。在这个任务中，一个陈述句通过将主要（矩阵）助动词移动到句子的开头来转换成一个极性问题;这个层次规则被称为MOVE-MAIN。线性规则MOVE-FIRST是将线性规则中的第一个助动词移动到句子的前面.图1和示例（1）中提供了这两种规则的示例。我们在没有关系从句（RC）或在宾语上有RC的句子上训练模型，其中第一个助动词总是矩阵动词。消除歧义的例子是那些把关系式放在主语上的例子，其中矩阵助动词是句子中的在英语中，我们使用助动词我们使用肯定和否定形式来区分多个助动词：在这样的句子中，正好有一个助动词是否定的，另一个是肯定的（在例子中相互抵消）。结果，我们可以确定诱导映射是线性的还是分层的。在德语中，否定是一个单独的词，没有前置钝化。在这个任务中，一个主动句被转换成一个被动句，通过移动的对象名词短语（NP）到前面的句子（移动-对象）。我们的训练示例也与线性规则MOVE-SECOND兼容，其中线性第二NP移动到句子的前面我们在没有介词短语（PP）或PP修饰宾语的句子上训练消除歧义的例子是那些把介词短语（PP）放在主语上的例子，其中宾语是句子中线性的第三个NP。被动化还需要其他的移动、插入、时态再反射和格再反射（对热尔曼来说）。在下面的例子（2）和（3）中，宾语（蓝色）是前置的;在德语中，NP的格（主要反映在限定词中）必须被重新反射，并且主要动词需要被移动到句子的末尾。(2) 英语被动化：a. 你的鹌鹑逗得秃鹰发笑。b. 一些秃鹰被你的鹌鹑逗乐了。(3) 德国钝化：与辅助。为了区分多个辅助-a. IhrEsel下希尔特meinen因此，我们使用情态动词这使我们能够区分模型与那些线性的，您的. 我的驴子没有招待我。火蜥蜴行动指挥官火蜥蜴b. 我的火蜥蜴会从你的嘴里蹦出来。无名火蜥蜴是你的。DAT你先下来基于前置助动词的偏向驴娱乐任务：我的秃鹰，我们的孔雀被动语态：牦牛上的斑马迷惑了你的猩猩。→→你的猩猩被牦牛身上的斑马弄糊涂了+v：mala2277获取更多论文×输入输出（分层）输出（线性）任务：我的独角兽，我的独角兽Hasn’t牦牛吃过了。吃了吗吃过了吗任务：猎犬，你的洛文是-Habendie Hunde，die deine Löwen bewun-你的灵魂，你的灵魂很棒的表演。你知道吗你好吗被动语态：她的海象在我的单位之上-她的鹌鹑被海象骚扰我的独角兽被她的墙惹恼了-鸡眼惹恼了她的鹌鹑。在我的独角兽之上诡计被动：Unsere Papageie beimeinen Di-我们的父亲是我们的父亲我的恐龙从一个-我们的祖先是恐龙。在我的恐龙之夜。我的爸爸在等你。表2：具有分层和线性规则转换的泛化集的示例附录A中提供了注释的德语示例。3实验装置3.1数据本文对McCoy等人的上下文无关文法进行了修正和补充。（2020）生成我们的培训和评估数据。4对于每个变换，我们的训练数据由100，000个示例组成，其中身份示例（其中输入和输出序列相同）和变换示例之间的比例约为50/50。身份的例子包括所有的陈述或主动结构（包括句子与RC/PP的主题），从而暴露网络的输入结构，我们测试的所有范围然而，对于经变换的示例，训练数据仅包括在对象NP上没有RC/PP或RC/PP的示例，即，与分层规则和线性规则都兼容的情况我们还生成了分别由1，000和10，000个示例组成的开发和测试集，其中包含具有与训练中使用的结构类似的结构的句子;这些用于评估看不见的句子的分布对于每个转换，我们还生成了一个由10，000个转换后的样本组成的通用化集，这些样本在主题NP上具有RC/PP。对于这样的例子，依赖于线性规则的模型将不能正确地泛化。3.2模型我们用 T5 （ Raffel et al. ， 2020 ）和 BART（Liu et al. ，2020年），两个英语预训练序列到序列模型。我们还用它们的多语言变体mT5 进行了实验（ Xue et al. ， 2021 ）和mBART（Liu et al. ，2020）。5这些是4我们生成我们的评估集，使其由语法上但语义上不可能的句子组成，基于12层变压器（Vaswani et al. ，2017）架构，具有双向编码器和自回归解码器。虽然我们使用（m）T5的基本尺寸，但我们使用（m）BART的大尺寸来保持模型的尺寸相似。当微调（m）T5和（m）BART时，我们在源序列中使用任务前缀。我们用“quest：“来表示疑问句，用“passiv：“来表示被动化。与以前的工作一样，我们还包括恒等变换示例（前缀为“decl：“），即，模型必须输出未改变的陈述句或主动句的示例。当从头开始训练seq2seq 基线时，我们遵循 McCoy et al.（2020）并将任务标记附加到输入序列的末尾。对于语法转换的微调，我们使用批量大小128和初始学习率5 10−5。我们对10个epoch进行微调，每500次迭代进行评估我们发现，验证损失一般收敛在1为了证实McCoy et al.（2020）和Petty andFrank（2021）的发现，即非预先训练的模型无法分层泛化，我们还训练了与这些研究中使用的模型类似的基线seq2seq模型我们实现了1层和2层基于LSTM的seq2seq模型，以及1层和2 层基于 transformer 的 seq2seq 模型，其中transformer有4个attention heads。6我们发现1层模型在开发集上始终实现更高的序列准确度，因此我们关注1层基线。我们重复使用McCoy等人的所有超参数。（2020年）。所有基线得分均为10次运行的平均值。3.3度量对于所有的转换，我们主要关心的是序列的准确性：每个token是否在tar中不太可能出现在自然语言语料库中。这是为了减轻预训练语料库中标记搭配的混淆5我们使用HuggingFace实现（Wolf et al. ，2020）。6我们的实现基于语法转换为重点的转换库：https：//github.com/clay-lab/transductions+v：mala2277获取更多论文≈≈问题形成被动化模型英语德国英语德国LSTM0.950.940.970.97Transformer0.950.930.980.98T51.00–1.00–MT51.001.001.001.00巴特0.96–0.95–捷运系统1.001.001.001.00表3：英语和德语句法转换的（分布中）测试集上的序列准确度。所有模型都学习分布内变换。问题形成被动化模型英语德国英语德国LSTM0.110.330.050.44Transformer0.070.050.040.07T50.87–1.00–MT50.991.001.001.00巴特0.96–1.00–捷运系统0.590.820.800.98表4：英语和德语句法转换的概括集上的主要辅助准确度（用于疑问句只有预先训练的模型才能分层泛化。在预测的序列中以正确的顺序得到序列？然而，模型可能会在犯其他错误的同时分层泛化对于疑问句的形成，我们使用主助动词的准确性，它评估正确的助动词是否被移动到句子的前面目标序列中的第一个词总是主要助动词，因此我们通过检查预测序列和目标序列中的第一个词是否相同来计算对于被动化，我们使用宾语名词准确性，它衡量正确的宾语名词是否被移动到主语位置。目标序列中的第二个词总是原始对象名词，因此我们通过检查预测序列和目标序列中的第二个词是否相同来计算对象名词准确度。4结果所有模型都学习分布内变换。我们首先介绍了在训练中看到其结构的看不见的句子的结果，其中层次和线性规则结果正确概括（表3）。所有模型在此设置下都表现良好，包括从头开始训练的基于LSTM和基于Transformer的模型然而，（m）T5收敛到比非预训练模型更高的序列准确度此外，虽然非预先训练的模型需要大约15-只有预先训练的模型才能分层泛化。对泛化集示例（其中线性规则导致不正确的泛化）的评估表明，没有一个从头开始训练的模型已经学习了分层规则。这些模型在整个训练过程中在泛化集上始终保持或接近0%的序列准确度，因此我们提供了主要的辅助/对象名词准确度（表4）。即使在这些更宽容的指标上，准确性仍然很低，这表明非预先训练的模型还没有获得分层规则。低精度并不一定表示依赖于线性移动-第一或移动-第二规则。为了测试非预先训练的模型是否已经学习了线性规则，我们实现了计算使用MOVE-FIRST规则（用于问题形成）或 MOVE-SECOND规则（用于被动化）的泛化集示例的比例的度量;我们将这些分别称为移动第一频率和对于每种模型和语言，问题形成的主要辅助准确率和移动优先频率之和为1.一、0;宾语名词ac-的和精确度和移动第二频率的被动-也是1。0。因此，在模型没有移动主要助动词或宾语名词的地方，它通常使用线性规则。换句话说，非预先训练的模型表现出线性归纳偏差。这一发现与非预训练的seq 2seq模型的先前评估一致（Mc-Coyet al. ，2020; Mulligan etal. ，2021;Petty和Frank，2021）。7相比之下，（m）T5和（m）BART在主助词/宾语名词上实现了非常高的准确性。[7]尽管如此，德语转换的更高准确性支持了这样一个假设，即对句法结构（这里是有大小写标记的冠词和名词）的更明确的提示使模型更容易学习分层句法概括。这与Ravfogel等人的发现一致。（2019）和Mueller et al.（2020年）。+v：mala2277获取更多论文××∈ ×图2：每500次微调迭代的准确性，每次语法转换的10次微调。X表示各时期的平均准确度。T5模型通常比BART模型更好地执行语法转换。单语言模型往往比多语言模型实现更高的准确性。我们在附录B中展示了完整的学习曲线。泛化集mBART与英语问题形成斗争，在整个微调中实现平均59%的然而，它确实达到了最高的精度>90%，表明它能够分层-在观察某些训练示例后，这些精度仍然远远高于非预训练模型的准确率为10%由于泛化集上的序列准确度对于所有预训练模型来说通常都是不稳定的，因此我们展示了在10个微调时期内每500次微调迭代采样的准确度分布图（图2）。每个预先训练的模型在前500次微调迭代之前学习分布内变换，因此每个绘制的准确度可以被认为是在它们已经学习了变换之后的模型偏好的指示。(m)T5’ssequence accuracies are generally（m）BART在句法转换方面更困难，如其较低的平均准确度所示，尽管它仍然能够检测到正确的助动词和宾语移动，如图2中的最大主助动词和宾语名词准确度所示。这表明，预先训练的seq2seq模型表现出了语法归纳偏差，并且它们可以快速学习语法转换。我们测试的两类模型之间有两个主要区别：（m）T5和（m）BART不仅是预训练的，而且比我们的非预训练模型更深入，更参数化。疑问句结构被动化模式英语德语英语德语表5：在对每个预训练模型的权重进行随机化后，通过500次微调获得的最大主要辅助词和对象名词准确率。在整个微调过程中，序列精度保持在0附近.mT5（性能更好的模型）的权重，并使用510−4的初始LR8进行多达500个历元的微调。对于所有的转换，随机化模型的最大准确度远低于预训练模型的平均准确度（表5），这表明更深层次的架构本身不会导致结构敏感的泛化。这反过来表明，预先训练的模型不会从分层归纳偏差开始;它们通过预先训练获得它，将Warstadt和Bowman（2020）的发现扩展到生成序列到序列模型。然而，正如非零的主要辅助/对象名词准确度所表明的那样，随机初始化的mT5模型也没有表现出一致的线性泛化，这与1层非预训练模型不同。这可能是由于与变换训练语料库的大小相比，参数的数量很大这种规模的随机初始化模型可能需要多几个数量级的训练数据来学习稳定的泛化。模型等级归纳偏见是一种特征吗或者是在预先训练中获得为了控制预训练，同时保持模型大小一致，我们随机化8我们调整学习率510{−2，−3，−4，−5}的随机化模型，发现5 10−4产生最好的主要辅助和对象名词准确度域内评估。T5 0.480.25–MT50.500.440.250.50巴特0.40–0.30–捷运系统0.480.380.290.44+v：mala2277获取更多论文每个预先训练好的模型几乎总是选择正确的辅助/对象来移动;那么，是什么错误导致了它们的次完美序列精度呢？我们进行了详细的错误分析，发现预训练的模型从第二个名词短语中删除了PP，但在其他方面正确执行了许多详见附录C。5转型战略我们的研究结果表明，预先训练的seq2seq模型可以始终如一地执行层次敏感的转换。他们采取什么策略来做到这一点？由于预训练语料库包括主动句、被动句、陈述句和疑问句，因此模型表示可以对这些高级句子特征进行编码。[9]因此，一种策略可以是学习不同句子结构的抽象表征之间的映射（表征策略）。或者，模型可以学习正确地识别输入中的相关语法单元，然后学习导致正确转换的为了区分哪些策略模型用于执行句法转换，我们观察了句法转换的跨语言零触发迁移。我们利用英语和德语使用相同的操作，而在德语中的被动化涉及的情况下reinflection和移动的主要动词的额外步骤。如果结构表征在英语和德语中共享，10我们不期望问题形成和被动化的不同行为：如果模型采用REPRESENTATION策略，那么在仅对英语被动化进行微调后，它也应该正确地执行德语被动化，包括格再反折和移动主要动词的额外步骤相反，如果它采用RECIPE策略，我们预计在英语被动化上训练的模型只执行英语被动化所需的步骤，导致不正确的情况标记和德语中没有主要动词移动。我们首先通过训练一个英语问题形成任务的模型，并对mT5和mBART进行评估，验证了mT5和mBART能够进行跨语言迁移。9例如，已经发现（一组）神经元激活在MLM中编码句法特征（ Ravfogel et al. ， 2021; Finlayson 等人，2021;Hernandez and Andreas，2021）.10多语言多层膜中发现了共享的跨语言结构表征（Chiet al. ，2020），我们在本节中提供了共享表示的进一步证据图3：在对英语/德语身份示例和英语转换进行微调后，mT5对德语转换的学习曲线。我们展示了德语疑问句形成的准确性，其中包括宾语上的RC（左上）和主语上的RC（右上），以及德语被动化的准确性，其中宾语上的PP（左下）和主语上的PP（右下）。德语. 在早期的实验中，我们注意到了“自发翻译”的问题（Xueet al. ，2021）;因此，我们还在训练数据中包括德语身份变换，以训练解码器也输出德语句子。如图3的顶部两个面板所示，mT5在仅暴露于英语转换之后，可以正确地在域内结构（对象上的RC）上执行德语问题形成。对于域外结构（受试者上的RC），mT5几乎总是移动主要辅助词，但几乎从不将其从其原始位置删除，从而导致较低的序列准确度。除了这个错误，该模型是能够跨语言trans-fer的问题形成任务。相比之下，mBART在零镜头德语问题形成方面的结果很差，所以我们不能使用这种方法进行结论性的论证;见附录D。鉴于mT5可能存在跨语言迁移，那么该模型在英语和德语之间不同的被动任务中表现如何我们微调mT5对英语被动化（以及德语身份转换的主动句）。这个实验的结果（图3中下面的两个面板）表明，该模型仍然能够将主要对象移动到主体位置，但它从来没有正确地完整地执行德语被动化。这是因为该模型对德语句子和英语句子执行完全相同的步骤，+v：mala2277获取更多论文≈≈×≈×× ×≈≈ ×· ××导致输出与英语语法：任何违法行为已报告给(4) MeinenKater bei ihrem莫奇是商业改善局。. .My. ACC猫你的。DAT蝾螈是我们搜索英语消歧义问题-韦尔韦滕通过模埃塞尔mation的例子。为此，我们采样5M En-糊涂了过去的。没有驴。这些行为模式表明mT5采用了RECIPE策略：如果转换所然而，即使在被动化中，该模型仍然学习移动正确的NP，这提供了mT5在执行转换时利用结构特征的额外证据。考虑到mT5和mBART的架构和训练设置之间的6语料分析预先训练的模型学习使用分层特征来执行语法转换。这是因为预训练语料库中的等级规则有明确的监督吗？换句话说，在这些模型的训练语料库中是否有消除歧义的例子来帮助他们记住分层转换模式？在此，我们重点研究了mT5训练语料库中的英语问句构成示例。消除歧义的例子将是罕见的，因为单个预训练上下文窗口必须包含陈述句以及转换为问题的相同句子Ariel，2001年）。它还要求MOVE-FIRST规则不能正确地转换句子，并且至少有一个助动词在一个句子中被噪声化，而在另一个句子中没有噪声化，这样助动词必须从另一个句子中恢复举例来说(5) . . . 这家没有违法行为的公司有没有这家公司还11mT5优于mBART。如果消除预训练数据中的上下文歧义导致句法泛化，那么从mT5的训练语料库mC4中筛选文档[12]得出的结果是118。300万句。我们检查每个文档中的每对相邻句子，手动检查满足以下标准的任何句子对：（1）句子的标记Jaccard相似度>0。（2）一个句子以助动词开头，另一个句子没有;（3）两个句子中至少有两个不同的助动词。在我们的样本中有277个句子对符合所有标准，其中13个是相邻的陈述/疑问句对，除了前置助动词之外，它们是等价的。因此，在mC 4中具有两个助动词的等价陈述句/疑问句对的概率为1。110-7由于T5然而，至关重要的是，没有一个陈述句/疑问句对是消除歧义的例子：每一对都符合线性移动优先规则。那么，一个令人信服的例子的概率是多少呢？如果我们假设一个句子包含一个RC的概率主体独立于概率对于陈述句/疑问句对，我们可以取两个概率的乘积来获得估计。从同一个118号样本中。3M句子，我们使用spaCy的依存关系分析器提取句子包含一个RC的主题，并在至少一个助动词出现在句子中。我们得到了526944个这样的句子，这意味着在mC4的英语语料库中，包含该词的句子中关于主语的RC的概率为4。5 10−3。因此，陈述句/疑问句与RC中的主语和助动词配对的概率是（4）。[5 10−3]（1. 1 10−7）= 4。95 10-10。MT5在多达1T的数据令牌上训练，以及5. 67%的文件是英文;因此，它观察到56。7B英国代币。如果我们乐观地认为英语句子平均包含15个标记，它观察到3个。78B英语句子。我们期待3。78 B（4. 95 10−10）2个消歧的例子。这不包括辅助掩蔽标准，这将使我们希望这些例子在mT5的训练中更有可能语料库12https://spacy.io+v：mala2277获取更多论文这样的例子更不可能。因此，虽然我们不能明确排除mC4中消除歧义的例子的可能性，但如果它们存在于语料库中，它们是罕见的。尽管如此，我们还是发现了以相邻陈述句/疑问句对的形式存在的监督疑问句形成的证据，即使它们并不明确支持等级规则。7讨论我们的实验提供了证据表明，预先训练的seq2seq模型通过暴露于无注释的自然语言文本而获得分层归纳偏差。这将 Warstadt 和Bowman（2020）以及Warstadt等人（2020）的发现扩展到更具挑战性的生成任务，其中模型不能依赖于 n-gram 分布映射（ Kam 等人）。，2008）。这也提供了额外的证据，表明掩蔽和重建输入序列的子集是诱导语言泛化的强大训练目标，无论是在 RoberTa（Warstadt和Bowman，2020）等掩蔽语言模型跨度去噪（m）T5的这一假设可以在未来的工作中通过训练相同的模型来测试，这些模型仅在其预训练目标上有所不同。与McCoy等人（2020）相反，我们的研究结果表明，分层架构约束（例如，树结构网络）对于鲁棒的分层概括来说不是必需的，只要模型已经暴露于大量的自然语言文本-可能比人类暴露于的语言多得多然而，McCoy等人（2020）使用的随机初始化模型与预训练模型之间的一个区别是，预训练模型可能已经看到了生成集中存在的结构（但不是句子）;因此，模型可以选择正确的转换，而不是依赖于我们在mT5的训练语料库中发现了陈述/问题对证明了问题形成的层次规则虽然我们不能完全排除消除示例歧义的可能性，但考虑到预先训练的模型产生不符合语法的转换，无论是在单语转换中（例如，在将其复制到句子的开头之后不删除主要的辅助成分）和跨语言德语被动化。此外，由于我们使用贪婪解码，因此模型在预测前置辅助词时无法考虑未来的单词：它们必须仅基于编码器的表示来更广泛地说，我们的研究结果反驳了这样一种观点，即语言学习者要获得等级概括，等级约束是必要的（Chomsky，1965）。虽然我们认为预先训练的模型观察到的输入比儿童接收的输入多得多（Linzen，2020），但Hueb-ner等人（2021）最近证明，对于在更小的儿童指导语音语料库上训练的模型，语法判断的准确性很高，这表明我们的发现在训练模型时也可能适用于更像人类的输入。8结论我们已经对大型预训练序列到序列模型的句法转换能力进行了分析。我们发现预训练模型在预训练期间获得分层归纳偏差，并且架构本身不会产生这种分层偏差。这种深度和高度参数化的模型或如此大的预训练数据集是否是分层生成所必需的，这仍然是一个悬而未决的未来的工作可以消除模型深度和预训练语料库大小，以观察架构和训练集对seq2seq模型中诱导分层归纳偏差致谢我们感谢纽约大学计算和心理语言学实验室的成员我们也感谢R。Thomas McCoy提供句子生成脚本。本材料基于美国国家科学基金会（NSF）在资助#BCS-2114505、#BCS-1919321以及资助#2030859（计算机研究协会的CIFellows项目）下支持的工作。亚伦·穆勒+v：mala2277获取更多论文由NSF研究生研究奖学金（Grant #1746891）支持。引用米拉·艾丽尔2001.无障碍理论：概述。文本表征：语言学和心理语言学方面。约翰·本杰明，阿姆斯特丹。伊森 ·A Chi ， John Hewitt ， and Christopher D. 曼宁。2020. 在多语言BERT中寻找普遍的语法关系。在计算语言学协会第58届年会的会议记录中，第5564-5577页，在线。计算语言学协会.诺姆·乔姆斯基一九六五年的理论方面。麻省理工学院出版社，马萨诸塞州剑桥。Kevin Clark ， Urvashi Khandelwal ， Omer Levy ，and Christopher D.曼宁2019. BERT在看什么？BERT 的注意力分析。在 2019 年 ACL 研讨会BlackboxNLP：分析和解释NLP的神经网络，第276-286页，意大利佛罗伦萨。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Matthew Finlayson 、 Aaron Mueller 、 SebastianGehrmann、Stuart Shieber、Tal Linzen和YonatanBelinkov。2021. 神经语言模型中句法一致机制的因果分析。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议中，第1828-1843页，在线。计算语言学协会。约夫·金伯格2019. 评估BERT计算研究仓库，arXiv：1901.05287。埃文·埃尔南德斯和雅各布·安德烈亚斯。2021. 语境化词语表征的低维线性几何。第25届计算自然语言学习集，第82计算语言学协会John Hewitt和Christopher D.曼宁2019. 在词表示中寻找句法的结构探测器。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4129-4138页，明尼阿波利斯，明尼苏达州。计算语言学协会。Jennifer Hu ， Jon Gauthier ， Peng Qian ， EthanWilcox，and Roger Levy. 2020. 一次系统的评估在神经语言模型中的句法概括。在第58届年会的会议记录中计算语言学协会，第1725-1744页，在线。计算机语言学协会。Philip A. Huebner，Elior Sulem，Cynthia Fisher，and Dan Roth. 2021. BabyBERTa：通过小规模的儿童指导语言学习更多的语法。第25届计算自然语言学习会议论文集，第624-646页，在线。计算语言学协会。Xuân-Nga Cao Kam ， Iglika Stoyneshka ， LidiyaTorny- ova ， Janet D Fodor ， and William GSakas.2008. 双字母和刺激的丰富性。CognitiveScience，32（4）：771John D.刘易斯和杰弗里L.埃尔曼2001. 可学性和语言的统计结构：重新审视刺激参数的。第26届波士顿大学语言发展年会论文集，第1卷，第359-370页，马萨诸塞州波士顿。Citeseer。塔尔·林森。2020. 我们如何才能加快向类人语言泛化的进展？在计算语言学协会第58届年会的会议上，第5210- 5217页，在线。计算语言学协会。TalLinzen ， EmmanuelDupoux ， andYoavGoldberg. 2016. 评估LSTM学习语法敏感依赖关系的能力。 Transactions of the Association forComputational Linguistics，4：521- 535.Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020. 用于神经机器翻译的多语言去噪预训练。《计算语言学协会学报》，8：726Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Mandar Joshi，Danqi Chen，Omer Levy，MikeLewis，Luke Zettlemoyer，and Veselin Stoyanov.2019. RoBERTa：一种稳健优化的BERT预训练方法。计算研究仓库，arXiv：1907.11692。丽贝卡·马文和塔尔·林森2018. 语言模型的有针对性的语法评估。2018年自然语言处理经验方法会议论文集，第1192-1202页，比利时布鲁塞尔。计算语言学协会。+v：mala2277获取更多论文R.托马斯·麦考伊罗伯特·弗兰克和塔尔·林森2018.重新审视刺激的贫困：递归神经网络中没有层次偏见的高阶泛化。在Proceedings of the 40thAnnual Meeting of the Cognitive Science Soci-ety，pages 2096-2101，Madison，Wisconsin。认知科学学会。R.托马斯·麦考伊罗伯特·弗兰克和塔尔·林森2020.语法需要在树上生长吗？序列到序列网络。Transactions of the Association for ComputationalLinguistics，8：125R. 托马斯·麦考伊，艾莉·帕夫利克，还有塔尔·林森.2019年。正确的错误的原因：诊断自然语言推理中的句法分析。计算语言学协会第57届年会论文集，第3428-3448页，意大利佛罗伦萨。计算语言学协会。亚伦·穆勒，加勒特·尼科莱，帕纳约塔·彼得鲁-泽尼乌，娜塔莉亚·塔尔米娜，塔尔·林岑. 2020. 词预测模型的跨语言句法评估。在计算语言学协会第58届年会的会议记录中，第5523-5539页，在线。计算语言学协会。卡尔·穆里根，罗伯特·弗兰克，和塔尔·林森。2021.结构在这里，偏见在那里：通过共同学习句法转换的分层概

下载后可阅读完整内容，剩余1页未读，立即下载