混洗语言模型中词序信息的重要性以及位置嵌入的研究

73 浏览量更新于2023-11-30 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文词序很重要(And（Shuffled Language Models Know It）维尼特·拉维尚卡尔（Vinit Ravishankar）MostafaAbdou 阿图尔·库尔米泽夫§安德斯·索高†奥斯陆大学信息学系语言技术组哥本哈根大学计算机科学系§乌普萨拉大学语言学和语言学系†vinitr@ifi.uio.no{abdou，soegaard}@ di. ku. dk摘要最近的研究表明，在随机排列的句子上预训练和/或微调的语言模型在GLUE上表现出竞争性的表现，质疑词序信息的重要性。有些--与直觉相反的是，这些研究中的一些还报告说，位置嵌入似乎对模型处理混洗文本的良好性能至关重要我们探测这些语言模型的词序信息，并研究了从混洗文本编码中学习到的位置嵌入，表明这些模型保留了与原始自然词序有关的信息。我们表明，这部分是由于如何在以前的工作中实现洗牌的微妙之处令人惊讶的是，我们发现，由于句子长度和单字概率之间的统计依赖性，即使是在子词分割后进行洗牌的文本上训练的语言模型也保留了一些关于词序的语义信息。最后，我们表明，除了胶水，各种语言理解任务需要词序信息，-十的程度上，不能通过微调学习。1介绍变压器（Vaswani et al. ，2017年），当用于掩蔽语言建模（Devlinet al. ，2018），同时消耗它们的输入。与自回归设置不同，这里没有固有顺序的概念，在自回归设置中，输入是逐个令牌消费的。为了补偿这种线性顺序的缺失，Vaswani等人最初提出的Transformer架构。（2017）包括添加到每个标记嵌入的固定正弦位置嵌入;每个标记携带不同的位置嵌入，对应于其在句子中的位置。基于变换器的BERT（De-vlin et al. ，2018年）取代了这些固定的正弦平等贡献。顺序由掷硬币决定。图1：全尺度模型的位置嵌入之间的Pearson相关性;模式类似于完全可学习的绝对嵌入（Wang et al. ，2021年），可以说已经学到了关于位置的一些东西。我们后来证明，这是不是与后BPE加扰的情况。嵌入与独特的，学习嵌入每个位置; RoberTa（刘等。，2019），在这项工作中研究的模型，做同样的事情。在这些模型中，位置嵌入是词的信息的唯一来源;在没有它们的情况下，为标记生成的上下文表示独立于句子中的to- kens的实际位置，因此模型类似于严重过度参数化的词袋。Sinha等人（2021）在混洗语料库上预训练的RoBERTa模型，以证明这些“混洗”语言模型和在未混洗语料库上训练的模型之间的性能差距很小（当在GLUE上进行微调和下游评估时（Wang et al. ，2018）基准）。他们进一步表明，当模型在没有位置嵌入的情况下进行预训练时，这种差距会更大在本文中，我们试图阐明为什么这些模型的行为方式，并在这样做的过程中，寻求回答一系列相关问题：• 混杂的语言模型仍然有词序信息的痕迹吗• 为什么没有位置嵌入的模型和在洗牌令牌上训练的模型之间存在性能差距，后者arXiv：2203.10995v1 [cs.CL] 2022年3月+v：mala2277获取更多论文图2：在分割之前（左）（即，在单词级别）和分割之后（中）（即，在子字级别，以及当基于它们的语料库级别频率用随机子字替换所有子字时（右）。后者消除了子词概率和句子长度之间的任何依赖关系。图表明，洗牌之前的分割保留更多的顺序信息比洗牌后，即使当洗牌后分割，位置嵌入是有意义的，因为子词概率和句子长度之间的依赖关系。表现更好？• 除了GLUE之外，是否有NLU基准，在这些基准上，混洗语言模型表现不佳？贡献我们首先证明，在第3节中，洗牌语言模型确实包含词序信息，并且对词序信息的简单测试非常敏感，特别是与没有位置表示训练的模型相比。在第4节中，我们证明了预训练足以学习这一点：位置嵌入提供了适当的归纳偏差，并且在洗牌后执行BPE分割会导致在预训练语料库中出现合理的n元语法;这使模型能够在较小的局部窗口内学习词序。其他次要线索--比如句子长度和标记分布之间的相关性--也起了作用。我们进一步证实了我们的分析，通过检查注意力模式在SEC的模型。五、在第6节中，我们表明，虽然shuf-单独微调最后，在第7节中，我们描述了在微调之前添加位置嵌入2模型Sinha 等人（ 2021 ）在多伦多图书语料库（Zhuet al. ，2015）和英文维基百科。1他们的四个n元语法被随机重新排序的句子。[2]我们将原始的未扰动模型命名为ORIG，将扰动模型命名为SHUF。N1，SHUF。N2，SHUF。N3和SHUF。N4取决于混洗的n元语法的大小：SHUF。N1在句子SHUF中重新排序一元语法。对于com，Sinha等人（2021）还训练了一个完全没有位置嵌入（NOPOS）的RoBERTa语言模型，以及在仅从原始图书语料库的unigram分布中提取的语料库上训练的RoBERTa语言模型，即，对整个语料库的重新整理（SHUF.CORPUS）。逃跑的模特可能和他们的联合国一样好在GLUE任务中，存在NLU基准，这些基准确实需要一定程度的词序信息，而这些信息无法通过1据报道，在64个GPU上训练需要72小时。2.混洗过程不完全随机地重新排序令牌，而是将位置i中的令牌移动到在位置j=i中随机选择的新位置。+v：mala2277获取更多论文⊕我们用他们的模型进行实验，也用更小的模型进行实验，我们可以用更小的碳足迹进行训练。为此，我们缩小规模的RoBERTa架构中使用的Sinha等人。（2021年）。具体来说，我们训练单头RoberTa模型，将嵌入和前馈维度除以12，在单个GPU上训练24小时，从多伦多图书语料库中采样10万个句子为此，我们训练了一个大小为5，000的自定义词汇表，我们在所有后续实验中使用它进行索引虽然这些较小的模型绝不会被微调和用于下游，但它们是我们稍后分析的有用的概念验证3词序探究我们首先试图确定在何种程度上洗牌语言模型实际上是能够编码信息有关的自然语序的句子。我们对全尺寸模型进行了两个简单的测试，与Wang和Chen（2020）一致：其中第一个是分类任务，其中训练逻辑回归器以预测在未混洗的句子中随机采样的token是否在另一个之前，第二个涉及预测单词在未混洗的句子中的位置。值得注意的是，我们没有微调任何模型参数：线性模型只能学习词序信息，如果它反映在模型以某种方式生成的成对分类对于这个实验，我们训练了一个逻辑回归分类模型，该模型是关于从Transformer编码器的最后一层提取的对于每个词对x和y，分类器被给予我们的模型m的诱导表示m（x）m（y）的串联，并被我们使用两个随机采样的位置，使用来自 UniversalAdvertisements English-GUM语料库（Zeldes，2017）的大小为2k，5k和10k的训练集（不包括具有超过30个标记的句子以增加可学习性）和大小为2，000的测试集。我们报告了三次运行的平均准确度。回归使用相同的数据，我们还训练了一个岭正则化线性回归模型来预测单词p（x）在未混洗句子中的位置，给定单词模型分类（根据）2k5k10k回归（R2）-O型钻机81.5081.7480.400.68SHUF。N1 65.9664.9871.820.60NOPOS50.41 53.350.03表1：成对分类和回归结果。m（x）. 报告每个模型的R2评分为了防止回归器记住单词到位置的映射，我们执行了6重交叉验证，其中数据的保留部分与相应的训练集不包含任何重叠结果对于这两个任务（见表1），我们的结果表明，位置编码对于编码词序特别重要：分类器和回归器在ORIG和SHUF的表征上训练。N1获得高准确率和R2分数，而NOPOS的那些接近随机。ORIG和SHUF。N1似乎比随机dom更好，只给出2k个例子。这些结果意味着，给定位置编码和2k或更多示例的适度训练集位置编码是否来自在自然文本或混洗文本上训练的模型似乎并不重要，强调混洗语言模型确实包含有关原始词序的实质信息4隐藏语序信号在第3节中，我们观察到Sinha et al. （2021）的洗牌语言模型令人惊讶地展示了关于自然主义词序的信息。这些模型包含位置信息也可以通过可视化位置嵌入相似性来看到。图1显示了位置嵌入与自身的Pearson相关性3，跨位置。在这里，我们看到，混洗模型满足Wang等人（2021）描述的位置嵌入的理想化标准：即，它们似乎是a）在较小的上下文窗口内是单调的，以及b）对于平移是不变的。如果位置嵌入相关性在整个嵌入空间上的偏移量之间是一致的由于变压器并行处理所有位置[3]我们在所有的图中都看到了类似的点积模式;我们使用皮尔逊相关性将范围限制在[-1，1]。+v：mala2277获取更多论文并且由于没有位置嵌入的语言模型不显示这种信息，所以位置嵌入必须是这种信息的源。在下文中，我们将讨论这个明显的悖论。子字与字洗牌一个重要的细节时，运行实验的洗牌文本，是当洗牌操作发生。当在BPE分割之前对标记进行混洗时，这会导致单词级混洗，其中形成单词的子单词序列保持连续。这样的序列成为语言建模的一致的、有意义的信号，允许模型有效地利用位置嵌入提供的归纳偏差因此，即使我们的预训练模型在理论上在其预训练数据中没有看到连续的标记，它们也学会了利用位置嵌入来关注相邻的标记。这一点的影响在图2中有些明显：虽然在分割前后对文本进行混洗训练的模型都表现出其位置相关性极性的变化，但只有前者显示出不同幅度的条带，类似于全尺度模型。Ravishankar和Søgaard（2021）讨论了这些模式在多语言环境中的含义;我们假设，在我们的环境中，幅度的周期性是模型利用位置嵌入实现偏移注意力的能力的一个可见的人工制品在第5节中，我们分析了洗牌预训练数据对模型注意力机制的影响意外重叠除了在分割之前由洗牌产生的n元信息之外，我们还注意到短句倾向于包括具有高概率的原始二元组，从而导致原始文本中相邻的单词的更强关联。这种效果在分割前混洗时明显比分割后强得多。图3显示了（任何类型的）重叠二元组的频率，比较了50k个句子中的单词和子单词洗牌。句子长度最后，我们观察到一些保留的信息，原始的词序，即使洗牌后进行分割。我们假设这是句子长度和单字概率之间的非随机关系的副作用单字概率与句子长度相关，这是因为不同的体裁表现出不同的句子图3：（累积）图显示了混洗单词或子单词后的子单词bigram重叠，作为所看到的bigram总数我们看到重叠是显著的，特别是在分割之前执行洗牌时。长度分布（Sigurd et al. ，2004; Jin and Liu，2017）。此外，有些词在公式化语境中出现得非常频繁，例如，谢谢你。这可能意味着单词的分布和句子边界符号之间存在近似可学习的关系。为了测试这一点，我们在unigram采样的语料库上训练了两个较小的语言模型：第一个，我们使用前10万个BookCorpus句子作为语料库，在语料库级别上洗牌（但保持原始句子长度）。位置嵌入相关性与洗牌之间的明显差异见图2。对于第二种情况，我们从两种不同的单字分布中进行采样：一种用于短句，另一种用于长句（详见附录B）。虽然第一个模型根本没有引入相关性，但第二个模型却有，如图4所示，这意味着句子长度和单字出现率足以学习一些顺序信息。5注意力分析基于transformer的语言模型通常具有关注相邻位置的注意力头（ Voita et al. ， 2019;Ravishankar et al. ，2021年）。这种注意力头部是位置性的，只有在存在顺序信息的情况下才能学习。我们试图通过计算每个头部和层的令牌和令牌之间的偏移量来+v：mala2277获取更多论文图4：模型之间的相似性矩阵，句子采样基于unigram语料库统计;不相交的词汇意味着标记选择和句子长度之间的相关性。它最大限度地关注4。然后，我们在图5中绘制了每个偏移量在100个Book Corpus句子中的频率（以百分比表示），其中我们展示了两个全尺寸模型和两个较小模型的结果（见§2）。与NOPOS相比，SHUF。N 1的注意力机制模式不太统一：即使在第0层，它也可能更喜欢注意相邻的标记，一些-模仿卷积窗口（Cordon-nier et al. ，2020）。我们在较小的模型之间看到了非常相似的分布差异：分割后的Shuf-fling，即，在子词水平上，影响早期的注意力模式。6超越胶水的SuperGLUE 和 WinoGrandeSinha 等人（2021）的调查是在GLUE和来自单词shuf-fling（PAWS）数据集的释义对手（Zhang etal. ，2019）。对于这些数据集，他们发现在混洗文本上预训练的模型的表现仅略差于在正常文本上预训练的模型。他们认为这个结果可以用两种方式来解释：a）这些任务不需要解决词序信息，或者b）所需的词序信息可以在微调过程中获得。虽然GLUE已经是一个有用的基准，但构成它的几个任务已经被证明是可以使用各种虚假伪像和伪像来解决的（Gu-rurangan 等人， 2009 ）。， 2018; Poliak etal. ，2018）。例如，如果通过微调，模型正在学习依赖于MNLI的词汇重叠等语法学，图5：注意关系中to- ken对之间偏移的相对频率; y轴表示发生的总注意关系的百分比在x轴上指示的偏移处我们绘制图层l∈ {1，2，7，8，11，12}，且线暗度增加。缺乏词序信息。评估更严格的一组超级胶水任务5（Wang etal. ，2019）和反向过滤的Winograd模式示例（Levesque et al. ，2012）的WinoGrande数据集（Sakaguchi et al. ，2020）产生的结果与Sinha等人（2021）的结果相比，描绘了一幅更加微妙的画面。表2所示的结果显示了所有模型的准确度或 F1 评分。对于两个任务（MultiRC（Khashabi et al. ，2018），COPA（Roemmele et al. ，2011）），我们观察到与Sinha et al. （2021）的GLUE和PAWS结果：性能从ORIG 下降到 S HUF。 N1最小（平均值：1.75分;GLUE任务的平均值：3.3分）6，而NOPOS更大（平均值：10.5分; GLUE任务的平均值：18.6分）。该模式对于布尔Q是/否问题回答数据集（ Clark et al. ， 2019 ）， CommitmentBank（De Marneffe et al. ，2019），ReCoRD阅读理解数据集（Zhanget al. ，2018年），这两个Winograd模式任务，（McCoy et al. ，2019年），那么这并不奇怪，他们的表现并没有受到很大的影响，[4]这种可视化方法有些局限性，因为它只考察每个标记所付出的最大我们在附录中提供了更详细的注意力分布图每个任务平均运行3次，报告5个结果。RTE任务被排除在我们的结果之外，因为它也是GLUE的一部分; RTE结果可以在Sinha等人中找到。（2021年）。由于Sinha等人报告的随机种子之间的方差非常高，因此从GLUE计算中排除了6个CoLA结果。（2021年）。+v：mala2277获取更多论文| −|在某种程度上，还包括上下文数据集中的单词（Pilehvar和Camacho-Collados，2018）。对于这些任务，我们观察到ORIG和SHUF之间的较大间隙。 N1 （平均8.1分）， ORIG 和NOPOS之间的差异更大（平均19.78分）.我们注意到，这后一组任务需要的推理是更上下文敏感的，相比其他两个任务或GLUE任务。例如，考虑Winograd模式任务。每一个例子都采用二元测试的形式，其中一个陈述由两个可能的指代物（蓝色）和一个代词（红色）组成，例如：Sid explained histheoryto Mark but he couldn't convincehim.（希德向马克解释了他的理论，但他无法说服他。代词的正确所指必须根据关于一个特殊的歧视性部分（下划线）。在上面的例子中，这取决于a）将“Sid”识别由于Winograd图式的例子被设计为使所指对象与其上下文有同等的关联，因此词序对于确定“Sid”和“Mark”作为“explained”的主语和宾语以及“he”和“him”作为“convinced”的主语和宾语的角色如果不能确立这些角色，就不可能做出正确的推断。类似的推理可以应用于上下文数据集和CommitmentBank。前一个任务测试模型基于上下文区分多义词的意义的能力。虽然这通常可以通过高阶分布统计足以满足的上下文关联的概念来实现，但有些情况下需要意识到单词在句子中的作用。后一个任务研究有限子句补语在蕴涵取消算子下的投射性这取决于蕴涵算子的作用域和主谓词的主语的同一性（DeMarneffe et al. ，2019年），这两个都是敏感的词序信息。最后要考虑的是数据集过滤。我们观察到的两个任务7例Sid和Mark在这里都是同样可能的然而，并不是所有的Winograd模式例子都是完美的，这可以解释为什么加扰模型仍然比随机模型表现得更好。参见Trichelair etal.（2018）对后一点的[8]特别是在英语这样的词形角色标记有限的语言图6：跨长度1-5+，w.r.t. O钻机。ORIG 、SHUF之间的最大差异。 N1和NOPOS-WinoGrande和ReCoRD -应用过滤算法来去除线索或偏差，这将使模型能够精确地解决任务。这表明，通过过滤掉包含线索的示例，这些线索使它们可以通过高阶统计来解决，这样的过滤策略确实成功地迫使模型（至少部分地）依赖于词序信息。除了胶水和PAWS，Sinha等人。（2021）的分析还包括几个探测实验，其中他们试图从模型表示中解码依赖树结构。有趣的是，它们表明SHUF.N4、SHUF.N3和SHUF.N2模型的性能仅略差于ORIG，SHUF.N1的得分最低（实际上低于SHUF.CORPUS）。鉴于第3节的研究结果，我们有兴趣仔细研究这一现象。在这里，我们发现依赖长度在探测设置中起着至关重要的作用，其中置换模型在捕获局部相邻依赖方面可能与O RIG一样成功，但越来越难以解码更长的依赖。为了评估这一点在多大程度上是正确的，我们在所有模型表示的顶部训练了一个双线性探测器（在Hewitt和Liang（2019）中使用），并评估了其在依赖关系中的准确性，这些依赖关系是按长度划分的，其中单词wi和wj之间的长度定义为ij。我们选择在Pareto探测框架上使用双线性探测（Pimentelet al. ，2020），因为前者直接在模型表示上学习变换，而后者添加了Dozat等人的父 MLP 单元和子 MLP 单元。（2017）-更像一个解析器。我们在英语网络树库（Silveira et al. ，2014年），并使用UAS进行评估，+v：mala2277获取更多论文模型布尔QCBCopaMultiRC记录WICWSC威诺格兰德O型钻机77.688.2/87.461.667.8/21.973.5/72.867.473.562.9SHUF。N172.479.7/82.559.766.2/15.061.1/60.463.062.955.7SHUF。N273.186.6/85.560.364.8/16.163.1/62.463.065.357.6SHUF。N473.587.9/87.160.866.2/18.264.6/63.962.465.359.53NOPOS66.063.5/75.055.652.8/3.823.8/23.555.463.0952.73SHUF.CORPUS66.765.6/73.856.152.6/6.431.0/30.357.365.1451.68表2：所有型号的SuperGLUE和WinoGrande结果。显示的分数为：平均值。CB的F1 /准确度; MultiRC的F1a/精确匹配; ReCoRD的F1 /准确度;其余任务的准确度。公制图6显示了NOPOS和SHUF.N1在不同依赖长度下的探测精度，相对于ORIG9;我们在附录C中包括了所有型号的详细探测精度。对于NOPOS，解析难度几乎随距离线性增加，通常模仿原始树库中这些距离处依赖关系的实际频率分布（附录C）;对于SHUF。N 1，图片是一个更微妙的，与依赖在距离1始终是更接近的parseabil-ity到O RIG，这是由于它的邻接偏差。7其他发现随机位置嵌入很难在训练后添加。我们试图量化位置嵌入所赋予的感应偏差可以被利用的程度，仅通过微调。为此，对于GLUE任务的子集（ MNLI ， QNLI ， RTE ， SST-2 ，CoLA），我们评估-ate NOPOS，以及一个变体，其中我们随机初始化可学习的位置嵌入并将其添加到模型中，模型的其余部分等同于NOPOS。我们没有看到任何改善的结果，除了MNLI，我们假设源于位置嵌入作为某种正则化参数。为了测试这一点，我们重复了上面的一组实验，这次注入高斯噪声;这已经被经验证明对网络有正则化效应（ Bishop ， 1995; Camuto et al. ， 2021年）。添加高斯噪声导致MNLI的分数略有增加，支持我们的正则化假设。模型学习期望特定的嵌入在微调之前，用固定的正弦嵌入替换ORIG中的位置嵌入会显著损害同一子集的分数。9请注意，第13层是指所有模型层的线性混合，如ELMo（Peters et al. ，2018）。GLUE任务，这意味着模型期望嵌入类似于随机嵌入所赋予的归纳偏差将固定的正弦添加到NOPOS也不会提高模型在类似任务子集上的性能;这意味着，假设正弦嵌入已经有意义，模型权重也需要学习以适应它们所给出的嵌入，并且它们需要大量的数据来这样做。8对语序在人类中，人们普遍认为，大多数语言都有英语中的主语-动词-宾语，印地语中的主语-宾语-动词）。语言学家认为语序是一种编码属性，是一种将抽象的句法结构编码成话语表层形式的机制除了词序之外，其他编码特性包括，例如，主语-动词一致、形态学格标记或功能词，如介词。在英语中，词序是最突出的编码属性之一，在表达主要动词的核心论点：主语和宾语方面发挥着至关重要的作用另一方面，对于形态上更复杂的语言（例如芬兰语和土耳其语），词序主要用于传达语用信息，在这种情况下，论元结构通常是通过格标记来表示的，在格标记中可以有许多顺序（主题或焦点的我们建议读者参考 Kulmizev 和 Nivre（2021），以更广泛地讨论这些主题及其在通过语言模型研究句法时的含义。更一般地说，语序在语言处理和理解中的显着性证据来自于各种研究，这些研究使用了可接受性判断、眼动跟踪数据和神经网络。+v：mala2277获取更多论文Ral 响应测量（ Bever ， 1970; Danks 和Glucksberg ， 1971; Just 和 Carpenter ， 1980;Friederici 等人，， 2000 ， 2001; Bahlmann etal. ，2007; Lerner et al. ，2011; Pallier et al. ，2011; Fedorenkoet al. ， 2016; Ding et al. ，2016）。然而，心理语言学研究也强调了句子处理机制对各种扰动的鲁棒性，包括那些破坏词序限制的扰动（Ferreira et al. ，2002; Gibsonet al. ，2013; Traxler，2014）。在最近的工作中，Mollica et al. （2020）测试了一个假设，即组合是大脑语言选择网络的核心功能，即使语法词序约束被破坏，它也可以发生。他们的研究结果证实了这一点，显示了具有混洗词序的刺激，其中局部依赖性被保留下来-粗略地说，句子SHUF中的许多依赖性就是如此。N4是在语言网络中引发的一种神经反应上训练的当词间的依赖性被破坏时，可组合的词相距如此之远，以至于附近的词之间的组合是极不可能的--就像在SHUF中一样。N1，神经反应下降到一个水平相比，不相连的单词列表.最近，许多NLP研究人员试图研究语序信息在语言模型中的作用例如，Lin等人（2019）采用诊断分类器和注意力分析来证明BERT的较低（而 Papadimitriou等人（2021）发现多语言BERT对形态句法对齐敏感，其中许多语言（总共24种）依赖于词序来标记主体性（英语）。Alleman等人（2021）实现了一个输入扰动框架（n元语法重排，短语交换等），并将其用于测试BERT表示对句子中各种类型结构的敏感性他们报告了一个敏感的更大的组成单位的句子在更高的层次，他们推断是受层次短语结构。O'Connor和An-dreas（2021）研究了各种背景特征对GPT-2能力的贡献（Radford et al. ，2019）来预测即将到来的代币。他们的发现表明，几种破坏性的操作，包括句内的单词洗牌，应用于中长期上下文，只会导致可用信息的适度增加，如根据Xu et al. （2020年）。类似地，已经发现词序信息对于各种NLU任务和数据集不是必需的。早期的工作表明，自然语言推理任务在很大程度上对词序的排列不敏感（Parikh et al. ，2016;Sinhaet al. ，2020）。Pham et al.（2020）和Gupta et al. （2021）对此进行了更详细的讨论，证明了应用于GLUE基准测试任务的测试时词序扰动在此基础上，Sinhaet al.（2021），我们的工作建立在此基础上，发现对乱序文本进行预训练似乎只会轻微影响模型性能。与这项研究最相关的是，Cloudbury etal.（2021）引入了两个度量标准，用于衡量加密文本中标记的局部和全局排序，观察到只有后者被先前文献中发现的扰动函数所改变在GLUE的实验中，他们发现局部（子词）扰动显示出比全球性的。在这项工作中，我们对这些结果进行了深入的分析，表明在紧急文本上训练的LM实际上可以保留单词信息，并且-对于人类-他们对词序的敏感性取决于各种因素，如任务的性质和扰动的位置。虽然在一些“理解”评价任务中的表现9结论最近的研究表明，在测试或训练的不同阶段对文本进行置乱并不会显著改变NLU任务中语言模型的性能。在这项工作中，我们提出了分析，描绘了这些发现的更微妙的画面。首先，我们证明了，就改变预训练而言，模型仍然保留了词序知识的语义-主要是在地方一级。我们表明，这种知识源于线索的改变数据，如相邻的BPE符号和句子长度和内容之间的相关性。在BPE标记化之前或之后进行洗牌的顺序对模型的语序习得有影响最后，我们表明，存在NLU任务，远远超过+v：mala2277获取更多论文对用词序表达的句子结构敏感确认我们感谢Stephanie Brandl、Desmond Elliott、YovaKementchedjhieva 、 DouweKiela 和Miryam de Lhoneux的反馈和评论。我们感谢CSC-IT科学中心，Fin-land，提供计算资源。Vinit在哥本哈根大学进行研究访问时撰写了这篇论文。 Mostafa 和 Anders 获得了 GoogleFocused Research Award的支持。引用Matteo Alleman，Jonathan Mamou，Miguel A DelRio ， Hanlin Tang ， Yoon Kim ， and SueYeonChung.2021年句法扰动揭示了预训练语言模型中层次短语结构的表征相关性。 arXiv 预印本arXiv：2104.07578。JörgBahlmann ， AntoniRodriguez-Fornells ，Michael Rotte，and Thomas F Münte. 2007. 德语规范与非规范语序的功能磁共振研究Humanbrain mapping，28（10）：940托马斯·G·贝弗。1970.语言结构的认知基础。认知与语言的发展。克里斯·M主教1995. 带噪声的训练等价于Tikhonov正则化。Neural Computa- tion，7（1）：108艾尔·亚历山大·卡穆托，马特·W·伊莱茨，乌穆特·S·塞利姆·斯·斯·斯·莱克利，斯蒂芬·罗伯茨和克里斯·霍姆斯。2021.高斯噪声注入中的显式正则化。arXiv：2007.07368 [cs，stat]。克里斯托弗·克拉克，李明博，张明伟，汤姆·夸特科夫斯基，迈克尔·柯林斯和克里斯蒂娜·图坦诺娃。2019. Boolq：探索自然是/否问题的惊人困难。arXiv预印本arXiv：1905.10044。路易斯·克劳奇，普拉萨纳·帕萨萨拉蒂，阿迈勒·祖瓦克和萨拉特·萨拉尔。2021.揭开神经语言模型arXiv预印本arXiv：2107.13955。伯纳德·科姆里。1989. 语言共性与语言类型学：语言学与形态学。芝加哥大学出版社。Jean-Baptiste Cordonnier ， Andreas Loukas ， andMartin Jaggi. 2020. 对的关系自我注意和卷积层之间的关系。 arXiv ： 1911.03584 [cs ，stat]。约瑟夫·H·丹克斯和萨姆·格拉克斯伯格。1971.形容词顺序的心理-逻辑标度。Journal of Memory andLanguage，10（1）：63.玛丽-凯瑟琳·德·马内夫，曼迪·西蒙斯和朱迪斯·汤豪泽。2019.承诺库：研究自然发生的话语中的投射。见《Sinn und Bedeutung》，第23卷，第107Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2018年Bert：深度双向转换器的语言理解预训练 arXiv 预印本 arXiv ：1810.04805。Nai Ding ， Lucia Melloni ， Hang Zhang ， XingTian，and David Poeppel. 2016.连接语音中层次语言结构的皮层追踪。Nature Neuroscience，19（1）：158Timothy Dozat，Peng Qi和Christopher D. 曼宁2017.斯坦福大学CoNLL 2017共享任务的进展：从原始文本到通用语法的多语言解析，第20-30页，温哥华，加拿大。计算语言学协会。Evelina Fedorenko，Terri L Scott，Peter Brunner，William G Coon ， Brianna Pritchett ， GerwinSchalk和Nancy Kanwisher。2016.句子意义建构的神经关联。美国国家科学院院刊， 113（41）：E6256- E6262。费尔南达·费雷拉，卡尔·G·贝利，维多利亚·费拉罗. 2002.在语言理解中足够好的表征。心理科学的当前方向，11（1）：11Angela D Friederici ， Axel Mecklinger ， Kevin MSpencer ， Karsten Steinhauer ， and EmanuelDonchin.2001.句法分析偏好及其在线修正：事件相关脑电位的时空分析。 Cognitive BrainResearch，11（2）：305-323.Angela D Friederici ， Martin Meyer ， and D YvesVon Cramon. 2000.听觉语言强化：句法和词汇信息加工的事件相关 fmri 研究。 Brain andlanguage，74（2）：289爱德华·吉布森，莱昂·伯根，史蒂文·T·皮安塔·多西. 2013.噪声证据与先验语义期望在句子解释中的合理整合。美国国家科学院院刊， 110（20）：8051Ashim Gupta，Giorgi Kvernadze和Vivek Sriku-2021年3月。伯特一家吃单词沙拉：文本理解实验。arXiv预印本arXiv：2101.03453。+v：mala2277获取更多论文Suchin Gururangan ， Swabha Swayamdipta ， OmerLevy ， Roy Schwartz ， Samuel Bowman ， andNoah A.史密斯2018. 自然语言推理数据中的注释伪影。在计算语言学协会北美分会2018年会议论文集：人类语言技术，第2卷（短文），第107-112页，路易斯安那州新奥尔良。计算语言学协会。约翰·休伊特和珀西·梁2019. 设计和解释具有控制任务的探头。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第2733计算语言学协会。Huiyuan Jin和Haitao Liu。2017. 文本大小如何影响其语言成分的长度？波兹南当代语言学研究，53。Marcel A Just和Patricia A Carpenter。1980.阅读理论：从注视到理解。Psychological Review，87（4）：329.Daniel Khashabi ， Snigdha Chaturvedi ， MichaelRoth，Shyam Upadhyay，and Dan Roth. 2018.超越表面：一个挑战，为阅读多个句子的com-conception。在NAACL。阿图尔·库尔米泽夫和若阿金·尼夫尔。2021.薛定谔的树-关于神经网络和神经语言模型。arXiv预印本arXiv：2110.08887。Yulia Lerner，Christopher J Honey，Lauren J Silbert和Uri Hasson。2011年。使用叙述故事的高度时间接受窗口的地形图Journal of Neuroscience，31（8）：2906- 2915.海克特·莱韦斯克，欧内斯特·戴维斯，还有利奥拉·摩根·斯特恩. 2012. winograd schema挑战第十三届国际知识表示与推理。Yongjie Lin，Yi Chern Tan，and Robert Frank. 2019.芝麻开门：进入伯特 arXiv 预印本 arXiv ：1906.01698。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. RoBERTa ：一种鲁棒优化的BERT预训练方法。arXiv：1907.11692 [cs]。汤姆·麦考伊，艾莉·帕夫利克，还有塔尔·林森.2019. 正确的错误的原因：诊断自然语言推理中的句法分析。计算语言学协会第57届年会论文集，第3428-3448页，意大利佛罗伦萨。计算语言学协会。Francis Mollica，Matthew Siegelman，Evgeniia Di-achek，Steven T Piantadosi，Zachary Mineroff，RichardFutrell ， Hope Kean ， Peng Qian ， andEvelina Fedorenko. 2020. 写作是语言选择网络的核心驱动力。 Neurobiology of Language ， 1（1）：104乔·奥康纳和雅各布·安德烈亚斯2021. Transformer语言模型可以使用哪些上下文特性？arXiv预印本arXiv：2106.08367。Christophe

下载后可阅读完整内容，剩余1页未读，立即下载