神经语言模型的语法学习轨迹

190 浏览量更新于2023-11-30 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文神经语言模型的语法学习轨迹Leshem Choshen< $，Guy Hacohen<$，Daphna Weinshall< $，Omri Abend<$耶路撒冷希伯来大学计算机科学系{first.last}@mail.huji.ac.il摘要人类语言现象的学习轨迹提供了对语言表征的深入了解，这超出了通过观察成年说话者的行为所能收集到的信息。为了应用类似的方法来分析神经语言模型（NLM），首先需要确定不同的模型在它们所做的概括中足够相似。在本文中，我们表明，不同的初始化，架构和训练数据的NLM获得语言现象在一个类似的顺序，尽管他们的不同的结束per-pronouns。这些发现表明，这些模型学习语言现象的基础是一些相互诱导的偏见。从心理语言学的角度出发，我们认为研究这种归纳偏向是研究非语言标记语中隐含的语言表征的一个契机。利用这些发现，我们比较了在不同的学习阶段与更简单的参考模型对不同现象的结果表明，NLM表现出一致的“发展”阶段。此外，我们发现学习轨迹是近似一维的：给定一个具有一定整体性能的NLM，可以预测它已经获得了哪些语言概括对这些阶段的初步分析提出了现象集群（特别是形态学集群），它们的表现是一致的，表明它们背后的概括之间存在潜在的联系。1介绍儿童的语言习得模式具有显著的一致性。他们经常以类似的顺序获得语言现象（ Kuhletal. ，1992; Ingram，1989），并作出类似的一般化和过度概括（Kuczaj II，1977; Pinker，1995）。这种一致性为语言学研究提供了一个重要的起点为例如，支持形态表示的单系统或双系统解释的论点通常得到儿童学习轨迹的计算模型的支持Rumelhart 和 McClel-land ， 1986 年 ;Pinker 和Prince，1988年;Kirov和Cotterell，2018年）。在本文中，我们拥抱这个程序的计算语言模型的研究，调查学习轨迹。1语言模型（LM）获得的表示已经被广泛研究，包括研究它们的学习动态以改进训练（见第6节）。然而，很少有工作旨在绘制训练动态和学习表征之间的联系。在这项工作中，我们采用了行为方法，从而揭示了NLM共享学习轨迹，并在训练过程中以类似的方式进行概括。这意味着研究NLM的轨迹是值得的，在某种意义上，一个架构或大小的结果预计将被其他人复制。这些发现要求对这些轨迹进行表征我们采取第一步来探索这些方向，强调它们对未来更好地理解模型学习的潜在好处具体来说，我们在下一个单词预测上训练NLM，但通过使用BLIMP数据集（见2.1）跟踪它们在英语语法学习上的表现来评估和比较它们BLIMP是一个由67K个最小对组成的数据集，其中每个对包括语法正确且语法错误的句子测试NLM将更高概率分配给正确概率的能力。参见表1中的示例，以及§2中我们的实验方法的细节。我们首先（第3节）确定，非母语学习者学习语法现象的顺序是一致的我们在训练过程中的不同时间点对NLM进行了评估，结果表明，NLM在语言上的表现-1代码在https://github.com/borgr/订购时提供arXiv：2109.06096v3[cs.CL]2022年4月+v：mala2277获取更多论文挑战纠正错误mal pair包含一个句子和一个近似重复的句子伽利略所谈论的有生命的主题贝尔。这辆车和贝尔谈过话。干扰项，其包含特定语言现象上的错误，即，只有现象放弃论点团体购买。团体不喜欢。表1：BLIMP最小对示例。跨初始化的tic现象是高度相关的。我们进一步发现，在他们正确分类的一组例子中有许多相似之处尽管如此，不同架构的模型以不同的速度学习在第3.3节中，我们通过重新调整时间轴来克服这一点。然后，我们表明，尽管架构差异，NLM呈现高度相关的性能轨迹。在§3.4中，我们进一步证明了即使是训练数据的选择对结果的影响也很小。最后，在第3.5节中，我们证明了学习动力学基本上遵循一个单一的维度。也就是说，在平均表现相似的地方，语言现象的成功也是相似的。我们在第4节中分析了学习的早期阶段。我们发现，首先，NLM主要依赖于本地线索，而不是词序。因此，它们在前面的标记的窗口上类似于词袋模型后来的阶段似乎从词袋模型向n元模型漂移得更远，并且随着时间的推移似乎对结构线索更敏感。我们还发现，模型学习的一些潜在特征可能与语言现象无关。最后，在第5节中，我们将迈出第一步，通过学习投射对语言现象进行分类。我们通过发现一致进展的现象来确定它们的代表性之间的联系。例如，我们发现形态学现象大多是在相似的阶段学习的。特别令人感兴趣的是性能随时间下降的情况，这可能表明BLIMP挑战中的过度泛化或偏差。2实验装置2.1BIMP数据集我们使用BIMP（Warstadt et al. ，2019年），以评估NLM进行概括的程度。BLIMP包括67个语法变化，分为13个超级现象（例如，岛屿相关的或量词）包括4个宽泛的字段（例如，语义学）。每个挑战由1K个最小的句子对一个迷你-in question在一对句子之间发生变化（见表1）。每个挑战包括具有相同语言现象的配对。2.2培训LM细节：作为训练多个GPT2实例（Radfordet al. ，2019年）是计算要求，我们训练较小的NLM。Turc et al. （2019），我们训练了1个GPT2小实例（宽度768，12层，8个注意力头）和4个GPT2 小实例（宽度512，4层，4个注意力头），使用不同的随机种子。类似地，我们训练一个小的TransformerXL（Daiet al. ，2019年），XL 小（宽度512，4层， 8个注意头）和一个全尺寸的（宽度4096，18层，16个注意头）。我们在600K步之后停止完整的模型，而困惑仍然很高。我们使用它来与学习TransformerXL的早期阶段进行比较。所有模型§B.我们还使用了Warstadt等人报告的经过充分训练的 GPT2 ，TransformerXL，LSTM和人类表现的结果。（2019年）。在§4中，我们将NLM与更简单的模型进行了比较。为此，我们创建了两个GPT 2的微小变化，分别表示为BOW和Window-5。BOW复制了GPT2tiny，但只依赖于单词袋。这是通过移除位置权重，并用简单的平均值替换注意力权重来实现的。2Window-5同样忽略位置，并且仅关注最后5个单词。请注意，两者都是单向LM，并且在每个步骤中只考虑先前预测的单词。除非另有明确说明（如第3.4节），否则所有模型都是在 WikiBooks 数据集上训练的（Zhu et al. ，2015），其中包含英文维基百科（2. 1B单词）和BookCorpus（854M单词）。这个数据集类似于BERT处理数据（Devlin et al. ，2019年），除了使用当前的维基百科。此外，我们在以下数据集上训练了模型：英语开放字幕（ Lison 和Tiedemann，2016），newsCrawl（Barraultetal. ， 2019 ）， GigaWord （ Napoles et al. ，2012年），以及2假设，移除位置嵌入就足够了。从经验上讲，它几乎没有影响。据推测，由于嵌入只涉及先前的位置，网络设法通过它们之间的差异来表示位置。这与GPT2的位置嵌入不具有意义的发现一致+v：mala2277获取更多论文openWebText（3B words;Gokaslan和Cohen，2019）的在本文中，我们报告皮尔逊相关。使用斯皮尔曼相关性导致定性相似的结论。当多个模型相互关联时，它们的平均对-报告明智的相关性3NLM的学习顺序在本节中，我们将考察NLM的各个方面，总体上表明它们的学习轨迹是相似的。我们采用行为的方法来评估网络的相似性。因此，网络被视为功能，其潜在的特征只通过对网络行为的影响来表现潜在特征是被测量行为的未观察到的因此，参数，激活模式和表示可以完全不同的相似的模型。这与Williams等人采用的方法不同。（2018）; Saphra和Lopez（2019）; Liu et al. （2021），直接分析内部表征。为了形式化上述概念，让Lt表示检查点，即时间t处的语言模型L。令pv（Lt）表示其性能向量-pv（Lt）=[acc（Lt，p）]p∈BLIMP∈R67（1）时间t以训练步骤或复杂度来测量。作为t的函数的性能向量的轨迹反映L鉴于这种行为定义，我们专注于比较模型的相对强度因此，模型之间的相似性被测量为它们的性能向量之间的相关性。因此，如果模型以相同的方式对现象进行排序，那么它们是相似的。另一方面，平均性能相同的模型可能不同：考虑两个模型，除了名词外，所有东西都一致一个只生成阴性名词，另一个生成复数名词。这些模型这种差异表明模型依赖于不同的潜在特征。3.1一致的学习我们首先展示了由不同初始化产生的模型以相同的顺序学习相同的根据我们上面的定义，这可能意味着，尽管收敛到不同的参数值，学习的潜在特征和所做的泛化模式是相似的。图1：预热后的高相关性（5K步）。不同初始化（蓝色）或训练数据（橙色）的GPT2微小为了从经验上检验假设，我们计算了4个随机初始化之间的相关性（图1）。①的人。结果证实了这一假设，GPT2微小实例之间的相关性非常高。它在10K步之后已经很高了，并且在整个训练过程中保持很高我们注意到，在步骤0处的相关性为0（未示出），并且在10K预热步骤之后，网络例如，困惑度在10K步之后是10.9，在70K步之后是6.7。3.2建筑的影响图2：尽管GPT2小型模型的初始化和尺寸不同，但精度相似trans-formerXL困惑度不是在相同的变量上计算的，但仍然显示出（重新缩放的）类似的趋势。该图描绘了一个示例现象（“存在的”）的轨迹y轴是训练期间的准确度接下来，我们展示了不同的架构也呈现出相似的轨迹。由于学习速度在不同模型之间不具有可比性，因此计算速度-+v：mala2277获取更多论文在固定和相同的时间间隔内进行的测量不是信息性的。相反，我们选择t作为开发集上的困惑，比较相同性能级别的模型TransformerXL不能直接比较，因为困惑需要词汇表相同。按照这种模式，我们看到GPT2 small和GPT2tiny高度相关（> 0. 9），在整个训练过程中呈现相似的学习顺序Ob-定性地服务于每个挑战的轨迹，我们看到它们非常好地对齐（参见。图2、APP§A ， §C ）。 TransformerXL 似乎也分享了GPT2架构的一般趋势。有趣的是，我们看到模型不仅在相对性能方面表现相似，而且在示例级别（每个最小值对的二进制决策我们发现GPT2 small和GPT2 tiny的平均一致性为 κ=0 。 83 （ Fleisset al. ，1969）。这意味着在现象中学习不同例子的顺序也具有很强的一致性。尽管如此，我们还是关注现象层面，因为它更容易解释，更容易描述。我们将在App中进一步讨论每个示例的相似性。D.3.3与现成型号的到目前为止，我们已经观察到了并行训练的NLM所我们继续比较一个模型的轨迹与其他模型这使我们能够分析相似性如何演变，而不是两个轨迹是否同步。我们将完全训练的现成NLM 与 GPT2tiny （图 3a ）和 GPT2small（App.§E）。观察到的现成的模型的相似性很高（0.6-0.8），这意味着NLM一般共享的趋势和偏见。此外，相似性增加，直到相同的性能点，然后（当相关时）减少。这表明，小NLM接近现成的趋势，因为它改善和停止在同一轨道上的泛化（参见。§3.5）。此外，我们发现与人类在不同挑战中的表现水平有相当大的相关性，但所有NLM与我们的模型的相关性都比人类更好这些结果提出了一个奇怪的顺序强加于NLM。 GPT2tiny和GPT2small（App.§E）更类似于LSTM模型，而不是TransformerXL，甚至不太类似于GPT2大。有趣的是，我们的模型更类似于RNN和具有不同架构的模型，而不是具有相同架构的更大模型。因此，架构类型似乎无法解释相对顺序中的相似性。我们将在下一节中进一步研究这个问题。3.4训练数据本节探讨了图1中报告的相似性是否存在3a可以简单地通过NLM训练数据的相似性更具体地说，由于上面报告的模型相似性排名符合模型训练所用训练集之间的相似性，我们将其视为潜在的混淆，并试图对其进行控制。我们的训练数据（WikiBooks）主要由维基百科组成，LSTM和TransformerXL的训练集也是如此，这些训练集是在早期版本的维基百科和WikiMatrix上训练的（Schwenk et al. ，2019年）。另一方面，GPT2是在openWebText上训练的，openWebText由抓取的网页组成。为了区分训练数据的效果，我们在openWebText、openSubtitles和newsCrawl数据集上训练了另外3个GPT2小结果（Fig.1）表明数据集对相关性的影响大于初始化。因此，训练数据的选择确实会影响学习轨迹，但其影响会随着训练而减弱（相关性随着训练步骤的增加而增加我们还重新计算了§3.3在与GPT2large相同的数据上训练GPT2tiny后，发现NLM之间的相对顺序保持不变，GPT2large最不相似。我们的结论是，虽然训练数据会影响学习的概括，但它只能部分解释NLM之间观察到的相似性3.5学习的一个维度基于前面小节的发现，我们假设当前的NLM都以类似的顺序学习，其中训练数据和架构的影响换句话说，训练时间、规模和效率可能会影响模型的学习，但不会影响它的学习顺序。这意味着更强大的模型可能会提高性能，但仍然遵循类似的学习轨迹。如果这个假设是正确的，模型应该是最相似的模型具有相同的性能;相似性应该下降的差距扩大的性能。+v：mala2277获取更多论文(a) 现成和人（b）X步骤后的GPT2小图3：当参考模型具有最相似的性能（或接近性能）时，它们与GPT2tiny的相关性GPT2微小训练期间的相关性与现成LM和人类表现（左）或中期训练GPT2小检查点（右）相比。曲线对应于固定的性能向量。其中X轴遵循gpt的训练轨迹，每条线表示与不同检查点的相似性，无论是不同的完全训练模型（左）还是训练较大模型期间的检查点（右）。数字是检查点的平均性能，并放置在该平均性能与GPT2tiny最相似的步骤上。GPT2tiny的最好成绩是67分。对照比较支持这一假设。图3b呈现了GPT2微小训练轨迹与在GPT2小训练期间采取的几个静态检查点的相关性。我们观察到，在平均性能当GPT2tiny的平均性能最接近检查点时，相关性达到峰值，当GPT2tiny因此，当平均性能最相似时，整体相关性达到峰值。请注意，尽管网络大小和收敛速度不同，但相关性进一步的实验显示了类似的趋势。图3a提出了类似的调查，尽管具有更多样的架构和训练数据集。这里也是在最相似性能的点附近获得最大相关性。3.6与5克NLM与具有相同性能的其他NLM最相似。然而，与非神经LM相比，情况不再如此。更具体地说，我们将GPT2tiny与在与NLM（WikiBooks）和另一个（GigaWord）数据集相同的数据集上训练的两个5克LM进行了比较。结果示于图图4示出了与图3a实质上不同的图。这里，性能的相似性既不意味着高相关性，也不意味着最高相似性的点这既是对我们的方法的合理性检查，也是对模型偏差的提醒：一般来说，模型可能有不同的偏差和倾向，而不管总体情况如何。性能在我们的例子中，似乎NLM之间共享的偏见不一定与其他LM共享。虽然这不是分析的主要目的，但我们的比较揭示了其他值得注意的趋势。例如，在不同语料库上训练的5-gram LM与GPT 2微小轨迹具有不同的相关性。在App中进一步讨论。§G.图4：在GPT2微型计算机的训练过程中，与在相同数据（WikiBooks）和GigaWord上训练的5克在每条曲线上，我们标记出精度与GPT2tiny最相似的点，并额外指示参考模型的相应总体平均精度。3.7讨论我们发现，学习的顺序在不同的架构、模型大小和训练集上惊人地稳定。因此，给定新的NLM，+v：mala2277获取更多论文我∈其中它将学习语言现象可以由另一个模型预测，该模型达到类似的当考虑非神经LM时，这种观察并不总是成立：本质上不同的架构（例如5-gram）具有非常不同的轨迹。因此，具有非常不同的诱导偏差的未来模型可能呈现不同的顺序。4学习阶段在建立了不同的NLM以一致的顺序学习之后，我们通过将其与更简单的参考模型进行比较来研究新兴的学习轨迹。我们的目标是确定不同的学习阶段，表征NLMSetup. 我们将GPT2tiny与完全训练的LM（与§3.3相同）以及各种metrics进行比较。对于每个度量 m ，我们计算 67 个集合 Ep∈p[m（ pi ） ]R67 中每个示例的平均得分。使用GPT2small和TransformerXL复制了结果，并得出了类似的结论（见附录§E）。句子级首先，我们考虑两个句子级度量：句子长度（标记）和句法深度。假设一个句子解析树，深度是从单词到词根的最长路径。句子长度通常被认为是婴儿（Brown，1973）和网络（Neishi和Yoshinaga，2019）的挑战来源句法深度（英语： Syntagical depth）（ Yngve ，1960）是一个用来衡量句子认知复杂程度的指标。我们把语言复杂性的哪种度量（Szmrecsányi，2004）与NLM所展示的轨迹最相关的问题留给未来的工作。图5：不同指标和模型的性能向量与不同学习阶段的GPT2tiny我们的研究结果（图5）表明，无论是句子级别的指标（长度和句法深度）都不能预测那么模型的难点是什么呢？这并不奇怪，因为这两种测量方法都只能在一般水平上捕捉我们确实看到，语法深度开始时是NLM性能的一个更差的预测器，而结束时是一个更好的预测器。在本节后面，我们将从不同的角度来看待这一初始学习阶段，包括转换之前和之后。接下来，我们将性能向量与人类的任务难度进行比较，如原始BLIMP论文中所报告的那样。我们观察到，在足够数量的步骤之后，相关性相当高。事实上，随着网络的改进，它变得越来越像人类：一开始，网络依赖于与人类不同的特征，但随着时间的推移，更多的障碍是共享的。然而，在低于100%的中等范围相关性下，0.5. 这表明网络（部分）依赖于人类注释者不使用的特征。这些可能是BIMP没有测试过的有效概括，或者是错误的概括，这些概括仍然有利于降低它所训练的任务的分数（参见。McCoy等人，2019）。我们将在第5节重新讨论这个问题。有限语境与地方性的比较。我们的方法打开了大门，检查其他潜在的偏见LM。我们现在这样做，从上下文和局部性开始。我们考虑的模型，考虑到不同范围的上下文：unigram，2-5克LM，可以利用前面的单词的顺序我们认为，NLM和n-gramLM之间的相关性可能表明，基于有限的上下文的功能也被NLM采用。令人惊讶的是，不使用上下文的unigram模型这表明，一些句法和语义挑战（由BLIMP定义）的高准确性可以通过简单的语法学来实现然而，请注意，我们测试的NLM没有针对任何特定的现象进行训练，也没有以任何方式进行微调。因此，NLM只能获得一般有益的分类或偏差（泛化错误），而不是特定于我们的测试挑战。虽然NLM最初与unigram模型存在很强的相关性，但这种相关性很快就会下降（见图5）。从一开始，GPT2微小的成功，在8个现象中的6个被unigrams很好地分类，8个中的4个，+v：mala2277获取更多论文有趣的是，对于unigram失败的其他现象中的3个，GPT2tiny最初达到0%的准确度（机会水平为50%），但其准确度在训练期间确实攀升（例如，见附录§A）。我们的结论是，正如预期的那样，NLM在训练的早期获得了对预测频繁单词的偏见，但是这种偏见在训练的后期被权衡到其他（上下文）考虑因素中。图6：GPT2tiny在整个学习过程中与简单LM的性能向量之间的相关性。该图集中于也在图中发现的LM。五、比较不同范围的上下文，我们的结果（图6和附录§E）表明，通过训练，网络呈现出与n元模型的高度相关性。从某个点开始，网络变得更类似于二元模型，而不是其他n元LM。我们还注意到，相似性在早期达到峰值，但随着时间的推移，相关性降低。这可能表明，最初，NLM获得类似于马尔可夫模型，甚至是二元模型的语法行为。只是到了后来，网络才更多地依赖于全局特征。这与我们之前的发现一致，即与句子长度相比，句法深度与句子长度的相关性越来越大。在一开始，NLM经常生成一个单词重复（例如，“的”傅等。，2020）。这似乎与我们的发现不一致，即语法学习已经开始在这个早期阶段。然而，正如我们的研究结果所表明的那样，尽管频率可能决定了最有可能的预测，但比较两个仅略有不同的选项可能更多地取决于上下文。有限的上下文和词序。通过比较NLM和n-gram，我们研究了在固定窗口大小内上下文的影响。现在我们前-在一个窗口内和一般情况下，胺的词序的效果。为此，我们创建了两个消融的GPT2微小模型。BOW不知道前面标记之间的顺序，而Window-5类似，但只依赖于5个标记（详见第2节）。我们的研究结果表明，最初，前面的单词的身份比他们的顺序更重要。BOW和Window-5都比n-gram模型更好地与我们的NLM相关。后来，这种趋势发生了逆转，利用词序的n元语法变得更相关.然而，在学习的后期阶段，与Window-5的相关性明显小于与BOW的相关性，这表明网络逐渐学会依赖更多的上下文（参见Saphra和Lopez，2019）。5学习轨迹的为了理解NLM学习的潜在特征我们要问的是，语言学上相似的现象是否是以相似的方式习得的，相似习得的东西是否由语言学术语定义。我们通过比较它们现象的学习轨迹来在形态学领域，我们发现它们显示出类似的渐变曲线，最终达到高性能（中位数精度为0。85，参见图7a）。这可能表明学习的一些潜在特征是形态学的，并且影响几乎所有“形态学”现象的表现句法-语义现象也呈现出独特的行为：它们的得分接近偶然表现（见图7 b），表明学习的特征不足以正确地表示该领域中的现象其他领域，“语义学”和“句法”（图7c，7d），并没有呈现典型的学习曲线，这表明它们过于宽泛，无法对应于单一的学习模式。反过来，这可能表明它们并不都对应于一组定义明确的潜在特征。接下来，我们沿着相反的方向，对GPT2tiny的学习曲线进行聚类。我们使用具有10个聚类和sklearn默认参数的谱聚类，通过将学习曲线投影到归一化的拉普拉斯算子中并应用k均值。直观地说，沿着主方向具有相似值的学习曲线被聚类在一起。其他聚类方法显示出类似的结果。集群（Fig.8、APP（二）反映几个+v：mala2277获取更多论文(a)形态学（b）句法语义学（c）语义学（d）语法图7：形态学和语法语义（左）很好地表征了NLM学习，而语义和语法现象几乎没有相似性（行之间）。GPT2每次挑战的学习曲线很小（线），根据不同的领域（图）聚类，并由超级现象着色。(a)（b）（c）（d）图8：一些现象被学习，其他的（c）恶化，这意味着网络（学习语言建模，而不是现象）学习正交特征。GPT2tiny在BLIMP挑战中的学习曲线，通过谱聚类获得，并按字段着色。学习概况，有些比其他人更期待。对于一些人来说，准确性随着学习的进展而提高（见图1）。8a）。有些人几乎没有学过，准确性保持在接近机会的水平（见图1）。8 b）。也许更令人惊讶的是，随着学习的进行，一些聚类的准确率会下降到接近0（见图1）。8 c）。值得注意的是，有些挑战非常简单-8d），虽然有些令人困惑- NLM的性能比机会更差（见图）。8 c）。在后一种情况下，NLM可能会学习不相关的、有害的概括。当检查新出现的星系团时，许多（但不是全部，见图8b）包含一个共享的突出场，但通常是不同的超级现象（见图8b）。8a）。因此，虽然BLIMP中的范畴化反映了语法现象的共同语言组织，但从学习轨迹的角度来看，BLIMP中只有少数超级现象表现出一致的行为。我们谨慎地得出结论，语法现象的一般语言学分类因此，未来工作的一个有趣方向是发展一种理论，可以解释NLM学习轨迹所呈现的模式我们手动检查一些具有强大初始性能的现象，然后恶化。我们发现其中一些挑战是可以解决的通过一个简单的规则，很容易通过一个n元模型学习。例如，在“原则A案例1”中，总是倾向于使用主观代词（例如，“她”或“他”）而不是反射性的（例如，“他自己”，“她自己”）足以获得满分，并且更喜欢“永远不会”而不是“可能/幸运地曾经”解决了“间接否定NPI许可方存在”。NLM性能恶化的事实符合我们的发现，即新生NLM类似于n元模型。6相关工作描述网络学习的内容是一个长期的挑战。最近，研究提出了分析训练模型的方法，例如探测（ Tenney et al. ， 2019; Slobodkin et al. ，2021），分析注意头（Voita et al. ，2019; Ab-nar和Zuidema，2020）和神经元（也发现了跨时期的相关性; Bau et al. ，2018年）和评估的程度，LM代表语法（范Schijndel等人。，2019）。其他工作比较输出，像我们一样，以评估网络泛化（ Choshen 和 Abend ， 2019;Ontan 'on等人。，2021），寻找系统性偏差（Choshen和Abend，2018; Stanovsky等人。，2019）或评估输出的特征（Gehrmann et al. ，2021; Choshenet al. ， 2020 ）。 McCoy 等人（2020）微调BERT并测试对抗数据集HANS的泛化（McCoy et al. ，2019），寻找模型，使不一致的概括。他们的结果与我们的不同，但他们的设置也不同，在-+v：mala2277获取更多论文为推理进行微调根据学习示例和现象的顺序来表征网络学习的特征是一个相对较新的话题。最近，Hacohen 等人（ 2020 ） ; Hacohen and Wein-shall（2021）; Pliushch et al.（2021）表明，分类器学会在相同的或der中标记示例。虽然他们的重点是计算机视觉，但它为这项工作提供了动力。其他研究将学习动力作为一种工具，而不是一个研究主题。他们选择训练样本（ Tonevaet al. ， 2018 ），分类例子（Swayamdiptaet al. ，2020）或表征损失空间（Xinget al. ，2018）。以往对NLM学习动力学和泛化类型的研究较少。也许最接近这项工作的是Saphra和Lopez（2019），他们将LSTM表示与3种类型的语言标签输出进行了比较，发现相关性很低，并且在训练后期，使用了更多的上下文后者让人想起我们在第4节中的发现。在并行工作中，Liu et al. （2021）在训练期间探测模型。他们表明，在训练的早期，语言分类所需的信息可以在模型的某个层中找到。我们的研究支持了他们的发现，表明用一种模型进行的语法学习实验很可能在另一种模型上重复。我们的方法与他们的不同之处在于，我们要求模型学习的信息在行为中表现出来，而不是用专用的分类器提取出来。研究语言学习的轨迹是自然语言处理中一个尚未开发的领域，但却是语言学和心理学中一个历史悠久的研究领域这样的研究路线研究的主题，如收购的音素（库尔等人。，1992）、形态学（Marcus et al. ，1992）、复杂的构造（Gropen et al. ，1991;Qing-mei，2007）和先天学习能力（Tomasello，2003）。在构建呈现与婴儿相似的学习轨迹的模型方面，也进行了相当可观的计算工作（ McClelland 和Rumelhart，1981; Perfors等人，2004）。，2010; Abend et al. ， 2017 年，以及许多其他）。我们的工作表明，NLM的概括与每一个人的底线相结合这提供了一个新的角度，并打开了avenues的研究时，结合以前的工作，底线性能。为了考试-简单地说，小模型的底线性能可以预测较大模型的性能（Ivgi等人，，2022）。在这种情况下，也可以从较小的模型中预测生成的类型我们的工作也与课程学习等领域密切相关（Bengio et al. ，2009; Hacohen和Weinshall，2019），自主学习（Kumaret al. ，2010; Tullis和 Benjamin ， 2011 ），硬数据挖掘（ Fu 和Menzies ， 2017 ）和主动学习（ Krogh 和Vedelsby ， 1994; Hacohen et al. ， 2022; Ein-Dor et al. ，2020）。在这些领域中，数据应该呈现给学习者的顺序进行了研究。另一方面，在我们的工作中，我们研究了学习者在数据中的顺序，是学习7总结和结论我们发现，NLM学习英语语法现象在一个一致的顺序，随后调查的新兴轨迹。我们的研究结果表明，NLM呈现出一致和积极的趋势。这一发现为从学习动力学角度研究非语言学习者的习得行为提供了一条途径未来的工作将考虑其他因素的影响，架构和学习阶段，只出现在培训后期我们希望这项工作将增加发展研究中所采用的知识和方法与用于研究NLM的知识和方法之间的亲和力。我们的目标是更好地了解是什么使语言泛化复杂或简单的学习，为人类和NLM。致谢感谢教授。Inbal Arnon感谢她的有益讨论。这项工作得到了以色列科学基金会的部分支持（grant no.2424/21），以色列科学和技术部的赠款，以及盖茨比慈善基金会。+v：mala2277获取更多论文引用Omri Abend，T.Kwiatkowski，N.史密斯，S。戈德华特和马克·斯蒂德曼2017.自助式语言习得。认知，164：116萨米拉·阿布纳和威廉·祖伊德玛2020. 量化变压器中的注意力流。在计算语言学协会第58届年会的会议记录中，第4190-4197页，在线。计算语言学协会。Loïc Barrault，Ondrej Bojar，Marta R. 好极了C. Federmann，M. Fishel，Y.格雷厄姆湾放大图片作者： J. 放大图片创作者： M.Müller ，Santanu，Matt Post，and Mar- cos Zampieri. 2019.2019年机器翻译研讨会（wmt19）的结果。在WMT中。Anthony Bau、Yonatan Belinkov、Hassan Sajjad、Nadir Durrani、Fahim Dalvi和James Glass。2018.识别和控制神经机器翻译中的重要神经元。在国际学习代表上。约瑟芬·本吉奥、杰罗姆·卢拉杜尔、罗南·科洛伯特和杰森·韦斯顿。2009.课程学习。第26届机器学习国际年会论文集，第41罗杰·布朗一九七三年第一语言：早期阶段。哈佛大学Press.Leshem Choshen和Omri Abend。2018. 基于参考的语法纠错的内在偏差。在Proceedings of the 56thAnnualMeetingoftheAssociationforComputational Linguistics （ Volume 1 ： LongPapers ）， pages 632- 642 ， Melbourne ，Australia.计算机语言学协会。Leshem Choshen和Omri Abend。2019. 神经机器翻译中非局部现象的挑战集自动提取。在Proceedingsofthe23rdConferenceonComputationalNaturalLanguageLearning（CoNLL），pages 291-303，Hong Kong，China.计算语言学协会。Leshem Choshen ， Dmitry Nikolaev ， YevgeniBerzak和Omri Abend。2020.学习者语言中句法错误的分类。在控制室。戴梓航，杨志林，杨一鸣，海梅·卡-博内尔，郭克乐，和鲁斯兰 · 萨拉胡迪诺夫。 2019.Transformer-XL：超越固定长度上下文的专注语言模型。在 Proceedings of the 57th AnnualMeeting of the Association for Computa- tionalLinguistics，pages 2978计算语言学协会。J. Devlin ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova. 2019. Bert：用于语言理解的深度双向转换器的预训练。在NAACL-HLT中。Liat Ein-Dor ， Alon Halfon ， Ariel Gera ， EyalShnarch ， Lena Dankin ， Leshem Choshen ，MarinaDanilevsky ， RanitAharonov ， YoavKatz，and Noam Slonim. 2020. BERT的主动学习：一项实证研究。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第7949-7962页。计算语言学协会。J. Fleiss、J. Cohen和B.埃弗里特1969. kappa和加权kappa的大样本标准误。《心理学通报》，72：323Wei Fu和Tim Menzies。2017.《Easy over Hard：ACase Study on Deep Learning》在2017年第11次软件工程基础联席会议的会议记录中，第49傅子豪，林伟，苏文祖，施蓓。2020.文本生成中重复问题的理论分析。 arXiv 预印本 arXiv ：2012.14660。Sebastian Gehrmann，Tosin P. Adewumi，KarmanyaAggarwal ， Pawan Sasanka Ammanamanchi ，Aremu Anuoluwapo，Antoine Bosselut，KhyathiRaghavi Ragu，Miruna Clinciu，Dipanjan Das，Kaujanh D.放大图片作者：Dhole，Wanyu Du，Esin Durmus，Ondrej Dusek，Chris C.放大图片作者： Emezue ， Varun Gangal ， CristinaGarbacea ， Tatsunori B. Hashimoto ， YufangHou ， Yacine Jer- nite ， Harsh Jhamtani ，Yangfeng Ji，Shailza Jolly，Mihir Kale，DhruvKumar，Faisal Ladhak，Aman Madaan，MounicaMadaran ， Khyati Mahajan ， Saad Mahamood ，Bodhisattwa Prasad Majumder，Pe- dro HenriqueMartins ， Angelina McMillan-Major ， SimonMille ， Mrsel van Miltenburg ， Moin Nadeem ，Shashi Narayan ， Vitaly Nikolaev ， RubungoAndre Niyongabo ， Salomey Osei ， Ankur P.Parikh，Laura Perez-Beltrachini，Niranjan

下载后可阅读完整内容，剩余1页未读，立即下载