基于依赖树转换的多语言递归神经网络语法注入模型性能提升19%

120 浏览量更新于2023-12-01 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于依赖树转换的Shunsuke Kando1，2Hiroshi Noji3，2YusukeMiyao1，21东京2AIST人工智能研究中心3LeapMind Inc.kando-shunsuke@alumni.u-tokyo.ac.jpnoji@leapmind.ioyusuke@is.s.u-tokyo.ac.jp摘要将更强的句法偏差引入神经语言模型（LM）是一个长期的目标，但这一领域的研究通常集中在建模英语文本上，其中成分树库是现成的。将基于成分树的LM扩展到依赖树库更常见的多语言设置是可能的，通过依赖到选区转换方法。然而，这就提出了一个问题：哪种树格式最适合学习模型，以及哪种语言。我们通过使用各种转换方法训练递归神经网络语法（RNNG）并在多语言环境中对其进行经验评估来研究这个问题。我们通过七种类型的语法测试，研究了九种转换方法和五种语言平均而言，我们最好的模型的性能比所有语言中最差的选择提高了19%的准确性。我们的最佳模型显示了优于顺序/超参数化LM的优势，表明了语法注入在多语言环境中的积极作用。我们的实验突出了选择正确的树形式主义的重要性，并提供了见解，使一个明智的决定。1介绍近年来，语言建模的重要性已经大大增加，因为基于大型预训练神经语言模型（LM）的方法已经成为许多问题的最新技术（Devlin etal. ，2019; Radford et al. ，2019）。然而，这些神经LM基于一般架构，因此不显式地对语言约束进行建模，并且已被证明仅捕获通常在选区树库中发现的句法表示的子集（Warstadtet al. ，2020）。LM研究的另一条路线旨在显式地对解析树进行建模，以使LM具有语法感知能力。的代表性示例这种范例，递归神经网络语法（RNNG，Dyeret al. ，2016年），据报道，在需要复杂句法分析的任务上比顺序 LM 表现得更好（Kuncoro et al. ，2019; Hu et al. ，2020;Noji和Oseki，2021）。本文的目的是扩展LM注入语法的多语言设置。这一尝试主要在两个方面具有重要意义。首先，英语在句法感知LM的研究中一直占据主导地位。虽然多语言LM近年来受到越来越多的关注，但它们的大多数方法都没有显式地对语法进行建模，例如多语言 BERT（mBERT，Devlin et al. ，2019）或XLM-R（Conneau et al. ，2020）。尽管这些模型在一些跨语言任务上表现出了很高的性能（Conneau et al. ，2018），他们在句法任务上表现不佳（Mueller et al. ，2020）。其次，句法感知的LM除了具有较高的句法能力外，还有一些有趣的特性。一个例子是RNNG作为基于英语的环境下的认知模型的有效性，如Haleet al.（2018）所示。由于人类的认知功能是普遍的，而自然语言是多样的，因此基于多种语言进行这项实验是理想的多语言语法感知建模的主要障碍一种直接的方法是利用多语言树库，如通用树库（UD，Nivre et al. ，2016; Nivre et al. ，2020），其中树被表示在针对非线性的依赖性树（DTree）中。Matthews et al.（2019）使用生成依赖模型评估了三种不同类型语言不幸的是，他们揭示了基于依赖关系的模型比类似的基于选区的模型更不适合语言建模，突出了使用现有资源将语法感知LM扩展到其他arXiv：2204.08644v1[cs.CL]2022年4月+v：mala2277获取更多论文nt=1yp（x，y）a=′=（SNP VP试点笑部分树栈-LSTM行动0新界南1（S[eS]NT（NP）2（S（NP[eSeNP]GEN（英语：GEN）3（S（NP）[eSe NPe The]GEN（飞行员）4（S（NP）飞行员[eSeNPeTheepilot]减少5（S（NP）飞行员）[eSeNP′]NT（VP）6（S（NP飞行员）（VP[eSeNP′eVP]…图一： stack-RNNG行为的说明。Kuncoro等人（2017）提出了一种仅堆栈的RNNG，它基于当前部分树计算下一个动作概率。图1展示了它的行为该模型使用stack-LSTM表示当前的部分树，该stack-LSTM由三种类型的嵌入组成：非终结符、字和闭合非终结符。下一个动作是用stack-LSTM的最后一个隐藏状态来估计的。有以下三种类型的操作：• NT（X）：Push非终结符嵌入X（eX）到堆栈上。• GEN（w）：将w（ew）的单词嵌入推到堆栈上。Stack-LSTM表示当前部分树，其中相邻向量在网络中连接。在REDUCE操作中，相应的向量用复合函数更新（如下划线所示）。本文通过探索使用基于成分的模型进行多语言建模的性能，重新审视了构造多语言语法感知LM由于我们的领域是一个多语言的设置，我们的重点转向依赖选区转换技术如何导致不同的树，以及这些树如何影响模型的性能。我们获得选区树库从UD格式的依赖树库的五种语言使用九树转换方法。这些树库又被用来训练RNNG，我们根据困惑度和CLAMS对其进行评估（Mueller et al. ，2020）。我们的贡献是：（1）我们提出了一种通过依赖树转换训练多语言语法感知LM的方法。(2)我们发现了一个最佳结构，它可以在五种语言中发挥RNNG的潜力。(3)我们证明了我们的多语言RNNG在顺序/超参数化LM上的优势。2背景2.1递归神经网络文法RNNG是生成模型，用于估计句子x和选区树（CTree）的联合概率。概率是通过自上而下的选区解析动作（a1，a2，...，an n）来估计的，这些动作p（x，y）=Gp（at|a1，...，a t −1）• REDUCE：从堆栈中弹出元素，直到出现非终结符嵌入。对于弹出的所有嵌入，使用复合函数COMP计算闭合非终结符嵌入eX：eX′COMPeX，ew1，，ewmRNNG可以被认为是一种语言模型，它显式地注入句法知识，并且已经报道了各种吸引人的特征（ Kuncoroet al. ， 2017; Kuncoro etal. ，2017; Hale et al. ，2018）。我们专注于它在句法评估上的高性能，这在下面描述。原则上，RNNG可以用任何语料库学习，只要它包含CTree注释。然而，这是不明显的树格式是最好的多语言设置。使用与英语相同的技巧可能是不合适的，因为每种语言都有自己的特点，这些特点可能与英语不同。这个问题是本研究的根本动机。2.2跨语言句法评价为了研究LM捕获句法的能力，先前的工作已经尝试创建需要分析句子结构的评估集（Linzen et al. ，2016）。一个典型的例子是主谓一致，这是一个动词的形式由主语的语法范畴决定的规则，如人或数：卫兵们喜欢的飞行员笑了。（一）在（1）中，笑的形式是由受试飞行员决定的，而不是警卫。这一判决要求+v：mala2277获取更多论文←←算法1：lf是左优先转换的缩写。我们省略了右优先转换，因为它可以通过交换左优先的码块6-9和10-13来定义。转换.1函数平面（w，ldeps，rdeps）：2lNT[flat（lw，lw. 埃德普斯山rdeps），lwinldeps];3rNT[flat（rw，rw. ldeps河rdeps），rwinrdeps];4返回[lNT [w] rNT]。removeEmptyList;5函数lf（w，ldeps，rdeps）：句法分析：guards不是目标动词laugh的主语，因为它在关系从句中是真正的主语引导。Marvin和Linzen（2018）使用语法框架设计了英语评估集。Mueller等人（2020）将这一框架扩展到其他语言（法语、德语、希伯来语和俄语），并创建了一个名为CLAMS（跨语言模型评估）的评估集。CLAMS涵盖7类协议任务，包括本地协议（例如：作者笑/* 笑）和非局部一致，如（1）中的主语和动词之间包含插入短语他们在CLAMS上评估了LM，并证明了在涉及非局部依赖的情况下，顺序LM通常无法为语法句子分配更高的概率以前的工作试图探索与这些评估集的LM的synn-tactical能力Kuncoro等人（2019）使用Marvin和Linzen（2018）提出的评估集比较了LSTM LM和RNNG的性能，证明了RNNG在预测一致性方面的优越性 Noji 和 Takamura（2020）认为LSTM LM在处理对象关系子句方面可能存在局限性。由于这些分析是在英文文本的基础上进行的，因此尚不清楚它们是否适用于多语种环境。在本文中，我们试图通过学习其他语言中的RNNG并在CLAMS上对其进行评估来研究3方法：依赖关系树转换作为多语言句法信息的来源，我们使用通用的依赖关系（UD），一个跨语言的依赖树库与一致的注释方案的集合。由于 RNNG 需要CTree格式的数据集进行训练，因此我们执行DTree到CTree的转换，这完全是算法，使其无论语言如何都能工作我们的方法包括两个过程：结构转换和非终结符标注，首先获得一个包含未标注非终结符节点的CTree骨架，然后利用依赖标注中包含的句法信息来虽然我们的结构转换与Collins et al. （1999），我们包括一个新的标签方法，依赖于依赖关系，而不是POS标签。结构转换我们执行了三种类型的结构转换：平面、左优先和右优先。算法1显示了伪代码，图2说明了实际的转换。这些方法按照以下过程以自顶向下的方式构造CTree：1）引入句子头部的根非终结符（NT give）。2）对于每个NTw，根据w的依赖项引入新的非终结符。递归地重复这个过程，直到w没有依赖项。这三种方法的区别在于引入非终结符的顺序。我们根据图2中的示例描述它们的行为。(a)扁平方法让w和它的依赖项同时成为CTree中的子项例如，NTgive有四个孩子：NTman，NTgive，NThim，NTbox，因为他们都是头词give的依赖者。顾名思义，这种方法倾向于生成一个平面结构的CTree，因为每个非终结符可以有多个子树。(b)左优先方法从最左边的依赖项引入非终结符如果没有左依赖项，则引入最右依赖项。在图2的例子中，根NTgive有一个左子节点NTman，因为man是头give的最左边的依赖项。(c)右优先方法是左优先的反向版本;处理最右的依赖优先。对于方法（b）和（c），得到的CTree总是二叉树。非终结符标记我们为每个NT定义了三种类型的标记方法：1）X-标记：将“X”分配2）POS-label：分配w的POS标签。3)DEP-label：分配依赖关系6如果ldeps不为空，则/*弹出最左边的依赖项 */78910lw←ldeps.如果rdeps不为空，lNT← [lf（lw，lw.ldepslwrdeps）return（）;/*弹出最右边的依赖项 */rNT ←[lf（w，ldeps，rdeps）]，。];];1112131415rw←rdeps. return（）;lNT ←[lf（w，ldeps，rdeps）];rNT← [lf（rw，rw.ldeps，rw.（rdeps）];return[i];return[int n];+v：mala2277获取更多论文NT NTNTgiv）eNT⇓×根objdetnsubj国det那个人给了他一个盒子DET NOUN动词代词DETNOUNNT给予yNT给NTManNTMan的人给给他他框NT一个 NT盒子一盒NTManNTMan的人NT给予给他一个新的盒子给他一个新的盒子NT给予NT给予NT人NT给NT人NT给NT盒给他一个新台币的盒子他一盒给他一盒的人(a) 降（b）左优先（c）右优先图2：结构转换的图解。NTw是非终结符的时间标记，将在非终结符标记阶段分配。NTTheX标记XPOS标签DETPDEP标记det新界男子XNOUNPnsubjNT给予XVERBP根叫他XPRONP国际生物学和生物学理事会新台币一名XDETPdetNTboxX NOUNP obj表1：分配给非终结符的实际标签。W和它的头之间的关系表1显示了分配给图2中的CTree的实际标签。每种方法都有自己的意图。 X-label去掉了每个短语的句法类别，最大限度地减少了句子的结构信息。POS标签会产生最常见的CTree结构，因为传统的非终结符是基于中心词的POS标签来标记的。DEP-label是一种比POS-label更细粒度的方法，因为句子中的单词可以具有相同的POS标签，但具有不同的依赖关系，如图2中的人和盒子。最后，我们总共执行了九种类型的转换（三种结构，三种标记）。尽管它们具有离散的特征，但它们是共同的，因为它们体现了对捕获语法有用的合理短语结构。图 3显示了从CLAMS转换的实际实例的结构在所有的设置中，主要的主题短语是正确的主导NT飞行员，这应该有助于解决的任务。4什么是在每种语言中都能很好地工作的鲁棒转换在第3节中，我们提出了从DTree到CTree的语言无关的多重转换。有趣的问题是，在每一种语言中发挥RNNG的潜力？为了回答这个问题，我们进行了一个彻底的实验，比较了在每种环境下训练的RNNG的表现。4.1实验装置根据 Mueller et al. （ 2020 ），我们使用WikiExtractor1提取目标语言的维基百科文章以创建语料库 2 。我们将其提供给 UDify（Kondratyuk和Straka，2019），这是一个在整个UD树库上训练的多语言神经依赖解析器，以生成CoNLL-U格式的依赖树库。句子是预先使用节（Qi et al. ，2020）是因为UDify需要标记化的文本进行预测。使用第3节中提出的方法将产生的依赖树库转换为选区树库。我们的树库包含大约10%的所有语言的非投射DTree（在俄语中为9%，在希伯来语中为14%），我们在转换阶段省略了它们，因为我们无法从它们中获得有效的CTree。作为一个训练集，我们为每种语言随机挑选了具有1000万个标记的句子。对于验证集和测试集，我们分别挑选了5,000个句子。我们使用批量RNNG（Noji和Oseki，2021）来加速我们的训练。在Noji和Oseki（2021）之后，我们使用了子字单位（Sennrich et al. ，2016年），词汇量为1https://github.com/attardi/wikiextractor2尽管Mueller等人（2020）发布了他们使用的语料库，但我们自己提取了数据集，因为它们包含token，这会影响解析。3由于其他语言可以包含更多的非投射DTree，我们必须考虑将来如何处理它+v：mala2277获取更多论文平左先右先NTNTNTNTNT试点NTNTNT试点NT试点NTNTNT笑NT NT的NTNT笑/*laugh笑/*laugh的试点 NTNT/*laughNT试点NT的NTNT NTNT的NT试点NT的NTNT NT的警卫爱守卫们喜欢守卫们喜欢图3：转换后的CTree示例。一个句子取自CLAMS，它要求识别由宾语关系从句介入的长距离依存关系（句子（1））。为了简单起见，我们省略了每个非终结符的对应词，除了pilot，句子的主要主语。三万我们设置超参数，使模型大小为35M。我们在单个GPU上训练每个模型为了比较转换之间的性能，我们从两个方面评估了在每个数据集上训练的模型：基于CLAMS的困惑度和语法能力困惑度是评估LM质量的标准度量。由于我们采用子词单位，我们把一个词的概率看作是它的子词的概率的乘积为了在RNNG上计算它，我们执行了字同步波束搜索（ Sternetal. ，2017年），这是在批处理RNNG中实现的默认方法。根据Noji和Oseki（2021），我们将波束大小k设置为100，单词波束大小kw设置为10，快速通道候选者ks设置为1。语法能力是通过CLAMS的准确性来评估的，CLAMS是通过比较分配给一个合乎语法的句子和一个不合语法的句子的概率来计算的如果模型给一个合乎语法的句子赋予了更高的概率，那么我们就认为它是正确的。概率精度为0.5。我们使用不同的随机种子运行实验三次以初始化模型，并报告平均分数和标准差。4.2结果从现在开始，我们根据过程的命名来指代每种转换困惑表2显示了每个设置中的困惑整体来看，平面结构的复杂度最低，其次是左优先和右优先，这一点在语言中是一致的。尽管无论标记方法和语言如何，扁平结构都产生稳定且相对较低的复杂度，但左优先和右优先结构在X标记上表现非常差。平坦左权X259±1278±3241±30707±19417±2390±41507±14512±3463±1英语POSDEPX133±0129±1137±22405±10206±2190±5691±10262±1223±2法国POSDEPX341±1366±1330±43830±8321±3291±31124±18482±2398±4德国POSDEPX100±197±093±1294±3153±1143±1450±8183±1161±1希伯来POSDEPX508±5527±3473±611413±16845±2834±51910±591067±161030±27俄罗斯POSDEP表2：每个设置的测试集困惑。越低越好。“left”and “right” in the table are abbreviations of “left-first”and “right-first”,语法能力图4显示了CLAMS在每个设置中的准确性，表3显示了平均得分。从表3中，我们观察到了方法之间的明显区别;在所有语言中，最好的模型与困惑相似，平面结构比其他结构表现得更好、更稳定，不受标签和语言的限制。虽然 Muelleret al.（ 2020）报告了使用LSTM LM时不同语言之间的得分差异很大，但基于平面结构的RNNG没有显示出这种趋势;几乎所有的准确率都在90%以上。仔细观察图4，我们可以看到，左优先和右优先结构表现出不稳定的行为，这取决于标记;X标记的准确度往往较低，特别是对于需要解决长距离依赖性的类别，例如“VP coord（longRoll）”'Across obj. rel.'，和NTNT+v：mala2277获取更多论文图4：在每个设置上训练的RNNG的CLAMS的准确性。平坦左权X0.89 ±。010.87 ±。020.90 ±。020.68 ±。010.89 ±。010.84 ±。010.75 ±。010.67 ±。010.78 ±。04英语POSDEPX0.99 ±。000.99 ±。000.98 ±。010.75 ±。000.93 ±。020.96 ±。010.88 ±。020.92 ±。010.94 ±。01法国POSDEPX0.95 ±。000.95 ±。010.96 ±。010.78 ±。010.93 ±。010.95 ±。020.86 ±。010.88 ±。010.87 ±。02德国POSDEPX0.91 ±。010.91 ±。010.90 ±。010.72 ±。010.91 ±。030.92 ±。000.78 ±。010.87 ±。010.86 ±。01希伯来POSDEPX0.93 ±。000.90 ±。010.93 ±。010.84 ±。010.87 ±。010.89 ±。000.89 ±。020.83 ±。010.82 ±。01俄罗斯POSDEP表3：按任务类别平均的CLAMS得分讨论困惑与CLAMS评分的趋势基本一致：（1）扁平结构的CLAMS评分最高。(2)左优先和右优先结构在X标记上表现不佳我们推测，这些趋势是由于每个转换的结果结构;而平面结构是非二元的，其余两个是二元的。由于非二叉树中的非终结符可以有多个单词作为子元素，因此从它获得的解析操作包含比二叉树更多的连续GEN操作。这种性质有助于模型通过考虑lexi来预测下一个单词+v：mala2277获取更多论文cal关系，这将有助于其较低的困惑。虽然二叉树在信息标签（POS/DEP）的提示下变得更好，但由于其混乱的动作，很难达到平面结构的性能; GEN动作往往会被其他动作中断。此外，二叉树中有太多的NT动作，这可能会损害预测，因为重要的非终结符（例如图3中的NT导频）的信息可能会通过动作被稀释。在X标签上，情况变得更糟;模型无法区分主主语的非终结符和另一个主语的非终结符，导致遗漏主语是什么。值得注意的是，困惑并不总是反映CLAMS的准确性。例如，虽然右X转换对所有语言产生最坏的困惑，但它在几乎所有情况下都比左X转换获得更好的CLAMS准确性。这一观察结果与Hu et al. （2020），他们报告了英语的困惑和句法表现之间的分离4.3为什么扁平结构表现良好？作为一个可能的原因，扁平结构是最佳的三种结构中，我们推测，结构的可解析性。为了验证这一假设，我们计算了F1得分，+v：mala2277获取更多论文平坦左权X0.80 ±。000.79 ±。000.82 ±。010.34 ±。000.57 ±。000.59 ±。010.48 ±。000.70 ±。000.70 ±。00英语POSDEPXPOSDEP0.79 ±。000.86 ±。000.86 ±。010.37 ±。000.63 ±。000.65 ±。010.58 ±。000.74 ±。000.75 ±。00法国X0.90 ±。000.85 ±。000.91 ±。080.44 ±。000.74 ±。000.76 ±。000.59 ±。000.76 ±。000.77 ±。00德国POSDEPXPOSDEP0.81 ±。010.83 ±。000.83 ±。000.41 ±。000.65 ±。000.65 ±。000.58 ±。000.73 ±。000.72 ±。00希伯来X0.80 ±。000.83 ±。000.82 ±。010.41 ±。000.62 ±。000.58 ±。000.59 ±。000.73 ±。000.68 ±。00俄罗斯POSDEP表4：预测CTree的F1评分。我们把每一次转化的结果树看作是一棵金树。图5：CLAMS示例的结构，{flat，左优先，右优先}-POS RNNG。这个例子只能通过flat-POS RNNG在所有种子上求解。测试集的黄金CTree与RNNG为每个设置预测的结构之间的表4显示了结果。各语言的F1得分趋势一致：1）扁平结构的 F1得分最高2）平面结构的X-标记得分较低，而平面结构的X-标记得分较稳定总的来说，结果反映了4.2节中讨论的趋势，这支持了我们的假设。为了进一步研究解析能力和解决任务的能力之间的联系我们发现，只有平坦的RNNG才能产生正确的成分树，而从左优先和右优先RNNG获得的结构在关键点上是不正确的。例如，在图5中，虽然在平面结构中清楚地分析了主语“author”和目标动词“laughs”之间+v：mala2277获取更多论文被误解为主题是“警卫”。这些发现表明了选择的重要性为语法感知的语言建模建立正确的树结构;它不仅应该是分层的，而且应该尽可能是可解析的。通过对转换的分析，我们发现（1）扁平结构在每个设置中都表现稳定（2）CLAMS对平面结构的分类准确率没有显著差异，但在困惑度方面，flat-DEP对半数以上的语言表现最好，对其他语言没有明显的劣势。因此，我们得出结论，flat-DEP转换是语言之间最强大的转换。5在多语言环境中对LM进行注射的优势在本节中，我们将展示在多语言环境中将句法偏差注入模型的好处。我们获得了在flat-DEP树库（简称flat-DEP RNNG）上训练的RNNG的CLAMS得分，并将其与基线进行了比较。实验设置实验在尽可能接近先前工作的环境中进行。在Mueller等人（2020）之后，我们将8000万个令牌的维基百科文章作为训练集。 LSTM LM 的超参数是按照 Noji 和Takamura（2020）设置的，因为它对Marvin和Linzen（2018）的数据集表现最好。我们使用了具有30K容量大小的子字单元，并且RNNG 和 LSTM LM 的大小被设置为相同（35M）。结果表5显示了结果。此外对于我们训练的模型（ flat-DEPRNNG ， LSTM（N20））的分数，我们显示了原始论文中报告的 LSTM LM 和 mBERT 的分数（ LSTM（M20）和mBERT（M20），Mueller et al. ，2020）。总的来说，我们可以看到RNNG跨语言的优越性，特别是对于需要分析长距离依赖的任务 ; 'VP coord （ long distancedependency'，'Across subj. rel.'，‘Across 和虽然之前的工作表明LSTM LM在处理对象关系子句方面可能存在限制（Noji和Takamura，2020），但我们的结果表明，由于显式注入的语法偏差，RNNG没有这样的限制4由于CLAMS的英语集是Marvin和Linzen（2018）的子集，因此选择该模型来验证多语言可扩展性是合理的+v：mala2277获取更多论文简单VP坐标（短）VP坐标（长）跨subj. rel.内目标相关跨目标相关跨制备型平均flat-DEP RNNG0.99 ±。010.93 ±。031.00 ±。001.000.87 ±。020.85 ±。010.94 ±。011.000.91 ±。040.83 ±。040.76 ±。060.920.95 ±。020.85 ±。040.60 ±。060.880.92 ±。050.83 ±。050.89 ±。010.830.92 ±。060.77 ±。040.55 ±。050.870.93 ±。040.87 ±。020.63 ±。020.920.93 ±。020.85 ±。020.77 ±。030.92LSTM（N20）LSTM（M20）英语mBERT（M20）flat-DEP RNNG1.00 ±。001.00 ±。001.00 ±。001.001.00 ±。001.00 ±。000.97 ±。011.001.00 ±。000.97 ±。030.85 ±。050.981.00 ±。000.92 ±。060.71 ±。050.571.00 ±。000.85 ±。030.99 ±。01-1.00 ±。000.75 ±。010.52 ±。010.861.00 ±。001.00 ±。000.74 ±。020.571.00 ±。000.93 ±。010.83 ±。020.83LSTM（N20）LSTM（M20）法国mBERT（M20）flat-DEP RNNG1.00 ±。000.99 ±。011.00 ±。000.950.99 ±。010.97 ±。030.99 ±。020.970.98 ±。010.92 ±。050.96 ±。041.001.00 ±。000.99 ±。010.94 ±。040.730.88 ±。040.72 ±。010.74 ±。03-0.99 ±。010.97 ±。020.81 ±。090.930.97 ±。020.94 ±。010.89 ±。060.950.97 ±。010.93 ±。010.90 ±。040.92LSTM（N20）LSTM（M20）德国mBERT（M20）flat-DEP RNNG0.97 ±。010.97 ±。000.95 ±。010.700.99 ±。000.95 ±。041.00 ±。010.910.92 ±。030.85 ±。020.84 ±。060.730.95 ±。020.89 ±。020.91 ±。030.611.00 ±。000.94 ±。011.00 ±。01-0.84 ±。050.63 ±。040.56 ±。010.550.95 ±。010.93 ±。010.88 ±。030.620.95 ±。010.88 ±。000.88 ±。020.69LSTM（N20）LSTM（M20）希伯来mBERT（M20）flat-DEP RNNG0.89 ±。020.91 ±。010.91 ±。010.650.94 ±。020.97 ±。000.98 ±。020.801.00 ±。000.97 ±。020.86 ±。04-0.93 ±。000.98 ±。000.88 ±。030.700.99 ±。010.90 ±。040.95 ±。04-0.92 ±。020.85 ±。070.60 ±。030.670.85 ±。030.86 ±。020.76 ±。020.560.93 ±。010.92 ±。010.85 ±。030.68LSTM（N20）LSTM（M20）俄罗斯mBERT（M20）表5：flat-DEP RNNG和基线的CLAMS评分。LSTM（N20）是一个超参数设置与Noji和Takamura（2020）一样的 LSTM（M20）和mBERT（M20）得分引用自Mueller等人的表1、2和5。（2020年）。连字符意味着对应设置的所有焦点动词都不在词汇表中。6讨论我们讨论了无论使用何种语言都能稳定工作的CTree结构，以及向模型中注入句法偏差的优越性。我们的主张是，我们可以通过寻找学习RNNG的最佳结构来构建语言无关的语法感知LM要使这一论断成立，需要从两个方面进行更多的研究：细粒度的句法评估和在类型学上不同的语言上的。CLAMS中所涵盖的语言现象只是一种协议。然而，以前的作品已经发明了评估集，检查更多样化的句法现象的英语（胡等。，2020，Warstadtet al. ，2020）。即使在多语言环境中，我们也需要这样一个细粒度的评估，因为一致性的优越性并不意味着每一个句法知识的优越性;Kuncoro et al.（2019）建议RNNG在捕获连续补语或简单的负极性项方面比LSTMLM表现更差。设计多语言句法测试集是一个挑战，因为即使是基于语法类别的一致性也不是一个普遍现象。这就需要寻找一个涵盖广泛句法现象、适用于多种语言的合理度量。CLAMS中包含的语言（英语，法语，德语，希伯来语和俄语）实际上不是类型学上的语言不同的人种除了语言特征外，它们都采用相同的顺序：（1）主语、动词和宾语（SVO）（2）关系从句和名词（名词-关系从句）（3）形容词和名词短语（介词），等等。如果我们对不同类型的语言进行同样的实验，结果可能会有所不同。虽然以前的一些工作集中在其他语言的句法评估（Ravfogel et al. ，2018;Gulordava et al. 2018年），这种尝试是罕见的。作为未来的工作，需要设计一个基于其他语言的评估集，并探索可扩展到更多样化的语言。7结论在本文中，我们提出了一种方法来学习多语言RNNG通过依赖树转换。我们进行了多次转换，以寻求多语言工作良好的鲁棒结构，讨论了多种结构的效果我们证明了我们的模型在多语言环境中捕获语法方面优于基线。由于我们的研究是多语言句法感知LM的第一步，因此有必要在更多样化的语言上进行实验，以寻求更好的结构。我们相信，这一研究对理论/认知语言学领域也有一定的贡献，因为语言学的最终目标是发现自然语言的普遍规律在工程中找到一个合理的结构将产生有用的知识。5类型学信息是获得关于WALS：https://wals.info/+v：mala2277获取更多论文确认本文是基于一个项目JPNP20006，委托新能源和产业技术开发组织（NEDO）的结果。在实验中，使用了日本产业技术研究所（AIST）引用Michael Collins，Jan Hajic，Lance Ramshaw，andChristoph Tillmann. 1999. 捷克语的统计分析器。在计算语言学协会第37届年会的会议记录中，第505-512页，美国马里兰州学院公园。计算语言学协会.Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。Alexis Conneau，Ruty Rinott，Guillaume Lample，Adina Williams ， Samuel Bowman ， HolgerSchwenk，and Veselin Stoyanov. 2018. XNLI：评估跨语言句子表示。2018年自然语言处理经验方法会议论文集，第2475-2485页，比利时布鲁塞尔。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Chris Dyer、Adhiguna Kuncoro、Miguel Ballesteros和Noah A.史密斯2016. 递归神经网络语法。在计算语言学协会北美分会2016年会议论文集：人类语言技术，第199计算语言学协会。Kristina Gulordava，Tal Linzen，and Marco Baroni.2018. 无色的绿色经常出现在网络上，梦想着快乐。在计算语言学协会北美分会2018年会议论文集：人类语言技术，第1卷（长文），第1195- 1205页，新奥尔良，路易斯安那州。计算语言学协会John Hale ， Chris Dyer ， Adhiguna Kuncoro ， andJonathan Brennan. 2018. 用波束搜索在人脑造影中寻找语法。在Proceedings of the 56th AnnualMeeting of the Association for ComputationalLinguistics （ Volume 1 ： Long Papers ）， pages2727-2736，Melbourne，Australia.计算语言学协会。Jennifer Hu ， Jon Gauthier ， Peng Qian ， EthanWilcox，and Roger Levy. 2020. 一次系统的评估在神经语言模型中的句法概括。在第58届年会的会议记录中计算语言学协会，第1725-1744页，在线。计算机语言学协会。丹·康德拉图克和米兰·斯特拉卡。2019. 75种语言，1种模型：解析通用语法。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP- IJCNLP）会议录中，第2779计算语言学协会.Adhiguna Kuncoro ， Miguel Ballesteros ， LingpengKong，Chris Dyer，Graham Neubig，and Noah A.史密斯2017. 递归神经网络语法学习语法的哪些内容？在计算语言学协会欧洲分会第15次会议的会议记录：第1卷，长文，第1249-1258页，瓦伦西亚，西班牙。计算语言学协会。Adhiguna Kuncoro ， Chris Dyer ， Laura Rimell ，Stephen Clark和Phil Blunsom。2019. 使用知识蒸馏可伸缩语法感知语言模型。在计算语言学协会第57届年会的会议记录中，第3472-3484页，意大利佛罗伦萨。计算机语言学协会。TalLinzen ， EmmanuelD

下载后可阅读完整内容，剩余1页未读，立即下载