基于标头跨度的依存分析方法及其性能评估

181 浏览量更新于2023-11-30 收藏 649KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文基于标头跨度的投射依赖分析杨松林，涂克伟上海科技大学信息科学与技术学院{yangsl,tukw}@shanghaitech.edu.cn摘要提出了一种基于头部跨度的投射依存句法分析方法。在投影树中，以每个单词为根的子树出现在连续序列中（即，span）在表面顺序中，我们称span-中心词对为有头span。在这种观点中，一棵投影树可以被看作是一个有头跨度的集合。它类似于选区解析中的情况，因为选区树可以被视为组成跨度的集合。基于跨度的方法将选区树的得分分解为组成跨度的得分，并使用CYK算法进行全局训练和精确推理，获得了最先进的选区分析结果受它们的启发，我们将依赖树的得分分解为头部跨度的得分。我们使用神经网络评分为首的跨度和设计了一种新的O（n3）的动态规划算法，使全球培训和精确的推理。我们在PTB、CTB和UD上评估了我们的方法，获得了最先进或可比较的结果。1介绍依存句法分析是自然语言处理中的核心任务，它在下游任务中有许多应用，如意见挖掘（Zhang et al. ，2020a）、关系提取（Jinetal. ， 2020 ），命名实体识别（ Jie 和 Lu ，2019），机器翻译（Bugliarello和Okazaki，2020）等。依赖分析主要有两种方法：基于图的方法和基于转换的方法。基于图的方法为所有树分配分数为了保持全局推理的易处理性，它们将树的得分分解为子树的得分。在最简单的基于一阶图的方法（McDonald et al. ，2005;Dozat和Manning，2017），子树是单个依赖弧。在基于高阶图的方法（Mc-Donaldand Pereira，2006; Carreras，2007; KooandCollins，2010; Ma and Zhao，2012; Zhanget al. ，2020 b），他们考虑更复杂的子树与多个弧。基于转换的方法（Nivre和Scholz，2004;Chen和Manning，2014）按顺序读取句子，并进行一系列局部判定以构建最终解析。最近，基于转换的方法与指针网络（Vinyals etal. ，2015）已经获得了与基于图的方法（Maet al. ，2018; Liu et al. ，2019;Fernán-Gonzálezand Gómez-Rodríguez ， 2019;Fernán-Gonzálezand Gómez-Rodríguez，2021）。基于图的方法的主要局限性在于它们使用词对作为建模的基本单元，因此不能充分地对子树建模（Gan等人，2005）。，2021年）。尽管子树信息在强大的神经编码器中被隐式编码（ Falenska 和 Kuhn ， 2019 ），如 LSTM（ Hochreiter 和 Schmidhuber ， 1997 ）和Transformers（Vaswani等人）。，2017年），最近的研究发现高阶信息仍然有利于提高性能（Fonseca和Martins，2020年; Zhang et al. ，2020 b），这表明显式地对更复杂的子树进行建模是潜在有用的。虽然高阶方法缓解了子树建模不足的问题，但它们仅对多个依赖弧而不是整个子树的交互进行建模，因此不能完全解决该问题。相比之下，基于转换的方法可以很容易地对部分构建的子树进行建模，但也存在一些其他问题。例如，它们不能执行全局训练并且依赖于贪婪算法或波束搜索算法来解析;顺序解码可能导致错误传播，因为过去的决策错误将影响未来的决策。为了克服基于图和基于转换的方法的局限性的arXiv：2108.04750v1[cs.CL]2021年8月10+v：mala2277获取更多论文到是采取库存一个−≤≤Σ的功能句法被原始清单句法功能是采取是原始0 1 2 3 4 5 678 9 10图1：一个投影依赖解析树的例子。每个矩形代表一个有头跨度。一个投影解析树可以被看作是一个有头跨度的集合。投影树具有良好的结构特性：以每个单词为根的子树以连续序列出现（即，span）中的曲面顺序。因此，一个投影树可以被视为一个有头跨度的集合，如图 1 所示。（ 0 ， 5 ，inventory）是一个示例标题跨度，其中跨度（0，5）有一个标题词库存。从这个角度来看，投射依赖解析与选区解析类似，因为选区树可以被视为组成跨度的集合。其主要区别在于，在二元选区树中，成分区间（i，k）由两个相邻区间（i，j）和（j，k）组成，而在投影依赖树中，首区间（i，k，xh）由几个较小的首区间和一个词区间（h1，h）组成.例如，（0，5，inventory）由（0，1，An）、（1，2）和（2，5，of）组成。有几个结构约束之间的带头跨度，以迫使投影，我们将在稍后讨论。这些结构约束是设计一个高效的动态规划算法进行精确推理的关键。基于跨度的选区解析器（Stern et al. ，2017;Kitaev and Klein，2018; Zhang et al. ，2020c;Xin et al. 2021）将组成树的得分分解成其组成跨度的得分，使得CYK算法可以用于全局训练和推理。感谢这一点和强大的神经编码器，它们在组成分析中获得受其启发，我们提出了将投影树的得分分解为头跨距的得分。我们该算法在时间复杂度上与 ProjectiveDependencyParsing算法（ProjectiveDependency Parsing，1996与基于图的方法相比，我们通过对包含子树内所有单词的头部跨度进行评分来充分地对子树进行与基于过渡的方法相比，我们的方法允许全局训练，精确推理，并且不会受到错误传播或曝光偏差的影响我们的贡献可概括如下：• 我们把一棵投射树看作是一个有头跨度的集合，为投射依赖句法分析提供了一个新的视角• 我们设计了一个新的O（n3）的动态程序-ming算法，使我们提出的模型的全局训练和精确推理。• 在PTB、CTB和UD v2.2上的实验结果表明了该方法的有效性。2模型我们采用了两阶段句法分析策略，即，首先预测未标记树，然后预测标记。给定一个句子x1，...， xn，其未标记的投影依赖解析树y可以被认为是有头跨度（li，ri，xi）的集合，其中1我n. 对于每个单词，我们可以通过算法1找到确切的一个标题跨度，因此y中总共有n个标题跨度。然后我们将y的score定义为：进一步设计了一种新的O（n3）动态规划算法，用于全局训练和精确推理.s（y）=i=1，.，n跨度li，ri，iS+v：mala2277获取更多论文我我∈RR∈∈Ri，j，kKli，ri，i神经网络在第2.2节中，我们介绍了培训i，j，rR算法1寻找投影依赖分析树的首跨距要求：输入长度为n的句子x及其依赖关系cJk=MLP字（ck）树y左权eJ =MLPspan（ei，j）初始化Ci为xi在y中的左子集合，Ci为xi在y中的右子集合。函数FINDLEFT（i）如果Cleft为空，则i、jsspan=cJ;1TWspaneJi，j;1返回i -1其他returnFINDLEFT（i）如果结束则结束函数函数FINDRIGHT（i）如果Cright为空，则返回i其他returnFINDRIGHT（i）end ifend函数对：={}对于i = 1，. n是否add（pair，（FINDLEFT（i），FINDRIGHT（i））回线对端在§2.1中，我们展示了如何计算s跨度使用其中，MLP字和MLP跨度是多层的，将词和跨度表示分别投影到d维空间的倒计时器（MLP）; W跨度（d+1）×（d+1）。类似地，我们使用深度双仿射函数来为给定的黄金树或预测树的依赖弧的标签评分。在我们的初步实验中，我们发现直接基于父子词表征计算分数会导致略高的结果：cJi=MLP父代（ci）cJj=MLPchild（cj）slabel=cJi;1TWlabelcJj;1目标函数，在§2.3中，我们提出了新的时间复杂度为O（n）2.1神经结构和评分我们在x0处添加bos>（句首），在xn+1处添加eos>（句尾）。在嵌入层中，我们使用BERT的最后一层（Devlin et al. ，2019）以生成每个令牌xi1的密集表示ei。具体来说，我们使用均值池（即，取所有子字嵌入的平均值）以获得字级表示。然后我们给e0，...， e n+1到3层双向LSTM（BiLSTM）中以得到c0，.，cn+1，其中ci=[fi;bi]，fi和bi分别是位置i处的最后一个BiLSTM层的前向和后向隐藏状态我们遵循（Stern et al.），2017年）使用LSTM- minus特征（Wang和Chang，2016年）来获得fencepost span表示ei，j：hk=[fk，bk+1]ei，j=hj−hi在获得单词和跨度表示后，其中，MLP父和MLP子是将跨度表示映射到DJ维空间的MLP;W标签（d′+1）×（d′+1）对于每个关系类型r R，其中R是所有关系类型的集合。2.2训练损失根据之前的工作，我们将训练损失分解为未标记的解析损失和弧标签损失：L=L解析+L标签对于L解析，我们可以设计局部跨度选择损失（即，最大化每个单词在所有可行跨度上的黄金跨度的概率），这类似于头部选择损失（Dozat和Manning，2017），或者使用全局结构损失。实验上，我们发现最大利润损失（Taskaret al. ，2004）表现更好。最大边际损失旨在最大化黄金树y的得分与最高得分的不正确树yJLparse= max（0，max（s（y）+max（yJ，y）−s（y））我们使用深度双仿射函数（Dozat和y′/=y（一）Manning，2017），以获得头部跨度：1对于某些数据集（例如，中文树库），我们将POS标记嵌入与BERT嵌入连接为ei其中，k度量不正确的树和黄金树之间的相似性。在这里，我们让汉明损失。计算eq。（1）我们需要+v：mala2277获取更多论文i，j，r失效→∈≤−−−Σi a b j-1 j c图2：子树左（右）子跨度可以包含一个或多个标题跨度。基于这些观察，我们设计了以下动态规划图表项：• αi，j：span（i，j） serv的累积得分作为左子跨度或右子跨度。• βi，j，k：头广度（i，j，xk）的累计得分。然后我们可以定义以下递归函数：执行损失增强推理（Taskar et al. ，2005）。我们将分数更新为：mulas执行动态编程：βi，i+1，i +1=s跨度（二更）sJ=s −1（（i，j，k）∈y）i，i+1，i+1+si，j，ki，j，kβi，j，k =αi，k−1+αk，j跨度i，j，k（三）其中1（（i，j，k）∈y）意味着βi，j，i+1=αi+1，j+s跨度（四）span（i，j，xk）存在于y中。我们就可以用-i，j，i+1βi，j，j=αi，j−1+sspan（五）ing算法（§2.3）根据更新后的得分来获得得分最高的树。如果是黄金树，那么损失为0，否则，我们可以把它放回当量1、计算损失i，j，jαi，j= max（max（αi，k+αk，j），国际知识产权组织max（βi，j，h））（6）最后，我们使用交叉熵L标签：i h≤j当量2意味着xi+1没有孩子。当量三、四、五exp（slabel）表示父词在两侧都有子词，分别为仅右侧和仅左侧。L标签=（xi→xj，r）∈y-日志 r∈R标签i，j，r′由方程式6，我们可以看到子跨度来自多个较小的连续子跨度（即，其中（xi xj，r）y表示存在一个依赖关系弧从xi到xj，标签r在y中。2.3解析在这一节中，我们详细介绍了我们提出的O（n3）推断-max（α（i，k）+α（k，j）或首跨距（即，国际知识产权组织max（β（i，j，h）。国际新闻我们还维护回溯点，以恢复预测的投影树：搜索算法我们列出以下关键观察结果：Bi，j=α1，αi、j= max（βi h≤j（i、j、h）• 对于一个给定的父词xk，如果它在一个给定的方向（左或右）上有任何子词，那么它的子词在这个方向上的所有有头跨度应该是连续的，并形成一个更大的跨度，我们称之为左（右）子跨度。xk的首跨度的左（右）边界是最左（右）子跨度或k1（k）的左（右）边界。• 如果父词xk在两个方向上都有子词，则它的左跨度和右跨度由单个词跨度（k−1，k）分隔。图2显示了一个示例子树。左子跨度是（i，j 1），右子跨度是（j，k）。它们由单个单词span（j1，j）分隔。可以通过合并左子跨度、右子跨度和单个单词跨度来生成标题跨度（i，k，j）注意XJ+v：mala2277获取更多论文−−0，αi，j= max（αi，k+αk，j）国际知识产权组织Ci，j= arg max（αi，k+αk，j）国际知识产权组织Hi，j= arg max（βi，j，h））i h≤j直观地说，解析过程递归地找到给定的中心语跨度的左子跨度和右子跨度的最佳分割，然后在给定的中心语跨度的中心词和每个子跨度的中心词之间添加例如，在图2中，（i，k，x，j）首先被解码，然后它预测其左子跨度（i，j）的最佳分割。（1）右子span（j，k），分别为（i，a），（a，b），（b，j1）和（j，c），（c，k）。找到最佳分割类似于+v：mala2277获取更多论文→←←→∪←←←→←←∪←−←−- -算法2基于首标跨度的投射依存句法分析的推理算法要求：输入长度为n的句子递归地计算α，β，B，C，Harcs：={（0H0，n）}函数FINDARC（i，j）如果i+ 1 ==j，则返回{j}否则，如果Bi，j== 1，则h Hi，j如果i h j，则LFINDARC（i，h1）RFINDARC（h+ 1，j）儿童L R如果h = j，则儿童FINDARC（j1，j）其他FINDARC（i，i+ 1）end ifforc in儿童add（arcs，（h c））结束返回{h}其他c Ci，jLFINDARC（i，c）RFINDARC（c，j）返回L R如果结束则结束函数FINDARC（0，n）回弧半马尔可夫CRF模型（Sarawagi和Cohen，2004）。对于每个解码的子跨度（ i，j），我们可以找到中心词Hij，然后可以推断arc（xj xHij）然后我们递归地对每个有向跨度（i，j，Hi，j）应用相同的整个解析算法在算法2中被形式化。时间复杂度：从Eq. 2-6，我们可以看到，最多三个变量（即，i，j，k）的时间复杂度为O（n3）。3实验3.1数据我们在Penn Tree Bank（PTB）3.0（Marcus etal. ，1993）、中国树库（CTB）5.1（Xue etal. ，2005年）和12种语言的通用语言（UD）2.2。对于PTB，我们使用3.3版的Stanford依赖转换软件来获得依赖树。对于CTB，我们使用Zhang andClark（2008）和Penn2Malt2的头规则进行转换。根据Wang和Tu（2020），我们使用金色POS标签进行2https://cl.lingfil.uu.se/~nivre/research/Penn2Malt.htmlCTB和UD。我们在PTB中不使用POS标签对于PTB/CTB，我们在训练过程中丢弃所有非投射树。对于 UD ，我们使用 MaltParserv1.9.23采用伪投影变换（Nivre 和Nilsson，2005）在训练时将非投影树转换为投影树，并在评估时转换回来。3.2评价方法我们报告了未标记依恋得分（UAS），标记依恋得分（LAS），通过平均三次运行的结果与不同的随机种子。我们根据开发集上的性能选择模型。根据Wang和Tu（2020），在评估期间忽略所有标点符号。3.3实现细节我们对PTB使用“大大小写”，对CTB使用“汉语大小写”，对UD使用“多语种大小写”，因此输入BERT嵌入的维数分别为1024、768、768对于CTB和UD，POS标签嵌入的维度被设置为100。BiLSTM的隐藏大小设置为1000。双仿射函数的隐藏大小设置为600，用于评分跨度和弧（用于我们的 reimplement- mentedBiaffine Parser），300用于评分标签。我们在嵌入层、LSTM层和MLP层之后添加dropout层。辍学率设定为0.33。我们使用 Adam（Kingma and Ba，2015）作为优化器，β1=0 。 9 ， β2= 0 。 9 来训练我们的模型 10 个epoch。BERT的最大学习速率lr= 5e5，其他组件的最大学习速率lr= 25e5。我们在前两个时期线性地将学习率预热到最大值，并在其余时期逐渐将其衰减到零渐变剪裁的值设置为5。为了更好地利用GPU，我们将相似长度的句子长度的总和是4000。3.4基线• Biaffine：Dozat和Manning（2017）首先使用深度Biaffine函数对依赖弧/标签进行评分，并首先使用局部头部选择训练损失函数。• TreeCRF2O：Zhang et al. （2020 b）使用深度三仿射函数对兄弟因子进行评分，并使用二阶TreeCRF损失进行训练。• MFVI2O：Wang和Tu（2020）使用分解的三仿射函数对二阶3http://www.maltparser.org/download。HTML+v：mala2277获取更多论文PTBUAS LASCTBUAS LASMFVI2O95.98 94.3490.81 89.57TreeCRF2O94.49- -HierPtr96.18 94.5990.76 89.67+XLNet大号+BERT基地HPSGb97.20 95.72--HPSG+LALb97.42 96.26 94.56 89.28其他系统）。表2显示了UD的结果。我们可以看到，我们重新实现的Biaffine+MM已经超过了利用高阶信息的MFVI2O我们的方法比Biaffine+MM平均高出0.14 LAS，验证了我们所提出的方法在多语言环境RNGTr+BERT基+BERT基96.66 95.01 92.9891.18+BERT大型+BERT底座场景MFVI2O96.91 95.34 92.55 91.69HierPtr97.01 95.48 92.65 91.47双仿射+MM<$97.22 95.71 93.18 92.10我们的97.24 95.73 93.33 92.30表1：PTB和CTB上不同模型的结果b表示他们在培训中使用了额外的注释这意味着我们的重新实施。因素（即，祖父母和兄弟姐妹），并展开平均场变分推理过程进行端到端训练。• HPSG：Zhou和Zhao（2019）提出了一种基于跨度的方法，通过简化中心语驱动的短语结构语法（HPSG）（Pollard和Sag，1994）来执行联合依赖和选区分析。• HPSG+LAL ： Mrini 等人（ 2020 ）在HPSG上添加标签注意层（LAL）。• RNGTr ： Mohammadshahi 和 Henderson（2021）提出了一个基于Transformer的迭代精化网络。• HierPtr ： Fernán-González 和 Gómez-Rodríguez（2021）使用指针网络改进了基于转换的方法3.5主要结果表 1 显示了 PTB 和 CTB 的结果我们补充了Biaffine Parser（即，Biaffine+MM，我们使用最大边缘损失而不是局部头部选择损失）作为使用与我们的方法相同的设置的附加基线。Biaffine+MM与我们的参数数量相同，因为LSTM- minus特性不会引入任何额外的参数，所以我们相信这是一个公平的比较。我们发现，我们的方法优于Biaffine+MM在这两个数据集上。我们的方法达到97.24 UAS，PTB上的95.73 LAS、 93.33 UAS和CTB上的92.30 LAS，在仅使用依赖性训练数据的方法中获得最先进的结果（HPSG+LAL使用额外的选区树作为训练数据，这与4分析4.1训练损失函数表3显示了训练损失函数的影响。我们发现，最大利润损失在两个数据集上都表现得更好：与局部跨度选择损失相比，PTB上的0.17 UAS改进和CTB上的0.05 UAS改进4.2误差分析如前所述，基于图的方法不足以对复杂的子树建模，因此它们在解析长句和处理长距离依赖关系时可能会有困难为了验证这一点，我们遵循（McDonald和Nivre，2011）将UAS绘制为句子长度的函数，并将F1分数绘制为CTB测试集上到根的距离和依赖长度的函数。从图3a中，我们可以看到Biaffine+MM在短句（长度=20）上具有更好的UAS分数，而对于长句（长度>=30），我们基于头部跨度的方法具有更高的性能，这验证了我们的猜想。图3b显示了到根的不同距离的弧的F1分数我们的模型更好地预测依赖树中几乎所有级别的弧，这揭示了我们的模型图3c示出了修改的和依赖的词之间的距离变化的弧的F1分数Biaffine+MM和我们的模型在预测距离为7的弧方面具有非常相似的性能，而我们的模型在预测距离>= 7的弧方面更好，这验证了我们的模型在捕获长程依赖性方面的能力4.3解析速度基于转换的方法的优点之一是它们在解析句子时具有线性复杂度相比之下，基于一阶图的方法需要O（n2）时间来使用最大生成树+v：mala2277获取更多论文我们的Biaffine+MM我们的Biaffine+MMF1评分（100%）F1评分（100%）BGCACSdeenesfr它nl没有roruAvgTreeCRF2O90.7791.2991.5480.4687.3290.8687.9691.9188.6291.0286.9093.3389.33MFVI2O90.5392.8392.1281.7389.7292.0788.5392.7890.1991.8885.8892.6790.07+BERT多语言MFVI2O91.3093.6092.0982.0090.7592.6289.3293.6691.2191.7486.4092.6190.61Biaffine+MM†90.3094.4992.6585.9891.1393.7891.7794.7291.0494.2187.2494.5391.82我们91.1094.4692.5785.8791.3293.8491.6994.7891.6594.2887.4894.4591.96表2：UD 2.2中12种语言的标签依恋评分（LAS）我们使用ISO 639-1代码来表示语言。†表示我们的实施。969495959394929093921-9 10-1920-2930-39岁句子长度（一）9190根123456≥7到根的（b）第（1）款85801 2 3 4 5 6 7 ≥8依赖长度（c）第（1）款图3：CTB测试集的错误分析。PTB CTBUAS LAS UAS LAS最大利润损失97.24 95.73 93.33 92.30跨度选择损失97.07 95.50 93.28 92.20表3：训练损失函数对PTB和CTB的影响(MST)算法，并需要O（n3）的时间来产生一个投影树，通过使用Reynner算法.正如我们在2.3节中所讨论的，我们提出的解析算法也有O（n3）的时间复杂度。与基于转换的方法相比，这似乎很慢幸运的是，Zhang et al. （2020b）和Rush（2020）独立地提出使用Pytorch对出租车进行批量化。我们使用类似的方法来批量化我们提出的方法，以便O（n2）出O（n3）可以并行计算，这大大加快了解析。我们的解析速度与Zhang等人（2020 b）的快速实现算法类似我们的实现可以在www.example.com上公开获得。https://github.com/sustcsonglin/5相关工作具有更复杂的子树信息的依赖分析：有兴趣将更复杂的子树信息并入基于图和基于转换的方法中。在深度学习时代之前，基于一阶图的解析器丢失了依赖树中的大部分上下文信息。为了缓解这种情况，研究人员开发了高阶依赖解析器来捕获更多的上下文信息（McDonald和 Pereira ， 2006;Carreras ， 2007;Koo 和Collins，2010;Ma和Zhao，2012）。然而，假设更复杂的因素将恶化推理时间复杂度。为了降低推理的复杂性，研究者们使用了近似句法分析方法。Smith和Reynner（2008）使用置信传播（BP）框架进行近似推理，以换取效率的准确性他们表明，三阶解析可以在O（n3）的时间使用BP。Gorm-leyet al.（2015）展开BP过程，并使用梯度下降以端到端的方式进行训练。Wang和Tu（2020）通过使用神经评分函数对因素进行评分来扩展他们的工作。为了处理高阶非投射分析，研究者求助于用于解码的对偶分解算法（例如AD 3）（Martins etal. ，2011，2013）。他们观察到，近似解码算法往往获得精确解。丰-我们的Biaffine+MM无人机系统（100%）+v：mala2277获取更多论文seca和Martins（2020）将神经评分函数及其解码算法结合起来，用于非投射高阶解析。最近，Ji et al. （2019）使用图注意力网络将高阶信息隐式地合并到 Biaffine Parser 中。Mohammadshahi和Henderson（2021）提出了一种迭代精化网络，它将前面预测的软树作为输入，预测下一步的软树，因此它考虑了前面步骤的整个树的信息至于基于过渡的方法，de Lhoneux et al. （2019）探索子树合成方式的影响， Ma 等人。（ 2018 ） ; Liu et al.（2019）将兄弟姐妹和祖父母信息纳入基于转换的指针网络解析。最近，研究人员发现，依赖关系和选区分析的联合学习可以改善这两项任务（Zhou和Zhao ， 2019; Mrini et al. ， 2020;Fernán-González and Gómez-Rodríguez，2020）. 有趣的是，正如Kong et al. （2015）中，投影树中的头部跨度倾向于组成跨度，因此依赖性和选区解析的联合学习可以隐式地学习头部跨度信息。基于跨度的选区解析：基于跨度的解析最初是在连续选区解析中提出的（Stern et al. ，2017; Kitaev andKlein ， 2018; Zhang et al. ，2020c; Xin et al. ，2021年）。基于跨度的选区解析器将选区树的得分分解为其选区的得分。恢复最高得分树可以通过精确CYK算法或贪婪自顶向下近似推理算法（Stern et al. ，2017年）。Kitaev和Klein（2018）提出了一种自我关注的网络来提高解析准确性。 Zhang等人（2020 c）使用两阶段括号然后标记框架，并将最大边缘损失替换为TreeCRF损失（Finkeletal. ，2008）。Xin等人（2021）最近提出了一种递归半马尔可夫模型，将兄弟因子得分纳入树的得分中，以解释n元树结构的模型。Corro（2020）将基于跨度的句法分析方法应用于不连续选区句法分析，并获得了最先进的结果。6结论在这项工作中，我们提出了一种基于标题跨度的投射依存句法分析方法。我们提出的方法解决了不足子树建模的问题，同时享受全局训练和精确推理。实验表明，我们提出的方法在PTB，CTB和UD v2.2中的12种语言中具有很高的引用Emanuele Bugliarello和Naoaki Okazaki。2020. 用依赖感知的自我注意力。在计算语言学协会第58届年会的会议记录中，第1618-1627页，在线。计算语言学协会。泽维尔·卡雷拉斯2007. 使用高阶投射依赖分析器的实验。在2007年自然语言处理和计算自然语言学习经验方法联合会议（EMNLP-CoNLL）的会议中，第957-961页，布拉格，捷克共和国。计算语言学协会。Danqi Chen和Christopher Manning。2014. 一种快速准确的神经网络依赖分析器.在2014年自然语言处理经验方法会议（EMNLP）的会议中，第740计算语言学协会。凯奥·科罗2020. 基于跨度的不连续成分分析：一类精确的基于图表的算法，时间复杂度从O（n ≤6）到O（n ≤ 3）。在2020年自然语言处理经验方法会议（EMNLP）的会议中，第2753-2764页。计算语言学协会。Miryam de Lhoneux ， Miguel Ballesteros ， andJoakim Nivre. 2019. 基于LSTM的依赖分析中的递归子树合成。在计算语言学协会北美分会2019年会议论文集，第1566-1576页，明尼阿波利斯，明尼苏达州。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Timothy Dozat和Christopher D.曼宁2017. 深度双仿射注意神经依赖解析。在第五届国际会议上学习表示，ICLR 2017，土伦，法国，2017年4月24日至26日，会议跟踪程序。开放- Review.net.+v：mala2277获取更多论文Jason M.我是特纳一九九六年。三种新的依赖分析概率模型：探索。在COL-ING 1996年第1卷：第16届国际计算语言学。Agnieszka Falenska和Jonas Kuhn 2019. 非（Non-）在基于BiLSTM的依赖性解析器中结构特征的效用。在计算语言学协会第57届年会的会议记录中，第117-128页，意大利佛罗伦萨。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2019. 使用指针网络的从左到右依赖分析。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第710-716页，明尼阿波利斯，明尼苏达州。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2020.多任务指针网络多代表性解析CoRR，abs/2009.09730。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2021. 使用自下而上的层次指针网络进行依赖分析。CoRR，abs/2105.09611。Jenny Rose Finkel，Alex Kleeman和Christopher D.曼宁2008. 高效的、基于特征的、条件随机场解析。在Proceedings of ACL- 08：HLT，第959计算语言学协会。Erick Fonseca和André F. T.马丁斯2020. 重新访问高阶依赖解析器。在计算语言学协会第58届年会的会议上，第8795- 8800页，在线。计算语言学协会。Leilei Gan ， Yuxian Meng ， Kun Kuang ， XiaofeiSun，Chun Fan，Fei Wu，and Jiwei Li. 2021. 依赖分析作为基于mrc的跨度-跨度预测。CoRR，abs/2105.07654。马修河葛姆雷，马克·德雷兹，杰森·德雷纳。2015.基于信念传播的近似感知依赖分析。Transactions of the Association for ComputationalLinguistics，3：489Sepp Hochreiter和Jürgen Schmidhuber。 1997.长短期记忆。Neural computation，9（8）：1735-1780.陶姬，吴元斌，曼兰。2019. 基于图神经网络的依赖分析. 计算语言学协会第57届年会论文集，第2475-2485页，意大利佛罗伦萨。计算语言学协会。詹明杰和魏璐。2019. 用于命名实体识别的依赖性引导的LSTM-CRF。在2019年自然语言处理经验方法会议和第九届上，第3862-3872页，中国香港。计算语言学协会。金立峰，宋林峰，张跃，徐坤，马伟云，俞东.2020. 关系抽取利用完全依赖森林。在第三十四届AAAI人工智能会议，AAAI 2020，第三十二届人工智能创新应用会议，IAAI 2020，第十届AAAI人工智能教育进展研讨会，EAAI 2020，美国纽约州纽约市，2020年2月7日至12日，第80348041. Press.Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中，会议跟踪程序。尼基塔·基塔耶夫和丹·克莱因。2018. 用自我关注的编码器进行选区分析。在Proceedings of the56thAnnualMeetingoftheAssociationforComputational Linguistics （ Volume 1 ： LongPapers ）， pages 2676-2686 ， Melbourne ，Australia.计算语言学协会。放大图片作者： Lingpeng Kong ， Alexander M.Rush，and Noah A.史密斯2015. 将依赖关系转换为短语结构。在2015年计算语言学协会北美分会会议的会议记录中：人类语言技术，第788-798页，丹佛，科罗拉多州。计算语言学协会。Terry Koo和Michael Collins 2010. 高效的三阶依赖分析器.在Proceedings of the 48 th Annual Meetingof the Association for Computational Linguistics，第1-11页，乌普萨拉，瑞典。计算语言学协会。Linlin Liu，Xiang Lin，Shafiq Joty，Simeng Han，and Lidong Bing. 2019. 分层指针网络解析。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中，第1007- 1017页计算语言学协会。Xuezhe Ma ， Zecong Hu ， Jingzhou Liu ， NanyunPeng，Graham Neubig，and Eduard Hovy. 2018.堆栈指针网络用于依赖分析.在计算语言学协会第56届年会的会议上（第1卷：长文），第1403-1414页，澳大利亚墨尔本。计算语言学协会。马学哲和赵海。2012. 四阶依赖分析。在COLING2012会议记录中+v：mala2277获取更多论文海报，第785-796页，印度孟买。COL-ING 2012组委会。Mitchell P. Marcus，Beatrice Santorini和Mary AnnMarcinkiewicz。1993. 建立一个大型的英语注释语料库：宾州树库。 Computa- tionalLinguistics，19（2）：313André Martins，Miguel Almeida，and Noah A.史密斯2013. 打开涡轮：快速三阶非投射涡轮解析器。在Proceedings of the 51st Annual Meeting ofthe Association for Computa- tional Linguistics（Volume 2：Short Papers），pages 617-622，Sofia，Bulgaria.计算语言学协会。安德烈·马丁斯，诺亚·史密斯，马里奥·菲格雷

下载后可阅读完整内容，剩余1页未读，立即下载