没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文基于指针网络的自杨松林,涂克伟上海工业大学信息科学与技术学院上海智能视觉与成像{yangsl,tukw}@shanghaitech.edu.cn摘要选区分析和嵌套命名实体识别(NER)是类似的任务,因为它们都旨在预测嵌套和非交叉跨度的集合。在这项工作中,我们铸造嵌套NER选区分析,并提出了一种新的指向机制,自底向上的分析,以解决这两个任务。关键的想法是基于这样的观察,如果我们以后序遍历选区树,即,在其父节点的子节点之后访问父节点,则两个连续访问的跨度将共享一个边界元。我们的模型跟踪共享边界,并通过利用指针网络在每一步预测下一个边界。因此,它只需要线性步骤来解析,是有效率的。它还维护用于结构一致性的解析配置,即,总是输出有效的树。在实验中,我们的模型在所有基于BERT的模型中,在PTB上达到了最先进的性能(96.01 F1得分),在选区解析中在CTB 7上具有竞争力的性能;并且在嵌套NER的三个基准数据集上也取得了很好的性能:ACE 2004,ACE 2005和GENIA1。1介绍选区分析是自然语言处理中的一项重要任务,在下游任务中有许多应用,例如语义角色标注(Fei et al. ,2021),意见挖掘(Xia et al.2021年)等。命名实体识别(NER)是信息抽取中的一项基本任务,嵌套命名实体识别由于其 广 泛 的 应 用 而 受 到 越 来 越 多 的 关 注(Byrne,2007)。选区分析和嵌套NER是类似的任务,因为它们都旨在预测嵌套和非交叉跨度的集合(即,如果两个跨距重叠,则其中一个跨距必须是另一个跨距的子跨距图1通讯作者1我们的代码在https://github上公开。com/sustcsonglin/pointer-net-for-nested(b)第(1)款印尼改革派总统瓦希德每每每将死亡归咎于军队和警察。ORG跨度表示:{(0,1,PER),(0,4,PER),(0,6,PER),(8,12,ORG)}指向表示:{(0->1,PER),(1->4,PER),(4->0,PER),(4->6,NP玛丽在1988年5月收购了这三家企业。跨度表示:{(0,1,NP),(2,5,NP),(6,8,NP),(5,8,PP),(1,8,VP),(0,9,S)}指向表示:{(0->1,NP),(1->2,NP),(2->5,NP),(5->6,NP),(6->8,NP),(8->5,PP),(8->1,VP),(8->9,VP),(9->0,S)}(一)PPNPNPSVP图1:(a)一个非二叉选区树的例子。(b)一个带有嵌套命名实体的例句。我们展示了跨度和指向表示。显示了两个任务的跨度表示示例。这两个任务之间的区别在于,在成分分析中,跨度的集合形成连接树,而在嵌套NER中,它们形成多个树片段。但是,我们可以添加一个跨越整个句子的节点来连接嵌套NER中的所有树片段,以形成一棵树。由于相似性,有一些以前的研究采用选区解析文献的方法来解决嵌套NER(Finkel和Manning,2009; Wang et al. ,2018;Fu et al. ,2021年)。在这项工作中,我们专注于选区解析,但我们提出的方法处理嵌套NER以及。两种主要的选区模式-arXiv:2110.05419v2 [cs.CL] 2022年3+v:mala2277获取更多论文9NP1VP78NP2 3PP6NP4 5125是基于跨度和基于转换的方法。基于跨度的方法(Stern et al. ,2017; Kitaev andKlein,2018;Zhang et al. ,2020; Xin et al. ,2021等)将选区树的分数分解为组成跨度的分数,并使用基于图表的算法进行推断。基于强大的神经编码器,他们已经获得了最先进的结果。然而,他们遭受的高推理时间复杂度的精确算法或自顶向下近似算法的错误传播。相比之下,基于转换的方法(Dyer et al. ,2016; Cross和Huang,2016; Liu和Zhang,2017,尤其是)进行一系列本地行动(例如,shift和reduce)以线性步骤构建最终解析,因此它们具有较低的解析时间复杂度。然而,它们遭受误差传播和曝光偏差问题。最近,Nguyenetal.(2021年a)提出了 一 种 具 有 指 针 网 络 的 序 列 到 序 列(seq2seq)模型(Vinyals et al. ,2015 a)。他们将选区解析转换为自上而下的分裂问题。首先,他们使用神经编码器来获得跨度表示,类似于基于跨度的方法。然后,它们按照图2(a)2所示的顺序递归地将输入的父跨度表示馈送到神经解码器中-这相当于预排序的序列-以输出一系列分裂点(即,边界),使得每个父跨度被分成两个子跨度。值得注意的是,Nguyen等人(2020)提出了一种类似的自上而下的指向机制,但他们设计了一种基于图表的解析算法,而不是采用seq2seq建模,并且已经被证明是不符合Nguyen等人的要求的。(2021年a)。 多亏了seq2seq建模,Nguyen etal. (2021a)的模型与基于跨度的方法相比,具有较低的解析复杂度,实现了有竞争力的解析性能。然而,他们的模型有两个主要的局限性。首先,在生成每个成分时,由于其子跨度尚未实现,因此无法利用其子树特征(Liu和Zhang,2017)。由于缺少子树信息,该模型很难预测长跨度的分裂点,从而加剧了错误传播问题,降低了分析性能。第二,由于每个父跨度只能分成两个,它们的解析算法只能输出二叉树,因此需要二进制化。2与图中略有不同的是,由于显而易见的原因,它们不将长度为1的跨度馈送到解码器中。S1NP2 3VP417NP5PP12NP6 713148111516910玛丽在1988年5月收购了这三家企业。(a)S玛丽在1988年5月收购了这三家企业。(b)第(1)款图2:图1(a)所示的选区树上的前订单和后订单遍历示意图(a):前序遍历。(b):后序遍历。我们在跨度下面的圆圈中标记生成顺序,并通过箭头连接两个连续访问的成分。注意,在(a)中,假设二值化。在这项工作中,我们设计了一种新的指向机制,用于自底向上解析,使用(几乎)与Nguyen等人相同的seq2seq主干。我们的模型是能够克服上述两个限制的Nguyen等人。(2021年a)。主要思想是基于这样的观察:如果我们以后序遍历成分树(即,在其子节点之后访问父节点),两个连续访问的组成跨度将共享边界。图2(b)示出了示例:是也是左边界 和右边界 也是6的右边界。基于这一观察,我们建议使用光标来跟踪共享边界边界,步骤,利用指针网络来预测用于生成下一个组成跨度的下一个我们的模型在每一步生成一个跨度,因此只需要线性步骤来解析句子,这是有效的。此外,我们的模型可以利用神经解码器中编码的丰富的子树特征来生成父成分跨度,这对于预测长跨度特别有帮助。最后,我们的模型可以输出n叉树,使直接建模的原始非二进制解析树结构的树库和消除二进制化的需要+v:mala2277获取更多论文3723≥∅∅≤∅}{→我们进行的基准PTB和CTB选区解析实验。在PTB上,我们在所有基于BERT的模型中实现了最先进的性能(96.01 F1得分)在CTB,我们实现了具有竞争力的业绩。我们还将我们的方法应用于嵌套NER,并在三个基准数据集ACE2004 , ACE2005 和 GENIA 上 进 行 了 实验。我们的方法实现了可比较的性能,许多定制的方法嵌套NER,击败以前的解析为基础的方法。我们的贡献可归纳如下:• 我们提出了一种新的指向机制,自底向上的n-ary树分析的线性步骤。• 我们的模型实现了国家的最先进的结果PTB选区分析。我们进一步展示了它在嵌套NER中的应用,它实现了有竞争力的结果。2方法2.1预处理已知的是,选区解析可以被视为自上而下的分裂问题,其中部分跨度被递归地分裂成子跨度对 ( Stern et al. , 2017; Shen et al. , 2018;Nguyen et al. ,2020,2021a)。然而,这种公式化方法不能输出二叉树.我们做了一个扩展,把选区解析转换为自顶向下的分割,即,为了输出n叉树,将父跨度递归地分割成2个子跨度。为此,我们添加一些跨度(我们不允许两个相邻的跨度来消除歧义),以便每个跨度要么是最底部的跨度,要么可以由其子跨度分割。例如,在图2中,是最底部的跨度,并且可以• p:最后创建的跨度的左边界,需要保持A。• S:生成的跨度集。我们可以从图3中看到,开始时,光标c位于0。 在每一步中,c从A指向另一个边界a以形成跨度(min(c,a),max(c,a))。有两种情况:• a:生成新的最底部跨度。• a c<:几个连续的跨度合并成一个更大的跨度。值得注意的是,我们可以在一个步骤中合并>=2个span,这允许我们的模型执行n叉树解析。在第一种情况下,新的最底部的跨度可以与前一个跨度组合形成一个更大的跨度,其左边界为p,因此我们将p推回A(除了p=null的情况)。在后一种情况下,前一个跨度是新跨度的子跨度,因此p不能被推回。在这两种情况下,由于后序生成限制,所有索引min(c,a)imax(c,a)都从A中删除;p更新为min(c,a),c更新为max(c,a)。当生成整句跨度时,该过程停止。表1说明了这一过程。Oracle. 图中所示的预言机指向表示1可以通过运行树的后序遍历来生成(例如,图2)对于每个遍历的span,将光标从与前一个span共享的绑定元指向其另一个绑定元。如果我们不允许有两个连续的跨度,那么在我们的指向系统下,预言机是唯一的(我们在附录A.1中用反证法给出了证明)。被分段,并且 第六章 我们始终包括整个句子跨度,以便投射其他任务,例如,nested NER(嵌套NER),用于选区解析。我们还在选区解析中将一元链折叠为原子S->VP→S+VP。2.2解析配置seq2seq选区解析器的问题是如何保持结构一致性,即,输出有效的树。为了解决这个问题,我们的指向系统维护了一个解析配置,它是一个四元组(c,A,p,S),其中:• c:光标的索引。• A:所有候选边界的索引集合。2.3模型给一个句子w=w1 ,..., xn,我们把(beginningofsentence)加为w0,(endofsentence)加为wn+1。 神谕是QIp i,y ii=1,... ,m,其中yi是跨度标签,我们使用 li= min( qi, pi)和 ri= max( qi,pi)来定义第i个跨度的左边界和右边界,分别编码器。我们将句子输入BERT(De-vlinetal. ,2019),并且对于每个单词w i,我们使用最后一层的最后一个子令牌嵌入作为其密集表示x i。然后我们给x0,. . .,xn+1转换成三层双向+v:mala2277获取更多论文我i it初始配置(c,A,p,s)=(0,{1,2,. . . ,n},null,null)Goal(0,n)∈S指引动作输入输出前提左-点-a右侧-点 -a(c,A,p,S)(c,A,p,S)A\{a,. . . ,c − 1},a,S <${(a,c)})n(a,A n {p}\{c,. . . ,a − 1},c,S <${(c,a)0≤a c<}) ca≤n,<表1:解析配置的描述。输出光标指向的BiLSTM编码器UniLSTM解码器跨度嵌入标签嵌入图3:生成过程和神经架构的演示。黑色箭头指向每个步骤中未选择的候选边界。LSTM ( Hochreiter 和 Schmidhuber , 1997 )(BiL-STM)以获得c0,. . . ,cn+1,其中ci=[fi;gi], fi和gi 分 别是位置i处的最后一个BiLSTM层的前向和后向隐藏状态。边界和跨度表示。我们使用栅栏表示(Cross和Huang,2016; Stern et al. ,2017)以编码位于xi和xi+1之间的第i个边界:bi=[fi;gi+1]然后我们将span(i,j)表示为:hi,j=MLPspan(bj−bi)译码器我们使用单向单层LSTM网络作为解码器:dt=LSTM(dt−1,hlt−1,rt−1;Eyt−1),t≥2(1)其中dt是LSTM解码器在时间步t的隐藏状态,E是标签嵌入矩阵,i是级联操作。对于第一步,我们将随机初始化的可训练向量d0和特殊的嵌入馈送到解码器中以获得d1。得分。我们使用深度双仿射函数(Dozat和Manning,2017)来估计在时间步长t选择第i个边界的指向分数st:dJt=MLP游标(dt)bJi=MLP点(bi)st=bJ;1TW点tdJ其中MLP游标和MLP点是分别将解码器状态和边界表示投影到k维空间中的多层感知器(MLP); W点∈R(k+1)×(k)。(0,9,S)(8,9,10)(1,8,VP)(5、8、PP)(6,8,NP)(5,01 2 3 4 5 6 7 89伯特(8Ø(1VP(5PP(6NP(5Ø(2NP(1Ø(0NP<开<开.1988可在企业三那些收购玛丽+v:mala2277获取更多论文| || |−−指向nj=0 exp{st}Lj=1 exp{et}yt联系我们标签得分。 对于新预测的跨度,我们将跨度表示和解码器状态的级联馈送到另一个MLP中以计算标签得分et:(Kim et al. ,2003)。我们使用与Shibuya和Hovy(2020)3相同的数据预处理。3.2评价我们报告标记的召回率/精确率/F1分数基于H=MLP标签([dt;bret=HET-blt])在EVALB4上进行选区分析;嵌套NER的跨度级别标记的召回率/精度/F1分数。所有报告的结果均为三次运行的平均值请注意,我们重复使用等式中的标签嵌入矩阵。1,便于参数共享。培训目标。训练损失被分解为指向损失和标记损失:L=L指向+L标记不同的随机种子。3.3实现细节我们使用“伯特-大-套管”(Devlin et al. ,2019);“基于bert-chinese- based”用于CTB;和“biobert-large-cased-v1.1” ( Lee et al. , 2020年)。我们不使用其他Mt外部资源(例如,预测/黄金POS标签,L=−logexp{spt}外部静态字嵌入)。隐藏的大小t=1JM经验L标记=−logt=1J译码器 我们在LSTM/MLP层中添加dropouts。辍学率设定为0.33。隐藏的和外-所有MLP的放置大小设置为500。的价值其中L是标签的数量。 请注意,在指向损失中,我们对所有边界而不是仅可访问边界进行归一化解析。我们的模型遵循上一小节中的描述进行解析。对于每个时间步t,它选择最高得分的可访问边界来生成跨度,然后选择所生成跨度的最高得分标签,并更新解析配置(表1)。3实验装置3.1数据设置选区分析。我们在Penn Treebank(PTB)3.0(Marcus et al. ,1993)和中国树库(CTB)(Xue et al. ,2005)。许多以前的研究人员报告说,CTB5.1的结果是不稳定的和高方差的(张等人。,2020; Yang和Deng,2020)。因此,我们遵循Zhang et al.(2020)的建议,在CTB7而不是CTB5.1上进行实验,以获得更稳健的评估,因为CTB7具有更多的测试句子,并且具有更高的注释质量。我们使用PTB和CTB的标准数据分割。嵌套NER。我们在三个基准数据集上进行实验:ACE2004(Doddington et al. ,2004)、ACE2005(Walker et al. ,2006年)和GENIA梯 度 剪 切 设 置 为 5 。 对 于 PTB 、 CTB 、GENIA , 培 训 阶 段 的 数 量 我 们 使 用 Adam(Kingma and Ba,2015)作为优化器,β1=0。9,β2= 0。第九章最大学习率被设置为5e 5BERT和2. 5e3适用于所有其他组件。我们使用前10%的epoch将每个组件的学习率线性预热到其最大值,并在剩余的epoch中逐渐衰减到零。我们批量处理相似长度的句子,以充分利用GPU,单个批次中的令牌数量设置为3000。4主要结果在PTB和CTB上,我们发现将Eyt−1并入等式中。1导致性能略差(PTB为-0.02 F1评分,CTB为-0.05 F1评分),因此我们报告了无此输入功能的结果。表2显示了PTB测试装置的结果。我们的方法 达 到 了 96.01 F1 分 数 , 比 Nguyen et al.(2021a)的方法高出0.31 F1,并且具有与他们相同的最坏情况O(n2)解析时间复杂度5。它也超越了所有的跨度-3https://github.com/yahshibu/nested-ner-tacl 2020-变压器4https://nlp.cs.nyu.edu/evalb在他们的论文中,他们声称时间复杂度为O(n),将单个指向操作的复杂度视为O(1)。然而,此计算假设完全GPU并行化。如果没有并行化,他们的方法有一个最坏情况下的O(n2)的时间复杂度为我们的。对于编码器和LSTM都设置为1000。不+v:mala2277获取更多论文97九十六。596九十五。595表2:PTB结果。所有模型都使用BERT作为编码器。S:基于跨度的方法。T:基于转换的方法。问:基于seq2seq的方法。P:标记精确度。R:标记召回。F:标记为F1。模型PRFZhang et al.(2020)[S]91.7391.3891.55我们的[Q]91.6691.3191.49表3:CTB7的结果。所有模型都使用BERT作为编码器。1-10 11-20 21-30 31-40>40图4:PTB测试集上F1评分与组成跨度长度的关系。96949290的方法,获得国家的最先进的性能之间的所有BERT为基础的模型,而恩,881 2 34-5>5享受较低的解析复杂度。表3显示了CTB7的结果我们的方法获得了91.49的F1分数,这与Zhang等人的方法相当。(2020),但具有较低的复杂度(最坏情况O(n2)与时间复杂度为O(n3))。表4显示了嵌套NER的三个基准数据集的结果。我们发现,纳入Eyt−1是重要的,导致+0.67 F1得分,ACE 2004和ACE 2005分别为+0.52 F1疼痛-很好虽然我们的方法不如两种最新的最先进的方 法 : Shen 等 人 ( 2021 ) 和 Tan 等 人(2021),但我们发现它与其他最近的工作(Wang等人)具有竞争力。,2021; Yan etal. ,2021; Fu et al. ,2021年)。最具可比性的是Fu et al.(2021)的方法,它和我们一样属于基于解析的方法。他们采用基于跨度的选区解析器来处理嵌套NER,使用CYK算法进行训练和推理。在ACE2004和ACE2005上,我们的模型比他们的模型分别高出0.34和0.13F1,在GENIA上的性能与他们的模型相当,同时具有较低的推理复杂度。图5:PTB测试集上具有不同儿童数量的组成节点的F1评分。5分析错误分析。如前所述,自底向上解析在预测父跨度时可以利用子树特征,因此预计在较长的跨度上具有较高的F1分数。为了验证这一点,我们绘制了图4,以显示PTB测试集上不同组成跨度长度的F1分数我们可以看到,我们的方法始终优于(Nguyenet al. ,2021a),但对于跨度>30的跨度,我们的优势最为突出,这验证了我们的猜想。在图5中,我们可以看到,当一个成分有多个孩子(>3),我们的方法比(Nguyenet al. ,2021 a),这验证了n叉树解析的益处。这种好处的一个直观解释是,我们的方法预测n元分支结构在一个单一的步骤,而他们需要多个步骤,这是更容易出错。我们Nguyen等人 (2021年a)我们Nguyen等人 (2021年a)F1分数模型PRFKitaev等人 (2019年)[S]95.4695.7395.59Zhou and Zhao(2019)[S]95.7095.9895.84Zhang et al.(2020)[S]95.8595.5395.69杨和邓(2020)[T]96.0495.5595.79Nguyen et al.(2020)[S]--95.48Wei等人 (2020年)[S]95.596.195.8Tian et al.(2020)[S]96.0995.6295.86Xin et al.(2021)[S]96.2995.5595.92Nguyen等(2021a)[Q]--95.7Cui et al.(2021)[S]95.7096.1495.92F1分数+v:mala2277获取更多论文模型PACE2004RFPACE2005RFPGeniaRFShibuya and Hovy(2020)84.7183.9684.3382.5884.2983.4279.9276.5578.20Wang等人(2020年)86.0886.4886.2683.9585.3984.6679.4578.9479.19Wang等人(2021年)86.2785.0985.6885.2884.1584.7179.2078.1678.67Fu等 (2021年)86.786.586.684.586.485.478.278.278.2Xu等人 (2021年)86.985.886.385.785.285.480.378.979.6Yan等(2021年)87.2786.4186.8483.1686.3884.7478.5779.378.93Shen等人 (2021年)87.4487.3887.4186.0987.2786.6780.1980.8980.54Tan等人(2021年)88.4686.1087.2687.4886.6487.0582.3178.6680.44我们86.6087.2886.9484.6186.4385.5378.0878.2678.16W.O. Eyt−1在等式中185.6686.8886.2783.7586.3185.0178.4677.9778.22表4:ACE 2004、ACE 2005和GENIA的结果所有模型都使用BERT作为编码器。光束搜索的效果。我们还尝试了波束搜索,但观察到非常轻微的改善或甚至更差的性能(例如,当我们使用光束尺寸20时,PTB上的F1分数为+0.05,CTB上的F1分数为-0.03)。因此,为了简单起见,我们使用贪婪解码来报告所有结果。这表明贪婪解码可以产生接近最优的解决方案,表明我们的模型不太容易出现错误传播问题。训练损失的影响。正如在SEC中所讨论的那样。2.3中,我们发现在归一化时明确考虑结构一致性约束是有害的(PTB上的-0.12F1得分,CTB上的-0.10 F1得分我们推测,在训练过程中不强制执行约束可以帮助模型隐式地学习约束,这有助于模型在看不见的测试集上更好地泛化值得注意的是,Nguyen et al. (2021年a)也采用这一战略,即,在所有边界上进行规范化。速度 类似于Nguyen et al. (2021 a),训练过程(即,教师强迫)可以完全并行化,而不需要求助于结构化推理,结构化推理可能是计算密集型的或难以并行化。在PTB上,使用BERT作为编码器,使用单个Titan V GPU训练模型至于解析,我们的方法具有相同的解析复杂度Nguyen等人。 (2021 a),即,时间复杂度O(n)表5显示了解析PTB测试集的速度比较(我们报告了基于单个Titan V GPU的值,并且没有使用BERT作为Nguyen等人的编码器。(2021年a))。我们在附录A.2中报告了指向动作的平均数量。表5:速度比较。6相关工作选区分析。有许多方法来处理选区解析,例如基于转换的方法(Dyer et al. ,2016; Cross andHuang,2016; Liu and Zhang,2017; Yang andDeng,2020),基于跨度的方法(Stern etal. ,2017; Ki-taev and Klein,2018; Kitaev etal. ,2019; Zhanget al. ,2020; Wei等人,2020;Nguyen et al. ,2020; Xin et al. ,2021)、基于序列到序列(seq2seq)的方法(Vinyals etal. , 2015 b; Fernández-González 和 Gómez-Rodríguez , 2020 ) , 基 于 序 列 标 记 的方 法(Gómez-Rodríguez和Vi-lares,2018; Vilares etal. ,2019年;Kitaev和Klein,2020年)。我们的工作属于基于seq2seq的方法的范畴。 先前的seq2seq模型将选区树线性化为括号序列(Vinyalset al. ,2015 b)或移位-归约动作序列(Ma et al. ,2017; Fernán-Gonzálezand Gómez-Rodríguez,2020).然而,它们可能产生无效输出,并且它们的性能落后于基于跨度的方法。最近,seq 2seq模型线-系统速度(发送/秒)加速比彼得罗夫和克莱因(2007年)(伯克利)61.0xZhu等人 (2013年)(ZPar)9015.0xStern等人 (2017年)7612.7xShen等人 (2018年)11118.5xNguyen等人 (2020年)13021.7xZhou and Zhao(2019)15926.5xWei等人 (2020年)22036.7xGómez-Rodríguez和Vilares(2018)780130xKitaev and Klein(2018)(GPU)830138.3xZhang等人 (2020年)924154xNguyen等人 (2021年a)1127187.3x+v:mala2277获取更多论文将选区树按前序排列成跨度序列(Nguyen etal. , 2021a ) 或 按 顺 序 ( Wei et al. , 2021年)。我们的方法生成序列的跨度在后序,而不是,它具有利用丰富的子树功能和执行,ING直接的N元树解析的优势二进制化是选区分析中的事实先前的基于跨度的方法采用显式二值化(Zhang et al. ,2020 ) 或 隐 式 二 值 化 ( Stern et al. , 2017;Kitaev and Klein,2018).虽然隐式二进制化策略消除了训练中二进制化的需要,但它只能在解码期间输出二叉树 Xin等人 (2021)提出了一种基于n-ary-aware span的方法,通过在每个parent span上定义半马尔可夫过程,以便在解析中明确考虑相邻兄弟子span的转换分数。Fernánal-González和Gómez-Rodríguez(2019);Yang和Deng(2020)提出了新的转换系统来建模n元树。我们的方法输出n元树,而不需要二进制化,通过一种新的指向机制。使用指针网络进行解析。指针网络(Vinyalset al. ,2015 年a ) 介绍 了马 等解 析 文献 。(2018)并迅速在各种解析子任务中流行起来,因为它们可以灵活地预测各种树/图,并且可以实现非常有竞争力的性能。 Ma等人(2018)以自上而下的深度优先和由内而外的方式线性化依赖树,并使用指针网络来预测线性化的依赖树,然后Lin et al.(2019)将其扩展到话语分析。Liu等人 (2019)在依赖性和话语解析两者中将先前生成的父/兄弟的解码器状态与当前解码器状态之间的快捷方式添加 。 Fernán-González 和 Gómez-Rodríguez(2019)提出了一个从左到右的依赖性分析器,它可以自回归地预测每个单词的中心,后来,他们提出了从右到左和从外向内的变体( Fernán-González 和 Gómez-Rodríguez , 2021a)。他们还将从左到右的依赖解析器适应于语义依赖解析(预测非循环图而不是树)( Fernández-González 和 Gómez-Rodríguez ,2020),不连续选区解析(通过将不连续选区树视为增强的依赖树)(Fernández-González和Gómez-Rodríguez,2020),以及联合依赖和 选 区 解 析 ( Fernández-González 和 Gómez-Rodríguez,2020)González和Gómez-Rodríguez,2020年)。他们使用指针网络对句子进行重新排序,将不连续 的 选 区 解 析 减 少 为 连 续 的 选 区 解 析( Fernánal-Gonzálezand Gómez-Rodríguez ,2021 b)。Nguyen等人(2021 a,b)将(话语)选区/选区划分转换为条件分裂,并使用指针网络来选择分裂点。Zhou等人(2021)提出了一个用于AMR解析的动作指针网络嵌 套 NER 。 还 有 许 多 方 法 可 以 解 决 嵌 套NER,例如基于超图的方法(Lu和Roth,2015;Katiyar和Cardie,2018; Wang和Lu,2018),基于序列标记的方法(Shibuya和Hovy,2020;Wang et al. , 2021 ) 、 基 于 解 析 的 方 法(Finkel和Manning,2009; Wang et al. ,2018;Fu et al. , 2021 ) , 分 层 方 法 ( Fisher 和Vlachos , 2019; Wanget al. , 2020; Luo 和Zhao,2020),基于跨度的方法(Yu et al. ,2020; Li等人,2021)、基于对象检测的方法(Shen et al. ,2021; Tanet al. ,2021)等。我们的工作属于基于句法分析的方法的范畴.Finkel和Manning(2009)将命名实体插入选区树,并使用判别分析器(Finkel et al. ,2008)用于学习和预测。Wang等人(2018)调整基于移位-归约转换的解析器,以输出组成森林而不是嵌套NER的组成树。Fu et al.(2021)采用了一种基于跨度的神经TreeCRF解析器,将嵌套的命名实体视为部分观察到的选区树的观察部分,并开发了一种掩蔽的内部算法来边缘化所有未观察到的部分,以最大化观察到的命名实体的概率我们的方法比Fu等人(2021)具有更好的性能和更低的时间复杂度。最近,Lou et al.(2022)扩展了Fuet al.(2021)的工作,将嵌套的NER转换为词汇化的选区解析,以利用中心词信息。它们以更高的解析复杂度为代价实现了更高的性能,即,时间复杂度为O(n4)。7讨论和今后的工作在深度学习时代,树的全局优化在训练和解码中变得不那么重要。Teng和Zhang(2018)表明,使用局部跨度分类损失训练的基于跨度的模型与CYK解码结合使用时表现良好。Wei等人(2020); Nguyen等人(2020)表明,自顶向下的贪婪解码每-+v:mala2277获取更多论文形式在这项工作中,我们已经表明,贪婪解码工作良好。因此,这也将是一个富有成效的方向,设计更强大的神经解码器,可以利用更多的子树信息,并可以保持结构的一致性。此外,这是一个富有成效的方向,设计更强大的跨度表示。8结论在这项工作中,我们提出了一种新的指向机制和模型自下而上的选区解析,它允许在线性步骤的n元树解析。多个数据集上的实验表明,我们的方法在选区分析和嵌套NER的有效性。致谢我们感谢匿名评论者的建设性意见。本课题得到国家自然科学基金(61976139)的资助。引用凯特·伯恩。2007. 历史档案文本中的嵌套命名实体识 别 。 在 ProceedingsoftheFirstIEEEInternational Conference on Semantic Computing( ICSC 2007 ) , September 17-19 , 2007 ,Irvine , California , USA , pages 589-596 中 。IEEE计算机协会。詹姆斯·克罗斯和梁黄。2016. 使用结构标签系统和可证明最优动态预言机的基于跨度的成分分析。2016年自然语言处理经验方法会议论文集,第1-11页,德克萨斯州奥斯汀。计算语言学协会。崔乐阳,杨森,张跃。2021. 研究神经成分分析。CoRR,abs/2109.12814。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。乔治·多丁顿,亚历克西斯·米切尔,马克·普兹博茨基,兰斯·拉姆肖,斯蒂芬妮·斯特拉塞尔和拉尔夫·韦舍德尔。2004. 自动内容提取(ACE)程序在第四届语言资源与评估国际会议(LREC里斯本,葡萄牙。欧洲语言资源协会(ELRA).Timothy Dozat和Christopher D.曼宁2017. 深度双仿射注意神经依赖解析。在第五届国际会议上学习表示,ICLR 2017,土伦,法国,2017年4月24日至26日,会议跟踪程序。开放- Review.net.Chris Dyer、Adhiguna Kuncoro、Miguel Ballesteros和Noah A.史密斯2016. 递归神经网络语法。在计算语言学协会北美分会2016年会议论文集:人类语言技术,第199计算语言学协会。郝飞,吴胜琼,任雅枫,李飞,姬东红。2021. 最好把它们结合在一起!整合语义角色标注的句法成分和依赖表示。在计算语言学协会的发现中:ACL-IJCNLP 2021,第549-559页,在线。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2019. 使用非二进制、自下而上的策略实现更快的shift-reduce成分解析。 第内特尔,275:559丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2019. 使用指针网络的从左到右依赖分析。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第710-716页,明尼阿波利斯,明尼苏达州。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2020. 使用指针网络的不连续成分分析。在第三十四届AAAI人工智能会议,AAAI2020,第三十二届人工智能创新应用会议,IAAI2020,第十届AAAI人工智能教育进展研讨会,EAAI 2020,纽约,美国,2020年2月7日至12日,第7724-7731页。Press.丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2020. 丰富的顺序线性化,用于更快的序列到序列成分分析。在计算语言学协会第58届年会的会议记录中,第4092-4099页,在线。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2020.多任务指针网络多代表性解析CoRR,abs/2009.09730。+v:mala2277获取更多论文丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2020. 基于转换的指针网络语义依赖分析。在计算语言学协会第58届年会的会议记录中,第7035-7046页,在线。计算语言学协会。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2021年a. 使用自下而上的层次指针网络进行依赖分析。CoRR,abs/2105.09611。丹尼尔·费尔南德斯·冈萨雷斯和卡洛斯·戈麦斯·罗德里格斯。2021b的最后一页。用指针网络重新排序将不连续解析
下载后可阅读完整内容,剩余1页未读,立即下载
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)