没有合适的资源?快使用搜索试试~ 我知道了~
大卫袭击餐馆工人的哥本哈根之夜
+v:mala2277获取更多论文固体标记大卫在哥本哈根与国家队队友一起外出的一个晚上大卫在哥本哈根与国家队队友一起外出的一个晚上大卫在哥本哈根与国家队队友悬浮标记大卫在哥本哈根与国家队队友一起外出的一个晚上袭击了两名餐馆工作人员。训练过程推断过程[S哥本哈根][/S] [O大卫][/O] [S哥本哈根][/S] [O工人][S哥本哈根][/S] [O队友]包装式悬浮标记器大卫在哥本哈根与国家队队友一起[O David][/O][O Workers][/O][O队友][/O]用于实体和关系抽取的压缩悬浮标记叶德明1,2,林延凯6,李鹏6,7,孙茂松1,2,3,4,51个部门的Comp. Sci。&技术人员:清华大学人工智能研究院,北京,中国2北京国家信息科学技术研究中心3清华大学国际创新中心,上海,中国4江苏省语言能力协同创新中心,徐州5清华大学郭强研究所6模式识别中心、微信AI7清华大学人工智能产业研究院(AIR)yedeming001@163.com摘要最近的实体和关系提取工作集中在研究如何获得一个赌注, terspan表示。然而,现有的工作的一个主要局限性是,他们忽略了跨度(对)之间的相互关系。在这项工作中,我们提出了一种新的跨度表示方法,命名为包装悬浮标记(PL标记),考虑跨度(对)之间的相互关系,通过战略包装的标记在编码器中。特别地,我们提出了一种面向邻域的打包策略,该策略整体地考虑了邻域跨度,以更好地建模实体边界信息。此外,对于更复杂的跨度对分类任务,我们设计了一种面向主题的打包策略,将每个主题及其所有对象打包,以模拟相同主题跨度对之间的相互关系。实验结果表明,通过增强的标记特征,我们的模型在六个NER基准上提高了基线,并在ACE 04和ACE 05上获得了4.1%-4.3%的严格关系F1改进,速度比以前的最先进模型 更 快 。 我 们 的 代 码 和 模 型 可 在https://github.com/thunlp/PL-Marker上公开获取。1介绍最近,预训练的语言模型(PLM)(De-vlinetal. ,2019; Liu et al. ,2019)在命名实体识别( NER , Luo 等 人 ( 2020 ) ; Fu 等 人(2021))和关系提取(RE,Wadden等人(2019))方面取得了显着改进。 (2019);Zhou and Chen(2021)),信息提取的两个关键子任务。最近的作品(Wang et al. ,2021c;Zhong and Chen,2021)将这两个任务视为跨度分类或跨度对分类,因此专注于从PLM中提取更好的跨度表示。通讯作者:M.孙(sms@tsinghua.edu.cn)[S哥本哈根][/S大卫][/O][S哥本哈根][/S] [O工人][/O][S哥本哈根][/S] [O队友]图1:RE任务中的一个示例。Solid Marker分别处理具有不同标记插入的三对跨度。悬浮标记器在训练期间独立地处理跨度对,并且在推理期间分批我们提出的包装悬浮标记包三个对象为同一主题到一个实例处理。三种跨度表示提取方法被广泛使用:(1)T-Concat ( Lee et al. , 2017; Jiang et al. ,2020)连接跨度的边界(开始和结束)标记的表示以获得跨度表示。它在标记级别收集信息,但忽略了跨度的边界标记之间的连接,当它们通过网络时;(2)固体标记(Soaresetal. ,2019; Xiao et al. ,2020)在跨度前后明确插入两个实心标记,以突出显示输入文本中的跨度。它插入两对标记来定位跨度对的主语和宾语。然而,该方法不能同时处理多个跨度对,因为其在从序列中的两对以上标记中指定跨度对的实心标记方面的(三)arXiv:2109.06067v5 [cs.CL] 2022年4月+v:mala2277获取更多论文悬浮标记(Zhong和Chen,2021)首先设置一对悬浮标记与跨度具体而言,一对内的标记被设置为在注意力掩码矩阵中彼此可见,但对文本标记和其他标记对不可见。现有的工作(Zhong和Chen,2021)简单地用悬浮标记替换实心标记,以实现高效的批量计算,但牺牲了模型性能。如 图 1 所 示 的 RE 示 例 , 为 了 正 确 识 别David、工人和队友位于哥本哈根,重要的是要区分出David攻击了餐馆工人,并且他与队友有社会关系。然而,先前使用标记的工作(Zhong和Chen,2021)独立地处理训练短语中具有不同标记插入的跨度对,因此忽略了跨度 ( 对 ) 之 间 的 相 互 关 系 ( Sorokin 和Gurevych,2017; Luan et al. ,2019; Wadden etal. ,2019)。在这项工作中,我们引入了包装悬浮标记(PL标记),通过在编码阶段战略包装悬浮标记来模拟跨度(对)将悬浮标记打包在一起用于跨度分类任务的关键挑战是,插入的悬浮标记的数量的增加将二次地加剧PLM的复杂性(Ye等人,2009)。,2021年)。因此,我们必须将跨度分成几组,以控制每个输入序列的长度,在这种情况下,有必要整体地考虑相邻跨度,这可以帮助模型比较相邻跨度,例如具有相同开始令牌的跨度,以获取更精确的实体边界。因此,我们提出了一种面向邻域的打包策略,该策略将具有相同起始标记的跨度尽可能多地打包到训练实例中,以更好地区分实体边界。对于较复杂的跨度对分类任务,理想的打包方案是将所有跨度对与多对悬浮标记打包在一起,对所有跨度对进行整体建模。然而,由于每对悬浮标记已经被定向注意捆绑,如果我们继续应用定向注意捆绑两对标记,悬浮标记将无法识别其相同跨度的伙伴标记因此,我们采用了固体标记和悬浮标记的融合标记,并使用面向主题的包装策略来整体地建模主题及其所有相关具体来说,我们用实心标记强调主题跨度,并用悬浮标记包装所有候选对象跨度此外,我们应用面向对象的包装策略的一个完整的双向建模(吴等。,2020)。我 们 研 究 了 PL 标 记 对 两 个 典 型 的 跨 度(对)分类任务,NER和端到端RE的效果实验结果表明,采用面向邻域填充策略的PL-Marker模型在NER上的性能明显优于采用随机填充策略的PL-Marker模型在六个NER基准测试上,我们的模型也改进了T-Concat模型,证明了跨度标记获得的特征的有效性。此外,与现有的RE模型相比,该模型在ACE 04和ACE05上获得了4.1%-4.3%的严格关系F1改进,速度更快,在SciERC上也获得了更好的性能,这表明考虑面向主题的跨度对之间的相互关系的重要性。2相关工作近年来,跨度表示引起了学术界的极大关注,它促进了各种NLP应用,例如命名实体识别( Ouchi et al. , 2020 ) , 关 系 和 事 件提 取(Luan et al. , 2019), 共指 消解(Lee etal. , 2017 ) , 语 义 角 色 标 注 ( Heet al. ,2018)和问答(Lee et al. ,2016)。增强跨度表示的现有方法可以大致分为三类:跨度预训练跨度预训练方法通过跨度级预训练任务增强PLM的跨度表示Sun等人 (2019);Lewis et al.(2020); Raffel et al.(2020)屏蔽并学习恢复随机连续跨度而不是随机令牌。Joshi等人(2020)进一步学习将跨度信息存储在其边界令牌中用于下游任务。Knowledge Infusion这一系列方法的重点是将外 部 知 识 注 入 模 型 。 Zhangetal.( 2019 ) ;Peters et al. ( 2019 ) ;Wang et al.(2021 a)学习使用来自知识图或同义词网络的 外 部 实 体 嵌 入 来 获 取 知 识 。 Soares 等 人(2019); Xiong et al. (2020); Wang et al.(2021年b);+v:mala2277获取更多论文--{−}我BLL{ |-[](e)(s)Yamada等 (2020)进行特定实体相关的预培训,以在维基百科锚文本的帮助下将知识融入其模型。结构扩展结构扩展方法将推理模块添加到现有模型中,例如biaffine attention(Wang et al. ,2021d)、图传播(Wadden et al. ,2019)和内存流(Shen et al. ,2021年)。在现代预训练编码器(例如BERT)的支持下,具有固体标记的简单模型可以在RE中实现最先进的结果 ( Zhou 和 Chen , 2021;Zhong 和 Chen ,2021)。然而,很难从序列中两对以上的标记中确定跨度对的实心标记因此,先前的工作(Zhong和Chen,2021)必须独立地处理跨度对,这是耗时的并且忽略了跨度对之间的相互关系。在这项工作中,我们引入了面向邻域和面向主题的包装策略,以利用悬浮标记来提供跨度(对)上的整体建模。据我们所知,我们是第一个在NER上应用悬浮标记的。在RE上,最接近我们的作品是PURE(近似)。(Zhong和Chen,2021),其在训练阶段用两对悬浮标记独立地编码每个跨度对,并分批处理多对标记以加速推理过程。与他们的工作相一致,我们的模型采用了一种融合的面向主题的包装方案,从而在训练和推理过程中很好地处理了多个跨度对我们在4.4.2节中详细介绍了我们的工作和PURE之间的差异,并解释了为什么我们的模型表现更好。3方法在本节中,我们首先介绍悬浮标记的体系结构。然后,我们介绍了如何包装悬浮标记,以获得跨度表示和跨度对表示。3.1背景:悬浮标记悬浮标记被用作固体标记的近似,其允许模型同时对多对实体进行分类以加速原始文本标记不变。为了并行地指定多对悬浮标记,应用定向注意掩模矩阵。具体地,每个悬浮标记对其在注意力掩码矩阵中的配对内的伙伴标记可见,但对文本标记和其他悬浮标记不可见。同时,悬浮的标记能够关注文本标记以聚合它们相关联的跨度的信息。3.2面向邻域的跨距受益于悬浮标记器的并行性,我们可以灵活地将一系列相关的跨度打包到一个训练实例中。在实践中,我们附加多个相关的悬浮标记到一个输入序列进行全面的建模上的每个跨度。然而,即使实体长度受到限制,一些跨度分类任务仍然包含大量的候选跨度。因此,我们必须将标记物分成若干批,以使模型具有更高的速度和实际可行性。为了更好地模拟具有相同开始标记的跨度之间的连接,我们采用了面向邻域的打包方案。如图2所示,我们首先通过将开始标记的位置作为第一个关键字,将结束标记的位置作为第二个关键字来对悬浮标记对进行之后,我们将它们分成大小为K的组,从而将相邻的跨度聚集到同一组中。我们将每组标记打包,并在多个运行中分散处理它们。形 式 上 , 给 定 N 个 文 本 标 记 的 序 列 ,X=x1,. . .,xN和最大跨度长度L,我们将候选跨度集定义为S(X)=(1,1),..,(1,L),., (N,N L),.., (N,N))。我们首先将S(X)按顺序分成大小为K的多个组。例如,我们将K个跨度,(1,1),(1,2),.,(K,KK−1L),一组S1。我们将一对悬浮的标记到S1中的每个跨度。 我们提供将文本标记和插入的悬浮标记的组合序列发送到PLM(例如,BERT)以获得开始标记为H(s)={h(s)}的上下文化表示和结束令牌标记H(e)={h}中。在这里,h和推理过程(Zhong和Chen,2021)。 阿i阿与跨度相关联的一对悬浮标记包括开始标记和结束标记。这两个标记的位置相同h(e)与跨度si=(a,b)相关联,我们获得跨度表示:n(si)=[h(s);h(e)](1)嵌入cor的开始和结束标记-a b响应span,同时保持位置id,其中[A;B]表示串联操作+v:mala2277获取更多论文PER-SOCPhys[S]大卫·格林[/S] 他的妻子是达拉斯的医生[O 1][/O 1][/O2][/O3][O3][/O3]1 3∪CDCD面向邻域的跨距[O1][/O1][O2][/O2]ORG[O4][/O4][O5][/O5]1 1 1 2 1 4 1 5职位编号:中国银行开放1 2 3 4 5[O6][/O6] [O7][/O7] [/O8][/O8] [O9][/O9] 22 2 3 2 4 2 5GPE[O11][/O11][O15][/O15]面向主题的跨度对3 4 5 5NAPER(他的)PER(妻子)GPE(达拉斯)图2:我们的邻里导向包装和主题导向包装策略概述。[S][/S]是实心标记。[O][/O]是悬浮标记。在最大组大小的情况下,面向邻域的打包策略对邻域跨度进行聚类,例如{(1,1),(1,2),.,(1,5)},在同一组中。面向主题的打包策略用实心标记包围主题跨度David Green,在其候选对象跨度his、wife和Dallas上应用悬浮标记,并将它们打包到实例中。在向量A和B上。例如,我们将悬浮标记应用于典型的重叠跨度分类任务NER,其目的是为句子中的每个可能的跨度分配实体类型或我们通过压缩的悬浮标记从PLM中获得跨度表示,然后结合PL-Marker和T-Concat的特征来更好地预测cadidate跨度的实体类型。具有插入标记的序列:X=. [S],xa,., xb,[/S],., xc1[O1],.,x d1 [/O1],.,x c2 [O2],.,x d2 [/O2].,其中由符号连接的标记共享相同的位置嵌入。我们在X上应用预先训练的编码器,并最终获得si=(a,b)和sj=(c,d)的跨度对表示:φ(si,sj)=[ha−1;hb+1;h(s);h(e)](2)3.3面向主题的跨度对包装为了获得跨度对表征,一个可行的方法是采用悬浮标记来同时强调一系列的主、客体跨度。通常,每对悬浮标记都是由定向注意捆绑的。但是如果我们继续应用方向注意来绑定两对标记,漂浮的标记将无法识别其相同跨度的伙伴标记因此,如图2所示,我们的跨度对模型采用了融合的面向主题的包装方案,为相同主题的跨度提供形式上,给定输入序列X,主题跨度 si=(a,b)及其候选对象跨度(cl,dl),(c2,d2),. (cm,dm),我们在主题跨度之前和之后插入一对实心标记[S]和[/S]然后,我们将悬浮标记[O]和[/O]应用于所有候选对象跨度,并将它们打包到实例中。令X表示此修改后的其中[ ; ]表示连接操作。ha-1和hb+1表示s i的插入实心标记的具体化表示;h(s)和h(e)是s j的插入空心标记的具体化表示。与在主体和客体上分别应用两对实心标记的方法(Zhong和Chen,2021)相比,我们的融合标记方案将实心标记替换为用于客体跨度的悬浮标记,这将在一定程度上削弱对客体跨度的强调。为了提供补充信息,我们引入了从对象到主体的反向关系以进行双向预测(Wu etal. ,2020)。例如,我们在典型的跨度对分类任务端到端RE上评估我们的模型,该任务集中于识别所有跨度对是否相关以及它们的关系类型。继Zhong和Chen(2021)之后,我们首先使用NER模型来过滤候选实体跨度,然后获取[O10][/O10]3 3+v:mala2277获取更多论文- 过滤实体跨度对的跨度对表示,以预测它们之间的关系。此外,为了建立实体类型和关系类型之间的联系,我们添加了一个辅助损失,用于预测对象实体的类型(Zhou和Chen,2021; Han et al. ,2021年)。3.4复杂性分析在大前馈网络的控制下,PLM的计算量几乎随着小序列长度的增加而线性上升(Dai et al. ,2020; Ye等人,2021年)。逐渐地,随着序列长度继续增长,由于自我注意模块,计算以平方方式膨胀(Vaswaniet al. ,2017年)。显然,悬浮标记的插入延长了输入序列的长度。对于跨度对分类任务,可以选择的跨度数量相对较小,因此增加的对于跨度分类任务,我们将标记分成若干批,这可以控制序列长度在复杂度几乎线性增加的区间内。对于NER,我们在一个小长度的句子中列举候选跨度,然后使用其上下文词将句子扩展到512个to- kens,对于一个句子中的候选跨度的数量通常小于实践中的上下文长度。因此,在包装组数量较少的情况下,PL-标记的复杂性仍然与先前模型的复杂性此外,为了进一步降低推理代价,我们采用PL标记作为两阶段模型的后处理模块,用于从少量候选实体一个更简单、更快速的模型。4实验4.1实验装置4.1.1数据集对于NER任务,我们进行实验,平面和嵌套的基准。首先,在平面NER上,我们采用了CoNLL 03 ( Sang and Meulder , 2003 ) 、OntoNotes 5.0(Pradhan et al. ,2013)和Few-NERD(Ding et al. ,2021年)。然后,在嵌套的NER上,我们使用ACE04(Doddington etal. ,2004)、ACE05(Walker et al. ,2006)和SciERC(Luanet al. ,2018)。三个嵌套的NER数据集也被用来评估端到端RE。我们遵循Luan等人(2019)的方法,将ACE 04分为5部分,并将ACE 05分为训练、开发和测试部分数据集发送数量条目数(类型数)版本数(类型数)CoNLL0322.1k35.1k(4)-OntoNotes 5.0103.8k161.8k(18)-少数NERD188.2k491.7k(66)-ACE0514.5k38.3k(7)7.1k(6)ACE048.7k22.7k(7)4.1k(6)SciERC2.7k8.1k(6)4.6k(7)表1:所采用数据集的统计数据。集.对于其他数据集,我们采用官方分割。表1显示了每个数据集的统计数据。4.1.2评估指标对于NER任务,我们遵循跨度级评估设置,其中实体边界和实体类型需要正确预测。对于端到端的RE,我们提出了两个评价指标:(1)边界评价(Rel)要求模型正确预测主体实体和客体实体的边界以及实体关系;(2)严格评估(Rel+)进一步要求模型在边界预测的要求的基础上预测实体类型此外,继Wang et al. (2021d),我们将每个对称关系实例视为两个有向关系实例。4.1.3实现细节我 们 采 用 bert-base-uncased ( Devlin et al. ,2019)和albert-xxlarge-v1(Lan et al. ,2020)用 于 ACE 04 和 ACE 05 的 编 码 器 。 对 于SciERC , 我 们 使 用 域 内 scibert-scivocab-uncased(Beltagy et al. ,2019)编码器。对于平面NER,采用roberta- large编码器. 我们还利用跨句子信息(Luan et al. ,2019年; Luoma和Pyysalo,2020年),它通过上下文扩展每个句子,并确保原始句子尽可能位于扩展句子的中间。如4.4.1节所述,对于NER上的打包方案,我们将组大小设置为256以提高效率。我们用5种不同的种子进行所有实验,并报告平均分数。有关标准差和详细的培训配置,请参见附录。4.2命名实体识别4.2.1基线我们的包装方案允许模型应用悬浮标记来处理大量的跨度对,据我们所知,我们是第一个将悬浮标记应用于NER任务的模型。我们比较我们的邻里导向包装方案与+v:mala2277获取更多论文模型CoNLL03OntoN5F-NERD马和霍维(2016)91.086.3-Devlin等人 (2019年)92.889.268.9Li等人(2020年)93.091.1-Yu等人 (2020年)93.591.3-Yan等 (2021年)93.290.4-SeqTagger(我们的实施)93.691.269.0T-Concat(我方实施)93.091.770.6散堆填料93.991.861.5PL标记(我们的型号)94.091.970.9表2:用于平面NER的测试装置上的Micro F1。On-toN5:OntoNotes 5.0; F-NERD:Few-NERD。随机打包,将候选跨度随机打包成组。我们采用两种 常见的NER模型: (1)SeqTagger(Devlin et al. ,2019)将NER视为序列标记任务,并应用标记级分类器来区分每个单词的IOB2标签(Sang和Veenstra,1999)。(2) T-Concat ( Jiang et al. , 2020; Zhong 和Chen,2021)基于其T-Concat跨度表示将实体类型或非实体类型分配给每个跨度。请注意,实心标记不能同时处理重叠的跨度,因此在NER任务中单独应用实心标记效率太低4.2.2结果我们在表2中显示了平坦的NER结果,在表3的Ent列中显示了嵌套的NER结果,其中PURE(Zhong和Chen,2021)在其NER模块上应用了T-Concat特征。实验结果表明:(1)在所有三个平面NER数据集上,基于邻域填充策略的模型都优于随机填充策略的模型,尤其是在Few-NERD上,模型的性能提高了9.4%。Few-NERD包含较长的句子,因此平均包含325个候选跨度,而CoNLL 03和OntoNotes 5.0分别仅包含90和174个结果表明,面向邻域的打包策略能够很好地处理具有较长句子和较多标记组的数据集,更好地模拟邻域跨度之间的相互关系。(2)使用相同的大的预训练编码器,PL标记在所有六个NER基准上实现了比T-Concat+0.1%- 1.1%的绝对F1改进,这显示了悬浮标记在聚合用于实体类型预测的跨度表示方面的优 势 ; ( 3 ) PL 标 记 优 于 SeqTagger+0.4% ,+0.7%,在CoNLL 03、OntoNote 5.0和Few-NERD中分别为+1.9%这些改进证明了PL标记在处理不同类型实体之间的不同相互关系方面的有效性4.3关系抽取4.3.1基线对于端到端的RE,我们比较了我们的模型,PL标记,与一系列的国家的最先进的模型。本文介绍了T-Concat和Solid Markers跨度表示法中最具代表性的两种工作:(1)DyGIE++(Wadden et al. ,2019)首先获取T-Concat跨度表示,然后通过跨度图迭代传播共指和关系类型置信度以细化表示;(2)PURE(Zhong和Chen,2021)采用独立的NER和RE模型,其中RE模型在一次通过中处理每个可能的实体对。在他们的作品中,PURE(Full)采用两 对 实 心 标 记 来 强 调 跨 度 对 , PURE(Approx)采用两对悬浮标记来强调跨度对。4.3.2结果如表3所示,使用相同的BERTBASE编码器,我们的方法在ACE 05上的严格F1为+1.7%,在ACE 04上的严格F1为+2.5%,优于先前的使用SciBERT编码器,我们的方法也在SciERC上实现了最佳性能我们- ING一个更大的编码器,ALBERTXXLARGE,我们的NER和RE模型都得到了进一步的改进。与之前的最先进模型PURE( Full) 相 比, 我 们 的模 型 获 得 了显 著 的+4.1%,ACE 05和ACE 04的严格相关F1改善分别为+4.3%。这种对PURE的改进表明了在训练过程中对相同主题或相同对象实体对之间4.4推理速度在本节中,我们比较了模型在实验中,我们使用BASE尺寸编码器用于ACE05和SciERC,使用LARGE尺寸编码器用于平面NER模型。4.4.1跨度模型在CoNLL 03和Few- NERD上,我们评估了具有不同组大小K的PL标记的推理速度我们还评估了一个级联两级+v:mala2277获取更多论文模型编码器Rep类型EntACE05RelRel+EntACE04RelRel+EntSciERCRelRel+Li and Ji(2014)--80.852.149.579.748.345.3---SPtree(Miwa和Bansal,2016)LSTM不83.4-55.681.8-48.4---DYGIE(Luan et al. ,2019)QElmo不88.463.2-87.459.7-65.241.6-多圈QA(Li et al. ,2019年)OneIE(Lin et al. ,2020年)BERTL-不84.888.8-67.560.2-83.6---49.4-------DYGIE++(Wadden et al. ,2019)Q不88.663.4-------TriMF(Shen et al. ,2021年)Q不87.666.562.8---70.252.4-UniRE(Wang et al. ,2021 d)QBERTB/不88.8-64.387.7-60.068.4-36.9PURE-F(Zhong和Chen,2021)Q SciBERTS90.167.764.889.263.960.168.950.136.8PURE-A(Zhong和Chen,2021)QL-66.5-----48.1-PL标记(我们的型号)QS L89.869.066.588.866.762.669.953.241.6TableSeq(Wang和Lu,2020)不89.567.664.388.663.359.6---UniRE(Wang et al. ,2021 d)QPURE-F(Zhong和Chen,2021)Q ALBXXL不S90.290.9-69.466.067.089.590.3-66.163.062.2------PL标记(我们的型号)QS L91.173.071.190.469.766.5---表3:ACE04、ACE05和SciERC测试集的总体实体和关系F1评分。不同型号中使用的编码器:BERTB=BERTBASE,BERTL = BERTLARGE,ALBXXL = ALBERTXXLARGE。特别是TriMF、UniRE、PURE和PL-Marker在ACE 04/05上应用BERTBASEQ表示模型利用了跨句子信息。表示类型:T-T型号名称缩写:PURE-F:PURE(满); PURE-A:PURE(约)。模型KCoNLL03企业速度(F1)(发送/秒)少数NERD企业速度(F1)(发送/秒)模型ACE05相对速度(F1)(发送/秒)SciERC相对速度(F1)(发送/秒)SeqTagger-93.6138.769.0142.0T-Concat-93.0137.270.6126.8PURE(Full)67.776.550.188.3纯(近似值)66.5593.748.8424.2PL标记69.3211.752.8190.9两级1693.787.170.880.63294.083.370.979.8表4:关于模型和不同包装组尺寸K的NER基准的Micro F1和效率。对于CoNLL 03,我们采用的最大跨度长度为8,对于Few-NERD,我们采用的最大跨度长度为16。模 型 , 它 使 用 一 个 快 速 的 BASE 大 小 的 T-Concat模型来过滤我们模型的候选跨度。如表4所示,PL标记器在CoNLL03上实现了0.4 F1改进,但与SeqTagger模型相比牺牲了60%的我们观察到,我们提出的两阶段模型在Few-NERD上以3.1倍的加速比实现了与PL-Marker相似的性能,这表明使用PL-Marker作为后处理模块来从简单模型中进行粗略预测更有效此外,当组大小增长到512时,由于Transformer的复杂性增加,PL- Marker会变慢因此,我们在实践中选择了256的组表5:我们的RE模型和PURE在F1(边界)和速度方面的比较。我们报告的结果与基地编码器。所有模型都采用来自PURE实体模型的相同实体输入。4.4.2跨度对模型本文采用面向主题和面向对象的包装策略对RE中的悬浮标记进行包装。在这里,我们将我们的模型与其他两个基于标记的模型进行比较。首先,PURE(Full)(Zhong和Chen,2021)应用实体标记器独立处理每个实体对。Secondly,PURE(Approx.) 将所有实体对的悬浮标记打包成一个实例进行批量计算。由于上述方法的性能和运行时间依赖于预测实体的质量和数量,为了公平的计算,我们在所有RE模型上采用来自PURE实体模型的相同实体输入。表5显示了上述三种方法的F1分数与推理速度的在这两个数据集上,我们的RE模型PL-Marker实现了最佳性能和PURE(约)。效率最高12894.054.870.923.8PL标记256512--39.622.9--25.818.3+v:mala2277获取更多论文命名实体识别这里是中央电视台国际频道的海峡两岸节目....................................大熊猫的候选人,大陆作为礼物赠送给台湾的可能会增加。......这是什么?T-Concat:(Cross Strait,WORK OF ART),(CCTV国际频道,ORG),(Taiwan,GPE)我们的:(两岸,ORG),(CCTV国际频道,ORG),(台湾,GPE)关系抽取文字:利亚纳从宾夕法尼亚州驱车10个小时,与父母一起参加曼哈顿的集会PURE:(Liana,位于曼哈顿)我们的:(Liana,位于曼哈顿),(她的父母,位于曼哈顿)表6:我们的NER和RE模型的案例研究。在推理过程中。与PURE(Full)相比,我们的模型在ACE 05和SciERC上获得了2.2 - 2.8倍的 加 速 比 和 更 好 的 性 能 。 符 合 PURE 标 准(约),我们的模型在ACE 05和SciERC上实现了2.8%-4.0%的相关F1(边界)改进,这再次证明了我们的融合标记和包装策略的有效性总体而言,我们的模型,与一个新的主题为导向的包装策略的标记,已被证明是有效的,在实践中,与令人满意的准确性和负担得起的成本。4.5为例我们展示了几个案例来比较我们的跨度模型与T-Concat,并比较我们的跨度对模型与PURE(Full)。如表6所示,我们的跨度模型可以收集背景信息,如台湾和大陆,为下划线的跨度,两岸,帮助预测其类型为组织,而不是艺术品我们的跨度模型学习在训练阶段整体考虑相同对象关系事实之间的相互关系,从而成功地获得Liana和她的父母都位于曼哈顿的事实。4.6消融研究在本节中,我们进行消融研究,以研究不同组件对RE模型的贡献,其中我们在实验中应用BASE大小两对悬浮标记我们评估了w/o固体标记基线,该基线分别在主体和对象上应用两对悬浮标记,并将所有跨度对打包到一个实例中如表7所示,与PL相比,模型ACE05黄金E2ESciERC黄金E2EPL标记74.069.072.553.2w/o。实体的标记部72.067.368.750.6w/o。反比关系72.968.171.652.7w/o。实体类型损失73.468.472.353.2W. 类型标记74.068.372.153.0表 7 : ACE05 和SciERC 测 试 集 上 的 关 系 F1 ( 边界),消融研究具有不同的输入特征gold:使用gold实体; e2 e:使用实体模型预测的实体。w/o.:无- out。w.:以.标记,当给出黄金实体时,没有固体标记的模型在ACE 05和SciERC上下降了 2.0%-3.8%的F1结果表明,继续应用定向注意力来绑定两对悬浮标记是次优的,因为一对悬浮标记已经被定向注意力绑定。逆关系我们为双向预测的每个非对称关系我们评估了无逆关系的模型如表7所示,没有反向关系的模型在给定黄金实体的两个数据集上都下降了0.9%-1.1%F1,这表明在我们的非对称框架中对从对象实体到主体实体的信息进行建模的重要性。实体类型我们在RE模型中增加了一个辅助的实体类型损失来引入实体类型信息。如表7所示,当给定黄金实体时,没有实体类型损失的模型在两个数据集上都下降了0.4%-0.7% F1,这表明实体类型信息在RE中的重要性。此外,我们尝试应用类型标记(Zhong和Chen,2021 ) , 如 [Subject : PER] 和 [Ob-ject :GPE],将NER模型预测的实体类型信息注入RE模型。我们发现,在端到端设置中,带有类型标记的RE模型的性能略差于带有实体类型丢失的模型这表明,实体类型的预测误差从NER模型可能会传播到RE模型,如果我们采用的类型标记作为输入功能。最后,我们讨论了何时使用RE模型的实体类型预测来细化附录中的NER预测,并且我们最终根据其数据集统计量细化ACE04和ACE05(SciERC除外)的实体类型+v:mala2277获取更多论文5结论在这项工作中,我们提出了一种新的包装悬浮标记,与面向邻居的包装策略和面向主题的包装策略,以获得跨度(对)表示。考虑到跨度和跨度对之间的相互关系,我们的模型实现了最先进的F1分数和一个有前途的效率在NER和RE任务在六个标准基准。在未来,我们将进一步研究如何推广基于标记的跨度表示到更多的NLP任务。确认这 项 工 作 得 到 了 中 国 国 家 重 点 研 发 计 划(No.2020AAA0106502)、清华大学郭强研究所和中国上海清华大学国际创新中心的我们感谢肖朝军和THUNLP的其他成员的有益讨论和反馈。叶德明进行了实验。叶德明、林延凯、谢晓军孙茂松先生为研究提供了宝贵的意见。引用伊兹·贝尔塔吉,凯尔·罗,还有阿曼·科汉2019.Scib-ert:一个用于科学文本的预训练语言模型。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议的会议记录中,EMNLP-IJCNLP 2019,中国香港,2019年11月3日至7日,第3613- 3618页。计算语言学协会。汤 姆 湾 Brown , Benjamin Mann , Nick Ryder ,MelanieSubbiah , JaredKaplan , PrafullaDhariwal,Arvind Neelakantan,Pranav Shyam,GirishSastry , AmandaAskell , SandhiniAgarwal,ArielHerbert-Voss,GretchenKrueger,Tom Henighan,Rewon Child,AdityaRamesh , Daniel M. Ziegler , Jeffrey Wu ,Clemens Winter , Christopher Hesse , MarkChen , Eric Sigler , Mateusz Litwin , ScottGray,Benjamin Chess,Jack Clark,ChristopherBerner,Sam Mc- Candlish,Alec Radford,IlyaSutskever,and Dario Amodei. 2020年。语言模型是少数的学习者。在神经信息处理系统的进展33:神经信息处理系统2020年年会,NeurIPS2020,December 6-12,2020,虚拟。戴梓航,赖国坤,杨一鸣,郭乐。2020. 漏斗转换器:过滤掉顺序冗余,以实现高效的语言处理。神经信息处理系统进展33:2020年神经信息处理系统年会,NeurIPS2020,12月6日-2020年12月12日,虚拟。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,NAACL-HLT 2019 , 明 尼 阿 波 利 斯 , MN , 美国,2019年6月2日至7日,第1卷(长和短纸张),第4171-4186页。计算语言学协会。Ning Ding ,Guangwei Xu , Yulin Chen , XiaobinWang,Xu Han,Pengjun Xie,Haitao Zheng,and Zhiyuan Liu. 2021.少书呆子:一个少量的命名
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功