没有合适的资源?快使用搜索试试~ 我知道了~
联合模型:实体边界检测和实体跨度识别的方法
沙特国王大学学报一种实体边界检测和实体跨度识别的联合模型年永明a、b,陈艳萍a、b,秦永斌a、b,黄瑞章a、b,唐瑞雪a、b,胡英a,ba贵州大学公共大数据国家重点实验室,贵州贵阳550025b贵州大学计算机科学与技术学院,贵州贵阳550025阿提奇莱因福奥文章历史记录:接收日期:2022年2022年7月24日修订2022年8月14日接受2022年8月18日在线提供保留字:命名实体识别边界检测阴性样本神经网络A B S T R A C T命名实体识别是提取具有预定义实体类型的命名实体的任务。跨度分类是支持这一任务的流行方法它具有解决嵌套结构和在一个跨度内充分利用标记特征的优点问题是穷举和验证所有实体跨度遭受高计算复杂度和数据不平衡。此外,重叠率高的跨度在句子中具有相同的上下文特征,这容易导致由不准确的实体边界引起的假阳性错误。在本文中,我们提出了一个模型来检测实体边界和预测实体候选人联合。我们的模型没有标记标记,而是基于单词之间的间隙表示进行预测,这避免了标记有多个标签时的歧义。我们还提出了一个邻域跨度建议策略,以产生合理的负样本进行训练,有效地减少了数据不平衡的问题。我们的模型在ACE2005和GENIA语料库上进行了评估。它在F1得分上分别达到了88.55%和79.81%,接近最先进的性能。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍命名实体识别(NER)是自然语言处理中的一项基础任务.它是一个任务,以提取命名实体(NE)从一个句子与预定义的类型,如人,命名,和位置。识别命名实体通常被认为是理解句子语义的第一步。它已经获得了极大的关注,并被广泛应用于支持许多下游任务,包括关系提取(Miwa和Bansal,2016),机器翻译(Jain等人,2019),问答(Yih等人,命名实体识别通常被实现为序列标记任务,其为句子中的每个标记分配标记以指示其在句子中的语义角色。例如,在BIEOS编码中,“B”、“I”、“E”和“O”分别表示命名实体的开始、内部、结束和输出标记。‘‘S” means that an entity is only composed 在序列模型(例如,隐藏的火星*通讯作者:贵州大学,贵阳550025。电子邮件地址:ypench@gmail.com(中国)延平)。沙特国王大学负责同行审查制作和主办:Elsevierkov模型、条件随机场或递归神经网络),输出最大化的标签序列,用于识别句子中的命名主要问题是序列模型假设句子中的实体结构是扁平的。句子中的命名实体可以相互重叠,从而导致它们之间的嵌套结构。由于嵌套结构表达了命名实体之间的重要语义信息,因此在语言中得到了广泛的应用。例如,“贵州大学”是一个组织。它嵌套有一个位置名称“贵州”,表示大学的位置。在嵌套结构中,嵌套网元中的一个令牌可能同时属于多个重叠的命名实体。序列标记法输出的是最大化的标记序列,不易被识别。因此,许多相关工作采用跨度分类来支持嵌套命名实体识别。它具有解决嵌套结构和在一个跨度内充分利用标记特征的优点。问题是穷举实体跨度遭受高计算复杂度和数据不平衡问题。此外,具有高重叠率的跨度共享相同的上下文特征,这容易导致由不准确的实体边界引起的误报错误本文提出了一种支持实体边界检测和实体跨度识别的联合模式它的优点是充分利用实体边界来过滤不可能的实体跨度,并生成具有更准确边界的跨度在这个模型中,它不是将标记标记为实体边界,而是将预https://doi.org/10.1016/j.jksuci.2022.08.0161319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comN. 永明角延平Q. Yongbin等沙特国王大学学报8363Fig. 1.嵌套命名图元及其边界标签的示例。在我们的方法中,任何两个词之间的点表示一个可能的边界节点,这避免了歧义。基于单词之间的间隙表示的措辞,这避免了当令牌同时具有多个标签时的歧义。这种策略的动机是,在一个命名实体中,属于几个命名实体的令牌可以同时用不同的标签一个例子如图所示。1.一、在该实施例中,GP”可以被注释为蛋白质的开始和结束边界。它也被注释为DNA的开始。为了避免边界模糊,我们在两个标记之间插入一个参考点。它用作划分可能命名实体的边界。然后,代替将标记注释为实体边界,这些参考点被标记以支持实体边界检测。为了学习这些参考点的抽象表示,我们设计了基于双仿射变换的深度架构,其中参考点两侧的令牌表示用于学习边界表示。该方法有效地解决了实体边界二义性问题,并充分利用了边界语义特征.边界检测后,它们是有价值的过滤负实体跨度,以减少数据不平衡的影响。在本文中,我们还提出了一个邻域跨度建议策略,以产生合理的负样本进行训练。过滤策略是基于嵌套命名实体在句子中重叠的现象,它们共享一些相同的标记。两个命名实体之间的高重叠率表明它们在句子中具有相同的上下文特征。它们有助于训练分类器来识别真实的网元。在训练过程中,我们从真实跨度的邻域中抽取负的实体跨度,并忽略不必要的冗余实体跨度它的优点是减少了计算的复杂性和训练过程中的数据不平衡问题。在边界检测和跨度分类的基础上,设计了一个端到端的多目标学习框架来支持嵌套NE识别,增强了边界检测和实体跨度分类之间的交互性。在训练过程中,我们同时优化两个子任务。本文的主要贡献如下:1. 相邻单词之间的参考点(单词间隙)被用作实体边界表示。与标记表示相比,基于参考点的边界表示具有更小的二义性。它们有效地支持实体边界检测。2. 提出了一种邻域跨度建议策略来生成负实体跨度。它捕捉到的现象,接近真实跨度的实体跨度有助于训练跨度分类器。该算法有效地降低了计算复杂度和数据不平衡问题。本文的结构安排如下。第二节讨论了嵌套命名实体识别的相关工作第3节介绍了我们的嵌套命名实体识别方法。我们在第4节中进行实验来评估我们的方法。第五部分给出了我们的结论和未来的工作。2. 相关工作嵌套命名实体识别已经受到了广泛的关注,大致可以分为六类:基于解析的方法、序列标记方法、序列到序列方法、基于超图的方法、基于层的方法和基于跨度的方法。基于句法分析的方法是一种形式化的句子结构学习策略。主要问题是它严重依赖外部工具包。序列标记方法输出最大化的标签序列。很难识别嵌套的命名实体。在序列到序列模型中,句子被编码成密集表示(向量),这限制了可以流到解码器的信息量。基于超图的方法将嵌套实体映射到扁平结构中。问题是它可能会改变句子中的语义在基于层的方法中,具有相同类型的实体由独立的序列模型识别此策略无法识别同一类型中的嵌套命名实体基于跨度的方法具有在跨度中使用令牌特征的优点由于该方法通常对句子中的每个跨度进行枚举和验证,因此存在计算复杂度高和数据不平衡的问题。在下文中,详细讨论了支持嵌套命名实体的每个类别在基于解析的方法中,句子被转换成解析树,其中单词是树的叶节点。然后,命名实体被表示为子树。在解析树中,嵌套的命名实体被表示为嵌套的树结构。例如,Finkel和Manning(2009)将句子建模为包含实体成分的树。由于解析句子严重依赖于外部NLP工具,这些工具仍然容易出错,因此基于解析的方法通常与其他技术相结合。例如,Jie和Lu(2019)将句法依赖性纳入单词表示中,以增强命名实体识别。在序列标注方法中,嵌套命名实体不能通过将句子标注为标签序列来识别。为了弥补这一不足,采用结构化标签来支持嵌套命名实体识别。通过这种方式,Straková等人(2019)提出了两种用于识别嵌套名称实体的神经架构。Shibuya和Hovy(2020)为每个实体类型训练CRF。它们首先确定最佳路径,然后输出从外部到内部的次佳路径。在序列到序列方法中,嵌套命名实体识别被视为序列到序列生成任务,其不必生成与序列标记方法中的输入序列相同数量的标签 通过这种方式,Yan et al. (2021)提出了一个统一的生成网络模型,可以提取平面,嵌套和不连续的命名实体。基于超图的方法通过从句子构造超图来Lu和Roth(2015)首先提出了一种基于超图的方法来提取嵌套提及。Muis和Lu(2017)通过标记单词之间的间隙来扩展这种方法。Katiyar和Cardie(2018)改 进 了 超 图 的 表 示 , 并 使 用 BiLSTM 对 超 图 的 边 Wang et al.(2018)提出了一种分段超图表示,可以捕获以前方法无法捕获的特征。基于层的(或级联)模型识别嵌套实体层与传统的平面NER分类器。Alex等人(2007)提出了一种从内部识别嵌套实体的方法,N. 永明角延平Q. Yongbin等沙特国王大学学报83641/4fg公司简介我我--我我我通过堆叠CRF层来实现外部。在级联方法中,序列模型被独立地应用于识别每个实体类型。问题是它无法区分具有相同类型的命名实体Ju等人(2018)设计了一个具有堆叠的平面NER层的深度网络。它由LSTM + CRF层组成,从内到外识别嵌套实体,直到识别出最外面的实体。(Wang等人,2020)提出了一种分层模型,其中每层标识不同长度的实体。基于跨度的方法通过对所有潜在的实体跨度进行分类来识别嵌套实体。它也被称为跨度分类。例如,Sohrab和Miwa(2018)提出了一个用于嵌套实体识别的深度穷举模型 Li等人(2022)提出了一种通用框架,将命名实体识别视为可以同时处理平面实体、嵌套实体和不连续实体的词-词关系分类。 Zheng等人(2019)提出了一种边界感知神经网络模型来识别嵌套实体,该模型使用BiLSTM来捕获上下文信息。实体标签通过准确定位的边界相关跨度来预测。Tan等人(2020)提出了一种边界增强神经跨度分类模型,该模型通过边界检测模型获得高质量的跨度Chen等人(2015)和Chen等人提出的边界装配(BA)模型,2020还首先检测实体的边界,然后将边界组装成用于分类的实体候选。基于跨度的模型的主要优点是能够利用命名实体中的标记特征。因为它通常需要耗尽所有潜在的跨度,例如,Li等人(2022),这些模型通常遭受高计算复杂度和不平衡的数据。因此,许多相关工作并没有穷尽地枚举所有潜在的跨度,而是仅验证不长于特定长度的实体跨度,例如,Sohrab和Miwa(2018)。另一方面,边界信息被广泛用于过滤那些不太可能的实体跨度,例如,Zheng等人(2019); Tan等人,2020和Chen等人, 2020年。与它们相比,我们的模型在支持嵌套命名实体识别方面有两个优势首先,不是将标记标记为实体边界,而是标记之间的间隙是类-图二、我们的模型框架 通过组装预测边界产生的跨度候选者是:r“小鼠白细胞介素-2”、s“小鼠白细胞介素-2受体α基因”、t“白细胞介素-2”和u“白细胞介素-2受体或α基因”。输入的边界表示。它们通过双仿射检测器进行分类。3.1.1. 边界编码器给定一个输入句子序列Xx0;x1;::;xn-1,用一个令牌编码器得到句子表示矩阵hhd×n.It形式化为:sified,它避免了当一个标记同时充当命名实体的开始和结束边界。其次,提出了一种邻域跨度建议策略来生成用于训练的否定实体跨度它能够选择高质量的负实体跨度,减少数据不平衡问题。3. 方法我们的模型主要由两个模块组成:边界检测(词间隙标注)模块和跨度识别模块。该模型的框架如图所示。 二、图 2、边界检测模块使用双仿射边界检测器检测相邻词之间的实体边界。然后,跨度识别组装边界对以生成H<$½h0;h1;· ··;hn-1]其中n是句子中的标记的数量,d是标记向量的维数。令牌Xi 在的句话是表示作为一矢量h i i 0; 1; 2... n1 .一、边界检测和跨度分类任务共享所有标记表示。在我们的模型中,而不是标记单个标记作为潜在的边界,单词间隙被用作潜在的命名实体边界。每个参考边界通过组合字间隙两侧的跨度表示来表示。该过程形式化如下:h l 1/4maxpooling =h ik;h i1.. . 喜喜实体跨度候选,并通过跨度分类器对它们进行分类。最大池化 1;hi 二... . 喜贵ð2Þ我图 2还显示了识别嵌套命名条目的示例,þ þ þ[hb¼½MLPbhl;MLPbhr]受体α基因表达", 两个起始边界,其中,k是预定义的窗口大小,从四个突出显示的字间隙检测两个端边界,红色和黄色的线。每个端边界与前面的两个边界组装,这生成四个候选实体跨度。它们通过跨度分类层进行验证。然后,其他的作为负实体输出。3.1. 边界检测边界检测模块由边界编码器和双仿射检测器组成边界编码器学习抽象在hi和hi 1之间的字间隙的左跨度和右跨度。通过多层感知器(MLP)层将它们映射到两个d0因此,边界表示hb的形状是2×d0向量。3.1.2. 双仿射检测器我们设计了一个双仿射分类器来学习边界表示和支持边界检测。双仿射分类器的优点是能够对边界表示之间的交互进行编码。它能够更好地获取实体边界的内在语义特征,减少歧义我们的模型。 对于输入语句N. 永明角延平Q. Yongbin等沙特国王大学学报8365BI1I2¼ðÞ我Xattc1/4hij J我P¼n1IJP我I1BI2I1I2B我I1I2我我我我k¼0K我我我我我我我我我我I1我IL我负跨度。如果负跨度与多个真实图元重叠,则将最小值设置为默认偏移。BIJIJIJIJb¼联系我们标记一个代币其表示如下。边界形式化如下:采样的负邻域跨度集表示为R^p。在此条件下,R^p的采样数为aNe,其中Nehhb>W1hbhb>W2bð3Þ是用于训练的阴性样本的总数,a是0和1之间的参数其中,W<$1<$2R<$2×d0×d0<$;Wb模型的参数2R2d0×2和BB2R2 是可训练Rn中的负实体跨度不与任何真实体重叠。还需要训练一个用于区分阳性的从消极的实体。因为很难衡量在双仿射分类器之后,使用Sigmoid层来归一化实体边界的置信度分数。它输出可能边界的概率。形式化如下:Pb<$Sigmoid4考虑到Rn中每个负跨度的重要性,我们采用一种简单的随机抽样策略来产生Rn中的负跨度。在我们的实验中,负实体跨度在R2是1-aNe。 输出负跨度集表示为R^n。我我R^p和R^n都用于训练跨度分类器。总人数-其中,Pb[1/2Pb;Pb]是表示概率分布的向量负实体跨度的BER表示为Ne。边界的分布,其中P bP b是开始边界和结束边界。3.2. 跨度识别跨度识别由否定实体生成器和跨度分类器两部分组成,其中提出了一种生成用于训练的否定实体跨度的策略然后,跨度进行分类的MLP层。3.2.1. 否定实体提案在预测阶段,在边界检测之后,3.2.2. 跨度分类器给定实体跨度ei si;ti和令牌表示序列H,通过H的开始和结束索引实现最大池化操作来学习实体跨度的跨度表示。其表示如下:c e¼maxpooling h s;h s1.. . h t-1μ g;107μ g由于ce对句子的上下文信息编码能力较弱,我们采用自注意机制对与整个句子相关的全局信息进行编码。其形式如下:n-1我边界和端部边界被组装以获得实体跨度集合E1/4 fe1;e2;e3. 例如,其中,Ei/si;ti/s i是实体跨度。si和ti是开始边界和实体边界的索引。m是国际新闻报j¼0ex ph>iUhe-exph>Uheð8Þ实体跨度的数量在训练阶段,实体跨度的生成与预测阶段不同。生成和选择负其中,U2Rd×d为可训练参数。最后,将ce和catt连接起来,得到实体span当训练跨度分类器时,实体跨度是必要的。获取负实体跨度的一个简单策略是枚举所有实体跨度。然而,它遭受严重的数据不平衡和高代表如下:he¼ceCATTð9Þ计算复杂度在本文中,我们提出了一个邻域建议策略,它产生了一个合理数量的负实体跨度的训练。设Rp是一个负邻域生成集,它包含所有可能的实体跨度与真实实体重叠设Rn为a实体的跨度表示被馈送到跨度分类器中,该分类器由MLP和Softmax层组成。其形式如下:Pe¼softmaximum MLPehe 10包含所有负实体跨度而不与任何真实体重叠的集合。由于它包含了大量的跨度样本,提出了两种策略来选择样本。现讨论如下。对于每个负邻域跨度ei2Rp,设fl和fr是其相对于最近真实体的两个边界的边界偏移。然后,通过以下公式计算相对于真实实体的ei其中,i2 f1;···;mg,m是实体跨度的数量。Pe1/2Pe;Pe;· · ·;Pe]是表示实体类别之间的第i个跨度的概率分布的向量。Pe是第i个跨度属于第j个实体类别的预测概率。l是实体类别的数量特别地,标签0表示非实体类别。3.3. 培养目标L rjfijjfijiELið5Þ在训练过程中,采用交叉熵作为边界检测的损失函数。具体如下:其中EL 表示与n重叠的真实实体的长度2iL¼-XXybloggpb11具有小的bi度的负跨度在很大程度上与真实实体重叠。由于它们具有与真实实体相关的相似语义,因此将它们与真实实体区分开来更具挑战性。因此,训练一个分类器是很有价值的。为了下一代-对于跨度分类,我们还使用真实标签和预测标签之间的交叉熵作为损失函数来优化模型:m-1l吃了一个合理数量的负实体跨度,我们抽样跨度在不同的概率下。其形式如下:pse-biLe¼-XXyelogpe12边界检测器和跨度分类器共享相同的i¼N第1页e-bj6参数 它们在训练过程总损失是边界检测器其中,N是邻域负实体跨度的总数和跨度分类器:B联系我们N. 永明角延平Q. Yongbin等沙特国王大学学报8366L¼LbkLe13其中k是平衡边界检测器和实体分类器之间的权重的预定义参数。它有一个默认值1在我们的实验中4. 实验4.1. 数据集我们在ACE2005和GENIA语料库上对我们的模型进行了ACE 2005(Walker等人,2006)数据集标注了七种类型的实体,它们是设施、地理政治实体、位置、组织、人、车辆和武器。ACE2005的统计数字载于表1。为了与相关工作进行比较,与大多数以前的研究一样,我们遵循Lu和Roth,2015年的工作,将数据集分为训练(80%),开发(10%)和测试(10%)。GENIA(Kim等人,2003)数据集是一个生物医学数据集,它包括39个细粒度实体类型。GENIA的统计数据显示,如表2所示。GENIA 语料库包含具有不连续结构的命名实体例如,短语“HEL、KU812和K562细胞”包含两个不连续的在我们的实验中,我们遵循Finkel和Manning(2009)的工作,其中train/dev/test分割为81%/9%/10%,其中只评估五种类型的连续实体。它们是DNA、RNA、蛋白质、细胞类型和细胞系。4.2. 实现细节我们使用预先训练的语言模型(BERT和ALBERT)作为令牌编码器,以支持边界检测和跨度分类。对于BERT,我们使用大大小写的bert(Devlin等人, 2019)和BioBert-大盒v1.1(Lee等人, 2019)版本,表1ACE 2005数据集。项目火车Dev测试总嵌套文件3704351464–句子7577100110829630–百分比百分之八十百分之十百分之十百分百百分之四十FAC8711621361169594GPE471168042958202815LOC74710154902498ORG376439753746981930VEH5768297755343每1297816611679163185936WEA65710450811327总24304318729823047312443表2GENIA数据集的统计数据。项目火车Dev测试总嵌套文件15991892122000-句子150221669188518576-百分比百分之八十一百分之九百分之十百分百百分之十八DNA795010661290103092374RNA735140117992440蛋白2910623483108345866130细胞系31693456193976545细胞类型60465644627233923总47006446155965703610412ACE 2005和GENIA上分别有1024个维度。对于Albert,我们使用Albert-large-v2(Lan等人,2019年,4096个维度。对于令牌表示,令牌编码器首先用于获得令牌的抽象表示。此外,我们还将由维度为100的LSTM提取的字符特征向量、维度为100的POS嵌入和维度为300的令牌嵌入连接起来,以增强令牌表示。第我们实验中使用的参数如表3所示。MLP层由两个线性层组成,其中Relu用作激活函数。为了避免过度拟合,我们在每个线性层前面添加一个Dropout层。当生成负邻域跨度时,通过以随机长度左右偏移跨度的边界来获得与真实实体重叠的跨度。跨度长度不超过预定义的最大图元长度。4.3. 边界表示在我们的模型中,每一个边界表示的组合跨度表示的两侧的字间隙。在这个实验中,我们分析了跨度大小对性能的影响(等式中的窗口大小k)。(2))。结果示于表4中。实验结果表明,当窗口大小为1时,该算法的性能最好.增加窗口大小不会提高边界检测性能。这意味着在词间隙两侧的两个标记表示对于生成边界表示是有价值的。其原因可能是实体边界通常取决于本地信息。增加窗口大小会引入不相关的信息。在我们的实验中,窗口大小1被设置为默认设置。4.4. 与相关著作在这一节中,我们的模型与其他相关的工作的基础上GENIA和ACE05数据集进行了比较。我们列出了他们报告的最佳性能的结果。BERT和ALBERT都用作令牌编码器。与相关作品相同,在GENIA数据集中,BERT是BioBERT版本。结果示于表5中。将我们的模型与不同的预训练语言模型(BERT和ALBERT)进行比较,我们可以看到ALBERT在ACE05数据集中实现然而,在GENIA数据集中,ALBERT与BioBERT相比,ALBERT具有较低的性能。原因是BioBERT是用生物医学文档初始化对生物医学命名实体的语义信息进行编码是有效的。因此,在GENIA数据集中,相关作品通常使用BioBERT作为默认的令牌编码器。在GENIA数据集中,Li等人(2022)将命名实体识别实现为词-词关系分类任务,该任务验证句子中的所有词-词对。它在GENIA数据集中取得了最好的性能。由于数据集中含有大量的缩略语和不连续的实体,它们使边界检测的性能变差.如表4所示,与ACE05数据集相比,GENIA数据集中的边界检测性能要低得多。由于级联故障问题,我们的模型在GENIA数据集上的性能较低。结果表明,准确识别实体边界对于充分利用我们的模型至关重要。与以前的最先进的性能相比,我们提出的模型在ACE05数据集上实现了显着的改进,在F1得分上提高了1.76%的性能由于我们只验证由检测到的实体边界组装生成的实体跨度,因此具有降低计算复杂度的优点。表5中的结果表明,我们的模型在GENIA数据集中也达到了有竞争力的性能。N. 永明角延平Q. Yongbin等沙特国王大学学报8367我表3我们实验中使用的超参数。如果列出两个值,则它们分别对应于ACE-2005和GENIA参数值批量16时代60AdamW优化器d0512学习率2 e- 5脱落概率0.2,0.4临界值0.4最大实体长度15,10Ne100,80a0.9表4边界跨度的不同窗口值的比较评估边界检测器、模型结构、实体表示和实体采样的影响。实验结果示于表6中。在第一个实验中,基于双仿射分类器和线性分类器评估边界检测器。与线性分类器对单个特征进行预测的结果相比,证明了双仿射边界检测器的有效性。使用双仿射分类器可以捕获更多的局部上下文依赖性,并赋予模型更强的学习边界表示的能力。因此,它的工作优于线性分类器,有效地提高了检测精度。在第二个实验中,我们评估了模型结构的有效性。在我们的模型中,一个多任务框架被用来检测实体边界,并在同一时间识别实体。我们将它与另外两种结构:“w/o B”模型和“w/o BD”模型进行了比较在“w/o BD”模型中,去除了边界检测模块。它变成了一个详尽的模型。实验结果表明,无论是显式还是隐式地向模型k = 387.8888.7388.3192.3094.9393.59可以提高NER的性能边界检测和K = 488.7187.1387.9191.1395.1893.11边界装配有助于获得精确定位实体K = 588.6987.0387.8691.2894.8693.03跨度,这有效地提高了性能。4.5. 消融研究在本节中,我们进行了消融研究,以验证模型中不同组件的有效性。在这个实验中,BERT被用作编码器。进行了四个实验,在第三个实验中,我们将性能与不同的实体表示,如Eq. (九)、将其与标记为“c a v g“的令牌呈现的平均池进行比较实验结果表明,基于自注意机制的实体表示更具有优势,因为它可以聚焦基于不同实体跨度的不同上下文信息。表5与相关作品比较。方法GeniaACE 2005P(%)R(%)F1(%)P(%)R(%)F1(%)Finkel和Manning(2009)75.469.570.3–––卢和罗斯(2015)72.562.268.766.359.262.5Muis and Lu(2017)75.466.870.869.158.163.1Sohrab和Miwa(2018)73.368.871.1–––Ju等人(2018年)78.571.374.774.270.372.2Zheng等人(2019年)75.973.674.7–––预训练LMStraková等人(2019年)––78.31––84.33Tan等人(2020年)79.277.478.383.883.983.9Wang等人(2020年)80.3178.3379.3185.3087.4086.34Yan等(2021年)78.8779.6079.2383.1686.3884.74Li等人(2022)83.1079.7681.3985.0388.6286.79我们的[BERT]80.8278.8279.8185.2687.6686.44我们的[阿尔伯特]79.7477.7078.7087.8789.2488.55表6GENIA和ACE 2005上的消融研究我我cecavg80.21 79.01 79.62 85.64 86.79e79.69 78.81 79.224负跨度采样我们80.8278.8279.8185.2687.6686.44BA79.4078.9179.1584.7486.9985.85EA78.0977.5978.3385.0587.0686.05C我设置GeniaACE 2005P(%)R(%) F1(%)P(%)R(%)F1(%)K= 1个88.8288.0588.4392.0595.5693.77K = 288.6288.1688.3992.0595.3493.67EXP设置P(%)GeniaR(%)F1(%)P(%)ACE 2005R(%)F1(%)1边界检测器双仿射88.8288.0588.4392.0595.5693.77线性87.8388.3088.0791.3495.5493.392模型结构我们80.8278.8279.8185.2687.6686.44不含BA79.1879.4779.3382.5887.7685.09无BD74.9580.1377.4581.5387.6384.473实体表示CeC ATT80.8278.8279.8185.2687.6686.44N. 永明角延平Q. Yongbin等沙特国王大学学报8368-表7GENIA上嵌套实体识别的一个实例。在最后的实验中,比较了不同的负实体跨度生成策略,以显示我们的实体抽样方法的影响。Chen et al.(2015)使用了BA模型,它组装了两个真实边界。EA模型是一种生成所有可能跨度的递归枚举方法。实验结果表明,该策略考虑了所有的否定实体跨度,并且只关注与真实体语义相似的否定实体跨度,因此具有更好的效果。4.6. 为例在本节中,我们进行了案例研究,以显示我们的模型的有效性,我们的模型与传统的跨度为基础的模型进行了比较。在这个模型中,一个句子也被映射到一个抽象的句子表示。然后,我们从句子表示中枚举所有长度为1的每个实体跨度由MLP层分类。在这个实验中,我们使用与模型相同的设置来初始化这个基于跨度的模型。从GENIA语料库中收集了一句话:“在-512至40 LMP 1 DNA中发现了蛋白质EBNA - 2响应元件,因为该DNA与氯霉素乙酰转移酶报告基因连接,通过与EBNA - 2表达载体共转染而被反式激活。”它包含9个嵌套命名实体。它们显示在表7中,其中蛋白质和DNA实体分别以绿色和蓝色开始和结束的边界由左括号和右括号突出显示。结果表明,基于跨度的模型产生三个假阳性(FP)错误,以红色表示,上标为“FP”。造成这种现象的原因是基于跨度的模型验证了大量的负跨度,这些负跨度与真正的命名实体高度重叠。例如,阴性跨度“EBNA- 2 -”与蛋白质“EBNA- 2”高度重叠,与阴性跨度“512至+40LMP 1 DNA”和阳性跨度"512至+40 LMP 1 DNA”相同。因为它们具有相同的上下文特征,一句话很难区分它们。在我们的模型中,实体边界首先在边界检测过程中识别。标记之间的间隙被标记为实体边界。它避免了当一个标记同时作为命名实体的开始和结束边界时所引起的歧义。此外,实体边界检测严重依赖于句子的局部特征,这保证了更高的性能。在我们的模型中,输出显示在边界检测过程中仅丢失正边界元。它显示在“边界检测”行中,带有红色括号。高性能1在ACE 05和GENIA中,所有实体长度分别限制为15和10。边界检测还保证生成具有精确边界的实体跨度。它们对于支持实体识别是有价值的。表7中的结果表明,我们的实体识别模型仅生成假阴性(FN)错误。我们的模型的另一个优点是与计算复杂性和数据不平衡问题有关。在这个实验中,句子可以列举355个实体跨度。由于该语句中只有9个跨度是正的,这导致了非常高的计算复杂度和严重的数据不平衡。在我们的模型中,边界检测输出4个开始边界和8个结束边界。在对检测到的边界进行组装后,仅生成9个实体跨度并进行验证,这大大降低了计算复杂度和数据不平衡问题。5. 结论在本文中,我们提出了一个多任务模型嵌套命名实体识别,检测实体边界和分类实体跨度在一个统一的框架。在该模型中,不是将标记标记为实体边界,而是预测标记之间的间隙以支持实体跨度提议。它具有减少实体边界歧义和充分利用边界的上下文特征在跨度识别中,提出了一种否定实体的建议,以减少数据不平衡和计算复杂性问题。我们的模型在两个公共数据集上进行了评估它在ACE05语料库上实现了最先进的性能未来,我们的模式至少可以从四个方面发展。首先,不同实体跨度之间的语义依赖性目前被忽略。在未来的工作中,可以对实体跨度之间的语义依赖性进行编码,以用于嵌套命名实体识别。第二,边界检测的性能设计一个更有效的边界检测模块将是更好的,特别是在生物医学语料库的不连续实体。第三,使用上下文特征或外部资源改进跨度表示也有助于提高嵌套命名实体的性能。第四,GENIA包含不连续的命名实体。它们可以用来提高边界检测的性能竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。N. 永明角延平Q. Yongbin等沙特国王大学学报8369致谢本工作得到了国家自然科学基金项目(62166007、62066008、62066007)和贵州省自然科学基金项目(62166007、62066008)的资助。[2022]ZK027.引用亚历克斯,B.,Haddow,B.,格罗弗角2007.在生物医学文本中识别嵌套命名实体,在:BioNLP 2007研讨会会议记录:生物,翻译和临床语言处理,布拉格,捷克共和国。p. 65岁doi:10.3115/1572392.1572404。陈玉,吴,Y.,秦,Y.,Hu,Y.,王志,黄河,巴西-地郑,X,陈佩,2020.基于神经网络边 界 组 装 模 型 的 嵌 套 命 名 实 体 识 别 。 IEEE Intell. 系 统 35 , 74-81 。https://doi.org/10.1109/MIS.2019.2952334.陈玉,郑昆,陈佩,2015.一种用于中文实体提及识别的边界组装方法。IEEE Intell.系统30,50-58。https://doi.org/10.1109/MIS.2015.71。Devlin , J. , Chang , M.W. , 李 , K. , Toutanova , K. , 2019. BERT :DeepBidirectional Transformers for Language Understanding的预训练。在:2019年计算语言学协会北美分会会议:人类语言技术-会议论文集。芬克尔,J.R.,哥伦比亚特区曼宁2009年嵌套命名实体识别。In:Proceedings of the2009 Conference on Empirical Methods in Natural Language Processing ,Singapore,p. 141.https://doi.org/10.3115/1699510.1699529网站。贾恩,A.,Paranjape,B.,Lipton,Z.C.,2019.通过机器翻译的跨语言NER实体投影。在:2019自然语言处理经验方法会议和第九届自然语言处理国际联合会议,会议论文集。杰,Z.,卢伟,2019.用于命名实体识别的依赖性引导lstm-crf。在:2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议,会议记录3860-3870.https://doi.org/10.18653/v1/D19-1399网站。Ju,M.,Miwa,M.,Ananiadou,S.,2018年在:用于嵌套命名实体识别的神经分层模型,在:计算语言学协会北美分会2018年会议论文集:人类语言技术。NewOrleans,路易斯安那州1446-1459. 网址://doi. org/10.18653/v1/N18-1131。Katiyar,A.,Cardie,C.,2018年嵌套命名实体识别再访,在:2018年会议的北美分会的计算语言学协会pp. 861-871. doi:10.18653/v1/N18-1079。Kim,J.D.,Ohta,T.,Tateisi,Y.,Tsujii,J.,2003. GENIA语料库-一个语义注释语料 库 的 生 物 文 本 挖 掘 。 生 物 信 息 学 19 , i180-i182 。 网 址 : //doi.org/10.1093/bioinformatics/btg1023.兰,Z.,陈美,古德曼,S.,Gimpel,K.,夏尔马,P.,索利库特河2019年。Albert:一个用于语言表示的自我监督学习的Lite bert。arXiv预印本arXiv:1909.11942。李,J.,Yoon,W.,Kim,S.,金,D.,Kim,S.,CH康,J.,2019. Biobert:一个用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学。李杰,Fei,H.,刘杰,吴,S.,张,M.,Teng,C.,Ji,D.,Li,F.,2022年。 将命名实体识别统一为词-词关系分类。在:AAAI人工智能会议论文集。卢 伟 , Roth , D. , 2015. Joint Mention Extraction and Classification with MentionHypergraphs,in:Proceedings of the 2015 Conference on Emp
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功