中文事件触发词抽取：语义联合模型

需积分: 0 30 浏览量更新于2024-07-01 收藏 631KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于语义的中文事件触发词抽取联合模型" 中文事件触发词抽取是自然语言处理中的一个重要任务，它涉及到对文本中发生的事件进行识别和分类，以便于理解和分析文本的意义。该任务的挑战性在于，中文句子的结构灵活且经常省略句法成分，使得事件触发词及其相关的语义信息难以准确获取。此外，一些含有较少信息的事件实例也增加了抽取的难度。针对这些问题，研究者提出了一种基于语义的中文事件触发词抽取联合模型。首先，模型利用模式匹配的方法来抽取核心论元和辅助论元。核心论元是事件的主要参与者，而辅助论元则提供了事件的上下文信息。由于中文句子常有省略现象，模式匹配可以帮助恢复这些省略的信息，从而更准确地表示论元的语义，有助于提升事件触发词的抽取性能。其次，模型关注同一文档中相关事件实例的一致性。通过构建一个关联事件语义驱动的二维联合模型，可以利用这些事件之间的关联性来识别和分类贫信息事件实例。这种方法利用了事件之间的共现模式，提高了对那些信息不充分的事件实例的抽取能力。在实验中，该模型被应用于ACE2005中文语料库，结果显示，相比于现有的最佳中文事件抽取系统，该方法显著提升了性能。实验结果证实了该模型的有效性，尤其是在处理复杂和信息不足的事件实例时。该研究贡献了一种新的策略，将语义信息和事件实例的关联性结合到事件触发词抽取的过程中，这为中文事件抽取提供了更全面和准确的解决方案。这一工作对于信息提取、文本理解以及后续的自然语言处理任务具有重要的理论和应用价值。关键词包括：中文触发词抽取、论元语义、关联事件语义、联合学习模型和核心论元。该研究属于计算机科学领域，特别是自然语言处理和信息检索的范畴。

资源详情

资源推荐

282

Journal of Software 软件学报 Vol.27, No.2, February 2016

等多个角度抽取事件的特征.Fu 等人

[17]

提出了一个特征加权方法对中文事件的各种特征进行权重重新分配.

Wang

[18]

把各种特征,如项频度、句子位置和长度、标题词覆盖率、语义角色标注信息等组合起来,选择信息化

最大的句子作为候选事件句.Chen 和 Ng

[19]

把字符、语义角色标注、触发词概率、零指代、触发词一致性和论

元一致性等特征用于中文事件抽取.赵妍妍等人

[20]

对 Ahn

[8]

的工作进行了特征方面的改进.付剑锋等人

[21]

用依

存分析来挖掘触发词与其他词之间的句法关系.本文前期工作

[22]

提出利用主题模型对词语进行聚类,并利用类

别信息来抽取中文事件.本文的前期工作

[23]

还针对事件抽取论元角色缺失的现象,提出了基于跨事件的缺失事

件角色填充方法.

在触发词扩展方面,本文的前期工作

[24]

发现,未知事件触发词(不在训练语料中出现的触发词)是导致中文

事件抽取系统性能低下的主要原因之一.目前,通过同义词或聚类方法进行触发词扩展是常用的方法.Chen 等

人

[25]

采用自举方法分别在英文和中文语料上进行事件抽取的联合训练,从而提高中文和英文的事件抽取性能.

[26]

从中英平行语料库入手,从英文语料中扩展新的中文触发词.Qin 等人

[27]

则用同义词词林来扩展中文事件

触发词.同义词扩展方法忽略了词汇的多义性,往往会降低准确率,从而影响整体性能.本文的前期工作

[24,28]

根

据中文词组的组合语言学,分别从动词构词结构和形态结构两个方面入手识别未知事件触发词,取得了良好的

效果.

联合(学习)模型可以很好地协同两个或多个子任务:它不仅可把不确定信息从前面子任务传导到后面子任

务,而且允许后面子任务中产生的有价值信息反馈到前面子任务.近年来,联合模型成为自然语言处理的一个研

究热点,如联合中文分词和词性标注

[29,30]

、联合词性标注和依存分析

[31]

、联合句法分析和语义角色标注

[32]

等.

在事件抽取方面相关研究较少,而且多数应用于生物医学领域.Riedel 等人

[33]

、Poon 等人

[34]

利用马尔科夫逻辑

构建联合学习框架来抽取生物医学中的事件实例.Riedel 等人

[35]

提出了面向生物医学事件抽取的 3 个联合模

型:第 1 个联合了触发词和论元的识别,第 2 个增加了在层次规则架构方面的一致性,第 3 个则把第 1 个和第 2

个集成用于捕获相同事件中不同论元的内在联系.另外,Do 等人

[36]

构建了一个强调(事件-事件)对分类器和(事

件-时间)对分类器一致性的联合模型.Li 等人

[3]

提出了一个基于结构预测的事件抽取联合学习架构,并利用束

搜索(beam search)来获得较优解.在中文事件抽取方面,本文的前期工作

[1]

提出了一个结合了中文事件触发词识

别和分类的联合模型,该模型结合了多种硬约束条件,提高了抽取系统的性能.本文的前期工作

[37]

还面向事件论

元抽取提出了利用论元在事件内和事件间一致性进行事件抽取的联合模型.

2 基准系统

触发词抽取由 2 个子任务组成,包括:1) 触发词识别,用于识别触发词实例(事件实例),如识别例 1 的触发词

实例“返回”及其对应的事件实例 EM

;2) 触发词类型分配,用于为识别的触发词实例分配事件类型,如分配

Transport(运输)为 EM

的事件类型.论元抽取同样包括 2 个子任务:1) 论元识别,用于识别某个特定类型事件实

例的论元,如识别“维和部队官兵”、“25 日”、“飞机”和“安曼”为例 1 事件实例 EM

的论元;2) 论元角色分配,

为每个论元分配角色,如分配角色 Destination(目的地)给 EM1 的论元“安曼”等.

本文的前期工作

[1,24]

在 Chen 等人

[16]

的基础上优化了中文事件抽取的特征,被用作本文触发词抽取(包括触

发词识别和触发词类型分配)的基准系统.其中,触发词识别和触发词类型分配均采用最大熵模型(maximum-

entropy,简称 ME),包括以下特征集合:

• 词汇信息(6):触发词本身;触发词的词性;触发词的前一词+触发词;触发词+触发词的后一词;前一词的

词性+触发词词性;触发词的词性+后一词的词性.

• 句法信息(4):触发词在句法树中的深度;触发词所在短语的类型;触发词到其支配子句顶层的路径;触

发词父节点的短语结构.

• 语义信息(2):触发词是否存在中文 PropBank 的谓词表中;触发词在中文同义词词林中编号.

• 最近实体信息(8):在句法树上离触发词最近的左/右实体及其类型;在物理距离上离触发词最近的左/

右实体及其类型.

剩余14页未读，继续阅读

Asama浅间

粉丝: 441
资源: 299

中文事件触发词抽取：语义联合模型

基于MLN的中文事件触发词推理方法1

Transformer篇章级事件抽取

词向量模型在实体抽取中的作用

与基于语法信息的经典信息论相比，基于语义信息的语义通信基本特征、系统架构、应用前景

基于语义分割的文本检测模型具体有哪些模型

PaddleNLP开源的通用信息抽取模型UIE为什么支持零样本抽取

基于动词论元结构的中文事件抽取方法的效率

[判断] UML语义描述基于UML的精确元模型定义。 正确 错误

基于语义相似度的算法有哪些

用QAmodel做语义抽取

基于语义分割模型进行待分割图像分割的过程是怎样的

PFN关系抽取模型如何改进

python文本特征抽取词向量模型

基于模板分类和基于语义分类

基于语义相似度的地名消歧算法有哪些

基于时间序列的语义分割模型推荐

什么是基于语义的检索技术

基于动词论元结构的中文事件抽取方法引言700字

基于机器学习的实体关系抽取算法

基于语义分割的slam算法

最新资源

[判断] UML语义描述基于UML的精确元模型定义。正确错误