282
Journal of Software 软件学报 Vol.27, No.2, February 2016
等多个角度抽取事件的特征.Fu 等人
[17]
提出了一个特征加权方法对中文事件的各种特征进行权重重新分配.
Wang
[18]
把各种特征,如项频度、句子位置和长度、标题词覆盖率、语义角色标注信息等组合起来,选择信息化
最大的句子作为候选事件句.Chen 和 Ng
[19]
把字符、语义角色标注、触发词概率、零指代、触发词一致性和论
元一致性等特征用于中文事件抽取.赵妍妍等人
[20]
对 Ahn
[8]
的工作进行了特征方面的改进.付剑锋等人
[21]
用依
存分析来挖掘触发词与其他词之间的句法关系.本文前期工作
[22]
提出利用主题模型对词语进行聚类,并利用类
别信息来抽取中文事件.本文的前期工作
[23]
还针对事件抽取论元角色缺失的现象,提出了基于跨事件的缺失事
件角色填充方法.
在触发词扩展方面,本文的前期工作
[24]
发现,未知事件触发词(不在训练语料中出现的触发词)是导致中文
事件抽取系统性能低下的主要原因之一.目前,通过同义词或聚类方法进行触发词扩展是常用的方法.Chen 等
人
[25]
采用自举方法分别在英文和中文语料上进行事件抽取的联合训练,从而提高中文和英文的事件抽取性能.
Ji
[26]
从中英平行语料库入手,从英文语料中扩展新的中文触发词.Qin 等人
[27]
则用同义词词林来扩展中文事件
触发词.同义词扩展方法忽略了词汇的多义性,往往会降低准确率,从而影响整体性能.本文的前期工作
[24,28]
根
据中文词组的组合语言学,分别从动词构词结构和形态结构两个方面入手识别未知事件触发词,取得了良好的
效果.
联合(学习)模型可以很好地协同两个或多个子任务:它不仅可把不确定信息从前面子任务传导到后面子任
务,而且允许后面子任务中产生的有价值信息反馈到前面子任务.近年来,联合模型成为自然语言处理的一个研
究热点,如联合中文分词和词性标注
[29,30]
、联合词性标注和依存分析
[31]
、联合句法分析和语义角色标注
[32]
等.
在事件抽取方面相关研究较少,而且多数应用于生物医学领域.Riedel 等人
[33]
、Poon 等人
[34]
利用马尔科夫逻辑
构建联合学习框架来抽取生物医学中的事件实例.Riedel 等人
[35]
提出了面向生物医学事件抽取的 3 个联合模
型:第 1 个联合了触发词和论元的识别,第 2 个增加了在层次规则架构方面的一致性,第 3 个则把第 1 个和第 2
个集成用于捕获相同事件中不同论元的内在联系.另外,Do 等人
[36]
构建了一个强调(事件-事件)对分类器和(事
件-时间)对分类器一致性的联合模型.Li 等人
[3]
提出了一个基于结构预测的事件抽取联合学习架构,并利用束
搜索(beam search)来获得较优解.在中文事件抽取方面,本文的前期工作
[1]
提出了一个结合了中文事件触发词识
别和分类的联合模型,该模型结合了多种硬约束条件,提高了抽取系统的性能.本文的前期工作
[37]
还面向事件论
元抽取提出了利用论元在事件内和事件间一致性进行事件抽取的联合模型.
2 基准系统
触发词抽取由 2 个子任务组成,包括:1) 触发词识别,用于识别触发词实例(事件实例),如识别例 1 的触发词
实例“返回”及其对应的事件实例 EM
1
;2) 触发词类型分配,用于为识别的触发词实例分配事件类型,如分配
Transport(运输)为 EM
1
的事件类型.论元抽取同样包括 2 个子任务:1) 论元识别,用于识别某个特定类型事件实
例的论元,如识别“维和部队官兵”、“25 日”、“飞机”和“安曼”为例 1 事件实例 EM
1
的论元;2) 论元角色分配,
为每个论元分配角色,如分配角色 Destination(目的地)给 EM1 的论元“安曼”等.
本文的前期工作
[1,24]
在 Chen 等人
[16]
的基础上优化了中文事件抽取的特征,被用作本文触发词抽取(包括触
发词识别和触发词类型分配)的基准系统.其中,触发词识别和触发词类型分配均采用最大熵模型(maximum-
entropy,简称 ME),包括以下特征集合:
• 词汇信息(6):触发词本身;触发词的词性;触发词的前一词+触发词;触发词+触发词的后一词;前一词的
词性+触发词词性;触发词的词性+后一词的词性.
• 句法信息(4):触发词在句法树中的深度;触发词所在短语的类型;触发词到其支配子句顶层的路径;触
发词父节点的短语结构.
• 语义信息(2):触发词是否存在中文 PropBank 的谓词表中;触发词在中文同义词词林中编号.
• 最近实体信息(8):在句法树上离触发词最近的左/右实体及其类型;在物理距离上离触发词最近的左/
右实体及其类型.