CCKS 2019
task4:
BERT
李振
1
, 刘恒
1
, 赵兴莹
1
, 李毓瑞
1
, 秦培歌
1
1
民生科技有限责任公司 ,北京 101300,中国
lizhen, liuheng, zhaoxingying, liyurui, qinpeige@mskj.com
. 本文报告了本团队在CCKS 2019面向金融领域的事件主体抽取任务
的提交。本文遵循从简单到复杂的思想设计多个学习器,并基于集成学习
的思想将多个学习器进行融合,其中每个学习器采用编码-解码的思路进
行设计。最终,模型在A榜最高成绩达到0.92620,排名第11位,在B榜最
高成绩达到0.82816,排名第17位。
Keywords: 模型融合,编码-解码, BERT
1
事件抽取是从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化
的形式呈现出来。它不仅是构建知识图谱的关键任务,也是自然语言处理的难
点和热点问题之一,在自动文摘、自动问答、信息检索等领域有着广泛的应
用。本文所研究的面向金融领域的事件主体抽取任务,是事件抽取任务中的限
定域事件抽取。任务的目标是从一段金融事件文本中抽取出发生特定事件类型
的主体,主体范围限定为:公司和机构,事件类型共有21种,包括交易违规、
投诉维权、涉嫌欺诈和财务造假等。
限定域事件抽取是在进行抽取之前,预先定义好目标事件的类型。限定域
事件抽取是信息抽取和知识图谱构建的重要环节之一,受到了学术界和产业界
的广泛关注,研究者针对该任务进行了大量的研究。目前,对于限定域事件抽
取主要有两种方法:基于模式匹配的方法和基于机器学习的方法。基于模式匹
配的方法是在一些模式的指导下进行某种类型的事件的识别和抽取。由于基于
模式匹配的方法依赖于文本的具体形式(语言、领域和文档格式等),且制定
的模式很难覆盖所有的事件类型,当语料发生变化时,需要重新获取模式,因
此基于机器学习的事件主体抽取成为主流方法。基于机器学习的事件抽取方法
中最具有代表性的是基于有监督学习的事件抽取,即将事件抽取建模成一个多
分类问题,提取特征向量后再使用有监督的分类器进行事件抽取。本文采用基
于有监督学习的方法从金融事件文本中抽取事件主体。
模型的整体设计思路是设计从简单到复杂的多个学习器,基于集成学习的
思想将多个学习器结合起来,从而获得更好的性能。首先,以BERT+FC作为基
准模型,添加一层self-attention作为编码器,构建BERT+self-attention+FC模型。