ELECTRA模型与词性特征提升金融事件抽取精度

需积分: 0 87 浏览量更新于2024-08-05 收藏 1.15MB PDF 举报

该研究论文主要探讨了在金融事件抽取中面临的关键问题，即实体边界模糊和抽取准确性不足。为了改善这些问题，作者陈星月、倪丽萍和倪志伟提出了一个新颖的方法，结合了预训练模型ELECTRA和词性特征。ELECTRA是一种强大的语言模型，它在自然语言处理任务中表现出色，特别是对于理解金融领域的专业词汇和上下文关系。研究的核心策略是通过双ELECTRA模型来提取语料中的预训练信息，并融合这两个模型的结果，增强对金融关键实体的识别能力。这种方法充分利用了原始语料的语义信息和词性特征，通过BiGRU网络捕捉上下文的长距离语义依赖，使得模型能够更全面地理解和识别金融事件。CRF（条件随机场）技术被用来解决标签偏差问题，进一步提高模型的准确性。实验结果显示，这种基于ELECTRA和词性特征的金融事件抽取方法在金融事件数据集上的F1值达到了70.96%，相较于传统的BiLSTM-CRF模型，性能提高了20.74个百分点，显示出显著的优势。然而，研究也指出了存在的局限性，例如数据集规模较小可能导致模型泛化能力受限，以及预训练模型的体积大，可能对计算资源有较高要求，特别是对GPU或TPU的内存占用。这项研究不仅为金融事件抽取提供了新的技术路线，而且证明了预训练模型与词性特征的有效结合可以显著提升金融事件的抽取精度。然而，未来的研究可能需要更大规模的数据集和更优化的模型架构来进一步提升模型性能。此外，对于实际应用来说，如何在资源有限的环境下部署和优化这种模型也是值得探讨的问题。

研究论文

数据分析与知识发现

抽取能力。词性特征是自然语言处理中比较重要的

研究内容，不同词性的词汇在句子中发挥着不同的

功能。在金融事件抽取中，名词、动词往往在句子中

有重要的作用，对抽取事件元素有很大帮助，此外，

词性自动标注的精度较高，噪声数据输入到模型的

可能性较小。因此，利用预训练模型与词性特征，模

型可以更好地感知上下文，提升抽取金融事件的

性能。

3 模型介绍

3.1 问题定义

金融事件抽取问题可以描述为：从文本语料中

识别是否存在相关的金融事件，再识别出相关事件

的涉及元素，最后确定每个元素所扮演的角色

［22］

。

如下所示，将例句输入到事件抽取模型中，需要将

E1、A1、A2 、A3 和 A4 抽取出来。其中 E1 称为触发

词，A1、A2、A3 和 A4 称为事件元素。

例句：美锦集团美锦集团（（A1））持有的上市公司 28.37 亿

股股份股份（（A2））中，已有 27.8 亿亿（（A3））股处于质押质押（（E1））状

态，占其持股的 97.98%（（A4））。

例句中的触发词为“质押”，说明包含着一个质

押事件，而抽取的元素 A 1、A2、A3 和 A4 在质押事件

中的元素角色分别为质押公司、质押物、质押数量、

质押比例。

基于机器学习的事件抽取主要有两种方法，分

别是管道式方法（The Pipelined Approach）和联合学

习方法（The Jo int Approach）。管道式方法在第一阶

段进行触发词识别、事件类型确定，第二阶段进行事

件元素的识别，即先将例句中的 E1 抽取出来，判断

属于哪类事件，之后根据 E1 事件框架进行 A1、A2、

A3 和 A4 的抽取。联合学习方法则同时提取触发词

和事件元素，即将例句中 E1、A1、A2、A3 和 A4 同时

抽取出来。由于管道式方法存在误差传播的现象，

如果在第一阶段事件类型判断错误，会导致第二阶

段事件元素抽取错误，因此本文采用联合学习方法，

利用触发词和事件元素之间的联系，让模型更有效

地学习到语料的局部特征，提高事件抽取的精度。

本文将事件抽取看作序列标注任务，标注策略采用

BIO 策略，B 表示事件元素的开始，I 表示事件元素的

中间或结尾词，O 表示无关词。

3.2 整体流程框架

本文提出一种基于 ELECTRA（Efficient ly

Learning an Encoder that Classifies Token Replacements

Accurately）预训练模型

［23］

和词性特征的金融事件抽

取模型 ELECTRA-POS-BiGRU-CRF 模型，对金融事

件中的相关要素进行抽取。首先对原始语料进行预

处理，输入不同的 ELECTRA 预训练模型中，分别获

取语料最初的语义信息以及通过外部工具包所输入

的词性特征；然后将隐藏层向量点乘融合，进行语义

增强，经过 BiGRU 获取 ELECTRA 输出信息中的上

下文语义依赖，输出最初的序列标签；最后利用条件

随机场（CRF）克服标签偏差。

单一的循环神经网络不能完全提取到语料中的

事件信息，会丢失一些重要信息，而预训练模型在大

量的数据上进行预训练，具有强大的提取特征能力。

EL ECTRA 是基于预训练模型 BERT 的改进，可以学

习到更好的文本表示。此外，通常的事件抽取模型

没有充分利用语料中自带的词性特征信息，一般来

说，词性为动词、名词的词语在事件描述中会使得后

续模型获得的语义信息更加丰富。因此本文引入预

训练模型 ELECTRA 和词性特征，通过一个预训练

模型 ELECTRA 获取原始语料中的语义信息特征，

通过另一个预训练模型 ELECTR A 获取带有外部知

识的词性特征，利用预训练模型强大的迁移能力，不

仅获取了语料中不同层次的语义信息，并且提取各

种词性下的实体联系，增强模型对关键实体的抽取

能力。

本文模型整体架构如图 1 所示。主要包括输入

层、两个 ELECTRA 预训练模型层、B iGRU 层、CRF

层以及输出层。

3.3 输入层

设计了两个 ELECTRA 预训练模型，其中一个

用于提取文本语义，另一个用于提取词性特征，针对

两者的不同功能，预处理操作包括如下流程，如图 2

所示。

（1）文本分词：利用分词方法将文本分为一个字

或者短语等词汇单位。由于需要将原始语料输入到

两个不同的预训练模型中，因此进行两种不同的

分词。

对于给定句子

x = { x

，x

，…，x

}

，其中

表示输

剩余11页未读，继续阅读

WaiyuetFung

粉丝: 700
资源: 316

ELECTRA模型与词性特征提升金融事件抽取精度

基于ELECTRA模型与词性特征的金融事件抽取方法研究.docx

基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型.docx

"基于ELECTRA模型的金融事件抽取方法研究：挖掘关键实体，助力投资决策

Dialog-ELECTRA:基于ELECTRA模型的会话语言模型

基于刑事Electra的编-解码关系抽取模型.pdf

Dialog-KoELECTRA:基于ELECTRA模型的会话语言模型

ELECTRA:中文 预训练 ELECTRA 模型

基于python的最新中文ELECTRA预训练模型源码

KoELECTRA：针对韩国人的预训练的ELECTRA模型

electra:基于async_awake的Electra iOS 11.0-11.1.2越狱工具包

最新资源

ELECTRA:中文预训练 ELECTRA 模型