金融文本挖掘的多任务预训练模型研究

需积分: 0 76 浏览量更新于2024-08-05 收藏 1.29MB PDF 举报

"用于金融文本挖掘的多任务学习预训练金融语言模型_刘壮1" 本文主要探讨了在金融文本挖掘领域，如何利用多任务学习和预训练语言模型来提升信息提取的效率和准确性。金融文本数据包含丰富的信息，如市场动态、公司公告、研究报告等，这些信息对于投资者决策和金融科技应用至关重要。传统的机器学习方法在处理此类文本时可能受限于特征工程和对语义理解的不足。随着深度学习技术的进步，特别是神经网络模型的发展，尤其是预训练模型如BERT、GPT等的出现，为金融文本的理解和挖掘提供了新的可能。预训练模型通过在大规模无标注文本上进行训练，学习到通用的语言表示，然后在特定任务上进行微调，以适应具体的应用场景。刘壮等人提出了一种结合多任务学习的预训练金融语言模型。多任务学习允许模型同时处理多个相关任务，如情感分析、事件抽取、实体识别等，这样可以共享底层的语义表示，提高模型泛化能力和性能。在金融领域，这些任务可以帮助我们更好地理解文本中的经济信号，例如预测股票价格波动、识别财务风险等。文章指出，金融文本有其独特的领域特性，如专业术语、复杂的句子结构等，因此需要定制化的预训练模型。在预训练阶段，模型会学习金融领域的词汇和语法规则，增强对金融文本的理解。而在微调阶段，模型会针对特定的金融任务进行优化，如识别财务报表中的关键指标或分析投资建议。实验部分，作者可能对比了使用通用预训练模型与金融领域预训练模型的效果，并评估了多任务学习对性能的提升。结果可能表明，金融领域预训练模型在金融文本挖掘任务上的表现优于通用模型，而多任务学习进一步增强了模型的性能，特别是在任务之间存在相关性的情况下。此外，论文还可能讨论了训练过程中的一些技术挑战，如数据稀缺性、模型的计算复杂度以及如何有效地结合不同任务的损失函数。为解决这些问题，作者可能提出了相应的优化策略，如使用迁移学习、动态权重分配等方法。这篇研究为金融文本挖掘提供了一个创新的解决方案，通过多任务学习和金融领域的预训练模型，提高了从海量金融文本中提取有价值信息的能力。这种方法对于金融科技的发展，如智能投顾、风险管理、市场预测等领域有着重要的实践意义。

３

）

分别在金融关系提取

、

金融情绪分类

、

金融

智能问答任务上进行了金融任务实验

，

验证了

Ｆ

－

ＢＥＲＴ

的有效性和鲁棒性

．

实验结果表明

Ｆ

－

ＢＥＲＴ

模型在这

３

个有代表性的金融文本挖掘任务均取得

了最佳准确性

，

优于所有当前其他模型性能

；

另外

，

针对金融命名实体识别

、

金融短文本分类这

２

个实

际金融科技任务也进行了实验验证

，

所提出的

Ｆ

－

ＢＥＲＴ

模型均取得了最佳准确性

．

４

）

采取了一种混合精度训练方法

，

并在

Ｈｏｒｏｖｏｄ

框架上进行

Ｆ

－

ＢＥＲＴ

的分布式训练

，

既使得整个训

练过程具有稳定加速比

，

同时拥有较好的可扩展性

．

５

）

在

Ｇｉｔｈｕｂ

上进行了

Ｆ

－

ＢＥＲＴ

的开源

，

包括

其模型架构

、

源代码

、

超参数

、

训练模型

，

以及用于微

调的源代码

．

通过该开源代码

，

Ｆ

－

ＢＥＲＴ

可用于各种

其他下游金融文本挖掘任务

，

对特定金融文本分析

任务进行最少的修改即可帮助实现最新的性能

．

１

相关工作

１．１

预训练模型

预训练模型最早应用于机器图像和计算机视频

领域

．

在

２０１２

年的大规模图像识别竞赛

Ｉｍａ

ｇ

ｅＮｅｔ

［

６

］

中

，

当时取得第一名成绩的

ＡｌｅｘＮｅｔ

［

７

］

横空出世

，

它

采取了基于

ＣＮＮ

［

８

］

的卷积神经网络模型架构

．

此

后

，

ＡｌｅｘＮｅｔ

被广泛应用在众多的机器视觉任务中

．

虽然很多新模型并不是完全借鉴

ＡｌｅｘＮｅｔ

模型架

构从头开始训练

，

而是主要利用在

Ｉｍａ

ｇ

ｅＮｅｔ

上训

练得到的

ＡｌｅｘＮｅｔ

模型的参数和神经网络架构

，

再

进一步结合实际任务进行少量修改

，

然后在新的数

据上训练和优化

．

实验结果表明

，

复用预训练模型可

以显著增加目标任务的准确度

，

也大大缩短了新模

型的训练时间

．

预训练模型的一大优势是

，

可以利用在其他相

似任务的大量数据上建立有效的模型再迁移到目标

任务

，

从而解决了目标任务

（

例如股票涨跌预测

）

训

练数据不足的问题

．

另外

，

从垂直领域文档

（

例如金

融文本数据等

）

中提取有价值的信息正在变得越来

越重要

，

深度学习促进了有效的垂直领域文本挖掘

的研究发展

．

１．２

预训练语言模型

ＢＥＲＴ

Ｇｏｏ

ｇ

ｌｅ

在

２０１８

年下半年发布了预训练语言模

型

ＢＥＲＴ

［

３

］

，

在自然语言处理界具有开创时代的意

义

．

接下来

，

ＢＥＲＴ

模型在十多个自然语言理解任务

中全部取得了最佳模型准确率

，

在多个公开自然语

言处理竞赛上取得大幅提升

，

甚至在常识推理

、

自动

问答

、

情绪分析

、

关系抽取

、

命名实体识别等竞赛均

取得了超过了人类准确率的成绩

．

同时

，

在

ＢＥＲＴ

模

型的源码发布之后

，

后续研究人员基于开源代码和

预训练模型进行了各种自然语言处理任务

，

进一步

大幅提升了各个

ＮＬＰ

任务模型的成绩

．

例如

，

在

ＳＱｕＡＤ

［

９

－

１２

］

竞赛排行榜上排名前

２０

名的模型均选

择使用

ＢＥＲＴ

模型

，

且最好成绩超过人类水平

；

在

ＣｏＱＡ

［

１３

－

１５

］

竞赛排行榜上

，

排名前

１２

名的模型也全

部基于

ＢＥＲＴ

模型

，

排名第一的模型也同样取得了

超过人类水平的成绩

．

ＢＥＲＴ

本质上也是一种多层

Ｔｒａｎｓｆｏｒｍｅｒ

［

１６

］

结

构

．

它的输入是一段文本中每个单词的词向量

（

分词

由

Ｗｏｒｄ

Ｐｉｅｃｅ

生成

），

输出是每个单词的

ＢＥＲＴ

编

码

．

单词的

ＢＥＲＴ

编码表示一般包含了该单词及其

上下文的信息

．ＢＥＲＴ

模型采用了

２

个预训练任务

：

双向语言模型和判断下一段文本

．

这

２

个任务均属

于无监督学习

，

即只需要文本语料库

，

不需要任何人

工标注数据

．

１

）

掩码机制

ＢＥＲＴ

提出了掩码机制

．ＢＥＲＴ

在一段文本中

随机挑选

１５％

的单词

，

以掩码符号

［

ＭＡＳＫ

］

代替

．

然

后

，

利用多层

Ｔｒａｎｓｆｏｒｍｅｒ

机制预测这些位置的单

词

．

由于输入中没有被掩去的单词的任何信息

，

这些

位置上的

Ｔｒａｎｓｆｏｒｍｅｒ

输出可以用来预测对应的单

词

．

因此

ＢＥＲＴ

是一个双向语言模型

．

但是

，

由于原

文本中并不包含掩码

［

ＭＡＳＫ

］，

从而使得预训练任

务与真正目标任务会出现不一致的情况

．

为了更好

地缓解这个问题

，

ＢＥＲＴ

采取了在选取被掩单词后

以

８０％

的概率替换成

［

ＭＡＳＫ

］，

同时以

１０％

的概率

替换成一个随机单词

，

以

１０％

的概率保持原单词的

方法

．

最终实验也证明该方法可以有效地提升目标

任务的准确性

．

２

）

判断下一段文本机制

ＢＥＲＴ

的第

２

个预训练任务是二分类问题

：

给

定

２

段文本

Ａ

，

Ｂ

，

判断

Ｂ

是否是原文中

Ａ

的下一

段文本

．

为了尽可能多地考虑上下文

，

文本

Ａ

和

Ｂ

的长度总和最大为

５１２

个词

．

训练中

，

５０％

的正例来

自原文中紧挨着的

２

段文本

，

５０％

的负例来自

２

段

无关联的文本

．

由于

Ｔｒａｎｓｆｏｒｍｅｒ

结构只接收一段

文本输入

，

ＢＥＲＴ

将

Ａ

和

Ｂ

拼接起来

，

并加上起始

符号

［

ＣＬＳ

］

和分隔符

［

ＳＥＰ

］

．

为了使模型区分文本

Ａ

和

Ｂ

，

还加入了段编码

，

即给文本

Ａ

和文本

Ｂ

中的

单词分配不同的编码

．

设起始符

［

ＣＬＳ

］

位置的

３６７１

刘

壮等

：

用于金融文本挖掘的多任务学习预训练金融语言模型

剩余11页未读，继续阅读

马克love

粉丝: 39
资源: 319

金融文本挖掘的多任务预训练模型研究

pytorch-lr-explorer:Jupyter笔记本探索用于训练深度神经网络的复杂学习率策略

311509060128-刘壮飞-简单的即时通信软件1

深度学习视角下的初中物理教学实践.pdf

【java毕业设计】校内跑腿业务系统源码（springboot+vue+mysql+说明文档）.zip

【java毕业设计】大学志愿填报系统源码（springboot+vue+mysql+说明文档）.zip

基于java的网吧管理系统答辩PPT.pptx

基于java的基于SSM架构的网上书城系统答辩PPT.pptx

tornado-6.1-cp37-cp37m-win32.whl

气泡排序、插入排序、选择排序、快速排序、希尔排序、堆排序、合并排序-SortAlgorithm.zip

Keyboard Maestro 11.0.3-macwk.dmg

最新资源