自然语言处理预训练技术发展历程、BERT改进模型及应用的综述

需积分: 0 30 浏览量更新于2024-01-05 收藏 3.55MB PDF 举报

自然语言处理预训练技术综述陈德光^1；马金林^1,3；马自萍^2；周洁^1 1. 北方民族大学计算机科学与工程学院，银川 750021 2. 北方民族大学数学与信息科学学院，银川 750021 3. 图像图形智能处理国家民委重点实验室，银川 750021 通信作者 E-mail: 624160@163.com 摘要：自然语言处理预训练技术在近年来取得了显著的发展和应用。然而，目前已发表的技术综述大多数只关注神经网络预训练技术，或者只简单介绍了传统预训练技术，缺乏对自然语言预训练发展历程的完整描述与对比。为弥补这一缺陷，本文以自然语言预训练技术的发展历程为主线，从不同角度对其进行综述与分析。首先，基于预训练技术的更新路线，介绍传统自然语言预训练技术与神经网络预训练技术，并对它们的技术特点进行分析和比较。通过对比分析，总结出自然语言处理技术的发展脉络和趋势，为后续的研究工作提供指导。其次，重点介绍了基于BERT的改进型自然语言处理模型。对这些模型从预训练机制、优缺点、性能等方面进行总结和评估。通过对这些模型的介绍和比较，为科研工作者提供了更全面的了解和选择。再者，对自然语言处理的主要应用领域进行了介绍，并阐述了自然语言处理当前面临的挑战和相应的解决办法。这些应用领域包括机器翻译、文本分类、情感分析等。对于每个应用领域，我们探讨了其研究现状和存在的问题，并提出了相应的解决方案。最后，对本文的工作进行了总结，并对自然语言处理的未来发展方向进行了预测。我们认为，未来的重点将在于模型的效率和可解释性上，以及如何更好地将预训练技术与其他技术结合起来，实现更加高效和准确的自然语言处理。通过本文的综述，我们希望能够帮助科研工作者更全面地了解自然语言预训练技术的发展历程，并为他们在相关领域的研究提供参考和指导。同时，我们也期望能够推动自然语言处理技术的进一步发展和应用。

Journal of F rontiers of Computer Science an d Technology 计算机科学与探索 2021, 15(8)

的核心思想是将文档-术语矩阵分解为相互独立的文

档-主题矩阵和主题-术语矩阵

[25-26]

。

在实际应用中，原始计数的效果不理想（如果在

词汇表中给出

个文档和

个单词，可以构造一个

m × n

的矩阵

，其中每行代表一个文档，每列代表一

个单词。在 LSA 的最简单版本中，每一个条目可以

是第

个单词在第

个文档中出现次数的原始计数），

因此，LSA 模型通常用 TF-IDF 得分代替文档-术语中

的原始计数。一旦拥有文档-术语矩阵

，即可求解

隐含主题。由于

可能是稀疏的，具有极大噪声且在

维度上存在大量冗余的特性，因此，一般情况下采用

奇异值分解法（singular value decomposition，SVD）

[27]

处理，公式如下：

A ≈ U

（8）

U ∈ R

m × t

是文档-主题矩阵，行表示按主题表达的文档

向量；

V ∈ R

n × t

则是术语-主题矩阵，行代表按主题表

达的术语向量。经过这样的处理，可以得到词之间

的隐含关系。

LSA 采用低维词条、文本向量代替原始的空间

向量，能有效处理大规模语料且具有快速高效的特

点，适用于信息过滤、文本摘要以及机器翻译等跨语

言信息检索等生成式自然语言处理领域。但是 LSA

在进行信息提取时，忽略词语的语法信息（甚至是忽

略词语在句子中出现顺序），处理对象是可见语料，

不能通过计算得到词语的暗喻含义和类比推论含

义，同时需要大量文件和词汇来获得准确结果，存在

表征效率较低的缺点。为了解决这些问题，研究者们

对其进行了改进，其中最成功的改进为概率隐含语

义分析（probabilistic latent sem antic analysis，PLSA）

[28]

。

1.4.2 概率隐含语义分析

Ho fmann 在 1999 年撰写了概率隐含语义分析

PLSA

[28-29]

，通过一个生成模型为 LSA 赋予概率意义

上的解释。作者认为每篇语料都包含一系列可能的

潜在话题，语料中的每个单词都不是凭空产生的，而

是在这些潜在的话题的引导下通过一定概率生成

的，这也正是 PLSA 提出的生成模型的核心思想。

PLSA 通过下式对

和

的联合分布进行建模：

P ( w,d ) =

∑

P ( z ) P ( d|z ) P ( w|z ) = P ( d )

∑

P ( z|d ) P ( w|z )

（9）

式中，

表示一篇文档，

表示由文档生成的一个话

题，

表示由话题生成的一个单词。在该模型中，

和

是已经观测到的变量，

是未知变量（代表潜在话

题）。

PLSA 能从概率的角度解释模型，使模型变得容

易理解；同时，相对于 LSA的SVD方法，PLSA的 EM

[30]

（expectation maximization）算法具有线性收敛速度，

可以使似然函数达到局部最优。但是该模型无法生

成新的未知文档，同时，随着文档和词语个数的增

加，模型的复杂度会快速增大，从而导致模型出现严

重过拟合。

1.5 其他预训练技术

以上四类常见的预训练技术与模型耦合性相对

较低，具有较明显的区分。除此之外，部分传统自然

语言预训练技术与模型耦合性较高，较难将预训练

技术单独展示。这些常用到的有根据先验概率求后

验概率的贝叶斯分类技术（Bayesian classification，

BC）

[31]

、具有多重降级状态的马尔可夫（Markov model，

MM）

[32]

与隐马尔可夫模型（hidden Markov model，

HMM）

[33]

、判别式概率的无向图随机场（random f ield，

RF）

[34-35]

等。

综上，对常用的传统预训练技术进行汇总，如

表 1 所示。对每一个具体技术特点、优缺点及适用范

围进行总结。但是，在传统的自然语言预训练技术

中，存在无词序或词序不全问题，严重影响处理结

果。基于此，神经网络的自然语言预训练技术，尤其

是深度学习的自然语言预训练技术，对这些不足做

了一定的纠正。

2 神经网络预训练技术

针对传统自然语言预训练技术的不足，神经网

络自然语言预训练技术采取了改进措施，主要是将

词序间上下文关系考虑到实际语料中，这一部分综

述在国内外相对较多。Qiu 等

[6]

从词序是否上下文相

关、语言模型结构、任务类型以及技术应用范围四方

面来阐述预训练及模型相关技术，较为全面展现了

神经网络的自然语言预训练发展脉络。但是该论文

在不同分类方面存在较大交叉；同时，对传统预训练

技术涉及较少。Li u 等人

[5]

对无监督预训练机制进行

了综述，该文章从体系结构与策略两方面进行展开

讨论，并对相关工作进行总结与展望。但是，该综述

取材时间较近且关注范围狭小，对神经网络预训练

技术以及传统预训练技术部分并未涉及。在国内方

面，刘睿珩

[36]

、余同瑞

[37]

、李舟军

[38]

等人分别单独进行

1364

陈德光等：自然语言处理预训练技术综述

了自然语言处理预训练技术的研究综述，这几者综

述较为类似，均是重点介绍神经网络相关技术的概

要方法。但是整体内容较为浅显且对传统预训练技

术关注度较低。

本文针对以上不足，从神经网络预训练技术出

发，以词序是否上下文相关分为词向量固定表征和

词向量动态表征两种方式，以此为线索，展现出更为

合理的神经网络预训练技术。

2.1 词向量固定表征

词向量固定表征是将目标词的上下文相关词考

虑进去，能够较好地解决词性孤立不连贯问题。常

见的词向量固定表征有神经语言模型技术（neural

network language model，NNLM）、C&W（Collobert and

Weston）、Word2vec（word to vector）、FastText、Glove

（global vectors for word representation）等。

2.1.1 神经语言模型

神经语言模型 NNLM

[39]

：神经语言模型通过对元

语言模型进行建模，估算

P ( w

i -( n - 1)

i -( n - 2 )

,⋯,w

i - 1

)

的

值。与传统技术不同的是，NNLM 不是通过计数的

方法对目标条件进行概率计算，而是通过构建一个

神经网络结构对目标进行建模求解。图 3 显示了

NNLM 模型结构。

NNLM 主要由三层网络构成：输入层、隐藏层和

输出层。模型预训练在输入层与隐藏层中完成（即

图 3 中的矩阵

）。具体来说，分以下几步：首先，输入

层输入

n - 1

个词汇（每个词汇进行 One-hot 编码，

Table 1 Summ ary of traditional pre-training techniques

表 1 传统预训练技术汇总

模型大类

N-gram

向量空间

模型

Tex trank

技术

语义分析

其他技术

具体模型

N-gram

[7-8]

独热码

[11]

TF- IDF

[15-16]

信息增益

[17]

卡方分布

[18]

Tex trank

[23]

隐含语义分

析

[25-26]

概率隐含语

义分析

[28-29]

贝叶斯

[31]

马尔可夫与

隐马尔可夫

模型

[32-33]

条件随机场

[35]

技术特点

依据滑动窗口表示为

gram 列表

将文本表示扩展到欧式

空间，便于计算与比较

根据词频以及逆文档频

率计算词的重要程度

特征信息在出现前后的

信息熵之差

衡量特征项与类别之间

的关联程度

借鉴 PageRan k 算法，将

语料分割成组成单元并

建立图模型

采用低维词条、文本向

量代替原始空间向量

采用 EM 方法代替奇异

值分解 SVD

根据先验概率求后验概

率的一种有向无环图

马尔可夫：未来状态只

与当前状态有关

隐马尔可夫：由输出序

列求隐藏序列

是一种判别式概率无向

图学习模型

优点

理论完善、原理简单、容

易操作

扩充特性、简单有效、便

于理解

无监督学习，能过滤一

些常见词和保留重要词

的信息

理论上来说应该是最好

的特征选取方法，理论

完善

理论完善

使用者不需要有深入的

语言学或专业领域知识

快速高效且模型容易

理解

简短、快速且复杂度

不高

预测多重降级状态的系

统概率

CRF 使用场景宽泛，不

存在局部最优值问题

缺点

词表有限、语义鸿沟、数据

稀疏等问题

维度过高、语义鸿沟且无法

体现单词间远近程度

无法体现位置关系且严重

依赖分词

信息增益较高的词频较少，

因而产生数据稀疏

数学公式复杂，较难理解

严重依赖分词、提取速度

较慢

忽略词语的语法信息，不能

通过计算得到词语的暗喻

含义及类比推论含义，需要

大量的文件获得准确的结

果且表征效率较低

物理含义不足且与现实情

况不符

模型只依赖每个状态及观

察对象且目标函数与预测

函数不匹配

复杂度较高、训练代价较大

适用条件与范围

适用词级和句子级自然语言

处理领域，例如拼写检查、自

动索引等

适合于基于参数与距离的模

型，例如 SVM、NN、KNN 等

适用于问答检索领域，例如

搜索引擎、查询系统等

适合于分类领域，例如垃圾

邮件过滤、情感分类等

适合于分类领域，例如垃圾

邮件过滤、意图识别等

适合于生成式自然语言处理

与词级自然语言处理领域，

例如文章摘要

适用于生成式自然语言处理

领域，例如信息过滤、文本摘

要以及机器翻译等跨语言信

息检索

适合于词级自然语言处理领

域，例如命名实体识别、关键

词提取等

适用于句子级自然语言处

理，例如语义消歧

适用于句子级自然语言处

理，例如语义分析

1365

剩余30页未读，继续阅读

ali-12

粉丝: 34
资源: 328

自然语言处理预训练技术发展历程、BERT改进模型及应用的综述

自然语言处理预训练技术综述_陈德光.caj

面向自然语言处理的预训练技术研究综述.pdf

台南市私立德光女子高级中学.pdf

应用数据挖掘技术构建掘进机故障处理知识库的探讨.pdf

一级教师述职报告3篇_4.docx

北大青鸟S1 JAVA 选择题50题内部测试

自然语言预训练技术全貌：从传统到深度学习

反射式马赫曾德光路的搭建需要保证参考光和物光等光程吗

基于微信小程序的校园论坛；微信小程序；云开发；云数据库；云储存；云函数；纯JS无后台；全部资料+详细文档+高分项目.zip

最新资源