XLNet：融合双向与自回归的预训练语言模型提升性能

需积分: 0 42 浏览量更新于2024-08-05 收藏 603KB PDF 举报

XLNet：广义自回归预训练语言模型摘要： XLNet是一种创新的预训练语言模型，它在自然语言处理领域取得了显著的进步，尤其是在处理需要双向上下文信息的任务中。相较于传统的基于自动去噪的预训练模型如BERT，BERT依赖于掩码破坏输入的方式，虽然能利用双向上下文，但受限于预训练和微调过程中的不一致性，因为它只考虑了单向的条件概率。 XLNet的核心创新在于提出了一种广义自回归预训练方法，它不仅最大化输入序列所有可能排列的似然函数期望，从而能够同时学习向前和向后的上下文，克服了BERT在双向建模上的局限性。这种方法结合了Transformer-XL的自回归特性，使得模型能够在保持高效性能的同时，更好地捕捉文本中的深层语义依赖。通过这种方法，XLNet能够有效地解决AR语言模型在深度双向上下文建模上的不足，使得模型在多个任务上展现出强大的表现。在多项实验中，XLNet不仅在20个任务上显著优于BERT，还在18个任务中达到了当时最先进的成绩，涉及问答、自然语言推理、情感分析和文档排名等多个领域。 XLNet的设计理念体现了无监督表示学习的强大潜力，预训练和微调阶段的无缝结合使得模型能够更好地适应各种下游任务，提升了语言理解的准确性。这种预训练策略的革新，不仅提升了模型的性能，也为未来的语言模型研究开辟了新的道路，推动了自然语言处理技术的发展。

XLNet：广义自回归预训练语言模型

摘要

由于具有双向上下文建模的能力，像BERT这样基于自动去噪的预训练语言模型比基于自回归的预训练

语言模型的性能更好。然而，依赖于使用带掩码损坏的输入，BERT忽略了掩码位置之间的依赖性，进

而受到了预训练-微调不一致的影响。根据这些优点和缺点，我们提出了XLNet，一种广义自回归预训

练方法，它（1）通过最大化输入序列的因式分解的所有排列的似然函数的期望来学习双向上下文，并

且（2）由于其自回归方法，克服了BERT的局限性。此外，XLNet将最先进的自回归模型Transformer-

XL的思想整合到预训练中。实验表明，XLNet在20个任务上常大幅度优于BERT的表现，并在18个任

务中实现最先进的结果，包括问答、自然语言推理、情感分析和文档排名。

1 介绍

无监督表示学习在自然语言处理领域非常成功[7,19,24,25,10]。通常，这些方法首先在大规模的未标记

文本语料库上预训练神经网络，然后在下游任务中微调模型或对模型输出的表示进行优化。在这个共

享的高层次思想下，文献中探讨了不同的无监督预训练目标。其中，自回归autoregressive（AR）和

自编码autoencoding（AE）语言模型是两个最成功的预训练目标。

AR语言模型试图用自回归模型估计文本语料库的概率分布[7,24,25]。具体而言，给定文本序列

，AR语言模型将似然函数因式分解为一个向前的乘积或者一

个向后的乘积。训练参数模型（例如，神经网络）来拟合每个条件分布。

由于AR语言模型仅经过训练来编码单方向内容（向前或向后），因此无法有效建模深度双向上下文。

然而，下游语言理解任务通常需要双向上下文信息。这导致AR语言模型与有效预训练之间存在差距。

相比之下，基于AE的预训练模型不执行显式密度估计，而是旨在从损坏的输入重建原始数据。一个值

得注意的例子是BERT[10]，它是最先进的预训练方法。给定输入tokens序列，tokens的某一部分被特

殊符号[MASK]替换，并且训练该模型以从损坏的版本中恢复原始tokens。由于密度估计不是训练目标

的一部分，因此允许BERT利用双向上下文来重建原始输入。作为一个直接的好处，这将弥补前面提到

的AR语言模型与有效预训练之间存在差距，从而提高了性能。然而，在训练期间，BERT在预训练时

使用的[MASK]等人造符号在实际数据中不存在，从而导致预训练-微调的不一致。此外，由于预测的

tokens在输入中被遮蔽，因此BERT不能像在AR语言模型中那样使用乘积规则来建模联合概率。换句

话说，BERT假设要预测的tokens在给定未遮蔽的tokens的条件下彼此独立，由于自然语言高度有序，

长距离依赖广泛存在于自然语言中，因此该假设简化过度了[9]。

x =

(x , ..., x )

1 T

p(x) = p(x ∣x )∏

t=1

t <t

p(x) = p(x ∣x )∏

t=T

t >t

下载后可阅读完整内容，剩余5页未读，立即下载

豆瓣时间

粉丝: 26
资源: 329

XLNet：融合双向与自回归的预训练语言模型提升性能

XLNet 的论文2019Generalized Autoregressive Pretraining.pdf

XLNet翻译1

推荐一些学习chatgpt的论文

推荐10篇学习chatgpt的论文

把以上介绍的四篇文献详细介绍下

transformer文献推荐

能给我20篇关于这个方面的参考文献吗

xlnet和bert的比较分析

xlnet模型具体是如何实现出来的

xlnet代码实现pytorch

最新资源