XLNet：突破BERT的双向上下文预训练模型

需积分: 0 29 浏览量更新于2024-08-05 收藏 1.06MB PDF 举报

"XLNet是为了解决BERT等基于自动去噪预训练模型的限制而提出的一种新型语言模型，它在保留双向上下文建模能力的同时，通过最大化输入序列所有排列的似然函数期望来学习双向上下文。XLNet结合了自回归模型Transformer-XL的优点，能够在20个任务上显著超越BERT，并在18个任务中达到最先进的结果，涵盖了问答、自然语言推理、情感分析等多个领域。" XLNet是自然语言处理领域的创新，它的出现是为了克服BERT模型的局限性。BERT模型虽然能够处理双向上下文，但因为使用了掩码语言模型，导致它忽略了掩码位置之间的依赖性，这在预训练和微调阶段可能会产生不一致性。为了解决这个问题，XLNet提出了广义自回归预训练方法。这种方法不仅保持了双向上下文的学习，还通过自回归方式消除了BERT的局限性。 XLNet的核心在于其自回归模型的设计，它通过最大化输入序列所有可能排列的联合概率来学习全面的双向上下文信息。这与BERT的预测被掩码部分限制不同，XLNet可以考虑所有位置的依赖关系，从而更完整地捕获文本的语义信息。同时，XLNet还引入了Transformer-XL的自回归扩展，允许模型处理更长的上下文，进一步增强其理解复杂语言结构的能力。在实验中，XLNet展示了其强大的性能，它在多项任务上的表现都显著优于BERT，包括但不限于问答系统、自然语言推理任务、情感分析和文档排序等。这些成果证明了XLNet在无监督预训练模型中的优越性，并为后续的自然语言处理研究提供了新的方向。预训练的XLNet模型和相关的代码已在GitHub上开源，研究人员和开发者可以利用这些资源进行进一步的开发和应用。这使得XLNet不仅是一个理论上的突破，也是实际应用中可以广泛使用的工具，对推进自然语言处理技术的进步起到了重要作用。

本文是XLNet论文的全文翻译，转载注明出处和译者。

原文 XLNet: Generalized Autoregressive Pretraining for Language Understanding

PDF版翻译以及相关资源链接 GitHub XLNet_Paper_Chinese_Translation

译者：袁宵

说明：1. 对于没有标准译法的词语保留了原单词；2. 以准确翻译为第一目标，力求保持原意；3. 欢迎读者参与到翻译中来，提出修改意见。

手机扫码阅读：

XLNet：用于语言理解的广义自回归预训练模型

摘要

由于具有双向上下文建模的能力，像BERT这样基于自动去噪的预训练语言模型比基于自回归的预训练语言模型的性能更好。然而，依赖于使用带掩

码（masks）损坏的输入，BERT忽略了掩码位置之间的依赖性，由此受到了预训练-微调阶段不一致的影响。针对这些优点和缺点，我们提出了

XLNet，一种广义自回归预训练方法，它（1）通过最大化输入序列的因式分解的所有排列的似然函数的期望来学习双向上下文，并且（2）并且通过

其自回归方法，克服了BERT的局限性。此外，XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中。实验表明，XLNet在20个任务上

常大幅度优于BERT的表现，并在18个任务中实现最先进的结果，包括问答、自然语言推理、情感分析和文档排名（注1：预训练的模型和代码可在

https://github.com/zihangdai/xlnet 获得）。

1 介绍

无监督表示学习在自然语言处理领域非常成功[7,19,24,25,10]。通常，这些方法首先在大规模的未标记文本语料库上预训练神经网络，然后在下游任

务中微调模型或对模型输出的表示进行优化。在上述这种共同的指导思想下，文献中探索了不同的无监督预训练目标。其中，自回归

autoregressive（AR）和自编码autoencoding（AE）语言模型是两个最成功的预训练目标。

AR语言模型试图用自回归模型估计文本语料库的概率分布[7,24,25]。具体而言，给定文本序列，AR语言模型将似然函数因式分解

为一个向前的乘积或者一个向后的乘积。训练参数模型（例如，神经网络）来拟合每个条件概

率分布。由于AR语言模型仅经过训练来编码单方向内容（向前或向后），因此无法有效建模深度双向上下文。然而，下游语言理解任务通常需要双

向上下文信息。这导致AR语言建模与有效预训练之间存在差距。

相比之下，基于AE的预训练模型不执行显式密度估计，而是旨在从损坏的输入重建原始数据。一个值得注意的例子是BERT[10]，它是最先进的预训

练方法。给定输入tokens序列，tokens的某一部分被特殊符号[MASK]替换，并且训练该模型来从损坏的版本输入序列中恢复原始tokens。由于密度估

计不是训练目标的一部分，因此允许BERT利用双向上下文来重建原始输入。作为一个直接的好处，这将弥补前面提到的AR语言建模与有效预训练之

间存在差距，从而提高了性能。然而，在训练期间，BERT在预训练时使用的[MASK]等人造符号在实际数据中不存在，从而导致预训练-微调的不一

致。此外，由于预测的tokens在输入中被遮蔽，因此BERT不能像在AR语言模型中那样使用乘积规则来建模联合概率。换言之，BERT假设要预测的

tokens在给定未遮蔽的tokens的条件下彼此独立，由于自然语言高度有序且长距离依赖广泛存在于自然语言中，因此该假设简化过度了[9]。

面对现有预训练语言模型目标的优缺点，在本工作中，我们提出了XLNet，这是一种广义的自回归方法，它充分利用了AR和AE语言模型的优点，同

时避免了它们的局限性。

x = (x , ..., x )

1 T

p(x) = p(x ∣x )∏

t=1

t <t

p(x) = p(x ∣x )∏

t=T

t >t

下载后可阅读完整内容，剩余8页未读，立即下载

蓝洱

粉丝: 28
资源: 316

XLNet：突破BERT的双向上下文预训练模型

XLNet作者讲解XLNet

NeurIPS上讲解XLNet的PPT

XLNet_Paper_Chinese_Translation:XLNet

chinese-xlnet-base

XLNet的前景与展望.md

掌握Turing完成任务的XLNet模型.md

XLNet在自然语言处理中的应用.md

xlnet_cased_L-12_H-768_A12.zip

chinese_xlnet_mid_L-24_H-768_A-12.zip

chinese_xlnet_base_L-12_H-768_A-12.zip

最新资源