本文是XLNet论文的全文翻译,转载注明出处和译者。
原文 XLNet: Generalized Autoregressive Pretraining for Language Understanding
PDF版翻译以及相关资源链接 GitHub XLNet_Paper_Chinese_Translation
译者:袁宵
说明:1. 对于没有标准译法的词语保留了原单词;2. 以准确翻译为第一目标,力求保持原意;3. 欢迎读者参与到翻译中来,提出修改意见。
手机扫码阅读:
XLNet:用于语言理解的广义自回归预训练模型
摘要
由于具有双向上下文建模的能力,像BERT这样基于自动去噪的预训练语言模型比基于自回归的预训练语言模型的性能更好。然而,依赖于使用带掩
码(masks)损坏的输入,BERT忽略了掩码位置之间的依赖性,由此受到了预训练-微调阶段不一致的影响。针对这些优点和缺点,我们提出了
XLNet,一种广义自回归预训练方法,它(1)通过最大化输入序列的因式分解的所有排列的似然函数的期望来学习双向上下文,并且(2)并且通过
其自回归方法,克服了BERT的局限性。此外,XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中。实验表明,XLNet在20个任务上
常大幅度优于BERT的表现,并在18个任务中实现最先进的结果,包括问答、自然语言推理、情感分析和文档排名(注1:预训练的模型和代码可在
https://github.com/zihangdai/xlnet 获得)。
1 介绍
无监督表示学习在自然语言处理领域非常成功[7,19,24,25,10]。通常,这些方法首先在大规模的未标记文本语料库上预训练神经网络,然后在下游任
务中微调模型或对模型输出的表示进行优化。在上述这种共同的指导思想下,文献中探索了不同的无监督预训练目标。其中,自回归
autoregressive(AR)和自编码autoencoding(AE)语言模型是两个最成功的预训练目标。
AR语言模型试图用自回归模型估计文本语料库的概率分布[7,24,25]。具体而言,给定文本序列 ,AR语言模型将似然函数因式分解
为一个向前的乘积 或者一个向后的乘积 。训练参数模型(例如,神经网络)来拟合每个条件概
率分布。由于AR语言模型仅经过训练来编码单方向内容(向前或向后),因此无法有效建模深度双向上下文。然而,下游语言理解任务通常需要双
向上下文信息。这导致AR语言建模与有效预训练之间存在差距。
相比之下,基于AE的预训练模型不执行显式密度估计,而是旨在从损坏的输入重建原始数据。一个值得注意的例子是BERT[10],它是最先进的预训
练方法。给定输入tokens序列,tokens的某一部分被特殊符号[MASK]替换,并且训练该模型来从损坏的版本输入序列中恢复原始tokens。由于密度估
计不是训练目标的一部分,因此允许BERT利用双向上下文来重建原始输入。作为一个直接的好处,这将弥补前面提到的AR语言建模与有效预训练之
间存在差距,从而提高了性能。 然而,在训练期间,BERT在预训练时使用的[MASK]等人造符号在实际数据中不存在,从而导致预训练-微调的不一
致。 此外,由于预测的tokens在输入中被遮蔽,因此BERT不能像在AR语言模型中那样使用乘积规则来建模联合概率。换言之,BERT假设要预测的
tokens在给定未遮蔽的tokens的条件下彼此独立,由于自然语言高度有序且长距离依赖广泛存在于自然语言中,因此该假设简化过度了[9]。
面对现有预训练语言模型目标的优缺点,在本工作中,我们提出了XLNet,这是一种广义的自回归方法,它充分利用了AR和AE语言模型的优点,同
时避免了它们的局限性。
x = (x , ..., x )
1 T
p(x) = p(x ∣x )∏
t=1
T
t <t
p(x) = p(x ∣x )∏
t=T
1
t >t