BERT：深度双向预训练Transformer推动NLP性能新高

需积分: 0 164 浏览量更新于2024-07-01 1 收藏 3.56MB PDF 举报

BERT（Bidirectional Encoder Representations from Transformers）是一种革命性的语言表示模型，由Google团队提出，它构建在Transformer架构之上。与先前的语言表示模型，如ELMo（Peters et al., 2018）和OpenAI GPT（Radford et al., 2018）不同，BERT的创新之处在于其深度双向表示学习。双向表示意味着模型同时考虑输入序列的前后上下文信息，这使得BERT在预训练阶段能够捕获更丰富的语义信息。 BERT的核心概念是预训练和微调策略。预训练是在大规模文本数据上进行的，通过语言建模任务（如预测给定词语的前/后续单词）训练模型，这样模型就能学习到通用的语言规律。预训练阶段不针对任何特定任务进行调整，而是通过Transformer的多层自注意力机制，让模型理解词语之间的复杂关系。一旦预训练完成，BERT模型可以作为一个强大的基础，只需添加少量的特定任务层（如全连接层或分类层）进行微调，即可在各种自然语言处理任务上表现出色，而无需大幅修改模型结构。这种方法在诸如问答（SQuAD v1.1，提升F1分数至93.2，超过人类2分）、自然语言推理（GLUE基准提升至80.4%）和文本分类（如MultiNLI，准确率提升至86.7%）等任务上取得了显著的性能提升。 BERT的实验结果证明了其在多项任务上的卓越性能，这归功于其深度双向表示的学习能力和预训练策略的有效性。相较于基于特征的方法，如ELMo，BERT的微调方法能更好地保持模型的泛化能力，因为它对任务相关的参数进行较少的调整。同时，与仅做微调的Transformer模型相比，BERT的上下文感知能力使得它在理解和生成复杂的语言结构时更具优势。总结来说，BERT是一种强大的自然语言处理工具，它的出现标志着预训练语言模型在NLP领域的崭新篇章，不仅提升了任务表现，还简化了模型应用到新任务的过程，成为了现代NLP模型设计的重要基石。

3.3.1 任务一#：遮蔽语言模型

直觉上，我们有理由相信，深度双向模型严格来说比从左到右模型或从左到右模型结合从右到左模型

的浅层连接更强大。不幸的是，标准条件语言模型只能从左到右或从右到左进行训练，因为双向条件

作用将允许每个单词在多层上下文中间接地“看到自己”。

为了训练深度双向表示，我们采用了一种简单的方法，即随机遮蔽一定比例的输入标记，然后仅预测

那些被遮蔽的标记。我们将这个过程称为“遮蔽语言模型”（MLM），尽管在文献中它通常被称为完形

填词任务（Taylor, 1953）。在这种情况下，就像在标准语言模型中一样，与遮蔽标记相对应的最终隐

藏向量被输入到与词汇表对应的输出 softmax 中（也就是要把被遮蔽的标记对应为词汇表中的一个词

语）。在我们所有的实验中，我们在每个序列中随机遮蔽 15% 的标记。与去噪的自动编码器

（Vincent et al., 2008）不同的是，我们只是让模型预测被遮蔽的标记，而不是要求模型重建整个输

入。

虽然这确实允许我们获得一个双向预训练模型，但这种方法有两个缺点。第一个缺点是，我们在预训

练和微调之间造成了不匹配，因为 [MASK] 标记在微调期间从未出现过。为了缓和这种情况，我们并

不总是用真的用 [MASK] 标记替换被选择的单词。而是，训练数据生成器随机选择 15% 的标记，例

如，在my dog is hairy 这句话中，它选择 hairy。然后执行以下步骤:

数据生成不会总是用 [MASK] 替换被选择的单词，而是执行以下操作:

80% 的情况下：用 [MASK] 替换被选择的单词，例如，my dog is hairy → my dog is [MASK]

10% 的情况下：用一个随机单词替换被选择的单词，例如，my dog is hairy → my dog is apple

10% 的情况下：保持被选择的单词不变，例如，my dog is hairy → my dog is hairy。这样做的目

的是使表示偏向于实际观察到的词。

Transformer 编码器不知道它将被要求预测哪些单词，或者哪些单词已经被随机单词替换，因此它被迫

保持每个输入标记的分布的上下文表示。另外，因为随机替换只发生在 1.5% 的标记（即，15% 的

10%）这似乎不会损害模型的语言理解能力。

第二个缺点是，使用 Transformer 的每批次数据中只有 15% 的标记被预测，这意味着模型可能需要更

多的预训练步骤来收敛。在 5.3 节中，我们证明了 Transformer 确实比从左到右的模型（预测每个标

记）稍微慢一点，但是 Transformer 模型的实验效果远远超过了它增加的预训练模型的成本。

3.3.2 任务

2#：下一句预测

许多重要的下游任务，如问题回答（QA）和自然语言推理（NLI），都是建立在理解两个文本句子之

间的关系的基础上的，而这并不是语言建模直接捕捉到的。为了训练一个理解句子关系的模型，我们

预训练了一个下一句预测的二元分类任务，这个任务可以从任何单语语料库中简单地归纳出来。具体

来说，在为每个训练前的例子选择句子 A 和 B 时，50% 的情况下 B 是真的在 A 后面的下一个句子，

50% 的情况下是来自语料库的随机句子。比如说:

剩余22页未读，继续阅读

yiyi分析亲密关系

粉丝: 32
资源: 321

BERT：深度双向预训练Transformer推动NLP性能新高

AI基础：一文看懂BERT.pdf

BERT中文翻译PDF版.pdf

bert v2.0.pdf

基于BERT的机器翻译模型开发详解.pdf

基于BERT的神经机器翻译模型开发详解.pdf

基于改进BERT算法的专利实体抽取研究——以石墨烯为例.pdf

机器翻译参考资料打包(pdf)

A BERT-based Interaction Model For Knowledge Graph Alignment.rar

Attention Is All You Need 中文翻译

2011年英语专业八级翻译辅导：容易误译的英语.pdf

最新资源