BERT：深度双向Transformer在中文翻译与NLP任务中的突破

需积分: 49 117 浏览量更新于2024-07-16 收藏 3.52MB PDF 举报

BERT，全称Bidirectional Encoder Representations from Transformers，是一种由Google提出的深度双向Transformer语言模型。它的核心思想在于通过预训练的方式学习到丰富的语言表示，然后在各种自然语言处理任务上进行微调，以达到最先进的性能。相较于其他先前的语言表示模型，如Peters et al. (2018) 和 Radford et al. (2018) 的单向模型，BERT更注重同时考虑上下文信息，通过在所有层级中联合调节左向和右向的信息，使得模型能够更好地理解文本的语境。 BERT的主要优势在于其预训练过程。预训练是通过大规模无监督数据（如互联网上的文本）训练得到通用的语言表示，这有助于捕捉词语和句子的多义性和复杂关系。预训练完成后，BERT的表示可以直接用于多种NLP任务，如问答、文本分类、命名实体识别等，无需针对每个任务进行大量结构调整，只需添加一个简单的输出层进行微调即可。在实验结果上，BERT的表现极为出色。它在GLUE基准测试中达到了80.4%的准确率，比当时的最佳成绩提高了7.6%，MultiNLI任务的准确率提升到了86.7%，并且在SQuAD v1.1的问答测试中，F1分数达到了93.2分，甚至超过了人类的表现。这些显著的进步证明了BERT在深度双向表示学习方面的有效性。 BERT的成功在于其结合了语言模型预训练和微调的优点。基于特征的方法，如ELMo，虽然也能利用预训练表示，但可能需要额外的特定任务模型结构；而微调方法，如OpenAI GPT，虽然减少了特定任务的参数，但BERT通过联合上下文的优势，能在更少的微调中获得更好的泛化能力。总结来说，BERT是深度学习在自然语言处理领域的里程碑，它改变了我们处理文本的方式，为NLP任务提供了强大的工具。无论是对于研究者还是实践者，理解和掌握BERT都对提升自然语言处理任务的性能至关重要。

3.3.1 任务一#：遮蔽语言模型

直觉上，我们有理由相信，深度双向模型严格来说比从左到右模型或从左到右模型结合从右到左模型

的浅层连接更强大。不幸的是，标准条件语言模型只能从左到右或从右到左进行训练，因为双向条件

作用将允许每个单词在多层上下文中间接地“看到自己”。

为了训练深度双向表示，我们采用了一种简单的方法，即随机遮蔽一定比例的输入标记，然后仅预测

那些被遮蔽的标记。我们将这个过程称为“遮蔽语言模型”（MLM），尽管在文献中它通常被称为完形

填词任务（Taylor, 1953）。在这种情况下，就像在标准语言模型中一样，与遮蔽标记相对应的最终隐

藏向量被输入到与词汇表对应的输出 softmax 中（也就是要把被遮蔽的标记对应为词汇表中的一个词

语）。在我们所有的实验中，我们在每个序列中随机遮蔽 15% 的标记。与去噪的自动编码器

（Vincent et al., 2008）不同的是，我们只是让模型预测被遮蔽的标记，而不是要求模型重建整个输

入。

虽然这确实允许我们获得一个双向预训练模型，但这种方法有两个缺点。第一个缺点是，我们在预训

练和微调之间造成了不匹配，因为 [MASK] 标记在微调期间从未出现过。为了缓和这种情况，我们并

不总是用真的用 [MASK] 标记替换被选择的单词。而是，训练数据生成器随机选择 15% 的标记，例

如，在my dog is hairy 这句话中，它选择 hairy。然后执行以下步骤:

数据生成不会总是用 [MASK] 替换被选择的单词，而是执行以下操作:

80% 的情况下：用 [MASK] 替换被选择的单词，例如，my dog is hairy → my dog is [MASK]

10% 的情况下：用一个随机单词替换被选择的单词，例如，my dog is hairy → my dog is apple

10% 的情况下：保持被选择的单词不变，例如，my dog is hairy → my dog is hairy。这样做的目

的是使表示偏向于实际观察到的词。

Transformer 编码器不知道它将被要求预测哪些单词，或者哪些单词已经被随机单词替换，因此它被迫

保持每个输入标记的分布的上下文表示。另外，因为随机替换只发生在 1.5% 的标记（即，15% 的

10%）这似乎不会损害模型的语言理解能力。

第二个缺点是，使用 Transformer 的每批次数据中只有 15% 的标记被预测，这意味着模型可能需要更

多的预训练步骤来收敛。在 5.3 节中，我们证明了 Transformer 确实比从左到右的模型（预测每个标

记）稍微慢一点，但是 Transformer 模型的实验效果远远超过了它增加的预训练模型的成本。

3.3.2 任务

2#：下一句预测

许多重要的下游任务，如问题回答（QA）和自然语言推理（NLI），都是建立在理解两个文本句子之

间的关系的基础上的，而这并不是语言建模直接捕捉到的。为了训练一个理解句子关系的模型，我们

预训练了一个下一句预测的二元分类任务，这个任务可以从任何单语语料库中简单地归纳出来。具体

来说，在为每个训练前的例子选择句子 A 和 B 时，50% 的情况下 B 是真的在 A 后面的下一个句子，

50% 的情况下是来自语料库的随机句子。比如说:

剩余22页未读，继续阅读

out345

粉丝: 2
资源: 13

BERT：深度双向Transformer在中文翻译与NLP任务中的突破

Python自然语言处理-BERT实战

AI基础：一文看懂BERT.pdf

BERT——2018NLP最强论文

BERT中文翻译PDF版1

基于BERT的机器翻译模型开发详解.pdf

基于BERT的神经机器翻译模型开发详解.pdf

【最新版2024-】 ASTM E2917-24 AI 自动翻译 CN..rar

【最新版2024-】 ASTM F877-24 AI 自动翻译 CN..rar

基于改进BERT算法的专利实体抽取研究——以石墨烯为例.pdf

Become.an.Xcoder(简体中文).pdf

最新资源