谷歌BERT模型详解：预训练革命与NLP新里程碑

需积分: 16 115 浏览量更新于2024-08-04 收藏 474KB PDF 举报

"BERT是一种由Google AI研究院在2018年推出的预训练模型，它在机器阅读理解、自然语言处理（NLP）任务中取得了显著成果，如SQuAD和GLUE基准测试。BERT基于Transformer架构，解决了NLP中的长期依赖问题，采用多层Transformer Encoder堆叠的方式构建。模型分为12层和24层两种，参数量分别为110M和340M。BERT与GPT不同，它利用双向Self-attention机制，适合理解和上下文相关的任务，而GPT更适合文本生成。模型输入包括Token Embeddings、Segment Embeddings和Positional Embeddings，其中Token Embeddings的首个词是CLS，用于分类任务。" BERT模型的核心特点和结构: 1. **双向Transformer Encoder**: BERT的关键创新在于使用Transformer的编码器部分，允许模型同时考虑单词的前后文信息，与传统的RNN和CNN相比，它能更好地处理长距离的依赖关系。在Transformer中，自我注意力（Self-attention）机制使得模型可以关注到输入序列中的任意位置。 2. **多层堆叠**: BERT模型由多个Transformer Encoder层堆叠组成，不同的层数对应着不同的模型规模，12层和24层的模型分别对应较小和较大的参数量，这使得BERT能够学习更复杂的语言表示。 3. **Embedding层**: 输入到BERT模型的首先是经过Embedding处理的词元。这包括： - **Token Embeddings**: 对每个词元（如单词或细分的词素）分配一个固定长度的向量，第一个词元通常是特殊标记CLS，用于后续的分类任务。 - **Segment Embeddings**: 当处理一对句子时，区分它们的来源，例如在问答任务中区分问题和答案。 - **Positional Embeddings**: 提供位置信息，因为Transformer没有内置的位置感知，所以需要这种嵌入来让模型知道单词在序列中的位置。 4. **预训练与微调**: BERT首先在大规模无标注文本上进行预训练，学习通用的语言表示。之后，针对特定任务（如问答、情感分析等）进行微调，即在带标签的数据集上进行额外的训练，以适应具体任务的需求。 5. **对比GPT**: 与GPT（Generative Pre-trained Transformer）不同，GPT基于Transformer的解码器，只使用前面的上下文来预测下一个词，更适合于生成连续的文本，而BERT则更擅长理解语境，尤其在需要双向信息的任务中。 BERT的成功在于它开创了预训练模型的新时代，使得NLP任务的性能大幅提升，并激发了一系列后续的研究，如ALBERT、RoBERTa、DistilBERT等，这些模型进一步优化了预训练方法，减少了计算资源需求，同时保持甚至超过了BERT的性能。

1 介绍

BERT(Bidirectional Encoder Representation from Transformers)是2018年10月由

Google AI研究院提出的一种预训练模型，该模型在机器阅读理解顶级水平测试SQuAD1.1中

表现出惊人的成绩: 全部两个衡量指标上全面超越人类，并且在11种不同NLP测试中创出

SOTA表现，包括将GLUE基准推高至80.4% (绝对改进7.6%)，MultiNLI准确度达到86.7% (绝

对改进5.6%)，成为NLP发展史上的里程碑式的模型成就。

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，

如所示。其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两图1

个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。Transformer的结构在NLP

领域中已经得到了广泛应用。

2 BERT模型结构

下图展示的是BERT的总体结构图，多个Transformer Encoder一层一层地堆叠起来，就组装成了

BERT了，在论文中，作者分别用12层和24层Transformer Encoder组装了两套BERT模型，两套模型

的参数总数分别为110M和340M。

BERT的主要内容可以用下面的思维导图进行概括，下面的章节会详细介绍每个部分的内容。

BERT是用了Transformer的encoder侧的网络，encoder中的Self-attention机制在编码一个token

的时候同时利用了其上下文的token，其中‘同时利用上下文’即为双向的体现，而并非想Bi-

LSTM那样把句子倒序输入一遍。在BERT之前是GPT，GPT使用的是Transformer的decoder侧的网

络，GPT是一个单向语言模型的预训练过程，更适用于文本生成，通过前文去预测当前的字。

2.1 Embedding

Embedding由三种Embedding求和而成：

Token Embeddings是词向量，第一个单词是CLS标志，可以用于之后的分类任务

通过建立字向量表将每个字转换成一个一维向量，作为模型输入。特别的，英文词汇会做更细粒

度的切分，比如playing 或切割成 play 和 ##ing，中文目前尚未对输入文本进行分词，直接对

单子构成为本的输入单位。将词切割成更细粒度的 Word Piece 是为了解决未登录词的常见方

法。

假如输入文本 ”I like dog“。下图则为 Token Embeddings 层实现过程。输入文本在送入

Token Embeddings 层之前要先进性 tokenization 处理，且两个特殊的 Token 会插入在文本开

头 [CLS] 和结尾 [SEP]。[CLS]表示该特征用于分类模型，对非分类模型，该符号可以省去。

[SEP]表示分句符号，用于断开输入语料中的两个句子。

Bert 在处理英文文本时只需要 30522 个词，Token Embeddings 层会将每个词转换成 768 维向

量，例子中 5 个Token 会被转换成一个 (6, 768) 的矩阵或 (1, 6, 768) 的张量。

下载后可阅读完整内容，剩余9页未读，立即下载

北极象

粉丝: 1w+
资源: 401

谷歌BERT模型详解：预训练革命与NLP新里程碑

人工智能-预训练大模型-基于预训练模型 BERT 的阅读理解

官方bert中文预训练模型

Python基于预训练模型 BERT 的阅读理解项目源代码（期末大作业&课程设计）

预训练模型BERT+CRF

文本预训练模型 BERT

预训练模型BERT功能是什么

预训练模型bert+crf

Bert预训练模型代码

bert预训练模型介绍

请用python写一个深度学习模型，用于预训练模型BERT微调分类模型

最新资源