大模型技术：人工智能的新基石

需积分: 0 33 浏览量更新于2024-06-20 1 收藏 4.62MB PDF 举报

“中国人工智能系列白皮书-大模型技术（2023 版）”深入探讨了大模型技术在各个领域的广泛应用以及其对社会经济的深远影响。大模型技术，作为人工智能的关键基础设施，如同PC时代的操作系统，正在赋能各行各业，推动国民经济的高质量发展。大模型技术的发展历程始于基础的自然语言处理技术，如Transformer架构，逐步演进至如今的大型预训练模型，如掩码语言建模、自回归语言建模和序列到序列建模。这些模型通过大规模的预训练和微调，能够理解和生成复杂的语言表达，甚至在特定领域如新闻写作、影视创作、营销、娱乐、军事、教育、金融和医疗等方面展现出强大的功能。在语言大模型技术中，预训练是关键步骤，它通过无监督学习在大量文本数据上学习语言模式。接着，模型通过微调适应特定任务，如问答、对话或翻译。提示学习和知识增强则进一步提高了模型的性能，使模型能够理解和应用外部知识。此外，工具学习则允许模型在不断交互中改进自身能力。多模态大模型技术则扩展了语言模型的能力，纳入了图像、音频等多种输入形式。这使得模型能够理解并生成跨模态的内容，例如图像描述、视频解说等。多模态大模型的关键技术包括网络结构设计、自监督学习优化和针对不同任务的微调适应。知识增强的多模态模型尤其能提高模型在理解和生成任务中的准确性和创新性。大模型技术的生态日益繁荣，涌现了众多开放源代码的大模型、平台和工具，降低了开发者和企业应用大模型的门槛。训练数据是大模型的基础，包括大规模的文本和多模态数据集，这些数据经过处理和标注，用于模型的训练和优化。在开发、训练和推理部署方面，大模型需要高性能计算资源和高效的算法策略，以应对训练过程中的计算复杂性和推理阶段的实时性需求。随着硬件的进步和算法的优化，大模型的效率和实用性将持续提升，为更多领域带来智能化的解决方案。总结来说，大模型技术以其强大的通用性和广泛应用前景，正成为人工智能领域的新焦点，有望深度改变人类的生活和工作方式，推动社会的数字化进程。然而，伴随而来的是数据安全、隐私保护和伦理道德等风险与挑战，这需要我们在发展的同时，也要注重建立相应的管理和监管机制。

图 2-2 Transformer 自注意力网络[13]

Transformer模块，通过自注意力机制获取输入序列的全局信息，

并将这些信息通过网络层进行传递，包括多头注意力层和全连接前馈

网络层，这两部分通过残差连接和层归一化操作连接起来，

Transformer 模块，由自注意力层、全连接前馈层、残差连接和层归

一化操作等基本单元组成：

1）自注意力层，注意力（Attention）是 Transformer 模型的核心

组成部分。它包含一个查询矩阵





，一个键矩阵





和一

个值矩阵





，其中矩阵中的每一行对应一个词。注意力机制的

计算方式：

Attention( , , ) Softmax( )

H Q K V V

直观来说，矩阵





中的每一行是

中行向量的加权和，其

中权重由查询向量和键矩阵的点积决定。记具有序列长度 n 的查询序

列的特征矩阵和具有序列长度为 m 的键-值序列的特征矩阵分别为





和





，三个矩阵

、

由三个线性变换得到

, , .

q q kv k kv v

Q X W K X W V X W= = =

Transformer 模型采用的特定注意力机制

被称为自注意力机制，因为三个矩阵

、

都来自于前一层的相

同特征矩阵





。

此外，Transformer 采用了多头自注意力（Multi-head Attention）

机制，即输入序列被线性映射多次得到不同的投影矩阵。多个尺度化

后点积注意力可以并行计算，并产生多个自注意力输出。多头注意力

生成多个高维的注意力表示，这使得其比单头注意力具有更强的表达

能力。多头注意力的计算方式如下：使用了多个查询矩阵

()i

，键矩

阵

()i

和值矩阵

()i

，最终输出为





，它是通过将一系列

进行

拼接，并使用一个新的权重矩阵





将其投影到一个新的特征空

间中获得的:

MultiHead( , , ) Concat( , , )

H Q K V H H W==

( ) ( ) ( ) ( ) ( ) ( )

Attention( , , ) Attention( , , ),

i i i i i i

i q q kv k kv v

H Q K V X W X W X W==

对于解码器，Transformer 层在 Attention 的 Softmax 之前引入了

一个额外的掩码（MASK）操作，防止查询矩阵

去对序列中尚未解

码的后续位置来施加注意力操作。此外，在自注意层之后还有一个额

外的“交叉注意力”层，其中查询矩阵

是从解码器中前一层的输出中

派生出来的，而键矩阵

和值矩阵

是从编码器的最后一层的输出中

转换而来的。这种设计的主要目的是为了让 Transformer 在解码时避

免看到真实标签，并且同时处理来自编码器的信息。

2）全连接前馈层，在注意力层之后的全连接前馈层由两个线性

变换和一个非线性激活函数组成。将输入矩阵表示为





，前馈

层的输出

1 1 2 2

FFN( ) ( )X XW b W b



= + +

其中，

()





是激活函数（通常为 ReLU 或 GELU），而





，

b 

，





，

b 

均为可学习的参数。在实践中，

通常设

置为

，

设置为

的 4 倍。FFN 作用包括两个方面：（1）非线性激

活：在每个注意力模块之后引入了非线性激活函数

()





，这有助于增

强模型的表达能力；（2）信息整合：自注意力机制允许模型在不同的

中还加入了下一句预测（Next Sentence Prediction, NSP）任务。在预

训练时，模型的输入是自然语言序列。首先在原始输入中添加特殊标

记 [CLS] 和 [SEP]，并且随机用[MASK] 标记替换原始序列中的字

符。掩码语言建模旨在根据上下文来最大化 [MASK]位置的标签字符

的条件概率，即让模型执行“完型填空”任务。而 [CLS] 的最终表示

被用于预测两个句子是否连贯。RoBERTa 与 BERT 基本相同，但是

它删去了下一句预测任务，采用了更具鲁棒性的动态掩码机制，并使

用更大的批次、更长的时间和更多的数据进行训练。

2.2.2 自回归语言建模

自回归语言模型在训练时通过学习预测序列中的下一个词来建

模语言，其主要是通过 Transformer 解码器来实现。自回归语言模型

的优化目标为最大化对序列中每个位置的下一个词的条件概率的预

测。代表性模型，包括 OpenAI 的 GPT 系列模型[16][26]、Meta 的

LLaMA 系列模型[30]和 Google 的 PaLM 系列模型[17]。其中，GPT-3

[16]是首个将模型参数扩增到千亿参数规模的预训练模型。自回归语

言模型更加适用于生成任务，同时也更适用于对模型进行规模扩增。

2.2.3 序列到序列建模

序列到序列模型是建立在完整 Transformer 架构上的序列到序列

模型，即同时使用编码器-解码器结构，代表性模型包括 T5[42]和

BART[43]。这两个模型都采用文本片段级别的掩码语言模型作为主

要的预训练任务，即随机用单个 [MASK] 特殊标记替换文本中任意

长度的一段字符序列，并要求模型生成填充原始的字符。序列到序列

模型可以形式化地表示为最大化在给定掩码的字符序列的情况下目

标字符序列的概率。

总体而言，自回归语言模型较其它预训练语言模型架构展现了更

优异的情境学习、思维链推理、内容创造等能力，自回归模型架构是

当前大模型的主流架构[5]。

剩余120页未读，继续阅读

人生淡然

粉丝: 235
资源: 119

大模型技术：人工智能的新基石

北京市人工智能行业大模型创新应用白皮书2023年.pdf

【2023】AI大模型市场研究报告（2023）迈向通用人工智能，大模型拉开新时代序幕-沙利文_43页.pdf

AI大模型市场研究报告2023-迈向通用人工智能，大模型拉开新时代序幕 -沙利文.pdf

中国人工智能系列白皮书-大模型技术-2023版

中国人工智能系列白皮书-大模型技术-2023版 免费下载

2023中国人工智能系列白皮书-人工智能原理

2023 中国人工智能系列白皮书-深度学习

2023 中国人工智能系列白皮书-智能协同控制与人工智能

中国人工智能系列白皮书-智能农业

2023 中国人工智能系列白皮书-心智计算：构建脑与心智启发的人工智能

最新资源

中国人工智能系列白皮书-大模型技术-2023版免费下载