2023年中国人工智能大模型技术白皮书详解及免费下载

需积分: 0 79 浏览量更新于2024-06-16 3 收藏 3.84MB PDF 举报

《中国人工智能系列白皮书——大模型技术(2023版)》由中国人工智能学会于二零二三年九月发布，是一份全面探讨大模型技术发展、应用和挑战的重要报告。该白皮书分为五个主要章节，分别为大模型技术概述、语言大模型技术、多模态大模型技术、大模型技术生态以及大模型的开发、训练与部署。在第一部分，"大模型技术概述"回顾了大模型技术的发展历程，阐述了其从早期到现代的技术演进，以及它在人工智能领域中的地位和作用。这部分还讨论了大模型技术的生态发展，包括不同类型的生态系统参与者，如研究机构、企业、开源社区等，以及它们之间的互动和合作。第二章深入剖析了语言大模型技术，介绍了Transformer架构，它是现代大模型的核心组成部分。语言大模型的架构包括掩码语言建模、自回归语言建模和序列到序列建模等方法。技术关键点如预训练、适配微调、提示学习和知识增强等，展示了如何通过这些技术提高模型的语言理解和生成能力。第三章转向多模态大模型技术，探讨了多模态大模型的技术体系，如面向理解和生成任务的不同设计，以及知识增强的模型。关键技术涉及网络结构设计、自监督学习优化和下游任务的微调适配，展示了多模态大模型如何整合视觉、听觉等多种输入信息。第四章聚焦大模型技术生态，列举了典型的大模型平台、开源大模型，如语言模型GPT和多模态模型如M6，以及开源框架和工具，如Hugging Face的Transformers。同时，白皮书也讨论了大模型训练所需的数据，包括数据处理流程和常用公共数据集，强调了数据质量和多样性对大模型性能的影响。最后一章"大模型的开发训练与推理部署"，详述了如何设计、训练和部署大模型，涵盖了模型开发的整个生命周期，包括训练策略、硬件需求、部署环境以及如何确保模型的高效运行和可扩展性。《中国人工智能系列白皮书——大模型技术(2023版)》为中国人工智能领域的研究者、开发者和决策者提供了一个全面而深入的指南，有助于他们理解和利用大模型技术推动人工智能的创新和发展。

图 2-2 Transformer 自注意力网络[13]

Transformer模块，通过自注意力机制获取输入序列的全局信息，

并将这些信息通过网络层进行传递，包括多头注意力层和全连接前馈

网络层，这两部分通过残差连接和层归一化操作连接起来，

Transformer 模块，由自注意力层、全连接前馈层、残差连接和层归

一化操作等基本单元组成：

1）自注意力层，注意力（Attention）是 Transformer 模型的核心

组成部分。它包含一个查询矩阵





，一个键矩阵





和一

个值矩阵





，其中矩阵中的每一行对应一个词。注意力机制的

计算方式：

Attention( , , ) Softmax( )

H Q K V V

直观来说，矩阵





中的每一行是

中行向量的加权和，其

中权重由查询向量和键矩阵的点积决定。记具有序列长度 n 的查询序

列的特征矩阵和具有序列长度为 m 的键-值序列的特征矩阵分别为





和





，三个矩阵

、

由三个线性变换得到

, , .

q q kv k kv v

Q X W K X W V X W= = =

Transformer 模型采用的特定注意力机制

被称为自注意力机制，因为三个矩阵

、

都来自于前一层的相

同特征矩阵





。

此外，Transformer 采用了多头自注意力（Multi-head Attention）

机制，即输入序列被线性映射多次得到不同的投影矩阵。多个尺度化

后点积注意力可以并行计算，并产生多个自注意力输出。多头注意力

生成多个高维的注意力表示，这使得其比单头注意力具有更强的表达

能力。多头注意力的计算方式如下：使用了多个查询矩阵

()i

，键矩

阵

()i

和值矩阵

()i

，最终输出为





，它是通过将一系列

进行

拼接，并使用一个新的权重矩阵





将其投影到一个新的特征空

间中获得的:

MultiHead( , , ) Concat( , , )

H Q K V H H W==

( ) ( ) ( ) ( ) ( ) ( )

Attention( , , ) Attention( , , ),

i i i i i i

i q q kv k kv v

H Q K V X W X W X W==

对于解码器，Transformer 层在 Attention 的 Softmax 之前引入了

一个额外的掩码（MASK）操作，防止查询矩阵

去对序列中尚未解

码的后续位置来施加注意力操作。此外，在自注意层之后还有一个额

外的“交叉注意力”层，其中查询矩阵

是从解码器中前一层的输出中

派生出来的，而键矩阵

和值矩阵

是从编码器的最后一层的输出中

转换而来的。这种设计的主要目的是为了让 Transformer 在解码时避

免看到真实标签，并且同时处理来自编码器的信息。

2）全连接前馈层，在注意力层之后的全连接前馈层由两个线性

变换和一个非线性激活函数组成。将输入矩阵表示为





，前馈

层的输出

1 1 2 2

FFN( ) ( )X XW b W b



= + +

其中，

()





是激活函数（通常为 ReLU 或 GELU），而





，

b 

，





，

b 

均为可学习的参数。在实践中，

通常设

置为

，

设置为

的 4 倍。FFN 作用包括两个方面：（1）非线性激

活：在每个注意力模块之后引入了非线性激活函数

()





，这有助于增

强模型的表达能力；（2）信息整合：自注意力机制允许模型在不同的

中还加入了下一句预测（Next Sentence Prediction, NSP）任务。在预

训练时，模型的输入是自然语言序列。首先在原始输入中添加特殊标

记 [CLS] 和 [SEP]，并且随机用[MASK] 标记替换原始序列中的字

符。掩码语言建模旨在根据上下文来最大化 [MASK]位置的标签字符

的条件概率，即让模型执行“完型填空”任务。而 [CLS] 的最终表示

被用于预测两个句子是否连贯。RoBERTa 与 BERT 基本相同，但是

它删去了下一句预测任务，采用了更具鲁棒性的动态掩码机制，并使

用更大的批次、更长的时间和更多的数据进行训练。

2.2.2 自回归语言建模

自回归语言模型在训练时通过学习预测序列中的下一个词来建

模语言，其主要是通过 Transformer 解码器来实现。自回归语言模型

的优化目标为最大化对序列中每个位置的下一个词的条件概率的预

测。代表性模型，包括 OpenAI 的 GPT 系列模型[16][26]、Meta 的

LLaMA 系列模型[30]和 Google 的 PaLM 系列模型[17]。其中，GPT-3

[16]是首个将模型参数扩增到千亿参数规模的预训练模型。自回归语

言模型更加适用于生成任务，同时也更适用于对模型进行规模扩增。

2.2.3 序列到序列建模

序列到序列模型是建立在完整 Transformer 架构上的序列到序列

模型，即同时使用编码器-解码器结构，代表性模型包括 T5[42]和

BART[43]。这两个模型都采用文本片段级别的掩码语言模型作为主

要的预训练任务，即随机用单个 [MASK] 特殊标记替换文本中任意

长度的一段字符序列，并要求模型生成填充原始的字符。序列到序列

模型可以形式化地表示为最大化在给定掩码的字符序列的情况下目

标字符序列的概率。

总体而言，自回归语言模型较其它预训练语言模型架构展现了更

优异的情境学习、思维链推理、内容创造等能力，自回归模型架构是

当前大模型的主流架构[5]。

剩余120页未读，继续阅读

闲看蒹葭

粉丝: 11
资源: 12

2023年中国人工智能大模型技术白皮书详解及免费下载

新一代人工智能白皮书（2020年）.pdf

中国人工智能系列白皮书-大模型技术-2023版

中国人工智能系列白皮书-大模型技术（2023 版）

2023中国人工智能系列白皮书-人工智能原理

2023 中国人工智能系列白皮书-深度学习

2023 中国人工智能系列白皮书-智能协同控制与人工智能

中国人工智能系列白皮书-智能农业

2023 中国人工智能系列白皮书-心智计算：构建脑与心智启发的人工智能

中国人工智能系列白皮书-机器博弈2017

面向AI大模型的智算中心网络演进白皮书-2023 -中国移动.zip

最新资源