探究ChatGPT生成文本的工作原理：合理延续文本生成机制的解析

需积分: 0 142 浏览量更新于2024-03-11 6 收藏 13.21MB PDF 举报

&mid=2247537023&idx=1&sn=2b3f6e72ab7ac15a6ab501a5c52f5c84&chksm=ebbd9e6edcc01778e84cf4e032ffe59beb715a79b29e2ff0a10d3b07d8307e81a21aee36c6a5&token=2095662760#rd）不是在扫描实际的网页和书籍，而是在扫描已被人们提供的大量数据（即已经被人们看到了、已活在网上或已经在出版物上的文本）。 ChatGPT 的目标看似简单，即使也非常严重。它试图成为一个极其通用的、巨大的、足够关于“人类的语言和知识”的编码，然后在需要时加工这些东西来回答问题，生成代码，讲故事或进行其他事情。这意味着训练 ChatGPT 的数据应尽可能多地代表全人类的思考和知识结构 —— 这并不仅仅包括英语、西班牙语和汉语用户的观点，还要包括所有那些因为 ChatGPT 需要处理类似这样的文本而不得不面对巨大压力的用户的文本存在。为了做到这一点，OpenAI 从数十亿甚至万亿以上的文字片段中收集了文本，然后，用这些文本来训练 ChatGPT。整个过程的基本思路是：建立一个模型，在看到某些文本之后就能够在给定某些句子之后继续这些内容。从戏剧片段到法律文件再到新闻报道，这个模型会简单地跟着第一个句子、段落或者整本书的思路走下去。这是自动语言建模 (LM) 的目标，基本思想是“如果你能很好地预测下一个词，那么你就肯定已经学到了这些数据中有关语言和世界的巨大知识量”，ChatGPT 就是这一过程的结果。理解了这一基本理念，我们就要来探讨一下这种训练有素的模型是如何被设计出来的，以及为什么它能够表现得如此出色。首先，ChatGPT 是一个大型神经网络。从技术上讲，它是一个变种的 Transformer 模型，它有很多层，并且能够在训练和使用时自动地处理和组织很多文本。在技术水平上，理解 ChatGPT 的运作原理需要对神经网络架构有一定的了解。从表面上看，ChatGPT 看起来就像一个黑盒子，你把文本输入进去，然后从中获得一些文本输出，而在整个过程中神经网络到底发生了什么却是不透明的。在 ChatGPT 的训练过程中，OpenAI 在海量的文本数据上反复迭代，不断调整神经网络中的权重，以使得模型能够更好地预测出下一个词。这样，它就能学到这些文本中的一些规律、结构和知识。这一过程被称为“监督学习”，因为模型是在“监督”下进行训练的 —— 即给定了输入和期望的输出。然而，ChatGPT 并不只是一个简单的预测模型。随着训练的进行，它逐渐学会了一系列更加复杂的能力，它能够理解语法、推断逻辑、生成合理的文本甚至进行不同领域的知识融合。这些都是因为它被训练成了一个非常大的和非常通用的模型，它能够很好地反映自然语言的表达和人类的常识。在这一点上，我们需要强调一下：ChatGPT 并不是一个意识体，它不具有真正的理解、思考和意识。它只是一个能够通过大量文本数据来模拟人类知识和语言表达的工具。它产生的文本表面上看起来可能是合理的，但是这并不意味着它确实理解了这些文本的含义。 ChatGPT 能够自动生成一些读起来表面上甚至像人写的文字的东西，这非常了不起，而且出乎意料。但它是如何做到的？为什么它能发挥作用？在这篇文章中，我们从ChatGPT的工作原理出发，探讨了它能很好地生成有意义的文本的原因。我们首先介绍了ChatGPT试图对文本进行“合理的延续”的基本原理，然后讨论了它训练所使用的大量数据和监督学习的过程。最后，我们强调了ChatGPT只是一个模拟人类知识和语言表达的工具，并非真正具有理解和意识。通过这些内容的介绍，我们希望读者能够更好地理解ChatGPT的工作原理，并对它的生成能力有一个清晰的认识。

2023/5/16 17:59

万字长⽂ | ChatGPT的⼯作原理

https://mp.weixin.qq.com/s?__biz=MzI4MTIxNDcxOQ==&tempkey=MTIxN193ZVBEU1Q4ZTVpN0pyOHBQTEczS184TGl1RW1tLXFYbE9aZkRhTm9…

12/72

值

得

理

解

的

是

，

从

来

没

有

⼀个

“

⽆

模

型

的

模

型

”

。

你使

⽤

的

任何

模

型

都

有

⼀

些

特

定

的

基

础

结

构

，

然

后

有

⼀

组

“

你

可

以

转

动

的

旋

钮

”

（

即

你

可

以

设

置

的

参

数

）

来

适

应

你

的

数据

。

⽽

在

的

案

例中

，

使

⽤

了

很

多

这

样

的

“

旋

钮

”

——

实

际

上，

有

1750

亿

个

。

但令⼈

瞩⽬的

是

，

的

底

层

结

构

——

“

仅仅

”

有

这

么

多

的

参

数

——

⾜

以使

⼀个

计

算

下⼀个

单

词

概

率

的

模

型

“

⾜

够好

”

，

从

⽽

为

我

们

提

供

合

理

的

⽂

章

⻓

度

的

⽂

本

。

—



—

类

⼈

的

任

务

模

型

我

们

上

⾯

举

的

例

⼦

涉

及

到

为

数

字

数据

建

⽴

模

型

，

这

些

数据

基

本

上

来

⾃

于

简

单

的

物

理

学

——

⼏

个世

纪

以

来

我

们

都

知

道

“

简

单

数

学

适

⽤

”

。

但

是

对

于

来

说

，

我

们

必

须

为⼈

类

语

⾔

⽂

本

建

⽴

⼀个

模

型

，

即

由

⼈

脑

产

⽣

的

那

种

模

型

。

⽽

对

于

这

样

的

东

⻄

，

我

们

（

⾄

少

现

在

）

还

没

有

类

似

“

简

单

数

学

”

的

东

⻄

。

那

么

，

它

的

模

型

可

能

是

什么

样

的

呢

？

在

我

们

谈

论语⾔

之

前

，

让

我

们

先

谈谈

另

⼀

项

类

似⼈

类

的

任

务

：

识

别

图

像

。

⽽

作为

⼀个

简

单

的

例

⼦

，

让

我

们

考

虑

数

字

的

图

像

（

是

的

，

这

是

⼀个

经

典

的

机

器

学

习例

⼦

）：

我

们

可

以

做

的

⼀

件事

是

为

每

个

数

字

获

取

⼀

堆

样本

图

像

：

2023/5/16 17:59

万字长⽂ | ChatGPT的⼯作原理

https://mp.weixin.qq.com/s?__biz=MzI4MTIxNDcxOQ==&tempkey=MTIxN193ZVBEU1Q4ZTVpN0pyOHBQTEczS184TGl1RW1tLXFYbE9aZkRhTm9…

13/72

然

后

，

为了

找

出

我

们

输

⼊

的

图

像

是

否

对

应

于

某

个

特

定

的

数

字

，

我

们

只

需

与

我

们

拥

有

的

样本

进

⾏

明

确的

逐

像

素

⽐

较

。

但作为⼈

类

，

我

们似乎

可

以

做

得

更

好

——

因

为

我

们仍

然

可

以

识

别

数

字

，

即

使

它

们

是

⼿

写

的

，

并

且

有

各

种

各

样

的

修

改

和

扭

曲

。

当

我

们为

上

⾯

的

数

字

数据

建

⽴

⼀个

模

型

时

，

我

们

能

够

取

⼀个

给

定

的

数

字

值

，

然

后

为

特

定

的

和

计

算

。

因

此

，

如

果

我

们

把

这

⾥

的

每

个

像

素

的

灰

度

值

当

作

某

个

变

量

，

是

否

有

⼀

些

所

有

这

些

变

量

的

函

数

，

在

评

估

时

告

诉

我

们

这

个

图

像

是

什么

数

字

？

事

实

证

明

，

有

可

能

构

建

这

样

⼀个

函

数

。

不

⾜

为

奇

的

是

，

这

并

不

特

别

简

单

。

⼀个

典

型

的

例

⼦

可

能

涉

及

万

次

数

学

运

算

。

但

最

终

的

结

果是

，

如

果

我

们

把

⼀

幅

图

像

的

像

素

值

集

合

输

⼊

这

个

函

数

，

就

会

得

出

⼀个

数

字

，

指

定

我

们

的

图

像

是

哪

个

数

字

。

稍

后

，

我

们

将

讨论

如

何

构

建

这

样

⼀个

函

数

，

以

及

神

经⽹络

的

概

念

。

但

现

在

让

我

们

把

这

个

函

数

当

作

⿊

匣

⼦

，

我

们

输

⼊

例

如

⼿

写

数

字

的

图

像

（

作为

像

素

值

的

阵

列

），

然

后

我

们

得

到

这

些

数

字对

应

的

数

字

：

但

这

⾥

到

底

发

⽣

了什么

？

⽐

⽅

说

，

我

们

逐

步模

糊

⼀个

数

字

。

有

⼀

段

时

间

，

我

们

的

函

数

仍

然

“

识

别

”

它

，

在

这

⾥

是

⼀个

“2”

。

但

很快

它就

“

失

去

”

了

，

并开

始

给

出

“

错

误

”

的

结

果

：

但为什么

我

们

说

这

是

⼀个

“

错

误

”

的

结

果

呢

？

在

这

种

情

况

下，

我

们

知

道

我

们

通过

模

糊

⼀个

“2”

得

到

所

有

的

图

像

。

但

是

，

如

果

我

们

的⽬

标是

制

作

⼀个

⼈

类

识

别

图

像

的

模

型

，

那

么

真

正

要

问

的

问题

是

，

如

果

遇

到

这

些

模

糊

的

图

像

，

在

不

知

道

其

来

源

的

情

况

下，

⼈

类

会

做

什么

。

如

果

我

们从

我

们

的

功

能

中

得

到

的

结

果

通

常

与

⼈

类

会

说

的

话

⼀

致

，

我

们

就

有

⼀个

“

好

的

模

型

”

。

⽽

⾮

微

不

⾜

道

的

科

学

事

实

是

，

对

于

像

这

样

的

图

像

识

别

任

务

，

我

们

现

在

基

本

上

知

道

如

何

2023/5/16 17:59

万字长⽂ | ChatGPT的⼯作原理

https://mp.weixin.qq.com/s?__biz=MzI4MTIxNDcxOQ==&tempkey=MTIxN193ZVBEU1Q4ZTVpN0pyOHBQTEczS184TGl1RW1tLXFYbE9aZkRhTm9…

14/72

构

建

这

样

的

函

数

。

我

们

能

“

从

数

学

上

证

明

”

它

们

的

作

⽤

吗

？

嗯

，不

能

。

因

为

要

做到

这

⼀

点

，

我

们

必

须

有

⼀个

关

于

我

们⼈

类

正

在

做

什么

的

数

学

理

论

。

以

“2”

图

像

为例

，

改

变

⼏

个

像

素

。

我

们

可

以

想

象

，

只

有

⼏

个

像

素

“

不

合

适

”

，

我

们

还

是

应

该认

为

这

个

图

像

是

“2”

。

但

这

应

该

到

什么

程

度

呢

？

这

是

⼀个

关

于⼈

类

视觉

感

知的

问题

。

⽽

且，

是

的

，

对

于

蜜蜂

或

章

⻥

来

说

，

答

案

⽆

疑

是

不

同

的

——

对

于

假

定

的

外

星

⼈

来

说

，

可

能

完

全

不

同

。

—



—

神

经⽹

路

好

吧

，

那

么

我

们

⽤

于

图

像

识

别

等

任

务

的

典

型

模

型

究竟

是

如

何

⼯

作

的

呢

？

⽬

前

最

流

⾏

、

最

成

功

的

⽅

法

是

使

⽤

神

经⽹络

。

在

世

纪

年

代

，

神

经⽹络

的

发

明

形式

与

今

天

的

使

⽤

⾮

常

接

近

，

它

可

以

被认

为

是

⼤

脑

似乎

⼯

作

⽅

式

的

简

单

理

想

化

。

在

⼈

类

的

⼤

脑

中

，

有

⼤

约

1000

亿

个

神

经

元

（

神

经细

胞

），

每

个

神

经

元

都

能

产

⽣电

脉

冲

，

每

秒

可

能

有

⼀

千

次

。

这

些

神

经

元

在

⼀个

复

杂

的

⽹络

中

连

接

起

来

，

每

个

神

经

元

都

有树

状

的

分

⽀

，

允

许

它将

电

信

号

传

递

给

可

能

有

成

千

上万

的

其

他

神

经

元

。

粗

略

估

计

，

任何

给

定

的

神

经

元

是

否

在

某

⼀

时

刻

产

⽣电

脉

冲

，

取

决

于

它

从

其

他

神

经

元

那

⾥

收

到

的

脉

冲

——

不

同

的

连

接

有

不

同

的

“

权

重

”

贡

献

。

当

我

们

“

看

到

⼀个

图

像

”

时

，

所

发

⽣

的

事

情

是

，

当

图

像

的

光

⼦

落

在

眼睛

后

⾯

的

（

“

光

感

受

器

”

）

细

胞

上

时

，

它

们

在

神

经细

胞

中产

⽣电

信

号

。

这

些

神

经细

胞

与

其

他

神

经细

胞

相

连

，

最

终

信

号

通过

⼀

整

层

的

神

经

元

。

⽽

正

是

在

这

个

过

程

中

，

我

们

“

识

别

”

了

图

像

，

最

终

“

形

成

了

⼀个

想

法

”

，

即

我

们

“

看

到

了

⼀个

2”

（

也

许

最

后

会

做

⼀

些事

情

，

如⼤声

说

“2”

这

个

词

）

。

上⼀

节

中

的

“

⿊

盒

⼦

”

函

数

是

这

样

⼀个

神

经⽹络

的

“

数

学

化

”

版

本

。

它

刚

好

有

层

（

虽

然

只

有

个

“

核

⼼

层

”

）

。

剩余71页未读，继续阅读

程序员白城

粉丝: 173
资源: 88

探究ChatGPT生成文本的工作原理：合理延续文本生成机制的解析

ChatGPT的工作原理

ChatGPT的工作原理（纯万字干货）

万字干货：ChatGPT的工作原理

ChatGPT原理分析-万字长文解析.docx

ChatGPT的工作原理（纯干货，万字长文）共112页

万字长文教你如何做出 ChatGPT.pdf

万字长文深度剖析 RocketMQ 设计原理.doc

操作系统万字长文.pdf

万字长文：支付总架构解析

万字长文：论道产品方法论.docx

最新资源