思维和心智的底层机制。因为这些底层智力的形成,让大模型涌现出了各类能力。
以往我们认为神经网络生成的能力反应了训练样本的规律。但大模型涌现的很多能力
在样本中并没有直接体现。这更像是一个“从表层到底层,再泛化到表层”的过程。
大模型为了拟合海量表层信息生成了类人的底层能力,这让大模型能泛化更多样本之
外的能力,并且可以熟练掌握这些能力。
如果我们认为大模型的能力如同以往神经网络那样,依赖某种监督标准,只能在训练
的任务类型内形成举一反三,就会让我们陷入非常危险的认知偏差之中。大模型适应变化
的任务类型,并不局限于训练使用的任务形式。
GPT 是历史上出现的第一个承载人类文明几乎所有信息的个体,具有类人思维和心智
能力,而且因为计算机的载体优势,能够更加稳定高效运算。GPT 内部已经蕴含了巨大
的智力能量,只是还不知道如何组织使用,需要我们将其进一步引导出来。我们认为大模
型是一个非常伟大的产物,是新文明的起点。
任务和过程
如果亲自玩过 GPT,我们会发现它有很强的任务能力,尤其到了 GPT3.5,通过给
予任务描述以及相应的提示(prompt),GPT 能给出预期的回答或其他输出。但人类大
部分的智力工作是比较综合的,不是单个任务,而是具有“过程属性”,我们可以理解为一
个决策树,其上的每个节点是不同的求解任务,而这个决策树是偏规则的。
所以如果我们想基于 GPT 实现更加综合的智能工作,可以通过把 GPT AIP 化,封装
出不同的任务能力,然后利用一个偏规则的中间层架构定义决策树,驱动一个智能工作的
过程。目前,已经开始深度使用 GPT 搭建产品的团队,都在不同程度上利用偏规则的中
间层建立任务链——原始的输入给到 GPT 封装的 API,输出是另外一个 GPT API 的输
入。通过精准的 prompt 控制,工程师能够制作针对特定类型任务的 GPT API,然后组
织行为过程。
这就是 Prompt Engineering,我们以往用代码编程,有了 GPT 后,我们开始
用自然语言编程。
极端一点,人类文明的创造也是过程属性的,构成人类文明创造的三大过程:认知过
程、解决问题的过程、创造工具的过程,这三个过程相互支持和交织在一起。相比上面描
述的在具体智能工作中的过程,这些过程更加抽象、更加一般化,能演绎泛化出变化万千
的具体智力工作过程。我们的团队试图在人类认知求解的抽象层去建立认知目标分解的机
制,我们称之为“工厂模型”。
组织控制大模型能力
在 ChatGPT 之前,大模型已经拥有了自然语言和人类逻辑运算的底层能力,但不知
道如何使用,这等同于拥有强大的能量却无法有秩序地释放。ChatGPT 利用强化学习,
让大模型按照人类期望的方式使用它的能力。但我们知道,大模型还有很多不可控的地
方,所以相信 ChatGPT 只是让模型控制自身能力的第一步。未来大模型本身的能力提