探索RL与LLM融合：迈向AGI的世界模型详解

需积分: 0 106 浏览量更新于2024-06-13 收藏 10.61MB PDF 举报

本文深入探讨了融合强化学习（RL）与大语言模型（LLM）思想在构建世界模型（WM）以迈向人工智能通用（AGI）和超人工智能（ASI）过程中的关键作用。作者吕明通过对AlphaDev、AlgorithmDistillation以及AlphaGO/Zero的研究，揭示了RL和LLM之间的潜在联系，并借鉴了不同领域的探索模式，如数学家陶哲轩的探索方式和欧几里得助手的概念。 "上篇"部分，着重于AlphaDev的尝试，讨论了算法压缩（AlgorithmDistillation）如何启发了RL在围棋等复杂游戏中的应用，以及AlphaGO/Zero如何通过结合RL与LLM实现深度学习的进步。回归到第一性原理的分析，旨在理解这些技术背后的理论基础。 "中篇"深入剖析了RL与LLM融合的本质，通过对比"系统一"（快速直觉）与"系统二"（深思熟虑）的思考过程，探讨了如何将这两种方法整合在世界模型构建中，以便更好地模拟人类认知。文章还提及了世界模型的内涵，它是AI理解环境和预测未来的关键组成部分。 "下篇"则明确了文章的目的，即通过研究如ChatGPT等LLMs和Alpha系列（如AlphaDev）的AR和RL思想，探索推理过程学习的可能性，并扩展到快思考与慢思考的统一。文章引用李飞飞教授的观点，暗示人工智能正处在历史上的一个重要转折点，即将进入所谓的"牛顿时刻"。作者通过这篇文章，不仅分享了技术细节，还试图提供一个全面的视角，将RL、LLM和世界模型的融合置于更广阔的理论框架内，为AI的未来发展提供了前瞻性的思考。阅读者可以通过文章的三个部分，深入了解这些技术在迈向AGI和ASI道路上的潜力和挑战。

feedback即是其中一种途径），其中Self-Play即是一种看似带有目标场景性的数据生成途径，这个目标场景即是

Self-Play中所处的带有一定目标性的模拟环境。而Synthetic Data最终会在后续过程中用于AMIE模型的Fine-

Tuning。而为了更深入的理解Fine-Tuning的意义，则需要一步步回溯到合成的数据意义再到如何合成的数据，即

数据的合成目标所带来的合成数据对整个模型用于模拟环境中的医学知识与能力空间Fine-Tuning的价值与意义。

因此接下来我们将目标聚焦在核心的Self-Play之上。

在本篇论文中，Self-Play采用了类似Multi-Agent的思想，包括Patient Agent、Doctor Agent、Critic以及

Moderator等角色，在整个自循环self-play过程中，我们发现经过多角色交互过程，在数据层面会合成扩展更多围

绕诊疗环境的多种医疗条件和医学要素，而这些复杂的条件和要素又会作为模型非原始信息作为输入通过多角色

进行进一步的模型生成、决策、反思或评判，是的，这里的关键就是这些「合成扩展的非原始信息作为输入即上

下文提示」，它将在一步步的推理链条中将模型按照规定的情景引导至最终更标准、精确、更高泛化性的结果之

上，而最终将模拟的对话结果用于模型的Fine-Tuning当中来，以保证对模型结果输出的正确性。这里可能大家会

问，为什么需要如此繁琐的过程来合成数据呢？LLM自己不能直接在推理中解决问题吗？难道在采用大量的数据

LLM预训练过程中并没有见到过这些数据？如果没见到，为什么模型还能通过在多角色的交互中合成出来？如果

见到了这些数据，为什么还需要SFT，为什么还需要Multi-Agent、COT、TOT这一过程？当然要要完全回答上述

这些问题，可能需要对LLM的预训练机制和原理进行展开和剖析，在了解了其训练本质后，也许会逐步找到解决

上述疑问的办法。

在这里尝试再进行一些延申，试想一下，在LLM预训练过程中真实世界数据样本是真正足够的吗？与某个领域

的任务对应的真实世界数据样本的组织和分布是合理的吗？即用于LLM pre-training的人类认知下的训练样本空间

的「token」序列组织形态是天然COT的吗？LLM在预训练过程中所预测的下一个token学会的是什么？预训练时

是否能够覆盖空间所有的复杂情况？模型提示词工程 Prompt Engineering与模型参数的Fine-Tuning的本质普遍

性？基于Multi-Agent环境下，是否能达成类AlphaGO这样的self-play博弈环境的学习？等等这一系列问题似乎将会

将我们带入到一个更本质的探寻空间。

在进行上述问题思考和探寻的过程中，刚好也联想到去年了解到的Mistral 7B，而由Mistral 7B也进一步了解到

基于其微调的Zephyr 7B论文中的AIF+DPO(不同于RLHF PPO的算法)算法的思考，包括从Anthropic的RLHF到

Cluade的RAILF，。在这里除了让大众眼前一亮的DPO算法（DPO利用从奖励行数到最优策略的解析映射，使得

将奖励函数上的偏好损失函数转换为策略上的损失函数）之外，我想在AIF这一环节所带来的意义也是非常重大

的。

在Zephyr中，如下图所示，其三步骤的训练方式与chatGPT的三阶段训练方式有着看似较大的差异：

Step1 - sSFT：通过大规模、自指导式数据集(UltraChat)做精炼的监督微调(dSFT)

以上，我们在RL×LLM上开了一个小头，了解到了一些两种算法或训练模式的融合例子，并尝试做出了一些探

索性思考，接下来，将上述模型case以及延展的思考进行一下沉淀，回归第一性原理进行更进一步的本质探寻，

以求找到两者之间所隐含的的共性、差异以及之所以呈现出当前技术发展路径与现状的必然性。

接下来将着重尝试阐释LLM与上述介绍的RL两种模型算法亦或训练思想的Uniqueness和Universality，也许有

人会认为LLM与RL并不适合并列放在一起对比（一个是模型，一个是方法或思想），这在接下来的内容论述中会

向大家进行解释，这里姑且把两者都作为一种模型训练思想+推理模式+所涉及的用于模型训练的真实世界数据组

成、函数及工程的方法来统一看待。

LLM大家都已经再熟知不过了，为了承上启下，这里针对LLM再做一些简单的概念以及自认为一些关键内涵的

回顾。从概念分类角度上看，大语言模型是深度学习的分支。其中：

机器学习是人工智能（AI）的一个子领域，它的核心是让计算机系统能够通过对数据的学习来提高性能。在机

器学习中，我们不是直接编程告诉计算机如何完成任务，而是提供大量的数据，让机器通过数据找出隐藏的模式

或规律，然后用这些规律来预测新的、未知的数据。

深度学习是机器学习的一个子领域，它尝试模拟人脑的工作方式，创建所谓的人工神经网络来处理数据。这

些神经网络包含多个处理层，因此被称为“深度”学习。深度学习模型能够学习和表示大量复杂的模式，这使它们在

诸如图像识别、语音识别和自然语言处理等任务中非常有效。

大语言模型是深度学习的应用之一，尤其在自然语言处理（NLP）领域。这些模型的目标是理解和生成人类语

言。为了实现这个目标，模型需要在大量文本数据上进行训练，以学习语言的各种模式和结构。如 ChatGPT，文

心一言，就是一个大语言模型的例子。被训练来理解和生成人类语言，以便进行有效的对话和解答各种问题。如

下图所示中LLM与ML、DL的关系：

同时，LLM还有一个可以说独有的特点，即生成式AI，这也是区别与其它传统模型或训练任务的

Uniqueness，表面上看，这种技术包括用于生成文本、图像、音频和视频等各种类型的内容的模型，其关键特性

是，它不仅可以理解和分析数据，还可以创造新的、独特的输出，这些输出是从学习的数据模式中派生出来的。

Think：这里可以稍微停下来思考一下生成式模型和判别式模型在底层模式的普遍性和差异性。在这里，个人认

为“生成式”的核心之一在于采用了更高效的token化，而language亦或是code作为token化的承载媒介，是人类认

知推理、链接物理世界、抽象化表达的最重要且涵盖范围十分广泛的概念化空间。而某种程度上，判别式模型在

“判别侧”即模型输出“Y”侧对于生成式模型来说亦属于其子集（其实不光是“Y”，模型输入“X”侧且任务本身亦属于

其子集--这里指的是用于模型推理过程的某种信息变换X→Y的整体模式），因此也就为大多数人所认为的LLM会

取代或替代传统模型提供了理论的可能，即人们常说的： Token is all you need！--- 相比于之前的“Attention is

回归第一性原理

LLM洞察&阐释：

all you need”，感觉Token化的意义会更大：Attention为AI打开了一扇通往对复杂世界理解的一扇门，Token化则

是在在通过这扇门后对于未知世界迈出的第一步，对于视觉领域，结合OpenAI最近所发布的sora中所采用的一

项创新，即“Patches”，就像Token一样将多种模态符号表示(代码语言、数学形式语言、自然语言)统一起来一

样，sora采用将视觉数据压缩到低维的潜空间，然后表示分解为时空patches，从而实现了将像素级视觉数据降

维转换为patches，即在这个“压缩”后的空间中接受训练，而后再利用扩展模型生成连续的像素级视觉数据(视频)-

--这里应该是openAI在sora中形式化训练了一个解码器模型，从而将生成的潜在表示映射回像素空间。

在模型架构及训练模式方面，以chatGPT为代表的大多数LLMs均是基于Transformer的序列预测/生成式模型

架构，其中，LLMs之间会存在编/解码方式、训练任务目标等不同的差异性，如下图所示，这里需要指出的是：上

述提及的“模型架构”更多是包含了广义上的一些理解，包含模型的网络拓扑结构（全连

接/CNN/LSTM/Transformer/GCN..）及其中所蕴含的那些数学变换方法或思想、不同任务的学习目标及对应采用

的损失函数，梯度策略等。针对生成式架构，亦包含诸如多模态视觉模型中采用的变分自编码器、掩蔽自编码

器、去噪自编码器及LeCun提出的JEPA（联合嵌入预测架构）甚至最近OpenAI刚刚发布不久的sora所采用的扩散

模型及其他诸如生成对抗网络等。

除了上述向大家所阐释的LLMs的token化生成式推理模式以及对应的模型架构的两个关键内涵之外，接下来想

再跟各位读者一起分享探讨一下大模型(LLM)中的「In-Context Learning」这一概念和意义-不光局限于LLM本身的

意义，甚至将「In-Context Learning」这一概念更广泛的延展到模型任务推理以及模型训练的普遍而深远的意义之

上。之所以要将目光聚焦到「In-Context Learning」这一概念，主要原因更多是由于在LLM中Context对于模型训

练任务过程中所采用的训练思想，模型推理过程中的few-shot和zero-shot以及带来的prompt learning&prompt

engineering等一系列思想有着深刻的内涵联系。

Think：如果上述所提及的token化是针对于整个模型任务的输出侧的一种普遍适应性的创新，那么Context所涉

及的上述一系列内涵思想则代表了对于模型任务输入侧的一种普遍适应性的创新。这里的“普遍适应性”则代表了

模型处理广泛而普遍任务的一种泛化能力，同时利用上下文所实现的一系列x-shot或prompt engineering似乎与

模型本身参数的Tuning又有着些许隐含的关联，或者在某些层面上两者有着本质的同一性。

在探索「In-Context Learning」这看似神秘和诡异的现象前，希望能先从几个问题入手，尝试从问题出发，逐

步剥开其中的奇妙内涵。

在ChatGPT于2022年10月正式发布前，围绕语言模型的「In-Context Learning」「few-shot」「zero-shot」

「prompt engineering」等思想已经有很多研究论文涌现出来，不同于传统判别式推理模型，其更多的提示场景用

于解决生成式推理任务，而这种生成式推理任务场景似乎又与Prompt-Learning这种模型基于Prompt的训练、推理

方式又有着某种天然的匹配与契合性。然而随着ChatGPT发布后为人们所带来的惊艳以及席卷全球的火爆热度之

余，相当一部分AI研究者也将目光从这种惊艳与热点上缓缓移开，回归到冷静的思考，并结合之前自身所在的AI研

究领域所进行的一系列技术路径的尝试及研究成果与ChatGPT在任务性能、任务类型、任务扩展、任务范围、训

练思想、模型结构等维度进行反思与探寻，以寻求在技术与方法本身在底层逻辑上实现一定的对齐与自洽。

问题一：为什么「In-Context Learning」或相关的「few-shot」「zero-shot」「prompt e与gineering」等思想

能打破传统训练范式并建立新的技术路径进行模型下游任务的SFT，而不用在调整模型任何参数的情况下，在实现

剩余86页未读，继续阅读

吕小明么

粉丝: 685
资源: 1

探索RL与LLM融合：迈向AGI的世界模型详解

通向AGI之路：大型语言模型（LLM）技术的发展与差距

反思与差距：中国在LLM技术与AGI道路上的滞后与OpenAI的引领

LLM与AGI：OpenAI引领的技术革新与思考

通向AGI之路：大型语言模型（LLM）技术精要 - 知乎.pdf

LLM基础之Transformer模型简介.pdf

大型语言模型 LLM：2023 年完整指南.pdf

LLM群聊框架-同时与多个LLM聊天. 大模型群聊框架：同时与多个大语言模型聊天。_OpenA.zip

AGI之路：大型语言模型（LLM）的技术差距与发展趋势分析

有使用了LLM模型的AGI项目实例吗？

AGI技术和LLM模型之间的可能？

最新资源