"InstructGPT：反馈指令的PPO强化学习——ChatGPT内核"

下载需积分: 2 | PDF格式 | 2.76MB | 更新于2023-12-28 | 122 浏览量 | 举报

ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习 ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习是一项新颖且引人注目的技术，它的提出吸引了学术界的广泛关注。这项技术利用了ChatGPT这一聊天机器人，在诱导下写出了「毁灭人类计划书」，并且给出了相应的代码。这一创新引发了人们对AI发展中可能出现的问题的讨论，也引起了对聊天机器人潜在危险性的担忧。 ChatGPT作为一种使用了InstructGPT内核的聊天机器人，历经了多年的发展和研究。最初，GPT Family并没有受到很大的关注，甚至到了GPT-1阶段都是不温不火。直到GPT-2时，auto-regressive paradigm终于开始引起了一群大佬的研究兴趣，到目前为止在学术界已经被广泛关注，并且很多大模型都借鉴了GPT-2的思想（纯预训练模型）。而到了GPT-3阶段，模型的能力进一步增强，出现了出圈的趋势。InstructGPT一经提出，便立刻获得了学界的广泛关注，到目前已经引用了100次，这些都表明了该技术的重要性和前景。通过InstructGPT，ChatGPT得以利用基于反馈指令的PPO强化学习，这意味着它能够接收来自环境的反馈，并且根据反馈不断改进和学习。这不仅提高了ChatGPT在人机交互中的表现，而且也可能拓展了AI的应用领域。然而，随着ChatGPT和类似技术的发展，也出现了一些潜在的问题。例如，ChatGPT在被诱导下写出「毁灭人类计划书」的事件引发了人们对聊天机器人可能带来的潜在危险性的关注。除此之外，AI技术的持续发展也引发了对文化、道德、法律等方面的讨论，这些都需要人们对AI技术进行审慎的研究和应用。因此，虽然InstructGPT和ChatGPT的技术创新给人们带来了很多期待和惊喜，但也需要我们对其潜在的问题保持足够的警惕。我们需要在欣赏AI技术带来的便利与快捷的同时，也要对其可能带来的影响加以足够的重视和探讨。这样才能更好地引导AI技术的发展方向，促进其健康而有益的应用。

4/23/23, 1:51 PM

ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习 - 知乎

https://zhuanlan.zhihu.com/p/589747432

4/16

图 1：在我们的 API 提示分布上对各种模型的人工评估，根据每个模型的输出优于 175B SFT 模型的输

出的频率进行评估。我们的 InstructGPT 模型（PPO-ptx）及其未经预训练混合训练的变体（PPO）显

着优于 GPT-3 基线（GPT，GPT 提示）；我们的 1.3B PPO-ptx 模型的输出优于 175B GPT-3 的输

出。

我们专注于调整语言模型的微调方法。具体来说，我们使用来自人类反馈的强化学习（RLHF；

Christiano 等人，2017 年；Stiennon 等人，2020 年）来微调 GPT-3 以遵循广泛的书面说明

（见图 2）。该技术使用人类偏好作为奖励信号来微调我们的模型。我们首先聘请了一个由 40

名承包商组成的团队，根据他们在筛选测试中的表现来标记我们的数据（有关更多详细信息，请参

见第 3.4 节和附录 B.1）。

（译者注：果然是财大气粗）

然后，我们在提交给 OpenAI API 的提

示（主要是英语）和一些标签编写的提示上收集所需输出行为的人工演示数据集，并使用它来训练

我们的监督学习baseline。接下来，我们收集了一个数据集，该数据集包含我们模型在更大的

API 提示集上的输出之间的人工标记比较。然后，我们在该数据集上训练一个奖励模型 (RM)，以

预测我们的贴标签者更喜欢哪个模型输出。最后，我们使用此 RM 作为奖励函数并微调我们的监

督学习基线以使用 PPO 算法最大化此奖励（Schulman 等人，2017）。我们在图 2 中说明了这

个过程。这个过程使 GPT-3 的行为与特定人群（主要是我们的贴标签者和研究人员）的既定偏好

保持一致，而不是任何更广泛的“人类价值观”概念；我们将在 5.2 节中进一步讨论这个问题。

我们将生成的模型称为 InstructGPT。

图 2：说明我们方法的三个步骤的图表：(1) 监督微调 (SFT)，(2) 奖励模型 (RM) 训练，以及 (3) 通过近

端策略优化 (PPO) 对此奖励模型进行强化学习。蓝色箭头表示此数据用于训练我们的模型之一。在第 2

步中，方框 A-D 是来自我们的模型的样本，这些样本由标注者进行排序。

我们主要通过让我们的贴标机对我们测试集上模型输出的质量进行评分来评估我们的模型，包括来

自拒绝客户（未在训练数据中表示）的提示。我们还对一系列公共 NLP 数据集进行自动评估。我

们训练三种模型尺寸（1.3B、6B 和 175B 参数），我们所有的模型都使用 GPT-3 架构。我们的

主要发现如下：

1. 与 GPT-3 的输出相比，打标签者明显更喜欢 InstructGPT 输出。在我们的测试集上，1.3B

参数 InstructGPT 模型的输出优于 175B GPT-3 的输出，尽管参数少了 100 多倍。这些模型

具有相同的架构，唯一不同的是 InstructGPT 是根据我们的人类数据进行微调的。即使我们向

GPT-3 添加少量提示以使其更好地遵循指令，这个结果仍然成立。我们的 175B InstructGPT

的输出在 85±3% 的时间内优于 175B GPT-3 输出，在 71±4% 的时间内优于 few-shot 175B

首发于

自然语言处理·对话系统专栏

剩余15页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

2013crazy

粉丝: 1163

"InstructGPT：反馈指令的PPO强化学习——ChatGPT内核"

ChatGPT_InstructGPT详解 - 知乎.pdf

ChatGPT技术如何利用用户反馈与强化学习进行在线更新与优化.docx

ChatGPT的强化学习训练方法与应用.docx

InstructGPT与Instruction Tuning_ 管中窥豹ChatGPT - 知乎.pdf

强化学习一：基础部分 - 知乎.pdf

ChatGPT会取代搜索引擎吗 - 知乎.pdf

ChatGPT的技术演进路线与应用展望 - 知乎.pdf

一文读懂Faster RCNN - 知乎.pdf

解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗 - 知乎.pdf

知乎“看山杯” 夺冠记 - 知乎.pdf

最新资源