InstructGPT与ChatGPT：模型解析与国内现状

需积分: 1 59 浏览量更新于2024-08-04 收藏 1.39MB PDF 举报

"这篇文章主要探讨了InstructGPT与Instruction Tuning的概念，并提及它们与ChatGPT的关系。文章指出，国内目前还没有类似ChatGPT的纯生成式对话模型，主要原因是创新动力不足和公司间的割裂。作者提到了InstructGPT作为ChatGPT的‘兄弟模型’，是研究ChatGPT的重要参考，并分享了InstructGPT的训练方法，即通过循环与人类交互进行训练，以提高模型遵循用户意图的能力并降低毒性。" InstructGPT是OpenAI推出的一个预训练语言模型，它是GPT-3的改进版本，旨在更好地理解和遵循用户的指令。与传统的语言模型相比，InstructGPT通过一种称为指令调优（Instruction Tuning）的技术进行了优化。这种技术涉及在模型训练过程中加入人类反馈，使模型能够理解并执行更为复杂的指令，同时提升其产出内容的质量和真实性。指令调优（RLHF， Reinforcement Learning from Human Feedback）是一种强化学习方法，它利用人类的反馈来指导模型的学习过程。在InstructGPT的训练中，模型首先基于大量的指令和相应的正确输出进行学习，然后通过人类评估员的反馈来调整其生成响应的策略。这种方法有助于减少模型的偏见，使其输出更加符合人类的价值观和期望。 ChatGPT是OpenAI的另一个热门产品，它是一款基于对话的AI助手，能够与用户进行自然流畅的对话。尽管ChatGPT在对话理解和生成方面表现出色，但国内由于资金支持、公司合作以及数据标注等问题，尚未出现类似水平的对话模型。国内的研究更多集中在传统的对话模型上，这些模型通常采用模块化的方式设计，而不是像ChatGPT那样基于大规模的无监督预训练和有监督的指令调优。 InstructGPT的博客提供了关于模型训练和优化的深入洞察，而RLHF的相关论文则揭示了如何通过人类反馈来改进模型性能。对于那些希望深入了解ChatGPT工作原理和InstructGPT的读者，除了博客文章外，还可以查阅相关论文进行系统学习，以便更好地理解这些先进技术在AI对话模型中的应用。 InstructGPT和Instruction Tuning是AI领域的重要进展，它们展示了通过结合强化学习和人类反馈来改进大型语言模型的能力。这些技术的发展不仅推动了AI对话系统的进步，也为未来的智能助手和人机交互设立了新的标准。

4/23/23, 1:51 PM

InstructGPT与Instruction Tuning: 管中窥豹ChatGPT - 知乎

https://zhuanlan.zhihu.com/p/589734619

1/7

InstructGPT与Instruction Tuning: 管中窥豹ChatGPT

已关注

181 人赞同了该文章

UIUC MSCS DL/Fin/MLSys

HeptaAI

国内有类似ChatGPT能力的模型吗？

泻药。ChatGPT是纯生成式对话模型，国内目前还少有类似的研究出现。第一，创新缺乏动力

（Funding给不足，虽然ChatGPT最终的结果很惊艳，但是它的兄弟模型InstructGPT的出发点是

减少模型偏见，这种研究国内给的支持很少）；第二，公司割裂严重（公司各干各的，想要从头

搭，例如百度文心大模型没法从别的大公司处得到支持，但是OpenAI的InstructGPT收到了来自

DeepMind等知名公司的大力支持甚至直接介入）。高校是不可能做出这样的模型的，根本没钱做

标注。因此国内做传统对话模型更多，是通过模块化的方式实现的。

以下为技术分析正文：

学术圈、工业圈和朋友圈都被ChatGPT刷爆了，在铺天盖地的评价中我们还是来做一下对于模型

架构的分析，看看OpenAI又是如何创造这一个神话的。这里我搬运一下InstructGPT（ChatGPT

的兄弟模型，目前可以看成学习ChatGPT的最宝贵资源）的一些基础。本系列包括三篇文章，每

一篇会投不同的问题。本文是引入性质的，主要搬运了InstructGPT和RLHF的博客内容。

ChatGPT全家桶阅读指南

对InstructGPT的大致了解：InstructGPT博客+RLHF博客（本文）

对InstructGPT的深度理解：InstructGPT博客+RLHF博客+论文

对InstructGPT的系统学习：InstructGPT博客+RLHF博客+论文+系统性概括（更新后会上链接）

InstructGPT博客：对齐语言模型以遵循指令

英文博客传送门

摘要

我们训练的语言模型比 GPT-3 更善于遵循用户意图，同时使用通过我们的对齐研究开发的技术使

它们更真实、毒性更小。这些 InstructGPT 模型是在循环中与人类一起训练的，现在作为默认语

言模型部署在我们的 API 上。

简介

首发于

自然语言处理·对话系统专栏

下载后可阅读完整内容，剩余6页未读，立即下载

IT徐师兄

粉丝: 2319
资源: 2862

InstructGPT与ChatGPT：模型解析与国内现状

instruction_graph-0.2.23: 新版Python库安装指南

instruction_graph-0.2.16：Python图形指令库发布

Python库instruction_graph-0.2.6安装指南

ChatGPT_InstructGPT详解 - 知乎.pdf

LOGO_CIM_Operating_Instruction_zhCHS_zh-CHS.pdf

计算机-GPT产业复盘（2022）：推出ChatGPT-230219.pdf

et200pro_operating_instructions_zh-CHS_zh-CHS.pdf

MIL-STD-188_164B_CHG_NOTICE-1.055303.pdf

Python库 | instruction_graph-0.2.16.tar.gz

Python库 | instruction_graph-0.2.23.tar.gz

最新资源