ChatGPT的RLHF强化学习原理详解

72 浏览量更新于2024-08-04 收藏 1.1MB DOCX 举报

"ChatGPT是InstructGPT的一个变体，通过集成人类反馈的强化学习（RLHF）改进了模型的训练过程，使得模型能够更准确地理解并响应用户的意图。这一技术在openAI的2022年论文中详细阐述，涉及到监督微调（SFT）等多个阶段。" ChatGPT的训练过程分为几个关键步骤，首先是监督微调（Supervised Fine-Tuning, SFT）。在这个阶段，GPT-3模型被用一个大规模的、由人工创建的有监督数据集进行调整。数据集中的每个输入都有对应的正确输出，这些输入和输出是由专业标注员基于真实用户在OpenAI API中的历史交互生成的。为了保证数据的多样性和隐私性，有特定的限制和处理规则，例如限制每个用户ID的样本数量，删除具有共同前缀的提示，以及去除包含个人识别信息的内容。接下来，为了填充数据集中不足的类别，标注员会被要求创造各种类型的提示，如简单问题、包含多个查询/响应对的小样本提示，以及针对特定用户场景的提示。在生成回应时，标注员需要精确理解用户的真实意图，并据此编写合适的回复。这包括直接的请求、小样本示例请求和连续性的故事构建请求等。完成SFT之后，得到的GPT-3.5模型，即SFT模型，会进一步用人类反馈进行强化学习。通过收集模型生成的输出，让人类评估并提供反馈，这个过程反复进行，使得模型的输出逐渐优化，更加符合人类期望。最终，这样的训练方式让ChatGPT具备了更强的理解能力和对话质量，能够更好地服务于各种应用场景，如毕业设计中的智能助手、在线客服等。在openAI的2022年论文《Training language models to follow instructions with human feedback》中，详细描述了这些技术和方法，包括如何利用人类反馈来提升大语言模型的性能，以及如何通过不断迭代和优化，使AI系统更加智能和适应用户需求。这个过程展示了AI研究的一个重要方向——如何结合人类智慧，让机器学习更加高效、精准。

ChatGPT 的原理分析

ChatGPT

ChatGPT 是 InstructGPT 的衍生产品，它引入了一种新的方法，将人类反馈纳

入训练过程中，使模型的输出与用户的意图更好地结合。来自人类反馈的强化学

习（RLHF）在 openAI 的 2022 年论文《Training language models to follow

instructions with human feedback》中进行了深入描述，在下文我们将进行简单

的介绍。

第一步：监督微调（SFT）模型

第一个开发步骤涉及微调 GPT-3 模型，先是需要雇佣 40 个承包商创建一个有

监督的训练数据集，其中的输入有一个已知的输出供模型学习。输入或提示

（prompts）是从实际用户输入到 Open API 中收集的。然后标注人员根据提示

（prompts）写一个适当的回复，从而为每个输入创建一个已知的输出。然后使

用这个有监督的新数据集对 GPT-3 模型进行微调，从而创建 GPT-3.5，也称为

SFT 模型。

为了最大化提示（prompts）数据集的多样性，任何给定的用户 ID 只能有 200

个提示（prompts），并且任何共享长公共前缀的提示（prompts）都被删除了。

并且所有包含个人识别信息（PII）的提示（prompts）都被删除了。

在汇总来自 OpenAI API 的提示（prompts）后，标注师需要创建示例提示

（prompts）以填写只有最少真实样本数据的类别。这些类别包括：

下载后可阅读完整内容，剩余8页未读，立即下载

鼠耗子

粉丝: 1
资源: 13

ChatGPT的RLHF强化学习原理详解

ChatGPT原理分析-万字长文解析.docx

chatgpt原理分析（由浅入深代码范例和详细说明）.docx

ChatGPT原理分析，ChatGPT原理浅析，ChatGPT原理

ChatGPT原理分析

ChatGPT 原理分析

chatgpt原理分析

chatGPT原理分析

ChatGpt 原理分析.pdf

ChatGPT原理分析与应用基础教程.md

四千字详解chatgpt原理分析.doc

最新资源