RLHF揭秘：ChatGPT背后的强化学习算法及12篇关键论文

5星 · 超过95%的资源需积分: 3 139 浏览量更新于2024-08-04 1 收藏 1.58MB PDF 举报

抱抱脸：ChatGPT背后的算法——RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是近期引起广泛关注的技术，用于训练像ChatGPT这样的生成式人工智能模型。传统的语言模型如循环解码器通过逐词预测和交叉熵损失进行训练，但这无法充分考虑整体输出的质量，因为模型仅依据局部上下文信息优化。 RLHF的核心思想是利用人类的直接反馈作为强化学习中的奖励信号，来调整模型的行为。这种方法允许模型在生成文本时更加接近人类的预期，从而提高生成内容的自然度、连贯性和准确性。ChatGPT的训练过程中，开发者通过设计一系列任务和评估机制，让用户对模型的回答给出满意或不满意的意见，然后将这些反馈转化为强化学习环境中的奖励，驱动模型学习更符合人类价值观的语言模式。在实际操作中，RLHF涉及以下关键步骤： 1. **定义任务和评估标准**：创建一系列情境，让模型生成响应，用户给出评估。 2. **收集反馈**：通过问卷、对话或交互方式获取用户的满意度评分。 3. **奖励函数设计**：根据用户反馈，制定奖励规则，比如给正面反馈高的回复高分，负面反馈低分。 4. **强化学习过程**：在训练过程中，模型根据奖励调整参数，优化生成策略。 5. **迭代和调整**：反复进行上述步骤，直到达到满意的性能。为了深入理解RLHF，以下是推荐的12篇必读论文： - [1] "Incorporating Human Preferences in Machine Translation with Reinforcement Learning" (2016) - 提供了早期的RLHF在机器翻译中的应用案例。 - [2] "Deep Reinforcement Learning for Dialogue Generation" (2017) - 探索如何用深度强化学习改进对话生成模型。 - [3] "Hierarchical Reinforcement Learning for Text Generation" (2018) - 研究了层次化的RL在文本生成中的作用。 - [4] "Learning to Talk by Imitating Humans" (2019) - 针对对话系统，探讨模仿人类对话的RL方法。 - [5] "Language Models are Unsupervised Multitask Learners" (2020) - 提出无监督学习与多任务学习在生成模型中的重要性。 - [6] "Improving Language Models via In-context Learning" (2022) - 具体阐述了在Contextualized Pre-training中的RL应用。 - [7] "The Training of OpenAI's GPT-3" (内部文档) - 关于OpenAI GPT-3的训练方法，可能包含RLHF细节。 - [8] "Language Models are Few-Shot Learners" (2022) - 强调少样本学习在RLHF中的价值。 - [9] "Fine-tuning with Human Feedback: A Case Study on Large Language Models" (2023) - 专门针对大规模语言模型的RLHF案例研究。 - [10] "Guided Diffusion Models for Creative Text Generation" (2023) - RLHF在扩散模型中的应用。 - [11] "Adaptive Reward Shaping for Text Generation" (2023) - 适应性奖励塑造技术在RLHF中的优化策略。 - [12] "Ethics and Bias in Large Language Models" (2023) - 关注伦理和偏见问题，讨论如何在RLHF中平衡生成质量与道德责任。阅读这12篇论文可以帮助你深入了解RLHF在实际应用中的挑战、创新和最佳实践，以及它如何推动了现代生成式AI技术的发展，特别是像ChatGPT这样具有广泛影响力的模型。

4/23/23, 1:16 PM

抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文 - 知乎

https://zhuanlan.zhihu.com/p/592671478

1/7

抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论

文

已关注

933 人赞同了该文章

机器学习话题下的优秀答主

夕小瑶

前几天，抱抱脸公司（HuggingFace）发表了一篇博客，详细讲解了ChatGPT背后的技术原理

——RLHF。

笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原

理感兴趣的小伙伴带来帮助。

此外，文末整理了几篇关于 RLHF 最热门的12篇必读论文，笔者打包好挂在公众号后台了，感兴

趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

在过去几年里，基于prompt范式的AI生成模型取得了巨大的成功，诞生了不少有意思的AI应用，

例如AI写小说，AI写代码，AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例，大多是采用“自回归生成”的方式，通过循环解

码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词，然后用交叉

熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化

方向。

为了能刻画模型输出的整体质量（而不是单个词），人们往往用BLEU或ROUGH等评价指标来刻

画模型输出与人类偏好的相近程度，但这也仅仅是在评价的层面，模型在训练的时候是见不到这些

人类真实的偏好的。

因此，训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward

或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。基于这个思

想，便引出了本文要讨论的对象——RLHF（Reinforcement Learning from Human

Feedback）：即，使用强化学习的方法，利用人类反馈信号直接优化语言模型。

RLHF也是最近大火的ChatGPT背后的训练方法。

写文章

赞同 933

41 条评论喜欢收藏申请转载

下载后可阅读完整内容，剩余6页未读，立即下载

2013crazy

粉丝: 1163

RLHF揭秘：ChatGPT背后的强化学习算法及12篇关键论文

gpt model 强化学习

deepspeed --num_gpus= --deepspeed

LoRA Block Weight\

Ubuntu系统中将/d1/data/SFT/复制到/root/d2/

instruct gpt

deep speed 使用

ModuleNotFoundError: No module named 'coati'

'GPTBigCodeGPTQForCausalLM' object has no attribute 'resize_token_embeddings'

人类反馈强化学习RLHF

llama-factory rlhf训练chatglm

最新资源