instruct gpt
时间: 2023-11-06 10:59:27 浏览: 166
分享一下GPT入门指南
InstructGPT是一种基于指示学习的语言模型。指示学习的优点是在经过多任务的微调后,能够在其他任务上做zero-shot,而提示学习则是针对一个任务的。相比于提示学习,指示学习具有更好的泛化能力。InstructGPT采用了GPT-3的网络结构,并通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。InstructGPT的训练流程与ChatGPT类似,都依赖于一种名为RLHF(人类反馈强化学习)的训练方法。因此,InstructGPT与ChatGPT是一脉相承的,只是在一些细节上有所修改。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [ChatGPT/InstructGPT详解](https://blog.csdn.net/VucNdnrzk8iwX/article/details/128945676)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
- *3* [InstructGPT 与 ChatGPT的学习与解读](https://blog.csdn.net/jxsdq/article/details/128653265)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文