instructGPT
时间: 2023-09-23 09:06:38 浏览: 55
InGPT是OpenAI发布的一种预训练模,它是GPT3之上进行微调结果。与GPT3相比,InstructPT/ChatGPT训练过程中引入了不同标签者(labeler)来提示编写对生成结果进行排序。这使得InGPT/ChatGPT在训练励模型时能够更好地模真实数据,并获得更高的励。
InstructG和ChatGPT在模型结构和训练方式上完全一致,都使用了指示学习(Instruction Learning)和强化学习(Reinforcement Learning)来指导模型的训练。它们的区别仅仅在于数据的采集方式。要理解ChatGPT,我们需要先了解InstructGPT。
InstructGPT/ChatGPT采用了GPT-3的网络结构,并通过指示学习构建训练样本来训练一个奖励模型(RM)来预测内容的效果。最后,通过奖励模型的评分来指导强化学习模型的训练。整个训练流程如图4所示。 <span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [ChatGPT/InstructGPT详解](https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/128928143)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)