无需RLHF，Wombat语言模型逼近93% ChatGPT性能：新训练方法揭秘

版权申诉

114 浏览量更新于2024-08-04 收藏 1.61MB PDF 举报

Wombat是一项最新的自然语言处理研究，其论文标题为《Wombat：93% ChatGPT性能！无需RLHF就能对齐人类的语言模型》。这项研究发表在arXiv上，由GanjinZero团队开发，旨在探索一种无需强化学习（RLHF）也能有效提升语言模型性能的方法。与OpenAI的ChatGPT和GPT-4相比，Wombat-7B模型展示了强大的性能，特别是在Vicuna的部分测试集中，其表现达到了ChatGPT的93%。文章的核心贡献是提出了一种新的模型训练技术，即无强化学习对齐（RRHF），这种方法不依赖于传统的强化学习来调整模型的行为，而是通过设计一种排序的、基于人类偏好的方法来优化模型。这意味着Wombat-7B能够更好地理解和响应各种语言任务，同时避免了RLHF可能带来的复杂性，如超参数调整和模型间协作的问题。研究者使用ChatGPT和GPT-4作为参考模型，通过对比它们对特定任务的回复质量，评估Wombat-7B的表现。在评价指标上，GPT-4给予ChatGPT的回复平均评分为8.5分，而给予Wombat-7B的是7.9分，这表明尽管没有使用强化学习的强化指导，Wombat-7B仍能在一定程度上模仿人类对话的流畅度和准确性。值得注意的是，由于没有GPT-4的API，研究人员未能进行全面的性能测试，但仅在部分可用数据上展示了其潜力。Wombat-7B的训练代码和模型权重可以在Hugging Face平台上获取，这为其他研究者提供了研究和改进的基础。总结来说，Wombat的研究成果挑战了强化学习在大型语言模型对齐中的必要性，提供了一种更为简洁的训练策略。这一突破对于推动自然语言处理领域的发展具有重要意义，尤其是在寻求更加高效和易于部署的语言模型训练方法时。未来的研究可能会进一步探索如何在保持性能的同时，减少对强化学习的依赖，从而推动AI技术向着更广泛的应用场景发展。

2023/6/28 11:11

Wombat：93%ChatGPT性能！无需RLHF就能对齐人类的语言模型

https://mp.weixin.qq.com/s/lkaYrzuSzv522b6fr-e5rw

1/4

Wombat：93%ChatGPT性能！无需RLHF就能对齐人类的语言模型

文  | zzy

文章地址 :

https://arxiv.org/abs/2304.05302v1

训练代码：

https://github.com/GanjinZero/RRHF

模型权重：

https://huggingface.co/GanjinZero/wombat-7b-delta

文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作

为得分模型，开发了语言模型Wombat-7B 和Wombat-7B-GPT4。Wombat-7B 在Vicuna的部

分测试集上（因没有GPT4 AP I，无法完整测试），可以达到ChatGP T 93% 的性能。其中GPT-

4给ChatGPT的回复平均打了8.5分，而给Wombat-7B平均打了7.9分。

OpenAI 的 chatGPT理解多种多样的的人类指令，并且可以很好的应对不同的语言任务需求。

chatGP T令人惊叹的能力来源于一种新颖的大规模语言模型微调方法：RLHF（通过强化学习对

齐人类反馈）。RLHF方法不同于以往传统的监督学习的微调方式，该方法使用强化学习的方

式对LLM进行训练。RLHF解锁了语言模型跟从人类指令的能力，并且使得语言模型的能力和

人类的需求和价值观对齐。

当前研究RLHF的工作主要使用PPO算法对语言模型进行优化。P PO算法包含有众多的超参数，

并且在算法迭代的过程中需要多个独立模型的相互配合，错误的实现细节都会导致不好的训

zzy 2023-04-14 12:06 发表于四川

原创

夕小瑶科技说

下载后可阅读完整内容，剩余3页未读，立即下载

普通网友

粉丝: 1267
资源:
5619

无需RLHF，Wombat语言模型逼近93% ChatGPT性能：新训练方法揭秘

wombat

wombat:Wombat Atom 语法主题

wombat：跨平台gRPC客户端

wombat：具有优雅DSL的轻量级Ruby Web爬网程序，可从页面提取结构化数据

wombat:基于pyarrow的数据分析工具包

web-wombat:使用NodeJS的Web服务框架

wombat：用于测试和演示目的的Wi-Fi跟踪系统

wombat:用于构建可配置 API 的平面文件无头 CMS

project_wombat:摇晃（与实际的袋熊无关）； 边缘检测生态网络

日历拼图求解程序By python

最新资源

project_wombat:摇晃（与实际的袋熊无关）；边缘检测生态网络