ChatGPT与大模型热潮：InstructGPT与RWKV解析

188 浏览量更新于2024-08-03 收藏 733KB PDF 举报

"大语言模型浅探一.pdf" 本文主要探讨了大语言模型的发展和其中的关键技术，特别是针对OpenAI的GPT模型及其后续改进。文章首先提到了人工智能领域的热潮，尤其是ChatGPT的迅速崛起，它在短短两个月内就获得了上亿的月活跃用户。虽然模型参数量在不断提升，但单纯增加参数并不一定能够带来预期效果。文章指出，OpenAI的InstructGPT论文可能提供了关于模型性能提升的关键线索。 GPT模型是基于Transformer架构的预训练语言模型，它只使用了解码器部分，并且对解码器进行了调整，去除了第二个Multi-Head Attention层。解码过程的核心是根据当前和之前的所有token状态预测下一个token，直至遇到结束标志。模型的输出概率分布最初是分散的，选择下一个单词的方法有两种常见的策略： 1. 贪心搜索：每次选取概率最高的单词，虽然简单但可能导致局部最优而非全局最优。 2. 集束搜索：保留最高b个得分的句子路径，增加找到最佳序列的概率，但计算复杂度较高。接下来，文章提到了InstructGPT，这是对GPT模型的优化，通过人类反馈的指令引导来训练模型，使其能更好地遵循用户的指令并产生更符合期望的输出。此外，还讨论了基于RWKV（Row-Wise Key-Value）的微调模型。RWKV模型因其速度优势和较低的GPU显存占用而被选为实验对象，其主要包括以下几个方面： 1. RWKV简介：这是一种优化的Transformer实现，通过行向量的方式存储键值对，减少了计算和内存开销。 2. 增量预训练：通过在现有模型上进行额外的预训练，进一步提升模型的能力，适应新的任务或数据。 3. SFT微调：Soft-Forgetting Tuning，一种遗忘策略，允许模型在学习新知识的同时保留旧知识，防止过拟合。 4. RM和PPO：在微调过程中可能采用的强化学习方法，如Reward Mechanism (RM) 和Proximal Policy Optimization (PPO)，以优化模型在特定任务上的性能。最后，文章进行了测试和总结，通过实际操作验证了上述方法的有效性，并强调了理解模型解码过程的重要性，这对于深入理解InstructGPT的工作机制以及如何利用RWKV进行模型优化至关重要。

1 前言

2 GPT模型解码

3 InstructGPT

4 基于RWKV微调模型

4.1 RWKV简介

4.2 增量预训练

4.3 SFT微调

4.4 RM和PPO

5 测试

6 总结

1 前言前言

近来，人工智能异常火热，ChatGPT的出现极大的推动了自然语言处理的发展，在推出仅两个月后，月

活跃用户已达1亿，成为历史上增长最快的消费应用。OpenAI一直在研究生成式模型，在2018年6月发布

了GPT，在2020年5月发布了GPT3，GPT3的模型参数也达到了1750 亿。但是为什么到现在ChatGPT

才突然间火起来呢？

众所周知，模型只有达到一定的参数量才会出现涌现能力，但是两年强模型参数已经达到了1750亿，说

明单纯的堆模型参数并不能达到想要的效果。或许在OpenAI的一篇论文InstructGPT（Training language

models to follow instructions with human feedback）中可以找到答案。接下来本文会简单介绍

InstructGPT，然后基于RWKV去复现，之所以选择RWKV是因为其速度快，占用GPU显存低，便于快速

实验。

2 GPT模型解码模型解码

这里我感觉有必要把生成式模型的解码输出单独拿出来讲一下，只有理解了答案生成的原理才能更好理

解InstructGPT所做的工作。

GPT属于生成式预训练语言模型，只采用了Transformers的Decoder结构，并对Decoder进行了一些改

动，去掉了第二个Multi-Head Attention。推理解码过程就是利用当前token和前面输入所有token的状态

矩阵去预测下一个token的过程，直到输出位终止符。例如输入tokens序列为[u1,u2,u3,u4,u5]，词典大小

为20000，则输出

上面公式中，为前面输入所有词的状态矩阵，即保存的是每个词的词向量，是一个1*20000的矩

阵，此时的模型若是没有经过任何微调，此时的分布是比较分散的，如何从20000个词中挑选合适的词有

几种方案：

下载后可阅读完整内容，剩余9页未读，立即下载

毕业课程设计

粉丝: 2297
资源: 1728

ChatGPT与大模型热潮：InstructGPT与RWKV解析

大语言模型浅探谈，包括GPT模型、RWKV模型

教师职前教育中学科专业与教师专业_分离式_培养的课程改革浅探借鉴.pdf

内核同步浅探.pdf

初中Python语言程序设计课程教学实践浅探.pdf

计算机网络防护安全浅探.pdf

民办幼儿园特色发展浅探.pdf

信息时代教育特点浅探.pdf

网络时期财务报告浅探.pdf

中职学校C语言课程教学浅探.pdf

虚拟仿真PLC编程教学浅探.pdf

最新资源