WebGPT:浏览器辅助的问答与人类反馈

0 下载量 173 浏览量 更新于2024-06-26 收藏 1.31MB PDF 举报
"本文介绍了一种名为WebGPT的模型,它是OpenAI对GPT-3的进一步训练,目的是在基于文本的网络浏览环境中解答长篇幅问题。通过模拟人类在浏览器上的行为,WebGPT可以搜索和导航网页来获取信息以支持其答案。这种方法依赖于模仿学习和人类反馈来优化答案质量。为了方便人类评估事实准确性,模型在浏览时会收集证据以支撑其答案。WebGPT在ELI5数据集上进行训练和评估,该数据集包含Reddit用户提出的问题。经过行为克隆微调和基于奖励模型的拒绝采样优化后,WebGPT的答案在56%的情况下被人类偏好于人类演示者提供的答案。" 在本文中,OpenAI研究团队提出了一项创新技术,即WebGPT,它是在GPT-3基础上进行的增强,目标是解决需要利用网络信息的长格式问题。这一技术的关键在于模型能够在一个文本基础的网络浏览器环境下运作,这允许WebGPT搜索并浏览互联网,寻找相关信息以支持其生成的答案。这样的设计使得模型能模仿人类在线查找信息的行为。 为了训练WebGPT,研究人员采用了模仿学习策略。他们设置任务,使得这些任务可以由人类完成,这样就可以通过人类的行为数据来训练模型。在训练过程中,WebGPT不仅生成答案,还会在浏览时收集证据,以确保答案的准确性。这种收集证据的能力对于人类评估模型答案的正确性至关重要,因为它提供了支持答案的直接来源。 此外,OpenAI使用了人类反馈来进一步优化答案质量。他们通过训练一个奖励模型来预测人类的偏好,然后利用拒绝采样方法,从模型生成的不同答案中选择更符合人类喜好的答案。这个过程称为强化学习的策略优化,有助于提升模型生成答案的质量和准确性。 在实验阶段,WebGPT在ELI5数据集上接受了测试,这是一个包含复杂问题和详细解释的问答集合,问题主要来源于Reddit社区。结果显示,通过行为克隆微调和奖励模型优化后的WebGPT,在与人类演示者比较时,有56%的情况下,其答案更受人类青睐。 WebGPT是自然语言处理领域的进步,它展示了模型如何结合外部信息源来提供更为准确和详尽的答案,同时也表明了人类反馈在训练和改进AI模型中的重要作用。这一技术为未来的对话式AI和信息检索系统提供了新的可能和方向。