"OpenAI在2021年推出了WebGPT项目,这是一个基于浏览器辅助的问答系统,利用人类反馈进行优化。WebGPT通过文本形式的网络浏览环境,使模型能够搜索和导航互联网,从而更好地回答长篇幅的问题。通过设定任务以便于人类执行,研究者使用模仿学习训练模型,并通过人类反馈来优化答案质量。为了方便对事实准确性进行人类评估,模型在浏览过程中收集参考资料以支持其答案。WebGPT主要在ELI5数据集上进行训练和评估,这是一个包含Reddit用户提问的问题集合。最佳模型是通过行为克隆微调GPT-3,然后使用奖励模型进行拒绝采样,该奖励模型旨在预测人类偏好。据报告,这个模型的回答有56%的时间被人类首选于人类演示的答案。"
WebGPT项目的核心在于将大型语言模型(如GPT-3)与实际的网络搜索和导航功能相结合,以提高问题解答的准确性和全面性。GPT-3是一个预先训练的 transformer 模型,具有强大的语言生成能力,但可能在处理需要具体信息或上下文的问题时有所不足。通过结合浏览器环境,WebGPT能够实时获取和处理网络上的信息,增强了模型的实用性。
模仿学习是WebGPT训练过程中的关键部分。首先,模型观察人类如何解决特定任务,即如何搜索和导航网页以回答复杂问题,然后复制这些行为模式。这使得模型能够在没有明确编程的情况下,学习到如何有效地使用网络资源。
此外,人类反馈是WebGPT改进其答案质量的重要手段。通过收集和分析人类对模型答案的评价,可以训练一个奖励模型,该模型用于预测人类对于不同答案的偏好。在训练过程中,使用这个奖励模型进行拒绝采样,筛选出更符合人类期望的答案。
在ELI5数据集上进行的实验表明了WebGPT的有效性。ELI5是一个包含各种复杂问题和详细解释的社区,这些问题通常需要深入的背景知识和调查。通过在这个数据集上进行训练和测试,WebGPT的性能得到了验证,其生成的答案在大多数情况下都能得到人类的认可。
总结来说,WebGPT是OpenAI在自然语言处理领域的一个创新尝试,它将模型的能力扩展到了更接近人类的交互水平,通过与浏览器的集成和利用人类反馈,提高了回答复杂问题的能力。这一技术的发展对于未来的问答系统、智能助手和信息检索系统有着深远的影响,预示着人工智能在理解和生成上下文相关、信息丰富的回答方面将有更大的进步。