训练语言模型生成带验证引用答案:GPT与证据引用教学

需积分: 1 0 下载量 199 浏览量 更新于2024-06-27 收藏 1.76MB PDF 举报
"这篇论文探讨了如何通过强化学习从人类偏好(RLHF)来训练大语言模型,使得它们能够生成带有验证引用的答案,以提高回答事实性问题的可信度。研究团队利用RLHP方法,教导名为GopherCite的280亿参数模型在提供答案的同时,引用具体的证据来源,这些证据可以来自多份搜索引擎找到的文档或单个用户提供的文档。这种能力有助于评估答案的正确性。通过对GopherCite进行人类评估,研究团队测量了其性能和可靠性。" 在当前AI领域,尤其是自然语言处理(NLP)中,大型语言模型如GPT已经展现出强大的语言理解和生成能力。然而,尽管这些模型经常能正确回答事实性问题,但因为可能存在模型幻觉——即模型自动生成看似合理但实际上是错误的信息——用户无法不经过事实核查就完全信任模型的输出。因此,提升语言模型的可信赖度是研究的关键。 本研究聚焦于解决这一问题,通过引入强化学习从人类偏好的技术(RLHF),训练模型在回答问题时不仅提供答案,还能同时提供支持其答案的具体引用。这是一种“开放书”式的问答(QA)方法,意味着模型可以搜索各种信息源来寻找证据。这既可以是从搜索引擎检索到的多份文档,也可以是用户直接提供的单个文档。 GopherCite是研究团队开发的一个280亿参数的语言模型,它经过训练后,能在不确定答案时保持沉默,并在提供答案时附带高质量的证据。这种特性显著提高了答案的可验证性和可靠性,使得用户可以依据引用的证据来判断答案的正确性。 为了评估GopherCite的性能,研究人员进行了人类评估,这是一种常见的方法,用于量化模型生成的答案质量和相关证据的质量。通过这种方式,他们能够确定模型在实际应用中的效果,以及是否真正提高了对用户提供信息的信任度。 这项工作代表了提升AI模型透明度和可信赖度的重要一步,对于构建更安全、更可靠的AI助手具有重要意义。未来的研究可能会进一步优化这种方法,以实现更高效、更准确的证据检索和引用,以及更好地适应不同领域的知识需求。