REALM:检索增强语言模型预训练

需积分: 43 5 下载量 153 浏览量 更新于2024-09-06 收藏 727KB PDF 举报
"这篇文档是关于REALM (Retrieval-Augmented Language Model Pre-Training) 的研究,它是一种新的预训练方法,旨在以更模块化和可解释的方式捕获并利用语言模型中的知识。该方法通过结合知识检索器,允许模型在预训练、微调和推断阶段从大规模语料库(如Wikipedia)中检索和使用相关文档,以增强模型的能力。通过无监督学习,REALM训练模型使用蒙版语言建模作为学习信号,并在考虑大量文档检索步骤的情况下进行反向传播。在开放域问答(Open-QA)任务的微调和评估中,REALM展现出了超越现有最先进的显式和隐式知识存储模型的性能,提高了绝对精度4-16%,同时提供了更好的可解释性和模块化特性。" 这篇文档主要探讨了当前语言模型预训练的问题,即知识虽然被模型捕获,但隐藏在神经网络的参数中,导致难以理解和扩展。为了解决这个问题,研究者提出了REALM,这是一个创新的预训练框架,它结合了一个潜在的知识检索器。这个检索器使模型能够从外部知识源检索信息,而不是仅依赖于模型内部的参数。通过使用蒙版语言建模任务,模型学习如何在检索到的文档中找到相关信息,并将其用于预测,这一过程可以在没有额外标注数据的情况下进行无监督学习。 在Open-QA任务中,REALM经过微调后,其性能显著优于其他模型,包括那些具有显式或隐式知识存储的模型。在三个流行的标准Open-QA基准测试中,REALM显示了更高的准确率,同时,由于知识检索的引入,它的预测过程更具可解释性,也更易于模块化扩展。 1. 研究背景:指出了大型预训练模型如BERT、RoBERTa和T5虽然蕴含大量知识,但这些知识不易解析,且受模型大小限制。 2. 解决方案:提出REALM框架,使用检索器增强语言模型,使其能够显式地检索和使用知识。 3. 方法:通过蒙版语言建模任务和无监督学习,训练模型进行知识检索。 4. 应用效果:在Open-QA任务上,REALM表现卓越,不仅提高了准确性,还增加了模型的可解释性和模块化。 5. 实验结果:在多个Open-QA基准测试中,相对于SOTA模型,REALM的提升范围在4%-16%之间。 REALM为提升语言模型的知识表示和使用能力提供了一种新途径,为未来的NLP研究和应用开辟了新的方向。