无监督训练双塔检索模型新突破:ART方法解析

版权申诉
0 下载量 20 浏览量 更新于2024-08-04 收藏 2.03MB PDF 举报
"训练双塔检索模型,可以不用query-doc样本了?明星机构联合发文" 这篇文献探讨了一种创新的无监督方法,用于训练双塔检索模型,即ART(Autoencoding-based Retriever Training),该方法挑战了传统依赖于有监督query-doc样本的训练方式。在开放域检索式问答(OpenQA)系统中,传统的检索模型通常基于预训练语言模型(PLM)进行微调,使用大量有标签的数据和对比学习来优化模型。然而,ART方法则提出了一种全新的思路。 论文《Questions Are All You Need to Train a Dense Passage Retriever》中,作者提出了一个假设:可以通过文档来反向推导问题,而不是传统的从问题出发检索文档。这种方法将检索任务转化为文档到问题的转换,利用无监督的语料库级自编码机制。ART的核心在于,它视检索到的文档为原始问题的噪声表示,通过重建问题的概率来实现去噪,随着“噪声”的减少,检索的准确性将得到提升。 在方法部分,文章详细阐述了问题定义和双编码器架构。开放域检索问题的目标是在大量候选文档中找出包含答案的一小部分。在零样本学习的设定下,ART旨在无需标注的query-doc对也能训练出能有效检索相关文档的检索器。 双塔结构是检索模型的标准配置,它对问题和文档分别进行编码。每个文本序列被映射到一个通用集合的表示,词汇表用于离散符号,隐层emb表示编码后的向量。在ART中,模型会尝试从编码后的文档向量恢复原始问题,这一过程促进了模型对文档内容的理解,从而提高检索的精确性。 通过这种方法,研究者们成功地在多个任务上达到了最先进的性能,证明了无监督的ART方法在检索模型训练中的有效性。这为开放域问答和信息检索领域的研究开辟了新的方向,减少了对大量人工标注数据的依赖,有助于推动AI科技的进步。