无监督训练双塔检索模型新突破：ART方法解析

版权申诉

110 浏览量更新于2024-08-04 收藏 2.03MB PDF 举报

"训练双塔检索模型，可以不用query-doc样本了？明星机构联合发文" 这篇文献探讨了一种创新的无监督方法，用于训练双塔检索模型，即ART（Autoencoding-based Retriever Training），该方法挑战了传统依赖于有监督query-doc样本的训练方式。在开放域检索式问答（OpenQA）系统中，传统的检索模型通常基于预训练语言模型（PLM）进行微调，使用大量有标签的数据和对比学习来优化模型。然而，ART方法则提出了一种全新的思路。论文《Questions Are All You Need to Train a Dense Passage Retriever》中，作者提出了一个假设：可以通过文档来反向推导问题，而不是传统的从问题出发检索文档。这种方法将检索任务转化为文档到问题的转换，利用无监督的语料库级自编码机制。ART的核心在于，它视检索到的文档为原始问题的噪声表示，通过重建问题的概率来实现去噪，随着“噪声”的减少，检索的准确性将得到提升。在方法部分，文章详细阐述了问题定义和双编码器架构。开放域检索问题的目标是在大量候选文档中找出包含答案的一小部分。在零样本学习的设定下，ART旨在无需标注的query-doc对也能训练出能有效检索相关文档的检索器。双塔结构是检索模型的标准配置，它对问题和文档分别进行编码。每个文本序列被映射到一个通用集合的表示，词汇表用于离散符号，隐层emb表示编码后的向量。在ART中，模型会尝试从编码后的文档向量恢复原始问题，这一过程促进了模型对文档内容的理解，从而提高检索的精确性。通过这种方法，研究者们成功地在多个任务上达到了最先进的性能，证明了无监督的ART方法在检索模型训练中的有效性。这为开放域问答和信息检索领域的研究开辟了新的方向，减少了对大量人工标注数据的依赖，有助于推动AI科技的进步。

2023/6/28 17:09

训练双塔检索模型，可以不用query-doc样本了？明星机构联合发文

https://mp.weixin.qq.com/s/8NSEbRKP6tKuV7ERdC7yaQ

1/8

训练双塔检索模型，可以不用query-doc样本了？明星机构联合发

文

文  | QvQ

对于开放域检索式QA系统而言，其本质是计算question和doc的本文相似度，而作为老生常谈

的文本相似度问题，有监督方法的性能历来是要好于无监督算法的。

今天要介绍的文章，反其道而行之，不仅采用了无监督算法，而且将由question计算doc 的检

索任务转为由doc反推question的任务，并取得了多个任务上的SOTA。

论文题目：

Questions Are All You Need to  Train aDensePassageRetriever

论文链接 :

https://arxiv.org/pdf/2206.10658.pdf

1.前言

当前检索模型下层多采用大型PLM作为热启，上层接特定任务，通过大量有监督数据进行有

finetune最小化对比损失，这种检索器是开放领域任务(如Open QA)模型中的核心组件。

在本文中，我们引入了一种基于无监督语料库级 auto-encoding 的无监督方法 ———ART

（Autoencoding-based Retriever Training ）。ART的关键思想是将检索到的文档作为原始

question的噪声表示，将对 question重构概率作为一种去噪的方式，当“ 噪声” 越来越少的

时，检索精度也就越来越高。

QvQ 2022-08-02 12:05 发表于北京

原创

夕小瑶科技说

下载后可阅读完整内容，剩余7页未读，立即下载

普通网友

粉丝: 1275
资源:
5623

无监督训练双塔检索模型新突破：ART方法解析

训练双塔检索模型，可以不用query-doc样本了？明星机构联合发文.rar

人工智能-项目实践-强化学习-文本相似度计算模型（双塔）.zip

明星机构联合探索：无需query-doc样本的双塔检索模型

1-1知识增强图语义理解技术.pdf

别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！.pdf

建筑施工组织2021-东引桥移动模架施工组织设计.doc

双塔模型的最强出装，谷歌又开始玩起“老古董”了？.pdf

20210210-申万宏源-双塔食品-002481-豌豆蛋白供应领导者，下游拓展空间大.pdf

2022人工智能技术创新大赛-赛道1-电商关键属性匹配.zip

DSSM(双塔).pdf

最新资源