生物医学信息检索相关性的深度学习模型

201 浏览量更新于2023-10-15 收藏 733KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂77生物医学信息检索中文本相关性的快速深度学习模型苏尼尔·莫汉*Chan Zuckerberg InitiativePalo Alto，CA，USAsmohan@chanzuckerberg.com金善美国马里兰州贝塞斯达国家生物技术信息中心sun.kim nih.gov摘要生命科学出版物的特点是大量的技术词汇，表达同一概念有许多词汇和语义变化。为了解决生物医学文献搜索中的相关性问题，我们引入了一个深度学习模型，用于文档文本与关键字样式查询的相关性由于训练数据量相对较小，该模型使用预先训练的单词嵌入。有了这些，该模型首先计算查询和文档之间的可变长度Delta矩阵，表示两个文本之间的差异，然后通过深度卷积阶段，然后通过深度前馈网络计算相关性得分。这导致适合在在线搜索引擎中使用的快速模型该模型是鲁棒的，并且优于可比的最先进的深度学习方法。CCS概念• 信息系统→学习排序;概率检索模型;·计算方法学→学习排序;分类监督学习;神经网络;• 应用计算→生命和医学科学;关键词深度学习;生物医学信息检索;搜索;学习排序ACM参考格式：Sunil Mohan、Nicolas Fiorini、Sun Kim和Zhiyong Lu。2018年。生物医学信息检索中文本相关性的快速深度学习模型。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，New York，NY，USA，10页。https://doi.org/10.1145/3178876.3186049* Cor respondingautho r. 这篇文章是作者在NCBI工作时完成的。本文在知识共享署名4.0国际（CC BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186049尼古拉斯·菲奥里尼美国国家生物技术信息中心nih.gov志勇路美国马里兰州贝塞斯达国家生物技术信息中心zhiyong.lu nih.gov1引言PubMed®1是一个免费的在线搜索引擎，涵盖了来自生物医学和生命科学期刊和其他文本的2700多万篇文章，每年增加约100万篇。它在全球范围内被生物医学研究人员，医疗保健专业人员以及外行人使用，每天服务约300万次查询[5]。虽然专家用户要么搜索作者的最新文章，要么构建精心设计的查询表达式，但大多数查询都是简短的关键词，涵盖一两个生物医学概念。虽然语料库的大小比一般的网络搜索要小得多，但生物医学文献使用了非常大的技术词汇（例如： UMLS2元词库[1]指定了超过300万个生物医学概念，以及一些词汇变体和同义短语。这使得跨文档识别概念变得更加困难（例如，参见[18]）。为了改进检索，PubMed通过将其映射到相关的MeSH®术语来扩展用户的查询[ 22 ]。虽然这增加了召回，但它往往会降低精度[12]。使用分析[5]表明，PubMed用户是持久的，经常重新制定他们的查询，平均每次会话发出超过4个查询。作为提高此类关键字查询的相关性的一部分，我们描述了一种深度学习模型，该模型解决了文档文本与查询的相关性。最终的目标是将该模型作为一个因素合并到还包括其他文档属性和元数据（例如，年，日记）。为了训练我们的模型，我们从PubMed点击日志中收集数据将其限制为相关性搜索而不是默认的按日期排序删除作者搜索和析取布尔表达式导致了大约20k查询的训练集鉴于此数据的大小较小，我们使用word2vec[26]在整个PubMed语料库上，产生了大约200k的词汇。训练数据和词汇量之间的巨大差距突出了一个主要挑战：如何使模型鲁棒？我们的Delta深度学习模型首先计算文档和查询之间的可变大小的文档被截断以控制运行时成本。Delta矩阵通过堆叠的卷积网络进行处理，并合并为固定长度。这与摘要查询匹配统计信息一起由1http://pubmed.gov2http://umlsks.nlm.nih.gov主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂78∼∼前馈网络以产生相关性分数。成对损失针对训练进行优化。这种方法产生了一个模型，这是强大的，并在搜索引擎中使用足够快除了模型鲁棒性之外，我们还希望解决两个常见的搜索引擎问题：（i）指定不足的查询问题[7]，其中即使不相关的文档也会突出显示查询项，并且相关性需要分析查询中未直接指定的主题和语义，以及（ii）术语不匹配问题[8]，这需要检测相关的替代术语或者当实际查询项不在文档中时在文档中搜索短语。我们的实验表明，Delta模型优于传统的词汇匹配因子和一些相关的最先进的神经方法。接下来的部分讨论了一些相关的工作，然后是模型的描述，实验和结果的评估，最后是一些结论性的评论。2相关工作传统的词汇信息检索（IR）因素，如Okapi BM25 [33]和查询可能性[27]，测量了被视为词袋的文档中出现的查询词文本相关性的神经方法试图超越文档中查询词的精确匹配，并将语义匹配的程度建模为连续空间中的复杂函数（可以在[28，40]中找到良好的评论）。我们将在这里讨论一些相关的方法。大多数神经模型首先将单词映射到嵌入真实空间的点。一种流行的方法（例如[11，13]），也用于我们的模型中，是预训练单词嵌入，例如。使用word2vec[25，26]。这种方法的好处是可以使用更大的未标记语料库来训练嵌入，并且我们的“Delta矩阵”利用了单词之间的向量差异中捕获的语义关系。最简单的基于嵌入的模型是Word Mover我们把它作为我们的基准之一预先训练的嵌入不一定针对最佳相关性分数。Nalisnick等人[31]还使用通常被word2vec丢弃的[14，36]的“DSSM”模型采用不同的方法，将每个单词映射到一袋字母三元组并组合相应的独热向量。Xiong et al.[38]表明作为相关性模型的一部分的训练词嵌入对相关性模型的性能具有重大影响。然而，这需要大量的训练数据。Diaz等人。[4]表明，神经相关性模型在处理文档和查询文本的方式上也有所不同一些（例如：[9，13，14，36]）使用单独的“连体”网络将每个文档和查询处理成独立的语义向量。然后，第二阶段对这些向量之间的相似性进行评分。这种方法对于搜索引擎来说非常有吸引力，因为文档向量可以被预处理和存储，并且在对文档向量进行评分之前需要产生一次查询向量。图1：Delta相关性模型。文档，大大降低了查询时的成本我们使用[35]中描述的最新模型作为基线。文本匹配的另一种方法首先通过比较文档和查询文本之间的单词和单词序列的所有可能组合来开发实例描述于[11、13、23、32、38]中[11]中的作者认为，基于局部交互的方法更好地捕获细节，特别是精确的查询词匹配，并且在他们的实验中，他们的“DRMM”模型优于许多以前的这是一种计算密集型架构，不允许任何预先计算。我们采取了类似的方法，通过配对每个文档词与一个单一的查询词，然后通过深卷积来捕捉一些相关的合成语义。在我们的方法中的运行时成本控制截断的文件。我们表明，我们的方法优于DRMM模型。[ 15 ]中的[ 29 ]中描述的“DUET”模型将本地交互模型与独立的语义向量模型相结合，目标是将“精确匹配”和基于嵌入的单词相似性的益处相结合。我们更简单的方法明确地以运行时效率为目标，Delta模型的变体结合了一些词汇因素（类似于[35]），以进一步提高排名性能。3三角洲模型Delta相关性模型（图1）的组成部分如下所述。无阴影的块表示模型的输入：两个词索引向量，一个用于文档D，一个用于查询Q，以及一个查询文档词汇匹配因子向量L_DQ=lexmatch（D，Q），用于某个选定的词汇匹配函数。与词汇表大小（200，000）相比，训练数据的大小（20，000个查询）很小，这阻止了我们将单词嵌入作为模型训练的一部分进行训练。我们必须使用word2vec的无监督方法来调整预训练的词向量Delta模型使用两种技术来帮助实现这一点，从而学习更丰富、更鲁棒的决策表面。将输入空间从词嵌入改变为词嵌入中的差异将决策表面的域移动到相对于查询的坐标。此外，Delta模型使用卷积层的堆栈而不是单个层增加了更多的非线性，三角洲阶卷积级Lex匹配因子查询Doc词嵌入主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂79±⟨ ⟩·⟨⟩M⟨∈F我*我⟨ ⟩×在图像识别中成功的技术[37]。卷积层还从文本n元语法中提取相关性匹配信号并且比具有类似目标的递归层快得多3.1词嵌入我们利用超过2700万文档的大型PubMed语料库来预训练词向量，使用 word2vec 的 SkipGram Hierarchical Softmax 方法[26]，窗口大小为5，最小词频为101，词向量大小为V=300（参见[3]生物医学文本不同参数设置的实验）。这导致了207，716个单词的词汇量罕见的单词被通用的“UNK”标记替换，初始化为U [−0。25，0。[25]如[35]。给定一个文档单词序列D = 0=0。. . 如果rel（Q，D）= 0最后，我们将非零相关性水平缩放到范围（1， 100]以得到srel（Q，D）。这确保了低相关性和无相关性的文档之间的最小差值，并且还在NDCG度量中对将高相关性文档排名在低相关性文档之下的情况进行了高惩罚。调整系数以匹配NCBI领域专家的相关性判断：μ = 0。333，λ = 0。067.代币化。我们数据中的每个文档都有一个标题和一个摘要。对于神经模型，我们将这些连接起来形成文档的“文本”。所有文档和查询文本都通过空格和标点符号进行分割，同时保留缩写和数字形式，然后转换为小写。为了进一步减少词汇量，所有标点符号都被丢弃，数字形式被折叠成7类：整数、分数（0，1）、实数、年份“19 xx”、年份“20 xx”、百分比（数字后跟“%”）和美元金额（数字前面有“$”）。虽然word2vec处理句子中的标记文档，但输入到神经模型的文档是一个没有断句或标记的扁平单词序列。文档文本宽度的分布（编号在图2A中示出了数据中的字）。我们在查询和文档中尝试了停止字删除，但它们没有帮助。测试数据子集。 20%的测试数据包括6，734个查询和413，971个样本（查询-文档对）。在文档的标题中存在查询词通常是相关性的良好指示。在所有测试查询的相关文档（“+ives”）中类似地59.5%的非相关文档（“-ives”）实际上在其标题中包含所有查询词（见表1）。除了在测试数据上比较不同方法的排名指标之外，我们还想探索模型的鲁棒性，以及在未指定查询下的模型性能。为了帮助回答这些问题，我们还比较了以下测试数据子集的排名指标Neg20+：这包括至少有20个不相关文档的所有查询，这些文档包含标题中的所有查询词该子集用于评价未指定查询的性能。OneNewWord：1，732个测试查询，其中包含至少一个未在任何训练或验证查询中出现的新词。所有新单词：一个较小的查询子集，所有的词都是新的：不包括任何训练或验证查询这些话最后两个子集有助于评估模型的鲁棒性。试验数据及其子集的统计总结见表1。4.2Delta模型的配置设置Delta模型我们发现，将文档trun- cating到前N = 50个单词在排名性能和运行时间之间提供了一个很好的折衷，以获得查询-文档对（下面讨论），较大的值只能提供边际改进。最大查询大小为如上所述，M=7卷积级使用N个C=3层卷积，每个卷积具有滤波器宽度k=3。我们在下面报告各种数量的过滤器的前馈级使用NF=3层。最后，我们发现对训练数据进行下采样，以便每个查询的相关和非相关文档数量相等，以产生最佳模型，从而产生7，084，244个（Q，D+，D-）三元组的训练样本还针对下文描述的其他神经模型执行该下采样。未对验证和测试数据进行下采样。对于最大边际损失函数，没有理由限制最后一层激活函数的范围我们使用Leaky Rectified Linear Unit（Leaky ReLU）获得了最佳结果[24]负区域的斜率固定在α= 0。3.的Leaky ReLU也被用作前馈和卷积阶段的所有其他层在[30]中描述了Delta模型的早期版本从那时的主要变化是：更简单的Delta矩阵，更改所有阶段中使用的激活函数，训练为具有不同样本权重的成对损失函数，以及全面测试主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂81∼一些词汇特征。这些变化导致NDCG指标提高了我们只报告了下面Delta模型当前版本的指标，以及与一些新基线的比较。4.2.1基于相关性的样本加权。通过取两个文档的缩放相关性水平的差异的平方根，在损失函数中向每个（Q，D+，D-）训练样本添加权重，获得最佳结果：weight（Q，D+，D−）=（srel（Q，D+）− srel（Q，D−））0. 54.2.2词汇匹配功能。作为SevMos模型[35]中使用的“单词重叠测量”的扩展，我们测试了18个用作Delta模型的“词汇匹配因子”输入的特征：(1) 文档文本中存在的唯一查询词的比例(2) 文档文本中存在的唯一查询二元组的比例(3) 查询和文档文本之间的Jaccard相似性。(4) （1）的IDF加权版本(5) Jaccard相似性的IDF加权版本（3）。(6) BM25查询，文件标题。(7) BM25查询，文件摘要。(8) BM25查询，文档文本。(9) 文档标题中存在的唯一查询词的比例(10) 文档标题中存在的唯一查询二元组的比例(11) 查询和文档标题之间的Jaccard相似性。(12) （9）的IDF加权版本(13) Jaccard相似性的IDF加权版本（11）。(14) doc摘要中存在的唯一查询词的比例(15) doc摘要中存在的唯一查询二元组的比例。(16) Jaccard查询和文档摘要之间的相似性。(17) （14）的IDF加权版本(18) Jaccard相似性的IDF加权版本（16）。为了计算这些因子，查询和文档如上所述被分词，而没有计算词嵌入所需的稀有词合并。文档文本指的是组合的标题和摘要，这些（以及查询）中的每一个都被视为没有截断的单词序列。这些因素是根据它们在搜索引擎中的计算速度来选择的因子（3、5、11、13、16、18）也用于[35]。4.3基线我们将Delta深度学习模型的性能与一些传统的基于词袋的文本相关性因子、基于词的分布表示的距离测量以及几个最近的神经网络模型进行了比较。4.3.1词汇因素我们比较了Okapi BM25 [33]在文档标题、摘要和文本（标题+摘要）上的性能，发现BM25在标题上给出了最佳排名性能，参数设置为k1= 2。0且b = 0。75.我们测试的第二个词汇因素是Unigram Query Like lihood（UQLM），它估计生成文档的词袋表示的最可能的随机过程生成查询的概率。它基于生成式一元语法语言模型，该模型是基于文档和语料库的两个多项式模型[27]的混合，使用Dirichlet平滑[20，39]进行组合。就像案子里一样在BM25中，我们发现UQLM应用于文档标题以实现最佳性能，并仅引用以下指标。4.3.2单词移动器的距离。由于我们实验中的所有神经模型都是从预先训练的单词嵌入开始的，因此用于文本不相似性的单词移动器距离（WMD）模型[19]（分数随着相似性的增加而降低）是一种明显的基线方法。基于应用于文本的词袋表示的地球移动器距离[34]，这是一种非参数化方法，用于确定将一个文档转换为另一个文档所需的总传输成本的最小量（词间成本与传输量的乘积之和）。它使用两个词的词向量表示之间的欧几里得距离作为从一个词移动到另一个词的成本。我们只报告了应用于文档标题的大规模杀伤性武器的指标，而没有删除停止词，因为它比其他替代品测试的表现更好4.3.3Severn-Moschitti模型作为独立语义向量方法的最近示例，我们实现了[ 35 ]中描述的相关分类模型以及一些变体。查询和文档被馈送到单独的卷积阶段，每个阶段包括具有256个特征图和5的过滤器宽度的单个卷积层，然后是Dropout和全局最大池化。使用相似性权重矩阵从这些合并的输出计算相似性度量。相似性度量、合并输出和一些词汇匹配特征（[ 35 ]中的“重叠度量”）被馈送到由一系列前馈层组成的分类器阶段。在我们的实验中，我们提供了具有第4.2.2节中描述的所有18个词汇匹配特征的SevMos模型。L2正则化和脱落概率超参数的最佳值通过调整验证数据来确定，如Delta模型所述。我们测试了该模型的几个变体，包括：更换具有滤波器宽度为3的卷积的3层堆叠的单个卷积层，类似于Delta模型的卷积级;将模型训练为针对成对最大余量损失的分类器v/s相关性评分器;以及各种样本加权方案。使用3层卷积堆栈和样本平方根加权我们将这种方法的度量报告为下面的“SevMos-C3”模型，并且将相应的基于单个卷积层的分类器报告为“SevMos-C1”模型。4.3.4DRMM模型深度相关性匹配模型（DRMM）是文本相关性的本地交互方法的最新示例，在[11]中描述了在Robust 04和ClueWeb-09-Cat-B数据集上优于先前的几个神经模型。虽然它是一个只有162个可训练参数的简单模型，但它首先计算每个文档和查询词对的嵌入之间的余弦相似度，这决定了模型的计算成本。我们实现了DRMM模型，如[11]所述，在文本标记化期间使用Krovetz词干分析器，从查询中删除停用词，以及[26]的CBOW方法来计算词嵌入。我们在N（最大文档宽度）的增加值上测试了DRMM，发现排名指标在200个单词的宽度之后停止改善（图2b）。DRMM使用相同的成对损失函数;我们发现不同的样本加权方案具有主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂82≥.DCG（n）=（一）（b）第（1）款图第二章：（一）分布的文件文字宽度。(b)按最大文档宽度N计算的DRMM性能。对度量的影响不显著。我们使用平方根加权和N=200报告版本的度量。4.4度量以下每个指标的值都在[0， 1]范围内，值越高，排名越好所有比较方法中的评分关系通过按文档ID递减排序来解决。4.4.1NDCG。贴现累积增益（DCG）[16]是一种相关性和等级相关性度量，其惩罚相关文档在较低等级的放置，计算如下：NDCG.20 MAP Prec.5版本DocID 0.141 0.455 0.344BM 25-标题10.325 0.567 0.591UQLM-标题0.314 0.560 0.574WMD-Title20.329=10.579+10.603+1DRMM 0.300−1 0.545−10.549−1电话：+86-510 -8888888传真：+86-510- 8888888SevMos-C340.373+30.594=3，+ 20.626=3，+2Delta-3250.365+3， −4 0.601+3， 4 0.634+3，4Delta-32-Lex30.394+4，50.609+ 4，50.646+4，5表2：完整测试数据的排名指标。上标表示统计学比较：比较基线用数字1至5指示如第一列中所标记最高值以粗体显示4.4.2Rank和MAP的精度平均精度[2]是指对于单个查询，在每个相关文档的排名中观察到的精度，该精度是该查询的相关文档数量的平均值。因此，这是一种排名措施，它考虑了排名列表的大小和相关文档的数量，而没有任何基于排名的惩罚或折扣。我们引用平均精度（MAP），这是我们测试数据集中查询的平均精度的平均值我们还引用了一些在秩η度量下的精度（表中的“n5评价5.1测试指标我们比较排名性能的两个版本的Delta模型对其他方法。'Delta-32'模型在卷积阶段使用n f = 32个特征图，并且不使用词法特征图匹配特征。该模型的“Delta-32-Lex 3”版本增加了以下三个词汇匹配功能：BM 25上的文档摘要，IDF加权Jaccard相似度之间的查询和文档标题，和IDF加权比例的唯一查询词在文档标题。这些特征是使用前面描述的18个列表上的贪婪搜索来选择的，其中验证数据上的NDCG.20作为选择标准。特征选择被限制为三个以控制模型运行时成本。我们首先对完整测试数据上的各种方法的度量进行排名（表2）。表中的第一行提供了不知情排名者的指标，其中文档按降序排列nrel（i）2 - 1i=1log2（i+ 1）其中n是DCG被累积到的等级，并且rel（i）0是被置于等级i的文档的相关性水平。然后，归一化贴现累积增益（NDCG）测量排名与该数据的最佳可能排名相比的相对DCG：NDCG（n）=DCG（n）/IDCG（n），其中IDCG（n）是理想排名的DCG（n）。当存在多个查询时，NDCG指的是跨查询的平均值我们使用缩放的相关性水平（第4.1 节），并引用n = 20的“NDCG.20”指标。文档ID，以提供低性能阈值桌子指示相对于基线是否存在统计学显著变化（至99%置信度，使用配对t检验）在未训练的相关性模型中，词移动器的距离（WMD）至少与BM25表现得一样好，NDCG.20没有变化，但MAP和Prec.5（精度等级为5）有所改善，而查询语言模型（UQLM）与BM25的性能水平不匹配。在训练的神经模型中，DRMM表现最差，指标甚至低于BM25。SevMos-C1模型的总体表现优于WMD，并且SevMos-C3进一步改善了NDCG.20评分。文件分发（按编号）口水百分之三十百分之二十五百分DRMM模型性能0.45 0.450.40 0.40.35 0.350.30 0.30.25 0.250.20 0.2NDCG（20）0.15 0.15运行时0.10 0.10.05 0.050.00 010152550100200300400 五百最大文档宽度（N）NDCG（20）1 - 5051 - 100一百零一至一百五一百五十一至二百二百零一至二百五二百五十一至三百301 - 350三五一至四百四百零一至四百五451+运行时，500文档（秒）主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂83NDCG.20地图预处理5NDCG.20地图预处理5版本DocID 0.0810.4130.310版本DocID 0.1950.5080.389BM 25-标题10.2330.4740.490BM 25-标题10.3090.5810.586WMD-标题20.243+10.483+10.496=1WMD-标题20.306=10.590+10.595=1DRMM 0.242+1，= 20.461−1， 2 0.462−1，2电话：+86-510 - 8888888传真：+86-510-8888888SevMos-C340.304+2， 3 0.502+2，-3 0. 535+2，=3Delta-3250.296+2，= 3 0.513+2，= 30.550+2，3Delta-32-Lex30.326+4，50.522+4，50.560+4，5表3：“Neg20+”测试数据的排名度量DRMM 0.311=1， 20.578=1， −2 0.570=1，−2电话：+86-021 -88888888传真：+86-021-88888888SevMos-C340.355+2，= 3 0.614+2，= 30.632+2，=3Delta-3250.362+3，= 4 0.622+3， 4 0.638=3，4Delta-32-Lex30.400+4， 50.633+ 4， 50.661+4， 5表5：“AllNewWords”测试数据的排名指标NDCG.20MAP预处理5版本DocID 0.191 0.488 0.364BM 25-标题10.333 0.593 0.604WMD-Title20.330=10.603+10.614+1DRMM 0.318−1 0.580−10.578−1北京赛车pk10开奖结果SevMos-C340.375+2， 3 0.621+2，= 30.640+2，=3Delta-3250.382+30.629=30.648=3Delta-32-Lex30.413+4、 50.638+4、 50.666+4、 5表 4 ：对 “OneNewWord” 测试数据的排名度量 DRMM的NDCG.20比较的显著性为95%置信度。0.40.350.30.25转化数的影响Delta模型上的滤波器2 4 8 16 32 64128编号卷积滤波器0.640.620.60.580.560.540.520.5在Delta型号中，Delta-32的整体性能优于SevMos-C1。然而，与SevMos-C3相比，其NDCG.20评分较低，而MAP 和Prec.5评分较高。Delta-32-Lex 3模型整体表现出最佳指标，优于Delta-32和SevMos-C3。这些收益不仅在使用我们导出的缩放相关性水平的相关加权NDCG.20度量中观察到，而且在使用二元相关性概念的MAP和Prec.5基于精度的度量中也观察到。SevMos-C3优于SevMos-C1的良好性能证明了使用卷积堆栈的益处。将这些元素与本地交互架构的Delta矩阵实现相结合产生甚至更好的结果，如Delta-32-Lex 3的度量中所示。为了评估在未指定查询问题上的性能，我们比较了测试数据的“Neg20+”子集上的度量（表3）。这些查询更难排名，因为许多不相关的文档包含所有的查询词。毫不奇怪，所有模特的分数都下降了。WMD仍然是未经训练的模型中的基准，DRMM是性能最低的深度学习模型，尽管它的NDCG.20分数确实比BM25好。Delta-32-Lex 3型号再次表现出最佳的整体性能。为了评估模型的鲁棒性，我们查看了测试数据的“OneNewWord”和“AllNewWords”子集的性能（表4和表5）。这里的模型之间的总体趋势与完整测试数据相同，DRMM的表现并不比BM 25好，而SevMos-C3优于SevMos-C1和WMD。Delta-32-Lex 3模型显示出最佳的整体性能，证明了图3：比较Delta模型的卷积阶段中的滤波器数量nf（特征图）的影响这是所测试的模型中最稳健的方法作为最后一点，一些模型在这些子集上表现出比整体数据更好的指标，因为它们往往在较短的查询上表现得更好，并且这些测试子集具有更高的较短查询浓度。5.2不同功能的影响接下来，我们看看Delta模型的不同方面如何影响其性能。卷积阶段从文档中的词n元语法提取匹配相关的特征参数nf控制这些特征的数量，其对排名的影响如图3所示。NDCG.20和MAP都随着nf增加而改善，直到大约32个滤波器，然后性能趋于平稳，然后略有下降在更大数量的滤波器下，模型变得更复杂，但是复杂性的这种增加不会继续产生更好的性能。更复杂的模型更有可能过拟合训练数据，也许学习率衰减技术可能有助于收敛到更好的解决方案，这是一个有待进一步探索的然而，由于我们的目标是构建一个用于搜索引擎的快速模型，我们更喜欢较小的模型，并且nf=32在速度和性能之间提供了良好的平衡。表6比较了四个不同版本的Delta模型，其中nf=32。模型的增量阶段计算，对于每个NDCG.20地图NDCG.20地图主题：Health on theWebWWW 2018，2018年4月23日至27日，法国里昂84NDCG.20地图Delta-32，无差异向量0.3230.574Delta-32，无Delta特征0.3330.584德尔塔-320.3650.601Delta-32-Lex 3，（前3个Lex功能）0.3940.609表6：比较不同特征对Delta模型文档词、针对最接近的查询词的差异向量以及三个表6的前两行示出了从Delta-32模型中移除差异向量和Delta特征对测试数据的排序度量的影响与Delta相比，两者的性能都有明显下降32. 最后，如上所述，添加3个词汇匹配特征导致Delta-32-Lex3模型相对于Delta-32模型的显著改进。在我们选择最有用的词汇匹配特征的贪婪搜索中，文档摘要上的BM25显示出最大的影响，因为它补偿了当文档被限制在50个单词时摘要的截断。其他两个词汇匹配特征在考虑词汇表外查询术语的匹配（如[35]中所讨论的）以及通过IDF加权提供查询术语重要性方面是有用的。5.3作为一名重新排名者的我们这项研究的目标是开发一个良好的文本相关性模型，其输出可以用作一个因素，在一个reranker（也将使用其他因素，如文档元数据）在像PubMed的我们设置了一个目标，重新排名的前500名的文件，产生一个快速的天真的排名，和运行时的性能约束的相关性模型的评分500个文件在0.1秒内的GPU上，产生的吞吐量至少10个查询每秒每GPU。虽然两轮排名器的完整设计超出了本项目的范围，但我们比较了相同测试查询的（最多）前500个结果的候选相关性模型，如PubMed的BM25实现所排名的5.3.1排名指标。表7显示了我们的候选模型和基线模型在前500个结果测试数据上的排名指标，模型按NDCG.20指标排序。这些数据为相关性模型提供了一个特殊的挑战，因为平均不到4%的文档与相应的查询相关。它也没有与训练数据中存在的相同的选择偏差，训练数据是从PubMed的相关性排名器排序的结果上的点击中提取的，这是一种更复杂的因此，所有指标均低于之前的测试数据。然而，模型之间的总体趋势是相同的，Delta-32-Lex 3是整体最佳模型，其次是SevMos-C3。值得进一步探讨的一个领域是，是否可以从搜索结果的深处添加一些随机采样的文档（例如，[17]）可以帮助克服一些这种选择偏差。表7：PubMed的BM25提供的前500个5.3.2运行时成本。如上所述，类似于在SevMos模型[35]中使用的独立语义向量方法对于在搜索引擎中的使用特别有吸引力，因为文档语义向量（例如，文档语义向量）可以在搜索引擎中使用。来自SevMos中的卷积级的池化输出）可以被预

下载后可阅读完整内容，剩余1页未读，立即下载