没有合适的资源?快使用搜索试试~ 我知道了~
智能系统与应用16(2022)200141自动MeSH术语建议,用于系统综述文献检索中的有效查询制定☆王帅*,a,Harrisen Scells a,Bevan Koopman b,Guido Zuccon aa澳大利亚布里斯班昆士兰大学b澳大利亚布里斯班联邦科学与工业研究组织A R T I C L EI N FO保留字:MeSH术语建议系统综述神经模型评价A B S T R A C T高质量的医学系统性综述需要全面的文献检索,以确保推荐和结局足够可靠。实际上,检索相关医学文献是构建系统性综述的关键阶段,并且通常涉及领域(医学研究人员)和检索(信息专家)专家开发检索查询。在此上下文中,基于布尔逻辑的术语是高度复杂的,包括来自标准化术语的自由文本术语和索引术语(例如,医学主题词(MeSH)词库),并且构建起来困难且耗时。特别是,MeSH术语的使用已经被证明可以提高搜索结果的质量。然而,识别正确的MeSH术语以包括在查询中是困难的:信息专家通常不熟悉MeSH数据库,并且不确定MeSH术语对于查询的适当性。当然,MeSH术语的全部价值往往没有得到充分利用。本文研究了基于仅包含自由文本术语的初始布尔查询来建议MeSH术语的方法。在这种情况下,我们设计了基于词汇和预训练语言模型的方法。这些方法有望自动识别系统综述查询中包含的高效MeSH术语。我们的研究有助于几个MeSH术语建议方法的实证评估。我们进一步贡献了一个广泛的分析MeSH长期建议的每种方法,以及这些建议如何影响布尔查询的有效性。1. 介绍医学系统性综述是针对一个高度集中的研究问题对文献进行的全面综述。系统评价被视为最高形式的证据,广泛用于医疗决策和临床医疗实践。为了将文献综合成系统综述,必须进行检索。此搜索的一个主要组成部分是布尔查询。布尔查询通常由经过训练的专家开发(即,信息专家),他与研究团队密切合作以开发搜索,并且通常对所搜索的领域有一定的了解。最常用的医学文献检索数据库是PubMed。由于这些数据库,特别是PubMed的规模和范围不断增加,开发了医学主题词(MeSH)词库,以概念性地索引研究(Richter Austin,2012&;ZiemanBleich,&1997年)。MeSH是一个受控的词汇词库,以树形结构排列(在亲子关系中,特异性随着深度的增加而增加,例如,解剖学→身体部位→头部→眼睛......等等)。使用MeSH术语对研究进行索引和分类,可以开发包含自由文本关键字和MeSH术语的查询-从而实现更有效的搜索。在查询中使用MeSH术语已被证明比单独使用自由文本关键字更有效(Abdou &Savoy,2008; Chang等人, 2006; Richter &Austin,2012; Tenopir , 1985 ) , 例 如 , 它 们 提 高 了 精 确 度 ( LiuWacholder,2017),并且比自由文本(Wacholder et al. 1997)更不模糊。&然而,即使是专家信息专家也很难熟悉整个MeSH控制词汇(Liu,2009; Liu &Wacholder,2017)-在撰写本文时,MeSH包含29,640个独特的标题。PubMed试图通过开发一个这篇论文目前正在提交智能系统与应用杂志技术辅助审查系统特刊,并正在进行同行评审。* 通讯作者。电子邮件地址:uq.edu.au(S. Wang),h. uq.edu.au(H. Scells),bevan. csiro.au(B. Koopman),g. uq.edu.au(G. Zuccon)。https://doi.org/10.1016/j.iswa.2022.200141接收日期:2022年6月8日;接收日期:2022年8月29日;接受日期:2022年2022年10月20日网上发售2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页:www.journals.elsevier.com/intelligent-systems-with-applicationsS. Wang等人智能系统与应用16(2022)2001412图1.一、 一个示例查询, 显示了 一个 布尔查询、两个 查询片段、几个 自由文本原子子句和一个MeSH术语。自动术语映射(ATM)。ATM是一种自动查询扩展方法,它试图将查询中的自由文本关键字无缝映射到三个类别(索引表)之一:MeSH,期刊名称或作者姓名(Nahin,2003)。尽管ATM默认应用于发布到PubMed的所有查询,但它有几个明显的局限性:当用于将自由文本acronyms扩展为MeSH术语时,它是不准确的(Schulz等人,2001);它产生不同的MeSH扩展,即使使用同义的自由文本术语(Adlassnig等人,2009年);并有困难消除之间的MeSH术语和期刊名称(史密斯,2004年)。尽管存在这些限制,但是已经显示使用ATM进行MeSH术语建议增加了基因组域中自由文本搜索的精确度(Lu等人,2009年),并且是MeSH术语建议任务的最先进方法。然而,据作者所知,尚未在提高系统综述文献检索查询有效性的背景下对其使用使用预训练语言模型(PLM)如BERT的最新进展(Devlin等人,2019)、T5(Raffel等人,2019)和GPT-3(Brown等人,2020)在许多自然语言处理任务中提供了最先进的性能。通常,使用Transformer架构在大型语料库上训练预训练的语言模型,以“熟悉“语言表示。然后 , 该 模 型 被 微 调 到 下 游 任 务 , 以 在 目 标 任 务 中 高 效 地 执 行。Transformer架构是不使用递归和卷积的编码器-解码器模型训练结构(Vaswani等人,2017年)。先前的工作表明,使用PLM可以显著提高自组织搜索的有效性(Lin等人, 2021)以及在专业搜索中(Chalkalineet al., 2020; Choe等人, 2022; Qin等人, 2021年; Yang等人,2022年)。在这篇文章中,我们介绍了系统综述文献检索1中使用的布尔查询的MeSH术语建议任务。我们在一个信息专家寻找的背景下建模这个任务,要添加到当前不存在MeSH术语的查询中的MeSH术语。我们还提出了一个框架,以评估建议的MeSH术语的有效性,建立系统综述文献检索查询的集合。这篇文章增加了最近的一系列研究,这些研究集中在辅助配方的计算方法上(Agosti等人,2019; Scells等人, 2020 a,2021,2020 b)或细化(Agosti等人,2020年; Alharbi &Stevenson,2020年;Harrisen &Guido,2018年; Scells 例如,2019年; Wang等人,2021 a)的布尔查询创建系统性综述,以及更广泛地研究技术辅助综述的计算方法 ( Cormack &Grossman , 2017; Lee &Sun , 2018 , 2022; Li&Kanoulas,2020; Sneyd &Stevenson,2021)。此外,我们提出了两类MeSH术语建议任务的方法,包括基于BERT预训练语言模型的方法和不基于BERT的方法(词汇方法)。我们表明,我们的方法建议MeSH条款,优于信息专家选择的MeSH条款的有效性,并包括在原始查询。我们的方法很容易集成到工具的信息专家,以帮助建设系统的重新审视布尔查询。这篇文章的贡献是:1. 引入了为系统综述文献检索(布尔查询)建议MeSH术语的新任务,在信息专家寻找MeSH术语以添加到不存在MeSH术语的查询中2. 制定MeSH术语建议方法,以帮助信息专家和研究人员构建系统综述创建的布尔查询。3. 不同MeSH术语建议方法4. 理解所提出的自动方法建议的MeSH术语与信息专家制定查询最初选择的术语有何不同。1本文是我们在2021年澳大利亚文档计算研讨会上发表的先前工作的扩展。(2021a)中所示。S. Wang等人智能系统与应用16(2022)2001413图二. MeSH术语建议程序概述。所提出的方法使用词汇MeSH术语检索或BERT MeSH术语检索促进MeSH术语的建议。我们评估了每种方法,建议MeSH条款方面(1)的能力,建议的MeSH条款,有效地检索文献的碎片化布尔查询,(2)建议的MeSH条款和MeSH条款之间的重叠,包括在原始查询。注意,为片段建议的MeSH术语的数量可以低于或高于原始查询中的MeSH术语的数量2. 材料和方法2.1. MeSH术语建议任务我们首先概述了MeSH术语建议的任务,布尔查询不包含MeSH术语。我们假设用户输入了一个没有MeSH术语的布尔查询。布尔查询可以被看作是一棵树,其中布尔运算符(例如AND,OR)表示树的内部节点,而自由文本原子子句和MeSH术语是叶子。自由文本原子子句是表达概念的一个或多个词,例如,一种疾病,一种治疗方法,或者一个人口方面。我们将树的每个第一级节点(即深度为1的节点)称为查询片段。通常,查询片段表示信息需求的各个方面(Clark,2013);具体而言 , 每 个 查 询 片 段 对 应 于 不 同 的 PICO 元 素 , 即 population ,intervention,control和outcome(Schardt et al.,2007年)。这些概念如图1所示。MeSH术语建议的任务是识别要作为叶添加到查询片段的适当的MeSH术语。在这篇文章中,我们建议每个查询片段的MeSH术语相互独立。我们离开调查的查询片段的依赖关系MeSH长期的建议,为今后的工作。图 2给出了我们如何从一个布尔查询,如何建议MeSH术语用于给定的查询片段,以及我们如何执行碎片整理以构造包括MeSH术语的新布尔查询。该图显示了在分段(即,导出查询片段的过程)之后,我们从每个查询片段中移除所有MeSH术语。然后,我们应用MeSH术语建议技术,该技术将新的MeSH术语添加到查询片段中。然后,通过使用AND运算符组合与原始查询对应的所有查询片段,对现在包含建议的MeSH术语的新查询片段进行碎片整理。建议(Wang等人,2021a),我们以前开发了几种依赖于预先存在的词汇匹配系统的技术。这些系统的一个限制是它们依赖于手工制作的规则,这些规则创建起来很昂贵,并且在单词如何与MeSH术语匹配方面具有限制(例如,拼写变体、首字母缩略词、拼写错误)。本文研究的是预训练语言模型的使用,即,BERT,用于MeSH术语建议的任务。这些神经模型已经被证明对基于词汇的系统的缺点具有弹性(Devlin等人,2019年; Wang等人,2021年b)。 然而,神经模型有其自身的局限性,特别是需要大量的训练数据。以下部分首先简要概述了我们现有的基于词汇的技术,然后详细描述了我们的新神经技术,特别是解决了对ad-hoc训练数据的需求。2.2. 词汇MeSH术语建议我们的基于词汇的方法被制定为三个步骤的管道:检索,排名和细化。以下各节简要概述了这些步骤。为了更全面地了解...对基于词汇的方法的讨论,参考我们以前的工作(Wang等人,2021年a)。2检索我们的MeSH术语检索管道的第一步是检索MeSH术语。通过三种不同的方法来促进MeSH术语的检索:ATM将整个仅自由文本查询片段提交给PubMed Republicz API(Sayers,2010)进行自动术语映射这项工作扩展了我们现有的研究路线到MeSH术语2版本2018,选项设置为默认值。S. Wang等人智能系统与应用16(2022)2001414∑-图3.第三章。BERT方 法 的MeSH术语建议概述 。注意,MeSH秩的融合在流水线中可以是可选的(ATM)。这是PubMed用于自动向查询添加MeSH术语的默认系统。MetaMap查询片段中的每个自由文本原子子句都被提交给MetaMap(Aronson,2001)。所有映射的MeSH术语都被记录在查询片段中的每个自由文本术语中此外,记录每个MeSH术语的评分UMLS我们将UMLS(Bodenreider,2004)编入Elasticsearch v7.6。删除了MeSH术语的查询片段中的每个自由文本原子子句都被提交给Elasticsearch索引。结果被过滤以仅包括从MeSH源导出的概念的同义词。此外,记录每个MeSH术语的BM 25评分。对于MetaMap和UMLS方法,对于给定的自由文本片段,可以多次检索 相 同 的 MeSH 术 语 。 为 了 克 服 这 个 问 题 , 我 们 使 用 等 级 融 合(CombSUM)(FoX Shaw,1994&)对MeSH术语重新评分。这种重新评分的直觉是,高度常见的MeSH术语也从这些检索中获得高分方法的总体得分应该很高(因此排名高于常见MeSH术语和高分MeSH术语)。3排名一旦检索到MeSH术语,就会根据Jimmy等人(2019)描述的实体排名方法对它们进行排名。我们总共使用了11个实体特征。正实例对应于原始查询片段中的MeSH项;负实例对应于原始查询片段中没有的MeSH项(二进制标签)。通过特征和实例标签,我们为每种检索方法训练了一个学习排名(LTR)模型。除了LTR之外,我们还研究了一种等级融合方法(FoX Shaw,1994&),在该方法中,我们将三种方法中每一种方法的标准化MeSH术语建议得分结合起来,以产生一个新的排名,该排名包含了每种方法中排名最高的MeSH术语。在这种情况下,研究等级融合的直觉是,使用MRCONSO、MRDEF、MRREL和MRSTY表格的3版本2019 AB每种方法可以检索不同的MeSH项;并且这些项每次可以被不同地排序。因此,我们通过多种方法提高了检索和排名很高的MeSH术语。最后,我们试图通过估计一个等级截止来改进建议的MeSH术语。我们使用基于分数的增益函数来实现这一点形式上,秩p处的MeSH项的累积增益CG为pCGp=评分i( 1)i=1其中MeSH项的得分等于1个标准化得分(即,最小值-最大值归一化)。我们为每种检索方法调整参数κ,其控制在排名截止之前允许观察的总CG的百分比(即,排名的细化)。我们以5%的增量将κ从5%调整到95%。当与κ参数一起使用时,对MeSH术语重新评分的直觉变得明显:排名最高的MeSH术语将获得0分,从而导致为每个查询片段建议至少一个MeSH术语。注意,MeSH术语可以共享相同的分数,即,他们可能被绑住了。我们采取保守的方法来考虑在由κ指定的截止边界处的绑定MeSH项的问题。每当我们遇到联系时,我们将所有联系的MeSH项视为单个增益的计算,其等于联系的MeSH项的分数上的总增益这种处理方式的效果是,捆绑的MeSH条款导致了更大的收益积累。因此,排名顶部的并列MeSH术语比底部的并列MeSH术语更有可能被纳入截止值本质上,所有绑定的MeSH项都被认为在截止值内(即,并列在排名的顶部),或者不考虑并列的MeSH项(即,在排名的底部2.3. BERT MeSH术语建议接下来,我们使用微调的PLM模型扩展MeSH术语建议方法。首先,PLM模型通常是从执行任务的同一领域中选择的架构我们在图4中示出了我们的微调和推断过程的架构。我们使用BioBERT(Lee等人,2020年)作为基础S. Wang等人智能系统与应用16(2022)2001415图四、 模型微调和推理的体系结构。PLM作为本文的背景是医学系统评价。BioBERT是使用BERT训练架构在PubMed摘要和PubMed Central(PMC)4全文文章上预训练的PLM(Devlin等人,2019年)。经过微调,BioBERT在许多医学相关任务上都达到了最先进的性能,包括生物医学命名实体识别、关系提取和问题回答(Lee 例如,2020年)。理想情况下,应该使用与目标任务密切相关的培训数据来微调PLM,以实现最高的效率。理想情况下,在我们的例子中,我们将使用专业构建的医疗系统重新查看布尔查询来微调我们的模型。然而,PLM通常需要大量数据,并且需要大量标记的训练样本。在系统性综述文献检索中,可以使用布尔查询获得几个公共数据集,例如CLEF TAR集合( Kanoulas et al. , 2017 年 , 2019 年 , 2018 年 ) , 收 集 王 等 。(2022a),以及Scells等人(2017)的集合。然而,在这些数据集之间,只有253个独特的主题可用于训练模型:这不足以有效地微调BERT模型。相反,我们通过使用从PubMed获得的数据来评估目标任务来创建训练样本我们使用公开的PubMed基线来获取截至2022年初所有已发表文章的元数据元数据包含诸如标题和摘要之类的信息我们使用PubMed数据集中每篇文章的指定关键词和MeSH术语来评估MeSH术语建议的任务为了最大化训练数据量,我们还从标题中提取关键字(因为并非所有PubMed文章都包含关键字)。为了标记标题,我们使用Wang et al.(2022 b)描述的过程。首先,我们使用Gensim(Khosrovian等人, 2008),然后我们使用NLTK(Bird &Loper,2004)删除停用词。我们使用由4PubMed Central是包含PubMed数据库开放获取部分全文文章的存储库。Gao等人(2022)开发了一种密集的检索工具,以提出MeSH术语。使用三元组ka,i,m+a,m-a>对模型进行局部对比损失微调,其中a是PubMed文章,ka,i是PubMed文章中的第i个关键字,m+a是PubMed文章的MeSH术语,并且m-a<是从MeSH词库中随机抽取的十个MeSH术语。许多MeSH术语包含空格或标点符号。我们的模型将每个MeSH术语视为模型词汇表中的唯一标记。一旦模型被微调,我们就获得了所有MeSH项的编码。在推理时,我们为关键字创建一个编码,以使用[CLS]令牌为所有MeSH术语获得分数。因此,我们的方法对给定关键字的所有MeSH术语进行评分和排名。MeSH术语建议的目标是为每个查询片段建议MeSH术语。然而,BERT建议方法的结果由每个自由文本原子子句的MeSH术语排除的排名列表组成。我们需要结合每个MeSH术语的排名。我们将这个组合任务分成两个步骤,(1)选择如何表示MeSH术语排名,以及(2)选择在哪里切断排名。我们在图中概述了组合任务。3.第三章。首先,我们选择表示排名的最佳方式,这意味着决定是否应该为每个自由文本原子子句单独建议MeSH术语,作为每个片段的整体,或者使用其他启发式来决定应该如何计算表示。我们设计了三种排名表示方法:1. 原子BERT:首先,我们单独对待每个自由文本原子子句的建议,基本上不应用任何策略来组合建议。2. 片段BERT:接下来,我们研究给定查询片段的所有MeSH术语排名的组合。我们应用等级融合(normalised CombSUMFoX Shaw,1994&)到查询片段中的所有自由文本原子子句。出于计算的原因,我们只对每个自由文本原子子句使用前20个MeSH术语3. 语义BERT:最后,我们研究了语义分组自由文本原子子句,并应用与上述相同的等级融合技术,S. Wang等人智能系统与应用16(2022)2001416关于我们表1示例查询片段与语义组分离。在该示例中,“新生儿败血症”、“新生儿菌血症”和“新生儿感染”被分组以形成语义组,而“死亡”是另一个语义组。评估MeSH术语建议。原始查询中包含的MeSH术语通常是经过专业信息专家仔细考虑后得出的。因此,我们考虑如何MeSH条款包括在原始查询MeSH删除片段新生儿败血症或新生儿菌血症或新生儿感染或死亡不同于在这项工作中调查的方法所建议的;具体来说,我们测量建议的MeSH术语之间的重叠自由文本原子子句新生儿败血症新生儿菌血症新生儿感染死亡以及包含在原始查询中的MeSH术语。我们注意到,不在原始查询中的MeSH术语不一定不那么有效新生儿败血症,新生儿菌血症,新生儿感染死亡搜索词的搜索词比原始查询中包含的搜索词为了评估建议的MeSH术语的有效性,图五. 针对CLEF TAR 2017、2018、2019-dta和2019-intervention的训练片段,对查询片段中的关键词数量(X但这次是针对每一组我们在表1中展示了一个语义组的例子。为了得到语义组,我们首先从片段中获取所有自由文本原子子句,并为每个自由文本原子子句获取word2vec嵌入。然后我们计算所有自由文本原子子句之间的余弦相似度,以确定它们是否语义相关。在我们的实验中,我们对相似性应用0.7的阈值。我们使用在PubMed和维基百科上预训练的word2vec模型(Moen Ananiadou,2013&)。我们使用word2vec而不是BERT来处理语义组有两个原因。首先,如果我们应用我们提出的BERT模型,我们注意到我们使用自由文本原子子句和MeSH术语的语义对进行了微调:因此,计算两个自由文本原子子句之间的相似性可能会导致模型不匹配。其次,使用额外的BERT模型将增加在推理时产生建议的延迟,因为每个自由文本原子子句需要被编码两次。其次,我们选择在哪里从排名表示中切断MeSH术语的排名。我们提出了四种策略来切断MeSH术语排名:1. First only(FO):为每个排名表示选择排名的第一个MeSH术语。2. 与自由文本原子子句(SA)相同:所选MeSH术语的数量等于每个片段中自由文本原子子句的数量(即,仅适用于片段BERT)。3. 与原始(SO)相同:选择的MeSH术语等于删除MeSH术语之前查询片段中的MeSH术语数量(即,仅适用于片段BERT)。4. 线性(LN):所选择的MeSH术语的数量是使用关于片段中的自由文本原子子句的数量的线性函数来学习的(即,仅适用于片段BERT)。2.4. 评价系统综述文献检索的任务,一旦查询片段被整理,检索有效性使用典型的系统评价, 审查 文学 搜索 评价 措施:精确度,回忆,和Fβ,β1, 3。PubMed P2P API用于直接发出碎片整理布尔查询以获得检索结果。由于PubMed不断更新新的研究,我们对所有查询进行了日期限制,以确保重现性。我们使用的Jaccard指数的措施,以评估重叠的MeSH条款之间的建议的调查方法和那些包括在原始查询。对于两个评估设置(即,布尔查询检索和针对原始MeSH术语的评估),我们在两个设置中评估词汇建议方法:(i)全部,其中考虑所有检索到的MeSH术语;以及(i)切割,其中使用基于分数的切割。我们还评估了所有BERT建议方法,并将其有效性与原始查询和词法方法进行了比较。2.5. 实验装置对于我们的实验,我们使用来自2017年,2018年和2019年的CLEFTAR任务的主题(Kanoulas等人,2017年、2019年、2018年)。15个主题由于缺少MeSH术语而被丢弃5. 一个额外的主题被丢弃因为 的 检索 问题6, 可能 造成 的 事实 我们将 查 询 从 一 种 格 式 ( Ovid Medline ) 自 动 翻 译 成 另 一 种 格 式(PubMed)(Scells等人,2018年)。我们总共使用了116个独特的主题,因为每年都有部分重叠。对于每个主题,我们自动将该主题的布尔查询划分为查询片段(Scells等人,2018年)。每个片段包含至少一个MeSH术语。这导致总共311个唯一查询片段(平均每个查询2.68个对于每个查询片段,我们纠正了任何错误(例如,拼写错误、句法错误)、提取的MeSH项、关键字、具有MeSH项的查询片段和没有MeSH项的查询片段。 为了训练LTR模型,系统综述文献检索的最终目标是找到所有以最低的成本获得相关文献。因此,一个有效的布尔查询最大限度地减少检索的文档数量,同时最大限度地检索相关文档。在我们的MeSH术语建议任务中,我们使用碎片整理的布尔查询的检索有效性,5 个 废 弃 主 题 为 : 2017 : CD 007427 、 CD 010771 、 CD 010772 、 CD010775 、 CD 010783 、 CD 010860 、 CD 011145; 2018 : CD 007427 、 CD009263 、 CD 009694;2019 : CD 006715 、 CD 007427 、 CD 009263 、 CD009694、CD 011768。6 额外的丢弃主题是2017:CD010276。S. Wang等人智能系统与应用16(2022)2001417表2Jaccard指数(Jaccard)值,量化了被调查方法所识别的MeSH术语与原始查询中的MeSH术语之间的重叠,以及每种方法所建议的MeSH术语的平均数量。在原始查询中,2017年平均有4.1343个MeSH术语,2018年为4.8333个,2019-dta为4.4000个,2019-干预为2.7547个。词汇方法:CUT表示截止等级。BERT方法:FO、SA、SO、LN表示不同的截断策略。双尾方差分析显著性(t检验,p<. 05)用Bonferroni校正法在ATM和其他方法之间进行校正,结果表明,词法方法ATM0.09995.53730.23686.01390.21175.15000.23564.8868ATM切割0.1995年2.41790.19382.30560.20042.05000.21091.3019MetaMap0.2654磅4.68660.22184.04170.21634.80000.20694.5094MetaMap-CUT0.2374米2.31340.19641.90280.22412.35000.19811.7736UMLS0.2243米8.92540.22357.97220.19057.70000.24057.5660UMLS-CUT0.2751磅1.89550.24241.86110.19862.20000.20501.7547融合0.2165磅11.47760.216010.94440.173510.50000.22129.7358融合切割0.2761米2.77610.27423.31940.25083.10000.29092.4340BERT方法Atomic-BERT-FO0.2532磅12.73130.310512.26390.157311.85000.225213.6226语义BERT FO0.2370磅11.07460.296310.69440.165410.75000.221911.5283片段-BERT-FO0.3455磅1.00000.3812米1.00000.16811.00000.22351.0000片段-BERT-SA0.2233米16.62690.263916.48610.179015.50000.253117.2264片段-BERT-SO0.3921磅4.13430.4634磅4.83330.25744.40000.33012.7547片段-BERT-LN0.2780磅5.26870.26893.77780.26673.85000.24153.8491方法,我们使用CLEF数据集的预分割训练和测试部分。2019年的主题也按系统综述类型(干预和诊断测试准确性-在结果中分别表示为我们使用 例如,2016),使用训练为maxi-MaxInDCG的LambdaMART实例化。我们保留其他默认设置。为了学习BERT建议方法的线性函数来决定MeSH术语排名列表的截止值,如第2.3节所述,我们使用CLEF TAR数据集的训练部分。首先,我们从CLEF TAR训练分割中获得所有片段。我们统计了每个片段中自由文本原子子句和MeSH术语的数量。然后,我们对这些数字进行线性回归,以确定每个CLEF TAR数据集的函数。我们在图中显示了线性回归。五、3. 结果本节中的结果显示在CLEF TAR数据集的测试片段上(即,2017、2018、2019-dta、2019-干预)。我们首先分析了词汇方法与我们的新BERT方法的搜索效率,然后分析了MeSH建议的有效性相比,MeSH条款最初使用。3.1. 检索效果词汇方法表4中列出的词汇方法的结果与我们以前的工作Wang et al.(2021a)中报道的相同。为了完整起见,我们在这里简要地讨论一下。未精化的方法通常比相应的精化方法具有更高的召回率,但精度较低。这一发现表明,在查询片段中添加更多的MeSH术语可能会导致检索到更多相关和不相关的研究。当使用F1和F3进行比较时,对于每个数据集,改进的方法始终优于未改进的方法。U-CUT方法在CLEF 2017和2018上实现了最高有效性,而A-CUT在CLEF 2019 dta上实现了最高有效性; M-CUT在F1和F3方面适用于CLEF TAR 2019干预数据集。在召回率方面,未精炼融合方法在所有词汇暗示方法中实现了最高的召回率。召回中的这种增益可能是因为未精炼的融合使用“OR”组合了由其他三种方法(ATM、MetaMap和UMLS)建议的所有MeSH术语。这表明,未经细化的融合方法不利于提高布尔查询的精度。然而,假设可以使用半自动MeSH术语建议。信息专家可以利用这一建议,并将其专业知识应用于决定可以包括哪些MeSH术语以实现更高的性能。BERT方法我们首先比较的BERT方法与原始的布尔查询的有效性。结果表明,在所有评估指标(精度、F1、F3和召回率)下,BERT方法在CLEF TAR2017、2018和2019-intervention上的表现优于原始查询,而CLEF TAR2019-dta的有效性通常较差。 请注意,CLEF TAR 2019-dta仅包含八个独特的主题;有效性较低可能是由于少数主题。接下来,我们比较BERT建议与词汇建议的有效性。当与未细化的词法方法相比时,BERT建议的有效性在F1和F3方面是相当的,在所有数据集上都显示出实质性的收益。然而,与精炼词汇方法相比,BERT建议通常获得与精炼词汇建议相当的结果,除了在CLEF TAR 2019- dta中,精炼词汇建议方法获得更高的有效性。在召回方面,BERT建议获得略高于未精炼的词汇建议,但大大高于精炼词汇建议的召回。如第3.1.0.1节所述,未精炼的词法方法可以有效地实现更高的召回率,而精炼的词法方法可以有效地实现更高的精度,F1和F3。我们发现BERT提出的MeSH词可以获得与未精炼词汇方法相似的召回效果,而F1和F3可以与精炼词汇方法相媲美。因此,与词法方法相比,BERT方法可以推荐更有效的MeSH术语。3.2. BERT排名表示我们比较了BERT的不同排序表示,包括原子BERT,语义BERT和片段BERT。我们使用相同的截断策略来公平地比较这三种表示。结果表明,分段BERT的查准率、F1和F3值最高,而查全率最低。然而,当使用片段BERT时,每个片段只建议一个MeSH术语。这种精确度和召回率的权衡也表明了我们在词汇方法中所描述的相同发现,即添加更多的MeSH术语可以检索到更多的研究。在语义BERT和原子BERT之间,语义BERT能获得更高的准确率,而召回率低于原子BERT.当使用F1或F3进行比较时,语义BERT总是获得更高的有效性。因此,语义BERT的使用优于原子BERT。数据集201720182019年-dta2019年-干预方法JaccardNumJaccardNumJaccardNumJaccardNumS. Wang等人智能系统与应用16(2022)2001418见图6。搜索效率与MeSH术语重叠的相关图。x轴报告了建议的MeSH术语和原始查询中包含的MeSH术语之间重叠的Jaccard指数,y轴报告了每个主题的搜索有效性的F1值3.3. 停产战略当比较BERT建议7的不同截止策略时,我们发现与其他截止方法相比,FO可以始终实现最高的精度,F1和另一方面,使用FO的召回率值是所有其他方法中最低的,这表明精度和召回率的权衡再次由添加到查询中的MeSH术语的数量引起对于其他三个截止策略,包括SA,SO和LN,我们发现SO和LN始终优于SA,这表明信息专家有一个直觉,有多少MeSH条款添加到查询。7只考虑片段BERT,因为SA、SO、LN只适用于片段BERT。3.4. 建议的MeSH术语是否与原始查询中的术语相同?接下来,我们研究了所考虑的方法建议的MeSH术语与原始查询中包含的术语之间的重叠;表2中报告了这一点,并使用Jaccard指数进行了测量。一个直接的观察是,所有基于方法的重叠被认为比词法方法的重叠更高。这个观察是基于每个数据集中Jaccard指数的最高值总是出现在BERT建议方法中。此外,当将SO截断策略应用于片段BERT时,总是获得最高的重叠,这表明BERT建议方法也同意系统评价者选择的术语。表4中报告的先前结果强调,一般来说,BERT方法在建议有效搜索术语方面优于词法方法;这些方法比原始查询中的方法更有效,尽管差异在统计学上并不显著。这些结果与表2中的发现相结合,表明BERT方法识别了存在于表2中的非常相似的MeSH术语。S. Wang等人智能系统与应用16(2022)2001419见图7。显示系统综述主题与原始查询有效性的图;每个条形图代表一个主题。y轴表示具有建议的MeSH术语的查询与原始查询之间的有效性差异。使用F1来衡量有效性原始查询直观地,我们进一步分析搜索效率和原始查询中包含的MeSH术语的建议是否相关,这意味着原始布尔查询中使用的Mesh术语可能具有非常高的质量,应该用作黄金标准。Jaccard指数度量再次用于表示建议的MeSH术语与原始查询中存在的那些术语之间的相似性,并且F1用于表示相关联的查询(包括建议的MeSH术语)的搜索有效性。该相关性分析的结果报告于图6中。我们发现,虽然对于所有的词汇方法搜索效率是弱相关的重叠表3MeSH术语,BERT方法的情况并非如此。这表明来自原始查询的MeSH术语排除可能不是建议的最佳MeSH术语排除。事实上,通常是建议但未包括在原始查询中的MeSH术语提供比原始MeSH术语本身更高的搜索效率。3.5. 搜索稳定性接下来,我们分析了不同的MeSH术语建议方法的搜索有效性稳定性,以主题为基础。对于搜索有效性稳定性,我们指的是在使用MeSH通过精确度(P)、F1、F3和召回率(R)评估使用建议的MeSH术语的布尔查询的搜索有效性对于词法方法:CUT表示截断秩。BERT方法:FO、SA、SO、LN表示不同的截断策略。主题IDCD009642CD004414方法PF1F3RPF1F3R原始0.00880.01750.03441.00000.00130.00260.00520.6875ATM0.01090.02150.04210.91940.00180.00350.00700.3125ATM切割0.01090.02150.04210.91940.00200.00400.00780.3125MetaMap0.01090.02150.04210.91940.00180.00350.00700.3125MetaMap-CUT0.01090.02150.04210.91940.00140.00270.00540.3125UMLS0.01090.02150.04210.91940.00130.00250.00500.3125UMLS-CUT0.01090.02150.04210.91940.00200.00400.00780.3125融合0.01090.02150.04210.91940.00180.00350.00690.3125融合切割0.01090.02150.04210.91940.00140.00270.00540.3125Atomic-BERT-FO0.01080.02140.04180.91940.00120.00240.00480.3125语义BERT FO0.01080.02140.04180.91940.00120.00240.00480.31
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功