自动将全长生物医学文章转换为检索相关文章

188 浏览量更新于2023-12-09 收藏 767KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

埃及信息学杂志22（2021）75自动将全长生物医学文章转换为检索相关文章Shariq Bashira，Akmal Saeed Khattakb，Mohammed Ali Alsharaca阿曼苏丹国尼兹瓦大学文理学院计算机科学系b巴基斯坦伊斯兰堡，阿扎姆大学计算机科学系c沙特阿拉伯利雅得伊玛目穆罕默德·伊本·沙特伊斯兰大学计算机和信息科学学院信息技术系。阿提奇莱因福奥文章历史记录：收到2019年2020年3月22日修订2020年4月25日接受2020年5月16日网上发售保留字：生物医学检索系统临床决策支持系统相关引文检索学习排名信息检索A B S T R A C T医学文献检索是临床决策支持系统的重要检索任务生物医学文献的技术含量高、篇幅长，使得该检索任务较其他检索任务更为复杂。以往的生物医学信息检索研究主要是基于关键词的检索。在本文中，我们提出了一种新的方法。使用我们的方法，用户可以使用完整的文章作为查询。这减轻了用户的负担，并从许多更有用的搜索功能中生成有效的自动查询。在这种新的搜索场景中，我们详细探讨了开发一个成功的生物医学文章检索系统的几个重要因素，特别是专注于如何自动转换成一个有效的搜索查询的文章。具体而言，我们评估的per-turbance的单个功能与不同的参数配置，以及这些功能的组合，使用学习排名和排名融合的技术在PubMed数据集上的实验结果此外，我们的实验表明，组合多个特征可以显着提高搜索系统的有效性。©2020 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍万维网以医学资源、书目数据库和博客的形式提供了大量与医学和健康相关的信息。为了诊断患者的状况，医生越来越依赖于医疗资源中可用的信息[4，12，20]。不幸的是，医生在试图从研究文章中搜索信息时面临困难。在大多数情况下，他们结束检索大量不相关的文章。生物医学论文的技术内容和结构复杂，这给检索系统检索相关文献带来了很大的困难。医学研究论文通常很长，这给信息检索系统捕获主题的真实内容带来了挑战。这些因素使得生物医学文章检索与网络搜索有很大的不同。*通讯作者。电子邮件地址：shariq. unizwa.edu.om（S.Bashir），akhattak@qau.edu. pk（A.S.）Khattak），mamalsharaa@imamu.edu.sa（M.A. Alshara）。开罗大学计算机和信息系负责同行审查。目前，用于搜索生物医学文章的检索系统是典型的基于关键字的系统[31，32]，例如PubMed。在这些检索系统中，搜索的成功取决于医生使用的查询词的质量。然而，由于文章的长度和理解内容所需的专业知识，选择相关的关键词可能是一项艰巨的任务[19]。在这些情况下，它可能是更好的医生，如果他/她可以指定他/她的查询作为一个小集合的初始检索文章，而不是使用一组关键字。特别是，已经阅读了从与研究相关的初始查询中检索到的文章，医生通常感兴趣的是在本文中，我们提出了一种新的方法。使用我们的方法，用户可以直接使用整个医学文章作为一个查询，而不仅仅是查询词。这减轻了用户的负担，并从许多更有用的搜索功能中生成有效的自动查询。给定文章作为查询，系统可以利用文章中可用的全部丰富信息，并且可以搜索许多更潜在有用的检索特征。表1示出了示例性生物医学制品。本文提供了几种类型的信息。首先，标题>（ttl），ABST><（intr）、FIGR>（figr）、Risk>（rslt）、DISS>（diss）和CONL>（conl）标记指示标题、摘要、介绍、图和表的描述、结果、dis和conl。<<<<<分别对结果和结论进行了讨论有了这种结构信息，我们可以分析不同领域的属性第二，名词短语在医学领域中被广泛使用来描述与疾病相关的概念。在上面的例子中，名词短语加了下划线。诸如“持续性症状感染”、“T细胞免疫缺陷”和“常染色体显性遗传（AD）超”等短语在本文的其他贡献，我们结合功能，以提高效率。在可能的特征组合技术中，线性组合由于其简单性和可理解性而被广泛使用确定每个特征的组合权重是该方法成功的关键通常，如果没有提供附加信息，则权重被分配相等的值，或者根据人类知识来分配权重在生物医学文章搜索的情况下，权重可以使用学习技术来决定。文章参考文献部分表明其相关参考文献（例如，见表1），这可能是专家真正相关性判断的合理替代品通过这种方式，可以很容易地准备具有数千个查询的训练集，然后可以通过秩融合和学习排名来学习此外，在本文中，我们比较了许多不同的搜索特征提取的文章，包括来自不同领域的单词或名词短语，通过应用不同的权重。我们的实验结果表明，从介绍字段的单词和名词短语提供更有效的比那些从标题或摘要字段时，用于生成查询检索生物医学文章。此外，结合不同的特征，检索性能可以显着提高比单一的功能。2. 相关工作从生物医学文献集中检索相关文献是一项具有挑战性的任务。这是因为很难选择表达用户特定相关性的关键字，并且不相关的查询检索到许多不良文档。为了提高搜索查询的质量，研究人员研究了不同的技术。研究人员研究的技术是相关反馈、受控词汇和背景知识，以生成更好的搜索查询[17，24]。[29]通过使用RankSVM检索相关文档，提出了一种使用PubMed相关反馈的查询扩展。他们提出的系统通过在PubMed上应用查询扩展来使用相关性排名他们的系统首先为用户的查询检索初始文档然后，用户与系统进行交互，并在浏览检索结果的同时标记和选择相关文档。一旦用户提供了相关性反馈，系统就使用RankSVM运行相关性反馈函数，并对检索到的结果重新排序。[9]使用UMLS Metathesaurus来选择用于查询扩展的单词。他们的结果表明，基于同义词的查询扩展并没有提高检索效率。[1]使用伪相关反馈方法对MEDLINE[11]使用本体和聚类对搜索结果进行重新排序，以向用户提供相关文档。[13，11，23]使用文本挖掘技术来计算使用引用信息的生物医学文章的全局重要性，并将其应用于重新排名初始结果。这些技术的主要局限性-问题在于这些技术不能捕获不同用户对于同一查询的各种隐藏的相关性。因此，使用全局重要性对初始结果重新排序通常不能捕获个性化或用户在信息检索领域，人们提出了许多等级融合技术来结合不同的文档等级。线性组合法是一种将每个排名中的得分进行线性组合以获得最终得分的方法。[22] 提出了 CombSUM 、 CombMIN 、 CombMAX 、 CombANZ 和CombMNZ等几种运算符，它们对应于不同的组合策略。其他方法包括最小化SpearmanELECTRE方法[21]考虑了文档之间的成对关系，而不是专注于文档的确切分数或排名最近，“学习排名”技术已经获得了相当大的关注，用于从医学资源中搜索相关信息[27，2，25]。在学习排序过程中，首先用一组统计特征描述每对查询文档，然后用先前看到的查询及其相关性判断构造训练集然后使用机器学习技术在训练集上训练排名模型然后，学习的模型可以用于对未见过的查询的文档进行排名IR研究已经提出了几种学习排名方法，例如 Ranking SVM[8] ， RankBoost[6] ，RankNet[3]和AdaRank[28]。[2]在生物医学文献检索中使用学习排名，为医生检索相关信息，以更好地为患者提供护理他们提出了一组学习特征和特征选择方法来学习有效的模型，以提高检索相关生物医学文献的性能[25]提出了一种利用学习进行排名的系统，用于健康寻求者从医疗资源中搜索相关信息他们使用句法和语义特征进行训练学习，以排名系统来捕获查询检索到的文档之间的他们使用2016年CLEF电子健康数据集评估了他们的方法，并显示他们的方法在NDCG@10中比最佳方法高出26.6%[25]提出了两种医疗专业人员从医学文献中检索相关信息。在他们的第一种技术中，他们使用了无监督查询扩展和伪相关反馈。他们的无监督查询扩展方法只包括健康相关的术语。在表1生物医学文章的一个例子。<标题>先天性人IL-17免疫缺陷导致慢性皮肤粘膜念珠菌病/标题>慢性皮肤粘膜念珠菌病（CMC）的特征是指甲、皮肤和粘膜的反复或持续症状性感染，主要是白色念珠菌。CMC常见于患有严重原发性T细胞免疫缺陷的患者，这些患者通常表现出多种感染性和自身免疫性疾病。综合征CMC患者，包括自体染色体l显性（AD）高IgE综合征（HIES）和常染色体隐性（AR）自身免疫性多内分泌病综合征I型（APS-I）显示较少的其他感染。孤立性CMC（CMCD）患者很少显示任何其他严重疾病。我们在这里回顾最近的进展，这三种类型的遗传CMC的遗传解剖。<联系我们<关键词>原发性免疫缺陷，慢性皮肤粘膜念珠菌病，白细胞介素-17免疫，白色念珠菌<........................ <联系我们<........................ <联系我们<图>................ ..........<联系我们..........<<..........................<联系我们S. Bashir等人/Egyptian Informatics Journal 22（2021）7577ð Þ他们的第二项技术，他们提出了使用学习排名进行查询扩展的监督方法。他们的第二种方法使用深度神经网络，通过测量相关文档中每个术语的重要性，使用加权相关率来提取相关候选他们的实验表明，删除表2提供了相关工作中使用的排名技术的摘要。正如我们可以从比较总结中看到的，所有相关的方法都依赖于用户提供查询的初始关键字。我们的工作与相关方法不同。在这篇文章中，我们考虑了一个新的场景，用户直接将完整的文章作为查询而不是查询。这减轻了用户的负担，并从许多更有用的搜索功能中生成有效的自动查询。给定文章作为查询，该系统可以利用文章中可用的全部丰富信息，并且可以搜索许多潜在有用的检索特征。自动将完整文章转换为搜索查询的想法是由文档中许多有用的词的可用性激发的。这些词与文章主题有很强的关联性，这使得检索相关文档成为可能。然而，由于研究文章的长度和技术内容，手动选择合适的单词可能是一项困难的任务。3. 生物医学文献检索典型的医学收藏品包括大量的文献。在这里，C表示整个集合，C^fd1;d2;. ;djCjg;di表示集合中的文档（文章）。jCj表示集合C的大小。 M ½ fm1; m2;. 表示查询条目的集合。用户为文章检索提出的条件。 F/ff1;f2;... ;fFg查询。例如，我们可以使用字段操作符来指示结构信息。也很容易为每个单词提供权重并使用短语运算符。为了从文档中提取单词，我们首先根据单词频率的下降对文档中的所有单词进行排序。接下来，我们只选择文档频率低于30%的单词（在集合中），并使用这些单词生成 Indri 查询。准确地说，fk=Mi;dj=fret=hi=Mi;dj=fret=qi;dj= i，其中fret是搜索引擎的检索函数，h是从用户提出的查询文章Mi生成有效搜索查询qi我们使用Indri作为检索函数。要将一篇文章转换为Indri查询h Mi，我们需要考虑几个因素：第一，查询是否由单词或其他实体组成;第二，在哪里提取它们;第三，如何选择和分配权重;第四，是否搜索整篇文章或只是一些字段。对于第一个因素，单词和名词短语都将被考虑。正如我们之前提到的，有时名词短语比组成短语的单个单词例如，名词短语此外，由于生物医学文章是具有正确语法的正式文档，因此当前的自然语言处理技术可以准确地提取名词短语。对于第二个因素，我们使用生物医学文章的六个字段：标题字段（ttl），摘要（abst），介绍（intr），图表描述（figr），详细结果rslt和讨论（diss）和结论（conl）。查询项也可以从整个生物医学文章（all）中提取。在这种情况下，结构信息将被忽略。对于第三个因素，可以使用测量单词或短语的重要性分数在这里，我们只考虑表示使用的一组特征形式上，一个特征fJ Jk是函数一些标准的统计数据，如TF和TFIDF。对于第四个因素，检索系统既可以检索整篇生物医学文章，其考虑一对查询文章和文档，并输出分数。我们使用fk<$Mi;dj<$来表示函数fk和fk在没有混淆时输出的分数。显然，对于任何特征fk，我们可以针对每个查询文章Mi获得C上的文档排名。3.1. 高级特征这组特征包括我们在本文中考虑的大多数特征。主要的重点是如何将一个完整长度的查询文章转换为一个有效的搜索查询。每个高级特征被发送到检索函数，并且检索得分被用作特征的值。考虑用于检索功能的查询是Indri查询[16]。Indri是一种开发良好的查询语言，它提供了许多运算符来完成不同类型的查询表2生物医学文献检索相关工作中使用的排序技术总结。最后一列比较用户是否参与提供初始查询关键字。（所有）或特定字段。这里，我们考虑具有显式标记的六个字段。提供了一种通用算法来将生物医学文章（查询）转换为有效的搜索查询，其中参数的值反映了上述四个因素。算法的细节可以在算法1中找到对于算法1中的一般算法，输入参数的可能值在表3中列出。目前，我们只列出tfidf作为参数Score的可能值，但很容易合并其他衡量单词或短语重要性的值。对于参数Weight;bool表示分配所有项目的权重为1这里，tf是在Field中计算的。我们可以用不同的参数配置实例化许多变换方法。表4显示了一些转换方法和将它们应用于表1中的示例查询文章之后的相应查询。由于Indri被用作检索系统，因此转换后的查询被表示为Indri查询语言。表4示出了用于自动转换表1的示例查询文章的Indri查询的三个示例。用印度语来说就是豁免权(ttl)意味着使用从TTL字段估计的语言模型来搜索“免疫”。相关工作排名技术用户参与提供初始查询？[29]第二十九话学习排名和查询扩展是的[9]第九话：表3[1]使用伪相关反馈的是的参数的选定值参数名称值[第11话]是的[13，11，23]基于引文信息的文本挖掘是的TFIDF评分however，[22]Rank Fusion是权重tf，idf，bool[25]第二十五话：是的NP 1.0字段ttl、abst、intr、figr、rslt、diss、conl、all78S. Bashir等人/Egyptian Informatics Journal 22（2021）75ð Þ ðÞk¼1我J我3.2. 低级特征Indri查询无法从包含Wi的部分。建议系统的架构，自动转换全长生物医学文章到搜索查询解释图。1.一、系统首先提取高算法1将完整长度的查询文章转换为有效的搜索查询的算法。查询文章，因此，我们使用了两种类型的功能。第一是低层次特征。这些特征主要用于信息检索。这些是TF 词频 ;idf 反之，文件频率 ;TFIDF及其变化.尽管这些统计数据被合并到高级特征使用的检索函数fret中，但将这些统计数据作为单独的特征使用可能会带来额外的好处[26，5]。确切地说，fkMi;djflowhMi;djflowqi;dj，其中qi是从Mi变换的搜索查询。qi¼f1w1h;q i ¼f2w2h;。 . . 其中wi是查询项，di是w i的权重。flow是用于计算统计数据的等式。在本文中，使用了七种类型的方程，这些方程在表5中进行了总结。在表5中，cw;d表示w出现的次数层特征和低层特征，并生成Indri查询。使用学习排名方法生成最优Indri查询，然后使用学习通过组合特征进行排名来检索相关文档（在第4节中解释）。4. 特征组合在本节中，我们考虑如何组合不同类型的功能。主要采用的方法是线性组合，因为它简单，可理解性给定一设置的特征F¼ ff 1; f 2;.. . ; f jFjg，新的排名函数是f M i; d jlPjFj ak：f k<$M i;d j<$，其中ak 是分配给在DJ。jdj jj是文档的长度，jCj表示集合的大小（文档的总数），并且dfwi是文档的数量适当的k值是成功的关键，这种技术。在相关生物医学文章的情况表4变换方法的例子。领域总和Num重量NPTFieldMethod1TTLTFIDF4bool0所有Query1Method2#体重（1.2先天1.0TTL慢性1.1免疫）TFIDF4TFIDF0TTLQuery2方法3#体重（先天3.6。(ttl)1.9豁免权。(ttl)1.6慢性。（ttl））abst tfidf 3TF1所有查询3#体重（0.7 #体重（1.2先天2.1免疫3.0慢性）0.2 #体重（1.1 #2（先天人体免疫）1.0 #3（人体免疫基础）1.2 #3（免疫慢性粘膜皮肤））第k个特征。S. Bashir等人/Egyptian Informatics Journal 22（2021）75795. 实验在本节中，我们在一个真实的生物医学文章集上进行了实验，以探索不同参数配置下每个特征的效果，并展示了特征组合方法的性能。5.1. 语料库我们使用TREC临床决策支持跟踪进行实验[18]。目标文件是PubMed中心的开放获取子集，共包含733; 138篇文章。我们的查询集由2000篇随机文章组成，这些文章至少有20篇被引用和所有类型的字段。从2000个文档的查询集中随机抽取1500个文档作为训练集，500个文档作为测试集。查询需要进行相关性判断，以比较不同技术的有效性。对于生物医学和专利检索任务，我们需要一组领域专家，他们可以通过阅读所有文章，以评级的形式然而，这是非常困难的领域专家获得的相关性判断，因为领域专家需要阅读大量的文章从集合。因此，为了提供合理的近似相关性判断，我们使用TREC临床决策支持跟踪中的文章参考字段作为相关性判断的替代。采用Indri系统对馆藏文献进行索引。系统中还索引了六个具有显式标记的字段我们使用Porter词干分析器对每个单词进行词干分析。用标准平均精度（MAP）和10点精度（P@10）分析了反演效果.Fig. 1.生物医学论文全文自动转换为搜索查询的体系结构。搜索时，参考字段可以用作具有数千个查询的训练集的相关性判断，Strain1/4fM1;R1M2;R2M;. . 其中Mi是查询Mi的相关文章。基于S 训练，我们可以很容易地获得每个特征在训练集上的性能由于性能直接反映了每个特征的这种方法被称为RankFusion。根据所使用的性能指标，我们有FusionP@10和FusionMAP。最近，提出了一种新的学习排名方法AdaRank[28]，该方法使用提升方法学习在每一轮训练中，AdaRank计算特征集中所有特征的有效性，并选择在训练集中具有最高有效性的特征通常，为了测试对看不见的查询的有效性，使用学习排名来组合所选择的特征，并且使用学习排名来对文档进行排名。注意，如果在训练阶段没有选择特征，则该特征的权重被分配为 0 ，因此 AdaRank 隐式地执行特征选择AdaRank算法的细节可以在[28]中找到。此外，与其他学习排名方法（如Ranking SVM[8]）相比，AdaRank在训练集包含数千个查询时可以很好地扩展。与RankFusion类似，基于训练阶段使用的性能指标，我们使用了AdaRankP@10和AdaRankMAP两种方法。5.2. 单一检索特征在本小节中，将探讨具有不同参数配置的每个单个特征，以便找到相关生物医学文章搜索的最重要因素。对于这种分析，不需要使用训练集来调整参数。因此，我们探索了训练集和测试集的特征。由于篇幅的限制，我们只报告了测试集上的性能，因为两个集上的结果非常相似。5.3. 高级功能对于这些功能，有效性是使用以下参数计算的：字段、权重、NP和TField。我们考虑的主要挑战是文章搜索需要多少单词我们测试了从10到50的不同值，间隙为10。NP设置为0，权重设置为bool。TField设置为考虑到不同字段所需的单词数量可能不同，我们分别对所有Field 结果示于图 2和图 3.图 2和图 3表明，使用标题中的10个词作为查询就足以进行文章搜索。话多了，对于表演来说几乎没有什么变化。这个结果是合理的，因为大多数文章的标题都少于10个字。对于其他字段，最显著的改进发生在10个单词到20个单词之间。当选择更多的词时，有效性的变化并不显著。tfidf排名前20的单词似乎可以捕捉到每种类型字段的最有用信息在下面的实验中，我们选择10个单词作为标题字段，20个单词作为其他字段。查询文章（全文）提取字段(ttl、abst、intr、figr、提取托玛琳关键词和名词Indri查询低级特征L1、L2、L3、L4、L5、L6学习（字段，关键字）的最优权重使用学习排名使用学习排名检索相关文章80S. Bashir等人/Egyptian Informatics Journal 22（2021）75ωþ0.10.090.080.070.060.0510 20 30 40 50图二. 在MAP上的性能。0.240.230.220.210.20.190.180.170.160.150.14ttlabstintr菲格迪斯RSLT控制器所有10 20 30 40 50图三. 在P@10上的性能。我们要回答的第二个问题是哪种类型的加权方法是最有用的。我们探索了参数Weight的三个值，即不同字段的bool，tfidf和tf。NP也被设置为0。表6显示了结果。“intr“的结果表6示出了tf加权方案比其他加权方案执行得更tfidf的性能比bool好，但不如tf好。标题字段和讨论字段中有一些例外。对于标题字段来说，加权词似乎并没有带来太大的好处。由于标题通常由少量单词组成，因此给所有单词以相等的权重是有意义的对于讨论字段，使用tf可能会产生一些负面影响。在权利要求领域，如前所述，作者倾向于使用许多模糊的词语来扩大文章的覆盖范围这些模糊的词通常有较低的idf分数，因此使用tfidf倾向于避免这些词的影响。我们感兴趣的第三个问题是哪个字段更适合提取查询词。图2、图3和表6的结果表明，从介绍字段中提取的词提供了最佳效果。有趣的是，当用于生成查询时，introduction字段的有效性比discussion字段好得多。第四，我们想探讨结合单词和名词短语是否有帮助。因此，我们将NP设为1，权重设为tf。表7显示了每种字段类型的结果。w是当仅使用单词时;w p是当单词和名词短语以权重0： 7和0： 3组合时。显示结果的显著性。结果表7显示，在大多数实验中，但是，这种改进的效果并不十分显著。第五点是关于参数TField的效果。到目前为止，我们只使用结构信息来生成查询ttlabstintr菲格尔dissrsltconlallS. Bashir等人/Egyptian Informatics Journal 22（2021）7581DJi2 i\ jð ð ÞÞ ð Þ ð ð ÞωÞdfwii2 i\ j我的世界i2 i\ jjdjjdfwii2 i\ j我的世界表5计算低层特征得分的函数。”nor” is normalizedflowi;djL1Pwi2qi\dj：di：cwi;djtf表7NP对检索性能的影响场图w w + pL2Pw2q\d：di：cwi;djJ J或非（tf）ttl0.063 0.062L3Pwi2qi\dj：di：loglcwi;dj1 log（tf）L4PwQd：di：logojcj jjidf0.0670.0680.086 0.0860.075 0.076卢比L5PwQd：di：cw i;d j：logdfjcjtfidf0.086*L6PwQd：di：cwi;dj：logjcj 挪威（tf）idf0.094全部0.0980.100*L7Pwq d：di：logloglogcwi;dj 1：logloglogdfjcjlog（tf）.idf*但不能用这些信息来决定搜索的位置。换句话说，给定一个查询，我们想知道，与搜索整篇文章相比，只搜索查询词来源对应的字段是否更好。因此，与我们之前对TField其他参数与前一个相同，权重参数设置为tf，参数NP设置为0。表8显示了检索性能。 * 表示“所有”的性能表8清楚地表明，只搜索相应的字段将显著降低检索性能。我们还更详细地研究了主体（diss）场的效果这个字段占据了文章内容的一半以上。考虑效率意味着如果该字段的影响不明显，则在为集合构建索引时可以忽略它。因此，将为集合构建一个新索引，其中diss字段将被忽略。我们使用以下参数来针对该新索引进行实验，其中参数Weight被设置为tf，参数NP被设置为0，并且参数TField被设置为表9显示了结果。‘‘with-diss* 表示结果存在显著差异。表9显示，在大多数情况下，对diss字段进行索引有助于提高检索性能，特别是对于MAP。5.4. 低级别功能结果表明，低层特征没有达到很好的检索效果。我们首先尝试使用检索分数特征来检索1; 000个文档，然后使用低级别的功能来重新排列这1; 000个文档。高级特征这里使用的是从具有tf加权的summary字段中提取单词，因为这是表5中的最佳性能。这个特征被表示为intr。根据表6，使用的低级特征为L1-L7。图4显示了L1-L7的性能，并与intr. 图4的结果表明，大多数低级特征并不能提高intr的有效性，表8TField对检索性能的影响领域地图P@10所有领域所有领域TTL0.063*0.0430.149*0.107菲格尔0.068*0.0490.161*0.124conl0.087*0.0790.197*0.188diss0.085*0.0660.197*0.167Abst0.095*0.0630.211*0.154intr0.114*0.1030.240*0.226表9diss场对检索性能的影响领域地图P@10与diss无diss与diss无dissTTL0.0640.066*0.1490.159*菲格尔0.0670.0650.1610.154conl0.087*0.0760.198*0.178俄罗斯劳工劳工联合会0.0750.0750.1790.179diss0.086*0.0820.1970.189Abst0.095*0.0910.2100.212所有0.099*0.0950.2230.214intr0.1150.1140.2390.245用于检索查询的初始文档。在这7个特征中，L3logtf、 L4idf和L7logtf idf的识别效果较好.5.5. 组合不同类型的功能在本节中，我们将探索如何组合不同类型的功能。虽然本文的重点是检索生物医学领域的相关文章然而，我们也测试我们的方法在一个相关的域。为此，我们选择先验技术专利检索任务专利检索中的现有技术检索是为了找到先前表6权重对检索效果的影响TField地图P@10booltf*idfTFboolTFIDFTFTTL0.0610.0590.0640.1380.1310.139菲格尔0.0630.0690.0670.1480.1470.151conl0.0760.0780.088*0.1690.1750.191*俄罗斯劳工劳工联合会0.0790.0830.0750.1790.1770.170diss0.0860.0870.0840.1850.1910.189Abst0.0860.0910.095*0.1860.1910.200所有0.0870.0880.098*0.1950.1940.212*intr0.0980.1020.114*0.2110.2120.229*我我P@10Ww + p0.1490.1540.1600.1640.1970.1980.1790.1810.1970.2000.2110.2120.2230.2240.2390.24582S. Bashir等人/Egyptian Informatics Journal 22（2021）75ω0.240.220.20.180.160.140.120.10.080.06内部L1L2L3L4L5 L6 L7见图4。低层特征的检索性能。在一个特定的主题上发布专利。针对现有技术检索任务检索专利数据库的目标是找到给定主题的所有先前公开的相关专利[15，7，14]。决定一项新的专利申请是否具有新颖性，或者是否与某些已经获得专利的发明存在技术冲突，是专利审查员和律师的共同任务。他们收集所有相关专利并在搜索报告中报告。我们选择TREC 化学品检索任务（TREC-CRT ）的现有技术（PA）任务PA任务由1; 000个主题查询组成，这些主题查询是全文专利文档（即，至少包括权利要求和摘要或说明书）从欧洲专利局（EPO）和美国专利局（USPTO）获得我们将1000个主题查询随机分为700个专利的训练集和300个专利的测试集。与生物医学文章类似，部分是可用在这专利权第一、的<标题>;ABST>;BSUM>;DRWD>;DETD>和标签表示标题、摘要、概要、附图说明、主体和权利要求字段，分别我们使用这些部分来生成Indri查询。我们使用TREC-CRT的专利引用字段作为相关判断的替代。TREC-CRT收集的性能结果候选特征如表10所示，其中对于名词短语特征，如表10的第三行所示，选择表现最好的四个字段，即intr、abst、diss和all。比较了两个特征集，一个是具有42个高级特征的Ret，另一个是具有所有59个特征的All最好的单一搜索特征被表示为SingleBest。在Ret和All中，这是将摘要字段中的单词和短语与tf权重相结合的功能FusionMAP、FusionP@10、AdaRankMAP和AdaRankP@10的性能报告见表11和表12。s代表与SingleBest显著不同，并且代表与Ret上的有效性显著不同。为了分析我们的方法的有效性，我们将我们的方法的有效性与基于关键字的表10候选特征。领域重量NPTField#Ret8个领域bool，tf，tfidf0所有24表54个字段TF1所有4表66个领域TF0领域6表78个领域TF0无diss8表7低L1-L77图3表11不同组合技术在TREC临床决策支持任务收集上的性能。我们使用配对t检验，显著性为p0.05。<领域地图P@10Ret所有Ret所有SingleBest0.1260.1260.2560.256FusionMAP0.1300：138sω0.2670：279sωFusionP100.1300：137sω0.2680：277sωAdaRankMAP0： 131秒0：138sω0.2680：279sωAdaRankP100： 133秒0：138sω0： 268sω0：277sω基于关键字的语言模型（JM）零点零八分0点157分MAPP10S. Bashir等人/Egyptian Informatics Journal 22（2021）7583表12不同组合技术在TREC化学专利检索任务集上的性能我们使用配对t检验，显著性为p0.05。<领域地图P@10Ret所有Ret所有SingleBest0.0960.0960.2060.206FusionMAP0.1000：108sω0.2180：229sωFusionP100.1000：108sω0.2190：226sωAdaRankMAP0： 102秒0：109sω0.2170：230sωAdaRankP100： 103秒0：109sω0： 219sω0：226sω基于关键字的语言模型（JM）0：0560点112分approach.从两个集合中的每个主题，我们首先根据全文中的所有单词的词频增加对其进行排序，从而构建查询。接下来，我们选择频率最高的前30个单词，并以长查询的形式使用这些单词来搜索相关文档。我们使用语言建模方法（Jelinek-Mercer平滑）处理查询，平滑值为0：7[30]。表11和表12显示了在组合不同特征之后，每个这两个集合中最好的单个功能都要好得多结果表明，组合功能也提供了更好的效果比基于关键字的方法对这两个集合。此外，All字段的有效性明显优于Ret字段，这表明尽管低级特征和类别特征单独使用时效果不佳，但当与高级特征组合使用时，它们是有帮助的对于不同的组合技术，它们在P@10上的性能几乎相同，无论使用哪种特征集。AdaRank在Ret特征集的MAP上的表现略好于RankFusion。比较AdaRank在两个特征集上选择的特征数量是很有趣的在Ret的所有42个特征中，AdaRankMAP选择22个特征，AdaRankP10选择17个特征。在All的全部59个特征中，AdaRankMAP和AdaRankP10都选择了全部59个特征。看来AdaRank的好处主要来自于它的隐式特征选择。所有特征集上的结果表明，当使用所有特征时，AdaRank学习的权重与RankFusion方法没有实质性差异。5.6. 讨论应该注意的是，在上述实验中对于TREC决策支持系统任务（MAP：0.128，P@10：0.249 ）和对于TREC-CRT（MAP：0.109，P@10：0.230）实现的最高性能仍然低于其他典型的搜索应用。其主要原因是从生物医学和现有技术专利检索领域使用的相关性判断。下面的分析显示了使用引用文章作为相关性判断的局限性首先，我们的系统遗漏的一些相关文章实际上例如，给定标题为“缺铁性贫血“的查询文章，由参考字段指示的相关文章包括”其次，我们的系统返回的一些排名靠前的文章似乎是相关的，但在参考字段中缺失。例如，给定标题为 “Risk of primary infection andreinfection with respiratory syncytial virus“的查询文章但是，这两个字段在引用字段中均缺失。部分原因在于，无论文章作者多么仔细，他或她几乎不可能找到所有相关的文章。6. 结论从医学资源中检索相关文献是生物医学信息检索的一项重要任务。以往的生物医学信息检索研究主要是基于关键词的检索。在本文中，我们考虑一种新的方法。使用我们的方法，用户可以直接使用整个医学文章作为一个查询，而不仅仅是查询词。这减轻了负担并从许多更有用的搜索功能中生成有效的自动查询。给定一篇文章作为查询，该系统利用文章中可用的全部丰富信息，并搜索许多更潜在有用的检索特征，例如高级特征和低级特征。在PubMed集合上，我们探索了具有不同参数配置的每个单个特征，以及使用学习排名和排名融合技术的这些特征的组合。找到的最佳单个特征是将来自摘要字段的单词和名词短语与词频结合作为加权方法。此外，使用秩融合和学习排序方法来组合特征可以显着提高相对于最佳单个特征的性能。在未来，获得更可靠的相关性判断是最重要的问题。应进一步探索从文章文本中提取概念和实体的其他技术，以及类别功能的潜力。目前生物医学信息检索的研究并不能帮助医生预测查询的质量。一个有趣的未来工作是设计一个系统，帮助医生预测他们的查询质量。这将有助于医生采取补救措施而无需花费大量时间来重构搜索查询。以往的查询质量预测研究仅依赖于关键字的查询。这适用于网络检索的情况，其中检索系统没有关于搜索主题的任何附加信息。然而，在生物医学信息检索的情况下，可以以文章全

下载后可阅读完整内容，剩余1页未读，立即下载