生物医学命名实体规范化的奇异和多概念关系表示研究

98 浏览量更新于2023-11-30 收藏 1007KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

823→探索生物医学命名实体规范化的奇异和多概念关系表示克林特·卡夫弗吉尼亚联邦大学美国弗吉尼亚州里士满cuffyca@vcu.edu索菲娅·费尔曼弗吉尼亚联邦大学美国弗吉尼亚州里士满fehrmannsf@vcu.edu摘要自2019冠状病毒病疫情爆发以来，经同行评审的生物医学资料库的化学品及疾病相关查询激增这些查询有各种各样的命名惯例和术语，从商标和通用到化学成分提及。规范或消除文本中这些提及的歧义，为研究人员和数据管理员提供了通过搜索查询返回的更相关的文章。命名实体规范化旨在通过将实体提及链接到生物医学知识库或本体中的适当候选概念来自动化此消歧过程。我们探讨了几个术语嵌入聚合技术，以及术语的上下文如何影响评估性能。我们还评估了我们的嵌入方法，规范化的长期实例包含一个或多个非结构化文本中的关系。CCS概念• 特征选择;信息提取。关键词数据集、神经网络、Transformer、词嵌入、概念链接、实体链接、概念映射、概念唯一标识符、MeSH标识符、概念规范化、实体规范化、命名实体链接、命名实体规范化、命名实体消歧ACM参考格式：Clint Cuffy，Evan French，Sophia Fehrmann，and Bridget T.麦金尼斯2022年探索生物医学命名实体规范化的奇异和多概念关系的表示。在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。 ACM ，美国纽约州纽约市， 10 页。https://doi.org/10的网站。1145/3487553.3524701本作品采用CreativeCommons Attribution-NoDerivs International许可协议4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524701埃文·弗伦奇弗吉尼亚联邦大学美国弗吉尼亚州里士满etfrench@vcu.edu布丽奇特·TMcInnes弗吉尼亚联邦大学美国弗吉尼亚州里士满btmcinnes@vcu.edu1引言化学和疾病相关的搜索查询是在公开的生物医学知识库中最常搜索的 PubMed就是这样一个数据库，它包含了超过3300万篇生物医学文章和5,600篇生命科学期刊的引文。尽管在过去的十年中计算技术的最新进展，投资大量的时间和资源来检索相关的基于查询的文章的期望仍然与研究人员。此外，化学和疾病术语具有多个命名术语，这加剧了基于特定查询检索相关文章的繁重任务。自2019冠状病毒病大流行以来，PubMed经历了化学和疾病相关搜索查询的激增，以及提交论文查询的研究人员数量。流量激增加上自去年以来同行评审出版物的接受率增加4%，进一步加剧了检索相关文章的难度。随着被接受或被引用的文章和期刊的比率预计会增加，手动检索与查询相关的文章的难度、时间和资源也增加了可行解决方案的成本。信息提取（IE）是自然语言处理（NLP）的一个基本组件，旨在自动识别和检索非结构化文本中的特定或结构化信息。这些信息的范围从识别文本中的实体，如人，地点，化学品，治疗，药物或疾病，也称为命名实体识别（NER），到识别实体之间的语义关系。这个次要任务被称为关系提取（RE）。虽然NER将非结构化文本中的特定实体提及分类为许多预定义类别之一，但称为命名实体规范化（NEN）的密切相关任务旨在将实体提及链接到知识库或本体中的适当候选概念上。这个任务有许多名称，包括命名实体链接，命名实体消歧，实体链接和概念链接。NEN在许多NLP任务中有帮助，如信息检索、内容分析、语义搜索和推荐系统。将实体链接到知识库对于科学研究人员和数据管理员来说非常重要如前所述，诸如化学品的实体具有多个命名命名法，其需要大量时间和资源来手动识别、确定WWWClint Cuffy etal.824并对同义或相似化学品之间的细微差别进行分类。虽然化学品可以通过其商标或通用名称来提及，但其化学成分的使用通常在生物医学文本中指出。这不包括拼写错误和非标准术语，这些术语也可能对相关文章检索产生不利影响NEN旨在通过将这些提及与本体中的相关概念联系起来来规范化这些提及这具有消除同义术语或命名变体的多种形式的歧义的效果。这简化了搜索标准，并加快了通过不相关的文章进行排序的艰巨任务在这项研究中，我们评估了几种将摘要和全文文章中提到的化学和疾病与生物医学领域的主题联系起来的方法。我们使用BioBERT [9]模型作为基本项编码器。我们以三种方式之一提取术语表示作为嵌入：1）术语的平均子词令牌表示，2）术语的第一子词令牌表示和3）术语的最后子词令牌表示为了生成高质量的术语嵌入表示，我们以三种方式之一包括术语上下文：1）我们利用包含术语的序列，2）除了包含术语的序列之外，我们还利用之前和之后的序列，以及3）我们通过用所有周围的序列。除了这些方法，我们评估模型的性能，同时捕捉一对一和一对多的关系，条款和他们的候选概念。我们的一对一方法将一个术语与一个概念联系起来。同样，我们的一对多方法将一个术语链接到多个候选概念。我们发现细微的差异，长期嵌入的质量相对于长期的上下文的变化，用于生成一对一关系的嵌入。相比之下，当对一对多关系进行分类时，注意到评估性能的差异。这些方法中的每一种都捕获了术语嵌入如何表示以映射到生物医学本体中的候选概念的不同但重要的方面我们提供了一个全面的列表中的结果，我们的方法和我们的调查结果的详细分析。2相关作品通常，NEN可以分为四种主要方法：基于规则的，基于学习的，基于多语言的和基于联合学习的。对于基于学习的方法，它们可以进一步分类为机器学习与深度学习方法。这种分类有时会在基于深度学习和基于联合学习的作品之间产生重叠。在本节中，我们描述了与我们的方法密切相关的相关工作NEN的早期尝试都是基于规则的方法，这些方法利用同义词、首字母缩略词和缩写词典将生物医学文本中的术语映射到MeSH和MedDRA等本体[2，12]。基于规则的方法由于其可配置性和易于解释性[21]而在生产中仍然很受欢迎，但在准确性或F测量方面，它们无法与基于学习的方法竞争[11]。为此，使用DNorm学习NEN系统，该系统利用成对学习排序方法来学习从提及的词频-逆文档频率（TF-IDF）表示到概念名称表示与早期的系统不同，它们在处理整个文档时同时提取和规范化实体，DNorm在对其矢量表示进行评分时只考虑提及本身。DNorm（使用BANNER [7]提取提及）在NCBI疾病语料库[4]的F测量方面比MetaMap[ 2 ]提高了20+点。后来的系统在DNorm基线上进行了改进，用静态词嵌入（而不是TF-IDF向量）表示提及，并通过卷积神经网络（CNN）和递归神经网络模型[19]进行预测。Tutubalina等人证明，这些更高质量的嵌入加上更强大的模型，在AskAPatient数据集上的准确性方面可以超过DNorm高达12个点[6]。Mondal等人[14]也使用了静态词嵌入和CNN分类器，但将预测过程分为两个阶段。在第一阶段，他们使用余弦相似度和Jaccard重叠来为每个提及确定一小组候选概念。然后，在后一阶段，他们使用CNN来预测哪个候选概念映射到每个提及，CNN已经被训练来区分正确和不正确的概念映射。Sung，et al. [17]在他们的BioSYN系统中采用了类似的两步范式，将提及的静态矢量表示转换为BioBERT编码。liu等人[11]，建立在预测阶段与他们的SAPBERT系统和训练BERT模型，以区分正确的提及概念映射与不正确的概念，其中不正确的概念与提及非常相似最后，Angell等人[1]解决了BioSYN系统的一个关键弱点，即如果在候选生成阶段没有识别出正确的概念，则在最终预测期间将其排除在正确识别之外。这对于那些本身就很模糊，但在文档的其他地方被更明确地引用的提及来说尤其成问题他们的系统为每个提及生成候选词，然后对给定文档中的所有提及和候选词使用聚类算法，该算法创建了至多一个概念的组，这些概念映射到任何数量的提及。他们最先进的表现证明了在当地语境中提及适当链接的重要性。3数据我们利用BioCreative V CDR [10]、BioCreative VII Track IICDR [5]、Biocreative VII Track II NLMChem [5]和NCBI疾病[4]数据集。这些数据集包含PubMed标题（T）、摘要(A)以及将化学和疾病条目映射到医学主题词（MeSH）[12]或概念唯一标识符（CUI）的全文文章（F）这些CUI指的是UMLS本体1中的概念。每个数据集还包含两种类型的NEN映射：1）一对一关系和2）一对多关系。一对一关系将一个术语映射到单个概念，而一对多关系将一个术语映射到多个概念。一对一关系包括每个数据集中的大多数NEN实例One-to-many实例有两种类型的提及：1）单独提及，以及2）机器学习和深度学习方法在最近的在现场工作利曼等人[8]开创了第一台机器1 https：//www.nlm.nih.gov/research/umls/index.html探索单一和多概念关系的表示WWW825名称BC5CDRBC7T2-CDRBC7T2-（N）NCBI文档类型不是不是F一文件数量15001500150792传代次数30003000102521586唯一术语5196215143971977数字独特概念235112701812755平均句长15.6715.6214.6919.44每段文章的6.096.094.974.98每段文章的平均字数95.2695.2673.1596.98每个文档的12.1912.19340.199.98每个文档的190.53190.534999.61194.21映射数量2927115953383396824个别提及4861800综合提及23580159复合提及（未标记）389231839表1：数据集统计BC 7 T2-（N）：BC 7 T2-NLMChem，T：标题，A：摘要，F：全文文章综合提及。复合提及将一个术语映射到多个概念，而单独提及将复合提及中的不同术语映射到其各自的概念。我们在附录部分的图2中显示了这种差异。我们列出了几个统计类别，包括文档类型，文档数量，唯一术语数量和唯一概念标识符数量。除了列出单个和复合提及的数量外，我们还列出了每个数据集中未标记的复合提及的数量。我们在下面的表1中提供了每个数据集的这些统计数据4方法在本节中，我们讨论了我们的方法。首先，我们讨论了在我们的方法中使用的基本语言模型第二，如何表示数据以及如何提供上下文来生成我们的术语嵌入。第三，术语嵌入是如何生成的，以及术语嵌入的不同类型最后，我们讨论了我们的方法来量化一对一与一对多的关系中发现的数据。4.1基本语言模型我们使用 DMIS Lab 的 Bidirectional Encoder Representationsfrom Transformers for Biomedical Text Mining（BioBert）[9 ]语言模型的案例实现这是一个基于transformer的[20]语言模型，已经在生物医学数据上进行了预训练，包括Pub-Med摘要和Pub-Med中心全文文章。该语言模型还使用三个生物医学文本挖掘NLP任务进行了微调，其中包括：1）NER，（2）提问;（3）RE [9]。我们提出了一个单一的输出分类层堆叠在顶部的BioBERT编码器的任务NEN。该分类层接受术语表示作为输入，并以两种方式之一提供预测：1）作为词汇表内所有候选概念的概率分布;或2）词汇表内每个候选概念的概率得分，即，softmax与sigmoid。候选概念的词汇表由唯一的MeSH或CUI概念组成存在于每个数据集的训练、开发和测试子集中。4.2术语上下文和表示由于每个数据集都由摘要和全文文章组成，我们的数据预处理步骤包括识别包含化学或疾病提及的特定序列。在识别出这些序列之后，我们通过使用以下三种方法之一来包括化学或疾病术语的上下文来生成上下文子词嵌入：1）仅利用包含化学或疾病提及的序列;2）除了之前和之后的序列之外，我们还利用包含化学或疾病提及的序列;以及3）我们通过使用BioBERT的512令牌限制来最大化上下文，存储包含化学或疾病提及的序列及其周围序列，直到达到令牌限制。我们在附录部分的图3中提供了这些方法的示例。我们使用BioBERT分词器对这些文本序列进行分词，该分词器基于其词段分词策略中的现有词汇将序列中的某些词拆分为子词我们屏蔽这些化学和疾病术语子词标记以在我们的术语嵌入提取层内使用，其以三种方式之一来识别和提取相应的子词嵌入：1）提供化学或疾病提及的平均嵌入表示; 2）提取化学或疾病提及的第一子词嵌入;或3）提取化学或疾病提及的最后子词嵌入。每种嵌入类型产生单个768长度的表示，该表示被馈送到后续分类层，用于映射唯一候选概念的分布。4.3一对一VS一对多关系每个数据集包含两种类型的术语到概念映射：1）一对一和2）一对多。这些是指术语和候选概念之间的关系的性质虽然一对一将术语映射到单个候选概念，但一对多WWWClint Cuffy etal.826命名实体规范化（NEN）模型这种描述将嵌入上下文展示为术语我们还探讨了两个上下文聚合方法，没有显示。将术语映射到多个候选概念。然而，一对多实例有两种类型的提及：1）单独提及，以及2）复合提及。复合提及将一个术语映射到多个概念，而单独提及将复合提及中的不同术语映射到它们各自的概念。我们在附录部分的图2中显示了这种差异典型的基于神经网络的NEN方法专注于将术语映射到单个概念，然而，我们使用标准分类交叉熵和二进制交叉熵损失来比较一对一和一对多映射。对于我们的一对一方法，我们使用分类交叉熵损失和分类层内的softmax激活。这提供了我们的候选概念标签上的归一化分布，其总和为“1”，即，多类分类对于每个术语到概念分类实例，我们将具有最高概率得分的概念标识符指定为术语的分配的候选概念。对于我们的一对多方法，我们在分类层内使用二进制交叉熵损失和sigmoid激活。这为每个概念标识符标签提供了独立的概率得分，即，多标签分类我们使用S形函数的拐点即0.5执行阈值化，使得所有概率得分0.5或更大被设置为“1”，并且小于0.5的得分被设置为“0”。我们使用这种阈值方法来分配一个或多个候选概念的术语。对于每个复合提及，在每个数据集中提供了它们各自的单独提及关于两类综合提及的培训实例可能在模型训练期间产生冲突，并降低模型的泛化能力。两种关系方法都使用数据中存在的一对一关系进行然而，我们省略了一对一模型的复合提及和一对多模型的单独提及。4.4评价在每个模型都经过训练后，我们对所有测试集实例进行推理，并使用严格和近似的提及级精度，召回率和f1分数指标来衡量我们方法的性能，这些指标由BioCreative VII Track 2挑战使用，并由Tsataronis等人描述。al [18].该方法不是聚合给定段落的所有术语到概念预测的计数，而是评估段落内术语到概念预测的唯一集合即在段落内跳过术语到概念预测的相同实例，并且仅聚集唯一术语到概念对计数虽然严格方法评估预测的术语概念标识符相对于它们的地面真值标签，但是近似方法通过将预测的术语和地面真值概念标识符链接到本体内的它们的父概念来评估性能，并且使用最低共同祖先算法来生成精确度（P）、召回率（R）和f1分数（F1）。5实验细节我们利用DMIS Lab BioBERTv1.2 [9]的PyTorch [ 15 ]实现作为所有实验中的基础编码器我们选择探索单一和多概念关系的表示WWW827这是由于PyTorch实现数据预处理步骤包括将几个Unicode字符转换为ASCII等效字符，即软连字符、细空格、不间断空格和不间断空格。我们删除了其他特殊的unicode字符，包括商标，服务标记，注册和版权符号，除了通过插入一个空格将所有句号与句子中的最后一个单词分开。为了提取一个词的子词嵌入的第一个，最后一个或平均池，我们实现了一个自定义Keras [3]层，它将这个固定的768长度的词嵌入向前传播到分类层。该分类层提供概念标识符词汇表上的概率分数作为模型的输出。我们在NVIDIA Tesla V100 PCIe 32 GB GPU上训练模型，方法是冻结BERT层参数，并使用ADAM优化器，学习率为2 e-4，批量大小为10，标准学习率衰减值和beta参数。我们训练了20个epoch的一对一模型，并使用早期停止，同时监测持久性值为2的损失类似地，我们训练了50个epoch的一对多模型，并使用早期停止，同时监测持久性值为2的损失。我们通过将无概念类设置为0.125来执行类加权，并将所有剩余的候选概念类设置为1。6结果和讨论在本节中，我们将介绍所有数据源的所有结果，以用于我们的方法和对我们发现的讨论我们提出并讨论我们的长期嵌入类型的方法。然后，我们提出了我们的研究结果的各种方法来语境化长期嵌入。最后，我们比较我们的方法来捕捉一对一和一对多的关系。我们还将我们的结果与以前的工作进行了比较。我们在表2、3和5中列出了这些结果。6.1术语嵌入类型我们执行三种类型的嵌入生成方法的NEN。三种类型的方法：平均，第一次和最后一次，我们的研究结果表明，平均所有子词嵌入在一个给定的术语始终执行最好的相比，使用该术语的第一个或最后一个子词嵌入。在这三种方法中，使用术语的第一个子词嵌入然后进行平均，而使用术语的最后一个子词嵌入的效果最差。我们的研究结果表明，这种趋势在所有数据集和嵌入上下文类型中适用于一对一和一对多关系实验。6.2Term上下文除了用于提供高质量术语嵌入的嵌入类型方法之外，我们还探索了用于生成这些嵌入的术语上下文如何影响评估性能。这三种上下文类型方法包括：1）仅使用术语序列; 2）除了术语序列之外，还使用在术语序列之前和之后出现的序列;以及3）通过包括术语序列周围的所有可能序列来最大化术语上下文。我们发现，仅使用项序列来生成平均项嵌入，BC 5CDR、BC 7 T2-CDR和BC 7 T2-NLMChem数据集的一对一关系。相反，包括紧接在术语序列之前和之后的序列，并且平均术语的子词嵌入对于一对一关系而言在NCBI数据集上表现最好。虽然使用术语序列通常对于一对一关系（包括术语序列之前和之后的序列）的平均执行得最好，并且对于一对多关系，对于BC 5CDR、BC 7 T2-NLMChem和NCBI数据集的平均执行得最好。对于BC 7 T2-CDR，我们发现最大化上下文以生成平均术语表示为一对多关系提供了最佳性能。6.3一对一与一对多关系我们已经证明，平均在嵌入类型之间表现最好，并且用于提供最高质量术语嵌入的上下文取决于数据集。当检查我们量化一对一和一对多关系的方法时，我们发现我们的一对多方法比捕获BC5CDR，BC 7 T2-CDR和BC 7 T2-NLMChem数据集上所有嵌入类型的一对一关系提供了更好的当检查我们的模型在NCBI数据集中区分一对一和一对多关系的能力时，我们的结果并没有显示F1每单位的明显变化。6.4严格与粗略比较鉴于我们在每个数据集上生成高质量嵌入的最佳方法，我们比较了一对一和一对多关系的严格与近似评估方法。近似评估方法使用最低共同祖先算法来测量模型性能。该方法在UMLS本体中将预测概念和黄金子候选概念链接到它们的父概念。相比之下，严格评估方法基于预测数据和黄金数据之间的候选概念的精确匹配来计算评估度量。结果表明，近似评估方法提高了一对一关系评估性能在所有报告的数据集。对于我们的一对多关系方法，我们发现近似评估方法提高了BC 7 T2-CDR和NCBI数据集的性能。有趣的是，与严格的对应方法相比，这种方法在BC5CDR和NCBI数据集上的一对多关系中的每一个都减少了我们在表4中提供了这些结果。6.5与先前作品的间接比较给出了我们生成高质量嵌入的最佳方法，以分类BC5CDR数据集的一对一关系（即，平均嵌入类型仅使用术语序列来生成上下文），我们将我们的方法与以前的工作进行间接比较。在所有最近的NEN出版物中，我们发现Wiatrack等。al [22]除了评估类似的候选概念类型和报告度量之外，还利用类似的术语上下文聚合和嵌入生成方法。他们的方法包括联合学习和基于BERT的分层模型，用于NER、实体类型化和一对一关系的NEN任务。他们评估WWWClint Cuffy etal.828一对一关系Term序列类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.60050.53680.47870.6728兰特0.62990.5748F10.63460.57960.5223P0.50670.47420.45890.6534兰特0.62320.5896F10.57070.53860.5161P0.50300.47340.44410.6673兰特0.63410.6172F10.57360.54210.5165P0.61900.54630.5046R0.57410.53940.5174F10.59570.54290.5109受限上下文类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.57800.53190.4874R0.66770.63700.5767F10.61960.57970.6283P0.49560.47860.4545R0.65070.63010.5999F10.56260.54400.5172P0.49670.46070.4538R0.67210.64680.6100F10.57120.53810.5204P0.63010.55380.53110.5804兰特0.55210.5110F10.60430.55290.5209完全上下文类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.57900.52310.4866R0.67110.63270.5782F10.62160.57280.5284P0.49720.47640.4352R0.64650.61080.5786F10.56220.53530.4968P0.49440.45280.4433R0.66120.63650.6100F10.56580.52920.5134P0.62460.53630.5300R0.57730.53630.5300F10.60000.53630.5300表2：所有数据集之间一对一关系的严格评估指标平均值：计算所有术语子词嵌入的平均值。第一个：提取给定术语的第一个子词嵌入。最后：提取给定术语的最后一个子词嵌入术语序列：术语嵌入仅使用术语的序列生成受限上下文：术语嵌入是使用术语序列以及直接周围序列生成的。完整上下文：通过最大化术语的上下文来生成术语嵌入一对多关系Term序列类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.75700.66210.6620R0.62250.61430.5389F10.68320.63730.5775P0.68940.59310.5785R0.62460.61220.5690F10.65540.60250.5737P0.85250.70780.7506R0.63410.62210.5949F10.72730.66220.6638P0.69290.60290.5765R0.52680.51740.4637F10.59860.55690.5140受限上下文类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.76000.68190.63120.6319卢比0.61430.5327F10.69010.64630.5778P0.69250.60900.5766R0.62460.61150.5683F10.65680.61030.5724P0.85220.74980.72630.6432卢比0.61600.5919F10.73310.67640.6523P0.70610.61420.56820.5457兰特0.51740.5913F10.61570.56160.6597完全上下文类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI平均值第一个最后一个P0.76690.68980.6295R0.62360.59720.5347F10.68790.64020.5782P0.69830.60990.56510.6356卢比0.60190.5573F10.66550.60590.5612P0.83440.73300.7460R0.64070.61720.5913F10.72490.67020.6597P0.69640.59930.5840R0.54260.51420.4826F10.60090.55350.5285表3：所有数据集之间一对多关系的严格评估指标平均值：计算所有术语子词嵌入的平均值。第一个：提取给定术语的第一个子词嵌入。最后：提取给定术语的最后一个子词嵌入术语序列：术语嵌入仅使用术语的序列生成受限上下文：术语嵌入是使用术语序列以及直接周围序列生成的。完整上下文：WWWClint Cuffy etal.829通过最大化术语的上下文来生成术语嵌入探索单一和多概念关系的表示WWW830严格与近似结果One-to-One类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI严格P0.6005R0.6728F10.6346P0.5067R0.6534F10.5707P0.5030R0.6673F10.5736P0.6301R0.5804F10.6043约0.63080.68710.65020.63390.75240.66780.50490.70540.57920.74240.66020.6782One-to-Many类型BC5CDRBC7T2-CDRBC7T2-NLMChemNCBI严格P0.7600R0.6319F10.6901P0.6983R0.6356F10.6655P0.8522R0.6432F10.7331P0.7061R0.5457F10.6157约0.73570.64470.67640.73570.80360.59240.65900.66820.67840.71590.63530.6481表4：与近似评估方法相比，每个数据集的最佳严格结果使用提及级精确度（P）、召回率（R）和（R）和f1-分数（F1）度量，如Mohan，et.al [13]. 我们注意到他们的NEN单任务模型在所有方法中实现了最佳性能。我们在表5中报告了这些结果。他们的模型利用序列包含一个给定的NEN术语，除了其直接周围的序列作为上下文，以生成一对一关系链接到候选概念的术语嵌入。与这种方法相比，我们的模型使用两种额外类型的上下文聚合技术来评估性能：1）仅使用包含NEN项的序列，以及2）通过包括NEN项序列周围的所有上下文来最大化编码器令牌缓冲区。虽然这两种模型分类一对一的NEN实例的化学品和疾病，我们也incor-porate分类一对多的关系和评估性能之间的两种类型的NEN关系分类方法。BC5CDR描述PRF1Wiatrak等人0.64980.62910.6393One-to-One0.60050.67280.6346One-to-Many0.75700.62250.6832表5：Wiatrak等人（2020）-高级单一任务结果这两种方法之间的分析表明，他们的模型使预测的一对一关系的相关性略高，但提供了一个较低的正确分类率的预测。我们的模型在实现更高的正确预测分类率的同时，做出的预测相关性略低我们将此归因于我们的模型错误地将实例分类为无概念。总的来说，两种方法之间的性能表明我们的一对一方法实现了相当的F1性能。鉴于表5中列出的一对一关系的嵌入生成方法，我们列出了我们的可比一对多关系方法，以证明在模型训练期间集成一对多关系的效果。这导致了精确度的大幅提高，超过了两种一对一的方法，同时表现出与Wiatrak模型相似的召回性能7误差分析在数据分析过程中，我们发现许多NEN实例包含一对多关系，这些关系在BC 5CDR、BC 7 T2-CDR和NCBI数据集中未被标记为复合提及。此外，BC 7 T2-NLMChem数据集不将其一对多关系实例中的任何一个标记为复合提及。(see表1）。我们在附录部分的图4中提供了一个未标记的复合NEN实例的示例。如果我们依赖于数据中存在的复合提及标签，而放弃适当的数据分析和数据处理实践，这将对一对一模型的模型泛化性和评估性能产生这是由于一个术语具有多个链接的候选概念。在训练期间，模型将反向传播与给定术语独立链接的每个候选概念的相应错误这也降低了评估性能，因为模型更有可能选择与一对一关系的术语一起出现更频繁的链接概念标识符此外，如果在链接到术语的集合中仅选择一个候选概念，则这也将负面地影响评估性能，因为我们不能确定哪个候选概念在集合中更重要，也不能确定哪个候选概念将用于严格评估。我们还在NCBI数据集中发现了标记为复合提及的实例，其仅包含单个链接的候选概念。这些实例从一对一模型训练中省略，因为它们被假设为包含多个链接到术语的概念。由于这些实例不包含多个候选概念，因此它们对利用其复合提及标签的模型泛化没有任何好处。对NCBI数据的进一步分析表明，每个识别的复合提及的单独提及没有标记。这表明，我们的一对多模型正在对包含两种类型提及的每个术语的未标记的单独提及和标记的复合提及进行训练;如果数据中存在单独提及。这也会影响模型的泛化能力并降低整体评估性能。此外，如果我们将其与数据集中现有的未标记复合提及的数量和单一概念复合提及的数量相结合，我们相信这些因素表明缺乏WWWClint Cuffy etal.831在捕获这些一对多关系时，与使用此数据集的一对一对应关系相比，性能发生了显著变化虽然BC 5CDR、BC 7 T2-CDR和NCBI数据集包含许多未标记的复合提及实例，但BC 7 T2-NLMChem不包含标记的复合提及实例。但是，数据集中存在一对多的NEN实例。尽管有这一发现，我们注意到，与一对一方法相比，我们的一对多方法对所有嵌入类型的性能都有所提高与我们之前的研究结果类似，识别一对一关系时的性能将受到负面影响，因为模型将每个链接的候选概念作为单独的实例处理到同一术语。即反向传播将针对每个链接的候选概念独立地发生这使得模型无法实现最佳的一对一映射解决方案，通常将具有最高频率的概念标识符分配给术语。我们认为，与NCBI的研究结果相比，一对多模型性能的提高与数据集中较少的未标记个体提及有关。进一步分析我们的模型表明，概念少的标签被错误分配的频率比任何其他类。然而，这取决于评估的数据集。我们注意到，无论是否对无概念标签的类加权低于所有其他概念标识符标签，这种趋势都是正确的。8结论在这项研究中，我们研究了多种方法来生成用于NEN的术语嵌入，以及每个术语的上下文如何影响评估性能。此外，我们提供了一个比较我们的方法映射一对一和一对多关系。虽然我们发现平均为一对一和一对多关系分类提供了最佳的评估性能，但重要的是要注意我们的发现是依赖于任务的，并且在为每个数据源生成术语嵌入时应考虑对所有嵌入类型的全面分析。我们在生成高质量嵌入的同时包含上下文的方法表明，在对所有数据集之间的一对一关系进行分类时，使用术语的序列提供了最高质量的嵌入。相反，我们发现，在对一对多关系进行分类时，术语上下文会影响评估性能。结果表明，包括更多的上下文时，分类一对多关系提高评估性能相比，只利用术语的序列。这进一步强调了在生成高质量的术语嵌入时应该考虑所有方法尽管我们的研究结果，上下文应始终提供生成术语表示，因为这些表示上下文给定的包含序列内的共现词。这为模型提供了更大的语义信息内容，给出了术语的周围上下文，其被进一步用作术语消歧的手段用于链接到本体。在我们的一对一和一对多关系之间，我们发现一对多关系始终比一对一关系模型表现得更好。虽然这种趋势在量化这些关系方面显示出希望，但我们也注意到每个数据集中的几个问题，我们认为这些问题对模型的推广性，从而评估性能。适当的数据分析和处理技术将有助于减轻诸如此类的担忧。9今后工作进一步的工作包括为每个数据集优化BioBERT编码器，同时训练我们附加的分类层。我们相信这将提高模型性能，同时减少模型泛化所需的时期数量其他工作包括利用其他基于BERT的模型，如BioMegatron [16]。这个基于BERT的生物医学模型包含多达12亿个参数和超过50，000个词汇元素。与BioBERT基础模型的1.1亿个参数和30，522个元素词汇相比，我们相信可以实现显着的性能提升。此外，我们建议通过将未标记的一对多关系分类为每个数据集内的复合关系来提高性能。由于我们的一对一模型忽略了标记为复合提及的实例，而我们的一对多模型包括标记为复合提及的实例，因此我们从理论上认为，这两种关系类型的评估性能都会得到显著改善。其他未来的工作包括实现一个端到端的联合学习系统，其中包括相关的任务，如NER和实体类型，除了建筑设计的变化。当这些添加与合并技术相结合以减轻我们的数据分析和方法特定讨论部分中指出的问题时，我们相信这些任务之间共享的隐式信息将提供更高质量的表示，同时实现更高的泛化性能。此外，由于我们提出的方法依赖于候选概念的固定词汇来评估预测性能，因此架构设计选择（例如使用相似性损失函数来学习术语和概念表示之间的映射）可以进一步提高NEN的模型性能，同时提供更通用的模型。致谢我们感谢匿名审稿人对本文提出的建设性意见。EF得到了CTSA第2009号奖项的支持UL1TR002649，来自国家转化科学推进中心 BTM部分由美国国家科学基金会资助。1939951。引用[1] 里科·安吉尔，尼古拉斯·莫纳特，苏尼尔·莫汉，尼尚特·亚达夫，安德鲁·麦卡勒姆. 2021年生物医学实体链接的基于查询的推理在计算语言学协会北美分会2021年会议论文集：人类语言技术。2598-2608[2] 艾伦 · 阿伦森 2001 年将生物医学文本有效映射到 UMLS Metathe-saurus ：MetaMap程序。在AMIA研讨会上。美国医学信息学协会，17。[3] François Chollet等人2015年。Keras https://keras.io。[4] RezIslamaj Dojanan，Robert Leaman，and Zhiyong Lu. 2014. NCBI疾病语料库：疾病名称识别和概念规范化的资源。 Journal of BiomedicalInformatics47 （ 2014 ）， 1 https://doi.org/10.1016/j.jbi 。 2013.12.006 -2013.12.006 - 2013.12.006[5] RezIslamaj ， Robert Leaman ， Sun Kim ， Dongseop Kwon ， Chih-HsuanWei ， Donald C.Comeau ， Yifan Peng ， David Cissel ， Cathleen Coss ，Carol Fisher ， RobGuzman ， Preeti Gokal Kochar ， Stella Koppel ， DorothyTrinh，Keiko Sekiya，Janice探索单一和多概念关系的表示WWW832Ward，Deborah Whitman，Susan Schmidt，and Zhiyong Lu.2021年NLM-Chem是PubMed全文文献中化学实体识别的新资源。科学数据8，1（2021年3月）。https://doi.org/10.1038/s41597-021-00875-1[6] Sarvnaz Karimi ， Alejandro Metke

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

生物医学命名实体规范化的奇异和多概念关系表示研究

生物医学命名实体规范化：奇异和多概念关系的探索2022年网络会议总结.

"大规模精确临床生物医学命名实体识别软件影响13（2022）100373

神经机器翻译中的去噪实体预训练方法 DEEP：改进命名实体翻译的研究

阿拉伯命名实体关系提取及其在自然语言处理中的应用

命名实体识别的研究进展介绍

命名实体识别常用方法包括： 基于规则的命名实体识别、 基于统计的命名实体识别和基于深度学习的命名实体识别。 A 对 B 错

命名实体识别与知识图谱的关系

命名实体识别 数据集

实体命名规范化代码

多模态中文命名实体识别

详细介绍实体关系抽取任务中，分词、词性标注与命名实体识别的作用

github命名实体识别项目医疗

HanLP进行命名实体识别

gcn-lstm命名实体识别

介绍汽车生产设备故障领域命名实体识别的研究目的和意义 不少于1000字

jieba命名实体识别

序列标注的命名实体识别

介绍汽车生产设备故障领域命名实体识别的研究目的和意义不少于1000字

命名实体识别 attention

最新资源

命名实体识别常用方法包括：基于规则的命名实体识别、基于统计的命名实体识别和基于深度学习的命名实体识别。 A 对 B 错

命名实体识别数据集

介绍汽车生产设备故障领域命名实体识别的研究目的和意义不少于1000字