没有合适的资源?快使用搜索试试~ 我知道了~
1037在UMLS元词库中调整生物医学词汇的上下文丰富学习模型阮荣美国马里兰州贝塞斯达国家医学图书馆vinh. nih.govThilini Wijesiriwardene南卡罗来纳大学哥伦比亚,南卡罗来纳,美国thilini@sc.eduHong YungYipUniversity of SouthCarolina美国南卡罗来纳州哥伦比亚hyip@sc.edu维谢什·贾万古拉美国弗吉尼亚州哥伦比亚市乔治华盛顿大学visheshj123@gwu.edu贡米特·巴贾杰美国俄亥俄州哥伦布市俄亥俄州立大学osu.eduSrinivasan Parthasarathy俄亥俄州立大学美国俄亥俄州哥伦布市parthasarathy.2@wwwosu.edu摘要美国南卡罗来纳州哥伦比亚大学amit@sc.eduOlivier Bodenreider国家医学图书馆美国马里兰州贝塞斯达olivier@nlm.nih.gov并不总是比具有单一上下文的其他变体执行得更好统一医学语言系统(UMLS)元叙词表的构建过程主要依赖于词汇算法和人工专家精选,用于集成200多个生物医学词汇。基于词汇的学习模型(LexLM)被开发来预测元叙词表术语之间的同义关系,并且在很大程度上优于基于规则的方法(RBA),该方法近似于当前的构造过程。然而,LexLM具有进一步改进的潜力,因为它只使用来自源词汇表的词汇信息,而RBA还利用上下文信息。 我们调查了多种类型的上下文信息提供给UMLS编辑器,即源同义关系(SS),源语义组(SG)和源层次关系(HR)的UMLS词汇对齐(UVA)问题的作用。在本文中,我们通过向LexLM添加上面列出的上下文信息类型来开发上下文丰富学习模型(ConLM)的多种变体。我们在上下文丰富的知识图(ConKG)中表示这些上下文类型,其中有四个变体ConSS,ConSG,ConHR和ConAll。我们使用七种KG嵌入技术来训练这些我们通过将ConKG嵌入向量与来自LexLM的单词嵌入向量连接来创建ConLM。我们使用具有数亿对的UVA泛化测试数据集来评估ConLM的性能实验结果表明,与LexLM相比,ConLM的性能有显著提高,最佳ConLM的准确率为+5.0%我们的实验还表明,包含三种上下文类型的ConAllACM承认此贡献是由美国政府的雇员、承包商或附属机构撰写或共同撰写的因此,美国政府保留非排他性的、免版税的权利,可以发布或复制这篇文章,或者允许其他人这样做,仅供政府使用。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511946类型. 最后,我们的实验表明,词汇相似度高的词对从添加上下文信息中获益最大,准确率为+6.56%(94.97%),召回率为最佳ConLM在F1中为+4.35%(94.09%)词汇相似度较低的对也显示出性能提高,在F1中低相似度为+0.85%(96%),在F1中无相似度为+1.31%(96.34%)。 这些结果表明使用上下文信息在UVA问题的重要性。CCS概念• 计算机系统组织→神经网络;·计算方法学→神经网络;·应用计算→生物信息学。关键词UMLS元词库,神经网络,词汇对齐,可扩展性,监督学习,知识图嵌入。ACM参考格式:VinhNguyen 、 HongYungYip 、 GoonmeetBajaj 、 ThiliniWijesiriwardene 、 Vishesh Javangula 、 Srinivasan Parthasarathy 、Amit Sheth和Olivier Bo-denreider。2022年在UMLS元词库中调整生物医学词汇的上下文丰富学习模型。 在ACMWeb Conference 2022(WWW'22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM, 美 国 纽 约 州 纽 约 市 , 10 页 。 https://doi.org/10.1145/3485447 。35119461引言统一医学语言系统(UMLS)元词库是由美国国家医学图书馆开发的生物医学术语集成系统,通过将同义术语的集群组织成概念来集成生物医学当前的UMLS元词库的构建过程严重依赖于词汇相似性算法来识别同义词的候选者,尽管不共享共同语义的术语被阻止被识别为同义词。此外,本发明还1038WWW在源词汇表中的术语之间断言的同义关系一般保存在元词库中。 最终的同义词确定来自Metathesaurus编辑的人工策展。 考虑到元词库目前的规模,有来自214个源词汇表的超过1500万个术语,这个过程不可避免地代价高昂且容易出错(如[8,9,19,28,29]所指出的那样)。动机Nguyen等人[34]在UMLSMetathesaurus中将同义词预测形式化为词汇对齐问题,称为UMLS词汇对齐(UVA)问题。这个问题的规模是非常大的(即使仅限于英语术语从活跃的词汇表),因为8。700万个生物医学术语需要成对比较。此外,他们开发了一个基于规则的基线(此外,为了评估他们的词汇对齐算法,他们创建了不同的UVA数据集变体(也称为“种子对齐”或“地面实况”),在阴性示例中具有不同程度的词汇相似性。UVA数据集包含数亿对生物医学术语(如第5.2节所述),即,比通常用于评估本体对齐算法的数据集多几个数量级(例如,OAEI数据集中的数万对)。在实践中,UVA问题的全尺度(8。7M2)对于任何类型的实验都是不切实际的出于这个原因,所有实验都使用UVA数据集来评估模型,然后将最佳模型应用于UVA问题的全尺度为了解决UVA问题,Nguyen et al.[33,34]开发了一种具有词汇学习模型(LexLM)的可扩展监督学习方法,该方法在很大程度上优于RBA基线。然而,他们指出,他们的工作的局限性,他们只利用词汇信息,不包括任何上下文信息。例如,来自NCI的术语“COLD”和来自SNOMEDCT_US的术语“Cold”具有相同的词汇嵌入,因此将被LexLM预测为同义词。然而,这两个术语可以通过将它们的源同义词添加到LexLM中来消除歧义,例如“慢性阻塞性肺病”和“普通感冒”。因此,我们认为,LexLM可以进一步改进,因为它只使用来自生物医学词汇的词汇信息,而RBA也利用上下文信息。请注意,我们选择向LexLM添加上下文信息,因为它的Siamese架构和BioWordVec嵌入已被证明优于UVA问题的基于BERT的方法[3]。在[3]中,作者实现并扩展了不同的方法,用于从基于BERT的模型 中提取 单词和 句子嵌入 ,如BioBERT [21],UmlsBERT[26],SapBERT [24],BlueBERT [37]。 他们的实验表明,具有Siamese Network架构和BioWordVec嵌入式的LexLM表现最好。此外,其他现有的方法,例如,从OAEI [12,18,20,31,41],开发和测试与UVA问题相比,OAEI数据集是小因此,这些方法不适合UVA问题的规模。然而,扩大和调整现有的方法并不是微不足道的,超出了本文的范围。目标. 我们的第一个目标是通过添加不同类型的上下文信息来提高LexLM的性能UMLS编辑器可以使用的三种类型,即源同义关系(SS)、源语义组(SG)和层次关系(HR)。我们的第二个目标是调查这些类型的上下文信息是否应该单独或集体添加到LexLM中。我们评估每种方法的计算成本和实验性能的UVA数据集的大小我们的第三个目标是评估上下文丰富的模型在UVA数据集上的性能,该数据集包含生物医学术语对中不同程度的词汇相似这将使我们能够评估将拟议方法应用于大规模的UVA问题[34]。Approach. 为了单独和集体地评估上下文信息的类型,我们在上下文丰富的知识图(ConKG)变体中表示每个上下文类型:每个上下文类型的ConSS,ConSG和ConHR,以及所有上下文类型的ConAll。我们使用各种KG嵌入技术来训练这些ConKG嵌入,然后将ConKG嵌入与LexLM的词法嵌入连接起来,以创建ConLM模型。我们评估这些ConLM模型的性能UVA数据集上的每个KGE技术与不同的词汇相似性水平,在其生物医学术语对。注意,我们在实验中使用各种现有的KGE技术,目的是探索当添加多个上下文类型时,这些KGE技术如何使用公共超参数执行。考虑到每个实验的运行成本(每个实验5-6天),我们没有尝试为每个KGE技术确定最佳因此,我们的方法将不支持这些KGE技术的公平比较,我们不主张我们的工作代表KG嵌入技术的任何类型的系统评估或性能基准。捐款. 对于每个目标,我们得到如下实验结果。我们对第一个目标(提高LexLM的性能)的贡献是开发上下文丰富学习模型(ConLM)的方法,该方法与参考LexLM相比具有显着的整体性能改进,即精确率为+5.0%(93.75%),召回率为+0.69%(93.23%),F1为+2.88%(93.49%)。最好的ConLM。实验还显示,所有7种KGE技术的ConLM在F1中为+1.52%至+2.88%我们对第二个目标(单独或共同地添加上下文信息的类型)的贡献是用于评估具有多个ConKG变体的ConLM的一组广泛的实验,其示出,尽管包括三个上下文类型的ConAll变体花费最长的时间用于训练,但它并不总是优于单个上下文类型变体(7个KGE技术中有4个的性能较低)。然而,在所有KGE技术中,没有一种上下文类型的性能优于ConAll。我们对第三个目标(评估在特定数据集上添加上下文信息的影响)的贡献最 佳 ConLM 的 召 回 率 为 +2.13% ( 93.23% ) , F1 为 +4.35%(94.09%)词汇相似度较低的对也表现出性能提高,F1(96%)为低相似度时为+0.85%,F2(96%)为+0.85%,F3(96%)为低相似度时为+0.85%,F4(96%)为低相似度时为+0.85%,F5(96%)为低相似度时为+0.85%,F6(96%)为低相似度时为+0.85%,F7(96% )为低相似度时为+0.85% ,F7 (96% )为低相似度时为+0.85%,F7(96%)为低相似度时为+0.85%,F7(96%)为低相似度时为+0.85%。F_1为+1.31%(96.34%)。1039()下一页∈∈()∈∈∈∈∈∈∈【详细】∪∪{()∈()}{()∈()}在UMLS元词库WWW'22中大规模对齐生物医学词汇的上下文丰富学习模型,2022年4月25日至29日本文件其余部分的组织如下。第二节介绍了元词库的背景知识,以及词汇和语境信息是如何转换成ConKG的。 第3节描述了为训练ConKG的嵌入向量而选择的KG嵌入技术。第4节描述了如何开发ConLM在第5节中,我们介绍了我们的实验和结果。在第6节中,我们讨论了我们的研究结果和未来的工作。第七章讨论了相关的工作。第8节结束了论文。2内容丰富的知识图本节描述如何使用来自源词汇表的各种类型的上下文信息来构建上下文丰富知识图(ConKG)的多个变体。这些ConKG变体将用作第3节中训练KG嵌入的输入。2.1关于UMLS元词库的背景知识Nguyen等人[34]描述了在同义词预测任务中使用的UMLS的知识表示在这里,我们简要总结了[34]中的关键概念,并添加了特定于上下文信息的新概念下面的示例如图1所示。AUI。源词汇表中的每一个术语都被分配了一个唯一的原子标识符(AUI)。例如,SNOMEDCT_US中的“Cold”和NCI中的“COLD”分别被分配了不同的AUI“A2880095”和“A17684490”。设A为AUI的集合SCUI和MS。每个AUI可选择与其源(“源CUI”或SCUI)提供的一个标识符相关联。在源词汇表中被视为同义词的术语被分配相同的SCUI。例如,术语“COLD”和“慢性阻塞性肺病”与来自源词汇表NCI的相同SCUI“C3199”相关联。SCUI在元词库构建过程中扮演着重要的角色,通常保存在元词库中。(M1)设S是元词库中的SCUI的集合设ms是将原子a A映射到SCUIs S的函数,使得s= msa.源语义组和m。源语义组(SG)被分配给源词汇表(或多域词汇表的顶级术语)。来自源的SCUI将从其源继承其语义组例如,SCUI为“C3199”的“COLD”继承了顶级术语“疾病、障碍或发现”(来自NCI)的SG“障碍”。 设G是元叙词表中的语义组的集合。(M2)设m<$是将SCUIs S映射到语义组集合的函数,使得m<$s G。源层次关系和mh。 SCUI在源词汇表中可能有父项或子项。例如,SCUI“C3199”(来自NCI)的“COLD”具有SCUI“C98541”作为父项的“慢性肺疾病”和SCUI“C3348”作为子项的“肺气肿”。(M3)设mh是将SCUIs∈S映射到其父集mh:S→S的函数,使得mh(s)<$S。图 1 : 示 例 说 明 了 可 用 于 消 除 NCI 中 的 术 语 COLD 和SNOMEDCT_US中的术语Cold的歧义的上下文信息,包括源同义词(通过has_SCUI),源语义组(Disorders)和源层 次 关 系 ( 通 过 has_parentSCUI ) 。 请 注 意 ,SNOMEDCT_US和NCI是UVA数据集中包含的UMLS元词库中200多个词汇表中的两个示例图2:知识图表示中ConAll变体的示例.2.2上下文丰富的知识图在这里,我们解释了如何构建上下文丰富的知识图(ConKG)(图2),并定义为每个ConKG变体构建的三元组集合。A是AUI的集合,S是SCUI的集合,G是SG的集合,并且映射函数{ms,md,mh}在上面的M1、M2和M3中定义。ConSS 。 让 rs 表 示 从 AUIa A 到 SCUI s S 的 二 元 关 系has_SCUI。ConSS变体包括表示AUI与其SCUI之间的关系(V1)ConSS = a,rs,s:s=msa.ConSG 。 令 r<$ 表 示 从 SCUIs S 到 SG <$G 的 二 元 关 系has_SG。ConSG变体包括表示SCUI及其语义组之间关系的三元组。(V2)ConSG = s,r<$,<$:<$是的。ConHR。 令rh表示从SCUI s S到其父SCUI p S的二元关系has_parentSCUI。 ConHR变体包括表示SCUI及其父SCUI之间关系的三元组。(V3)ConHR = s,rh,p:pmhs。ConAll。ConAll = ConSS ConSG ConHR.ConAll的一个示例如图2所示。1040∈.|∈∈∈(())()下一页()()∈)()(∈× ×→WWW表1:每个ConKG变体的ConKG嵌入的集合变体ConKG TriplesConKG嵌入向量ConSSConSG{(a,rs,s):s=ms(a)}{(s,r<$,<$):<$∈m<$(s)}{EConSS(a)<$EConSS(ms(a)):<$a∈A}{EConSG(m s(a))}。|∥mд(ms(a)) ∥EConSG(дj):∀a∈A,дj∈mд (m s(a))}j=1ConHRConAll{(s,rh,p):p∈mh(s)}{(a,rs,s):s=ms(a)}{(s,r<$,<$):<$∈m<$(s)}{(s,rh,p):p∈mh(s)}{EConHR(ms(a)):A∈A}{EConAll(a)}EConAl l(ms(a)).|∥mд(ms(a)) ∥EConAll(дj): ∀a∈A,дj∈mд (ms (a))}j=1表2:文件中使用的缩略语清单概念意义概念意义AUIAtom唯一ID源概念唯一标识符SS源同义词SG语义组HR层次关系TOPN_SIM词汇相似度的最高级别RAN_NOSIM零词汇相似度RAN_SIM词汇相似度LexLM基于词汇的学习模型ConLM上下文丰富学习模型ConKG上下文丰富知识图 TRAIN_训练数据集泛化测试集GEN_Prefix一组AU是ConKG三元组的TConKG负三元组的T′集S组SCUImsA→SSG的Gm<$S→GmhS→SEA SGE实体嵌入集ConKG嵌入的C集合.|a verageanarrayofvectors级联向量3上下文丰富知识图本节描述了如何使用各种KG嵌入技术将ConKG三元组转换为它们各自的ConKG嵌入向量。我们从每个KG算法类中选择了几个候选算法,(1)基于翻译距离的:transE [5],transR [23];(2)基于语义匹配的:RESCAL[36],DistMult [46],HolE [35]和ComplEx [40];以及(3)基于神经网络的:ConvKB [32],由于其受欢迎程度和在多关系图上的全面性能。然后将这些经过训练的ConKG嵌入向量添加到LexLM中,以形成第4节中的ConLM。为方便起见,表2中提供了缩略语列表。3.1知识图谱嵌入我们探索不同的KG嵌入方法将ConKG三元组T的结构表示转换为低维向量空间,同时保留ConKG中定义的语义。这种变换允许将ConKG三元组作为一组ConKG嵌入向量添加到LexLM。在这里,我们描述了如何将ConKG三元组转换为ConKG嵌入向量。假设A是AUI的集合,S是SCUI的集合,G是SG的集合,令E是ConKG实体的集合,E=A<$S<$G。设R是所有ConKG关系的集合,R={rs,r<$,rh}.设T是ConKG三元组的集合,一个三元组t∈T,如果t=(e1,r,e2),r′∈R,e1,e2∈E.设T′是负ConKG三元组的集合损失函数L(T,T′,θ)关于参数θ,或者( a ) 基 于 距 离 ( TransE 、 TransR ) , ( b ) 基 于 相 似 性(RESCAL、HolE、DistMult和ComplEx)或(c)基于神经网络(Con-vKB)的评分函数。(参见[17]关于各种嵌入技术的评分和损失函数的详细信息。实体嵌入。设E是E的嵌入向量的集合,则e E是实体e的嵌入向量。这里我们只使用实体嵌入,因为我们的ConKG只有三个关系,这些关系嵌入对我们的任务不是特别有用。虽然来自TransE、HolE和DistMult的实体或关系的嵌入是维度d = 2 i的单个向量,但ComplEx嵌入需要维度d=i的两个向量(实向量和虚向量)。在这种情况下,我们将每个实体的实向量和虚向量连接成维度d = 2 i的单个向量。对于ComplEx,我们将两个向量嵌入表示为E=Ere,Eim,然后我们将实体e的嵌入向量定义为Ee=EreeEime,eE。每个KG嵌入技术的输出是一组实体嵌入:EConSS、EConSG、EConH R和EConAll,它们将在下一节中用于推导ConKG嵌入3.2ConKG嵌入我们为第2.2节中描述的关于A的每种类型的上下文信息导出ConKG嵌入C,以便我们可以将它们添加到第4节中描述的LexLM的单词嵌入向量中。 对于每种类型的上下文信息,我们通过连接对应于a的ConKG三元组内的ConKG实体的实体嵌入来为每个aA生成ConKG嵌入向量c C,包括用于SCUI的m s a和用于语义组的m<$ms a。当SCUI被映射到一组语义组时,我们得到每个语义组的实体嵌入,并对嵌入向量集进行平均()。 我们重用2.2节中定义的映射函数。 表1显示了每种上下文信息的ConKG嵌入集合。每个KG嵌入技术的输出是所有AUI的一组上下文丰富的嵌入:C ConSS,C ConSG,C ConH R和C ConAll,将在第4节中添加到参考LexLM并在第5节中进行评估。4神经网络架构本节描述了[34]中的LexLM架构,我们将使用它作为参考模型,以及我们将第3节中的上下文丰富嵌入添加到LexLM的方法LexLM LexLM(图3中的灰色框)采用Siamese架构[30],该架构接受一对输入,并基于训练期间定义的显式相似性和相异性信息学习表示。输入(一对原子)进行预处理,并转换为BioWord的数值表示t=(e1′,r,e2′)∈T′,若t ′ g T,且t=(e1,r,e2)∈T ′. 设d=2i从PubMed文本语料库和MeSH预训练的Vec嵌入(iN)是嵌入向量的维数我们选择d为偶数,以便于本节稍后解释的COMPLEX向量的表示。生成嵌入向量。KG嵌入技术使用评分函数fr生成维度为d的实体和关系向量的嵌入:E R ER.此scor-ing函数通过最小化数据[47]。然后,单词嵌入被馈送到长短期记忆(LSTM)层,以随着时间的推移学习原子的语义和语法特征。LexLM完全依赖于原子的词汇特征,即,条款本身。ConLM。 我们开发了ConLM(图3),它向LexLM(在LSTM层)添加了第3节中描述的ConKG的特定变体。 对于每个ConKG变体,我们首先将1041⊕联系我们在UMLS元词库WWW'22中大规模对齐生物医学词汇的上下文丰富学习模型,2022年4月25日至29日图3:通过将ConKG嵌入添加到[34]的基于词汇的学习模型(LexLM)嵌入(灰色框)中创建的上下文丰富学习模型(ConLM)中的神经网络架构。用于ConKG的七种KGE技术 包 括 transE 、 transR 、 DistMult 、 HolE 、 ComplEx 、RESCAL和ConvKB。表3:ConKG变体及其各自的唯一实体E、关系R和正三元组的数量ConKG|E||R||T|ConAll10,716,301314,774,566ConSS10,553,76717,062,582ConHR2,816,99213,520,969ConSG3,653,71114,191,015将各个训练的ConKG嵌入向量映射到50个单元的密集层,以学习表1中的导出特征。然后,我们将密集层的输出与LexLM的LSTM单元的输出连接起来。它们一起形成了上下文化的原子嵌入,然后分别将其馈送到具有128和50个学习单元的后续密集层。输出是曼哈顿距离相似性函数[1],其计算指示原子之间的同义程度的分数,阈值为0.5. 第5.2节描述了用于训练和测试ConLM的数据集。在第5节中,对训练模型进行评估,以评估它们各自的贡献。5评价本节介绍了我们的ConLM 变体的实现和一组实验,以评估ConLM变体对第1节中所述的三个目标的影响。 我们在第5.1节中描述了一组实验,并在第5.2节中展示了用于训练和测试的数据集。 我们在第5.4节中报告并讨论了针对目标的实验结果。 我们在第5.5节中分 析 了结果的 意 义 。 来 自 [34] 的数据集可 在www.example.com上https://bit.ly/uva-datasets。5.1实验装置我们在2.2节中介绍了ConLM变体和4个ConKG变体,用于表示上下文类型。图3显示了ConLM的神经网络架构,其中采用KGE技术生成ConKG嵌入。我们表4:训练和泛化测试的UVA数据集的统计数据,以生物医学术语的阳性/阴性对的数量表示培训DS负积极总TRAIN_ALL(列车)101,322,64716,743,627118,066,274泛化测试DS负积极总GEN_ALL166,410,7105,581,208171,991,918GEN_TOPN_SIM54,752,2285,581,20860,333,436GEN_RAN_SIM54,445,8995,581,20860,027,107GEN_RAN_NOSIM58,256,5265,581,20863,837,734选择7种KGE技术进行评估,包括第3节中描述的TransE、TransR、HolE、ComplEx、DisMult、RESCAL和ConvKB。因此,我们有28个变体的ConLM实现和评估,因为每个KGE技术与四种上下文类型中的每一种配对。对于ConLM的实现我们的管道中有多个步骤:(1)我们从UMLS元词库中提取上下文类型,并生成表示ConKG变体的ConKG数据集,(2)我们使用OpenKE[13]和PyKEEN[2]这两个库中的KGE技术实现,用于从ConKG数据集训练ConKG嵌入,(3)我们使用Keras和Tensorflow实现ConLM的28个变体的训练和测试所有这些实验都部署为批次的并行作业与Slurm 1工作负载管理器的Biowulf高性能计算集群2在美国国立卫生研究院(NIH)。我们使 用 Tesla V100x GPU , 配 备 32GB GPU RAM 和 至 少220GBCPU RAM,用于每个训练和测试任务。 虽然实现是可配置的,并在不同的环境中可重现,这些实验是计算和资源密集型。我们估计,我们使用了2753 GPU小时的一组实验报告中。运行时信息见表5。5.2数据集本节介绍了三种类型实验的数据集。我们使用UMLS元词库的2020AA版本,该版本仅限于来自活动源词汇表的英语术语。UMLS可以通过免费许可证下载3.5.2.1ConKG 变体的训练嵌入数据集 表3显示了为训练每个ConKG变体的KG嵌入而生成的四个数据集的特征。 我们使用一个正负三元组比率1,50,200来生成2.2节中描述的三元组实例。 负三元组是使用“伯尔尼”采样技术[43]自动生成的,以破坏e1或e 2实体。5.2.2用于训练和测试ConLM的数据集 为了将ConLM与LexLM基线进行比较,我们重用了[34]中生成的表4中的训练和测试(泛化)数据集。不同的数据集分裂是基于否定示例之间的词汇相似度前缀“TRAIN_”指的是1https://slurm.schedmd.com/documentation.html2https://hpc.nih.gov/3https://uts.nlm.nih.gov/uts/1042联系我们联系我们联系我们联系我们WWW表5:ConKG变体(ConSS用于源同义,ConSG用于语义组,ConHR用于层次关系,并且ConAll用于所有这些)和KG嵌入技术(transE、transR、DistMult、HolE、ComplEx、RESCAL和ConvKB)的每个组合的训练时间(每100个时期大约小时)。所有人的总培训时间为2753小时transETransRDistMult孔复杂RESCALConvKBKGE ConLM总KGE ConLM总KGE ConLM总KGE ConLM总KGEConLM总KGEConLM总KGEConLM总ConAll3074104606212241851264877125437912260781386887155ConSS1375882778105208410421699018851032768954575120ConHR410210696574580856667258186106272177087ConSG66672117687774817697678188126577227193表6:针对3个目标的ComplEx嵌入技术的结果:(O1)具有最高总体性能增益,(O2)ConAll变体在所有指标上都优于其他3个变体,(O3)对于具有高/低/无词汇相似度的对,在F1中的最高性能增益分别为+4.35%,+1.31%,+0.85GEN_ALLGEN_TOPN_SIM精度精度召回F1精度精度召回F1ConAll评分0.99580.93750.93230.93490.98920.94970.93230.9409Diff0.00200.05000.00690.02880.00850.06560.02130.0435ConSS评分0.99390.90080.91390.90730.98580.93180.91390.9227Diff0.00010.0133-0.01150.00120.00510.04770.00290.0253ConHR评分0.99470.91260.92370.91810.98680.93330.92370.9284Diff0.00090.0251-0.00170.01200.00610.04920.01270.0310ConSG评分0.99460.90700.92830.91750.98690.92990.92830.9291Diff0.00080.01950.00290.01140.00620.04580.01730.0317LexLM评分0.99380.88750.92540.90610.98070.88410.91100.8974GEN_RAN_SIMGEN_RAN_NOSIM精度精度召回F1精度精度召回F1ConAll评分0.99280.98940.93230.96000.99380.99670.93230.9634Diff0.00230.00360.02130.01310.0014-0.00040.01610.0085ConSS评分0.99010.97790.91390.94480.99130.98520.91390.9482Diff-0.0004-0.00790.0029-0.0021-0.0011-0.0119-0.0023-0.0067ConHR评分0.99150.98390.92370.95280.99260.99150.92370.9564Diff0.0010-0.00190.01270.00590.0002-0.00560.00750.0015ConSG评分0.99150.97920.92830.95310.99320.99360.92830.9598Diff0.0010-0.00660.01730.00620.0008-0.00350.01210.0049LexLM评分0.99050.98580.91100.94690.99240.99710.91620.9549“GEN_”指的是泛化数据集。后缀“_ALL”数据集包含以下分割:(a)TOPN_SIM-具有最高词汇相似性水平的阴性对,(b)RAN_SIM-具有低词汇相似性水平的随机阴性对,以及(c)RAN_N 0 SIM-没有词汇相似性的随机阴性对训练和泛化数据集是相互排斥的。 在TRAIN_ALL数据集上训练的LexLM变体在四个泛化测试(GEN_ALL、GEN_TOPN_SIM、GEN_RAN_SIM和GEN_RAN_NOSIM)中表现最好,并在此处用作基线。在实践中,我们使用数据集TRAIN_ALL来训练我们的ConLM的28个变体,并使用四个泛化数据集来测试我们的ConLM(第5.3.2节)。5.3培训5.3.1训练ConKG嵌入的28个变体 我们使用OpenKE [13]和PyKEEN [2]库来实现KG嵌入技术,以独立地为第2.2节中描述的每个ConKG变体训练嵌入。 由于这不是一表7:针对3个目标的TransE嵌入技术的结果:(O 1)使用GEN_ALL的F1中的最佳性能增益为+1.99%,(O2)ConAll变体在除精度之外的所有度量方面都优于其他3个变体,以及(O3)对于具有高/低/无词汇相似GEN_ALLGEN_TOPN_SIM精度精度召回F1精度精度召回F1ConAll评分0.99520.92100.93110.92600.98790.93820.93110.9346Diff0.00140.03350.00570.01990.00720.05410.02010.0372ConSS评分0.99440.91170.91710.91440.98660.93710.91710.9270Diff0.00060.0242-0.00830.00830.00590.05300.00610.0296ConHR评分0.99510.92390.92630.92510.98760.93910.92630.9327Diff0.00130.03640.00090.01900.00690.05500.01530.0353ConSG评分0.99470.90790.93020.91890.98740.93290.93020.9316Diff0.00090.02040.00480.01280.00670.04880.01920.0342LexLM评分0.99380.88750.92540.90610.98070.88410.91100.8974GEN_RAN_SIMGEN_RAN_NOSIM精度精度召回F1精度精度召回F1ConAll评分0.99230.98530.93110.95740.99350.99460.93110.9618Diff0.0018-0.00050.02010.01050.0011-0.00250.01490.0069ConSS评分0.99070.98170.91710.94830.99180.98840.91710.9514Diff0.0002-0.00410.00610.0014-0.0006-0.00870.0009-0.0035ConHR评分0.99200.98730.92630.95580.99310.99480.92630.9593Diff0.00150.00150.01530.00890.0007-0.00230.01010.0044ConSG评分0.99160.97780.93020.95340.99330.99260.93020.9604Diff0.0011-0.00800.01920.00650.0009-0.00450.01400.0055LexLM评分0.99050.98580.91100.94690.99240.99710.91620.9549系统评估,也不是各种KG嵌入技术的性能基准,我们没有尝试为每种技术选择最佳超参数 相反,我们运行了各种超参数选择实验,并获得了一系列超参数,这些超参数可以平衡性能和训练速度,并在所有技术中最大化GPU内存。训练参数。每个ConKG变体用每个KG嵌入技术训练,其中(a)100-1000个时期,(b)取决于KG技术和可用GPU存储器的复杂度的批量大小50、256、1024、2048,(c)学习速率0。01,0。05,(d)损失容限为1.0,(e)正负三重采样比为1、 50、 200,并且(f)嵌入维数为50、100,(g)优化器SGD亚当表5示出了ConKG变体和KG嵌入技术的每个组合的训练时间。5.3.2训练和测试28个ConLM变体。 我们训练了28个ConLM变体(通过将四种上下文类型中的每一种与七种KGE技术中的每一种相结合),使用从第5.3.1节中提供的训练中获得的ConKG嵌入的28个变体。1043在UMLS元词库WWW'22中大规模对齐生物医学词汇的上下文丰富学习模型,2022年4月25日至29日表8:针对3个目标的DisMult嵌入技术的结果:(O 1)使用GEN_ALL的F1中的最佳性能增益为+1.62%,(O2)ConAll变体在除精度之外的所有度量中优于其他3个变体,以及(O3)对于具有高/低/无词汇相似度的对,F1的最高性能增益为+3.62%,+0.87%,+0.67%GEN_ALLGEN_TOPN_SIM精度精度召回F1精度精度召回F1ConAll评分0.99490.91290.93190.92230.98770.93530.93190.9336Diff0.00110.02540.00650.01620.00700.05120.02090.0362ConSS评分0.99480.91770.92180.91970.98720.93890.92180.9302Diff0.00100.0302-0.00360.01360.00650.05480.01080.0328ConHR评分0.99450.91040.92250.91640.98660.93240.92250.9274Diff0.00070.0229-0.00290.01030.00590.04830.01150.0300ConSG评分0.99470.90840.93000.91910.98740.93310.93000.9316Diff0.00090.02090.00460.01300.00670.04900
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功