利用知识图中的谓词信息识别疾病轨迹Vlietstra,W.J. 1, 沃斯河一,二, van Mulligen,E.M.1,Kors,J.A.11荷兰鹿特丹伊拉斯谟医学中心医学信息学系2马斯特里赫特大学方法统计系,马斯特里赫特,6229 HA,荷兰w.vlietstra@ erasmusmc.nl介绍知识图可以将生物医学文献和数据库的内容表示为主语-谓语-宾语三元组,其中谓语描述生物医学实体对之间的关系。例如,Reactome数据库包含三元组“GTF 2H2-controls the expression of-MDC 1”,而通过文本挖掘获 得 其 三 元 组 的 SemMedDB 包 含 三 元 组 “IL 1B-stimulates-MCP 1”。通过将来自不同来源的三元组彼此集成在知识图中,可以计算地分析生物医学知识的综合体。对知识图执行的分析通常旨在识别新的关系,例如,药物和疾病之间然而,从大规模观察性研究中我们知道,患者的多种疾病通常在特定的时间序列中被诊断因此,使用知识图来识别疾病轨迹需要识别正确的疾病对及其正确的时间序列。由于蛋白质网络与代谢、信号传导、免疫和基因调控网络有关,因此它们经常被用来从机制上解释疾病之间的关系。所谓的疾病蛋白,即由与疾病相关的基因编码的蛋白质,可以用于在蛋白质水平上代表疾病。然而,直到现在,蛋白质之间的谓词很少使用,即使它们通过描述(疾病)蛋白质之间的关系,可以提供关于一种疾病导致另一种疾病的机制的额外信息。因此,我们的目标是利用知识图中(疾病)蛋白质之间路径的谓词信息来确定两种疾病的序列是否形成轨迹。版权归作者所有。以.马丁,K. Hinkelmann,A. 戈伯,D. Lenat,F.van Harmelen,P.Clark(Eds.),AAAI 2019春季研讨会将机器学习与知识相方法Jensen等人描述的颞部疾病轨迹用作参考集(Jensen2014)。他们分析了丹麦人口620万份电子病历中的诊断,这些病历在14.9年间被分配,以确定常见疾病的轨迹。从这些轨迹中,我们只使用了描述两种疾病序列的轨迹通过在参考集中创建疾病的随机对,以及参考集中轨迹的反向(不正确)时间序列,构建非轨迹的互补负集。蛋白质与疾病之间的关联来自DisGeNet的人工亚组(Piñero 2017)。从知识图谱中提取了疾病对的疾病蛋白之间的路径的三个场景:1)重叠,其中两种疾病A和B共享相同的疾病蛋白。任选地,该疾病蛋白与其自身具有关系,例如,如果它能同二聚化。2)直接路径,其中存在三重体,其中疾病A的疾病蛋白之一和疾病B的疾病蛋白之一形成主体和客体。3)间接途径,其中一个中间蛋白连接疾病A和疾病B的疾病蛋白,需要两个三联体的序列。基于这些路径中的谓词,构造了六个特征我们比较了两种方法来表示疾病蛋白之间的间接关系。第一种方法构造所谓的元路径(Himmelstein 2017),其中间接路径中的谓词序列被用作单个特征。第二种方法将间接路径中的每个工程(AAAI-MAKE 2019)。斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。表1当使用平衡训练集训练时,六个特征集的分类结果。AUC列中的值表示10倍交叉验证实验的10次重复的平均ROC曲线下面积值及其标准偏差。元路径分离路径数量的特征AUC数量的特征AUC无向121781.3%(1.4%)16876.0%(1.5%)混合282387.9%(0.9%)25784.0%(1.1%)引导377388.1%(0.9%)27781.7%(1.5%)对于这两种方法,我们用谓词的方向信息的三种变化进行了实验。当相同的蛋白质既是三元组的主体又是三元组的客体时,从未使用方向信息(重叠部分)。1)非定向:使用形成疾病蛋白质之间的直接和间接路径的三元组,而不需要关于哪些蛋白质是主体和客体的信息。2)定向:在疾病蛋白质之间的每个直接和间接路径中,每个三联体都具有由其主体和客体指示的方向。3)混合:直接和间接路径中的每个谓词结果我们的参考集包含2,530个轨迹和168,870个非轨迹。我们使用随机森林来训练分类模型。交叉验证的性能见性能使用先验知识将预测分类为有向或无向,提高了分割路径特征集的性能,但对元路径特征集没有影响。元路径比分割路径产生更多的功能,并始终实现卓越的性能。作为未来的工作,我们打算进行详细的错误分析,我们将调查是否有特定的疾病,其轨迹经常被错误分类。国际疾病分类(ICD)层次结构可用于将疾病抽象到更高的ICD级别,从而深入了解疾病类别级别的错误分类。提取轨迹中的疾病还允许检查ICD类更经常被错误分类。引用Himmelstein,D.S.,Lizee,A.,Hessler,C.,布鲁格曼湖,Chen,S.L.,Hadley,D.,Green,A.,Khankhanian,P.,Baranzini,S.E. 2017.生物医学知识的系统整合药物再利用IneLIFE,6:1-35在eLIFE中,6:1-35表1,以及特性集中的特性数量詹森,A. B.,Moseley,P.L.,奥普雷亚,T. I.,Ellesøe,S.G.,埃里克森,德莱与不使用此信息相比,使用谓词的方向信息大大提高了性能。然而,如果仅使用无向信息,疾病轨迹仍然可以以合理的性能被识别。元路径特征集由比分裂路径特征集多7到14倍的特征组成混合和定向元路径特征之间的性能差异可以忽略不计。如果考虑到有向或无向谓词的先验知识,则分裂特征的性能增加。讨论我们的工作表明,疾病轨迹可以使用来自蛋白质知识图的谓词信息来识别我们基于机器学习的分类器能够识别正确的疾病对以及它们正确的时间序列。虽然在我们的分析中使用三元组的方向信息提高了性能,但即使不使用方向信息,我们的分类器也可以识别具有合理方向R. , Schmock , H. , 詹 森 ,P.B. , 詹 森 , L.J. , Brunak ,S.2014年。从覆盖620万患者的人群范围登记数据中浓缩的临时疾病轨迹《自然通讯》,5:4022Piñero , J. , 好 极 了 , Queralt-Rosinach , N. , Gutiérrez-Sacristán,A.,Deu-Pons,J.,Centeno,E.,García-García,J.,Sanz,F.,弗隆,L.I. 2017年。DisGeNET:一个整合人类疾病相关基因和变异信息的综合平台核酸研究,45:833-839Vlietstra,W.J.,沃斯河Sijbers,上午,van Mulligen,E.M.,科尔斯,J.A. 2018.使用来自知识图的谓词和出处信息进行药物功效筛选。生物医学语义学杂志,9:23