没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能1(2021)100019研究文章AutoGGN:用于多组学研究的基因图网络AutoML工具张磊a,#,沈文a,#,李平b,#,徐驰a,刘登辉a,何文军a,徐智梦a,王德勇a,张晨毅b,姜华良c,郑明月c,乔楠a,张晓华为健康智能实验室图引擎服务,华为技术有限公司公司c中国科学院上海药物研究所药物研究国家重点实验室药物发现与设计中心aRT i cL e i nf o保留字:多组学数据分子相互作用网络图卷积网络深度学习单细胞分期分类癌症类型分类癌症亚型a b sTR a cT组学数据可用于确定生物生命周期中从遗传到表型水平的生物特征,而分子相互作用网络对生命活动具有根本性影响。整合组学数据和分子相互作用网络将有助于研究人员深入研究隐藏在数据中的全面信息。在这里,我们提出了一种新的多模态方法- AutoGGN -将多组学数据与基于图卷积神经网络(GCN)的分子相互作用网络集成在一起。我们使用三种分类任务评估了Au- toGGN:单细胞胚胎发育阶段分类、泛癌类型分类和乳腺癌亚型。在所有三个任务中,AutoGGN都表现出比其他方法更好的性能。这意味着AutoGGN有可能通过将分子相互作用网络与多组学数据集成来更有效地提取见解。此外,为了更好地理解我们的模型是如何进行预测的,我们利用SHAP模块并确定了有助于分类的关键基因,为下游生物实验的设计提供了见解介绍近年来,高通量生物医学研究方法,如全基因组测序(WGS)、RNA测序(RNA-seq)、高通量染色体构象捕获(Hi-C)和液相色谱-质谱联用(LC-MS),已广泛应用于生物研究、药物开发和精准医学[1,2]。通过整合从组学分析生成的多组学数据(特别是全面的基因组学和转录组学数据),研究机构、医院和公司[3]已经能够促进个性化药物设计和精确用药的研究和创新。 例如,多组学数据在挖掘潜在药物靶点和识别癌症相关基因方面特别有用[4],使其与制药公司的研发(R D)过程[5]不可分割。已有整合基因突变和表达谱以识别乳腺癌分子亚型的实例,这有可能提供个性化治疗并改善患者护理[6]。总体而言,多组学特征的整合有助于研究者全面了解生命发育,更深入地了解疾病的发病机制、发展过程和分子机制。∗ 通讯作者。电子邮件地址:qiaonan3@huawei.com(N. 乔)。# 这些作者贡献相当https://doi.org/10.1016/j.ailsci.2021.100019深度神经网络(DNN)在挖掘复杂、异构的生物数据方面表现出了强大的能力[7]。例如,前馈全连接神经网络(FFNN)和随机连接残差全连接神经网络(RRFCN)已被证明在组学数据分析中是有效的[8这些算法可以通过深度架构从组学数据中检测复杂的特征,因此非常适合于不同的生物学领域[9,10]。不同组学水平之间的所有类型的相互作用形成了一个巨大的网络,并在各种过程中共同发挥作用。例如,基因网络调节蛋白酶的合成,蛋白酶进一步催化代谢反应,如脂质降解[11]。最近,基于图的深度学习(GDL)为分析生物网络数据提供了新的见解。GDL的主要思想是消息传递,它通过聚集来自本地节点邻域的信息来更新节点表示。GDL在分析生物网络方面表现出强大的性能。然而,生物网络与多组学数据的整合研究有限。 在本文中,我们提出了AutoGGN,一个整合分子相互作用网络和组学数据的多模态方法。GCN是AutoGGN的核心。它们旨在通过分子间的信息传递和聚合来探索组学数据更大的交互网络。具体来说,我们证明了AutoGGN通过三项任务:单细胞胚胎发育阶段分类,癌症类型分类和乳腺癌亚群分类。接收日期:2021年10月2日;接收日期:2021年11月19日;接受日期:2021年11月19日2021年11月22日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciL. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000192Fig. 1. AutoGGN的模型结构和下游应用。(A)AutoGGN的详细架构。输入数据包括组学数据和分子相互作用网络。GCN模块使用分子相互作用网络连同组学特征(用作节点特征)作为输入,并输出集成的组学特征和网络信息的融合矩阵。CNN模块直接卷积嵌入的组学特征。然后将两个模块计算的结果连接起来。(B)AutoGGN的潜在下游应用。在研究人员从实验样本中获得包括基因组、转录组和蛋白质组学数据在内的多组学数据后,他们可以使用AutoGGN将组学数据与分子相互作用网络有效地整合在一起。该模型可应用于癌症患者分层、患者生存预测、生物标志物识别、药物敏感性等更多任务。类型分类。AutoGGN为组学数据与分子相互作用网络的整合提供了新的见解,并可应用于一系列下游任务,具有更好的性能。结果基于GCN的分子相互作用网络与组学数据DNN已经显示出它们在分析组学数据方面的能力,在某些类型的任务中具有良好的性能[9,10],但它们仅限于处理生物网络数据。AutoGGN充分利用GCN,将分子相互作用网络与组学数据有效整合(图1)。①的人。AutoGGN的输入涉及多组学数据以及不同组学数据类型内部和之间 两个独立的模块被设置为有效地从数据中提取信息(图1)。 1A)。一个是GCN模块,它将分子相互作用网络与组学特征(用作节点特征)一起作为输入,以探索组学数据的相互关系。该步骤产生集成的组学特征和网络信息的融合矩阵随后,使用具有1 × 1滤波器的2D卷积层来进一步聚合来自同一层的组学特征。另一个模块是卷积神经网络(CNN),它将嵌入的组学特征与1 × 1滤波器进行卷积,目的是从多组学数据中提取直接特征。然后将两个模块获得的结果连接起来。根据下游任务的目的,不同的层(如门控、注意力、丢弃和线性)可以堆叠到级联层。AutoGGN提供了一种创新的方法,将分子相互作用网络的信息与多组学数据整合在一起。它也可以应用于各种生物医学问题(图。 1 B),包括患者分层、生存预测、生物标志物鉴定和药物敏感性预测。AutoGGN在三个分类任务上的评估我们在三个分类任务(补充表1和补充表2)上评估了AutoGGN,并将其性能与四种基线方法进行了比较:XGBoost[21],多层感知器(MLP),AutoGenome[9]和AutoOmics[10]。• XGBoost是一种基于梯度提升的可扩展集成方法[21]。它被广泛应用于许多机器学习问题。• MLP是最基本的DNN类型。它由几个神经元和一个非线性激活函数组成[12]。• AutoGenome提出了残差全连接神经网络(RFCN)架构,该架构将全连接单元引入残差网络以处理基因组分析数据[9]。• AutoOmics是一个可解释的基于RFCN的多组学数据集成框架[9,10]。案例1 -在大多数动物中,原肠胚形成是一个重要的发育过程,在此之后,胚胎将开始分化以产生成年生物体[13]。自动发育阶段分类可以提高对受精后不同时间点复杂事件和机制的洞察力,并推动体外受精的进步。用于评估我们模型的单细胞数据集由来自小鼠胚胎的10,000个样本的单细胞RNA-seq(scRNA-seq)图谱组成,涵盖10个发育阶段(E6.5,E6.75,E7.0,E7.25,E7.5,E7.75,E8.0,E8.25,E8.5和混合原肠胚形成)。PPI网络L. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000193图二. 三个分类任务的实验结果。(A)AutoGGN与MLP,XGBoost和AutoGenome用于单细胞胚胎发育阶段分类的准确性比较。绘制了五重交叉验证的平均准确度和测试准确度。(B)单细胞胚胎发育阶段分类任务的混淆矩阵。y轴表示真实标签,x轴表示预测标签。每个框X中的值通过样本编号进行归一化,表示具有准确预测类别的样本的分数。深紫色表示精度较高,浅紫色表示精度较低。(C)AutoOmics和AutoGGN使用基因表达和基因突变数据进行泛癌症分类的准确性比较。表达:基因表达数据;突变:基因突变数据。(D)用于泛癌症分类的混淆矩阵。(E)AutoOmics和AutoGGN使用基因表达和蛋白表达数据进行乳腺癌亚型分类的准确性比较。基因:基因表达数据;蛋白:蛋白表达数据。(F)乳腺癌亚型分类的混淆矩阵基于scRNA-seq数据的5129个基因特征从STRING[17]中提取。该网络共有5129个节点和20,691条链路。对于模型训练和评估,我们随机留出10%的数据作为独立的测试集,并对剩余数据进行网格搜索和5倍交叉验证,以搜索最佳模型。5倍交叉验证重复5次。 然后我们在测试集上评估所选模型。同样的培训和评估过程也应用于其他模型进行比较。AutoGGN和其他方法(MLP,XGBoost和AutoGenome)的分类性能如图所示。 2 A(补充─表3)。混淆矩阵展示了AutoGGN在测试集上的每阶段分类性能(图2B)。AutoGGN实现了最佳性能,所有分割的评估集的平均交叉验证准确率 为95.9 ± 0.3%,测 试集为 96.4% ,在 独立测试 集上分别 优于XGBoost[14] 和 MLP[12] 特 别 值 得 注 意 的 是 , 我 们 的 方 法 比AutoGenome[9](95.9%)实现了更高的准确性,AutoGenome [9]是一种基于RFCN的方法,设计用于基因组特征建模。这表明将分子相互作用网络与基因表达数据相结合使我们能够探索L. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000194更多的生物信息,并可以显着有利于下游任务。病例2精确的癌症类型预测对于癌症诊断和治疗至关重要[15]。近年来,机器学习方法在癌症预后和预测方面取得了巨大成功。开源癌症数据库,如癌症基因组图谱(TCGA)和基因EX压力综合(GEO),进一步为研究人员和临床医生提供了大规模的多组学数据进行分析[16]。例如,MostaviM.等人将基于CNN的模型应用于泛癌症RNA-Seq数据,并实现了准确的癌症类型预测[17]。拉米雷斯河等人构建了GCN,使用基因表达谱预测癌症类型或正常组织[18]。李耀等人利用机器学习算法来分析基因表达数据[19]。然而,这些研究仅使用单一的组学数据作为输入,因此,提取的信息可能是有限的。为了评估AutoGGN处理多组学数据的能力,我们收集了具有TCGA[20]数据库中可用的基因表达和基因突变数据的患者样本。数据属于5780名患者,涵盖24种癌症类型(补充表1)。我们获得了基因表达和基因突变数据之间重叠的基因特征,并使用它们来提取蛋白质-蛋白质相互作用(PPI)网络。网络输入由5769个节点和130,056条边组成。随后,我们按照案例1中描述的相同步骤训练和评估模型。AutoGGN和AutoOmics的分类性能如图2C所示(补充表4)。总体而言,通过将基因表达数据和突变数据与PPI网络整合,AutoGGN在所有分割的评估集上实现了98.0 ± 0.2%的平均交叉验证准确度,在测试集上实现了98.4%的平均交叉验证准确度。它在测试集上的表现比Au- toOmics(也使用两种类型的组学数据作为输入)高出1.2%。这表明AutoGGN在整合多组学数据与生物相互作用网络方面具有巨大的潜力。病例3癌症是一个非常复杂的疾病组,其中遗传异质性不仅存在于癌症类型之间,而且存在于癌症类型之内[21]。这可能导致患者对药物或免疫治疗的反应存在很大差异,即使是在处理相同类型的癌症时[9]。因此,accu- 癌症分型率对于提供个性化治疗和更好的患者护理是必要的。我们使用两种类型的组学数据评估了AutoGGN对乳腺癌亚型的影响:基因表达谱和蛋白质表达谱。我们从TCGA收集了乳腺癌患者样本,并重点关注四种亚型:管腔A型、管腔B型、三阴性和根据PAM50-profiling-test富集的HER 2。该数据集由396名患者组成,网络输入包含14,912个节点和3948,022条边。图3E(补充表5)显示了AutoGGN和AutoOmics在乳腺癌亚型中的分类性能。通过整合多组学数据与分子相互作用网络,AutoGGN在测试集上实现了86.3%的准确率,比AutoOmics高出5.0%。这再次突出了AutoGGN将总之,AutoGGN在前面的任务中优于其他模型。我们还在后两个任务中仅使用基因表达数据和相互作用网络数据评估了我们的模型,发现准确度低于我们使用多组学数据时的准确度(补充图1和补充表6)。模型性能取决于模型能够有效利用和分析生物数据的程度。这证明AutoGGN可以通过整合多组学特征和分子相互作用网络从生物数据中提取更多信息。使用SHAP许多研究人员认为,神经网络是“黑箱”22-24,这导致尽管它们的性能很高,但模型的可解释性很解释和理解模型预测与改进模型性能的努力同样重要[22]。为了帮助解释深度学习模型,我们在AutoGGN中引入了SHapley Additive exPlanations(SHAP)[23]模块给定一个深度学习模型,SHAP将计算每个特征对整体预测的边际贡献。这被称为SHAP值,用于可视化每个基因对预测类的特征重要性对于单细胞胚胎发育阶段分类任务,我们基于SHAP值提取了一系列用于发育阶段分类的重要基因(图3A,图3B)。我们进行一个广泛的文献综述,发现大多数基因在顶部的基因列表(由SHAP值排名)是胚胎发育过程中的关键因素。例如,由Tdgf1(列表中排名最高的基因)编码的蛋白质是一种细胞外的膜结合信号蛋白,在胚胎发育和肿瘤生长中发挥重要作用[24]。排名第二的基因-Pou 5 f1-编码含有POU同源结构域的转录因子,其在胚胎发育和干细胞多能性中至关重要[25]。另一个例子是排名第4的基因-Fgf 5,其编码具有广泛的线粒体和细胞存活活性的蛋白质,并且还参与胚胎发育[26]。从SHAP值分布,我们还可以研究在什么人-ner基因对每个发育阶段都有贡献。例如,Pou5f1、Fgf5、Fgf8和Tdgf1,发育阶段E8.5中排名最高的基因(图3B),对于阳性SHAP值以蓝色标记。这意味着这些基因的低表达水平可以增加E8.5类的概率。相反,高表达水平可以增加早期E6.75的概率(图3B)。E.X.研究报告表明,这些基因可以调节早期胚胎发育[24它们可能在胚胎发育的早期阶段表达和调节活性,如E6.75,然后在后期阶段表现出低表达水平讨论在本文中,我们提出了一种创新的多模式方法- Au- toGGN -将多组学特征与分子相互作用网络相结合。在AutoGGN中,设计了两个独立的模块GCN和CNN,用于从分子相互作用网络中提取信息,并从组学数据中发现隐藏模式。然后,将两个模块生成的特征图进行集成,以用于下游应用。这种架构确保了来自分子相互作用网络和组学数据的信息可以被获得并组合以供进一步使用。三个分类任务证明了AutoGGN的鲁棒性。在moude单细胞胚胎发育阶段分类任务中,我们使用基因表达谱和PPI网络作为模型输入,准确率达到96.4%,优于仅使用单组学数据作为输入的其他方法。我们还证明了AutoGGN在整合多组学数据与分子相互作用网络以进行泛癌症分类和乳腺癌亚型分型方面的巨大潜力。更重要的是,我们发现在这两项任务中,使用多组学数据作为输入比使用单一组学数据可以实现更好的性能。 这些任务表明,AutoGGN可以有效和彻底地整合来自不同层次的组学特征的信息。为了应对神经网络的黑盒挑战,我们使用SHAP来解释和可视化每个基因的特征重要性,预测类例如,在单细胞发育阶段分类任务中,我们发现大多数分类任务的重要基因与胚胎发育密切相关。可解释的结果可以帮助研究人员和其他类型的用户打赌-了解深度学习模型,并深入了解组学数据背后的分子机制。L. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000195图三. EX基于SHAP模块的单细胞胚胎发育阶段分类的明显结果。(A)前20个基因按10个单细胞胚胎发育阶段的特征重要性值排序。基因对每个阶段的贡献用不同的颜色标记。X轴表示绝对SHAP值的平均值。(B)在E8.5和E6.75阶段,前20个基因表达的贡献按SHAP值排序。它表明了基因表达在细胞发育的不同阶段是如何影响单细胞发育的。红色表示高基因表达将增加预测类的概率,而蓝色表示低基因表达将增加预测类的概率为了使机器学习专业知识有限的研究人员能够更有效地训练高质量的模型,我们将Auto-GGN开发成一个自动化机器学习(AutoML)工具。我们还造 我们的工具中基于SHAP的解释器,以确保研究人员可以使用AutoGGN获得准确的结果以及清晰的解释。模型训练、评估、预测和解释都可以只用五行代码完成。除了上述分类任务外,AutoGGN还可以应用于广泛的生物医学任务。例如,AutoGGN可以与COX比例风险模型[28]集成,以预测患者的预期寿命准确的估计将有助于医生制定更合适的治疗计划,并提供更好的患者护理[29]。研究人员发现,一些生物标志物的表达在组织特异性和年龄特异性方面存在显著差异[30]。AutoGGN可以通过利用来自不同年龄供体不同组织的组学数据和分子相互作用网络来解决这一挑战,以找到有助于组织和年龄预测的最重要基因其他应用可能包括生物标志物鉴定和药物敏感性预测。今后将继续开展工作,扩大AutoGGN的应用范围方法数据集在这项研究中,我们进行了三个分类任务来评估Au- toGGN。每个任务利用两种类型的数据,单/多组学数据和分子相互作用网络数据。实验中使用的所有数据集都是公开的,随后在本文中进行了描述。按每个数据集类别划分的样本分布见附录表1。小 鼠 单 细 胞 转 录 组 数 据 集 : 原 始 数 据 集[https://github.com/MarioniLab/EmbryoTimecourse2018] 由 来 自 小 鼠胚胎的116,312个单细胞的单细胞RNAseq(scRNA-seq)谱组成,涵盖10 个发 育阶段 (E6.5 , E6.75 , E7.0 , E7.25 , E7.5 ,E7.75 ,E8.0,E8.25,E8.5和混合原肠胚形成),在受精后的9个连续时间点收集。我们从10个阶段中随机选择了1000个单细胞样本,最终数据集包含了总共10,000个单细胞的相应scRNA-seq特征。泛癌症数据集:我们从TCGA下载了所有具有基因表达和体细胞突变特征的泛癌症患者样本。取出患有一种以上癌症的患者样本。最终数据集由5780个样本组成,涵盖24种癌症类型,他们的基因表达和体细胞突变特征被用于这项任务。乳腺癌亚型数据集:我们从TCGA获得了乳腺癌患者的基因表达和蛋白表达谱。患者的基于PAM 50的亚型从已发表的论文中下载[31]。蛋白质-蛋白质相互作用网络:人(智人)和小鼠(小鼠)的蛋白质-蛋白质相互作用(PPI)网络数据来自STRING[32]数据库,该数据库收集了已知和预测的PPI。前两项任务排除了组合得分低于0.98的交互。在乳腺癌亚型分型任务中,由于蛋白质表达数据的大小有限,我们排除了组合评分低于0.1的相互作用,以保留尽可能多的节点特征。数据预处理我们将数据预处理步骤应用于组学数据和PPI网络数据。每个任务的详细预处理过程如下:病例1 -单细胞胚胎发育阶段分类。原始数据集已经用质量控制、计数标准化、高度可变的基因选择和批次校正进行了预处理。我们选择了原始数据集的随机子集,其中包含覆盖10个胚胎发育阶段的10,000个单细胞的scRNA-seq特征(每个阶段由1000个样本组成)。我们进一步在数据集上应用0-1缩放。然后,根据基因特征提取相应的小鼠PPI网络。总共收集了18,379个基因和167,188个蛋白质-蛋白质相互作用用于分析。病例2-癌症类型分类。 我们获得了5780例具有mRNA-seq数据和体细胞突变特征的患者样本,涵盖24种癌症类型,排除了具有一种以上癌症类型的患者。对于RNA-seq数据,将每百万转录物(TPM)进行log 2转换并用作基因表达值。对于体细胞突变数据,特征具有两种类型的值:0和1,分别表示未突变和突变的基因。删除缺失表达或体细胞突变数据的特征之后,我们根据剩余的基因特征提取了人类PPI网络的子集总共收集了5769个基因特征和260,104个相互作用用于分析。病例3 -乳腺癌亚型。该数据集包含396例患者,具有重叠的特征数据和亚型数据。对基因表达值进行log 2转换,并对蛋白表达进行分析。L. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000196数据最初是通过抗体的中值中心校正的。未应用进一步的预处理步骤。由于蛋白质特征的大小有限,我们保留了两种组学数据的所有特征。缺失基因表达或蛋白质表达数据的特征的值被设置为0。基于组学数据的特征提取了由14,912个节点和3948,022条边组成的PPI网络模型训练和评估对于所有任务,我们留出10%的数据集进行测试,并对其余数据应用5倍交叉验证。对于这五个折叠中的每一个,我们使用训练集构建了AutoGGN 以 及 基 线 模 型 ( MLP , XGBoost , AutoGenome 和AutoOmics),并预测了评估集的标签。这种分割数据集的方法有助于我们评估模型的鲁棒性。将五重交叉验证重复5次以避免意外错误,并报告其分类准确度准确度的平均值和标准差。为了找到不同模型的最佳超参数,我们执行网格搜索。不同型号的搜索空间如下所示:AutoGGN搜索空间。1)GCN层数,搜索值[1,2,3,4]。2)嵌入维数,搜索值[4,8、16、32、64]。3)嵌入通道,搜索值[4,8,16,32,64];Autoomics和AutoGenome。1)ResNet块的数量,搜索值[1,2,3,4,5,6]。(2)每个神经元的数量层,搜索值[8,16,32,64,128,256,512,1024,2048]。3)第一层与输入层相比的丢失率,搜索值[0.6,0.8,1.0]。MLP。1)隐藏层数,搜索值[1,2,3,4]。2)每层神经元的数量,搜索值[128,256,512,1024,2048]。3)激活函数,搜索值[XGBoost。1)树的最大深度,搜索值[3,4,5,6]。2)子级中所需的实例权重的最小总和,搜索值[1,3,5]。在五重分割训练集上具有最高平均准确度的超参数设置是最好的超参数。然后在独立测试集上对网格搜索得到的最佳模型进行了评价。特征重要性估计我们使用SHAP包[23]进行特征重要性估计并解释模型的工作原理。SHAP支持Gradient-EX planer(预期梯度的实现),它可以为AutoGGN评估SHAP值。识别出的最佳AutoGGN模型和训练集用作SHAP模块的输入。在获得每个样本的每个特征的SHAP值之后,我们将每个类别内的所有SHAP值相加,并获得每个类别的特征重要性得分。这就是我们如何识别分类的重要特征。AutoGGN AutoML工具AutoGGN构建在Tensor TensorFlow[33]上,并作为Python包实现,AutoGGN的使用包括六个主要模块。1)包加载器模块。AutoGGN可以作为python包导入2)数据加载器模块:训练、评估和测试数据集的路径可以在JSON配置文件中指定此外,线程数量和容量可以在加载数据时设置。3)模型训练器模块:在该模块中,用户可以指定训练参数,如通道数量,批量大小,GPU数量,学习率范围,激活函数等。同时给出了主要参数的搜索空间4)模型评估模块:详细评估在指定的路径中输出报告,包括分类报告和混淆矩阵。5)模型预测模块:使用最佳模型在独立测试数据集上进行预测。该模块输出样本的预测类别和softmax值6)EX planation模块:为了解释分类的原因,基于SHAP报告了对每个类别贡献更大的重要特征[23]。数据可用性我们研究中使用的所有数据集都是公共数据。 泛癌症分类和乳腺癌亚型分类任务中使用的组学数据来自TCGA。用于单细胞分类数据的数据来 自 登 记 : Atlas : E-MTAB-6967 , 并 按 照 https://github.com/MarioniLab/EmbryoTimecourse 2018的说明下载处理后的数据。软件可用性该软件可从网站http://autoggn上查阅。com.cn,其中包含软件介绍、安装方法和教程。对于实验,协议也将作为笔记本示例在网站上提供。作者贡献N.Q.设计并构思了该项目。L. Z.,W. S.,和PL。在N.Q.C. X.,D.L,W.H.,Z.X.,D.W.,M.Z. 和H.J.讨论并提出了一些想法。L. Z.,W. S.,和PL。报纸写道。N.Q.修改了手稿。所有作者都阅读并批准了最终手稿。竞争利益作者声明没有竞争利益。补充材料与 本 文 有 关 的 补 充 材 料 可 在 在 线 版 本 中 找 到 , 网 址 : doi :j.ailsci.2021.100019。引用[1] Fuentes-Pardo AP,Ruzzante DE.保护生物学的全基因组测序方法:优势、局限性和实用建议。Mol Ecol 2017;26:5369-406.[2] 作 者 : Chen R , Snyder M. 个 性 化 组 学 对 精 准 医 疗 的 承 诺 。 WIREs Syst BiolMed2013;5:73-82.[3] 杨文,王军. 患者特异性多组学模型及其在个性化联合治疗中的应用。FutureOncol 2020;16:1737[4] Subramanian KAI,Verma S,Kumar S,Jere A.多组学数据整合、解释及其应用。14.第十四届中国科学院院士[5] PT。制药研发中的大数据:创建可持续的研发引擎。Pharm Med 2015;29:87[6] Prat A,et al.乳腺癌内在分子亚型的临床意义。乳房2015;24:S26-35。[7] Xu SA,Jackson.机器学习和复杂的生物数据。20.第20章大结局[8] Mahmud M,Kaiser MS,Hussain A,Vassanelli S. 深度学习和强化学习在生物数据中的应用。IEEE跨神经网络学习系统2018;29:2063-79。[9] Liu D,et al. AutoGenome:An AutoML Tool for Genomic Research. bioRX iv 2019.doi:10.1101/842526。[10] Xu,C. AutoOmics:An AutoML Tool for Multi-Omics Research. bioRX iv(2020)doi:10.1101/2020.04.02.021345。[11] Schulze H,Kolter T,Sandho W.K.溶酶体膜降解原理:溶酶体脂质降解的细胞拓扑学和生物化学。Biochim Biophys Acta BBA-Mol Cell Res 2009;1793:674[12] Jin,H.,宋角,澳-地&Hu,X. Auto-Keras:一个高效的神经架构搜索系统。(2019年)。[13] 彭刚,索S,崔刚,于芳,荆南。小鼠早期胚胎谱系分布和组织结构的分子构筑Nature 2019;572:1L. Zhang,W. Shen,P. Li etal.生命科学中的人工智能1(2021)1000197[14] 陈T,Guestrin C. XGBoost:一个可扩展的树提升系统。第22届ACM SIGKDD知识发 现 和 数 据 挖 掘 国 际 会 议 论 文 集 。 ACM; 2016. 第 785- 794 页 。 doi :10.1145/2939672.2939785。[15] Lee K,Jeong HO,Lee S,Jeong WKCPEM.使用随机森林和深度神经网络的集合,基于体细胞改变进行准确的癌症类型分类。Sci Rep2019;9:16927.[16] 朱伟,谢玲,韩军,郭晓.深度学习在癌症预后预测中的应用癌症2020;12:603.[17] Mostavi,M.,赵耀春,Huang,Y.黄氏Y. &Chen,Y.基于基因表达的癌症类型预测的卷积神经网络模型(2019年)。[18] Ramirez R,Chiu YC,Hererra A,Mostavi M,Jin YF.使用图卷积神经网络对癌症类型进行分类。前体2020;8:203。[19] Li Y等人,使用癌症基因组图谱基因表达数据的综合基因组泛癌症分类。BMCGenomics 2017.[20] 放大图 片作者:Tomczak K, Czerwioska P, Wiznerowicz M.癌症基 因组图谱(TCGA):不可估量的知识来源。Contemp Oncol2015;19:A68-77.[21] Zhao L,Lee VHF,Ng MK,Yan H,Bijlsma MF.癌症的分子分型:现状和走向临床应用。Bioinform 2021简介[22] Coley CW,et al.,A graph-convolutional neural network model for the predictionof chemical reactivity.化学科学2019;10:370-7.[23] Lundberg SM,Lee S-I,et al.Guyon I,et al. A Unified Approach to InterpretingModel Predictions.神经信息处理系统的进展30 2017:4765-74。[24] Strizzi L,et al. Postovit LM,Margaryan NV. nodal和Cripto-1的新兴作用:从胚胎发生到乳腺癌进展乳腺疾病2008;29:91[25] 坦廷·D在发育和干细胞中的Oct转录因子:见解和机制。Development 2013;140:2857[26] Allerstorfer S,et al. FGF5作为人类多形性胶质母细胞瘤的致癌因子:自分泌和旁分泌活动。Oncogene2008;27:4180-90.[27] Abu-Issa R,Smyth G,Smoak I,Yamamura K,Meyers EN. Fgf8是小鼠咽弓和心血管发育所必需的。发展2002;129:4613-25.[28] 蔡杰,曾丹. COX比例风险模型。威利统计参考:在线统计参考。美国癌症协会; 2014年。doi:101002/9781118445112stat06880。[29] [10]杨文,李文. 通过使用机器学习技术提高癌症患者生存率的预测:基因表达数据的EX- peence:一个叙述性评论。 伊朗J公共卫生2017;46.[30] Hudgins AD等人,小鼠衰老生物标志物的年龄和组织特异性表达。2018年9月59日,《前线基因》[31] 人类乳腺肿瘤的全面分子画像2013年病理学实验室医学:286[32] Szklarczyk D , von MC , Gable AL , Lyon D , Junge A , Wyder S , Huerta-CepasJ , Si-monovic M , Doncheva NT , Morris JH , Bork P , Jensen LJ.STRING v11:覆盖率增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集的功能发现。47.第47章.[33] Abadi , M. TensorFlow : A system for large-scale machine learning. arXiv :160508695 Cs(2016)。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功