
生命科学中的人工智能1(2021)100019
研究文章
AutoGGN
:用于多组学研究的基因图网络
AutoML
工具
张磊
a
,
#
,沈文
a
,
#
,李平
b
,
#
,徐驰
a
,刘登辉
a
,何文军
a
,徐智梦
a
,
王德勇
a
,张晨毅
b
,姜华良
c
,郑明月
c
,乔楠
a
,张晓
华为
健康智能实验室
图引擎服务,华为技术有限公司公司
c
中国科学院上海药物研究所药物研究国家重点实验室药物发现与设计中心
aRT i cL e i n
f
o
保留字:
多组学数据
分子相互作用网络图卷积网络
深度学习
单细胞分期分类癌症类型分类
癌症亚型
a b sTR a cT
组学数据可用于确定生物生命周期中从遗传到表型水平的生物特征,而分子相互作用网络对生命活动具有根本
性影响。整合 组学数据和分子相互作用网络将有助于研究人员深入研究隐藏在数据中的全面信息。在这里,
我们提出了一种新的多模态方法- AutoGGN -将多组学数据与基于图卷积神经网络(GCN)的分子相互作用网络
集成在一起。我们使用三种分类任务评估了Au- toGGN:单细胞胚胎发育阶段分类、泛癌类型分类和乳腺癌亚
型。在所有三个任务中,AutoGGN都表现出比其他方法更好的性能。这意味着AutoGGN有可能通过将分子相互
作用网络与多组学数据集成来更有效地提取见解。此外,为了更好地理解我们的模型是如何进行预测的,我们
利用SHAP模块并确定了有助于分类的关键基因,为下游生物实验的设计提供了见解
介绍
近年来,高通量生物医学研究方法,如全基因组测序(WGS)、
RNA测序(RNA-seq)、高通量染色体构象捕获(Hi-C)和液相色谱-质
谱联用(LC-MS),已广泛应用于生物研究、药物开发和精准医学[1,
2]。通过整合从组学分析生成的多组学数据(特别是全面的基因组学和
转录组学数据),研究机构、医院和公司[3]已经能够促进个性化药物设
计和精确用药的研究和创新。 例如,多组学数据在挖掘潜在药物靶点和
识别癌症相关基因方面特别有用[4],使其与制药公司的研发(R D)过
程[5]不可分割。已有整合基因突变和表达谱以识别乳腺癌分子亚型的实
例,这有可能提供个性化治疗并改善患者护理[6]。总体而言,多组学特
征的整合有助于研究者全面了解生命发育,更深入地了解疾病的发病机
制、发展过程和分子机制。
∗
通讯作者。
电子邮件地址:
qiaonan3@huawei.com(N. 乔)。
#
这些作者贡献相当
https://doi.org/10.1016/j.ailsci.2021.100019
深度神经网络(DNN)在挖掘复杂、异构的生物数据方面表现出了
强大的能力[7]。例如,前馈全连接神经网络(FFNN)和随机连接残差
全连接神经网络(RRFCN)已被证明在组学数据分析中是有效的[8这些
算法可以通过深度架构从组学数据中检测复杂的特征,因此非常适合于
不同的生物学领域[9,10]。
不同组学水平之间的所有类型的相互作用形成了一个巨大的网络,
并在各种过程中共同发挥作用。例如,基因网络调节蛋白酶的合成,蛋
白酶进一步催化代谢反应,如脂质降解[11]。最近,基于图的深度学习
(GDL)为分析生物网络数据提供了新的见解。GDL的主要思想是消息
传递,它通过聚集来自本地节点邻域的信息来更新节点表示。GDL在分
析生物网络方面表现出强大的性能。然而,生物网络与多组学数据的整
合研究有限。 在本文中,我们提出了AutoGGN,一个整合分子相互作用
网络和组学数据的多模态方法。GCN是AutoGGN的核心。它们旨在通过
分子间的信息传递和聚合来探索组学数据
更大的交互网络。具体来说,我们证明了
AutoGGN通过三项任务:单细胞胚胎发育阶段分类,癌症类型分类和乳
腺癌亚群分类。
接收日期:2021年10月2日;接收日期:2021年11月19日;接受日期:2021年11月19日
2021年11月22日网上发售
2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章
(http://creativecommons.org/licenses/by-nc-nd/4.0/)
可在ScienceDirect上获得目录列表
生命科学
期刊首页:www.elsevier.com/locate/ailsci