多关系诱导药物-基因相互作用预测的通信子图表示学习

150 浏览量更新于2024-02-04 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于通信子图表示学习的多关系诱导药物-基因相互作用预测饶嘉华1、†、郑双佳1、4、王伟、麦思杰2、杨跃东1、3、王伟1中山大学计算机科学与工程学院2中山大学电子信息技术学院3中山大学机器智能与先进计算重点实验室4北京嘉利电子科技有限公司{raojh6，zhengshj9，maisj} @ mail2.sysu.edu.cn，yangyd25@mail.sysu.edu.cn摘要阐明药物和基因之间的相互联系是药物开发和精准医学的重要课题。目前，药物-基因相互作用的计算预测主要集中在结合相互作用上，而不考虑其他关系类型，如激动剂、拮抗剂等。此外，现有方法要么严重依赖于高质量的域特征，要么是内在转导的，这限制了模型推广到缺乏外部信息或在训练过程中不可见的药物/基因的能力。为了解决这些问题，我们提出了一种新的多关系诱导药物-基因相互作用预测（CoSMIG）的通信子图表示学习，其中药物-基因关系的预测是通过子图模式进行的，因此对于看不见的药物/基因是自然诱导的，而无需重新训练或利用外部域特征。此外，该模型通过一个可通信的消息传递机制，加强了药物-基因图上的关系为了评估我们的方法，我们从DrugBank和DGIdb编译了两个新的基准数据集。在两个数据集上的综合实验表明，我们的方法优于国家的最先进的基线在transductive scenar-ios和inductive的取得了优异的性能。进一步的实验分析包括LINCS实验验证和文献验证也证明了我们的模型的价值1介绍阐明药物和基因之间的相互作用在药物发现或重新定位过程中至关重要[Pritchardet al. ，2017年]，旨在发现有效的治疗药物或确定新的可药用靶点[Strittmatter，2014年]和可能导致药物不良反应的“脱靶”[ Malki和Pearson，2020年]。尽管实验研究仍然存在，*通讯作者。[2]在加利福利亚实习期间完成的工作作为确定药物-基因相互作用（DGI）的最可靠方法，由于实验中涉及的巨大成本，所有可能的DGI的表征是一项艰巨的任务[Stachel et al. ，2014]。因此，计算预测已经成为发现新的药物-基因相互作用的有吸引力的替代方案。目前，DGIs的计算预测主要集中在药物和基因之间的结合相互作用上，以发现对其靶点具有高结合亲和力的药物[Tsubaki et al. ，2019; Zheng et al. ，2020; Bagherian etal. ，2021] 。然而，这些方法不能阐明多个关系信息（即，激动剂、拮抗剂等），这对于揭示药物和基因之间相互作用背后的机制也很重要[Cotto et al. ，2018]。例如，激动剂是激活受体以产生生物反应的药物，而拮抗剂是在结合靶基因时阻断激动剂介导的反应的药物。因此，确定药物与基因之间的多关系相互作用至关重要此外，现有的方法大致分为两类：基于特征的方法和基于网络的方法。基于特征的方法[Oüztürketal. ，2018;Torng和Alt-man，2019]主要构建嵌入函数（即，图表示），但是当高质量的域特征不可用时，常常导致较差的性能。此外，尽管已经投入了大量的努力来开发基于网络的方法[Luo et al. ，2017; Zeng et al. ，2019]在没有域特征的情况下，这些方法本质上是转导性的，其中学习的潜在特征不能推广到在训练过程中看不到的药物/基因。为了对看不见的实体进行归纳预测，推荐系统研究中的一个常见场景，科学家利用实体对周围的子图，而不利用整个图的任何全局信息[Zhang和Chen，2020; Teru etal. ，2020]。这样的局部子图包含丰富的图模式信息，使得能够准确预测在转导和诱导场景上的目标交互。在这项研究中，我们提出了一种新的通信子图表示学习的多关系诱导药物-基因相互作用预测（CoSMIG），以解决上述问题。我们首先编制了两个新的具有挑战性的基准多关系DGI预测。到达贝斯特arXiv：2205.05957v1 [cs.LG] 2022年5月+v：mala2277获取更多论文据我们所知，这是第一个这样的基准。此外，我们的模型是自然归纳的，因为我们通过具有重启算法的随机游走为每个训练交互提取子图，而不利用特定于药物-基因图的任何局部和全局信息。因此，我们的模型可以应用于看不见的药物/基因，而无需重新训练。我们还提出了一种通信消息传递机制，以加强药物基因图上的多关系信息的作用，以实现准确的多关系DGI预测。最后，所提出的模型被证明优于国家的最先进的方法在两个公共DGI数据集上的转导和归纳设置。对LINCS L1000数据集的独立测试表明，我们预测的药物引起的基因表达增加/减少与实验值高度一致。更重要的是，我们的方法被证明能够识别新的药物-基因相互作用，这些相互作用不在当前的数据集中，但已在文献中报道，这表明我们的模型可能为理解DGI的机制提供新的见解。简而言之，主要贡献如下：• 我们提出了一种新的归纳子图表示学习框架，无需利用给定药物基因图的任何域和全局信息，可以应用于未见过的药物/基因而无需再训练。• 我们通过通信消息传递机制加强多关系信息，从而做出准确的多关系DGI预测。• 我们编制了两个新的具有挑战性的多关系DGI预测基准，并进行了广泛的实验，以证明CoSMIG的有效性及其在理解多关系信息。2相关工作在本节中，我们介绍了两个方面的相关工作首先，我们重点回顾了药物-基因二元相互作用预测的计算方法。其次，我们总结了几种最先进的推荐方法，这些方法在我们的工作中被用作多个关系DGI预测的基线。2.1药物-基因相互作用药物-基因相互作用的关键问题是学习药物和基因的低维表示。一旦学习，然后可以利用表示来预测药物-基因二元相互作用的概率得分。一般来说，这些方法可以分为以下两类：基于特征的方法和基于网络的方法。基于特征的模型的关键思想是采用流行的深度学习架构来表示药物和蛋白质 / 目标。例如， DeepDTA[Oüztuürketal. ，2018年]采用卷积神经网络（CNN）从原始蛋白质序列和SMILES字符串中学习表示，并将其组合以预测药物-靶标相互作用的结合亲和力，而Graph-CNN [Torng和Alt-man，2019]通过图形卷积框架从口袋图和2D配体和图中提取特征。作为他们的输入是基于手工制作的特征，当高质量的域特征不可用时，他们经常导致较差的性能。另一研究路线是将DGI预测公式化为药物-基因图内的链接预测任务[Luo et al. ，2017; Zeng et al. ，2019]。它们通常执行网络扩散算法（即，随机游走）以获得网络中药物和基因的信息之后，他们根据已知的药物-基因对推断出新的药物和基因相互作用。然而，它们是转导的，因为在训练过程中，训练的模型不能推广到看不见的药物/基因。然而，这些方法仍然集中于发现药物与蛋白质/靶标的二元相互作用，例如药物与其靶标的高结合亲和力，而未能确定药物与基因之间的相互作用类型。事实上，越来越多的人发现药物与人类基因的相互作用类型已成为药物疗效和人类基因组学研究的重要课题[Cotto et al. ，2018]。因此，阐明药物与基因之间的相互关系并确定其关系类型可以为药物重新定位提供新的见解。2.2推荐方法从推荐系统，我们可以将DGI预测重新表述为多关系推荐任务，其中药物和基因分别代表用户和项目。矩阵补全是一种被广泛使用的推荐方法，它利用一个行和列分别代表用户和项目的矩阵来预测用户对项目的兴趣，以填补评分矩阵中缺失的项目。然而，它是转导性的，因此在添加以前从未见过的新药/基因时，通常需要为了缓解归纳问题，已经提出了归纳矩阵完成（IMC）[Jain和Dhillon，2013]，其利用了用户和项目的域特征。但是内模传播方法对领域特征的质量仍然有很强的约束。由于优越的图表示学习能力，已经使用图神经网络（GNN）研究了推荐任务，显示了它们的优越性和有效性[Berg et al. ，2017]。例如，[Berg et al. ，2017]提出了图卷积矩阵完成（GC-MC），其直接将GNN应用于用户-项目二分图以提取用户和项目潜在特征。但这些类型的模型仍然是传导性的。最近的基于归纳图的推荐系统Pin-Sage [Ying et al. ，2018a]，使用内容作为初始节点特征，并已成功推荐了Pinter-est上的相关引脚。此外，IGMC[ Zhang and Chen，2020]提出了一个图级GNN来学习子图的表示，并使用子图嵌入来预测用户和项目之间的评分。然而，这些GNN模型受到节点到节点消息传递机制的限制，无法显式地考虑嵌入传播层中的关系嵌入。这组方法与传统的基于MF的方法一起构成了我们的基线。+v：mala2277获取更多论文Σ−G图1：CoSMIG的框架我们首先在每个交互周围提取一个子图，并训练一个通信子图神经网络将子图映射到交互。每个子图由与靶相互作用相关的药物和基因以及它们的h-hop邻居（这里h= 3）诱导。最后，每个相互作用的学习子图嵌入用于预测药物和基因之间的各种相互作用。3方法如图1所示，我们通过由三个主要组件组成的CoSMIG来预测 DGI ： 1 ）子图提取层，其通过重启随机游走（RWR）提取h-hop子图; 2）嵌入层，其通过图级GNN对h-hop子图进行编码;以及3）预测层，其预测两个子图之间的交互。3.1RWR子图提取对于一个给定的基因g和药物d对，我们首先通过提取对（d，g）周围的h-hop邻居来构建子图。由于我们的模型通过二分图表示DGI，因此对于药物-基因相互作用，h必须是奇数，并且h通常大于2以进行准确预测。因此，所有h-hop邻居的完全提取可能会导致不可追踪的大型子图，并且我们通过重新启动的随机游走（RWR）而不是先前工作的广度优先搜索来提取子图[Zhang和Chen，2020]。更具体地说，给定药物和基因之间的相互作用，我们从相互作用周围的两个节点重新开始进行随机游走，并且必须找到方程的解：p=cAD−1p+（1−c）e（1）其中c是在称为重新开始概率的范围（0，1）中的数，并且p是列向量，其中pi表示节点i处的概率。D是邻接矩阵A的度矩阵，每个对角值Dii=jAij。重新开始概率控制下一次行走是跳到随机选择的邻居（概率为c）还是转到起始节点（概率为1c）。对于起始向量e，我们设置ei= 1，如果节点i是起始节点，否则为0，因此起始向量e允许我们保留节点结构和AD-1允许我们进一步访问它们的邻居。3.2通信子图神经网络在提取围绕对（d，g）的h-hop子图之后，我们设计了一个通信子图神经网络，灵感来自以前的作品[Song etal. ，2020; Mai等人，2021]，通过迭代地传递关系和节点嵌入并加强多关系信息的作用来对归纳子图进行建模。给定一个抽取出的n个节点e条边的子图，我们用N表示节点嵌入，用E表示边嵌入，用R表示关系嵌入。定义子图的邻接矩阵为Ane和Are，分别表示节点到边的邻接矩阵和关系类型到边的邻接矩阵。在向CoSMIG反馈之前，我们首先对CoSMIG应用一个归纳节点标记函数，该函数使用不同的标签来标记节点在子图中的不同角色，而不需要标记任何外部域特征和全局信息。我们的节点标记函数被定义为（2i+j），其中i是节点的跳数，j是节点类型，0表示药物节点，1表示基因节点。这些节点标签的独热编码将被视为子图的初始节点特征，表示为N0。初始关系特征R0是交互类型的独热编码，初始边特征E0是每条边的初始关系特征。因此，我们首先将节点和边表示映射到相同的维度f：N（0）=σ（N0W（0）），E（0）=σ（E0W（0））（2）n e+v：mala2277获取更多论文ne∈∈aggRaggi、j−d、g.公司简介^eeaggaggaggn^其中σ表示非线性激活函数，W（0）和W（0）是可学习的参数矩阵，N（0）Rn×f和E（0）Re×f分别是变换后的节点和关系嵌入节点嵌入聚合：在我们的节点-边交互机制中，需要关系嵌入来更新每次迭代时的节点嵌入。首先，我们使用节点嵌入（Ni，Nj）和关系嵌入（Ei，j）通过边关注度分数计算关联i，j的权重：α（k）= σ（σ（[N（k）||N（k）||E（k）]W（k−1））W（k））（3）数据集DrugBank DGIdb药物编号基因数量11284 1664互动80924 11366互动类型2 14表1：两个药物-基因相互作用数据集的统计3.3基于子图嵌入的关系预测在本节中，我们将节点表示汇集到图级特征向量中以表示交互（d，g）。有很多选择，如求和，平均，SortPool-i、ji j i，ja0a1ing [Zhang et al. ，2018]、DiffPooling [Ying et al. 、2018年b]。其中W（k）和W（k）表示可学习的参数在这项工作中，我们只连接的最终表示a0a 1目标药物d和基因g作为图形表示：在迭代k处的矩阵和算子||表示特征串联（k−1）h=concat（Nd，Ng）（10）然后，我们使用注意边嵌入Ei，j来更新节点表示：其中Nd和Ng分别表示靶药物和基因的最终表示我们通过实验验证了E（k−1）=α（k−1）E（k−1）（四）其优越的性能，因为突出的目标药物，i、ji、ji、j而基因对DGI预测很重要。在得到最终的图表示之后，我们使用MLPN（k）=AneE（k−1）（5）输出预测的交互：rT（11）N（k）=σ（（N（k）+N（k−1））W（k））（6）其中，N（k）表示节点聚合信息（k）=wyσ（Whh）其中，σ是激活函数，并且wT和WH 是参数，用于将图形表示h映射到标量预测r的MLP的参数。从它的邻居在迭代k，Wn表示的对位，在迭代k处的节点嵌入的度量矩阵，E（k-1）是边（i，j）的关注边嵌入。因此，通过使用关系嵌入更新节点嵌入，节点嵌入可以聚合子图中的所有关系及其相关信息，提供强大的关系推理能力。3.4模型训练根据[Zhang and Chen，2020]，我们最小化预测与地面真实交互之间的均关系嵌入更新：关系嵌入更新共11次迭代，需要节点嵌入更新关系嵌入。我们首先=1个|d，g =1|（d，g）：|(d,g):Ω=1（研发、g）-r^d，g 第二章（十二）通过以下方式从节点到边以及与边的关系聚合信息：其中rd、g 和rd，g表示真实的相互作用和预测E（k）=（Ane）TN（k）+（Are）TR（k）（7）其中，T表示矩阵转置，（Ahe）TN（k）将头部信息聚合到边缘，并且（Are）TR（k）将关系信息聚合到边缘。然后，我们使用聚合信息来更新边表示：E（k）'=σ（E（k−1）+σ（E（k）（8）E（k）=σ（E（k）'W（k）+E（0））（9）其中，σ表示非线性激活函数，Wk表示可学习的参数矩阵，并且E0是用于执行残差学习的原始转换关系嵌入+v：mala2277获取更多论文（u，v）的相互作用，且λ是0/1掩码矩阵表示交互作用矩阵R的观测项。4实验4.1实验设置。数据集。为了评估CoSMIG的有效性，我们从DGIdb[Cotto etal. ，2018]和DrugBank [Wishart et al. ，2018]（表1）。(1)DrugBank：这是从DrugBank获得的药物转录组学数据集。其中，由于药物化合物的代谢引起的基因的上调/下调代表药物与基因之间的相互作用。因此，该数据集有两种类型的交互，增加和减少。(2)DGIdb：该数据集采用DGIdb，包含超过1664个基因和1185种药物，涉及超过11，366种药物-基因相互作用和14种类型的关系。为保证质量，+v：mala2277获取更多论文ACCACC方法特点DrugBank DGIdb确认标识测试验证工业测试ACC ACC ACCMC编号-0.518± 0.013-0.559 ±0.009GRALS是-0.532± 0.021-0.578 ±0.016F-EAE no-0.566± 0.004-0.623 ±0.003GC-MC是-0.586± 0.008-0.601 ±0.005基于GNN提出sRGCNN是-0.602± 0.010-0.689 ±0.007PinSage是-0.629± 0.004-0.713 ±0.005IGMC no-0.634± 0.003-0.803 ±0.006CoSMIG-w/GCN no 0.562± 0.004 0.581± 0.004 0.778± 0.0230.803 ±0.009CoSMIG-w/GraphSAGE编号0.584± 0.003 0.602± 0.008 0.807± 0.0140.814 ±0.010CoSMIG-w/RGCN无0.614± 0.004 0.637± 0.005 0.821± 0.0130.832 ±0.002CoSMIG-w/Avg合并编号0.619± 0.003 0.643± 0.006 0.822± 0.0060.835 ±0.003CoSMIG-w/总和合并编号0.625± 0.004 0.655± 0.003 0.824± 0.0070.839 ±0.004CoSMIG-w/SortPooling编号0.639± 0.002 0.667± 0.004 0.833± 0.0030.841 ±0.005CoSMIG无0.658±0.008 0.678±0.003 0.840±0.011 0.852±0.012表2：在转导场景中，通过DrugBank和DGIdb数据集的总体准确性比较不同方法方法DrugBank DGIdb∆ ∆IMC 0.441 14.8% 0.424 24.2%F-EAE 0.474 16.3% 0.532 14.6%GC-MC 0.513 12.4% 0.553 7.99%DrugBank 和 DGIdb 的准确性基于 MF 的方法（ MC ，GRALS，F-EAE）的性能差可能归因于简单的低秩（或稀疏）矩阵近似不足以捕获复杂的相互作用类型，而GC-MC和基于GNN的PinSage 0.567 9.86% 0.6548.27%sRGCNN验证了图神经网络的节点级IGMC0.6123.47%0.7783.11%提出CoSMIG 0.672 0.88% 0.842 1.17%表3：感应场景的性能代表每个模型的转换情景和归纳情景之间的在数据集上，我们删除了重复项，并保留了两个数据集上至少有五种相互作用的药物和基因实验设置。我们使用pytorch几何实现了CoSMIG[Fey和Lenssen ， 2019] ，可在 www.example.com 上获得https://github.com/biomed-AI/CoSMIG 。我们根据DrugBank上的交叉验证结果调整了模型超参数，并在所有数据集上使用它们。跳数h被设置为3。模型的深度设置为4。对于每个子图，我们在训练过程中以0.1的概率随机丢弃其邻接矩阵条目训练过程在Nvidia GeForce RTX3090 GPU上持续了80个epoch。我们的方法的几个超参数的影响，如嵌入大小和学习率，已在附录图S1中显示。作为一个多关系链接预测问题，我们计算实际药物-基因相互作用和预测之间的准确性得分（ACC）来评估我们的方法。我们对模型进行了五次训练，并对结果进行平均，以获得最终性能。4.2性能比较。在转换场景中的表现。比较的方法包括三种基于MF的方法（MC，GRALS，F-EAE）和五种基于GNN的方法（GC-MC，sRGCNN，PinSage，IGMC）。如表2所示，CoSMIG实现了最高的可以提高表征学习能力，有利于药物-基因相互作用的预测。IGMC不是学习转换节点级特征，而是基于关系图神经网络（R-GCN）归纳学习与交互相关的局部图特征，与其他基线相比表现出很强的竞争力。然而，通过加强交互嵌入在子图建模中的作用，CoSMIG在DrugBank和DGIdb上分别比IGMC提高了6.49%和5.75%。因此，当评估每种相互作用类型时，CoSMIG继续优于其他基线方法（图3A）。感应场景中的性能。请注意，GRALS和sRGCNN由于其模型设置而无法应用于归纳场景。如表3所示，CoSMIG在归纳数据集上持续优于其他基线。基于MF的方法在归纳场景中仍然取得了最差的性能，并且在转换场景和归纳场景之间存在巨大的性能差距。此外，IGC-MC和PinSage在感应场景中也显示出显著的下降（下降率从7.99%到12.4%不等），这可能是由于它们只有节点级的消息传递机制。与节点级GNN方法相比，IGMC方法的性能略有下降，因为其提取的聚类子图包含丰富的图模式信息，而药物基因图中没有任何全局信息尽管如此， CoSMIG 在DrugBank 和 DGIdb 上的表现始终优于 IGMC 8.93% 和7.60%。CoSMIG的下降率明显低于其他方法。其显著的改进可以归因于其RWR子图提取方法和通信消息传递机制。基于MF基于MF+v：mala2277获取更多论文图2：评估子图提取对DrugBank和DGIdb的影响。4.3消融研究。我们对两个基准数据集进行了消融研究，以调查影响我们性能的因素如表2所示，当使用不同类型的GNN聚合器时，所有变体都劣于所有COSMIG。最佳基线CoSMIG-RGCN在DGIdb上的验证集和测试集的准确度得分分别为0.821和0.832，比我们提出的模型低2.26%和2.35% 对于三个池层变体，CoSMIG-w/SortPooling表现最好，但其准确率分别比DGIdb的验证集和测试集上的 CoSMIG 低0.83%和1.29%。验证集和独立测试集之间的一致结果也表明了CoSMIG模型的鲁棒性。为了说明子图提取的影响，我们还将我们的RWR子图提取与IGMC中提出的封闭子图提取方法进行了比较。我们改变了邻居的跳数，以研究CoS-100是否可以受益于多跳邻居。结果如图2所示我们观察到，RWR子图提取方法的性能始终优于封闭子图方法在DrugBank和DGIdb数据集上。随着跳数的增加，CoSMIG的准确性迅速提高，因为子图中的邻居和交互信息更多，并且模型在跳数为3时达到最佳性能随着跳数的增加，性能逐渐下降，表明跳数过大会带来冗余和有害信息。4.4实验分析可视化分析我们从经训练的CoS模型中提取药物-基因相互作用对的学习表示，并使用tSNE将它们投影到2D空间中，如图3B-C所显然，CoSMIG可以清楚地区分DGI的每种相互作用类型，表明CoS-100允许DGI预测的准确表示在LINCS L1000数据库上进行验证。我们进一步进行了上/下调基因的大规模计算，并通过LINCS L1000数据库评估了预测结果。如附录第2节所述，这些图3：（A）DGIdb的每种相互作用类型的准确性，以及（B）DGIdb和（C）DrugBank的t-SNE预测对结果突出了CoSMIG的优越性，并且我们预测的药物引起的基因表达的增加/减少与实验值高度一致发现新的药物-基因相互作用。我们还证明了新的潜在相互作用，这些相互作用不在当前数据集中，但已在文献中报告，详见附录第3节。5结论在这项工作中，我们首先编制了两个新的具有挑战性的基准，多关系的药物-基因相互作用的预测，而不是只集中在结合相互作用。此外，我们的模型是自然归纳的基础上的通信子图神经网络，而不利用任何主知识和全局信息的药物基因图。因此，我们的模型可以应用于未知的药物/基因，而无需重新训练。最后，我们进行了大量的实验，以证明我们的模型的有效性和它的解释性在理解多个关系信息。为了证明我们的模型的价值，我们评估了药物和基因之间的相互作用类型的增加和减少与LINCSL1000数据库中的基因表达谱。此外，我们证明了新的潜在相互作用，这些相互作用不在当前数据集中，但已在文献中报道致谢本研究得到了国家重点研发计划项目[2020YFB0204803] 、国家自然科学基金项目[61772566，62041209]的资助，+v：mala2277获取更多论文广东省重点领域研发计划 [2019B020228001 、2018B010109006] 、引进创新创业团队计划[2016ZT06D211] 、广州市科技研究计划[202007030010]。引用[Bagherian et al. Maryam Bagherian，Elyas Sabeti，KaiWang ， MaureenASartor ， ZanetaNikolovska-Coleska，and Kayvan Najarian.用于预测药物-靶标相互作用的机器学习方法和生物信息学简报， 22（1）：247-269，2021。[Berg et al. Rianne van den Berg，Thomas N Kipf，andMax Welling.图卷积矩阵完成。arXiv预印本arXiv：1706.02263，2017。[Cotto et al. Kelsy C Cotto，Alex H Wagner，Yang- YangFeng，Susanna Kiwala，Adam C Coffman，GregorySpies ， Alex Wollam ， Nicholas C Spies ， Obi LGriffith，and Malachi Griffith.dgidb3.0：药物基因相互作用数据库的重新设计和扩展核酸研究， 46（D1）：D1068[Fey 和 Lenssen ， 2019] Matthias Fey 和 Jan EricLenssen。用pytorch geometric进行快速图形表示学习。arXiv预印本arXiv：1903.02428，2019。[Jain 和 Dhillon ， 2013] Prateek Jain 和 Inderjit SDhillon。可证归纳矩阵完备化。arXiv预印本arXiv：1306.0626，2013年。[Luo et al. Yunan Luo，Xinbin Zhao，Jingtian Zhou，Jinglin Yang，Yanqing Zhang，Wenhua Kuang，JianPeng，Ligong Chen，and Jianyang Zeng.一种用于药物-靶标相互作用预测和计算药物重新定位的网络集成方法。Nature Communications，8（1）：1[Mai et al. 麦思杰，郑双佳，杨跃东，胡海峰用于归纳关系推理的通信消息人工智能广告管理协会，2021年。[Malki和Pearson，2020] Mustafa Adnan Malki和EwanRobert Pearson。药物-药物-基因相互作用和药物不良反应。药物基因组学杂志，20（3）：355[Oüztuürketal.HakimeOüztuürk，ArzucanOüzguür ，andElif Ozkirimli. Deepdta：深度药物-靶标结合亲和力预测。生物信息学，34（17）：i821[Pritchard et al. Jayne-Louise E Pritchard ， Tracy AO'Mara和Dylan M Glubb。通过遗传学增强药物重新定位的前景。 Frontiers inpharmacology ， 8 ： 896 ，2017。[Song et al. Ying Song，Shuangjia Zheng，Zhang-mingNiu，Zhang-Hua Fu，Yutong Lu，and Yuedong Yang.在属性分子图上的沟通表示学习。在IJCAI，第2020卷，第2831-2838页，2020中。[Stachel et al. Shawn J Stachel，John M Sanders，DarrellA Henze，Mike T Rudd，Hua-Poo Su，Yiwei Li，Kausik K Nanda ， Melissa S Egbertson ， Peter JManley ， Kristen LG Jones ， et al. Maximizingdiversity from akinase screen ： identification of noveland selective pan-trk inhibitors for chronic pain. 医药化学杂志，57（13）：5800[Strittmatter，2014] Stephen M Strittmatter. 通过再利用克服药物开发瓶颈：旧药物学习新技巧。Naturemedicine，20（6）：590[Teru et al. Komal Teru ， Etienne Denis 和 WillHamilton。用子图推理预测归纳关系。国际机器学习会议，第9448-9457页。PMLR，2020年。[Torng和Altman，2019] Wen Torng和Russ B Altman。图卷积神经网络用于预测药物-靶标相互作用。化学信息和建模杂志，59（10）：4131[Tsubaki et al. ， 2019] Masashi Tsubaki ， JosharoTomii，and Jun Sese.化合物-蛋白质相互作用预测与神经网络的端到端学习，用于图形和序列。生物信息学，35（2）：309[Wishart et al. David S Wishart，Yannick D Feunang，An C Guo，Elvis J Lo，Ana Marcu，Jason R Grant，Tan- vir Sajed ， Daniel Johnson ， Carin Li ， ZinatSayeeda，et al. Drugbank 5.0：a major update to thedrugbank database for 2018.核酸研究，46（D1）：D1074[Ying et al. Rex Ying，Ruining He，Kaifeng Chen，PongEksombatchai ， William L Hamilton ， and JureLeskovec.用于网络规模推荐系统的图卷积神经网络。第24届ACM SIGKDD知识发现数据挖掘国际会议论文集，第974-983页，2018年[Ying et al. Zhitao Ying ， Jiaxuan You ， ChristopherMorris ， Xiang Ren ， Will Hamilton ， and JureLeskovec. 分层图表示学习与可扩展池。神经信息处理系统的进展，31，2018。[Zeng et al. Xiangxiang Zeng，Siyi Zhu，Xiangrong Liu，Yadi Zhou ， Ruth Nussinov ， and Feixiong Cheng.DeepDR：一种基于网络的深度学习方法，用于计算机药物重新定位。生物信息学，35（24）：5191[Zhang和Chen，2020] Muhan Zhang和Yixin Chen。基于图神经网络的归纳矩阵完备化。在2020年学习代表国际会议[Zhang et al. ， 2018] Muhan Zhang ， Zhicheng Cui ，Marion Neumann，and Yixin Chen.一个用于图分类的端到端深度学习架构。在2018年第32届AAAI人工智能会议上。[Zheng et al. Zheng Shuangjia ， Yongjian Li ， ShengChen，Jun Xu和Yuedong Yang.利用准视觉问答系统预测Nature Machine Intelligence，2（2）：134+v：mala2277获取更多论文----基于通信子图表示学习的多关系诱导药物-基因相互作用预测附录饶嘉华1、†、郑双佳1、4、王伟、麦思杰2、杨跃东1、3、王伟1中山大学计算机科学与工程学院2中山大学电子信息技术学院3中山大学机器智能与先进计算重点实验室4北京嘉利电子科技有限公司{raojh6，zhengshj9，maisj}@ mail2.sysu.edu.cn，yangyd25@mail.sysu.edu.cn1实验1.1数据分片我们在两个数据集（DrugBank和DGIdb）上进行实验，并将数据集分为两种设置：诱导和转导。对于每个转导数据集，我们随机选择每种药物的80%的历史相互作用来构成训练集，并将剩余的作为测试集。从训练集，我们随机选择10%的交互作为验证集来调整超参数。此外，我们随机选择80%的药物及其相互作用构成训练集，形成归纳数据集。对于剩余的药物，我们随机选择每种药物20%的相互作用构成诱导推理的初始子图，并评估剩余的相互作用以进行比较。1.2超参数搜索在本节中，我们将分析我们的方法的几个超参数的影响，如嵌入大小和学习率。特别地，我们改变CoS-128的嵌入大小16，32，64，128以研究嵌入传播层的效率。学习率也在0.001，0.0001，0.00001的范围内搜索。从图S1（A）中，我们可以看到，不同的嵌入大小会导致不同的最终得分，但波动率较小实验结果表明，该方法具有稳定性和有效性，只要嵌入量在适当的范围内，测试结果不会有太大的此外，在我们对不同学习率的比较中（图S1（B）），我们可以发现，如果学习率太小，最终的结果将停留在一个糟糕的局部最小值。这再次表明，我们的方法可以实现稳定的最终结果。2LINCS L1000数据库通过测量受30万种化合物干扰的1万个基因的基因表达变化，LINCS数据库为药物对基因的影响提供了新的见解，例如基因的上调/下调。因此，我们应用*通讯作者。[2]在加利福利亚实习期间完成的工作。（a）嵌入大小（b）学习率图S1：参数分析对基因表达数据进行t检验，以确定受药物干扰的基因的表达变化是否显著大于/小于0，对应于增加和减少的相互作用类型。注意，我们从LINCS数据库中选择了978个界标基因和403种药物来构成外部测试集，包括训练集中可见的932个基因和203种药物以及未见过的46个基因和201种药物。我们进一步进行了上/下调基因的大规模计算如图S2（A）所示，所有药物和基因均具有相同的模式，表明LINCS L1000中不可靠的基因表达谱未被纳入。水平线定义为模型预测的随机性。图S2（B）显示了CoSMIG在不同p值阈值下的准确度。在阈值为0.05时，CoSMIG获得了0.598，0.538，0.515，0.460，显著优于随机基线。相对于随机基线的显著改善再次表明CoSMIG已经了解了药物和基因的复杂相关性，这些相关性已经通过来自LINCS L1000的基因表达谱进行了评估。此外，看不见的药物和看不见的基因的准确性也比随机基线提高了39.39%，这表明我们的模型在诱导性方面更优越这些结果突出了CoSMIG在预测药物和基因之间的相互作用类型在转导和诱导的情况下的优越性。arXiv：2205.05957v1 [cs.LG] 2022年5月+v：mala2277获取更多论文图S2：（A）根据LINCS L1000数据库计算的P值，用于地面实况。(B)CoSMIG在不同p值阈值的外部测试集LINCS的DGI根据它们在训练集中的存在被分为四组图S3：CoSMIG预测的新型药物-基因相互作用的真实示例。3发现新的药物-基因相互作用为了进一步验证CoSMIG的预测能力，我们对糖尿病药物Metabolic和神经退行性疾病相关基因MAPT进行了案例研究。补充表1显示了新的DGI预测，以及药物的规范名称和标识符、预测的相互作用、基因名称和支持解释的文献参考。如

下载后可阅读完整内容，剩余1页未读，立即下载