生命科学中的人工智能：结合分子和细胞图像数据预测药物作用机制

112 浏览量更新于2023-12-06 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能3（2023）100060研究文章结合分子和细胞绘画图像数据进行作用机制Guangyan Tiana，1，Philip J Harrisona，1，Akshai P Sreenivasana，b，Jordi Carreras-Puigverta，Ola Spjuthaa瑞典乌普萨拉大学药物生物科学系b瑞典乌普萨拉大学医学系aRT i cL e i nf o保留字：生物信息卷积神经网络化学信息学深度学习机器学习a b sTR a cT化合物的作用机制（MoA）描述了其产生的生物相互作用药理学效应。多个数据源可用于预测MoA的目的，包括化合物结构信息和各种测定，例如基于细胞形态学、转录组学和代谢组学的那些。在本研究中，我们探索了结合摩根指纹形式的结构信息和形态信息的益处和潜在的相加/协同效应，五通道细胞绘画图像数据。对于一组10个表现良好的MoA类，我们比较了分别在两个数据集上训练的深度学习模型与同时在两个数据集上训练的模型的性能。在一个保留的测试集上，当只对结构数据进行训练时，我们获得了0.58的宏观平均F1分数，当只对图像数据进行训练时，我们获得了0.81的宏观平均F1分数，当两者一起训练时，我们获得了0.92的宏观平均F1分数。因此，表明了明确的加性/协同效应，并强调了整合多个数据源进行MoA预测的好处。介绍作用机制（MoA）是指潜在治疗性小分子化合物产生药理学效应的生物相互作用，例如化合物靶向的特定蛋白质及其调节的途径。揭示化合物的MoA虽然在化学生物学中是一个重大挑战[1]，但在临床试验之前为先导化合物提供了非常有用的信息，并可用于识别可能的毒性或副作用[2]。各种不同的数据源可用于捕获关于化合物MoA的信息，包括来自化合物的结构信息、来自转录组学数据的基因表达、来自蛋白质组学数据的蛋白质信息以及来自代谢组学数据的代谢酶活性[2]。最近，来自高内涵成像的细胞形态学数据已被证明对该任务有用[3]。基于显微镜的图像分析的一个显著好处是，它们可以比基于转录组学和代谢组学的分析更容易且更便宜地扩展到高通量[4]。细胞成像还提供了单细胞分辨率的信息，而不是将输出压缩到群体平均值的测量值[5]。在吞吐量和效率，L1000[6]基因表达测定可能是目前唯一可行的替代基于图像的测定[7]的大规模数据生成以维持预测建模。显微镜成像可用于捕获当用化学化合物处理细胞培养物时出现的细胞形态变化[2]。细胞涂染试验使用荧光染料尽可能“丰富”地涂染多孔板中的细胞，以使用在五个通道中成像的六种荧光染料阐明八种广泛相关的细胞器和细胞亚室（细胞核、线粒体、细胞骨架、高尔基体、质膜、细胞质RNA、核仁和内质网）中的形态学变化[7]。文库富集的比较研究报告了使用Cell Paint的高通量筛选性能的预测能力优于L1000基因表达谱[8]。然而，对于预测MoA，Way等人[9]发现L1000优于Cell Paint- ing，但存在互补性，即与另一种测定相比，其中一种测定更好地预测了一些MoA。Lapins和Spjuth[10]的一项相关研究比较了细胞绘画、L1000和基于化学结构的预测因子，发现三个预测因子中的每一个预测的MoA类别都比其他两个更好，支持通过结合这些不同数据可能受益的想法∗ 通讯作者。电子邮件地址：philip. farmbio.uu.se（P. J. Harrison），ola. farmbio.uu.se（O. Spjuth）。1 这些作者对这项工作作出了同样的贡献。https://doi.org/10.1016/j.ailsci.2023.100060接收日期：2022年12月8日;接收日期：2023年1月5日;接受日期：2023年1月30日在线预订2023年2667-3185/© 2023作者。出版社：Elsevier B.V.这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciG. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000602源另一项预测MoA的研究[11]基于EX CAPE数据库的数据，该研究将使用基于图像的特征构建的模型与使用化学结构描述符构建的模型进行了比较，为这两种数据类型的互补性提供了进一步的支持，从而模型在单个类别水平上的表现有所不同。除了比较使用不同类型的数据构建的模型之外，还可以将数据集组合并同时分析它们，以搜索附加或协同效应。为了预测细胞毒性和增殖，Seal等人[12]比较了随机森林模型，细胞绘画基于图像的功能，分子指纹，并结合两种数据源。他们发现，基于图像特征的模型优于基于分子指纹的模型，但组合模型在12个案例中的10个案例中表现最好。另一项预测约16，000种化合物的生物活性的研究[13]发现，基于细胞绘画图像的特征的模型优于基于图形卷积网络（GCN）的化学结构特征的模型[14]，但融合了细胞绘画图像的模型[15]。两个数据集在性能上有所提高大多数传统的图像分析流程，包括上面提到的那些，首先从荧光染色图像中提取形态特征，包括标记细胞区室的大小、形状、强度和纹理的测量，最常见的是使用CellPro filler。[15]软件包，并随后将机器学习方法应用于手头的预测任务的提取特征[16]。这些方法需要一个准确的分割算法，以确定细胞室之前的特征提取。然而，当对原始图像使用卷积神经网络（CNN）时，以自动数据驱动的方式提取特征，从而避免了对细胞分割的需求，并可能提供更好的预测性能[3，17]。例如，Hofmarcher等人[18]发现，在CellPainting图像数据上训练的CNN，用于预测超过10，000种化合物的活性标签，比在预先计算的图像特征上训练的完全连接的神经网络表现得更好。神经网络架构选择的灵活性也提供了一种将多个数据源组合到同一建模框架中的简单方法[19]。在这份手稿中，我们首先比较了各种传统的机器学习和深度学习模型，用于基于多达20个MoA类的化学结构数据预测MoA。随后，基于一组10个MoA类，我们将化合物结构水平的最佳深度学习模型的性能与在Cell Painting图像数据上训练的最先进CNN进行了比较，同样的化合物我们选择了最好的基于深度学习的复合结构模型，这样我们就可以在利用结构和图像数据作为输入的基础上，最终训练一个用于MoA预测的联合模型。10个MoA类的细胞绘画图像示例见图1。据我们所知，我们的工作代表了五通道细胞绘画图像数据和分子指纹数据的第一个组合，这些数据以端到端的方式进行训练，以预测MoA，其中原始图像，而不是从图像中获得的特征，被用作模型的输入。材料和方法数据分子数据分子数据（Corsello et al.[20]），以SMILES字符串的形式由布罗德研究所收集和处理，用于这项研究。净化的数据集包含大约5500种化合物，覆盖1300个MoA类，但大多数MoA与它们相关的化合物很少每个MoA具有的化合物的数量如图所示。二、由于我们的模型应该在化合物水平上表现良好，即预测未知化合物的MoA，因此我们使用了数据的一个子集，即前20个MoA（即与它们相关的化合物最多的20个MoA）。图像数据5通道细胞绘画图像数据由乌普萨拉大学的Phar-milling生物信息学研究小组产生。我们从10个代表性良好的MoA（我们假设MoA可以合理区分，并且具有足够数量的化合物与它们相关）中选择图像数据。这10种MoA是AT-β抑制剂（ATP酶-i，化合物数量，μ= 18）;极光激酶抑制剂（AuroraK-i，μ= 20）; HDAC抑制剂（HDAC-i，μ= 33）; HSP抑制剂（HSP-i，μ= 24）; JAK抑制剂（JAK-i，μ= 21）; PARP抑制剂（PARP-i，μ= 21）;蛋白质合成抑制剂（Prot.Synth. i，λ= 23）;类维生素A受体激动剂（Ret.Rec.Ag，λ= 19）;拓扑异构酶抑制剂（Topo. i，λ= 32）;和微管蛋白聚合抑制剂（Tub. i，n= 20）。我们总共有12，582张图片，共231种化合物。将化合物以10微摩尔的剂量给予384孔板中的U2OS细胞。在每个孔中的9个位点上拍摄分辨率为2160X 2160像素的使用PLAID（Plate Layouts using Arti ficial Intelligence Design，[21]）将化合物分布在18个平板上。基于分子数据我们探索了使用多层感知器（MLP）、图卷积网络（GCN）、卷积神经网络（CNN）、长短期记忆网络（LSTM，有和没有数据增强）和传统机器学习算法（对表格数据进行操作）来预测MoA，并对每个模型的数据进行了预处理请参阅下面的建模部分，了解有关所探索模型的更多详细信息对于MLP和传统的机器学习算法，我们使用Morgan Fingerprints作为输入。由于SMILES字符串是连续的，它们不能直接被这些模型处理。我们使用RDKit包[22]生成Morgan指纹（二进制向量，2048位）[23]。对于需要邻接矩阵X和节点矩阵X作为输入的GCN，我们应用了Spektral[24]和NetworkX包[25]将SMILES字符串转换为图形。对于CNN，我们基于以下方法为每个SMILES字符串生成特征矩阵Hirohara等人[26]。最初，我们选择了42个化学特征，根据所选的化学特征来准备每个SMILES字符串的特征矩阵。其次，由于SMILES的长度不一致导致特征矩阵的空白部分，我们应用零填充来保持特征矩阵的一致尺寸。对于递归神经网络LSTM，我们使用SMILES对编码[27] 为了将化学结构数据标记化，我们得到了一系列代表SMILES的数字（标记）。与CNN的情况类似，我们也使用零填充来确保所有标记的长度相同。基于图像数据基于每个板中对照DMSO孔中像素强度的平均值和标准偏差，对细胞绘画图像数据中的5个通道进行标准化，以去除板水平效应。这些图像的大小从原始尺寸调整到256X 256PIX el。对数据进行质量控制以检测图像中的饱和度和模糊度，未发现饱和度问题（例如视野中的纤维），但确实检测到一些模糊图像。然而，鉴于深度学习模型的一个常见数据增强策略是有目的地模糊图像，我们决定不从数据集中删除这些模糊图像。数据扩充和数据拆分数据扩充在现有数据的基础上生成额外的数据，并提高模型的通用性。对于基于图像的模型，我们使用了平移、90度旋转和移位尺度旋转来增强数据。然而，对于基于复合结构的模型，数据增强仅适用于LSTM。由于LSTM是一个基于序列的模型，需要令牌作为输入，因此数据增强G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000603Fig. 1. 10个MoA类别的细胞绘画图像和用于标准化的DMSO数据的示例。行标题给出所选图像的化合物名称，括号中为MoA缩写，其中i代表抑制剂，Ag代表激动剂。G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000604图二. 直方图表示不同分箱间隔下每MoA的化合物计数。请注意，最后一个bin的区间范围大于其他bin。是可行的，因为可以通过随机化SMILES产生稍微不同的令牌[28]。为了将化合物水平的数据分为训练集、验证集和测试集，我们使用了基于各MoA化合物比例的分层。我们把10%的数据分成最后一部分-测试集。在初始比较中，对SMILES数据进行了9次（9次shueses）剩余数据的分层分割，对图像数据和相应的SMILES子集进行了5次（5次shueses）。在每种情况下，80%的数据用于训练，10%用于验证。建模复合结构模型我们探索了以下使用化学结构数据预测MoA的深度学习模型：MLP，GCN，CNN和LSTM，有和没有数据增强。对于深度学习模型，我们通过模型探索和验证集上的参数调整来确定最佳架构和参数。MLP是一个基本的人工神经网络[29]，包括完全连接的输入层，隐藏层和输出层。我们的MLP模型包含一个输入层，一个具有dropout（dropout= 0.85）的隐藏层和一个最终预测层。GCN是GNN的子集[30]，可以处理非欧几里得数据，例如具有节点和边的图形[14]。我们的GCN模型包括邻接矩阵X和节点矩阵X的输入层，然后是三个具有dropout（dropout= 0.5）的卷积层，一个全局注意力池层和一个最终预测层。我们的CNN模型包含一个卷积层，一个具有dropout （ dropout= 0.8 ）的最大池化层，一个具有 dropout（dropout= 0.8）的最小化层和一个最终预测层。我们的LSTM模型包括一个嵌入层，一个双向 LSTM 层，一个 dropout 层（ dropout=0.96）和一个最终预测层。对于具有数据增强的LSTM，我们调整了增强的程度，以确保每个MoA在增强的训练集中具有大约1000个SMILES。我们使用Adam优化器[31]，稀疏分类交叉熵作为损失函数，验证损失作为早期停止的度量。为了适应类别的不平衡，我们在损失函数中应用类别加权来训练模型。我们还探索了对表格数据进行操作的机器学习算法（与上述深度神经网络相反）。当数据集大小相对较小时，更传统的机器学习模型显示出与深度学习模型竞争的性能[32]。例如，Jiang等人。[33]表明，在几个基准数据集上，四个基于矢量的模型优于四个基于图的模型。我们研究了五种单独的机器学习算法和四种集成算法。单个算法包括随机森林[34]，光梯度增强机[35]，cat boost[36]，k-最近邻分类器[37]和逻辑回归[38]。集成算法包括装袋[39]，堆叠[40]，[41]和adaboost[42]。基于细胞形态的模型我们应用了最先进的CNN模型EsccientNet[43]，以基于5通道细胞绘画图像数据预测MoA。EscientNet应用复合缩放方法来调整宽度、深度和分辨率，表1用于预测10个选定MoA的主要三个模型的测试集上的F1分数。MLP使用化学结构数据，EscientNet使用图像数据，而Global模型（见图1）。 3）使用两种数据格式。结果基于五组训练和验证数据的平均值。MLP电子邮件全局模型ATP酶-i0.640.580.68AuroraK-i0.550.480.71HDAC-i0.980.890.99HSP-10.450.830.95JAK-i0.080.850.94PARP-i0.510.960.98Prot.Synth.-我0.540.980.99Ret.Rec.Ag1.000.981.00托波我0.680.640.97浴盆。波尔。-我0.370.920.97精度0.620.810.93宏观平均F10.580.810.92加权平均F10.610.810.93同时，以更少的训练时间和更少的参数在基于图像的任务中实现有竞争力的性能。我们采用了EsccientNetB1架构，并使用AdamW优化器[44]，并将加权稀疏分类交叉熵作为损失函数。全局模型对于我们在10个选定MoA类的数据上训练的全局模型，我们集成了MLP（基于复合结构数据的最佳性能深度学习模型）和E EsccientNet（用于图像数据）。这些模型首先被单独训练，然后被组合起来，并对其权重进行微调。我们的全球模型的架构显示图 3.结果图4中示出了20个MoA子集的基于复合结构的模型的传统和深度学习模型的性能的总结。这些数字显示了九组训练和验证数据的平均F1分数，以及为评估性能差异的显著性水平而进行的随机化测试的结果。我们对p值应用Bonferroni校正[45]，以解释我们正在进行几次比较的事实。传统的机器学习算法的性能都相当，但相比之下，深度学习模型的性能差异更大。表现最好的深度学习模型是MLP，最差的是CNN;我们注意到MLP的表现与最好的传统机器学习模型相当10个选定MoA的测试集F1得分（五个shuff-move的平均值）比较在化合物结构数据上训练的MLP、在Cell Paint图像数据上训练的EclcientNet和在两个数据源上训练的全局模型的训练和验证数据的列表在表1中示出。我们的测试集包含24种化合物。该测试集对于训练和验证数据的每种类型都是相同的。对于MLP，不同MoA类别的F1评分差异很大，范围从JAK抑制剂供试化合物的0.08至类维生素A的1.00G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000605图3. 具有两个输入路径的全局模型的架构，一个用于细胞绘画图像数据，一个用于化学结构数据。见图4。A）。比较前20名MoA（即在数据中最能代表化合物数量的MoA）的传统机器学习模型测试集的宏观平均F1分数。B）。深度学习模型测试集上的宏观平均F1分数比较前20名的MoA C）。前20名MoA测试集上宏观平均F1评分的Bonferroni校正随机化测试。结果是基于训练和验证数据的九个shu受体激动剂化合物。对于EschientNet，结果稍微更稳定，范围从Aurora激酶抑制剂的0.48到蛋白质合成抑制剂和类维生素A受体拮抗剂的0.98。对于全球模型，结果甚至更稳定，范围-从ATP酶抑制剂的0.68到维甲酸受体的1.00，或激动剂。我们的全局模型，实现了0.92的宏观平均F1得分，显示了明显的加和/协同效应，F1得分增加了0.11。基于随机化，在5%显著性水平下，三种不同的模型均彼此显著不同使用Bonferroni校正的p值进行检验。各供试化合物模型的预测性能总结见表S1（补充材料）。我们还在图5中以图形方式显示了这种比较，其中我们突出显示了化合物NKP-1339和氨甲喋呤，显示了非常明显的协同效应。鉴于MLP与化合物结构数据拟合的测试性能的高度可变性，我们使用DataWarrior[46]进一步探索了数据集中化合物的结构特性。化合物G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000606图五. 三种模型对每种化合物的预测率比较：A）。MLP，仅在化学结构数据上训练，相对于全局模型，在化学结构和细胞绘画图像数据两者上训练; B）。E.仅在图像数据上训练的EscientNet，与全局模型相比; C）. E.相对于MLP; D）.“GOOD”簇包含在图A-C中具有高于0.97的预测率的化合物。化合物NKP-1339和氨甲酰胺具有在图A-C中以绿色框突出显示，因为它们显示出比其他化合物更大的协同效应。(For对颜色的解释在此图例中，读者可参考本文的网络版本我们执行的分析使用默认参数设置。在图S1A（补充材料）中，我们显示了一个邻域分析，其中具有至少一个结构相似邻域的化合物具有连接线。这些结构上相连的化合物分离于图S1B（补充材料）中，并显示了其化合物ID编号。这些化合物的名称及其SMILES字符串可在我们的GitHub存储库中获得（参见数据和代码可用性）。虽然这些组合倾向于显示属于同一MoA类的化合物，但有几个不相连的化合物。在图S2（补充材料）中，我们显示了DataWarrior预测的各种理化性质的化合物分布（按其MoA类别分组）。我们还在此图中强调了我们的MLP模型预测不佳的六个测试集化合物（参见补充材料中的表S1）。由此我们可以看出，在某些情况下，这些预测不佳的化合物在其MoA类分布的尾部具有物理化学性质。这对于性质cLogS是最明显的，cLogS是水溶性的量度。ity。在我们的测试集中的两种JAK抑制剂化合物（莪术醇和CEP-33779），这两种化合物都被预测得很差，各自处于cLogS分布的相反极端。化合物NMS-873、NKP- 1339和CYT-997对于它们的MoA类别也是最不可溶的讨论我们已经引入了一种新颖而有效的MoA预测方法，该方法结合了细胞绘画图像数据和化学结构数据（以Morgan指纹的形式）。与之前提到的预测细胞毒性和增殖的研究类似[12]，我们发现基于图像的模型优于基于Morgan指纹的模型，并且整合两种数据源进一步提高了性能。然而，Lapins和Spjuth[10]发现，用于MoA预测的基于化学结构的模型通常优于基于L1000或Cell Painting的模型（然而，请注意，他们使用的特征来自图像，而不是原始图像-G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000607作为模型输入）。化学结构数据（例如从Morgan指纹中获得的数据）可以从“活性曲线”中得到补充，其中结构的微小变化可能导致生物活性的巨大差异，突出了用额外信息来源补充化学结构数据的必要性[2]，例如当前研究中使用的细胞绘画图像数据。应注意的是，细胞涂染测定是在单个癌细胞系（U2OS）上进行的。尽管使用癌细胞系作为替代物进行MoA和靶点识别研究已被广泛接受[47，48]，但使用不同的癌（或非癌）细胞系可能会产生略微不同的结果。尽管如此，鉴于实验是以受控方式进行的，并且所有细胞都被平等对待，我们对结果的稳健性充满信心。类似地，本研究中的药物筛选在10 μ M下进行，所有化合物。这是药物筛选中通常使用的浓度，以确保细胞反应。然而，考虑到这项工作中的化合物可能具有不同的效力，剂量反应可能有助于更准确地识别化合物由于数据的限制，我们的测试集每个MoA只有两到四种化合物。如果这些化合物中的任何一个碰巧是其类别的离群值，则在这种条件下的测试级预测性能可能会更好。基于我们使用DataWarrior的化合物水平分析，似乎这可能是我们的两种JAK抑制剂测试化合物的情况，因此可能解释了该MoA的MLP的低F1评分。然而，相对于基于图像的模型，基于化学结构的模型更好地预测了一些化合物。也许图像数据（如细胞绘画）的主要缺点是，并非所有化合物都必然产生形态学变化，或者形态学效应可能非常微妙，并可能被图像捕获期间板内和板间的技术变化所掩盖[2]。然而，在本研究中，为了减少微孔板中由位置效应引起的潜在偏差，使用PLAID将化合物和对照分布在板上，并且我们基于对照/DMSO孔标准化了板上的图像也有可能化合物确实产生形态学变化，但在使用细胞涂染试验捕获的任何细胞区室或细胞器中均不产生形态学另一种可能性是施用的剂量不足以产生形态学变化。关于我们探索对于化学结构数据，集成方法优于单独方法。同样，当将基于多个输入的模型与单独的建模路径结合在一起进行最终预测时，我们可能会比仅基于其中一个数据类别构建的模型获得更好的结果。在这项研究中，我们发现通过将用于化学结构数据的MLP和用于MoA预测的图像数据的EMCcientNet相结合，这种类型的加和/协同效应。尽管对于我们仅基于化学描述符的模型，最简单的深度学习架构MLP优于所探索的更复杂的网络架构，这有点令人惊讶，但在先前的研究中已经获得了类似的结果[49]，该研究在来自ChEMBL数据库的大型基准数据集上进行药物靶标预测。在我们的MLP架构中，我们使用了非常规的高丢弃率，以缓解由于化学结构数据稀缺而导致的过度拟合问题。我们还测试了其他可能的-ble架构，例如降低丢弃率和增加隐藏层的数量，每层中的神经元更少。然而，这些修改并没有改善模型性能。还应指出，目前研究的目的是是为了比较在形态学和结构数据上训练的模型的准确性，并且模型的域因此限制了它们在该范围之外的适用性（即，当测试化合物的MoA不属于模型训练的任何MoA时进行预测）。这是因为神经网络模型的预测既不是概率性的，也不是经过良好校准的[50]，将总是对最可能的类进行预测，即使所有类都应该以低概率进行预测。我们目前正在开发方法来填补这些差距，使用我们所说的预测目标轮廓（PTP），使用校准良好的适形预测器[51，52]。预测化合物的MoA可以极大地受益于多个数据源的相互作用[2]。各种研究[9，10，13，53]表明，图像和转录组学测定包含重叠和不同的细胞状态信息。因此，通过转录组学数据的额外整合，可能会实现比最终模型更好的预测此外，可以探索其他类型的化学结构表示，例如3D描述符。在本研究中，对于基于图像的模型和组合模型，我们使用了一组10个代表性很好的MoA类和一个广泛建立的2D描述符来表示化学。在未来的工作中，我们将探索这些模型在更广泛的类别中的预测能力，同时考虑潜在的多药理学效应。同样，上面提到的保形预测方法将可能证明对这一目的有用。与以前的看法相反，多药理学，其中一种化合物同时与多个靶标或过程结合，生物学中的规则而不是例外[19]。结论在这项工作中，我们探索了化学结构和细胞形态数据的融合，以预测作用机制。据我们所知，我们的工作代表了分子指纹数据和五通道荧光细胞绘画图像数据的第一个组合，使用深度学习以端到端的方式进行训练，以预测作用机制。此外，为了提高模型的可扩展性和性能，我们使用原始输入图像作为模型的输入，而不是从它们衍生的特征。我们发现，与单独训练相比，同时在两种输入类型上训练的模型的预测性能有了明显而显著的改善，F1得分增加了0.11，突出了组合数据源的好处用于预测作用机制。数据和代码可用性本文附带的图像数据已上传至Figshare（https://doi.org/10.17044/scilifelab.21378906）。本文附带的python代码可以在GitHub上找到（https：//github. com/pharmbio/CP-Chem-MoA）。GitHub存储库中还有一个csv文件compound_list_10_MoAs，它给出了我们分析中使用的化合物名称、它们的SMILES字符串和它们的参考ID号（1：231）。资金该项目得到了瑞典研究委员会（赠款2020-03731和2020-01865），FORMAS（赠款2018-00924），瑞典战略研究基金会（授予BD 15 - 0008 SB 16 - 0046）和瑞典战略研究计划eSSENCE。数据可用性本文末尾提供了数据和代码的链接致谢该项目得到了瑞典研究委员会（赠款2020-03731和2020-01865），FORMAS（赠款2018-00924），瑞典战略研究基金会（授予BD 15 - 0008 SB 16 - 0046）和瑞典战略研究计划eSSENCE。我们还要感谢Jonne Rietdijk和Polina Georgiev执行细胞涂染试验，并感谢Anders Larsson提供IT基础设施协助。G. Tian，P.J. Harrison，A.P. Sreenivasan等.生命科学中的人工智能3（2023）1000608补充材料与本文有关的补充材料可在在线版本中找到，网址：doi：j.ailsci.2023.100060。引用[1] Hight SK，Clark TN，Kurita KL，McMillan EA，Bray W，Shaidong AF，HaecklFPJ ， Mrsvale-Neto F ， La S ， Lohith A ， et al. High-throughput functionalannotation of natural products by integrated activity profiling. BioRX iv 2022 ：748129。doi：10.1101/748129。[2] Trapotsi M-A，Hosseini-Gerami L，Bender A.作用机制的计算分析：数据、方法和整合。RSC Chem Biol2022;3（2）：170-200。[3] 放大图片作者：Kensert A，Harrison PJ，Spjuth O.使用深度卷积神经网络进行迁移学习，用于分类细胞形态变化。SLAS Discov Adv Life Sci R& D2019;24（4）：466-75.[4] Caicedo JC，Singh S，Carpenter AE.在基于图像的扰动轮廓中的应用。Curr OpinBiotechnol2016;39：134-42.[5] Feng Y，Mitchison TJ，Bender A，Young DW，Tallarico JA.多参数表型分析：使用细胞效应来表征小分子化合物。Nat Rev Drug Discov 2009;8（7）：567[6] PeckD，Crawford ED，Ross KN，Stegmaier K，Golub TR，Lamb J. 一种用于高-- 通量基因表达特征分析。Genome Biol2006;7（7）：1-6.[7] Bray M-A ， Singh S ， Han H ， Davis CT ， Borgeson B ， Hartland C 等人， Cellpainting ， a high-content image-based assay for morphological profiling usingmultiplexed purified dyes. Nat Protoc2016;11（9）：1757-74。[8] Wawer MJ，Li K，古斯塔夫斯多蒂尔 SM，约萨五，博迪科姆 NE，马顿MA ，Toward performance-diverse small-molecule libraries for cell-basedphenotypic screening using multiplexed high-dimensional profiling. Proc Natl AcadSci 2014;111（30）：10911-16.[9] Way GP，Natoli T，Adeboye A，Litichevskiy L，Yang AX，Lu X，CaicedoJ，Ci-mini BA ， Karhohs K ， Logan DJ， et al. Morphology and gene expressionprofiling provide complementary information for mapping cell state.bioRX iv2021. doi：10.1101/2021.10.21.465335。[10] Lapins M，Spjuth O.评估基因表达和表型分析数据作为预测药物靶点和作用机制的定量描述符。Biorxiv 2019：580654。doi：10.1101/580654。[11] TrapotsiM-A，Mervin LH，Afzal AM，Sturm N，Engkvist O，Barrett IP，等.用于多任务生物活性预测的化学结构和细胞形态信息的比较。JChem Inf Model2021;61（3）：1444[12] 张文辉，张文辉，张文辉.比较细胞形态学描述符和分子指纹图预测细胞毒性和增殖相关试验。Chem Res ToX icol 2021;34（2）：422[13] Moshkov N，Becker T，Yang K，Horvath P，Dancik V，Wagner BK，ClemonsPA，Singh S，Carpenter AE，Caicedo JC. 预测化合物活性，[23] [10]李文辉，李文辉.虚拟筛选中的分子指纹相似性搜索方法2015;71：58[24] GrattarolaD，Alibaba C.在TensorFlow和keras中使用spektral绘制神经网络[应用笔记]。IEEE Comput Intell Mag 2021;16（1）：99[25] KaurM，Kaur H. 使用NetworkX库实现用于可视化社交网络数据的增强图形布局算法 Int J Adv ResComput Sci 2017;8（3）.[26] 杨文，李文.基于SMILES表示的卷积神经网络用于化合物化学模体检测。BMCBioinformatics2018;19（19）：83-94.[27] Li X，Fourches D. SMILES对编码：一种用于深度学习的数据驱动子结构标记化算法。JChem Inf Model 2021;61（4）：1560[28] Bjerrum E.J.微笑枚举作为分子神经网络建模的数据增强arXiv预印本arXiv：1703.070762017。[29] 穆塔夫湾用于分类和回归的多层感知器神经计算1991;2（5-6）：183-97.[30] Kipf T.N. ， Welling M.. 使用图卷积网络的半监督分类。 arXiv 预印本 arXiv ：1609.029072016。[31] 金马民主党，亚当：一种随机优化方法。 arXiv 预印本 arXiv ：1412.69802014。[32] Wang P，Fan E，Wang P.基于传统机器学习和深度学习的图像分类算法的比较分析。Pattern Recognit Lett 2021;141：61-7.[33] JiangD，Wu Z，Hsieh C-Y，Chen G，Liao B，Wang Z，et al. 图神经网络能为药物发现学习更好的分子表示吗基于描述符和基于图的模型的比较研究 JCheminform 2021;13（1）：1-23.[34] 布雷曼湖随机森林Mach Learn2001;45（1）：5-32.[35] Ke G，Meng Q，Finley T，Wang T，Chen W，Ma W，et al. LightGBM：a highlyefficient gradientboosting decision tree.高级神经信息处理系统2017;30.[36] Prokhorenkova L，Gusev G，Vorobev A，Dorogush AV，Gulin A. CatBoost：使用分类特征的无偏增强。高级神经信息处理系统2018;31.[37] Keller JM，Gray MR，Givens JA.一种模糊k近邻算法。IEEE Trans Syst ManCybern1985（4）：580-5.[38] 拉瓦利议员。Logistic回归循环2008;117（18）：2395-9。[39] 布雷曼湖装袋预测器。Mach Learn1996;24（2）：123-40.[40] 帕夫雷申科湾使用堆栈方法进行机器学习模型。2018 IEEE第二届数据流挖掘处理国际会议（DSMP）。IEEE; 2018. p. 255比8[41] Dietterich TG.机器学习中的包围方法。在：多分类器系统的国际研讨会。Springer;2000.p. 1-15。[42] 沙皮雷EX plaining adaboost.在：经验推理。Springer; 2013. p. 37比52[43] Tan M，Le Q. E EscientNet：重新思考卷积神经网络的模型缩放。参加：机器学习国际会议PMLR; 2019.p. 6105-14[44] 洛希洛夫岛，Hutter F.解耦权重衰减正则化。arXiv预印本arXiv：1711.051012017。[45] Bland JM，Altman DG.多重显著性检验：Bonferroni方法。BMJ1995;310（6973）：170.[46] Sander T，Frederick J，von Kor M，Rufener C.DataWarrior：一个开源程序，表型普罗菲莱斯和化学结构. doi：10.1101/2020.12.15.422887。bioRXiv2022年：2020-112年。化学感知数据可视化和分析。J Chem Inf Model 2015;55（2）：460- 73。doi：10.1021/

下载后可阅读完整内容，剩余1页未读，立即下载