没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能3(2023)100055审查人工智能系统在魔术猎枪设计中的应用 药物José Teó fillo Moreira-Filhoa,1,Meryck Felipe Brito da Silvaa,1,Joyce Villa VerdeBaumarborbaa,Arlindo Rodrigues Galvão Filhob,Eugene N Muratovc,d,CarolinaHorta Andradea,Rozio de Campos Bragae,Bruno Junior Nevesa,aLabMolb巴西戈亚尼亚戈亚斯联邦大学信息学院c美利坚合众国北卡罗来纳州教堂山北卡罗来纳大学Eshelman药学院分子建模实验室d巴西,若昂佩索阿,帕拉伊巴联邦大学药物科学系eInsilicAll Ltda,圣保罗,巴西aRT i cL e i nf o保留字:多靶点药物深度学习预测建模从头设计多任务学习a b sTR a cT设计魔法霰弹枪化合物,即,使用基于机器学习(ML)和深度学习(DL)方法的人工智能(AI)系统来打击多个目标的化合物,具有革命性药物发现的巨大潜力这种智能系统使计算机能够以低成本和时间效率的方式创建新的化学结构并预测其多目标特性AI应用于药物发现的大多数实例在这篇综述中,我们重点介绍了下一代多靶点药物自动设计AI系统的当前发展我们讨论了经典的机器学习方法,尖端的生成模型和多任务深度神经网络如何帮助多靶点药物的从头此外,我们提出了最先进的工作流程,并强调了一些研究,展示了令人鼓舞的实验结果,为从头药物设计和多靶点药物发现铺平了道路。1. 介绍几十年来,“一个靶点,一种药物”的原则一直是药物发现流程图中必不可少的策略。该范例基于这样的前提,即靶向单一生物靶标(例如,酶或受体)可以避免由结合引起的副作用其他生物靶点(尽管许多单靶点药物在临床上有效,但经验表明,过度的选择性有时可能会导致致命的后果[2,3]。此外,这些分子对复杂疾病(例如,糖尿病、癌症、神经退行性疾病、代谢综合征和动脉粥样硬化)[4,5],其中发病机制依赖于缩略语:5-HT1A,血清素亚型1A受体; 5-HT2A,血清素亚型2A受体; AI,人工智能;A1 AR,A1腺苷受体;A2 A AR,A2腺苷受体; ANN,人工神经网络; BRAF,丝氨酸/苏氨酸激酶蛋白B-raf; CADD,计算机辅助药物设计; Cmax,最大血清浓度; CNN,卷积神经网络; D1,多巴胺受体D1; D2,多巴胺受体D2; DT,决策树; ELU,E Xponential线性单位; ECFP,扩展连接指纹; ECFP 4,直径为4的扩展连接指纹; FCFPs,功能类指纹; FDA,美国食品药品监督管理局; FNN,前馈神经网络; GPU,图形处理单元; GRU,门控递归单元; hERG,Ether-à-go-go-Related Gene; HTS,高通量筛选; IC 50,半数最大抑制浓度; LSTM,长短期记忆; MACCS,分子访问系统; ML,机器学习; MOO,多目标优化; MTL-DNN,多任务学习深度神经网络; PD,混杂差异; PCM,蛋白化学计量学建模; PDGFR,血小板衍生生长因子受体; pEC 50,减去半数有效浓度; PK,药代动力学; pKi,减去结合亲和力; MOSES,分子集; NSGA-II,非支配排序遗传算法; QSAR,定量构效关系; ReLU,整流线性单位; RF,随机森林; RNN,递归神经网络; SELFIES,自参考嵌入式字符串; SMILES,简化分子输入行输入规范; SVM,支持向量机; T 1/2,半衰期; Tmax,达到药物浓度峰值的时间;TPU,张量处理单位; VEGFR,血管内皮生长因子受体。通讯作者:李博士Bruno Junior Neves,巴西戈亚斯联邦大学电子邮件地址:brunoneves@ufg.br(B.J. Neves)。1这些作者对本研究做出了同等贡献,应被视为共同作者。https://doi.org/10.1016/j.ailsci.2022.100055接收日期:2022年9月19日;接收日期:2022年12月13日;接受日期:2022年12月21日2022年12月22日在线提供2667-3185/© 2023由Elsevier B. V.出版这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciJ.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000552图1.一、近十年来FDA批准的多靶点药物示例。对一组生物目标产生影响[6]。因此,对于复杂疾病,通常发现体外选择性和体内有效性之间的相关性较差[7,8]。在这种观点下,多靶点或神奇鸟枪药物成为克服耐药性问题和提高对复杂疾病疗效的有效治疗方案[9]。多靶点药物通过调节疾病的多个相关靶点来对比经典药物设计范例[10]。因此,多靶点药物设计已经引起了药物化学家的兴趣,放弃了其作为新兴范式的地位[11,12],成为药物化学领域的一个热点。 最有效的药物发现方法[7迄今为止,最成功的多靶点药物是激酶抑制剂,因为激酶在关键生物学途径如癌症发展和进展中发挥重要作用。在过去的十年中,几种多激酶抑制剂从药物发现渠道进入临床使用[13]。如图1所示,2011年至2021年间,美国食品药品监督管理局(FDA)批准了28种靶向人类激酶组的抗癌药物。这些经过验证的药物通过同时靶向多种酪氨酸激酶来应对癌症的多因素性质。例如,治疗瑞戈非尼(Stivarga®; Bayer HealthCare Pharmaceuticals,Inc.)部分是由于其能够抑制10种参与调节肿瘤血管生成[血管生成素-1受体和血管内皮生长因子受体(VEGF)1、2和3]、维持肿瘤微环境[成纤维细胞生长因子受体和血小板衍生生长因子受体(PDGFR)-���]和致癌[丝氨酸/苏氨酸激酶蛋白B-raf(BRAF),Raf原癌基因丝氨酸/苏氨酸蛋白激酶、干细胞生长因子受体和原癌基因酪氨酸蛋白激酶受体Ret][14-16]。尽管有明显的优势,但设计具有平衡的多目标特性的新化学实体在历史上一直很困难。化合物的活性需要同时针对来自具有不同结合口袋的不同蛋白质家族的几个靶点进行优化[17]。因此,迫切需要创新的计算机方法来使多靶点药物设计更加有效[18,19]。在过去的几十年里,药物发现和相关领域的不同领域带来了惊人的创新,如高通量筛选(HTS),组合化学,机器人技术,基因组学,转录组学,代谢组学和化学基因组学[18,20]。这些尖端技术产生了大量的生物测定数据,J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000553药物发现领域进入 因此,可以在不同类别的公共领域数据库中找到大量数据,包括:生物活性数据库(PubChem[22]和ChEMBL[23]);三维结构数据库(RCSB蛋白质数据库(PDB)[24]);蛋白质-蛋白质相互作用数据库(STITCH[25]和STRING[25]);途径/基因组数据库(BRENDA[26] 和 BioCyc [27]); 化学 到X学 数据库(CompToX[28]和EFSA充分利用这些丰富的数据来源是化学信息学和计算机辅助药物设计(CADD)领域的研究人员的高度兴趣。已经开发了许多计算机方法来接近数据驱动的多靶点药物设计。这些方法通常被分类为基于配体的(例如,药效团建模)或基于结构(例如,分子对接),这取决于配体和结构信息是否可用[32]。然而,探索这些工具的潜力仍未开发,因为大多数药物发现的计算机实例都是单靶向的。因此,需要创新技术来处理复杂的数据并将其转化为有用的信息,从而实现数据驱动的决策以及随后的具有广谱作用的多靶点药物的开发[33近年来,基于机器学习(ML)的人工智能(AI)方法已成为改善多靶点药物设计决策的有前途的替代方案[17,36,37]。ML是AI的一个子领域,它使用不同的算法使计算机能够根据过去的观察做出有效的预测,而无需不断地编程来完成这项任务[38这些方法能够处理多目标优化(MOO)问题,例如发现多目标化合物,导航庞大的数据集,并允许更好的决策[34]。在这篇综述中,我们重点介绍了用于多靶点药物自动化设计的AI技术的最新进展。我们还强调了实施创新工作流程的文献实例,并对现有陷阱提出了可能的解决方案2. 机器学习方法50多年前,经典的定量构效关系(QSAR)建模开始使用线性模型(如线性回归和k-最近邻)来预测化学性质[42从21世纪初开始,QSAR方法发展到更复杂和非线性的ML方法,特别是决策树(DT),随机森林(RF)和支持向量机(SVM)[45,46]。DT由一组规则组成,这些规则能够在分子特征(表示为分子描述符)和化合物的活性之间建立关系[47,48]。DT是树形的,在顶部呈现一个根节点,数据在此被划分为分支。这些分支将继续分成逐渐变小的子集,直到到达结果(表示为叶节点)[17,49]。DT易于解释和验证,并且足够灵活,可以处理数值和分类输入以及多类问题[17,50,51]。DT的缺点包括损失 噪声或不完整数据中的性能,以及对高方差数据的敏感性(即,小的变化可能导致不同的数据分割和错误传播)[49,52]。减轻偏差和方差问题的一种方法是使用DT的集合[53]。从这个意义上说,一个最广泛使用和性能最好的集成算法 是RF(图2a)[54,55]。RF包括使用从具有替换的训练数据获得的不同子集构建的个体DT的集合[56]。此后,获得对未见过的数据的预测通过多数投票(分类)或预测(回归),个别树另一种非线性ML方法是由Vapnik及其同事开发的SVM算法[57,58]。SVM是一种有监督的ML算法,能够为化合物属性/活性预测执行回归和分类任务[48]。 如图支持向量机将原始的分子描述符空间转化为高维特征图二. 分类过程基于(a)随机森林和(b)支持向量机。空间,其中样本可以是线性可分的[49]。这种映射是通过使用核函数来实现的(例如,多项式、线性、S形或径向基)[59]。然后,一个超平面,最好地分离不同类别的化合物(例如,活动/非活动)是通过使用每个类别(支持向量)的最近数据点跟踪的较大边缘(支持超平面)的定义生成的[17,45,49]。因此,看不见的化合物也被映射到这个高维特征空间中,并根据它们所在的边界的一侧进行分类[45]。SVM是用于预测化学和生物性质的最佳算法之一,这要归功于其处理复杂、非线性、高维和噪声问题的能力[45,48,54,60]。然而,根据数据集,特征空间和内核的大小,SVM可能在计算上很昂贵[49]。Blaschke和同事[61]开发了SVM,RF,前馈深度神经网络(FNN,见第5节)和图形卷积神经网络(GCNN),以基于从PubChem等多个数据源检索的筛选试验和激酶抑制剂数据来识别混杂和非混杂化合物。然后,使用混杂差异(PD)标准将化合物分为不同类别,其中对一个靶标有活性的化合物或始终无活性的化合物(筛选分子:PD = 1和PD = 0)被视为非混杂的,而对10个或更多靶标有活性的化合物(PD≥ 10)被视为混杂的。对于SMV、RF和DNN模型,化合物使用直径为4个相互作用的扩展连接性指纹(ECFP 4)表示,并表示为GCNN的化学图。一般来说,所有模型都是预测性的,总体准确率约为70% , ML 方 法 之 间 的 差 异 很 小 。 在 另 一 项 研 究 中 , Heikamp 和Bajorath[62]研究了多标签预测模型(即, 能够处理两类以上的模型),其中化合物使用SVM模型呈现针对不同靶组合的活性。首先,从PubChem数据库中[63]对三种细胞色素P450亚型和三种不同的β-胡萝卜素原酶进行了研究。所有化合物均使用ECFP 4表示;然而,生成的标准SVM模型无法区分具有重叠但不同活性特征的化合物。然后,通过加权,提出了一种支持向量机线性组合方法J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000554使用积极和消极因素的不同模型。因此,改进的模型有效地区分了具有重叠活性特征的化合物。近几十年来,蛋白化学计量学建模(PCM)已成为发现多靶点药物的合适技术[64,65]。PCM 是一种计算化学基因组学方法,它大量借鉴了最近ML的发展。PCM模型可以在由一系列化合物和蛋白质靶标或结合点组成的数据集上训练(即,以允许别构/正构结合和结合模式之间的区别),其中理想地,化合物已经在尽可能多的靶标上测量[64]。配体描述符的同时建模(例如,散列指纹、圆形指纹、MACCS键、原子计数)和目标描述符(例如,基于原子类型、Z尺度、序列描述符)空间和交叉项描述符(即,增加配体和靶描述符的另外一类描述符)允许研究者更好地理解复杂的多目标特性),因为可以评估目标变异性对化合物活性的影响[64]。3. 深度学习术语“深度学习(DL)”是指使用由多个隐藏层组成的人工神经网络(ANN)(也称为深度神经网络(DNN))来学习数据表示的不断增长的ML领域。这些DNN的结构模仿了大脑皮层中发现的神经元的操作,以从特征表示中学习 具有多个抽象层次的数据[66深度学习的大部分广泛普及与云计算[69]和新硬件技术的可用性有关,例如图形处理单元(GPU)[70]和张量处理单元(TPU)[71],这使得研究人员能够以高达35倍的速度训练网络。重要的是,深度学习的主要优势是能够从大量数据中学习复杂的特征。图3a示出了随着训练数据大小增加,DL和ML性能之间的比较。对于较小的数据集,ML算法通常表现出比DL更好的性能[72,73]。另一方面,当数据量增加时,ML方法的性能达到饱和点并且没有进一步提高,而DL的性能保持增加[72]。例如,最近,Mayr等人[74]表明,使用大规模药物发现数据集训练的基于DNN的架构明显优于所有竞争的经典ML方法(KNN,SVM,随机森林和朴素贝叶斯)。然而,在使用不同来源和组成的数据集的应用程序中,并未始终观察到DL优于ML模型的性能[75,76]。Kato等人[76]认为,DL和ML模型的性能可能受到分子特征表示水平不足的影响,无法预测在分子活性测量中观察到的复杂生物学机制[76]。此外,替代数据分割策略和由此产生的测试系统(超参数)可以提高模型的相对性能,特别是对于最具挑战性的复合数据集[75,77]。全连接前馈神经网络(FNN)是第一种也是最简单的DNN。一个典型的FNN包含许多人工神经元,排列在三种类型的层中(图1)。 3 b)[78]:• 输入层:接受输入数据并将其传递到第一个隐藏层;• 隐藏层:位于算法的输入和输出之间。隐藏层对输入数据执行非线性变换,这将产生足够接近预期输出的预测输出;• 产出层:主要负责生产产出预测。该网络由感知器的互连系统组成,感知器作为基本的信息处理单元。图3c更详细地示出了一个磁控管。感知器算法由四个部分组成:(i)输入值,(ii)权重和偏差,(iii)加权和,以及(iv)激活函数输入可以来自输入层或前一个隐藏层中的感知器[79,80]。感知器的操作由一个函数组成,该函数将输入值乘以相应的偏置项是一个添加到感知器的输入和权重之和的可调项权重在输入层的开始处用随机值初始化。然后,将所有这些相乘的值加在一起以创建加权和。然后将加权和应用于通过激活函数的激活函数,该激活函数可以添加非线性分量或将线性化分配给网络。最后,激活函数的输出移动到下一层。这种向前运动被称为在数学上,输出值(SNR)是神经元i的输入信号的非线性加权和。���可以������如Eq. (1):������=���(∑���������∗������)(1)���其中aj是指输入特征,Wij是输入神经元j的权重在神经元i上,g是激活函数。第一个感知器模型是为了简单的分类而创建的,考虑到能够预测二进制输出的线性分类器。然而,大多数计算问题需要一个能够对非线性、可分离数据建模的分类器。因此,出现了几个非线性激活函数来识别数据中更复杂的特征。在化学信息学领域中,众所周知的激活函数(图3d)包括Sigmoid、双曲正切(TanH)、整流线性单位(ReLU)、泄漏整流线性单位(Leaky ReLU)和E×ponential线性单位(ELU)。激活函数的正确选择应考虑输入特征的类型以及DNN的架构和复杂性。例如,Sigmoid和TanH激活函数不能用于具有许多层的DNN中,因为梯度消失。ENT问题(即,在训练过程中遇到的不稳定行为a DNN)。通过反向传播的基于梯度的学习方法从每个神经网络接收更新权重,然后接收关于当前权重的误差函数。问题是,在某些情况下,梯度非常小,从而有效地防止了权重值的变化。另一方面,权重可以接收更新的值,这些值最终会收敛到非常高的值,从而导致梯度爆炸问题。目前,ReLU是最流行的激活函数,因为它通常克服了消失梯度问题[81]。如果输入为正,ReLU直接输出输入;否则,它将输出零。ReLU已经成为许多类型DNN的黄金标准激活函数,因为使用它的模型更容易训练,并且通常可以实现更好的性能[82]。对于任何类型的问题,DNN架构都需要在训练之前指定。未经训练的DNN被创建为“无知”系统, 只有通过接触数据,他们的无知才会慢慢减少。衡量这种学习的主要方法是监测网络每次做出预测时产生的误差。从机制上讲,输入数据的信号通过预先指定的网络向前移动到输出层,然后反向传播关于使用损失函数测量的误差的信息,此时神经元连接权重被更新[83]。传播和反向传播(图3e)根据指定的时期数重复多次,这是一个定义次数的超参数(即,交互),错误将通过网络反向传播[84]。一个epoch由一个或多个批组成,其中一部分数据集的一部分用于训练神经网络。因此,为了训练DNN是通过优化权重来最大化目标函数,每个人都有自己的故事[67]。DNN 的 另一 个 特点 是 它们 具 有灵 活 的架 构。 最 流行 的 架构 是FNN[85],递归神经网络(RNN)[85]和图神经网络(GNNs)[86,87]。J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000555图三. 基于DNN的学习过程。(a)ML的性能与关于数据量的DL模型;(b)典型前馈神经网络(FNN)的架构;(c)感知器模型;(d)常用的激活函数;(e)典型DNN中错误的前向传播和反向传播每种体系结构都有优点和缺点,这与所建模的功能类型全连接FNN(图3b)是DNN最常见的架构。在这个网络中,信息在一个单一的方向上移动,从输入层到输出层,没有循环或反向连接[85]。RNN已经被设计用于识别序列数据中的模式,例如简化的分子输入线输入特定的(SMILES)字符串。虽然它们仍然是RNN中最常用的表示,但SMILES没有机制来确保字符串在物理原则和语法方面是有效的。鉴于此,自引用嵌入字符串(SELFIES)已被建议作为化学上更直观的替代方案,因为每个符号组合 在其字母表映射到一个化学有效的图[88]。RNN架构(图4 a)有三种类型的层:输入层X 0,隐藏层J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000556图四、 深度学习动物园(a)展开的递归神经网络(RNN)。(b)默认RNN的结构图,(c)长短期记忆(LSTM),(d)门控递归单元(GRU)和(e)图卷积神经网络(GCNN)架构。层A(递归状态),以及输出层h0。如果隐藏层循环展开,默认的RNN会多次复制同一个结构,每次复制的在LSTM网络中,GRU只使用两个门:(i)更新门,(ii)复位门来自更新和复位门的权重可以如等式(1)所示计算。(二):他的继任者[85]。因此,RNN是一种记忆门控架构:它们允许通过来自������=���(������[���−1���,]+���(二)先前的状态,这意味着相同的输入可以根据系列中先前的输入产生不同的输出[102]。然而,默认RNN(图4b)无法捕获扩展到有限数量的时间步长(长期依赖性)的时间依赖性。因此,长短期记忆(LSTM)[89]和门控递归单元(GRU)[90]网络专门解决了这一限制。与默认RNN(图4 b)相比,LSTM的细胞状态(图4 b) 4 c)由Hochreiter和Schmidhuber [89]引入的架构,通过保存和学习数据中的长期依赖关系,为消失/爆炸梯度提供了一种解决方案。如图4c所示,LSTM使用三个门来控制单元状态(单元状态):(i)遗忘门,(ii)输入门和(iii)输出门。遗忘门决定哪些信息需要注意,哪些可以忽略。来自当前输入()和先前隐藏状态(���−1)的信息通过Sigmoid函数传递������此函数生成0到1之间的值,乘以前一个单元状态(���-1)[90,91]。���然后输入门决定什么样的新信息可以存储在单元状态中。这通常由一个Sigmoid函数和一个TanH运算符控制,Sigmoid函数决定哪些值将被更新,TanH运算符创建一个新候选值(介于-1和1之间)的向量。从这些激活功能产生的输出值逐点相乘,然后添加到单元状态。最后,一个输出门决定下一个隐藏状态的值(阈值)。在此步骤中,当前和先前隐藏状态的值被传递到Sigmoid和TanH函数中。这两个输出都是逐点相乘的。最后,基于最终值,网络决定哪些信息应该被发送到网络[90,91]。���[90]第90话 4 d)被提出作为LSTM的变体,以支持门控和隐藏状态来控制信息的传播。当你-其中,Wz是输入向量,Wz是权重矩阵X,(x)是sigmoid函数,而Wz分别是连接偏置和更新门。������������时间步长���为1,表示它保存了前一个单位的信息,并乘以其权重。求和的值通过sigmoid函数(sigmoidfunction),在时间步长(sigmoid)处具有连接偏差。������更新门(UpdateGate,简写为UPDATE)用于控制新状态中有多少只是旧状态的副本,即,从状态���-1需要传递到下一个状态的信息量。���相反,复位门控制着需要忽略多少的π���−1[92]。GNN可以分为四组:(i)图自动编码器,(ii)时空图神经网络,图卷积神经网络(GCNN)和递归图神经网络(即,GAT:图形注意力网络[93]; MPNN:消息传递神经网络[94])。GCNN(图4e)是一种非常强大的卷积神经网络(CNN),旨在直接在图形上工作[86,87]。从机制上讲,卷积是GCNN中最基本的操作。然而,通常用于处理规则网格状结构(例如,图像)不能直接应用于图,因为节点连接的数量可能会获得不同的形状和大小(非欧几里德向量空间)[95为了解决这个问题,如果不同图中的节点的特征表示相关,则将它们分配到相似的位置。给定选定的节点序列,然后通过最小化固定大小向量空间中两个图之间的预期距离来为每个节点合成邻域[95,98]。通过考虑相邻原子的贡献,卷积运算可以在不同的能级上进行。卷积生成的向量首先经过非线性变换,然后求和以形成一个J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000557神经指纹编码化学信息。最后,神经指纹通过另一个完全连接的神经网络来生成最终输出任务[68]。在GCNN表示中,几何DL方法已被用于预测配体与蛋白质靶标的结合构象。具体地说,该模型基于为每个配体-靶对量身定制的距离似然进行学习。在第一步中,神经网络提取一个网格池(即,节点、边和面的集合),其定义结合位点的分子表面的形状。以类似的方式,配体被表示为二维无向图,其中原子和键分别由节点和边表示。目标网格和配体图都由独立的残差GCNN处理。在接下来的步骤中,来自蛋白质靶标和配体的经处理的特征使用混合物密度网络连接以模拟配体与靶标的相互作用[99]。3.1. 多任务学习为了应对多靶点药物设计的挑战,DL领域正在进行许多研究以开发多任务模型。多任务学习(MTL)是一种归纳迁移方法,其中多个任务(例如,目标)由共享模型同时学习。这种方法特别有趣,因为MTL-DNN可以探索在不同任务中学习的表示,并通过较少的训练示例提高任务的性能[100,101]。以前的研究表明,MTL可以在单任务方法的预测性能上有很大的提高[102]。根据Rodríguez Pérez和Bajorath[75],MTL模型为预测最具挑战性的生物学特性提供了增量优势。当MTL模型在共享化学信息的任务上进行评估时,所获得的结果通常优于单任务学习(STL)模型。在STL模型精度有限的情况下,观察到MTL模型的最大相对性能增益[75]。有几种优化和校准MTL模型的方法。工程师通常专注于开发适用于稀疏数据的聚合损失函数,作为一种同时学习多个任务的方法。可以使用不同的损失加权机制来帮助MTL优化,例如向各个损失函数添加权重以防止一个拥有更多数据的任务来主导优化[103]。大多数现有的MTL模型是基于共享隐藏层的参数。MTL中的参数共享机制分为四类:(i)硬参数共享[104],(ii)软参数共享[104],(iii)分层共享[105,106]和(iv)稀疏共享[107,108]。在硬参数共享中,神经网络的隐藏层被共享,同时保留一些特定于任务的输出层。共享相关任务的大部分层减少了过度拟合的机会,但当任务冲突时,学习很容易被负迁移所阻碍,这对模型性能有害[104]。软参数共享机制为每个任务提供独立的参数和子网,但它们的信息可以相互学习。该方法规则化了个体训练目标的参数之间的距离,以鼓励不同任务之间的相似模型参数[104]。这是...archical共享考虑任务之间的渐进关系,这意味着一个任务可能是另一个任务的子任务,因此将它们放置在不同的网络层[104另一方面,分层共享机制可能是一个复杂的问题,依赖于任务关系的先验知识[104,109]。稀疏共享机制基于彩票假设的思想自动提取每个任务的时间将获得的训练集重叠并并行训练[107,108]。MTL模型是潜在的有用的设计多激酶抑制剂,鉴于相当数量的激酶仍然研究不足,这些目标的标记化合物是稀缺的。传统上,这限制了构建高质量预处理的机会,发音模型和推进对这些药物靶点的理解。为了克服这个问题,开发了MTL [110,111]来预测未测试化合物的激酶组活性特征最初,使用ECFP 4指纹作为输入,用超过170,000个生物活性数据点(132,000个化学结构和391种激酶)训练网络[110,111]。然后,在KinomeX网络应用程序(https://kinome.dddc.ac.cn)[110]中将经过训练的MTDNN应用于公共场合。该应用程序具有直观的用户界面,用户可以在其中绘制感兴趣的化合物或直接提交查询化学结构的SMILES字符串考虑到KinomeX的可验证性,Li和同事[111]然后对具有未知激酶活性特征的各种化合物进行了全面的计算机分析(图1)。 5 a)。重要的是,预测光谱的实验验证显示与实验数据显著一致,表明KinomeX可用于发现多靶点激酶抑制剂[111]。3.2. 从头设计计算从头设计是一种有效的方法,可以以非常低的成本和时间效率的方式创建具有所需多目标特征的新分子结构DL在从头设计中的使 用 的 增 加 促 使 了 诸 如 分 子 集 ( MOSES ) [112] 、 REINVENTv.2.0[113]和GuacaMol[114]等平台的产生,以标准化的方式评估和比较生成方法。该方法旨在获得具有有效结构的化合物,在化学和生物学性质方面与已知化合物相似,以及骨架和片段的结构多样性。受此机会的启发,深度生成建模技术已被用作药物发现早期阶段的紧急从头设计方法,从而产生自动设计新的多靶点候选药物的自主能力[115]。生成模型的开发通常包括两个步骤。最初,生成网络被训练成生成语法上的plausi- 使用具有代表性的结构的基准数据集来分析结构。然后,对模型进行微调,以仅生成具有所需性质的化合物。生成模型的微调使用转移或强化学习进行(图5b)[116,117]。虽然早期的工作使用迁移学习来通过使用具有所需特性的化合物的集中数据集来偏向生成任务[118,119],但它 现在通常将生成任务与强化学习算法耦合,该算法使用监督模型来提供基于属性的反馈到生成模型[119,120]。通过交互式地暴露生成模型进行微调,它学习共同的特征,然后更新其结构输出,以越来越多地满足所需的属性。最近,Blaschke和Bajorath[119]开发了一种通过微调REINVENT [113]来创建多目标化合物的方法,REINVENT[113]是一种基于LSTM细胞的深度生成网络[121],最初使用来自ChEMBL[122]的140万种生物活性化合物进行预训练。最初,作者以SMILES格式编制了一组实验确认的无靶标(无活性)、单靶标和多靶标化合物。然后,随机选择1000种多目标化合物,通过迁移学习对REINVENT生成模型进行微调(图5b)。在微调之后,决策树集成分类器系统地显示了生成模型创建多目标化合物(新生成化合物的26.6%)的明显趋势,同时降低了生成单一或无目标化合物的可能性。综上所述,这些发现表明生成模型可用于从头多靶化合物设计[119]。最近,Tan及其同事[123]开发了一种自动化系统,用于从头设计(图5c)具有抗精神病活性的新型多靶点化合物,该系统由三步过程组成:(a)生成同时靶向D1,D2,5- HT1A和5-HT2A受体的化合物的集中文库;(b)通过MTL-DNN对集中文库进行虚拟筛选;(c)采用交互式强化学习环境奖励高分并惩罚低分J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000558图五. 在多靶点药物发现中探索的自动深度学习(DL)系统的示例。(a)KinomeX的工作流程,一个用于预测多靶点激酶抑制剂的网络应用程序;(b)微调REINVENT生成神经网络,用于多靶点化合物的从头设计;(c)通过集成深度生成网络和多任务深度神经网络(MTL-DNN),自动从头化合物.这个生成模型使用RNN进行预训练,其中两个LSTM层由SMILES格式的大量药物样化合物堆叠而成。然后,使用具有针对D1,D2,5-HT1A和5 HT2A受体的实验数据的小型化合物库对预训练的模型进行微调。同时,使用ECFP 4(图5c)指纹作为输入的MTL-DNN用于开发回归模型,以预测在D1、D2、5- HT1A和5-HT2A受体背景下生成的化合物的活性[123]。在这个过程中,一个转移学习-然后,采用优化策略从具有已知pKi值的较大化合物数据集中学习一般特征(权重),并通过微调将其应用于具有定义的pIC50和pEC50在每个时期,生成的化学结构通过MTL-DNN模型进行交互式评估,并基于各种标准进行进一步筛选,包括药物相似性和合成可及性[123]。然后对高排名化合物进行采样,以提高下一次迭代的训练集重要的是这J.T. Moreira-Filho,M.F.B.达席尔瓦,J.V.V.B. Borba等人生命科学中的人工智能3(2023)1000559系统已经成功地产生了具有所需多靶点活性的新化合物其中化合物1对D2(IC50 = 0.216 μM)、5-HT1A (IC50 = 0.0005 μM)和5-HT2A(IC50 = 0.001 μM)受体在生化实验中。基于MTL-DNN的化合物1的结构优化也导致了化合物2的发现,其不仅表现出多靶点特征,而且在小鼠中显示出有效的抗精神病作用(80%的多动减少),具有较低的僵硬症和镇静潜力[123]。3.2.1. 多目标优化问题药物发现文献充斥着MOO方法来解决多目标优化问题。尽管其中许多被标记为MOO是指找到一个以上目标的最佳解决方案值。 使用MOO的动机是优化需要简单的方程,这简化了问题[125]。MOO问题的方程定义如下:缺乏基于帕累托前沿的从头设计研究。显然,该领域的主要例子是DrugEX v.2.0,由Liu等人提出。这项工作包括一个基于LSTM细胞的深度生成网络,用于估计对靶标(A1 AR和A2A AR)和一种抗靶标(hERG)活性的ML预测因子池[127]。生成模型和预测器都是预先训练好的,然后在强化学习框架下相互作用。在交互循环期间,生成模型创建一批基于SMILES的分子,而预测因子提供的评分用于构建生成分子的帕累托排名[127]。每个SMILES的最终回报是基于Pareto排名和非支配排序遗传算法(NSGA-II)计算的[128]。 在这一过程结束时,该框架能够产生很大比例的 有效的SMILES具有对多个靶点的预测选择性,从而具有高效率和低毒性的潜力[127]。4. 生物特征谱生物特征匹配是基于对生物特征的比较,���������������������scin1(���),���2(���),.. . ������(���)subjectto∶���∈���(二)药物与另一种化合物、疾病或临床表型的独特特征或“签名”。的生物特征其中n是目标函数的数量,U是可行集,x是解决方案,()是第n个目标函数,min/max是组合对象操作[125]。一个MOO任务总是以一些期望的属性声明开始。首先,化学和生物学性质必须转化为数学目标。如果存在多个目标,则必须使用适当的多目标公式来处理它们[124]。在本节中,我们将详细探讨其中两种MOO公式,即标量化和帕累托方法。Former和Coley[124]对药物发现中的MOO方法进行了深入讨论。标量化方法将多目标优化问题简化为单个标量向量函数,如下所示:������������������������(���������������其中n是目标函数的数量,()是组合拟合函数,x是解,()是第n个目标函数,w是()的常数权重[126]。���������目标函数的权重将决定拟合函数的解,并显示性能优先级。例如,如果给目标函数一个大的权重,它将优先于具有较小权重的目标函数[126]。与标量化相反,Pareto方法发现了一组解决方案,这些解决方案揭示了目标之间的权衡,而无需为竞争目标选择任何重要的权重因子[124、125]。帕累托优化可以写成如下:���1,���������������药物可以从至少五种一般类型的数据中获得:化学信息、OMIC(基因组学、蛋白质组学、代谢组学、代谢组学和转录组学)、生物学途径、细胞/器官和临床[129]。Duran-Frigola及其同事[128]提出了化学签名,这是一个包含80万个分子及其在不同生物学水平上的相似性的签名数据库。化学分析将数据分为五个复杂程度不断增加的层次。药物往往一种化合物(化学),与一种或几种蛋白质受体(靶标)相互作用,触发生物学途径(网络)的扰动,并引发表型,基于细胞的测定(细胞),然后可以转化为临床结果(临床)。作者表明,这些特征可以帮助药物发现任务,包括目标识别和库表征。寻找具有所需生物活性的新分子是一项艰巨的任务。在SARS-CoV-2爆发之初[130],在一次寻找抗SARS-CoV-2“老药”的公开合作中,我们采用了PHAARM MatchMaker® InsilicAll软件,该软件使用了开创性的多药理学技术来建立“分子和生物特征”模式,这种方法可以在漫长而艰难的药物发现之路上架起化学和生物学的他们展示了能够呈现化学物质与分子靶点、细胞和/或器官之间复杂关系的人工智能工具。这可以更全面地了解由药物分析引起的PHAARM MatchMaker®的示例用例包括:(a)治疗���2���������,������..������,���������= m
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功