没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能3(2023)100056透视机器学习在学术界和工业界的小分子药物发现Andrea Risamera,Sereina Rinikerb,Eva Nittingerc,Jessica Laninid,Francesca Grisonie,f,Emma Evertssonc,Raquel Rodríguez-Pérezd,Nedine Schneiderd,a数据驱动的药物设计,萨尔大学生物信息学中心,66123 Saarbruecken,德国b物理化学实验室,苏黎世联邦理工学院,Vladimir-Prelog-Weg 2,8093苏黎世,瑞士c药物化学,研究和早期开发,呼吸和免疫学(R I),生物制药研发,阿斯利康,哥德堡,瑞典dNovartis Institutes for Biomedical Research,Novartis Campus,CH-4002 Basel,Switzerland埃因霍温科技大学,系。生物医学工程,复杂分子系统研究所,5600 Eindhoven,荷兰fCentre for Living Technologies,Alliance TU/e,WUR,UU,UMC Utrecht,3584 Utrecht,the NetherlandsaRT i cL e i nf o关键词:机器学习药物发现定量构效关系化合物性质化合物优化药物设计学术界制药行业模型生命周期DMTA模型部署a b sTR a cT学术和制药行业研究都是分子机器学习领域取得进展的关键。尽管有共同的开放研究问题和长期目标,但学术界和工业界之间的调查性质和范围通常不同。在这里,我们强调了机器学习模型加速和改进化合物选择的机会。讨论了模型生命周期的所有部分,包括数据准备、模型构建、验证和部署。分子机器学习的主要挑战以及学术界和工业界之间的分歧突出。此外,在设计-制造-测试-分析周期的应用方面进行了讨论。我们关闭的战略,可以改善学术和工业机构之间的合作,并将进一步推进该领域1. 介绍生物活性和物理性质的预测是机器学习(ML)和人工智能(AI)在药物发现中最重要的应用之一。该领域被广泛称为定量构效关系和性质关系(QSAR,QSPR),是许多药物发现项目的必要组成部分(有关QSAR及其历史的概述,请参见Tyrchan等人[1])。学术界和工业界都在塑造药物发现的分子机器学习领域中发挥着核心作用[2ML用于更快地做出更好的决策,并加速新分子实体的设计-制造-测试-分析(DMTA)周期[5]。在制药行业,模型通常以结果为导向的方式实施,以节省资源和时间,本着寻找最有前途的候选药物或“早期失败和廉价”的精神为了推动决策制定,模型的可重复性、置信度和稳健性至关重要。另一个关键方面是模型和数据科学实践的民主化,使不同领域的科学家能够为共同的目标而工作。尽管制药行业在娱乐方面越来越活跃在ML和AI研究的基础上,对最终模型应用的关注仍然是中心支柱。相反,模型开发和概念验证是学术工作的核心。在这种情况下,主要目标是改进当前算法,生成关于如何改进最新技术的知识,并将方法学术研究通常侧重于推动ML在药物发现中的边界通过从其他领域,如自然语言处理(NLP)[8]或几何深度学习(DL)[9]借鉴灵感。这通常使用静态数据集或现有基准(例如,GuacaMol[10],FS-Mol[11],MoleculeNet[12]),但很少通过前瞻性实验验证[7]。项目也受到博士论文或博士后工作持续时间的影响,导致方法的快速更替,高度竞争,以及潜在众所周知,学术界更倾向于出版,这是‘publish-or-perish’另一个重要方面是青年科学家的培养和教育。预计将有专门的ML/AI项目和部门[16]*通讯作者。电子邮件地址:raquel.rodriguez_perez@novartis.com(R. Rodríguez-Pérez),nadine-novartis.com(N. Schneider)。https://doi.org/10.1016/j.ailsci.2022.100056接收日期:2022年12月15日;接收日期:2022年12月31日;接受日期:2022年12月31日2023年1月5日上线2667-3185/© 2023作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciA. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000562以补充更传统的自然科学教育,并提高后代的化学信息学素养[17]。这一观点有望将数据科学转变为湿实验室科学家的关键技能,加速跨学科科学,并在未来进一步加强其在学术界内外的作用从这个角度来看,我们讨论了ML模型在小分子药物发现领域的重要方面,包括模型构建和应用。我们强调了工业界和学术界研究人员面临的不同挑战和机遇,以及潜在的协同作用。由于ML/AI的领域非常广泛,我们专注于模型 它是根据实验数据而不是计算数据进行训练的,尽管许多方面是共同的和可转移的。行业视角主要涵盖大型制药公司,而不一定是小型生物技术公司或初创企业的常见做法。2. 模型生命周期的关键步骤在药物发现中实现可操作的预测模型可以概括为四个不同步骤的迭代循环,如图1所示。第1步包括数据准备(第2.1节),这需要理解实验数据以进行可靠的管理。步骤2构成了实际的模型设计和构建过程(第2.2节),包括架构定义和超参数调整。第3步是指模型的预验证,对于预期模型的使用至关重要(第2.3节)。最后,第4步是模型部署阶段(第2.4节),在此阶段,用户可以使用模型。2.1. 训练数据ML模型的性能在很大程度上依赖于用于训练的实验数据的质量,包括大小(数据集中有多少个数据点?)、化学品和财产空间覆盖范围(化学品空间覆盖范围有多广,数据集的动态范围是多少?)、多样性(数据集的偏差或聚类程度如何?)和错误(数据集的噪声有多大?).来自制药行业的公共和专有数据(下文称为由于主要数据库如ChEMBL[18,19]和PubChem[20],公共领域的数据可用性大大增加。然而,这些数据集通常小于制药行业的内部图2总结了用于建模的不同专有和公共数据集的大小,图二. 数据集大小(即,ADME数据集用于内部和公共来源的建模。报告了胆盐输出泵抑制(BSEP. [23,27]、Caco-2渗透性εX(Caco.2.e εX)[18,21,22,27]、CYP 3A 4抑制(CYP 3A4.inh.)[21,27,28],人肝微粒体中的代谢稳定性(hLM.CLint)[18,21,27]、人血浆蛋白结合率(hPPB)[18,21,27]、辛醇/水分布系数(LogD)[18,22,25,27]、P-糖蛋白底物(P.gp.e βUX)[21,22,24,27]和大鼠肝微粒体中的代谢稳定性(rLM.CLint)[21,26,27]。对于存在于不同来源中的终点,显示了平均数据集大小,而误差条报告了最小和最大大小值。搜索研究[18,21通过对这些吸收、分布、代谢和排泄(ADME)数据集的分析,内部数据(拜耳、诺华、默克和勃林格殷格翰)总是比公开数据集包含更多的化合物测量值(图1)。 2)。为了增加数据集大小,公共数据通常从多个来源汇集[29]),这反过来又增加了异质性。合并数据源意味着重大的工作量,并承担偏差、冗余和错误累积的风险[30],并在学术和工业环境中提出挑战。在工业中,测定方案是标准化的,并且通常包括每种化合物的多次测量,Fig. 1. 分子机器学习中的模型生命周期概述。总结了药物发现中预测模型建立的关键步骤和不同阶段的注意事项。A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000563图三. 工业建模实例综述。先定义了问题,并实现了一些预测基线。在这里,应该测试不同的建模策略,包括特征化和ML算法。以前,这是由专家使用有限数量的组合来完成的。如今,AutoML实现允许非专家和专家用户执行更广泛的方法筛选和广泛的超参数优化。最后,选择并部署最佳模型。形成更加同质和一致的数据集。 然而,将不同的数据源整合在一起也可能构成一个主要的任务 由于遗留系统、协议随时间的变化或注释中的不同约定(例如单位或分子标识符)。鉴于实验数据的这些挑战,策展和同质化是成功ML应用的关键步骤[11]。与经验主义者的讨论可能有助于检测离群值,正确组合来自不同来源的数据,或定义其他建模方面。此外,在测量范围内重复分析实验变异性和误差还提供了关于ML模型可以实现的最大准确度的信息,并有助于解释模型输出[31,32]。即使内部数据集通常比公开的数据集大,尽管现有的一些方法,这些方法仍然严重地偏向于广阔的化学空间。化合物数据并不代表相关化学空间的系统筛选,而是围绕特定化学系列靶向给定蛋白质的聚类集合。因此,即使在大的数据集中,结构多样性也可能很小,因为许多化合物可能具有相同的化学结构。这样的数据集群和内在偏差会严重影响模型性能,即使使用强大的验证技术,也可能导致过度优化的ML结果[33]。其中,类别不平衡或非均匀属性数据分布分别对分类和回归模型构成了相当大的挑战[34]。例如,对于生物活性预测,期望的结果通常构成现实世界应用中的少数类别(对于ADME数据集,情况可能相反或不太不平衡)。然而,公开的生物活性数据集通常缺乏“阴性”或“非活性”数据。例如,与高通量筛选(HTS)相比,ChEMBL数据库[18,19]包含不切实际的活性与非活性化合物比率。特别是,Cáceres等人[35]和Valsecchi等人[36]分别报告了11%和27%的活性物质。然而,HTS命中率通常在0.1%至2%之间[37,38]。与HTS相比,项目特定数据可能具有更高的活动百分比,但通常仍低于公共数据集。这种负面公共数据的缺乏可以通过添加假定的负面例子或根据不同策略选择的诱饵来解决[35,39由于这些原因,公共基准数据集试图模仿,但往往不能代表真实世界的数据。为了促进学术研究和改进方法开发,共享内部数据(例如,不再敏感数据的ADME属性)可能是有益的。最近的一个例子是Roche的1162种PDE10A抑制剂的数据集,包括具有时间戳的结合位点、77种晶体结构和对接姿势[43]。公共基准测试集的另一个不常讨论的方面是,它们有时并不用于它们预期的应用程序。一个突出的例子是DUD数据集[39],它最初是为了基准对接方法而开发的,现在经常用于基于配体的ML模型然而,这样的基准对于某些应用可能是微不足道的,例如基于配体的基于ML的活动预测[40,46,47]。因此,为模型训练和测试选择适当的数据集对于模型性能评估至关重要,如第2.3所述。2.2. 模型设计和建立模型设计从问题和预测任务的定义开始(见图3)[48]。在工业中,预期将模型用于实验选择、化合物优先级排序,或者更一般地,用于辅助药物设计。因此,在模型开发和评估阶段就需要考虑用户和实际应用。与学术界相比,这是一个关键的区别,学术界的重点更多地转向理论和方法的发展(例如,实现相对于公开的算法具有改进的性能的模型或生成可由其他人在未来应用中使用的新策略)。通常,学术界通过开发新工具和提高理解来推动科学前沿,而工业界则利用它们来产生具有理想特性的新分子。然而,在学术界也应该考虑用户,例如,当共享代码、软件包或ML模型时。在这种情况下,最终模型的使用者往往没有明确的定义,在发布之前与他们进行讨论是罕见的或不可能的。因此,在模型构建过程中,用户期望、稳定部署和未来更新的考虑频率较低。可以根据手头的问题数据集特征还A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000564分别用于数值和分类预测的回归或分类模型的选择[49因此,建模方法,ML算法(例如随机森林,深度神经网络)和分子特征化(例如指纹,计算的描述符,图表)的选择是问题定义和数据管理之后的关键步骤[52由于人工智能技术的快速发展,新算法和功能的使用受到代码可用性和数据科学专业知识的影响。在工业中,新ML方法的集成可能落后于像随机森林这样的常青树,这些常青树为许多应用提供了相当的性能和更容易的解释。相比之下,由于学术界关注创新,有时更简单和性能良好的模型可能会因为追求最先进的技术而被忽视。因此,定义强大有效的基线模型是检测简单模型或决策规则是否足以实现类似性能或是否需要更复杂的建模和特征化方法的关键。基线在工业中同样重要,因为关注的是稳健性和可重复性,而不是新颖性和复杂性[32,55在模型构建过程中,以系统的方式调查各种模型和特征是复杂和耗时的,但对于识别最佳模型(学术界)和有用模型(工业界)至关重要。虽然这通常是学术研究的一部分,而且期刊对它的需求越来越大,但由于项目压力,分配给行业超参数调整和模型改进的时间可能会减少新的ML库通常由学术团体提供-例如AutoML[58]或Optuna[59]以增强超参数调整,或DeepChem[60]/MoleculeNet[12],Therapeu-tic Data Common[61]和AutoSklearn[62]用于模型构建和基准测试-可以帮助加速和民主化基准测试过程(见图3)。这些工具中的一些还提供了开源基准数据集的集合,包括诸如亲脂性、toX city(ToX21,ToX Cast)或结合亲脂性(PDBBind)预测之类[12]第10条。建模方法的选择也受到现有数据集大小和组成的影响。例如,大型数据集通常可用于工业中跨发现项目测量的一些物理化学和ADME特性。基于具有更广泛化学空间覆盖的数据集的模型(通常称为对于特定项目,例如,由于化合物对蛋白质靶标的活性,可用的数据较少,并且偏向于少数化学系列。在这种情况下,生成具有潜在较窄适用域的“本地模型”。由于数据源的多样性和异质性,在公共数据上训练时,全局和局部模型之间的差异变得更加困难,如前一节所述。2.3. 绩效评价尽管模型验证是学术界和工业界的一个重要步骤,但它们侧重于不同的方面。模型的可推广性只能通过适当选择数据分割程序来估计(即,训练和测试数据选择)和指标,避免过度乐观或悲观的结果是关键[64 随机分割通常会对模型的预期性能给出过于乐观的看法[70-72],而时间分割已成为行业中评估预期模型性能的首选方法[71]。这种评估模拟了ML模型将如何在实践中使用,即预测尚未合成或测量的化合物(正在探索的新化学物质)。不幸的是,这样的时间信息在公共数据中是不可用的,这阻止了大多数学术设置中的时间分割。在2.1节中讨论了一些流行的学术基准数据集。此外,越来越多的文献指出,评估模型性能的重要性,“结构-活性/性质不连续性”,如非加和性[73,74]和活性不连续性在模型部署之前或重新培训之后,应确保最低质量标准。因此,取决于所考虑的性能度量,更优模型的选择可能更困难。因此,使用多个指标[67]以及确保指标适合于[78]这是一个很好的选择。例如,可以基于平衡准确度或受试者工作特征曲线(ROC)下的面积来评估和选择用于生物活性预测的新ML方法。然而,如果随后将这种ML模型应用于虚拟筛选,则只有排名靠前的预测是相关的。在这种情况下,召回1%的顶级化合物或富集将多提供点信息。在工业界,人们关注的焦点是,使用与实际模型用户相同的度量(即,项目团队)将在模型部署后进行检查[23,31]。此外,ML(特别是DL)模型通常被视为黑色博克斯岛为了获得对模型的信任,需要更好地理解模型学习的方法。EXplainable AI[79这样的研究对于更好地理解模型学习的内容和判断ML模型的鲁棒性[84,85]以及学习可能与特定事件相关的数据驱动特征是有价值的,例如,[86]第86话2.4. 模型部署图4展示了模型生命周期的最后一步,这是训练好的ML模型的部署,包括几个重要步骤:见图4。EX employ模型部署程序。现代MLOps方案,其中经过训练的ML模型在模型存储中注册,包括注册(reg.)日期、使用的训练集、模型所有者、模型版本或采用的特征化等。可以创建一个REST端点,促进集成到软件包,工具或Web服务中,以便模型客户端可以请求预测。模型监测也被考虑,包括新数据点的性能估计。A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000565临时任务:模型注册、文档和指南、集成到现有工具和工作流程中、非数据科学家的可访问性、模型所有权和责任、监控和模型维护。在工业中,部署是必要的,使模型在药物发现过程中具有可操作性.在过去,技术部署通常包括设置服务器、创建Web服务或将模型硬连接到其他工具。这当然需要特殊的专业知识,这可能不是数据科学家的一部分,并意味着高昂的维护成本。如今,随着预测模型的重要性越来越高,基于云的解决方案以及复杂的ML操作服务(MLOps)实现有助于弥合这一差距。图4中示出了当前模型部署过程。通常,这包括模型注册(到模型存储中或数据库,以包括重要的元数据,如注册日期、训练集、分子标准化协议或模型所有者)、技术监测和每个模型的REST(代表性状态转移)端点,这有助于维护和集成到其他软件包、工具或网络服务中。当集成到项目团队日常使用的工具中时,模型的使用会增加,包括非数据科学tists。因此,易于访问有助于使ML模型的使用民主化来做决定。由于许多数据科学家在同一管道上操作,软件错误和错误的不可避免性,以及越来越多地使用可能无法完全理解的ML算法,计算方法在问责制和所有权方面变得越来越模糊模型构建者通常是所有者,并负责创建文档(包括有关训练数据、建模方法、适用性域估计以及如何报告预测的信息)。已建立的监测协议还应跟踪全球模型在当地环境中的表现,以使项目成员能够判断模型数据对其目的的可靠性。因此,模型所有权和问责制使用户社区了解责任,并在出现问题时促进专家支持。问题或疑问。一个不可忽视的方面,在药品分销决策的影响精化是将这些模型集成到药物化学家团队可访问的其他设计平台中。持续的模型广告和教育也变得至关重要,以保持潜在用户的知情和增加采用。与项目相关的模型师或计算化学家,他们经常参与决策,也是重要的培训资源。与工业界相比,学术界的模型部署频率较低,寿命较短。由于合同期限较短(即,评估学生和博士后)。这可能导致过早过时,除非在模型构建者离开研究小组之前实现详细的文档和知识转移。鉴于公平(可发现,可访问,可互操作和可重用)科学(数据[90]和软件[91])的推动以及开源开发的日益增长的精神,这些潜在问题可以得到缓解。然而,由于缺陷,这方面的培训有限,在学术团体中雇用软件工程师的财政支持基本上是缺乏的。免费培训讲习班(例如,MolSSi或Software Carpentries)和材料(例如,TeachOpenCADD[92],LiveCoMS期刊中的“教程”分类等新颖格式)可能有助于缩小这一差距,直到学术环境中的资金/雇用情况发生变化。此外,库和工具可用于支持研究小组的维护任务(例如,持续集成),文档(例如,doc-字符串,阅读文档)和可读性(例如黑色或PEP 8样式指南Python代码)。这增加了代码的透明度,并可以包含问责制的GitHub或GitLab等平台允许用户- 除了版本控制之外-发出潜在问题的信号并提出错误和瓶颈的解决方案。需要更多存储的输入数据或模型共享可以通过像Zenodo这样的开放存储库来实现[93]。最后,在学术界通常缺少模型与后续实验数据测量的应用,或者只能通过合作来实现(见第4节)。尽管如此,学术界开发的ML模型有几个很好的例子,它们已经长期可用,包括更新,例如,逆合成预测 ( ASKCOS[94] ) 、 X性 预测 (emoltoX[95] 、 SwissADME[96] 、OCHEM[97]、FAME 2[98])、基于结构的分析(PlayMolecule[99]、OpenFold[100])或学习描述符(CDDD[101])。3. 模型应用方面在本节中,一旦模型生命周期(见图1和第2.1 - 2.43.1. 设计-制造-试验-分析(DMTA)循环看看DMTA循环-理想地,具有更好的预测性质的所提议的化合物比期望的适当范围之外的化合物更可能被合成和优先化。在小规模上,该模型可以解释个人的决策,图五. 将设计-制造-测试-分析(DMTA)周期与模型生命周期的关键步骤集成,包括数据准备、模型构建、模型验证和部署。A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000566见图6。具有直观分类输出和置信度估计的ML模型方案。可以开发分类模型来预测特定测定结果的概率,例如化合物不溶的概率。然而,代替向用户提供模型的概率,可以生成更直观的输出。EX emlog ML模型报告“不需要的”(例如不溶的)、“期望的”(例如可溶的)和“不确定的”(高不确定性)类别。改编自Rodríguez-Pérez和GerebtzoZynga[23],并获得生命科学许可。它们还可以用于预测接下来要制备的化合物,而在大规模上,它们还可以用于预测完整的虚拟库,以在湿实验室实验中集中制备和测试最有前途的化合物。模型也用于分析阶段的实验选择。如果有足够的证据证明模型可信(例如低误差或高置信度值),则可以避免实验测试,并将重点转移到测试其他低置信度预测的分子上[102]。最终,新的实验数据和获得的知识在重建或重新训练阶段被反馈到模型中(见第2.2)。在学术界- 完整的DMTA循环很少完全执行。很少有至少进行一个或两个周期的例子,主要是在主动学习的背景下[103]。3.2. 模型输出报告有意义的、直观的和稳定的模型输出是必不可少的。模型输出应该为非数据科学家提供清晰的解释。例如,输出可以是给定结果的概率(例如,期望的溶解度范围)或直接预测实验值(例如,溶解度(μM单位)。在分类模型的情况下,应考虑有意义的属性阈值,以便预测能够区分为确定此类阈值和范围,与项目团队和检测专家的讨论至关重要。有趣的是,预测报告在不同的应用程序中也可能是不同的。数值性质预测可能更适合生成化学或库设计应用,而化合物优先级可能通过考虑“不期望”类别来简化图6示出了具有“不期望”、“期望”和“不确定”(不确定)类别的示例性分类模型模型输出的关键评估然而,模型的适用性和预测在工业中,获得模型用户的信任并改善基于ML的决策变得越来越重要[23]。3.3. 监测和模型再培训在工业中,全球模型的性能通常根据正在进行的项目的数据进行评估。性能可能会有所不同,这取决于有多少项目化合物已用于模型训练或项目的化学空间是否被全球模型所覆盖。由于工业中的药物发现项目不断产生新的数据点,因此需要进行模型再训练,以确保稳定的性能和适用域的持续增加(参见第2.2节和第2.4节)。见图7。预测胆盐输出泵抑制的模型再训练的效果。(A):前瞻性验证的ML设 置 方 案 ( 时 间 分 割 ) 。 使 用 不 同 的 时 间 分 割 训 练 五 个 模 型 : 模 型 1( 75/25%,深 蓝色), 模型2( 80/20%,橙 色), 模型3( 85/15%,灰色),模型4(90/10%,黄色)和模型5(95/5%,青色)。将测试集分为对应于5%数据的子集,并根据测量日期用字母(从A到E)标记。模型在其前瞻性 测试 集上 进行 了评 估。 ( B) :测 试集 上 五个 模型 A-E的 平均 绝对 误差(MAE)值。改编自Rodríguez-Pérez和Gerebtzo Zeroenz[23],经生命科学人工智能许可。(有关本图例中颜色的解释,请参阅本文的网络版本2.3)。用于预测胆盐输出泵抑制剂[23],图7说明了模型再训练对前瞻性性能的影响。关于模型再培训的政策应与用户群体达成一致,例如,重新训练的频率和跟踪预测的策略。每个公司都有自己的政策。在某些情况下,当给定数量的新数据点可用时,模型更新会自动触发。在每次模型更新后,对相同化合物的预测可能会发生变化,这可能会引起用户社区的愤怒,他们通常更喜欢随着时间的推移保持一致的预测。此外,如果所有新数据都用于训练,则前瞻性性能评估变得困难。一种更保守的方法是只在性能在一段时间内和不同项目中下降时重新训练模型。监控协议可以帮助识别预测性能何时下降以及模型重新训练是否合理。这种策略提供了稳定的预测,并通过检查预期的预测性能来更好地了解当前模型的质量。重要的是,越来越多地使用模型进行实验选择,以生成数据,从而进行模型再训练。例如,使用可靠的溶解度预测模型将导致未来制备更少的不溶性化合物;由此,在样品中的标记分布将被预测。新的训练模式将会改变,而班级的不平衡情况将会加剧。这个过程也被称为反馈回路,可能会对模型的未来版本造成真正的挑战[108])。解释方法的进一步发展可能有助于在下一个培训周期中改进模型[109]。A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000567在学术界,确定正确的模型更新策略的研究具有很高的兴趣。一个例子是共形预测框架[110],它在ML模型之上添加了一个校准步骤,以实现置信度估计。通过与行业合作伙伴合作评估共形预测校准,研究了缓解化学品至毒性数据中的数据漂移(Morger等人[112,113]发现,仅使用更新的数据更新校准集比重新训练整个模型的性能增益更高。这一发现可能取决于数据集,包括规模和组成,需要进一步探索。4. 学术界与工业界的合作:挑战与机遇在我们的分析中,工业界和学术界一直被认为是两个独立的世界。当然,有很多研究重叠,双方都受益于彼此。在以下关于制药行业合作的讨论中,我们关注两个中心方面:(i)在处理专有数据时,我们如何处理出版物的再现性和FAIR指南,以及(ii)如何资助合作,包括研究人员的教育。Tralau-Stewart及其同事的综述中还提供了关于学术界和工业界如何在药物开发中共同合作的有趣想法[114]。4.1. 便利出版在合作中,学术界和工业界合作伙伴的一些目标和限制可能会部分对立。在学术界,及时发表研究成果是很重要的如今,出版通常涉及数据集变得免费可用,软件开发开源以确保可重复性。在过去的几年里,许多期刊都按照这些原则调整了它们的指导方针Bajorath etal.[115]和Nature Machine Intelligence[116]。然而,虽然学术团体遵循FAIR指南[90,91]通常相对简单,但发布数据集对于工业研究人员来说是最近的一项研究[7]指出,工业界和学术界在ML/AI药物发现领域发表的论文数量存在显着差异,只有7%的文章具有行业影响力(1986年至2021年)。这可能是由于工业界和学术界的目标不同,即,知识产权问题以及在工业界发表论文压力较小然而,许多公司希望他们的研究人员发表一般的科学发现和代码开发。然而,围绕数据集的问题可能对学术界和工业界之间的合作造成不可忽视的问题,例如,当合作的想法是在真实世界的专有数据集上验证/测试方法开发后者是使学术界开发的ML模型更适用于工业的重要条件解决这一困境的一个可能的解决方案是在测试/验证ML模型时同时使用公共和内部数据。 公共数据集可以提供,并可用于深入分析和再现结果,而ML模型对真实世界数据的适用性可以在不共享专有数据的情况下得到证明[22]。这种方法的例子是从工业合作中发表的结果[86,117联合学习是为行业合作开发的另一种方法[120]。最近的一个例子是MEL-LODDY联盟[121],旨在共同使用来自不同制药公司的数据来训练ML模型,同时保护贡献者的专有数据。到目前为止,这些模型只供财团伙伴使用。目前还不清楚这种方法是否可以调整,以促进出版业的合作。LHASA开发了不同的联邦学习方法[122],其中模型在专有数据(每个公司单独)上进行训练,然后对非敏感的公共数据进行预测。来自公共数据集的不同ML模型的合并标签反过来作为最终模型训练的输入。由于最终模型原则上是可扩展的,这可能是一个更适用于企业与行业合作的方法。4.2. 培训和筹资除了公司资助个别研究小组的博士或博士后职位的经典计划外,还探讨了与多个学术和/或行业合作伙伴建立大型财团的不同安排。最近涉及学术界和工业界伙伴关系的教育举措(例如,BIGCHEM[123]和AIDD[124] Marie Skeliodowska-Curie博士网络倡议)正在引导行业在前沿研究领域的下一代科学家教育中发挥越来越重要的虽然在计算药物发现的其他领域使用商业软件意味着大学培训不能直接为学生未来的工作做好准备,但由于越来越多地使用相同的开源工具来构建,测试和部署ML模型,ML/AI领域已经发生了变化。使用相同的工具会带来大量的机会进行交叉施肥,并简化协作。麻省理工学院和几个行业合作伙伴建立了一项合作,以推进机器学习药物发现和合成(MLPDS)的研究,其中行业合作伙伴资助麻省理工学院的研究人员,同时也积极参与推动研究进入现实世界应用的相关方向。另一个最近的例子是CACHE(计算命中发现实验的关键评估)[125]学术和行业合作伙伴之间的倡议,以改善命中发现新方法的前瞻性测试。一般的盲目挑战-例如公司或者学术团体使新的数据集可用(例如,D3 R[126,127],SAMPL[128,129],ToX 21[130],DREAM[131]或正在进行的Kaggle EUOS/SLAS联合挑战化合物溶解度预测[132])-5. 结论学术界和工业界都在推动分子ML研究领域的发展。总的来说,分子ML领域已经取得了巨大的进步,模型几乎渗透到DMTA循环的每一步。由于新的机器学习算法的快速出现,该领域需要快速适应,包括协作共享的变化。 数据、协议、代码和模型-以及多学科科学家的教育。除了生成有效和可信的模型以帮助更快地设计更安全的药物这一共同目标之外,学术界和工业界在实现这一目标的方式上存在分歧,通常与特定的环境(例如资源可用性)和总体目标(例如,出版物或知识产权方面)。首先,在工业中,可用的训练数据集通常更大,更均匀(一致的测量和实验协议),即使特定于项目的数据也可能在大小和化学空间覆盖范围方面受到限制。虽然学术界的数据情况在过去十年中有了很大的改善,但免费提供的数据集通常仍然较小,而且往往是从不同的来源收集的,有较高的引入噪音和杂波的风险。此外,由于偏向于公布“正面”结果,数据集中“正面”/“负面”数据点的比例在公共部门和私营部门之间存在差异。尽管如此,在学术环境中使用公开数据可以促进开放科学和科学发现的再现。这在工业环境中并不总是可能的。今后对负面实验结果的沉积以及为建立模型提供更多数据的资助活动可能会在这方面有所帮助。A. Escheramer,S. Riniker,E. Nittinger等人生命科学中的人工智能3(2023)1000568表1总结了工业和学术界关于分子机器学习的重要方面行业学术界更大、更均匀的内部数据集每个化合物经常进行多次测量项目特定的数据集可能很小,有偏见,不平衡数据情况有所改善,但仍存在更多异质性、不平衡性和较小的数据集,每个化合物大多数为单一测量值,“负面示例”较少需要更多真实世界的数据集数据通常可供免费共享和再利用,从而有助于开放科学。模型设计和建立注重最终应用专注于理论以推进该领域,而不是具体的应用问题定义可以由最终模型用户关于创新建模方法倾向于更简单和更强大的模型由于“最先进的追逐”,更简单但更强大的模型可能被忽视强有力的基准基线至关重要基准基线是良好做法绩效评价时间分割可能,应该是黄金标准模型的应用决定了所需的质量和稳健性在公共数据中缺少时间信息的情况下,使用随机或基于聚类的分割标准ML指标通常用于评估新方法提供标准化的基准平台,以供借鉴和促进部署用户对模型的可访问性至关重要模型的部署频率较低,并且通常具有较短的生命周期所有权和问责制得到考虑保持模型可访问和更新的模型问责制更难维持更多的开源库和服务可供以下编程最好实践加强了问责制和模型模型应用方面性能监控,以评估重新培训或架构更改模型用户(通常)无法明确定义需要考虑模型输出应该对非专家用户有明确的解释,并应根据应用进行需要示范广告(含指导方针)和文档,以告知用户与模型用户(通常是非数据科学家)的沟通不太常见/不太必要推动FAIR编码和数据指南有助于改善文档和用户方面当设计一个新的模型来完成一个给定的任务时,例如,优先考虑对给定目标有活性的化合物,学术界和工业界的激励措施虽然学术研究旨在推动ML技术的边界以推进方法的发展,但制药行业的模型是为了解决特定的问题或问题而构建的,其中简单性和鲁棒性更受关注。当涉及到模型验证-前瞻性测试在制药公司中更为常见,而学术团体通常通过合作实现这一点。在学术界,随机或基于聚类的分割被用作缺乏时间信息的替代方案与此同时,开放获取基准和相关数据的可用性使学术研究更容易利用和建立在精心设计的评估系统之上,从而确保可比性和透明度。由于学术界更关注基础研究和方法学改进,因此模型周期通常以概念验证研究结束。相比之下,模型部署、可访问性和稳定性在行业中至关重要,因为模型用于活性药物发现项目。学术界和工业界之间的更多合作-尝试共享数据和代码可能会缩小探索性研究之间的差距。和应用研究工作。提到了一些公私合作的例子,展示了在现实世界的项目设置中可以推进科学的星座,同时保持敏感数据的私密性。关于本观点中讨论的所有不同方面的概述,也可参见表1。随着新的ML开发可以越来越容易地转化为工业应用,我们预计上述边界/差异将逐渐模糊。活跃的研究领域包括不确定性估计和ML可解释性。分子发现的ML已经走过了很长的路,但是当正确的模型决策可以被识别(低不确定性)和合理化(解释)时,它的影响将变得更加明显。作者贡献所有的作者都对这一观点的概念化和写作做出了同样的贡献竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。确认作者感谢Vigneshwari Subramanian、Nikolaus Stie Einstein、Gré-gori Gerebtzo Einstein和Gregory Landrum对手稿的校对和宝贵建议。引用[1] [10]杨文,李文,李文,李文. 第四章--人工智能在药物化学中的应用. In:AkitsuT,editor. 使用人工智能的计算和数据驱动化学。Elsevier; 2022.第111- 159页。doi:10.1016/B978-0-12-822249-2.00002-5。ISBN 978-0-12-822249-2。[2] 绿色DVS。使用机器学习为药物发现决策提供信息:工业视角。化学中的机器学习:数据驱动的算法,学习系统和预测,1326。美国化学学会; 2019。p. 81比101[3] [10]张杰,陈 升 , 张 晓.药 物 发 现 中 的 机 器学 习 技 术 综 述 当 前 药 物 代 谢2019;20:185[4] [10]黄文辉,王晓刚. 化学和药物设计中的人工智能JComput-Aided Mol Des2020;34:709[5] 施耐德湾自动化药物发现。 Nature Rev Drug Discov 2018;17:97-113.[6] HughesJP,Rees S,Kalindjian SB,Philpott KL. 早期药物发现原则BrJ Pharm2011;162:1239-49.[7] Mak K-K,Balijepalli MK,Pichika MR.人工智能在药物发现中的成功故事EX pertOpin Drug Discov 2022;17:79[8] [1] Oztürk H,Ozgür A,Schwaller P,Laino T,Ozkirimli E.利用自然语言处理方法探索药物发现的化学空间。今日药物发现2020;25:689[9] 张晓刚,王晓刚,王晓刚.分子表
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功