没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能2(2022)100051通过开放科学重新审视药物发现中的主动学习于尔根·巴约拉特生命科学信息学和数据科学系,B-IT,LIMES程序单元化学生物学和药物化学,Rheinische Friedrich-Wilhelms-Universität,Friedrich-Hirzebruch-Allee 5/6,Bonn D-53115,Germany主动学习(AL)是一种机器学习(ML)方法,旨在最大限度地减少用于开发预测模型的训练数据量[1其基本思想是迭代选择最具信息性的训练实例,以逐步改进ML模型并提高其预测性能。对于标记和未标记的训练数据,引入了不同的选择策略[3],试图平衡探索(代表性数据的采样)和利用(专注于最期望的预测结果)。在计算和实验之间的界面上有相关的方法,例如迭代生物筛选[4]。在这种情况下,构建ML模型以优先考虑筛选化合物库的小子集进行实验评估,并包括新识别的命中以重新训练模型进行下一轮选择。迭代子集选择和模型细化旨在识别大多数可用命中,同时限制数量经过实验测试的数据库化合物尽管数据饥渴的深度学习方法在药物发现中越来越受欢迎,但高质量的化合物活性或体内性质数据通常是有限的。这是能够在稀疏数据空间中操作的ML方法具有吸引力的主要原因。此外,数据生成有时可能相当昂贵和耗时。在这种情况下,人工智能驱动的预测可能会极大地有助于将实验设计集中在最有前途的化合物上。因此,尽管AL在药物研究中已经被考虑了大约20年[1],但它仍然是一种主题在对AILSCI的新贡献中,Thompson等人利用AL为了解决昂贵的建模任务,即计算测试化合物的相对结合自由能(RBFE)作为效能改变的量度[5]。在先导化合物优化中,可以追溯到20世纪80年代的RBFE计算[6,7]已经成为预测潜在化合物作为合成候选物的流行方法[8,9]。RBFE分析的最新进展在很大程度上是由于计算能力、图形处理单元(GPU)计算的增加以及一致性采样程序的进步[8]。然而,尽管RBFE计算现在可以在更大的规模上进行,以指导候选人的选择,并减少合成的电子束[9],计算仍然是计算上的要求,并代表了较大化合物库的实质性成本因素,如Thompson及其同事[5]所指出的。换句话说,RBFE分析是一个耗时的计算练习以限制更昂贵的实验性研究。对于一个特定的主要行动-最小化系列,或并行追求的多个系列,每个化合物将进行RBFE计算以最终选择最可能的候选物以进一步提高效力。只要潜在候选者的库保持较小,迭代RBFE计算之后进行合成可能是容易可行的;如果库变得较大如何应用AL来减少RBFE分析的数量?从给定的化合物库中,必须选择一个限定的子集,并对其进行RBFE计算。在这些数据的基础上,然后开发一个ML模型来预测化学结构的RBFE值。训练后的模型用于预测剩余库化合物的RBFE值,并选择另一个有希望的候选子集进行RBFE计算,其结果然后用于重建ML模型并进一步改进预测。这个过程,让人想起 迭代筛选,直到已经研究了来自子集的预定数量的化合物,旨在通过ML鉴定最有效的库化合物。当然,这是基于一个前提,即ML在计算上比RBFE分析便宜得多。Thompson等人研究了该方案。通过同源化合物的计算库,作者能够通过仅对库的6%进行采样来检测100种排名靠前的RBFE化合物中的75种[5];这是一个令人印象深刻的结果。正如作者所讨论的,三项早期研究(包括两个预印本)已经在RBFE分析的背景下应用了AL(使用不同的系统设置)。 这些研究中的第一项[10]报告了基于非常小的文库样品鉴定得分最高的化合物的相似成功率。然而,汤普森及其同事的工作远远超出了这些早期的研究,以及AL领域的许多其他研究,原因有几个。为了对AL方法进行基准测试,作者需要RBFE数据。因此,他们生成了一个包含10,000种同源化合物的库,并计算了所有化合物的RBFE值。值得注意的是,作者公开了整个RBFE数据库和为其分析生成的自定义代码,以确保完全可重复性并进行后续调查;这是对开放科学的杰出贡献。此外,超越早期的研究,Thompson等人系统地探索了五种ML方法和AL的不同主要参数设置,包括(i)初始子集的选择,(ii)每次迭代采样的化合物数量(每个子集的大小),以及(iii)采集函数(用于选择训练实例)。特别是获得功能通常被认为在AL中起着关键作用。作者发现他们的AL结果是稳健的,并且令人惊讶地对使用改变不敏感电子邮件地址:bajorath@bit.uni-bonn.dehttps://doi.org/10.1016/j.ailsci.2022.100051接收日期:2022年12月2日;接受日期:2022年12月2日2022年12月5日在线发布2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciJ. Bajorath生命科学中的人工智能2(2022)100051原生ML方法和不同的参数设置(包括随机选择初始数据子集和使用贪婪(基于剥削)获取函数)。每次迭代采样的化合物数量对结果的影响最大,优选包含至少60种化合物的子集[5]。观察到的AL结果对不同参数设置的不敏感性特别有趣。虽然不敏感性可能部分取决于所研究的复合系统的特征,但它也表明,采集函数的选择对于AL来说并不像通常假设的那样重要,并且小的训练集足以生成性能良好的ML模型。Thompson等人的工作为人工智能提供了新的见解,并有力地支持了开放科学。竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。数据可用性文章中描述的研究未使用任何数据引用[1] [10]杨文辉,李文辉.支持向量机在药物发现过程中的主动学习JChem InfComput Sci 2003;43:667[2] 雷克湾药物发现中主动机器学习的实践考虑药物发现今日技术2019;32:73[3] 余建,李 新 , 郑明 .药 物 发 现主 动 学 习 的 现 状Artif Intell Life Sci 2021;1:100023.[4] 巴约拉特河 整合虚拟和高通量筛选。Nat Rev Drug Dis-cov 2002;1:882[5][10] 张 文 辉 , 张 文 辉 . 优 化 自 由 能 计 算 的 主 动 学 习 。 Artif Intell Life Sci2022;2:100050.[6] KollmanPM.分子建模。 Ann Rev Phys Chem 1987;38:303-16.[7] Beveridge DL,Dicapua FM. 通过分子模拟的自由能:应用于化学和生物分子系统。Ann Rev Biophys Biophys Chem 1989;18:431-92.[8] Abel R,Wang L,Harder ED,Berne BJ,Friesner RA.通过增强的自由能计算推进药物发现。Acc Chem Res 2017;50:1625[9] Schindler CEM,Baumann H,Blum A,Böse D, Buchstaller HP,BurgdorfL,Cappel D,Chekler E,Czodrowski P,Dorsch D,Eguida MKI,FollowsB,Fuchs T,Grädler U,GuneraJ,Johnson T,Jorand Lebrun C,Karra S,Klein M,Knehans T,Koetzner L,Krier M,Leiendecker M,Leuthner B,LiL,Mochalkin I,Musil D,Neagu C,Rippmann F,Schiemann K,Schulz R,Steinbrecher T,Tanzer EM,Unzue Lopez A,Via- cava Follis A,Wegener A,Kuhn D.活性药物发现项目中结合自由能计算的大规模评估JChem Inf Model2020;60:5457[10] Konze KD,Bos PH,Dahlgren MK,Leswing K,Mitt-Brohman I,Bortolato A,Robbason B,Abel R,Bhat S.基于反应的枚举、主动学习和自由能计算,可快速探索易于综合处理的化学空间,并优化细胞周期蛋白依赖性激酶2抑制剂的效力。JChem Inf Model 2019;59:3782-93.2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功