没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能1(2021)100023观点药物发现于洁a,b,李旭彤a,b,郑明月a,b,李a中国科学院上海药物研究所药物发现与设计中心,药物研究国家重点实验室,祖冲之路555号中国上海201203b中国科学院大学,玉泉路甲19号,北京100049,中国aRT i cL e i nf o保留字:药物发现主动学习不确定度估计a b sTR a cT近年来,主动学习被广泛应用于药物发现和设计。从这个角度来看,我们将简要总结了人工神经网络在药物发现中的应用,并提出了该领域研究的两个潜在局限性。正文在大多数药物发现项目中,数据的稀缺有时会阻碍深度学习模型的应用,因为深度学习模型严重依赖于训练数据的数量和质量[1]。此外,通过人工选择生成训练数据需要大量资源,甚至导致浪费。例如,新“标记的设计和合成的)化合物与原始训练数据相比可能不能提供对结构-活性关系的新见解因此,一个合理的和客观的样本选择方法来决定哪些样本应该被标记是必不可少的。主动学习[2,3](AL)已被提出发挥这样的作用。AL是机器学习(ML)中的一个子学科,该算法迭代地从未标记的数据集中选择最有用的样本,并询问专家(或其他信息源)来标记它们,以降低标记成本,同时提高模型性能。据我们所知,AL算法在药物发现中的应用始于Warfallen等人的开创性工作[4]。他们的工作突出了AL在药物研究和开发中处理标签任务的适用性。最近,由于ML预测模型的准确性提高,该主题获得了发展势头[5]。在过去二十年中,针对不同的药物开发项目报道了几项有前景的研究,例如聚焦文库设计[6]、合理的从头设计[7]和药物组合[8]。鉴于其有效性的长期实践验证,AL已显示出成为一种易于部署的技术的潜力,以帮助研究人员进行分子推理和实验设计。在这个观点中,我们总结了人工智能的应用前景,并简要回顾了未来需要解决的一些局限性。大多数先前发表的研究都集中在AL算法识别期望样本并通过额外的训练数据增强ML模型的能力[9这种能力使其成为指导标签任务的理想选择。根据不同应用的需要,通过定义不同的查询策略(选择函数),可以灵活地调整AL的优先级。例如,一些面向探索的查询策略量化了模型预测的不确定性另一方面,面向开发的查询策略旨在选择具有最高属性的样本,例如针对特定目标的复合绑定属性,并且基于这种查询策略的模型通常显示出增强的命中率[12]。除了前瞻性指导标记任务的应用首先,在标记数据集上部署AL可以快速比较不同的模型架构和查询策略,以在将其应用于成本高昂的前瞻性研究之前获得最佳的AL工作流程[10,13]。其次,AL可以作为一种数据过滤工具[10],用于删除ML模型已经基于先前的训练数据理解的冗余数据,从而无法获得任何进一步的知识。最后,一些研究报告指出,即使原始数据集是高度不平衡的,AL选择的训练数据的这表明AL算法也可以作为一种数据平衡技术[14]。人工智能的概念已成功地应用于药物发现,其有前途的应用上述。然而,AL算法仍然存在一些一些研究报告指出,部署人工智能所带来的命中率提高与缩写:AL,主动学习; ML,机器学习。通讯作者:中国科学院上海药物研究所药物发现与设计中心,药物研究国家重点实验室,上海市祖冲之路555号,邮编201203。电子邮件地址:myzheng@simm.ac.cn(M. Zheng)。https://doi.org/10.1016/j.ailsci.2021.100023接收日期:2021年11月25日;接受日期:2021年11月25日在线预订2021年2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciJ. Yu,X. Li和M.Zheng生命科学中的人工智能1(2021)100023ML模型的性能[5]。此外,模型选择平衡训练数据的能力与复杂性紧密相关所采用的模型架构及其预测能力[14]。因此,AL的能力在很大程度上取决于模型架构。最近,Transformer模型及其衍生物在性质预测和分子表示方面取得了令人鼓舞的成绩[15]。然而,它们需要大量的参数和昂贵的训练过程,这使得它们不适合于需要恒定迭代的AL。因此,如何以更经济的方式将AL与强大的模型(如Transformer)结合起来是未来需要解决的问题。不确定性采样是最常实现和最好理解的AL查询策略[5,10],熵采样是最广泛使用的基于不确定性的查询策略之一,这是由于其模型不可知性和易于实现。然而,熵采样只捕获任意的不确定性[16],而忽略了认识的不确定性[16]。这意味着熵采样作为一种不确定性量化方法,在某些情况下可能过于乐观[17]。为了解决这一问题,在不确定性量化过程中必须考虑认知不确定性。目前,基于集合的方法[18]仍然被认为是认知不确定性量化的最新技术[19]。但它们通常需要大量的计算成本和运行时间,这对在迭代AL过程中部署它们构成了重大挑战。因此,以一种快速、校准和可扩展的方式量化认知不确定性也是一个迫切需要。虽然已经提出了一些方法来解决这个问题,但它们的有效性需要在未来得到验证[17]。结论本文首先介绍了人工智能在药物设计中的应用前景,包括指导实验设计和帮助去除冗余信息。应该注意的是,目前有多种软件应用程序,如薛定谔套件中的Active Learning Glide和Active Learning FEP+,它们利用AL来加速药物发现过程。正如所声称的那样,基于AL的协议成功地恢复了超过80%的实验确认命中,计算成本降低了14倍[20]。它显示了AL在减轻当今超大型化学文库的虚拟筛选的棘手计算成本方面的高地位。这一观点也指出了租赁权的主要局限性由于其迭代性质,AL算法不适用于复杂的模型结构和基于集成的认知不确定性量化方法,这可能会限制AL的应用这些问题的解决对人工智能的发展具有重要意义,需要不同领域研究者的共同参与和努力。竞争利益没有申报。致谢本课题得到国家自然科学基金(81773634)的资助。引用[1] 张文辉,张文辉,张文辉.如果深度学习是答案,那么问题是什么Nat Rev Neurosci2021;22(1):55[2] Smith JS,Ben N,Nicholas L,Olexandr I,Roitberg AE.少即是多:主动学习的化学空间采样。J Chem Phys 2018;148(24):241733[3] 塞特勒斯湾主动学习文献调查。威斯康星大学麦迪逊分校; 2010年。[4] [10]杨文辉,李文辉.支持向量机在药物发现过程中的主动学习。J Chem Inf ComputSci 2003;43(2):667-73.[5] Reker,D.(2020年)。第14章:主动学习药物发现和自动化数据管理。2020年。[6] Jansen JM,De Pascale G,Fong S,Lindvall M,Moser HE,P Fister K,WarneB,瓦特肖角在命中发现活动中有效探索化学空间的有偏互补多样性选择。J Chem InfModel2019;59(5):1709-14。[7] Schneider P,Schneider GJ.混沌边缘的重新设计。J Med Chem 2016;59(9):4077-86。[8] [103]李晓,李晓,李晓.药物组合的贝叶斯主动学习IEEETrans Biomed Eng2013;60(11):3248[9] 张文辉,张文辉.多目标主动机器学习快速改进了结构-活性模型,并揭示了新的蛋白质-蛋白质相互作用抑制剂。Chem Sci2016:3919-27.[10] Ding X,Cui R,Yu J,Liu T,Zhu T,Wang D,Chang J,Fan Z,Liu X,ChenK,Jiang H,Li X,Luo X,Zheng M.药物设计的主动学习:口服药物血浆暴露的个案研究。J Med Chem 2021.[11]BesnardJ,Ruda GF,Setola V,Abecompark K,Rodriguiz RM,Huang XP,Web-在洛杉矶。多药理学特征配体的自动设计。Nature 2012;492(7428):215-20.[12] 放大图片Grave KD,Ramon J,Raedt LD.高通量筛选的主动学习。国际发现科学会议。Berlin,Heidelberg:Springer; 2008.[13] Ahmadi M,Vogt M,Iyer P,Bajorath J,Fr?赫利希预测有效化合物通过基于模型的全局优化J Chem Inform Model.2013;53(3):553-9.[14] Rakers C,Reker D,Brown JB。用于有效化学基因组学主动学习的小随机森林模型。J Comput Aided Chem 2017;18:124[15] YingC,CaiT,LuoS,ZhengS,KeG,HeD,LiuTY. ArXiv预印本; 2021.[16] 塔 加 索 夫 斯 卡 河 Lopez-Paz , D. ( 2018 年 ) 。 深 度 学 习 的 单 模 型 不 确 定 性https://arxiv.org/abs/1811.00908[17] Scalia G,Grambow CA,Pernici B,Li YP,Green WH.评估基于深度学习的分子性质预测的可扩展不确定性估计方法。J Chem Inf Model2020;60(6):2697-717。[18] Lakshminarayanan, B. 普里策, A.& 布伦德尔, C. (2016年)。 简单 和使用深度集成的可扩展预测不确定性估计。https://arxiv.org/abs/1612.01474[19] Soleimany AP,Amini A,Goldman S,Rus D,Bhatia SN,Coley CW.用于指导分子性质预测和发现的证据深度学习。ACS Cent Sci 2021;7(8):1356-67。[20] YangY,Yao K,Repasky MP,Leswing K,Abel R,Shoichet BK,Jerome SV.前-通过对接和深度学习探索化学空间J Chem Theory Comput 2021;17(11):71062
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功