没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能3(2023)100052社论人工智能对跨学科生命科学研究的具体贡献于尔根·巴约拉特生命科学信息学和数据科学系,B-IT,LIMES程序单元化学生物学和药物化学,Rheinische Friedrich-Wilhelms-Universität,Friedrich-Hirzebruch-Allee 5/6,Bonn D-53115,GermanyaRT i cL e i nf o保留字:人工智能深度学习生命科学药物研发跨学科研究炒作与现实之间的人工智能人工智能(AI)在许多领域被誉为吉祥的问题解决者。然而,对人工智能方法的理解往往是有限的。因此,围绕AI可能会产生一种神秘的气氛例如,期望机器能够在科学领域,人工智能的普及和前景主要来自于一些领域的显著进步,但也受到商业驱动的炒作和不切实际的期望的影响。由于生命科学中的人工智能(AILSCI)即将完成第二年,这篇文章旨在将与该杂志特别相关的人工智能发展纳入科学视角。它基于并进一步扩展了最近两个面向广泛生命科学受众的开放获取出版物在计算机科学中,术语AI涵盖了各种学科[3]。其中,使用深度神经网络(DNN)的深度学习(DL)是机器学习(ML)的一个子学科,负责计算机视觉(图像分析)或自然语言处理等领域的最新进展。这些进步极大地促进了人工智能在科学中的普及机器人学是人工智能的另一门学科,是工业的主要支柱,在实验室自动化中也发挥着重要作用。此外,专家和推荐系统,也属于AI频谱,在不同的科学领域进行了探索。类似从人工智能驱动的物理学、理论生物学或量子化学的发展,人工智能开始影响生命科学,包括更大规模的早期药物发现在这里,术语AI在大多数情况下与DL同步使用,当应用于计算和实验之间的接口时[2,4在医学上,DL被用于电 子 邮 件 地 址 : bajorath@bit.uni-bonn.dehttps://doi.org/10.1016/j.ailsci.2022.100052接收日期:2022年12月7日;接受日期:2022年12月9日2022年12月11日在线提供不同的治疗领域[7],如放射学或肿瘤学[8,9]。在临床实践中,医学图像分析代表了DL的主要增长领域[8,10]。对于更大的生命科学领域的这些发展,AILSCI代表了一个定位良好的出版场所。AILSCI的核心价值之一深度机器学习的特点一般来说,ML使用算法从训练数据中提取特征模式,以分类测试对象或解决回归任务。因此,ML方法本质上是统计的,并且基于来自数据的推断来导出捕获线性或非线性实例-特征关系的预测模型DNN非常适合从大量非结构化数据(如图像中的像素)中提取特征,并学习新的对象表示。DL依赖于特征模式和已知类别标签的系统因此,这种有监督的“机器智能”并不神秘浅层神经网络在生物学、化学和药物发现的ML早期阶段很受欢迎,但在很大程度上被其他方法所取代,如决策树方法(随机森林、梯度增强)、贝叶斯建模或支持向量机。这在很大程度上是由于浅NN过度拟合模型以训练数据的一般趋势以及它们对不同参数设置的高敏感性。越来越流行的第二代DNN代表了高度反瓦片的计算架构。在计算机科学中,已经引入了各种各样的DNN和相关的学习策略,其中一些-2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciJ. 巴约拉特生命科学中的人工智能3(2023)1000522有时会用网络“丛林”或“动物园”之类的术语来描述这种架构的多样性有利有弊。对于许多应用程序,可以考虑替代DNN,但找到首选解决方案并不一定是简单的。此外,复杂的DNN模型通常是在没有证明其复杂性确实是手头的预测任务所必需的情况与其他ML方法相比,DNN的超参数特别丰富,DNN模型的推导因此,尽管公共领域软件可用于构建DNN,但DL不是非专家容易访问的方法。有模型构建的机制与结果评估和潜在警告或模型错误的识别之间存在很大差异,前者可能由经验不足的用户处理,后者需要更多的专业知识。重要的是,与其他但不是所有的ML方法类似DNN的黑盒是生命科学和药物发现应用中的主要问题,如下面进一步讨论的。数据异质性生命科学和药物发现数据在数量、组成和复杂性方面是高度异构的。与DL产生强大影响的其他领域相比,专注于靶标验证、生物测定、化合物和活性评估的早期药物开发并不是一个数据丰富的学科。在药物发现的早期阶段,药物化学的数据集通常限于化合物系列的测试结果,因此规模有限。这也适用于来自例如化学生物学中的探针研究、生物学中的时间序列实验或生物筛选中的确证性测定的数据集。数据异构性和稀疏性的结果是,对于“饥饿”DNN来说,足够大的数据集通常不可用。此外,生命科学中的信息学方法传统上采用预先定义的对象(例如,目标或化合物)表示(描述符),而不依赖于表示学习。为了使问题更加复杂,有效的ML/DL模型也可以基于非常小的数据集生成[13]。因此,有许多激励因素促使我们深入DNN丛林,进一步分析不同方法的学习特征,并比较不同复杂性的ML/DL模型。药物化学作为一个具有许多实际应用机会的示范性领域,人们可以仔细研究药物化学中人工智能的最新技术,这是早期药物发现的核心学科。ML在药物化学方面已经有很长的历史,这是一个传统上保守的学科。二十多年来,ML方法已用于化合物性质预测和其他应用。在药物化学中,用于计算研究的感兴趣的性质首先包括小分子的生物活性,但也包括理化性质(例如溶解度)或体内性质(例如代谢稳定性或毒性)。对这些性质的预测旨在支持药物化学实践中的关键任务,即确定下一步合成哪种化合物。随着时间的推移,早期用于属性预测的浅NN在很大程度上被其他ML方法所取代,如上所述。重要的是,在药物化学中,化学直觉、经验和主观决定继续发挥着重要作用。因此,不能用化学术语解释的黑盒预测不利于ML在实际应用中的然而,DNN的普及和与DL相关的高期望也正在改变计算药物化学。平衡着很高的期望在一篇从计算机科学的角度比较黑盒模型、可解释和可解释的ML的出版物中,Cynthia Rudin指出:“这种情况也适用于药物化学。在这里,典型地,对于表示学习(DNN的显著优势),不对非常大的低分辨率数据集(诸如包括图像的像素)相反,在药物化学项目中,可用的数据集大多很小,并且使用定义明确的分子表示(例如基于分子图的描述符)。这样的条件解释了经常出现的观察结果:至少对于药物化学中的性质预测,DNN与其他(更简单的)ML方法相比通常几乎没有任何可检测的优势。在她的文章中,Cynthia Rudin提出了另一个同样适用于药物化学和药物设计的关键点“人们普遍认为,更复杂的模型更准确,这意味着一个复杂的黑匣子是必要的最高预测性能。 但事实往往并非如此……”[14]。人们可以重新表述这一点,并强调方法的复杂性不一定与预测性能成比例。显然,没有一种复杂的ML方法是“有效的”,直到它没有被结论性地证明,更简单的方法不会产生可比的结果;一个关键的问题,往往没有充分考虑在literature。新机遇虽然药物化学中的分子性质预测目前仅从DL中获益很少,但DNN为新型应用打开了大门,例如生成分子设计[15,16]或化学反应分析和建模[17-19],这将难以使用其他ML方法来解决。生成式化合物设计旨在构建具有所需性质的化学新颖化合物。在这些和其他领域,最近的DL应用说明了该领域的科学异质性。例如,尽管有关于分子设计的个别成功故事的报道[20],但在此过程中仍然存在警告[21]并且在不同的化合物类上始终成功地应用给定的方法是罕见的。虽然可以使用DNN实现各种化合物设计策略,但DL是否能够生成比其他化学实体质量更高的新化学实体仍然是个未知数人工智能驱动的药物开发企业经常声称在创纪录的时间内产生新化合物的突破。然而,这些声明通常无法进行科学评估,总的来说,对药物化学产生明显积极影响的实际人工智能应用的科学合理报告仍然很少[22]。大数据趋势DNN的好处通常与从“大数据”中学习有关虽然早期药物发现不是一个数据丰富的学科,但如上所述,在药物化学中也观察到相对规模的大数据趋势[23]。化合物数据的主要公共存储库已经发展到包含数百万种生物活性化合物,其具有数千种生物靶标的活性注释。此外,超过2亿种商业化合物用于药物化学。当然,对于从事粒子物理学、基因组学或社交媒体研究的人员来说,这样的数据量可能与他们所感知的相去甚远J. 巴约拉特生命科学中的人工智能3(2023)1000523as big大data数据.然而,对于传统上不是数据驱动的药物化学来说,这些数据量是具有挑战性的。另一方面,数据驱动的方法为药物化学作为一门科学学科的进一步发展提供了新的机会[24]。预测建模的情况不同在药物化学中,ML主要应用于使用相对较小数据的单个目标导向项目。这些项目中的每一个都为建模提供了特定的上下文。在数据科学中,数据结构化和分析的上下文依赖性被认为不利于知识提取的泛化,这需要从基于项目的数据集和特定于项目的分析标准中进行抽象[25]。相比之下,在药物化学中,项目焦点占据中心舞台,并确认ML的适用性。此外,药物化学中占主导地位的小数据框架也表明了ML的替代策略。迁移学习等方法并没有深入研究其优势取决于大数据量的方法,[26]或主动学习[27,28],能够基于稀疏数据预测分子性质或新化合物。迁移学习使得可以使用来自相关预测任务(目标)的数据进行建模;主动学习从最小的信息训练实例集合中导出预测模型。在医学化学中,这些方法对于解决具有感兴趣的疾病生物学的新靶点特别相关,对于这些新靶点,仅有限的化合物信息是可用的。总而言之,有很大的空间,进一步计算的发展与实际效用的药物化学。模型影响和接受度回到更大的生命科学领域,DNN在其他领域取得了前所未有的进步,例如从头蛋白质结构预测[29]。无论如何,深度学习最终只有在对实验项目产生可衡量的影响时,才会成为跨学科生命科学研究的一个组成部分。重要的是,只有当生命科学研究者和药物发现从业者同意依赖于实验设计的预测时,才有可能在跨学科环境中进一步这就需要在跨学科研究中增加模型的接受度。与任何新技术一样,DL实现其在这一领域的潜力需要时间。然而,为了进一步提高实验者对预测模型的信心,必须满足一些特定的要求。使预测经验主义者自然不愿意依赖那些难以理解或不可能理解的预言。鉴于DNN的黑盒性质,这对接受这种模型进行实验设计构成了主要障碍。因此,越来越多的注意力被用于“可解释AI”(XAI)的方法,这些方法其中包括识别对个体预测贡献最大的特征或确定产生准确预测所需的最低特征集的与XAI方法密切相关的是量化预测不确定性的方法[32获得不确定性估计也有助于建立预测建模的信心。尽管有ML方法可以产生不确定的预测,例如概率(贝叶斯)建模[34],但包括DNN在内的大多数方法都产生没有不确定性估计的端点,这些估计需要进一步分析。应用前景对ML/DL在生命科学中的潜力的最终评估取决于预期的应用,也就是说,to experimental实验evaluation评估in real真实life projects项目.在跨学科的研究环境中,预期的应用需要预测建模的信心。然而,还必须考虑到,依赖于项目数据的预测不可避免地受到数据生成过程和数据完整性的影响[35],并且预测可能由于不同的原因而成功或失败。因此,不正确的预测可能不一定归因于方法失败。因此,在未来的应用中,预测应该在给定的项目背景下进行分析,解释和仔细评估,并且应该注意不要过早地概括成功或失败。结论人工智能在许多科学领域的兴起伴随着承诺和新的挑战。AI和DL经常被同时使用,尽管DL只是AI频谱的一部分。在生命科学和药物发现中,许多DNN变体正在被考虑用于方法开发和不同的应用。然而,在跨学科研究中,深度学习最终只有在对实验项目产生积极影响时才能达到预期。这需要时间,不太可能立即取得突破例如,药物化学家目前通过DL见证了合成设计的方法学进步。然而,这些新方法在药物化学的实践中并不容易获得因此,将依赖专家的计算模型转换为强大且易于使用的计算工具是该领域的重大挑战之一。更多的前瞻性应用也将是至关重要的,以进一步推进DL在跨学科研究,并展示对高知名度项目的真正影响。反过来,这将需要缩小深度学习和实验之间的差距,并进一步增加从业者对预测的信心。对于AILSCI来说,方法开发工作、实际应用以及与生命科学接口的人工智能方法开发相关的高科学质量是在AILSCI发表的重要标准,这也强烈鼓励数据共享和开放科学倡议。此外,作者和研究主题的多样性是高度期望的,并强烈鼓励提交“打破常规”的贡献值得注意的是,根据其特定目标,AILSCI推出了几个主题文章集(TAC),这些主题文章集基本上与特殊问题相对应,并专注于例如人工智能领域的年轻研究人员或女性。展望未来,这些和其他TAC预计将在AILSCI竞争利益作者声明,他没有已知的竞争性经济利益或个人关系,可能会出现在本文报道的工作中。数据可用性文章中描述的研究未使用任何数据引用[1]Bajorath J.跨学科生命科学和药物发现研究中的人工智能。Future Sci OA2022;8:FSO 792.[2] Bajorath J.药物化学中最先进的人工智能。Future Sci OA2021;7:FSO 702.[3] RapaportWJ.什么是人工智能? J Artif General Intell 2020;11:52-6.[4] 韦伯生物学的深度学习 Nature 2018;554:555-8.[5] Leite ML,de Loiola Costa LS,Cunha VA,Kreniski V,de Oliveira Braga FilhoM,da Cunha NB ,Costa FF. 人工智能与生命科学的未来。今日 药物发现2021;26:2515-26。[6] 陈宏,王毅,王伟,刘伟.深度学习在药物发现中的兴起。今日药物发现2018;23:1241-50。[7] 王F,Casalino LP,Khullar D.医学中的深度学习:承诺,进展和挑战JAMA InternMed2019;179:293-4.J. 巴约拉特生命科学中的人工智能3(2023)1000524[8] Hosny A,Parmar C,Quackenbush J,Schwartz LH,Aberdeen H.放射学中的人工智能。Nat Rev Cancer2018;18:500-10.[9] Farina E,Nabhen JJ,Dacoregio MI,Batalini F,Moraes FY.肿瘤学人工智能概述。Future Sci OA2022;8:FSO 787.[10] ShenD,Wu G,Suk HI.医学图像分析中的深度学习Ann Rev BiomedEng2017;19:221[11]van Venn,F.神经网络动物园(2016)https://www.asimovinstitute。org/neural-network-zoo/.[12]卡斯泰尔韦基湾我们能打开人工智能的黑盒子 Nature 2016;538:20-3.[13]Siemers FM,Feldmann C,Bajorath J.使用不同复杂度的机器学习方法进行准确化合物活性预测的最小数据要求。Cell Rep Phys Sci2022;3:101113.[14]鲁丁角不要再为高风险决策解释黑盒机器学习模型,而是使用可解释的模型。NatMach Intell 2019;1:206[15]杨文伟,杨文伟.从头分子设计与生成模型。今日药物发现2021;26:2707[16][1] Tong X,Liu X,Tan X,Li X,Jiang J,Xiong Z,Xu T,Jiang H,Qiao N,Zheng M. 用于从头药物设计的生成模型。J Med Chem 2021;64:14011[17]De Almeida AF,Moreira R,Rodrigues T.人工智能驱动的合成有机化学。Nat RevChem2019;3:589-604.[18]StrubleTJ,Alvarez JC,Brown SP,Chytil M,Cisar J,DesJarlais RL,EngkvistO,Frank SA , Greve DR , Gri Bern DJ , Hou X , Johannes JW , Kreatsoulas C,Lahue B,Mathea M,Mogk G,Nicolaou CA,Palmer AD,Price DJ,RobinsonRI,Salentin S,Xing L,Jaakkola T,Green WH,Barzilay R,Coley CW,JensenKF.人工智能在药物化学合成中的作用。J Med Chem 2020;63:8667-82.[19]BortW,Baskin II,Gimadiev T,Mukanov A,Nugmanov R,Sidorov P,MarcouG,Hor- vath D,Klimchuk O,Madzhidov T,Varnek A.用深度生成递归神经网络发现新的化学反应。Sci Rep 2021;11:1[20] Stokes JM , Yang K , Swanson K , Jin W , Cubillos-Ruiz A , Donghia NM ,McNairCR,FrenchS , Carfrae LA , Bloom-Ackermann Z , Tran VM , Chiappino-Pepe A ,Badran AH,Andrews IW,Chory EJ,Church GM,Brown ED,Jaakkola TS,Barzilay R,Collins JJ.抗生素发现的深度学习方法Cell 2020;180:688[21]放大图片创作者:Walters WP,Murcko M.评估生成AI对药物化学的影响。NatBiotechnol2020;38:143-5.[22] 杨志华,李志华.药物发现中的人工智能:进入大开放。J Med Chem 2020;63:8651[23] Hu Y,Bajorath J.进入药物化学的Future Sci OA 2017;3:FSO 179.[24] 巴约拉特 J. 基础 的 数据驱动 药用 化学. 未来 科学OA2018;4:FSO 320。[25] 弗西特·T.数据科学及其与大数据和数据驱动决策的关系。大数据2013;1:51-9.[26] Cai C,Wang S,Xu Y,Zhang W,Tang K,Ouyang Q,Lai L,Pei J. Transferlearning for drug discovery. J Med Chem2020;63:8683-94.[27] [10]杨文辉,李文辉.主动学习在药物发现过程中使用支持向量机。J Chem Inf Comput Sci 2003;43:667-73.[28] 余建,李新,郑明.药物发现主动学习的现状。Artif Intell Life Sci2021;1:100023.[29] JumperJ,Evans R,Pritzel A,Green T,Figurnov M,Ronneberger O,Tunyasuvu-nakool K , Bates R , Bagídek A , Potapenko A , Bridgland A , Meyer C , KohlSAA,Bal- lard AJ,Cowie A,Romera-Paredes B,Nikolov S,Jain R,Adler J,Back T,Petersen S,ReimanD,Clancy E,Zielinski M,Steinegger M,PacholskaM , Berghammer T , Bodenstein S , Silver D , Vinyals O , Senior AW ,Kavukcuoglu K,Kohli P,Hassabis D.使用AlphaFold进行高度准确的蛋白质结构预测Nature 2021;596:583[30] LinardatosP,Papastefanopoulos V,Kotsiantis S.EX Plainable AI:机器学习可解释性方法综述熵2021;23:18.[31]Rodríguez-PérezR,Bajorath J.用于财产预测的EX plaable机器学习在复合优化中J Med Chem 2021;64:17744[32] 放大图片作者:J.使用深度集成的简单和可扩展的预测不确定性估计。Adv Neural InfProcess Syst(NIPS)2017;30:6402-13.[33] Hie B,Bryson BD,Berger B.利用机器学习中的不确定性加速生物发现和设计。CellSyst 2020;1:461-77.[34] LazicSE,Williams DP.量化药物发现预测中的不确定性来源与概率模型。Artif Intell Life Sci 2021;1:100004.[35] 克恩斯湾追求前瞻性的视角。Trends Chem2021;3:77-9.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功