深度学习的不确定性在生命科学中的影响

199 浏览量更新于2023-12-06 收藏 321KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能2（2022）100033了解深度学习中的不确定性有助于建立信心于尔根·巴约拉特生命科学信息学和数据科学系，B-IT，LIMES程序单元化学生物学和药物化学，Rheinische Friedrich-Wilhelms-Universität，Friedrich-Hirzebruch-Allee 5/6，D-53115 Bonn，GermanyaRT i cL e i nf o关键词：机器学习深度学习预测不确定性量化在对AILSCI第1卷的贡献中，Lazic Williams解决了机器学习（ML）中的不确定性问题[1]，到目前为止，在跨学科研究和药物开发中很少考虑这个问题。在用于复合分类或回归的标准ML中，测试实例只产生一个输出值，没有关于预测置信度或与之相关的不确定性水平的额外信息。评估预测的置信度或不确定性为ML增加了另一层信息，这对于在跨学科环境中判断其结果变得特别重要。此外，如果ML支持临床决策，例如治疗策略的优先级因此，未来，量化预测的不确定性是ML，特别是深度学习（DL）的一个重要主题与ML/DL决策合理化的方法一起作为可解释或可解释的人工智能（XAI），不确定性信息也有助于模型解释，减少ML/DL的黑框特征，并增加其在跨学科研究环境中的接受度[2在ML/DL中，区分了两类不同的不确定性，包括认知不确定性和任意不确定性，它们分别由模型固有因素和数据方差（包括实验不准确性）引起认知不确定性和任意不确定性可以分别评估。对于方法开发，模型相关的不确定性提供了一个自然的焦点。存在可以估计ML/DL预测的不确定性的不同方式，如下面进一步讨论在他们精心设计和精心呈现的分析中，Lazic &Williams专注于概率建模，并强调了当模型的单个输出值被概率分布取代时获得的信息，提供了对单个预测的不确定性的直接访问，并使量化潜在错误成为可能（见图1）。[1]一个典型的例子。此外，作者还讨论了基于模型的不确定性的不同来源。Lazic Williams这篇论文的另一个特点是，它是为ML或统计学方面的专家和非专家撰写的，这使得它成为对ML/DL感兴趣的实验研究人员的必读项目。对于不确定性量化，贝叶斯深度神经网络（DNN）特别有吸引力[1，6然而，全贝叶斯DNN的一般使用受到较大数据集的高计算需求的限制值得注意的是，一些利用值分布的ML方法，如高斯过程建模[9，10]，这是回归任务的首选方法之一，为它们的预测提供了固有的贝叶斯DNN标志着ML方法的一端，这些方法产生不确定性信息，范围从不同复杂性的概率方法到集成方法。图1说明了属于这种方法学范围的不同类型的方法[11，12]。枚举方法量化相同ML/DL模型的不同版本之间的预测偏差，最好是在自举数据上训练，以获得模型不确定性的统计度量[13]。因此，集合评估的计算成本也往往很高。在均值-方差估计中，只有DNN的输出层被修改以获得高斯分布并预测给定端点的均值和标准差。这种类型的修改也适用于向DNN添加单个贝叶斯输出层，表示简化了具有降低计算需求的完整贝叶斯DNN。或者，贝叶斯DNN的计算要求也可以通过贝叶斯推理来降低，通过使用代表性或加权数据子集而不是完整的数据集来进行学习。在基于相似性的方法中，测试实例预测的不确定性被认为与其与训练样本的相似性成反比。高斯过程模型使用核函数量化样本之间的相似性。基于联合的方法使用输出电子邮件地址：bajorath@bit.uni-bonn.dehttps://doi.org/10.1016/j.ailsci.2022.100033接收于2022年2月16日;接受于2022年3月5日在线预订2022年3月6日2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciJ. 巴约拉特生命科学中的人工智能2（2022）1000332Fig. 1. 不确定性估计。示意性地说明了用于量化ML/DL预测的不确定性的不同方法。此图取自[11]。作为另一个ML模型的输入来预测不确定性。此外，共形预测框架是一种在预测单个实例时推导误差界限的既定方法，而无需先验概率，这将该方法与贝叶斯建模[14]区分开来。共形预测基于数据随机性和交换性的假设，这通常会导致近似值[15]。此外，证据DL（EDL）[16]的概念最近已适用于不确定性分析[17]。EDL与贝叶斯DNN相关，并推导出定义概率分布的似然参数的高阶这种所谓的证据分布由高阶参数定义，这些参数被学习以产生相关概率预测的不确定性。因此，综合考虑，各种方法可用于ML/DL预测的不确定性量化，从概率建模或保形预测等已建立的方法到有前途的新概念（如EDL）。然而，最近的基准研究表明，使用不同方法量化的不确定性与绝对DL回归误差总体上并不准确相关，至少在化合物性质预测中是如此[12，18]。相对性能-10变化取决于预测任务。在某些情况下，DNN集合和自举达到了比丢弃采样技术更高的性能水平[18]。在其他情况下，与高斯过程模型相结合的消息传递DNN或具有均值方差估计的消息传递DNN表现最好[12]。此外，与集合或脱落方法相比，EDL实现了估计不确定性与回归误差之间更好的相关性[17]。显然，目前对于不确定性量化方法的相对准确性和一致性还没有达成共识，也没有普遍首选的金标准此外，前瞻性地将ML/DL预测不确定性与实验结果相关联的研究目前还缺少谈话结果，这为将来进行与跨学科研究高度相关的调查提供了许多机会。因此，高质量的贡献，如Lazic Williams的贡献，对于该领域提高对ML/DL不确定性估计这一仍处于研究阶段的领域的认识以及促进进一步的研究和前瞻性应用非常重要。AILSCI明确欢迎此类研究，以进一步推进DL在生命科学中的应用，并提高其在实验设计中的实用性。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。引用[1] Lazic SE，Williams DP.用概率模型量化药物发现预测中的不确定性来源。Artif IntellLife Sci 2021;1：100004.[2] AbdarM ， PourpanahF ， HussainS ， RezazadeganD ， LiuL ， GhavamzadehM ，FieguthP ， Cao X ， Khosravi A ， Acharya UR ， Makarenkov V. A review ofuncertainty quantification in deep learning ： techniques ， applications andchallenges. Inf Fusion 2021;76：243-97.[3] [10]李文辉，李文辉.定义，方法，以及在可解释机器学习中的应用。Proc Natl Acad Sci U S A 2019;116：22071-80.[4] LinardatosP，Papastefanopoulos V，Kotsiantis S.EX Plainable AI：机器学习可解释性方法综述熵2021;23：18.[5] 巴约拉特河生命科学领域的第二代人工智能方法搜索Artif Intell Life Sci 2021;1：100026.[6] Lampinen J ， Vehtari A. 神经网络的贝叶斯方法 - 回顾和案例研究。神经网络2001;14：257-74.[7] Ryu S，Kwon Y，Kim WY. 贝叶斯图卷积网络，用于可靠预测具有不确定性量化的分子性质。Chem Sci 2019;10：8438-46.[8] 王宏，杨德荣。关于贝叶斯深度学习的调查。ACM Comput Surveys 2020;53：1-37.J. 巴约拉特生命科学中的人工智能2（2022）1000333[9] DeringerVL，Bartók AP，Bernstein N，Wilkins DM，Ceriotti M，Csányi G.材料和分子的高斯过程回归Chem Rev 2021;121：10073[10] Hie B，Bryson BD，Berger B.利用机器学习中的不确定性加速生物发现和设计。CellSyst 2020;11：461[11]MiljkovićF，Rodríguez-Pérez R，Bajorath J.人工智能对计算机的影响发现、设计和综合。ACS Omega 2021;6：33293[12] Hirschfeld L，Swanson K，Yang K，Barzilay R，Coley CW.使用神经网络进行分子性质预测的不确定性定量。J Chem Inf Model 2020;60：3770-80.[13] 放大图片作者：J.使用深度集成进行简单和可扩展的预测不确定性估计。Adv NeuralInf Process Syst 2017;30：6402-13.[14] Shafer G，Vovk V. A tutorial on conformal prediction. J Mach Learn Res 2008;9：371-421.[15] 克尔斯塔伊奇湾应用于二元分类设置的共形预测方法的关键评估。J Chem InfModel2021;61：4823-6.[16] Sensoy，M.，卡普兰湖，Kandemir，M..证据深度学习量化分类阳离子不确定性arXiv预印本arXiv：1806.01768，2018。[17] Soleimany AP，Amini A，Goldman S，Rus D，Bhatia SN，Coley CW.用于指导分子性质预测和发现的证据深度学习。ACS Cent Sci 2021;7：1356-67.[18] [10]李玉平，李玉平，李文，李文.评估基于深度学习的分子性质预测的可扩展不确定性估计方法。J. Chem Inf Model2020;60：2697-717.

下载后可阅读完整内容，剩余1页未读，立即下载