没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能1(2021)100009概念分析以化学为中心的机器学习模型Raquel Rodríguez-Pérez1,Jürgen Bajorath2,奥地利生命科学信息学系,B-IT,LIMES程序单元化学生物学和药物化学,Rheinische Friedrich-Wilhelms-Universität,Friedrich-Hirzebruch-Allee 6,Bonn D-53115,Germany人工智能(AI)越来越多地被考虑到化学学科,就像在许多其他科学领域一样,通常对“革命性”的进步抱有很高的期望。药物化学和药物设计是这些发展的焦点之一[1-4]在化学信息学,药物化学和药物设计中,术语AI通常与机器学习(ML)同步使用,后者仅代表方法AI谱的一部分[5]。然而,ML在化学信息学和药物化学中已经有了20多年的历史,并广泛应用于分子性质预测以及寻找新的活性化合物[6]。神经网络(NN)在化学信息学的早期很受欢迎,但随着时间的推移,越来越多地被其他方法所取代[7]如支持向量机(SVM)[8]和随机森林(RF)[9]算法或贝叶斯建模[10],主要是由于NN的内在倾向于过度拟合在中等大小的数据集上训练的属性预测模型随着DL,NN在这个领域重新出现,大部分是DNN架构[11]。在计算机科学中,经常观察到方法的复杂性与预测性能不成比例[12],这同样适用于药物化学和药物设计[6]。虽然与其他领域相比,这些条件并没有发挥DNN的优势,例如图像分析或自然语言处理,近年来DL已经产生了很大的影响[14,15]。因此,标准ML方法在预测生物活性和其他分子特性方面通常表现得比DNN更好或更好[6]。另一方面,DL在化学合成和药物化学中提供了新的机会,这些机会直到最近才以类似的方式解决,例如化学反应建模[1]或大规模生成从头化合物设计[3]。在创成设计和基于DNN的复合重新定位中,绘制新领域的成功应用开始应用。pear[16],但其他声称的进展仍然经常受到质疑[17],部分原因是缺乏普遍接受的评价标准和评估化学新颖性的标准[17]。即使在成功的设计应用中,从药物化学的角度来看,新产生或重新利用的化学实体也经常受到争议。很明显,这个领域还在继续发展,但药物化学和药物设计中的ML/DL仍然主要受方法学考虑的支配(可以做些什么?)而不是成功的实际应用(已经做了什么?),这是一个很长的路[18]。从上面的讨论中出现的关于药物化学中的ML的两个特别相关的方面之一是,各种方法被用于性质预测和化合物设计,从简单的基于决策树的算法和概率建模到复杂的DNN,通常具有相当的成功。另一个重要方面涉及预测的合理化,下文将进一步讨论。考虑到大多数ML模型经常被引用的 在药物化学实践中,缺乏预测的透明度和模型合理化继续阻碍ML的接受,并限制了预测建模对实验程序的影响[6,18],尽管ML在该领域有着悠久的传统。类似的考虑也适用于其他主要由实验驱动的化学学科。理想情况下,人们希望知道给定预测的确定性和可靠性,并以直观的化学术语理解它。虽然一些研究已经提出了ML预测的不确定性估计方法[20,21],但目前还没有稳健且普遍适用的方法。然而,在计算机科学和其他领域,可解释或可解释的ML的潜力是一个备受讨论的话题[12,22,23],这也与ML在化学中的应用高度相关。在计算机科学中,可解释的ML是指其预测可以直接协调的算法(如决策树)和可解释的ML,以实现黑盒模型的合理化[12]。然而,在化学相关的出版物中,这些术语或多或少地被互换使用,涉及模型及其决策的合理化。*通讯作者。电子邮件地址:bajorath@bit.uni-bonn.de(J. Bajorath)。1 现地址:Novartis Institutes for Biomedical Research,Novartis Campus,CH-4002 Basel。[2]鉴于他作为主编的角色,Jürgen Bajorath没有参与这篇文章的同行评审,也无法获得有关同行评审的信息。本文编辑过程的全部责任委托给了郑明月https://doi.org/10.1016/j.ailsci.2021.100009接收日期:2021年9月20日;接收日期:2021年9月28日;接受日期:2021年9月28日2021年9月30日网上发售2667-3185/Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciR. Rodríguez-Pérez和J. 巴约拉特生命科学中的人工智能1(2021)1000092在药物化学中,迫切需要ML模型的合理化。虽然药物化学家不愿意在其化合物设计和优化工作中依赖黑盒预测是一种普遍现象,但只有有限数量的研究在结构-活性关系(SAR)分析的背景下解决了ML预测的解释或解释[24]。随着越来越多地使用复杂的DNN架构[3,4],这扩大了模型可用性和接受度之间的差距,并进一步限制了ML的影响。对于活性预测模型,可用的合理化策略通常旨在识别分子表示特征,其主要以模型依赖的方式确定个体预测。这些方法主要采用特征加权技术来合理化基于内核的预测[25,26]或贝叶斯[27]分类模型。此外,还可以确定不同NN层之间的权重梯度然而,这些梯度往往是不稳定的,经常导致对非常相似的预测的不同解释[28]。除了依赖于模型的技术之外,还可以考虑独立于模型的方法,这些方法原则上是优选的,因为它们适用于任何ML模型,而不管底层算法的复杂性。此外,模型独立方法通常不需要在不同模型之间平衡性能和可解释性[29]。然而,通过灵敏度分析[30],直到最近才将一种模型独立方法该方法在大约十年前进行了调整,以研究系统特征值变化对使用ML模型进行活动预测的影响[31,32]。敏感性分析通常依赖于特征扰动来研究随后的效应。特别是,使用偏导数评估碎片描述符的局部扰动对模型预测的影响[32]。随着模型维数的增加,敏感性分析变得快速不稳定,这限制了其适用性。因此,这种方法在该领域或多或少被放弃,或被更好地总结扰动效应的近似方法所取代。我们的小组已经考虑了其他方法,这些方法从不同的角度来看具有ML模型独立合理化的潜力,包括广泛的适用性,预测的定量评估以及视觉解释的易用性。根据这些标准,合作博弈论[34,35]中的沙普利值[33,34Shapley值最初于1953年引入[33],用于定量计算组成球队的单个球员的贡献。这些价值观提供了一个定量评估合作的贡献,一个团队因此,他们通过计算不同团队星座中给定球员的所有贡献的平均值来指定单个球员之间的价值划分。通过应用以下类比,Shapley值概念可以很容易地转移到ML:团队参与的游戏可以被视为单个实例的预测任务(例如,化合物)。该任务的优点在于其预测与所有实例的平均预测参与游戏的玩家是实例的特征值,它们合作(一致行动)以获得给定预测的价值。然后获得给定特征的所得Shapley值作为特征在所有可能特征组合上的平均贡献。因此,Shapley值说明了对包括特征向量或集合(诸如分子表示)的各个特征的贡献的划分。Shapley值概念的一个关键方面使其有别于依赖于模型的特征加权方法,即不仅可以量化特征存在对给定预测的贡献,还可以量化特征缺失的贡献。对于越来越大的特征集,基于所有可能的特征组合的Shapley值的系统计算变得复杂。Fig. 1. 预测的解释。SHAP特征重要性值表示为连续箭头,记录对活动预测的正(红色)和负(蓝色)贡献,从而产生累积输出概率。对于ML,给定的化合物使用包括重叠原子环境特征的拓扑指纹来表示。做出积极或消极贡献的排名靠前的特征被映射到结构上。该化合物的活性仅使用DNN而不是SVM模型正确预测。该图改编自Rodríguez-Pérez和Bajorath[39]。(For有关本图图例中颜色参考的解释,请读者参阅本文的网络版本越来越昂贵。因此,为了使该方法适用于ML,导出了一个局部可解释的解释模型,该模型限制了所需的Shapely值计算。这种方法被称为Shapley加法解释(SHAP)[36],可以被视为局部可解释模型不可知解释(LIME)方法的扩展[37]。下面的附录简要介绍了基本理论。我们采用SHAP方法来解释化合物活性预测和SAR[38]。为此,SHAP与分子特征映射和根据定量贡献的特征分类相结合,以正确或不正确的ML模型预测[38] 并成功应用于不同的复合活动预测任务,包括分类,回归或多任务学习[38,39]。图1显示分子SHAP分析的示例性结果。图中显示的是一种活性化合物,其生物活性被DNN模型正确预测,而SVM分类器预测该化合物无活性。这些预测的SHAP贡献图显示,多个特征对于两种模型的预测具有可比的重要性。然而,SVM模型对DNN没有优先考虑的一些特征产生了负面影响来自SVM预测的高权重正(红色)和负(蓝色)特征在化合物结构上的映射显示,这些特征形成重叠的子结构,从而检测和解释模型错误。最近,引入了一种算法,用于精确计算局部SHAP值,特别是基于决策树的方法,利用树分布[40]。通过直接比较使用SHAP和该算法的预测,对于基于决策树的分类和回归模型,在近似和精确确定的局部特征重要性值之间观察到大于80%的高度相关性[39]。这些发现进一步支持了SHAP本地内核评估的可靠性我们还注意到,有概念上不同但互补的方法SHAP模型解释。例如,相似性图方法依赖于从测试化合物中去除单个原子,并通过量化化合物中的原子来估计其重要性。R. Rodríguez-Pérez和J. 巴约拉特生命科学中的人工智能1(2021)1000093()∑()||| || |这是一个预测的变化[41]。这与不依赖于原子去除的SHAP(即,在结构级引入扰动),但是评估协作(即,基于组合)表示特征的贡献。相似图方法不需要特征映射,但不能量化特征缺失的贡献。此外,单原子微扰可能不会显著改变模型的预测,但会改变结构的另一种概念上不同的方法涉及使用相同ML算法生成的多个模型的特征加权,为确定特征重要性相关性提供基础[42]。对于基于靶标的化合物活性类别,该测量产生了模型内部数据集签名,并揭示了蛋白质的类似化合物结合特征以及功能关系。化合物活性预测模型之间的强特征重要性相关性表明与化合物结合无关的不同靶标之间的功能相似性[42]。对于针对200多个目标导出的RF模型,基尼杂质(GI)标准[43]用作基于节点的递归划分质量的度量。GI是来自信息理论的度量,在等式中定义。(1):LIME 根据Eq. (3):������(argmin���,���,���+Ω(���)( 3)���∈���其中,Σ是一类可解释的(线性)模型,Σ是要最小化的 损失函数,Σ是实例z和x(定义局部性的内核)之间的近似度量,Ω(Σ)是限制模型复杂性的可选正则化项。对于给定测试实例x的解释,应用以下过程:(i) 通过排列测试实例x的特征来获得人工样本。(ii) 这些样本由为它们计算的核的值和x加权。(iii) 模型g被训练为用估计特征重要性的系数来预测f(x)因此,LIME在接近测试实例的特征区域中构建线性模型g,ML模型f通常是非线性的。石灰GI=������1−������(1)=1方法为内核SHAP方法的开发提供了基础,如下所述。Shapley值解释了特征贡献这里, n是给定节点上类i的频率,对于二进制分类,n因此,给定特征的GI等于GI的平均减小,即,RF中的节点的所有杂质减少值的归一化和,其中分裂基于该特征。因此,增加的值表明RF模型的特征重要性增加[43]。然后使用相关系数量化来自不同模型的特征重要性值之间的相关性或统计关联。特征重要性相关性分析仅需要模型内部信息,但不依赖于模型解释。特征模型 为了确定特征i的贡献,可以将特征添加到集合(���!),并且必须对所有可能的集合求和( )。对于任何特征序列,通过添加特征i的边际贡献由[���(���{���})-���(���)]给出。在添加特征I之前,通过可用于形成集合的组合的数量来加权所得到的量,即,(���啊!),以及可以添加剩余特征的顺序,即,((���−��� − 1)!).因此,给定特征i的重要性由等式定义。(四):可以使用多种策略来提取权重或重要性值1个∑| |!(| |-1)!| |− 1)! [���(���{���})−���(���)](4)这取决于底层ML算法。此外,与基于SHAP的个体预测分析相反,特征重要性相关性分析基于全局模型评估,考虑了许多化合物。虽然SHAP和特征重要性分析在概念上是不同的,但这些方法是互补的,可以结合起来进行ML模型评估。预计化学信息学将扩展越来越多的研究,以开发模型解释的方法,以进一步提高ML在药物化学实践中的接受度竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。附录ASHAP理论解释模型g的主要目标是局部地近似并由此简化难以理解的复杂模型f。加性特征归因方法通过二元变量的线性函数生成解释模型,由等式(1)给出。(二):快!联系������我们���因此,Shapley值表示将模型的输出划分为满足三个公理的特征贡献的唯一方式加性特征归属方法通常不考虑与评估特征重要性高度相关的两个属性,即,本地准确性和一致性。SHAP形式主义是专门设计来考虑这些公理性质的[36]。适当的局部精度确保各个特征属性的总和等于原始预测,因为SHAP在贡献特征之间分配模型此外,一致性确保特征重要性正确地解释相对尺度上的不同模型因此,如果特征值的变化对模型A的影响大于对模型B的影响,则A中的特征重要性应该更大。这些属性可以通过将特征重要性表示为Shapley值来解释[36]。人工样本的加权程序是将Shapley值与LIME方法联系起来的一个关键方面。在LIME中,启发式的选择是选择、Ω()���和 。相比之下,SHAP方法引入了一个与Shapley值定义相关的特殊核函数,假设特征权重遵循两个可解释性公理。具体来说,SHAP使用以下过程来解释实例x:������(=100+=1汽车旅馆(2)������(i) 训练数据由k-均值聚类组织,k个样本由它们代表的训练实例的数量加权。这些样本构成给定的背景数据集。其中���,′ ∈ {0,1}���,M是输入特征的数量,且������∈ N。的影响预测的特征值的存在或不存在表示特征贡献(特征贡献)。因此,必须为LIME方法[37]可以应用并进一步扩展的每个变量分配权重特征值。(ii) 通过用背景数据集的值替换测试实例x(iii) 这些人工样本通过为每个样本计算的SHAP内核值和x进行加权。∑R. Rodríguez-Pérez和J. 巴约拉特生命科学中的人工智能1(2021)1000094(iv) 训练加权线性回归模型g以预测f(x)。模型系数是对应于特征重要性估计的Shapley值。采样所有可能的特征子集是避免通过置换的特征向量,通过设置功能上和关闭。如果用人工值替换特征会导致模型输出发生显著变化,则会为该特征分配较大的权重。人工样本的权重由SHAP内核确定为给定子集来自局部线性回归的系数将特征权重提供为Shapley值,Shapley值指示特征对于给定预测的重要性,包括特征的方向(符号)。预期解释值计算为模型输出概率(数值)在训练集实例上的平均值。对于给定的实例,模型输出然后被计算为期望(基础)值和所有SHAP特征值的总和引用[1]Struble TJ,Alvarez JC,Brown SP,Chytil M,Cisar J,DesJarlais RL,EngkvistO,Frank SA,Greve DR,Gri Bern DJ,Hou X,Johannes JW,Kreatsoulas C,Lahue B,Mathea M,Mogk G,Nicolaou CA,Palmer AD,Price DJ,RobinsonRI,Salentin S,Xing L,Jaakkola T,Green WH,Barzilay R,Coley CW,JensenKF.人工智能在药物化学合成中的作用。J Med Chem 2020;63:8667-82.[2] 杨X,王Y,Byrne R,Schneider G,杨S.计算机辅助药物发现的人工智能概念。Chem Rev 2019;119:10520[3] WaltersWP,Barzilay R.深度学习在分子生成中的应用分子性质预测Acc Chem Res 2020;54:263-70 2020 .[4] Mater AC,Michelle LC.化学中的深度学习J Chem Inf Model 2019;59:2545-59.[5] 帕努河人工智能及其在不同领域的应用。Artif Intell 2015;4:79-84.[6] 巴约拉特河最先进的药物化学人工智能未来Sci OA2021;7:FSO 702.[7] 巴斯金·瓦内克化学信息学性质预测的机器学习方法:现状?J Chem Inf Model2012;52:1413[8] 瓦普尼克统计学习理论的本质第二编辑New York:Springer; 2000.[9] 布雷曼湖随机森林Mach Learn2001;45:5-32.[10] 阿尔帕丁机器学习入门。第2版,美国剑桥:麻省理工学院出版社; 2010年。[11]Baskin I,Winkler D,Tetko IV.神经网络在药物发现中的复兴。EX pert Opin DrugDiscov 2016;11:785-95.[12]鲁丁角停止解释黑盒X机器学习模型的高风险决策-而使用可解释的模型。Nat Mach Intell 2019;1:206[13]Bajorath J.数据驱动的药物化学基础。Future Sci OA 2018;4:FSO 320.[14]Shen D,Wu G,Suk HI.医学图像分析中的深度学习。Ann Rev BiomedEng2017;19:221-48.[15]邓丽,刘燕.自然语言处理中的深度学习(编辑)。纽约州:Springer;2018.[16]Stokes JM,Yang K,Swanson K,Jin W,Cubillos-Ruiz A,Donghia NM,McNairCR,FrenchS ,CarfraeLA,Bloom-AckermannZ ,TranVM,Chiappino-PepeA,BadranAH,Andrews IW ,Chory EJ, Church GM ,Brown ED, Jaakkola TS ,Barzilay R,Collins JJ.抗生素发现的深度学习方法。Cell 2020;180:688[17]放大图片创作者:Walters WP,Murcko M.评估生成AI对药物化学的影响。NatBiotechnol2020;38:143-5.[18] 杨志华,李志华. 药物发现中的人工智能:进入大开放。J Med Chem 2020;63:8651[19] 卡斯泰尔韦基湾我们能打开人工智能的黑盒子 Nature 2016;538:20-3.[20] Hirschfeld L,Swanson K,Yang K,Barzilay R,Coley CW.使用神经网络进行分子性质预测的不确定性定量。J Chem Inf Model 2020;60:3770-80.[21]Soleimany AP,Amini A,Goldman S,Rus D,Bhatia SN,Coley CW.用于指导分子性质预测和发现的证据深度学习。ACS Cent Sci 2021;7:1356-67.[22] MolnarC,Casalcchio G,Bischl B.可解释的机器学习历史、最新技术和挑战。在:联合欧洲会议的机器学习和数据库中的知识发现。Springer; 2020. p. 417-31[23] Rudin,C.; Chen,C.;陈志;黄,H.; Semenova,L.;钟C.可解释的机器学习:基本原则和10大挑战arXiv预印本arXiv:2103.11251,2021。[24] 波利什丘克山口定量构效关系模型的解释过去现在和未来J Chem Inf Model 2017;57:2618[25] Hansen K,Baehrens D,Schroeter T,Rupp M,Müller KR.基于内核的预测模型的可视化解释。Mol Inf2011;30:817-26.[26] Balfer J,Bajorath J.支持向量机活动预测的可视化和解释。J ChemInf Model2015;55:1136-47.[27] 作者声明:J.采用可视化和图形化方法解释的贝叶斯分类模型JChemINF模型2014;54:2451-68。[28] Ghorbani A,Abid A,Zou J.神经网络的解释是脆弱的。在:AAAI人工智能会议的进展,33; 2019。p. 3681-8[29] Johansson U,Sönströd C,Norinder U,Boström H. 计算机模拟预测建模的准确性和可解释性之间的权衡。Future Med Chem 2011;3:647-63.[30] LoossB,Saltelli A.敏感性分析导论In:Ghanem R,Higdon D,Owhadi H,编辑。不确定度量化手册。Cham:Springer; 2016. p. 1-20[31]Baskin II,Ait AO,Halberten-NM,Palyulin VA,Ze Firov NS. QSAR研究中反向传播神经网络模型的解释方法。SAR QSAR Environ Res2002;13:35-41.[32] [1] Marcou G,Horvath D,Solov'ev V,Arrault A,Vayer P,Varnet A. 可解释-任何复杂性的SAR/QSAR模型的原子贡献的完整性。Mol Inf 2012;31:639-42.[33] 沙普利湖N人博弈的一个值。对博弈论的贡献。库恩HW,塔克AW,编辑,普林斯顿:普林斯顿大学出版社,1953年。数学研究年鉴,页。307-317.[34] 年轻 生命值 单调 解决方案 的 合作 平板电脑设备. Int J 博弈论1985;14:65-72.[35] 放大图片创作者:A. 一门博弈论课程剑桥:麻省理工学院出版社.[36] LundbergSM,Lee S.解释模型预测的统一方法高级神经信息处理系统(NIPS)2017;30:4766[37] 李伟杰,李伟杰.“我凭什么相信你?”解释任何分类器的预测。在:第22届ACMSIGKDD知识发现和数据挖掘国际会议论文集; 2016年。p. 1135-44[38] Rodríguez-Pérez R,Bajorath J.对来自于复杂的机器学习模型,使用局部近似和Shapley值。 J Med Chem 2020;63:8761[39] Rodríguez-Pérez R,Bajorath J.使用Shapley值解释机器学习模型:应用于化合物效力和多目标活性预测。J Comput Aided Mol Des2020;34:1013-26.[40] LundbergSM , Erion G , Chen H , DeGrave A , Prutkin JM , Nair B , Katz R ,Himmel-放大图片作者:J.从局部解释到全局理解,用可解释的人工智能来解释树木。NatMach Intell 2020;2:56[41]Riniker S,Landrum GA.相似性图-分子指纹和机器学习方法的可视化策略。JCheminf2013;5:43.[42] Rodríguez-Pérez R,Bajorath J.机器学习的特征重要性相关性-它表示蛋白质和类似化合物结合特性之间的功能关系。Sci Rep2021;11:14245.[43] Zwillinger D, Kokoska S. 标准概率统计 表和公式。New York :CRC Chapman&Hall;2000.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功