Maxsmi：深度学习与SMILES增强在生命科学中的应用

118 浏览量更新于2023-12-06 收藏 2.18MB PDF 举报

深度学习

数据扩充

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能1（2021）100014研究文章Maxsmi：使用SMILES增强和深度学习通过置信度估计塔里亚湾Kimbera，J.，Maxime Gagnebinb，Andrea J.，J.aIn silico Toxicology and Structural Bioinformatics，Institute of Physiology，Charité-Universitätsmedizin Berlin，Charitéplatz 1，10117，Berlin，Germanyb德国柏林aRT i cL e i nf o保留字：深度学习分子性质预测数据扩充开源信心评估SMILESa b sTR a cT准确的分子性质或活性预测是计算机辅助药物设计的主要目标之一。定量构效关系（QSAR）建模和机器学习，最近的深度学习，已经成为这个过程的一个组成部分。这种算法需要大量的数据进行训练，在物理化学和生物活性数据集的情况下，仍然是稀缺的。为了解决数据缺乏的问题，增强技术越来越多地应用于深度学习。在这里，我们利用一个化合物可以表示为各种SMILES字符串作为数据增强的手段，我们探索了几种增强技术。卷积和递归神经网络在四个数据集上进行训练，包括实验溶解度，亲脂性和生物活性测量。此外，模型的不确定性进行了评估，通过对测试集应用增广。我们的研究结果表明，数据增强提高了准确性，与深度学习模型和数据大小无关。最佳策略导致Maxsmi模型，该模型最大化SMILES增强中的性能。我们的发现表明，每个SMILES预测的标准差与相关化合物预测的准确性相关。此外，我们的系统测试不同的增强策略为SMILES增强提供了广泛的指导。在https://github.com/volkamerlab/maxsmi上提供了使用Maxsmi模型对上述物理化学和生物活性任务的新型化合物进行预测的工具。1. 介绍药物设计是一个耗时且昂贵的过程[1，2]，具有高损耗率[3]。它可以通过指导设计过程、优化化合物并在开发的早期阶段丢弃具有不期望特性的化合物来支持计算机模拟方法。在这种背景下，计算机辅助药物设计（CADD）已成为药物发现管道的中心，并广泛应用于学术界和制药公司的研究和开发。在过去的几十年里，人们对机器学习（ML）和更具体的深度学习（DL）产生了浓厚的兴趣，它们已应用于各种领域，包括计算机视觉[4]，语音识别[5]以及生命科学。仅举几例，来自DeepMind的AlphaFold2预测蛋白质折叠[6]，Poten-tialNet专注于蛋白质-配体结合能力[7]，适合于化合物优化的从头分子设计[8]，以及Webel等人的工作中的细胞毒性预测[9]。如此激动的DL可以通过以下三个主要因素来解释[10]。∗ 通讯作者。1. 通过图形处理单元（GPU）和张量处理单元（TPU）获得计算能力。像Google Colaboratory[11]这样的平台允许任何用户免费利用高性能计算资源，这种免费和轻松的访问是前所未有的。2. 不断增长的可用数据量。在各个领域，每天都有更多的数据被创建并存储在数据库许多过程都是自动化的，使数据更容易在内部（如制药公司）或公开访问和使用。例如，在学术研究、竞赛（如Kaggle[12]）或挑战（如D3 R-药物设计数据资源挑战[13]或To x 21挑战[14]）中3. 算法的进步，使模型比以往任何时候都表现得更好。如果在包含超过1000万个数据点的数据集上进行训练，深度学习算法可能会超过人类的表现，正如Goodfellow等人所[10]第10段。随着ML/DL研究的兴起，许多应用已经扩展到分子性质和丰度预测领域，尽管不充分的数据仍然是该领域的一个挑战。电子邮件地址：talia. gmail.com（T.B. Kimber），andrea. charite.de（A. Ambassador）。https://doi.org/10.1016/j.ailsci.2021.100014接收日期：2021年10月4日;接收日期：2021年11月13日;接受日期：2021年11月15日2021年11月18日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciT.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000142以人类和计算机可读的格式编码分子化合物是CADD的必要步骤。方便的编码是SMILES，或简化的分子输入线输入系统[15]。顾名思义，SMILES是一种基于原子和键计数以及分支、环闭合和断开规范的分子线性符号。这种紧凑的表示有几个优点。1. 可打印的字符使SMILES很容易被计算机读取，也很容易被人类破译。2. 作为一个单一的行，微笑类似于文字，因此存储成本低。3. 这种符号非常流行，许多开源数据库将化合物存储在SMILES中。然而，在可读性和规范性之间存在一个权衡：具有紧凑的编码意味着丢失有关分子的详细信息，此外，微妙的化学规则，如芳香性，没有一个标准的处理方式[16]。给定化合物的SMILES的实现可以描述如下：从分子中的任何起始原子开始，枚举分子图中遵循路径的原子和键。这种构造的两个方面导致了SMILES的非唯一性：1。开始枚举的原子，以及2.沿着图的路径。因此，一个分子可以有许多不同的有效SMILES，简单地从不同的原子开始计数或选择然而，在一些设置中，可以寻求在分子和其SMILES符号之间具有双射。为了考试-当从两个数据集确定重叠的分子时。在这种情况下，大多数化学信息学工具都有自己的算法，允许它们在给定分子图的情况下总是检索相同的SMILES，这样的SMILES被称为典型的[17]。如前所述，深度学习是数据贪婪的，而物理化学和生物活性数据库都是贫乏的，必须集成复杂的技术来释放深度神经网络的全部潜力。在这种情况下，一般的数据增强[18，19]，更具体地说是SMILES增强[20-从机器学习的角度来看，数据增强允许模型通过不同的角度看到相同的对象，并已成功应用于图像分类[4，24]，其中图像经过变换，如缩放，着色，裁剪，旋转和平移。从计算的角度来看，SMILES增强是有利的，因为生成随机SMILES速度快，内存效率高，即使训练一个模型可能在计算上更昂贵，但它的评估仍然很便宜。QSAR建模中首次出现SMILES增强由Bjerrum[20]开发，其中在756种化合物的小数据集上预测了对二氢叶酸还原酶（DHFR）的亲和力。该模型由长短期记忆（LSTM）层和一个用于标准化log loglog50值的全连接层组成。每个分子平均增加了130倍。SMILES增强模型的检验相关系数达到0.68，0.12相对于标准模型的增长。从那时起，一些研究建立在相同的思想上，将SMILES增强应用于QSAR建模[21]。此外，卷积神经网络已成功应用于SMILES增强的背景下，优于使用传统分子描述符的模型[22，23]。这种增强技术也出现在相关领域，如逆合成[25，26]和生成建模[27，28]。虽然所有这些研究都显示了增加数据的好处，但据我们所知，没有一项研究关注于系统分析如何以最好地扩充数据集，并且最先决定扩充数。本研究旨在通过在增强策略和数据应增强多少方面采用系统增强方法来填补这一空白。此外，一个命令行界面可供用户感兴趣的预测，新分子的物理化学性质和评估预测的不确定性。为此，所有代码都可以在https://github.com/volkamerlab/maxsmi上免费获得。2. 方法在本节中，我们首先描述在处理SMILES时可用于数据增强的不同增强策略。其次，我们说明了如何SMILES增强可以被视为一种集成学习技术，当涉及到预测。然后，我们检查了在本研究中训练的深度学习模型2.1. 增强策略正如在引言中所讨论的，一个化合物可以有几个有效的SMILES，因为起始原子和沿着用于生成SMILES的分子图的路径都可以是不同的。本文详细介绍了用户探索此类随机SMILES的方式，并描述了将单个SMILES增强为多个SMILES的五种策略：无增强、有重复的增强、无重复的增强、减少重复的增强和估计最大值的增强。在下面的部分中，我们假设给定了一个数据集，其中包含{compound，label}的n个对。��标签是指测量的性质，如亲脂性或溶解度。这些策略的实施基于开源化学信息格式软件RDKit[29]。2.1.1. 无扩增零级到增量是没有增量，或者换句话说，增量为零。这意味着，给定一个包含非线性化合物的数据集，“无增强”版本的��微笑。更具体地说，在这种情况下，与每个化合物相关的SMILES是规范 SMILES。2.1.2. 扩充与复制生成随机SMILES意味着随机挑选初始原子并沿着分子图遵循随机路径。对数据集进行逐行递增意味着，��随机SMILES的两个实例被绘制，并且每个化合物的相关标签被匹配。在这种情况下，按增加将导致增加的数据集包含×数据点。在这种情况下，所有的分子都乘以相同的因子。��因此，具有较少SMILES变化的较小分子将包含更多的重复，而较大分子更可能覆盖随机SMILES的不同集合。这种增强策略的缺点是对应于小分子的SMILES将在数据集中过度表示，并且可能在模型训练中产生偏差。2.1.3. 增加而不重复删除重复的条目在数据争用中很常见[30]。在在SMILES扩增的情况下，这转化为在已经生成多个随机SMILES之后丢弃重复。对于数据集SMILES，扩增后数据点的最终数量根据扩增数量（即从有效SMILES空间中抽取样本的次数）和数据集中分子的大小而变化。这种增强策略的缺点是，小分子可能具有较少的独特SMILES代表性，在数据集中代表性不足，可能会产生偏倚模特训练2.1.4. 增加并减少重复为了在保留或删除所有重复之间找到一个折衷在此设置中，仅保留副本数量的一小部分从数学上讲，如果数据集被增广，则��T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000143√（）下一页比线性增长更慢的函数f（f）用于控制为每个SMILES保持的副本的数量。合理的函数是平方根函数（）=或自然对数（）= ln（），前者用于本研究的实验��前三种增广策略的一个极端情况是当增广数n= 1时。在这种情况下，将生成随机SMILES，并且数据点的数量仍然是100，如在“无增强”情况下，不同之处2.1.5. 估计最大值所描述的最终策略是用估计的最大值进行扩增，其目的是覆盖给定化合物的有效SMILES空间的大范围，或者换句话说，生成许多取决于化合物的唯一SMILES。在我们的研究中，这种增强策略的实施随机采样对应于化合物的SMILES，并且一旦相同的SMILES字符串已经生成预定义的次数，采样过程就停止。本研究的实验设置了10代相同的SMILES作为停止标准。值得注意的是，该方法生成的SMILES的数量高度依赖于化合物的大小，而不像以前的方法总是生成由ε限制的SMILES的数量。例如，我们的这种扩充策略的实施产生了50659个独特的SMILES变体，用于由规范SMILES CC（=O）C1（C）CCC2C3C=C（C）C4=CC（=O）CCC4（C）C3CCC21C给出的化合物，而对于规范SMILES C=CC=C，仅生成三个，即C（=C）C=C、C（C=C）=C和C=CC=C。2.2. SMILES增强作为复合预测和置信度测量在训练过程中应用数据增强策略已被证明是成功的，如以前的工作[4，24]所示。特别是在QSAR建模中，SMILES增强不仅对训练集有益[22]，而且增强测试集，或更一般地，未标记的数据集，如本节所述。让我们假设具有一组参数Θ的模型θ被训练了一定数量的时期。让我们考虑一个未标记的数据集，其中包含我们想要预测的化合物。每一个复合词都可以使用随机的SMILES来增强：��1（��型号：��为每个SMILES生成一个预测，即对于{1，��̂��(��)=��Θ(�� (��)),��导致每SMILES预测而不是每化合物预测。使用聚合函数��：λ��→λ，例如平均值，化合物的预测可以计算为��（��）��=这种聚集可以被视为SMILES预测之间的共识，并解释为给定化合物的集成学习此外，如果计算预测的标准偏差，则可以将其解释为对分子性质或活性预测的置信度。如果标准差很大，则每个SMILES预测中的变化很大，并且模型在其每个化合物预测中不确定。这种分子预测的图解如图1所示。根据Tagasovska和Lopez-Paz[31]的基本原理，随机和认知不确定性通常是相互关联的;我们工作中计算的不确定性属于随机类别，这是一种与模型预测和输入数据中的随机性相关的不确定性[312.3. 深度学习模型神经网络是一种强大的算法，可以对各种任务进行准确预测。在QSAR/ML/DL建模的情况下，更具体地说，使用SMILES表示，两种类型的模型可以卷积神经网络[10，第9章]和递归神经网络[10在这项研究中，比较深度学习模型以及它们在数据增强方面的表现是重点之一。为此，构建和训练了三种类型的模型，即1D和2D卷积神经网络（CONV1D，CONV2D）以及递归神经网络（RNN）。递归网络的架构包括一个LSTM层，然后是两个完全连接的层，分别为128和64个单元。它受到Bjerrum[20]的启发，其中LSTM层后面是一个64单元的全连接层。使用类似的方法，在CONV1D模型中应用内核大小为10和步幅为1的单个1D卷积层。卷积之后是两个完全连接的层。CONV2D遵循相同的模式，但不是使用1D卷积，而是使用一个单通道执行2D卷积操作。最后，所有三种架构模型在网络深度上保持一致，并且保持浅层。在这项研究中，所有深度学习模型都被训练了250个epoch，使用大小为16的小批量，其中均方误差是所考虑的损失。优化是用随机梯度下降完成的，学习率为0.001。请注意，本研究中使用了固定数量的时期，但为了完整起见，还运行了三个提前停止的样本模型。提前停药和未提前停药的结果无显著变化（数据未显示）。此外，一些模型是通过调整与扩增数相关的时期数来训练的，但这只证明过拟合训练集，并在测试集上产生与250个时期训练相同的结果（数据未显示）。3. 数据和实验装置本节介绍了本研究中使用的数据集，即它们的来源以及所需的预处理。此外，一步一步的指令，有效的SMILES增强描述。最后，评估设计和实验装置。3.1. 出处本研究中的数据来自两个来源：MoleculeNet[34]和ChEMBL数据库[35]，选择这些数据主要有两个原因。1. 它们是免费提供的，很容易下载或检索。2. 它们经常被用作研究比较的基准[22，36，37]。对于MoleculeNet中的任务，我们专注于物理化学预测任务，并从以下三组不同的数据中检索数据-ing大小，所有这些都可以在https：//deepchem作为DeepChem的一部分[38]。readthedocs.io/en/latest.1. 测得的水溶性称为ESOL数据集[39]。原始数据包含1128个数据点。该数据集被进一步处理以仅包括具有至多25个重原子的分子用于实验设置，称为ESOL_small。2. FreeSolv[40]数据集由642对SMILES和水中小分子的实验水合自由能（kcal/mol）组成。3. 亲脂性数据集来自ChEMBL[35]，包含4200对SMILES和辛醇/水分配系数的实验值。生物活性数据可以在ChEMBL中大量找到。迄今为止，数据库中存储了超过1800万项活动，T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000144Fig. 1. 由于SMILES增强，复合预测和置信度测量。给定由其规范SMILES表示的化合物，一组随机的微笑产生。经过训练的机器学习模型为每个SMILES变化产生预测。将这些值汇总得到每种化合物的预测，计算标准偏差被解释为预测中的不确定性表1本研究的数据集。预处理前后数据集的大小，以及应用增强策略之前训练集和测试集的大小，以及数据的来源数据集预处理前的尺寸预处理后尺寸列车组80%，在增强测试集20%，增强前出处ESOL1 1281 128902226MoleculeNetaESOL_small 1 128 1 068 854 214 MoleculeNetaFreeSolv 642 642 513 129 MoleculeNeta亲脂性4 200 4 199 3 359 840分子量免疫缺陷（EGFR）6 026 5 849 4 679 1 170 Kinodatabahttps://deepchem.readthedocs.io/en/latest。bhttps://github.com/openkinome/kinodata。超过14000个目标和200万种化合物[41]。在靶标中，激酶是一个被充分研究的蛋白质家族，因为它们尤其涉及癌症和炎症性疾病[42]。来自Openkinome组织[43]的Kinodata提供了一个已经策划的人类激酶生物活性的数据集，从迄今为止最新版本的ChEMBL（版本28）中检索到，并且可以在https://github.com/openkinome/kinodata上免费获得。此外，在本研究中，Kinodata进一步过滤了表皮生长因子受体（EGFR）激酶[44]，因为已知其是重要的药物靶标。其UniProt标识符由P00533给出[45]。对EGFR激酶的亲和力使用λ1050值（λ1050的负底对数）进行定量[46]。有关数据集来源和大小的信息详见表1。3.2. 数据预处理和输入特征化为了在包含分子化合物的数据上训练深度学习神经网络，数据集经历预处理和化合物编码。一旦从其原始来源检索到数据集，则删除RDKit[29]检测到的无效SMILES、不可用（NA）值和断开连接的化合物（在SMILES中用点标记）。使用RDKit功能将分子转换为规范的SMILES表示对于模型训练，SMILES是基于从数据中的SMILES构建的唯一符号的字典进行独热编码的。用两个字母表示的原子，如Br表示溴或Cl表示氯，以及@@表示手性，都被视为单个原子符号.最后，将所有输入填充到最长SMILES的长度。读者请参考Kimber等人的工作[47]了解有关独热编码和填充的更多细节。3.3. SMILES增强在处理SMILES进行扩充时，一些技术方面是必不可少的。本节假设训练和测试分离，但在存在验证集的情况下，理论是相同的首先，重要的是数据首先被分割，然后被增强，而不是被增强和分割。在后一种情况下，一种化合物可能在训练和测试中都出现微笑，这很可能导致优异的性能，但在统计学上是不正确的。其次，存储值，如最长SMILES或字符字典的长度，不应该在事实上，扩充可能会导致字典的扩展以及SMILES的延长。例如，规范的SMILES CCCC仅由字母C组成，并包含四个字符。然而，它的一个可能的随机变体是C（C）CC，它不仅引入了新的字符，例如分支的开头因此，关键值（如长度和字典）应在增强后保留。最后，这些相同的值应该在训练集和测试集的联合上计算，以便对模型进行平滑的训练和评估。事实上，如果字典的文字只是建立在在训练数据中的SMILES中，测试集中可能有模型无法识别的附加原子或字符，T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000145可以一次热编码。此外，如果最长的SMILES的长度取自训练集，而不是训练集和测试集的并集，则测试集上的扩充可能会产生比训练集中最长的SMILES更长的SMILES，从而导致维度错误。由于上述所有原因，机器学习工程师必须遵守本节中描述的步骤，以获得统计上正确的结果，以及无编程错误的模型训练和评估。3.4. 实验装置和模型评估为了得出关于数据增强效率的结论，考虑了三个不同大小的数据集，即ESOL、FreeSolv和亲脂性（参见来源章节）。对于这些集合中的每一个，数据被分成80%的训练集和20%的测试集，具有用于测试的固定随机种子，以与增强方案一致。考虑到五种增强策略和不同增强数之间的所有可能组合，三种深度学习模型和各种数据集（包括交叉验证）将增加相当大的计算成本，因此在本研究中没有实现。对于模型评估，报告测试集的均方根误差（RMSE）[48]，因此RMSE值越低，模型越好。然而，额外的信息，如拟合优度，也称为R2值[49]，在训练集和测试集上，以及模型训练和评估所需的时间也被存储。五个增强策略进行了研究：没有增强，认为规范的SMILES表示。对于许多扩增数，有、无和减少重复的扩增：步长为1的从1到20的较细网格，以及步长为10的从20到100的较粗网格。最后，估计最大值策略，其中必须生成10次SMILES表示才能停止该过程。对于最后一种策略，使用ESOL_small数据集（见表1）将扩增保持在合理的时间尺度上。出于相同的原因，未对亲脂性数据集运行相同的增强策略。增强策略应用于训练集和测试集，例如，如果FreeSolv训练数据集被增强20次而没有重复，那么FreeSolv测试集也会如此。对每个测试集应用包围学习，并将平均值用作聚合。然而，用户可以很容易地将其调整到另一个功能，例如中位数。标准偏差存储在测试集中的每个化合物。此外，随机森林（RF）模型[50]被用作基线，所有默认参数都来自Scikit-learn[51]。模型的输入是半径为2、长度为1024的摩根指纹。上文所述的扩增策略不适用于指纹。模拟在GeForce GTX 1080 Ti上运行，由柏林自由大学的中央HPC集群提供[52]。3.5. 代码和文档所有代码都是用Python 3 [53]编写的，遵循PEP8风格指南[54]，并可在www.example.commaxsmi上免费获得https://github.com/volkamerlab/。这项研究的结果可以在同一链接中找到。可以在www.example.com上找到通过Read the Exclusive [55]生成的E x示例和文档https://maxsmi.readthedocs.io/en/latest/。包管理是用Anaconda完成的[56]。RDKit[29]用于化学信息学，PyTorch[57] 用于深度学习，以及其他流行的软件包，如Scikit-learn[51]，NumPy[58]和Pan- das[59]用于通用目的。通过Github操作部署持续集成[60]，确保在LinuX，Mac和Windows上运行。ing系统。单元测试使用Pytest[61]完成，代码覆盖率通过Codecov[62]测量。4. 结果和讨论本节对使用前一节所述实验装置获得的结果进行了全面分析，并为读者提供了适用于新数据的数据增强指南，并以EGFR激酶的重复性测量为例。通过一个简单的命令行界面的化合物的用户预测的例子进行了说明。4.1. SMILES增强提高了模型性能如前所述，深度学习模型是数据贪婪的，我们的研究发现通过系统分析增加输入数据时的性能差异来用相同化合物的不同SMILES表示来喂养神经网络会导致更好的模型性能，如图1和图2所示。A1和A2。基线模型也有明显改进。对所有三个理化数据集（即ESOL、FreeSolv和亲脂性）进行了这些观察，与约600至4000种化合物之间的数据集大小无关（见表1）。例如，对于CONV1D模型，没有增强的ESOL性能的RMSE值为0.839，而具有减少的增强和��= 70的相同模型的性能实现了低至0.569的RMSE，见图。二、随着扩增次数的增加，RMSE值变得更小，如图1A和图1B中较浅的紫色阴影所示。A1和A2。请注意，首先，随着增广数以个位数增加，模型的性能明显例如，对于增加了重复的亲脂性数据集和CONV2D模型，单随机SMILES模型的RMSE值为1.309，并且在增加数为4时达到低于1的值（见图2）。 A2）。在ESOL数据集上，没有重复的RNN模型从1.016的RMSE开始，仅在增加5后就达到0.8以下的值（见图2）。然而，性能稳定地达到平台。例如，在FreeSolv上训练的CONV1D模型的RMSE在20次增强时略高于1，此后在此值附近波动，如图3所示。对于ESOL和亲脂性也可以进行类似的观察。使用相同的模型，ESOL的RMSE在40个扩增步骤时达到约0.60的平台（见图A4），亲脂性在60时达到约0.60（见图A5）。这一结果表明：1. 似乎没有一个最佳值特别突出。2. 必须在性能和计算时间之间找到一个平衡点。的数据点增加，如图所示。 A6.4.1.1. 按架构划分的不仅增加数据集整体上有助于学习这三个任务都是经过考虑的，但这三个深度学习也是如此。建筑学这导致观察到增强独立于深度学习模型提高了性能，这表明对于任何未来使用SMILES和深度学习进行分子性质预测的QSAR研究，SMILES增强应该是首选方法。然而，在这项特定的研究和这些特定的深度学习架构中，结果表明CONV1D模型往往优于RNN模型，而RNN模型本身似乎优于CONV2D。如图4所示，在使用具有减少的重复的增强的ESOL数据上，当增强数为40时，CONV2D模型的RMSE值在0.7左右波动，RNN模型在0.65左右波动，CONV1D在0.6左右波动，将后者提升为最佳性能模型。这展示了卷积的力量T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000146图二.在ESOL数据集上使用数据增强测试RMSE。该表显示了三种深度学习模型和五种SMILES增强策略的测试集的均方根误差（RMSE），使用各种增强数字，以及由随机森林（RF）模型组成的基线，摩根指纹作为输入。紫色越浅，模型越好。总体最佳设置以黄色突出显示，对于ESOL数据集，该设置正在增加使用减少数量的重复数据集70次，并训练1D卷积神经网络（CONV1D）。为了解释颜色的引用，在此图例中，读者可参阅本文的网页版本T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000147图三.性能达到一个平台独立的增强策略。在FreeSolv数据集上训练和评价的CONV1D模型的性能在20个扩增步骤时达到略高于1的测试RMSE值，此后在该值附近波动，对于所有扩增策略：有、没有和减少重复。对于ESOL和亲脂性数据，参见图1A和1B。 A4和A5。见图4。1D卷积（CONV1D）模型优于递归（RNN）和2D卷积（CONV2D）模型。该图显示了测试集上的均方根误差（RMSE）相对于ESOL数据上使用减少重复的扩增次数的演变。CONV1D优于RNN，RNN优于CONV2D。以及它们基于独热编码的SMILES输入提取化合物中相关特征的能力。这也意味着，尽管将2D卷积应用于SMILES在编程上是可行的，但1D卷积比2D卷积更适合，后者在图像分类方面取得了巨大的成功。事实上，当考虑独热编码矩阵时，SMILES更类似于单词，其中原子的位置很重要，而不是图像。4.1.2. 没有适用于所有数据集的最佳从扩大战略的角度来看，结论并不简单。三个扩充战略，即有、无和减少重复，都表现得同样好，没有一个突出。例如，使用CONV1D模型训练的FreeSolv数据集上的测试RMSE对于所有三种策略都达到略高于1的值，如图所示。 3.此外，使用具有估计最大值的策略生成大部分SMILES空间令人惊讶地不会导致最佳结果。在ESOL数据集上，该策略使用RNN达到了0.683的测试RMSE，而相同的模型，但使用具有、不具有和具有减少重复的策略，已经优于估计的最大值，如19及以后的扩增数所示，图五.生成大部分的SMILES空间并不一定会带来最佳性能。尽管RNN模型使用具有估计最大值的增强策略呈现SMILES变化，这些变化覆盖了SMILES空间的大部分，但在ESOL数据集上，该策略并没有达到最佳结果。图五.虽然没有ESOL案例那么明显，但类似的结论-可以在FreeSolv数据集和CONV1D模型上进行分析，如图A3所示。这表明可能存在一个饱和点，在这个点上，神经网络停止学习，即使输入了更多的数据。4.1.3. Maxsmi模型：每个数据集的最佳性能模型如前所述，从实验结果来看，似乎没有一种增强策略完全突出，也没有一个特定的模型。然而，从纯数字的角度来看，存在最佳性能值，并且该值在图1A和1B中以黄色突出显示。A1和A2。对于ESOL数据集，元组产生最佳性能的（模型、增强数、增强策略）是CONV1D模型，增强数为70并保持减少的重复数。对于FreeSolv数据集，相同的模型但生成70个保持所有重复的随机SMILES是最佳设置。最后，对于亲脂性，生成80个随机SMILES并删除重复导致最佳性能。鉴于这三个最佳模型，我们选择它们进行进一步分析，此后称它们为Maxsmi模型，并在表2中进行了总结。4.1.4. 规范和随机SMILES本研究中一个有趣的观察结果是使用规范SMILES训练模型与使用一种随机SMILES表示训练模型之间的性能比较，换句话说，增加1。规范模型系统地优于使用随机SMILES的模型。更具体地说，对于ESOL数据集，使用CONV1D的规范模型达到了0.839的RMSE值，而使用相同模型的随机版本为0.964。在自由溶剂和亲脂性情况下，规范模型产生的RMSE值为1.963和0.994，而随机SMILES为2.577和1.268。一个可能的解释，这样的结果是简单的canoni-cal SMILES表示。RDKit中的算法产生了可读性更强的SMILES表示，它避免了分支和嵌套分支。表3显示了其中一些差异。例如，随机版本可能会添加方括号，而规范版本没有（见表3中的第一行），它可能会添加方括号集，其中规范版本将它们保持在最小值（见表3中的第二行），随机版本甚至允许嵌套方括号，而规范版本避免了它们（见表3中的最后一行）。总结这一观察结果，如果SMILES增强不能无论出于何种原因申请未来的研究，从业人员都非常重视T.B. Kimber，M. Gagnebin和A. 拉马尔表2生命科学中的人工智能1（2021）1000148最佳增强策略定义了Maxsmi模型。在各种深度学习模型（CONV1D，CONV2D和RNN）上训练三个数据集（ESOL，FreeSolv和亲脂性）后，使用不同的增强数字和策略，选择在测试集上产生最佳性能或最低均方根误差（RMSE）的设置，并将其命名为Maxsmi模型。FreeSolv CONV1D 70带重复1.032亲脂性CONV1D 80无重复0.593表3基于规范SMILES的模型优于基于单个随机SMILES的模型。在RDKit规范SMILES上训练和评估的模型的测试预测系统地比在单个随机SMILES上训练和评估的相同模型表现得ESOL是指向表中值的预测任务典型的微笑随机微笑真正价值标准SMILES预测（误差）随机SMILES预测（误差）CCCCCC公司简介-3.84−2.87（0.97）−2.77（1.07）CCCC（=O）CC C（=O）（CCC）CC −0.83 −1.37（0.54）−1.65（0.82）CCCC（=O）OCC C（OC（CCC）=O）C −1.36 −1.14（0.22）−0.55（0.81）建议考虑规范的SMILES表示而不是随机表示。4.2. 混合预测和置信度测量的包围学习使用上面建立的Maxsmi模型，我们更详细地研究了从用于分子预测的集成学习中获得的信息，更具体地说，研究了从每个SMILES预测中计算的平均值和标准差。将不同的SMILES表示馈送到模型并聚合每个SMILES变化的预测以获得每个化合物的单个预测不仅从实际的角度来看是有价值的，其中分子预测比SMILES预测更有信息量，而且它还允许模型合并来自相同化合物的不同观点的信息。此外，与SMILES预测相关的标准差允许量化模型对给定化合物的预测的不确定性。分子的标准偏差越高，模型预测的一致性就越低，因此置信度就越低。4.2.1. 典型预测与平均预测考虑到Maxsmi模型是用它们各自的增强训练的，我们分析了当使用典型预测或平均预测时在测试集上的预测差异。更具体地说，我们比较了Maxsmi模型在测试集上进行两次评估时的预测误差：一次是使用规范SMILES进行复合预测，第二次是使用相同的增强数量和策略用于训练。对于这两个评估，计算预测值和真值之间的误差。图6显示了ESOL数据上这些误差的直方图。如图所示，更多的化合物使用集成学习评估而不是经典评估具有接近于零的误差，这鼓励在未来的研究中使用集成学习。然而，该增益是边际的，并且与平均预测相比，规范预测表现得类似地好。鉴于模型准确性的总体增益，这表明训练期间的增强是更关键的一步。如以下段落所述，在测试集上使用增广的一个优点是可以估计模型预测的置信度4.2.2. 模型越可靠，预测误差如SMILES增强作为复合预测和置信度测量的集成学习部分所述，计算每个SMILES预测的标准差提供了复合预测中的置信度测量。在本节中，我们将分析见图6。使用集成学习评估Maxsmi模型时的错误更低。与规范预测相比，使用集成学习（即每个SMILES预测的平均值）时，训练的Maxsmi模型的评估错误较少。Maxsmi模型测试集上的高置信度和小预测误差之间的关系。直观评估不确定度的一种方法是绘制置信度曲线[32]，该曲线显示了误差如何随着从最低到最高置信度顺序去除化合物而变化。图7显示了用于FreeSolv数据的Maxsmi模型的置信度曲线。如图所示，随着低置信度的分子被依次去除，平均预测误差减小。换句话说，误差消失，因为只有具有最高确定性预测的化合物被保留，这表明高置信度和小预测误差之间的关系。图A7显示了ESOL和亲脂性数据的Maxsmi模型的置信度曲线。在ESOL病例中，曲线的总体趋势是下降的。一旦保留了具有最高置信度的10%化合物，则误差低于0.25. 然而，在亲脂性的情况下，虽然总的趋势是即使保持10%置信度最高的化合物，误差仍在0.3以上4.3. 与其他研究的鉴于 Maxsmi 模型的结果，其性能与其他研究（即MoleculeNet[34]、CNF[22]和MolP-MoFiT[21]）一致，这些研究在与Maxsmi相同的数据集上进行训练和评价，参见表4。数据模型增广数扩充战略测试RMSEESOLCONV1D70减少重复0.569T.B. Kimber，M. Gagnebin和A. 拉马尔生命科学中的人工智能1（2021）1000149表4Maxsmi模型达到了最先进的结果。对相同数据集（ESOL、FreeSolv和亲脂性）的四项研究进行比较。Maxsmi模型优于大多数其他模型，在随机分割测试集上具有较低的RMSE研究检验RMSE（±标准差，如适用）拆分模型ESOLFreeSolv亲油性倍比率%（序列：有效：测试）类型马克斯米0.5691.0320.593单个80∶ 0∶ 20随机CNNMoleculeNet[34] 0.58 ± 0.03 1.15 ± 0.120.655 ± 0.0363 80∶ 10∶ 10随机GNNCNF[22] 0.62 1.11 0.67 5倍CV NA随机CNNMolPMoFiT[21]NA1.197 ± 0.1270.565±0.03710 80∶10∶10随机RNN缩略语：RMSE =均方根误差，std =标准差，CNN =卷积神经网络，GNN =图神经网络，RNN =递归神经网络，NA =不可用，CV =交叉验证。如Maxsmi中接近70，产生比CNF中10倍增强更好的结果。最后，分子预测模型微调（MolP-

下载后可阅读完整内容，剩余1页未读，立即下载