没有合适的资源?快使用搜索试试~ 我知道了~
son various approaches for measuring it are in existence and use. Data quality varies substantially between different data sources, and results obtained with different technologies are not always comparable. This is the reason why we can in part observe only a moderate reproducibil- ity of aqueous solubility measurements. On the whole, there are varied sources of data, and the exact information connected with aqueous sol- ubility methodology is not always given [3] . In consequence, the lack of high-quality datasets for computational aqueous solubility prediction is problematic [4,5] . Please note that the reported prediction root mean square errors (RMSE) ranges 0.6–1.4 log , with the average at 0.9 log [6] . Classical machine learning techniques have demonstrated remark- able performance in QSPR modeling, including aqueous solubility pre- diction. Generally, classical machine learning approaches can be split into two stages. The first stage aims to encode the input data and extract the most important features or properties connected with the molecule. In consequence, one gets a molecular representation. The second stage usually applies an algorithm that takes a calculated molecular represen- tation as an input and returns some response. In addition, while building 0生命科学中的人工智能1(2021)1000210ScienceDirect提供目录列表0生命科学中的人工智能0期刊主页:www.elsevier.com/locate/ailsci0研究文章0应对数据有限的情况:结合迁移学习和变压器注意机制以提高水溶解度预测性能0Magdalena Wiercioch a,b,�,Johannes Kirchmair b0a波兰克拉科夫雅盖隆大学物理,天文学和应用计算机科学学院应用计算机科学系,Łojasiewicza 11号,邮编30-348 b维也纳大学生命科学学院制药化学系,维也纳1090,奥地利0文章信息0关键词:水溶解度深度学习 化学信息学变压器模型 药物发现回归0摘要0水溶解度是驱动化学和生物学中各种过程的关键化学性质。其计算预测具有挑战性,这一事实已被证明,因为几十年来一直备受关注。最近的研究探索了基于指纹、特征和图形的不同机器学习和深度学习方法。总的来说,提出了许多传统方法,但它们在很大程度上依赖于基于规则的手工制作特征的质量。另一方面,当训练深度模型时,水溶解度数据质量的限制成为一个障碍。在这项研究中,我们通过引入一种新的深度网络架构,然后采用迁移学习方法,开发了一种新颖的结构感知方法来预测水溶解度。该模型被证明具有竞争力,在交叉验证和独立数据集测试期间均获得了0.587的RMSE。更准确地说,该方法是在从在线化学数据库和建模环境(OCHEM)下载的分子上进行评估的。除了水溶解度预测,本文提出的策略可能对建模任何种类的(化学或生物)属性有用,对于这些属性,模型训练的数据量有限。01. 引言0在小有机分子的定量结构-性质关系(QSPRs)预测方面取得了显著进展,特别是在机器学习领域[1]。在小分子药物发现和农药、化妆品、功能性食品等领域,水溶解度一直是一个活跃的研究领域,因为它决定了化合物穿过生物膜的能力,因此决定了化合物诱导所需生物效应(例如在药理学的背景下)和/或不需要的生物效应(在毒理学的背景下)的能力。开发高效的在水中溶解度足够的小分子仍然是一项具有挑战性的任务,因为水溶解度和生物活性通常呈间接比例关系[2]。水溶解度通常报告为log�,即摩尔/L的水溶解度的以10为底的对数。然而,水溶解度并不是一种容易准确测量的分子性质,这是因为存在各种方法来测量它。不同数据来源之间数据质量差异很大,使用不同技术获得的结果并不总是可比的。这就是为什么我们在某种程度上只能观察到水溶解度测量的中等可重复性的原因。总的来说,存在各种数据来源,与水溶解度方法相关的确切信息并不总是给出[3]。因此,计算水溶解度预测的高质量数据集的缺乏是有问题的[4,5]。请注意,报告的预测均方根误差(RMSE)范围为0.6-1.4 log,平均为0.9log[6]。经典机器学习技术在QSPR建模中表现出了显著的性能,包括水溶解度预测。一般来说,经典机器学习方法可以分为两个阶段。第一阶段旨在对输入数据进行编码并提取与分子相关的最重要的特征或性质。因此,得到了分子表示。第二阶段通常应用一个算法,该算法将计算得到的分子表示作为输入并返回一些响应。此外,在构建0� 对应作者:波兰克拉科夫雅盖隆大学物理,天文学和应用计算机科学学院应用计算机科学系,Łojasiewicza11号,邮编30-348。电子邮件地址:magdalena.wiercioch@uj.edu.pl,mgkwiercioch@gmail.com(M. Wiercioch),johannes.kirchmair@univie.ac.at(J. Kirchmair)。0https://doi.org/10.1016/j.ailsci.2021.100021收到日期:2021年10月4日;修订后收到日期:2021年11月20日;接受日期:2021年11月23日 在线发布日期:2021年11月26日2667-3185/© 2021 The Authors. Published by Elsevier B.V. 这是根据CCBY-NC-ND许可发布的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/) = ( , ) an undirected graph set of nodes in a graph set of edges in a graph ̃𝑁 𝑖 neighborhood set of vertex 𝑣 𝑖 ∈ 𝑎 𝑖 attributes for vertex 𝑣 𝑖 ∈ 𝑒 𝑖,𝑗 attributes for edge ( 𝑣 𝑖 , 𝑣 𝑗 ) ∈ 𝑑 𝑔 input dimensionality of vertices ̃𝑑 𝑔 output dimensionality of vertices ̃𝑒 dimensionality of edges 𝐹number of layers ∈ ℝ 𝑑 𝑔 2 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能 1(2021)1000210机器学习模型,其中一个使用训练-测试拆分作为评估机器学习算法性能的方法。为了解决水溶解度预测问题,已经提出了几种方法[7,8]。第一种技术出现在1924年Fühner的工作中[9]。Fühner观察到连续亚甲基基团的添加会导致水溶解度降低。随后,科学家们发现各种分子特征会影响水溶解度[10-12]。多年来,应用了不同的模型。Erickson使用线性回归研究了有机分子同系列的水溶解度[13]。他观察到log�是同系列烷基链长度的负线性函数。后来,Hewitt等人分析了多元线性回归对水溶解度的预测性能[14]。他们的结论令人惊讶,因为简单的线性回归方法在当时被证明优于更复杂的建模方法。作者们注意到训练和验证数据的统计拟合相当不错(分别为0.74和0.67的�2值)。最后,测试集的均方根误差(RMSE)值为0.95。Palmer等人使用随机森林研究了室温下固体化合物数据集的水溶解度预测[15]。他们的方法表现出与其他方法相当的性能,包括一些需要进行3D结构计算的方法。具体来说,作者们预测了测试集中分子的对数摩尔溶解度值,RMSE为0.69。此外,Lind和Maltseva证明了使用Tanimoto相似性核的支持向量机可以检测水溶解度,以均方根误差来表达准确性,产生了与其他报道的方法相当的结果[16]。他们报告说,对多样化数据集的交叉验证结果为0.62的RMSE和0.88的�2。此外,人工神经网络已被用于预测水溶解度[17]。目标是利用它们逼近非线性函数的能力。例如,Erić等人提出了一种用于自动调整描述符相对重要性的方法,以预测水溶解度的反向传播浅神经网络[18]。他们最终模型的性能基于七个描述符对水溶解度的预测是令人满意的,因为作者报告了测试数据集上0.679的RMSE。最近,深度神经网络(DNNs)在分子和其他材料性质预测方面取得了令人印象深刻的表现[22-25]。而传统的机器学习方法需要手工制作的分子描述符作为输入,DNNs可以使用更无损的格式,并以端到端的方式训练模型,以预测目标端点。此外,输入表示有许多不同的格式[26]。标准类型是描述原子连接性的拓扑图。另一个例子是SMILES字符串(简化分子输入行输入系统)。广义上说,SMILES是一种文本格式,化学物种被映射到单个ASCII字符串[27]。深度学习系统已经改进了水溶解度预测的最新技术。例如,Lusci等人提出了一种使用递归神经网络和分子结构转换为有向无环图的架构。他们的方法UG-RNN有时优于当前的最先进技术[28]。例如,UG-RNN在内在溶解度数据集上达到了0.96的RMSE。另一个例子是吴等人的工作,他们构建了基于拓扑的多任务深度学习策略(MT-DNN),并实现了一些最准确的水溶解度(0.649的RMSE)和分配系数的预测[29]。此外,刘等人提出了一个基于卷积神经网络的竞争性方法(Chemi-Net)来预测水溶解度和其他ADME性质[30]。他们证明了Chemi-Net击败了竞争模型,并实现了0.585的�2。最后,在2020年,唐等人提出了一种基于自注意力的消息传递神经网络,以识别分子溶解度和结构之间的关系。他们的方法在一小部分化合物上的水溶解度预测上获得了0.661的RMSE。0表1 本研究中使用的重要符号。0符号描述0� �,� 边( � � , � � )的注意力系数 ∈ �0尽管计算模型对水溶解度的预测性能通过采用深度学习架构得到了很大改善,但仍有改进的空间。首先,在深度学习方法中,基于图神经网络(GNN)的方法因其能够模拟原子之间的相互作用而受到了重视。其思想是将分子视为分子图,其中原子与节点相关联。然而,简单的操作,如求和和平均值,可能无法捕捉各种特征。因此,需要进行更多的研究来分析化合物的不同部分对决策的贡献。其次,文献中可以找到的绝大多数深度学习水溶解度预测模型都是相当浅的网络,大约有七层[32]。显然,通过更宽或更深的网络可以提高性能[33,34]。不幸的是,这样的修改受到可靠水溶解度信息有限的分子数量的限制。为了解决上述问题,本研究提出了一种深度学习架构,它既利用了分子的文本表示,又采用了基于图的策略和注意力机制来学习和预测水溶解度。本研究的核心贡献如下。(1)我们将水溶解度预测视为一个翻译问题。我们的架构代表了一个编码器-解码器设计。然而,为了学习潜在表示,我们的主要编码器由两个子编码器组成,即图编码器和使用Transformer的编码器。我们称这种架构为M2M。(2)为了解决高质量数据量有限的问题,并提高水溶解度预测性能,我们引入了迁移学习。因此,我们首先在包含6000多种化合物的pKa数据集上进行预训练。然后,学到的知识被转移到较小的水溶解度数据集上使用。最终的架构被称为TunedM2M。(3)我们证明了所提出的方法在水溶解度预测方面优于现有技术。由于我们发现与水溶解度预测相关的最新和相关的工作是由Tang等人进行的,因此我们的模型性能是根据他们论文中使用的数据集进行评估的。02. 材料和方法0在本节中,我们描述了本文中提出的方法、数据集和所使用的算法。表1总结了本文中使用的所有符号。02.1. 模型设计0图1提供了所提出的M2M和TunedM2M的工作流程的示意图,它利用了预训练的M2M。3 0M. Wiercioch and J. Kirchmair 生命科学中的人工智能1(2021)1000210图1. M2M和TunedM2M的架构。02.2. 数据集特征0首先,我们应用了一个pKa数据集来预训练我们的M2M模型。然后,与水溶解度相关的log�值[35]被用于M2M迁移学习,我们称之为TunedM2M。用于开发预训练M2M的数据集我们使用包含7911种化合物pKa数据的数据集,并将其应用于预训练M2M。数据以SMILES形式呈现。可以从DataWarrior[36]应用程序文件夹中获取这些化合物。根据使用Toxprint化学类型[37]进行的分析,化学结构具有高多样性的功能基团。因此,它们足以支持我们的研究,即预训练M2M。为了本研究的目的,对化学结构进行了预处理。具体来说,在第一步中,去除了任何多组分化合物的次要组分。其次,从集合中去除了重复的结构。此外,我们排除了无机化合物和混合物。最终,处理后的pKa数据集包含6245种具有测定pKa值的化合物。图3说明了pKa数据集的相似性图。测定值非常多样化(图3)。TunedM2M的数据集我们在本文中用于M2M迁移学习的数据集是从OCHEM[35]获得的。它包含1311个分子,0随机分配给训练集(所有分子的80%)、验证集(10%)和测试集(10%),遵循唐氏论文中描述的程序。此外,为了确保预训练和迁移学习的数据之间没有重叠,我们检查了两个数据集中的匹配项。相应的化合物被移除。此外,图4描述了溶解度数据集的相似性图。可以看出,分子的溶解性属性在化合物之间是多样的。此外,为了探索化学空间,我们应用PCA将从TunedM2M获得的最终表示投影到三维空间。此外,计算了到质心的欧氏距离。结果如图5所示。红色星号是空间的质心。与质心最近的75%化合物被涂成蓝色,而距离较远的化合物被涂成棕色。分析表明,异常值的数量相对较小。02.3. 图神经网络0[38]在2009年提出。根据这一概念,图 � = ( � , � )由其顶点 � 和边 � � � × �定义。此外,每个顶点 � � ∈ � 自然地与属性向量 � � 相关联,每条边 ( � � , � � ) ∈ � ̃ → 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 ( 𝑄, 𝐾, 𝑉 ) = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 ( 𝑄𝐾 𝑇 √𝑑 ) 𝑉 . (2) ℎ 𝑡 +1 𝑖 = 𝜎( 𝑘 ∈ ̃𝑁 𝑡 𝛼𝑖𝑘 𝑊 ℎ 𝑡 𝑘 ) , (3) 4 0M. Wiercioch和J. Kirchmair生命科学中的人工智能1(2021)1000210表2 分子表示中使用的原子(图节点)属性。0属性解释0原子类型 C、O、H、N、O、P等:one-hot编码 杂化sp、sp 2 、sp 3 、sp 3d:one-hot编码 手性R(Rectus)、S(Sinister)、N(None):one-hot编码自由基电子0(否)、1(是) 芳香性0(否)、1(是) 隐含价键0(否)、1(是)受体0(否)、1(是) 给体0(否)、1(是)0表3 分子表示中使用的键(图边)属性。0属性解释0类型单键、双键、三键、芳香键:one-hot编码 是否为环的一部分0(否)、1(是)是否为共轭的一部分0(否)、1(是) 手性E、Z:one-hot编码0自然地,与属性向量 � �,� 相关联。还定义了一个邻域函数 � � � = { � � ∶ ( � � , � ,它将一组邻居 � � � 分配给每个顶点 � � ∈ � 。GNN的主要目标是学习与每个顶点� 关联的状态向量 � � 。一开始,向量被初始化为 � 0 � = � �。然后更新所有顶点的状态,直到达到停止标准。更新过程基于这样的假设,即每个顶点通过发送和接收消息与其邻居进行通信。因此,第 � 层的顶点 � � 的状态 � � �取决于其在前一层的状态 � � −1 � 和所有来自邻居 � � ∈ � � �的消息。一般来说,它可以定义如下:0� � � = �� ( � � −1 � , �� � ({ � ( � � , � � , � ) ∶ � � ∈ �� � })) , (1)0其中,�� 是一个更新状态的函数,�� � 表示邻域聚合函数,� 是一个消息函数。02.4. 图注意力机制0深度学习中的注意机制最早是由Bahdanau等人于2015年提出的,旨在解决自然语言处理中的常见问题,即长序列的翻译。事实上,注意力允许对元素对(例如图中的节点)分配可学习的权重,以便集中关注图的最相关部分。更正式地,注意力被定义为一个函数0对于给定的顶点 � � ∈ � ,它将��中的每个顶点投影到一个相关性分数,该分数指示给予特定邻居顶点多少注意力。如果考虑基于注意力的图神经网络,这意味着方程(1)中的函数 �� �使用了注意力机制。在这种情况下,我们添加额外的注意力系数 � �,� 来修改 � � �的权重,其中 � � ∈ �� � 。02.5. 初始特征化0我们研究中使用的初始原子和键特征如下所示0分别如表2和表3所示。M2M的初始属性� � 是顶点� � ∈ �的原子特征,而M2M的初始边特征� �,� 是边( � � , � � ) ∈ �的键特征。为了提取这些特征,使用了RDKit[40]。最后,原子的初始表示是一个130维向量,边的输入表示是一个8维向量。02.6. 分子变换器0Transformer[41]架构最初是为各种序列到序列的任务提出的,包括机器翻译和语言理解。事实上,基于transformer的模型的巨大成功归因于多头自注意组件,使网络能够从整个序列中捕获上下文信息。多头注意力层包括几个并行运行的缩放点注意力层,并在最后进行串联。对于第�个注意力头和矩阵� ∈ � � × �,自注意力将�映射到三个矩阵:查询矩阵� = �� � ,键矩阵� = �� � 和值矩阵� = �� �,其中�是输入序列的长度,�是输入序列的维度,� � ,� � ,� �是可学习参数。然后,注意力分数可以表示为:02.7. 分子嵌入0Mikolov等人[44]在自然语言处理领域引入了Word2Vec来学习词嵌入。该方法背后的思想是,经常出现在相似上下文中的单词之间存在语义关系。该方法通过训练一个全连接的浅层神经网络来预测训练语料库中每个单词的嵌入,以预测给定上下文的目标单词(CBOW模型)或给定目标单词的上下文(Skip-Gram模型)。它表明Word2Vec在生物信息学等各个领域激发了许多研究。它还被用于化合物的表示。02.8. M2M和TunedM2M架构0根据迁移学习的概念,我们将我们的方法分为两部分:源任务和目标任务。在我们的工作中,源任务是如何表示分子,然后预测pKa。然而,主要的目标任务是预测以log �表示的水溶解度。接下来,我们详细描述提出的方法论。02.8.1.M2M为了完成源任务和目标任务,我们设计了一个称为M2M的架构。该模型旨在学习使用分子的特征表示,如子节数据集中描述的预训练M2M,然后预测pKa。图2说明了提出的模型。正如在这个图中所示的那样,我们的架构包括三个主要组件:编码器、嵌入层和预测层。关于表示学习,模型的核心部分是M2M编码器,其中包括嵌入块和两个(子)编码器,即图(子)编码器和变换(子)编码器。这些元素中的每一个对M2M编码器的最终形式都有不可避免的影响,并涉及几个可以总结如下的操作。(1)图(子)编码器旨在为给定化合物中的原子生成低维隐藏表示。首先,为了构建图(子)编码器,我们假设分子表示为图,如子节图神经网络中所讨论的。在这种设置中,顶点与原子相关联,边对应于键。此外,我们提出了一组特征来提供初始的分子属性,如子节初始特征化中所解释的。为了构建图,我们使用了深度图库(DGL)[47]。我们的图(子)编码器包括一堆单一(子)编码器层。此外,每一层都会从目标顶点的相邻顶点聚合属性信息。图2a说明了我们的图(子)编码器的单层。形式上,它定义如下:𝛼𝑖𝑗 = exp ( 𝜎( ⃖⃗𝑎 𝑇 [ 𝑊 ⃖⃖⃗ℎ 𝑖 ||𝑊 ⃖⃖⃖⃗ℎ 𝑗 ||𝑒 𝑖𝑗 ])) 𝑘 ∈ ̃𝑁 𝑖 exp ( 𝜎( ⃖⃗𝑎 𝑇 [ 𝑊 ⃖⃖⃗ℎ 𝑖 𝑊 ⃖⃖⃖⃗ℎ 𝑘 𝑒 𝑖𝑘 ])) . (4) ℎ 𝑡 +1 𝑖 = 𝜎( 1 𝑀 𝑀 ∑𝑚 =1 ∑𝑘 ∈ ̃𝑁 𝑡 𝛼𝑚 𝑖𝑘 𝑊 𝑚 ℎ 𝑡 𝑘 ) , (5) 5 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1 (2021) 1000210图2. M2M网络架构。0其中� ∈ � �� � × ��是一个权重矩阵。此外,每个单层的关键组成部分是与注意力机制相关联的注意力系数,该机制介绍在子节图注意力机制中。更具体地说,在这个过程中,特征被连接并由权重向量��� ∈ � 2 �� � +��参数化。另外,非线性由LeakyReLU函数提供。有趣的是,我们使用softmax函数进行归一化。所有这些操作可以表示为:0此外,为了捕捉顶点之间的多种关系,我们使用了多头注意力。因此,我们将0隐藏层中不同头学习的不同表示。然后,它们在我们的图(sub)编码器的最终层上进行平均,如下所示:0其中�是多头注意力机制中涉及的头数。(2)嵌入块旨在基于SMILES获得分子的向量表示。因此,为了将分子SMILES转换为向量表示,我们训练了一个Word2vec模型。具体来说,我们遵循了Skip-gram配置。我们的目标是最大化平均对数概率1 𝑁 ∑− 𝑐 ≤ 𝑚 ≤ 𝑐 ,𝑚 ≠0 log 𝑃 ( 𝑠 𝑖 + 𝑚 𝑠 𝑖 ) , (6) 𝑃 ( 𝑠 𝑖 + 𝑚 𝑠 𝑖 ) = ̃𝑢 𝑖 + 𝑚 𝑢 𝑖 𝑆 𝑘 =1 exp (( ̃𝑢 𝑘 ) 𝑇 𝑢 𝑖 ) , ̃𝑟 ′′𝑖 = 𝐾 2 ̃𝑟 ′𝑖 ̃𝑟 ′𝑖 = 𝐾 1 ̃𝑟 𝑖 ̃𝑟 𝑖 = [ 𝑠 ′𝑖 ℎ 𝐹 𝑖 ] 6 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1 (2021) 1000210图3. pKa数据集的相似性图。0图4. 溶解度数据的相似性图。0� ∑0∑0其中�是训练集的大小,� 1 , � 2 , … , � �是训练SMILES,�是训练上下文的大小。此外,�( � � + � | � � )是使用softmax函数计算的0其中�是词汇表中SMILES的数量,� � , � � �是�的输入和输出向量表示。0(3) Transformer (sub)encoder以�� ′′ �的表示作为输入(见0图2 b)0其中,� ′ �是嵌入块返回的SMILES的向量表示,� 1和� 2是用于对�� �和�� ′�进行线性变换的权重矩阵。然后,我们连接�个注意力头的输出,并得到被视为线性投影的输出𝑀𝑢𝑙𝑡𝑖ℎ𝑒𝑎𝑑( 𝑄, 𝐾, 𝑉 ) = 𝐶𝑜𝑛𝑐𝑎𝑡 ( ℎ𝑒𝑎𝑑 1 , … , ℎ𝑒𝑎𝑑 𝑘 ) 𝑊 𝑜 , (7) 𝐹 𝐹 𝑁( 𝑜𝑢𝑡 ) = max (0 , 𝑜𝑢𝑡𝑊 1 + 𝑏 1 ) 𝑊 2 + 𝑏 2 , (8) 7 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1 (2021) 1000210图5. 溶解度数据的PCA得分图。TunedM2M返回的表示被投影到三个轴上。0连接的表示如下:0其中� �是一个输出投影矩阵,而���� � = ��������� ( � � , � � , � � ) ,如Eq. c)。最后,应用位置感知前馈神经网络到网络的输出,可以表示为:0其中 � 1 , � 2 , � 1 , � 2 是核和偏置参数。02.8.2.调整后的M2M就目标任务来说,即以log�表示的预测水溶解度,我们选择利用预训练网络(M2M)中学到的知识,并将训练好的参数应用于新的回归任务,这个过程称为迁移学习。因此,想法是将为���预测计算的权重转移过来。在这里,我们利用了M2M的编码器和嵌入层。然后,对参数进行微调,以适应水溶解度的预测。得到的架构称为TunedM2M。02.9. 评估细节0均方根误差(RMSE)、平均绝对误差(MAE)和均方误差(MSE)被用来衡量预测性能。此外,在某些情况下,为了提供更可靠的结果,还给出了皮尔逊相关系数(PCC)和确定系数(R^2)。PCC用于衡量两个变量之间的线性关联。而R^2则被视为可以从自变量预测的因变量方差的比例。此外,在本文中,除非另有说明,每个数据集都被随机分成训练、验证和测试集(分别为80%、10%和10%)。0表4 模型超参数。0考虑的超参数值0变压器的层数 4-8 多头注意力的数量 6-12 丢失率 0.00.6 初始学习率 0.00015,0.0015, 0.015, 0.15 � 0.25 最终表示的维度 128, 256, 51203. 结果和讨论0为了评估我们方法的性能,我们将我们的方法与在Tang的水溶解度预测任务中表现出优越性能的最先进模型进行了比较。具体来说,使用了随机森林(RF)、消息传递网络(MPN)、基于自注意力的消息传递神经网络(SAMPN)、多消息传递网络(multiMPN)和多基于自注意力的消息传递神经网络(multiSAMPN)。RF分类器[48]是欧几里得空间中最流行和成功的分类/回归方法之一。它使用多个决策树来训练和预测样本。MPN[49]是一种基于深度神经网络的方法,它在图上运行,并将预测过程分为两个阶段:消息传递阶段和读出阶段。SAMPN[31]可以看作是MPN的扩展版本,增加了额外的注意力机制。Tang等人还介绍了multiMPN和multiSAMPN,它们是MPN和SAMPN的变体,其中模型同时学习了化学结构和属性之间的关系以及分子固有属性之间的关系。此外,由于我们的目标是获得性能稳健的模型,因此确定了微调的相同一组超参数(见表4)。我们设计任务来回答一些问题。Q1:M2M和TunedM2M是否改善了水溶解度预测结果?可以注意到,无论是M2M还是TunedM2M都优于所有竞争方法(见附录材料中的图6、7和表S1)。TunedM2M的整体RMSE为0.587,MAE为0.449,MSE为0.403,这表明了很高的准确性。至关重要的是,尽管M2M只在包含少量样本的水溶解度数据集上进行了训练,但它仍然取得了合理的性能。如图6a所示,multiSAMPN的RMSE为0.661,MAE为0.482,MSE为0.424。与这些分数相比,M2M获得了更好的预测性能,因为它获得了RMSE为0.646,MAE为0.456,MSE为0.411。此外,实验表明,这里选择评估指标并不重要,因为我们得出了相同的结论。总的来说,M2M导致了整体� � � = 0.94和� 2 =0.88,而TunedM2M实现了� � � = 0.97和� 2 =0.92。总之,可以观察到,M2M架构对预测性能产生了积极影响,因为M2M只在水溶解度数据集上进行了训练,并且在所有模型中获得了第二好的性能。然而,这些结果也清楚地表明,正如TunedM2M中所进行的预训练阶段更进一步改善了性能。毫无疑问,TunedM2M对于一些分子产生了相当糟糕的结果(见图7b)。这些分子在结构上是多样的,即它们不能被归类为一个或少数化学类别。相比之下,multiSAMPN产生了比我们模型更多的糟糕预测(见图7a)。更具体地说,它为一系列不同化合物产生了过低的log�值。此外,它为一些多卤化合物和一些多环芳烃产生了过高的log�值。另外,请注意,我们使用单侧Wilcoxon符号秩检验来评估统计显著性,并将统计显著性定义为�-值小于0.05。总的来说,仅在水溶解度数据集上训练的M2M和TunedM2M显著优于其他模型。8 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1(2021)1000210图6. 回归任务和测试集上各种方法的得分。我们取得了最佳结果。0图7. 水溶性的测量和计算模型输出值的散点图,采用两种不同的方法:(a)multiSAMPN,(b)TunedM2M。0Q2:当仅在水溶性数据集上学习时,M2M和TunedM2M之间是否有明显差异?为了回答问题1,进行了计算任务,结果表明TunedM2M的性能优于在水溶性数据集上训练的M2M。然而,为了回答Q2,我们进行了额外的分析:0TunedM2M再次与仅在水溶性数据集上从头开始训练的M2M进行比较。然而,这一次,M2M和TunedM2M都是在不同数量的训练数据上进行训练,并在比例为8:1:1的测试集上进行测试,并进行随机分割。如图8所示,使用不同数量的训练数据9 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1(2021)1000210图8. M2M和TunedM2M在不同大小的训练集上的性能。0数据,我们的TunedM2M在所有情况下表现优于从头开始在水溶性数据集上训练的M2M。这表明TunedM2M架构中应用的迁移学习策略提供了模型的稳健改进。换句话说,结果0表52019年溶解度挑战赛中32种分子的预测评估[6]。0方法RMSE0RF 1.62 MPN 3.14 SAMPN 3.35 multiMPN3.24 multiSAMPN 3.48 TunedM2M 3.190意味着pKa数据的训练有益于水溶性的预测。Q3:TunedM2M的化学可解释性是什么?我们提出了一系列任务,以检查每个原子对预测性能的贡献。图9显示了三种选定化合物的原子影响的影响。总的来说,TunedM2M0图9. 原子及其对水溶性的计算影响的可视化。请注意,TunedM2M准确地为疏水原子分配了负分数,并为帮助水溶解物质的原子分配了正的重要性分数。10 0M. Wiercioch和J. Kirchmair 生命科学中的人工智能1(2021)1000210图10. 任意选择的分子的原子相似性矩阵的热图。0图11. 与log �相关的潜在空间中化合物之间的�2-范数距离的二维图。右侧的比例尺与由列和行标记的两种分子之间的距离相关联。0准确地为有助于水溶性的原子分配了正的重要性分数,并为疏水的原子分配了负分数。此外,可以观察到具有正重要性分数的原子形成了一些可以与一些亲水性功能团相关联的团,例如胺基、酮、醛或醚。Q4:TunedM2M的可解释性如何?为了更深入地了解TunedM2M并更好地理解其性能,我们选择了图9c中呈现的一个示例分子,并分析了原子状态向量在学习过程中的变化。图10显示了所选化合物的原子相似性矩阵的热图。事实上,可以注意到训练后的模式与训练前观察到的模式不同。图10a表明相似性矩阵的热图显示出不同层之间的相似随机水平。相反,在训练后,我们获得了与功能团相关的三个原子簇:一个肟基团(原子编号0、1、2),一个芳烃基团0(原子编号3、4、5、6、7)和一个硝基团(原子编号8、9、10)。事实上,这一观察结果与给定结构的化学解释强相关。因此,人们可以推断TunedM2M能够学习与分子水溶性相关的表示。Q5:模型是否捕捉到距离映射中的有意义模式?我们还在潜在空间中进行了分析。我们随机选择了数据集中的1000个分子,并计算它们之间的�2-范数距离。归一化的距离映射显示在图11中。右侧的比例尺是指行和列标记的两个分子之间的距离。此外,以蓝色显示的对角线元素显示了分子与自身的距离。而红色部分表示最远的距离。似乎multiSAMPN和TunedM2M都在距离映射中显示出有意义的模式。这清楚地表明,对于类似的log�值,模型能够在潜在空间中定位相似的分子。11 0M. Wiercioch和J. Kirchmair生命科学中的人工智能1(2021)1000210图12。化合物选择和预测值。0图13。预测误差(以RMSE测量)与分子与训练集其余部分的平均相似性。0尽管如此,TunedM2M将具有相似性质的化合物放在空间中更接近彼此,这解释了TunedM2M的性能(图12和13)。Q6:(子)编码器的使用是否影响M2M的最终性能?为了研究影响M2M性能的不同因素的贡献,我们进行了消融研究。如图所示0在图14中,从我们的学习框架中分离出知识感知组件,如图(子)编码器和M2M编码器中的嵌入块,会导致性能显著下降。此外,似乎图(子)编码器对于更好的结果至关重要且有效。此外,缺少变压器会导致最差的性能。Q7:基于骨架的数据分割是否会影响M2M和TunedM2M的性能?我们还评估了基于骨架的分子分割模型。骨架分割是使用Bemis-Murcko[50]方法进行的,该方法根据它们的二维分子结构将数据集分为训练集、验证集和测试集。正如图15所示,M2M和TunedM2M均击败了所有竞争方法。更准确地说,TunedM2M达到了0.672的RMSE,0.501的MAE和0.438的MSE。第二好的方法是仅在水溶性数据集上训练的M2M(RMSE =0.721,MAE为0.564,MSE为0.471),而第三好的方法是multiSAMPN,它获得了0.735的RMSE,0.571的MAE和0.48的MSE。实际上,结果表明,骨架分割是一种更具挑战性的设置,因为它的得分不如随机分割方法令人印象深刻。尽管如此,结果表明,即使训练集和测试集在分子结构上具有不同的特征,TunedM2M仍能学习分子的一般表示并返回有竞争力的预测。0图14。消融研究。从我们的学习框架中移除图(子)编码器、嵌入块和变压器后,观察到性能显著下降。12 0M. Wiercioch和J. Kirchmair生命科学中的人工智能1(2021)1000210图15。骨架分割。各种方法在回归任务和测试集上的得分。我们取得了最佳结果。0Q8:模型如何处理内在水溶解度数据集?作为额外任务的一部分,我们将提出的模型应用于2019年溶解度挑战赛[6]的组织者提供的分子。并不奇怪的是,随机森林获得了最佳结果,即RMSE为1.62(见表5)。这表明,对于一个非常小的数据集,包括训练集中的100个分子,在测试集上基于深度学习的方法显示出非常高的误差(32个分子)。尽管TunedM2M的性能并不令人满意,但它取得了第三好的结果(RMSE为3.19)。我们希望这一观察结果将有助于进一步探索与小数据集分子内在溶解度预测相关的挑战。04. 结论0为了提高水溶解度预测的准确性,并克服由于可靠的水溶解度相关数据集有限而导致的训练深度神经网络的困难,我们在这项工作中引入了基于转换器的架构。此外,我们采用了迁移学习策略,并将最终架构称为TunedM2M。本文介绍了我们方法的工作流程和性能。事实上,由于精心设计的编码器,TunedM2M提供了有关化学结构的哪些片段对感兴
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功