Maxsmi：利用SMILES增强与深度学习提升生命科学预测准确性

155 浏览量更新于2024-06-18 收藏 2.18MB PDF 举报

“Maxsmi是利用SMILES增强和深度学习技术来提高分子性质预测准确性的研究。该研究探讨了如何通过不同的数据增强技术改进卷积和递归神经网络的性能，尤其是在生命科学领域，如药物设计。Maxsmi模型通过最大化SMILES字符串的多样性来增强数据，从而改善模型的预测能力。同时，研究还评估了模型的不确定性，发现每个SMILES预测的标准差与其相关化合物预测的准确性相关。” 正文：在生命科学中，人工智能的应用正在迅速发展，特别是在计算机辅助药物设计(CADD)领域。深度学习作为机器学习的一个分支，已经证明在处理大量数据并建立复杂模型方面具有显著优势，这对于预测分子性质和生物活性至关重要。然而，训练深度学习模型通常需要大量的数据，而在生命科学中，特别是物理化学和生物活性数据集往往有限。 Maxsmi的研究旨在解决这个问题，通过SMILES（简化分子输入行编辑语言）增强技术来扩大数据集。SMILES是一种用于表示分子结构的字符串编码方式。研究中，化合物的不同SMILES表示被用作数据增强的手段，通过这种方式生成多种表示形式，增加了训练数据的多样性和数量。研究人员使用卷积神经网络(CNN)和递归神经网络(RNN)来训练模型，这两种神经网络架构在处理序列数据如SMILES字符串时特别有效。实验结果表明，数据增强显著提升了模型的预测准确性，而且这种提升并不依赖于数据集的大小，这意味着即使在数据量较小的情况下，也能取得良好的效果。此外，Maxsmi模型还引入了对模型预测不确定性的评估，这是深度学习模型中一个重要的但常常被忽视的方面。通过在测试集上应用数据增强，研究者发现每个SMILES预测的标准差与化合物实际预测的准确性之间存在关联。这一发现强调了模型的置信度估计对于提高预测可靠性和指导决策的重要性。 Maxsmi的研究不仅提供了改进的模型性能，还为SMILES增强策略提供了广泛的指导，有助于未来的药物设计研究。通过开源工具，研究者提供了使用Maxsmi模型对新的物理化学和生物活性任务进行预测的能力，这将进一步推动生命科学领域中AI技术的应用。 Maxsmi的工作展示了深度学习和数据增强在生命科学，特别是药物设计中的潜力，它为解决数据稀缺问题提供了一个创新的解决方案，并且强调了在模型预测中考虑不确定性的重要性。这样的研究对于加速药物发现过程，降低研发成本，以及提高候选药物的成功率具有深远的影响。

T.B. Kimber

，

M. Gagnebin

和

拉马尔

生命科学中的人工智能

（

2021

）

100014



√

（）下一页

比线性增长更慢的函数（）用于控制为每个保持的副本的数

量。合理的函数是平方根函数（）或自然对数（） （），前者用于

本研究的实验

前三种增广策略的一个极端情况是当增广数 时。在这种情况

下，将生成随机，并且数据点的数量仍然是，如在无增

强情况下，不同之处

2.1.5.

估计最大值

所描述的最终策略是用估计的最大值进行扩增，其目的是覆盖给

定化合物的有效空间的大范围，或者换句话说，生成许多取

决于化合物的唯一。在我们的研究中，这种增强策略的实施

随机采样对应于化合物的，并且一旦相同的字符串已

经生成预定义的次数，采样过程就停止。本研究的实验设置了代

相同的作为停止标准。值得注意的是，该方法生成的

的数量高度依赖于化合物的大小，而不像以前的方法总是生成由限

制的的数量。例如，我们的这种扩充策略的实施产生了

个独特的变体，用于由规范  （）（）

（）（）（）给出的化合物，

而

对于规范 ，仅生成三个，即（）、（）

和。

2.2.

SMILES

增强作为复合预测和置信度测量

在训练过程中应用数据增强策略已被证明是成功的，如以前的工作

，所示。特别是在建模中，增强不仅对训练集有益

，而且增强测试集，或更一般地，未标记的数据集，如本节所

述。

让我们假设具有一组参数的模型被训练了一定数量的时期。让

我们考虑一个未标记的数据集，其中包含我们想要预测的化合物。每

一个复合词都可以使用随机的来增强：





（





型号

：



为每个生成一个预测，即对于，

































导致

每

SMILES

预测而不是

每化合物

预测。使用聚合函数

：



→

，

例如平均值，化合物的预测可以计算为

（



）















这种聚集可以被视为预测之间的共识，并解释为给定化合物的集

成学习

此外，如果计算预测的标准偏差，则可以将其解释为对分子性质或

活性预测的置信度。如果标准差很大，则每个预测中的变化很

大，并且模型在其每个化合物预测中不确定。这种分子预测的图解如图

所示。根据和的基本原理，随机和认知不确

定性通常是相互关联的我们工作中计算的不确定性属于随机类别，这是

一种与模型预测和输入数据中的随机性相关的不确定性

2.3.

深度学习模型

神经网络是一种强大的算法，可以对各种任务进行准确预测。在

建模的情况下，更具体地说，使用表示，两种类型

的模型可以卷积神经网络，第章和递归神经网络

在这项研究中，比较深度学习模型以及它们在数据增强方面的表现

是重点之一。为此，构建和训练了三种类型的模型，即和卷积神经

网络（，）以及递归神经网络（）。递归网络的架

构包括一个层，然后是两个完全连接的层，分别为和个单

元。它受到的启发，其中层后面是一个单元的全连

接层。使用类似的方法，在模型中应用内核大小为和步幅为

的单个卷积层。卷积之后是两个完全连接的层。遵循相同的

模式，但不是使用卷积，而是使用一个单通道执行卷积操作。最

后，所有三种架构模型在网络深度上保持一致，并且保持浅层。

在这项研究中，所有深度学习模型都被训练了个，

使用大小为的小批量，其中均方误差是所考虑的损失。优化是用随机

梯度下降完成的，学习率为。请注意，本研究中使用了固定数量

的时期，但为了完整起见，还运行了三个提前停止的样本模型。提前停

药和未提前停药的结果无显著变化（数据未显示）。此外，一些模型是

通过调整与扩增数相关的时期数来训练的，但这只证明过拟合训练集，

并在测试集上产生与个时期训练相同的结果（数据未显示）。

数据和实验装置

本节介绍了本研究中使用的数据集，即它们的来源以及所需的预处

理。此外，一步一步的指令，有效的增强描述。最后，评估设计

和实验装置。

3.1.

出处

本研究中的数据来自两个来源：和数据

库，选择这些数据主要有两个原因。



它们是免费提供的，很容易下载或检索。



它们经常被用作研究比较的基准，，。

对于中的任务，我们专注于物理化学预测任务，并从以

下三组不同的数据中检索数据 大小，所有这些都可以在：

作为的一部分。



测得的水溶性称为数据集。原始数据包含个数据点。

该数据集被进一步处理以仅包括具有至多个重原子的分子用于

实验设置，称为。



数据集由对和水中小分子的实验水合自由能

（）组成。



亲脂性数据集来自，包含对和辛醇水分配

系数的实验值。

生物活性数据可以在中大量找到。迄今为止，数据库中

存储了超过万项活动，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

Maxsmi：利用SMILES增强与深度学习提升生命科学预测准确性

深度学习在生物信息中的应用

构建超级原子化学存储库：探索别名与SMILES扩展

smilesDrawer：解析与绘制SMILES字符串的JavaScript组件

smiles-discover-backend:Smiles Discover应用程序的后端存储库

SMILES：使用pyparsing的简单SMILES验证器和解析器

smiles-3d-vue:Vue.js中的SMILES（简化的分子输入线输入系统）文件3D渲染应用程序

SMILES：使用pyparsing的简单SMILES验证器和解析器-.zip

深度学习在化学信息学中的应用.pdf

Smiles

smiles

最新资源