QSAR模型验证策略：训练集、测试集与交叉验证

1星 | 下载需积分: 13 | DOC格式 | 39KB | 更新于2024-09-20 | 138 浏览量 | 举报

"QSAR模型的验证涉及训练集、测试集和验证集的划分，以及交叉验证法的应用，包括K折交叉验证和留一法。此外，最优停止法也被提及，用于模型选择。模型的‘内在质量’评估是通过交叉验证实现的，以避免过拟合，确保模型具有良好的泛化能力。" QSAR（Quantitative Structure-Activity Relationship）模型是一种通过化学结构预测生物活性的统计模型。在构建QSAR模型时，验证是至关重要的步骤，确保模型的稳定性和预测准确性。 1. 训练集、验证集和测试集的选择：通常，数据集被分为训练集、验证集和测试集。训练集用于训练模型，验证集用于调整模型参数和防止过拟合，而测试集用于最终评估模型的性能。当样本量较大时，可采取50%训练集，25%验证集，25%测试集的比例；样本量小的情况下，这种划分可能不适用。 2. K折交叉验证：当样本有限时，常使用K折交叉验证。这种方法将数据集分成K个子集，每次选取K-1个子集作为训练集，剩下的1个作为验证集。K次迭代后，所有样本都被用作验证一次，预测误差平方和的平均值用于选择最佳模型。K通常取5或10，留一法是特殊情况，K=N。 3. 最优停止法：这是在模型训练过程中，根据验证集上的性能指标决定何时停止训练的一种策略，防止模型过拟合到训练数据。 4. 交叉验证Q2值与外部验证：留20%数据进行交叉验证，得到多个Q2值，Q2是内部验证的指标，表示模型的预测能力。如果进行外部验证，应使用Q2最高对应的4/5训练集建立的模型。虽然这可能导致某些数据未用于建模，但它关注的是模型的泛化能力而非单纯依赖训练数据。 5. 模型的“内在质量”：模型的质量不仅仅是Q2值的体现，它涉及到模型在未知数据上的预测性能，即泛化能力。通过交叉验证，可以模拟模型在新数据上的表现，因为模型参数是基于训练集学习的，所以需要验证其在未见过的数据上的预测效果。 6. 泛化能力与过拟合：过拟合是模型过于复杂，对训练数据拟合过度，导致在新数据上表现不佳。选择适当的模型评价函数，如交叉验证的Q2值，可以帮助找到平衡点，提高模型的泛化能力。在QSAR模型验证的过程中，合理的数据划分和有效的验证策略是保证模型预测性能的关键，同时理解模型的“内在质量”并防止过拟合是构建可靠模型的基础。

对于帖子：QSAR 模型的验证

（1）如何选择训练集和测试集数据？

一般需要将样本分成独立的三部分：

训练集（train set）用来估计模型

验证集（validation set) 用来确定网络结构或者控制模型复杂程度的参数

测试集（test set）检验最终选择最优的模型的性能如何

一个典型的划分是训练集占总样本的 50％，而其它各占 25％，三部分都是从样本中随机抽

取。样本少的时候，上面的划分就不合适了。

(2) K 折交叉验证法

常用的是留少部分做测试集，然后对其余 N 个样本采用 K 折交叉验证法。就是将样本打乱，

然后均匀分成 K 份，轮流选择其中 K－1 份训练，剩余的一份做验证，计算预测误差平方

和，最后把 K 次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的 K 取

N，就是留一法（leave one out）。

研究表明，5 折或者 10 折交叉验证可能倾向于产生较大的预测误差，而留一法（ N 折交叉

验证）则倾向于较小的预测误差但却可能有较大的方差。

对于留一法来说，通用交叉验证（Generalized Cross-validation，GCV）是比较好的。关于

GCV 的详情，请参考有关书籍资料。

(3) 最优停止法

最优停止法参看《神经网络结构设计的理论与方法》中相关的内容，书后有该方法的程序

（4）留 20% 交叉验证，得到五个交叉验证 Q2 值。

若再作外部验证的话，直接用 Q2 最大的 4/5 的训练集建的模型进行预测就行了吗？

那样就不能保证全部的训练集都来建模了呀？

可以这样吗？

原则问题需要澄清：每个模型都是有其“内在质量”。

即使是 Q2 很差，只是说明该模型对留下来的样本预测很差，而模型本身的“内在质量”其实

并不单单由 Q2 来衡量（或者说，并不仅仅是由留下来的样本来衡量的）。

然而，我们有什么办法来衡量模型的“内在质量”？，因此只好用交叉验证的办法。通俗地

说，你能不能当三好学生，不是由你内在品质决定的，而是由你周围的“群众（老师、同

学）”（根据你的表现）来判定的。如果用全部的训练组来建模，那么如何检验模型的“表

现”呢？这就如同你独自一个人在孤岛上，怎么评三好学生呢？

因为模型参数是根据训练集估计的，泛化能力（即预测能力）是估计模型在训练集以外的

样本的预测能力。只要选择足够复杂的结构，神经网络可以任意地降低训练误差，但泛化

能力很差。泛化能力的解决关键在于选择合适的模型评价函数，合适的模型评价函数能够

反映模型偏差和方差的折衷。常用的 R2 拟合优度不是一个好的评价函数，更好的是

Aikaike 信息标准 (Aikaike’s Information Criterion, AIC) 和 Bayesian 信息标准 (Bayesian’s

Information Criterion, BIC)。

AIC＝－2log(L)+2d

BIC=－2log(L)+dlog(N)

下载后可阅读完整内容，剩余3页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

angelhunte

粉丝: 1

QSAR模型验证策略：训练集、测试集与交叉验证

QSAR

JRC QSAR Model Database:（Q）SAR模型报告格式清单-开源

QSAR活性构象文档

怎么用python实现QSAR 模型

传统qspr自动化接口

qsar预测混合物毒性matlab实现

在QSAR研究中，如何根据化合物的化学结构特征预测其对胃腺癌细胞的抗癌活性？

rdkit库中qde模块的原理是什么

具体说明qsar研究现状

怎么提高qsar 特征选择 给出python

最新资源

怎么提高qsar 特征选择给出python