机器学习基石：模型选择与验证策略

需积分: 0 130 浏览量更新于2024-08-05 收藏 1.12MB PDF 举报

在林轩田的《机器学习基石》课程中，第15讲重点讨论了模型选择问题（Model Selection Problem）以及验证（Validation）方法在避免过拟合和提升模型泛化能力中的作用。在机器学习模型构建过程中，存在着众多参数和架构的决策，如算法选择（如PLA、pocket等）、迭代次数、学习率、特征转换类型（线性、多项式等）、正则化方式（L2、L1）和正则化系数等。这些选择对模型性能有着显著影响，目标是找到最优配置以达到最佳模型。传统的模型选择方法包括直接比较每个模型在训练集上的性能指标，如误差平方和，选择使误差最小的模型。然而，这种方法存在局限性，因为训练误差低并不一定意味着模型具有良好的泛化能力，可能是因为过拟合导致的。过拟合的模型在新数据上的表现往往较差。为了克服这个问题，引入了验证（Validation）的概念，其中一种方法是使用交叉验证（如Leave-One-Out Cross Validation 和 V-Fold）。Leave-One-Out Cross Validation 是一种将数据集分为N份，每次用N-1份进行训练，剩余一份用于验证，这样重复N次，每份数据都被用作一次验证。V-Fold 则是将数据集分为K个子集，进行K轮训练，每次用K-1个子集作为训练集，剩下的一个子集作为验证集。这两种方法可以更准确地评估模型的泛化能力，并且减少了因数据划分带来的偶然性。另一种验证方法是使用独立的测试集，对模型在未见过的数据上的预测性能进行评估。如果测试误差（一般用损失函数衡量）较小，表明模型有较好的泛化能力。然而，选择测试集验证时，需要注意随着模型数量M的增加，验证复杂度也会相应提高，过度依赖测试集可能导致过度优化。课程中引用的finite-Bin Hoffding不等式提供了一个量化模型选择的有效性的数学依据，它揭示了模型个数与验证结果稳定性的关系，帮助我们更好地平衡模型复杂度与泛化性能。通过合理的模型选择和验证策略，可以有效地提高机器学习模型的泛化能力，从而避免过拟合，确保模型在实际应用中表现出色。

作者：红色石头公众号：AI有道（id：redstonewill）



上节课我们主要讲了为了避免overfitting，可以使用regularization方法来解决。在之前

的上加上一个regularizer，生成，将其最小化，这样可以有效减少模型的复

杂度，避免过拟合现象的发生。那么，机器学习领域还有许多选择，如何保证训练的

模型具有良好的泛化能力？本节课将介绍一些概念和方法来解决这个选择性的问题。

机器学习模型建立的过程中有许多选择，例如对于简单的二元分类问题，首先是算法

A的选择，有PLA，pocket，linearregression，logisticregression等等；其次是迭代

次数T的选择，有100，1000,10000等等；之后是学习速率的选择，有1，

0.01,0.0001等等；接着是模型特征转换的选择，有linear，quadratic，poly10，

Legendrepoly10等等；然后是正则化regularizer的选择，有L2，L1等等；最后是正

则化系数的选择，有0，0.01，1等等。不同的选择搭配，有不同的机器学习效果。

我们的目标就是找到最合适的选择搭配，得到一个好的矩g，构建最佳的机器学习模

型。





假设有M个模型，对应有，即有M个hypothesisset，演算法为

，共M个。我们的目标是从这M个hypothesisset中选择一个模型

，通过演算法对样本集D的训练，得到一个最好的矩，使其

最小。所以，问题的关键就是机器学习中如何选择到最好的矩。

林轩田《机器学习基石》课程笔记15Validation

一、ModelSelectionProblem

下载后可阅读完整内容，剩余9页未读，立即下载

王佛伟

粉丝: 21
资源: 319

机器学习基石：模型选择与验证策略

机器学习基石 15 - 3 - Leave-One-Out Cross Validation (16-06).mp4

林轩田《机器学习技法》课程笔记7 -- Blending and Bagging1

《机器学习基石》-林轩田15

bower-angular-bootstrap-form-validation:用于 angular-bootstrap-form-validation 的分发存储库

js-form-validation-Brittdog100：GitHub课堂创建的js-form-validation-Brittdog100

K-Fold Cross Validation：K-Fold Cross Validation for Binary Classification，使用LibSVM-matlab开发

TutsPlus-Form-Validation:Tuts +课程的源代码-Form source code

magento-2-experian-address-validation

redux-form-with-yup-validation

boot-consul-config-validation

最新资源