模型评估与选择：从泛化能力到性能度量

需积分: 0 187 浏览量更新于2024-08-05 收藏 1.24MB PDF 举报

"模型评估与选择1" 在机器学习领域，选择一个好的模型至关重要。一个好的模型应当具备强大的泛化能力，即不仅在训练数据上表现良好，还能在未见过的新数据上保持优秀的预测性能。本章主要围绕如何评估和选择具备这种泛化能力的模型展开。 2.1 泛化能力的定义泛化能力是指模型从训练数据中学习到的规律能够在新数据上依然适用的能力。理想的模型应该能够处理未在训练集中出现过的实例，而不只是在训练数据上过拟合。 2.2 评估泛化能力的方法为了评估模型的泛化能力，通常会将数据集D划分为训练集S和测试集T。训练集用于训练模型，而测试集用于评估模型在未知数据上的表现。测试误差，即模型在测试集上的误差，常被用作泛化误差的近似指标。数据集划分有三种常见方式： - 留出法：将数据随机分成训练集和测试集，比例可以是80/20、70/30等，多次实验后取平均值。 - 交叉验证法（k折交叉验证）：数据集D被分成k个相等大小的部分，每次用k-1部分训练，剩下的部分作为测试集，重复k次，最后取k次测试结果的平均值。 - 自助法：通过有放回地抽样生成新的数据集，这种方法适合数据量较小的情况。 2.3 测试误差的性能度量针对不同的任务，有不同的性能度量标准： - 回归任务：主要关注均方误差（MSE），衡量预测值与真实值之间的平均平方差。 - 分类任务：常用错误率、精度，以及查准率、查全率和F1分数来评估。此外，ROC曲线和AUC（面积在ROC曲线下的面积）也是衡量分类性能的重要指标。对于不平衡数据集，代价敏感错误率和代价曲线更能体现模型性能。 2.4 性能评估的注意事项直接使用测试性能来比较不同学习器并不准确，因为测试性能受到测试集选择、算法随机性等因素的影响。因此，我们需要通过统计假设检验来确保评估的公正性： - 单学习器评估：使用假设检验，如t检验，确定模型性能是否显著优于随机猜测。 - 两个学习器比较：可采用交叉验证t检验，或者McNemar检验来比较在同一数据集上的性能差异。 - 多个学习器比较：使用Friedman检验，如果拒绝原假设，则进一步通过Nemenyi检验来区分不同算法的性能。 2.5 解释学习器的泛化性能理解模型的泛化性能，可以通过偏差-方差分解来进行分析。偏差表示模型对数据固有规律的捕获程度，而方差反映了模型对数据噪声的敏感性。好的模型应有适中的偏差和方差，避免过拟合和欠拟合。总结，评估和选择模型时，我们需要考虑模型的泛化能力，合理划分数据集，选择合适的性能度量，并通过统计假设检验来确保评估的可靠性。同时，深入理解模型的偏差和方差有助于优化模型，提升其在实际应用中的表现。

一、章节思路

正如标题，本章的核心思想是：什么是好的模型，怎样选择好的模型。

2.1

什么是好的模型：泛化能力强。

2.2 怎样评估泛化能力：对数据集 D 进行划分，产生出训练集 S 和测试集 T,

用测试集上的

测试误差作为泛化误差的近似。常见的数据集划分方法有三种：留出法(2.2.1)、交叉验证法

(2.2.2)、自助法(2.2.3)。

2.3

用什么作为测试误差：性能度量。

性能度量方法

回归任务 1 均方误差

分类任务

错误率与精度

2 查准率、查全率与 F1

3 ROC 与 AUC

4 代价敏感错误率与代价曲线

2.4 评估方法和性能度量都有了，能否用算出来的性能度量直接比较学习器的性能：不能。

因为：(1)我们希望比较泛化性能，而实际求得的是测试性能，两者未必相同。

(2)测试性能与测试集本身的选择有关，不同的测试集(或即使相同测试集)算出的测试

性能有可能不同。

(3)机器学习算法有随机性，同样的参数多次运行的结果可能不同。

那怎样评估性能：统计假设检验(2.4)。具体方法包括：

1)单学习器评估：a

）假设检验(2.4.1)

2)两个学习器比较：a

）交叉验证 t 检验(2.4.2)(采用同一数据集)

b）McNemar

检验(2.4.3)(采用同一数据集)

3)多个学习器比较：a）Friedman

检验(多数据集)。若 Friedman 检验被拒绝，则需

要使用 Nemenyi

检验(2.4.4)进一步区分算法。

2.5

至此，我们已求出了学习器的泛化性能，但我们还希望知道学习器为什么具有这样的性

能，即怎样解释学习器的泛化性能：

偏差-方差分解。

二、算法原理

1 数据集划分：

1.1 留出法：

将数据集 D 划分为两个互斥的集合。一个作为训练集，一个作为测试集。

采用若干次随机划分/重复进行实验评估后取平均值作为评估结果。

训练集 S 过大，则测试集 T 过小，评估结果不够稳定准确。相反，训练集 S 过小，会造

成训练集 S 与样本 D 的差别太大，评估保真性(fidelity)过低。

1.2

交叉验证法：

将数据集 D 划分为 k 个大小相似的互斥子集。用 k-1 个子集的并集作为训练集，余下那

个子集作为测试集。这样获得了 k 组训练/测试集，从而进行 k 次训练和测试，最终返回 k 个

测试结果的均值。由于交叉验证的稳定性和保真性很大程度取决于 k 的取值，因此交叉验证

法又称为 k 折交叉验证(k-fold cross validation)。

与留出法类似，k 折交叉验证也要随机划分重复 p 次，取结果平均值。如常见的 10 次

10 折交叉验证。

下载后可阅读完整内容，剩余8页未读，立即下载

三山卡夫卡

粉丝: 26
资源: 323

模型评估与选择：从泛化能力到性能度量

第二章 模型评估与选择1

机器学习——模型评估与选择思维导图

Chap02模型评估与选择.pptx

机器学习模型评估和选择

做机器学习模型的步骤是什么，包括模型评估、模型选择

在Python中使用sklearn实现模型评估与选择的具体步骤是什么？请以分类问题为例，描述使用train_test_split函数划分数据集并进行性能度量的过程。

人工智能优化ALD金属薄膜制备过程中的数据收集、预处理、特征工程、模型选择、模型训练与调优、模型评估与应用需要用到那些软件？

如何根据数据特征选择合适的线性回归模型，并进行模型评估和选择最佳模型？

比亚迪股票数据分析模型训练与模型评估

最新资源

第二章模型评估与选择1