模型评估与选择：留出法、交叉验证与性能度量

需积分: 0 114 浏览量更新于2024-08-05 收藏 15.29MB PDF 举报

"模型评估与选择的学习笔记，包括留出法、交叉验证、留一法、自助法等训练验证策略以及性能度量如错误率、精度、查准率、查全率和F1分数的介绍" 在机器学习领域，模型评估与选择是至关重要的步骤，它确保我们选择的模型能够在未知数据上表现良好。本笔记主要涵盖了模型选择和评估的几种常用方法。首先，留出法是一种简单直接的数据集划分方法，通常将数据集分为训练集和验证集两部分。例如，按照70%:30%的比例划分，70%用于模型训练，剩余30%用作验证，以评估模型的性能。在划分时需要注意保持训练集和验证集间数据分布的一致性，避免由于划分引入的偏差影响评估结果。其次，交叉验证是一种更为严谨的评估方式，特别是k折交叉验证。数据集被均匀划分为k个子集，每次用k-1个子集训练模型，剩下的一个子集用于验证。这个过程重复k次，每个子集都被用作一次验证，最后取k次结果的平均值作为模型性能的估计。留一法是交叉验证的特例，当k等于数据集大小m时，每个样本都单独构成一次验证，虽然这种方法理论上最精确，但在大数据集上会非常耗时。为了克服训练集规模减小和实验效率低下的问题，提出了自助法。这种方法通过自助采样创建一个与原始数据集大小相同的新的训练集，每次采样后都将样本放回，确保样本有概率在多次采样中被选中。大约有36.8%的样本不会出现在采样集中，这部分未被选中的样本组成验证集。在评估模型性能时，我们通常会使用各种性能度量。例如，在回归任务中，均方误差是最常用的指标，它衡量了预测值与真实值之间的差异。对于分类任务，错误率和精度是基本的度量标准，它们分别反映了模型错误预测的比例和正确预测的比例。此外，查准率（Precision）和查全率（Recall）是评价二分类模型性能的重要指标，查准率表示预测为正类的样本中真正为正类的比例，查全率则表示所有正类样本中被正确预测的比例。查准率和查全率通常存在权衡关系，无法同时达到最优。为了综合考虑两者，F1分数被提出，它是查准率和查全率的调和平均数，提供了单一的性能度量。在二分类任务中，可以通过混淆矩阵分析模型性能，它包含了真正例（True Positives）、假正例（False Positives）、真反例（True Negatives）和假反例（False Negatives）。基于这些指标，我们可以绘制查准率-查全率曲线（P-R曲线），以直观地比较不同模型的表现。选择合适的模型评估方法和性能度量是优化模型的关键步骤。理解并熟练运用这些工具，可以帮助我们在实际项目中更好地训练和评估机器学习模型。

2.3 ROC和AUC

很多学习器会为测试样本产生一个实值或者概率预测，然后将这个预测值与一个分类阈值进行比

较，若大于阈值则分为正类，否则为反类。也就是说这个实值或概率预测结果的好坏，直接决定了学习

器的泛化能力。实际上，根据这个实值或者概率预测结果，我们可以对测试样本进行排序，“最可能”是

正例的排在最前面，“最不可能”是正例的排在最后面。这样分类的过程就相当于这个排序中以某个截断

点将样本分为两部分，前一部分作为正例，后一部分作为负例。

在不同的应用任务中，我们可以根据任务需求来采用不同的截断点，若我们更重视查准率，则可采

用排序中考前的位置进行截断，若更重视查全率，则可选择靠后的位置进行截断。因此排序本身的质量

好坏，体现了综合考虑学习器在一般情况下泛化性能的好坏。ROC曲线就是从这个角度出发来研究学习

器泛化性能的有力工具。

与P-R曲线相似，根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预

测，每次计算两个重要量的值，分别以他们为横纵坐标作图，就得到了ROC曲线。

与P-R曲线采用查准率、查全率作为纵、横轴不同，ROC曲线的纵轴是“真正例率”（TPR），横轴

为“假正例率”（FPR）：

简单点说TRP就是真正为正例样本有多少被预测为正例， FPR就是真正为负例样本有多少预测为正

例

剩余10页未读，继续阅读

晕过前方

粉丝: 729
资源: 328

模型评估与选择：留出法、交叉验证与性能度量

ch08 集成学习_学习笔记1

ch03 线性模型_学习笔记1

ch04 决策树_学习笔记1

工程数学2010-CH00-引言-教程与笔记习题

《计算方法》课件：Ch1_绪论.ppt

R4DS_ch8to10:第8章到第10章的读书俱乐部介绍

使用AI进行文本分类的深入学习

系统辨识与MATLAB仿真程序与剖析

Pytorch LSTM预测模型ch-lstm-forecast-mai笔记解析

Project-MA聚类算法笔记要点总结

最新资源