机器学习基础概念解析:特征向量与模型评估

需积分: 0 1 下载量 85 浏览量 更新于2024-08-03 收藏 20KB MD 举报
"西瓜书,即《统计学习方法》一二章节的学习笔记,涵盖了基本的机器学习术语和模型评估方法。" 在第一章中,作者介绍了机器学习的一些核心概念。首先,特征向量(feature vector)是描述样本的关键数据结构,它包含了用于训练模型的所有属性或变量。模型或学习器(learner)则是根据这些特征向量来学习规律的算法。学习的目标是通过已有的带有标签(label)的样例(example)进行训练,以便对新的未知数据进行预测。依据预测目标的不同,机器学习任务可以分为二分分类(binary classification)和多分类(multi-class classification)。无标签数据对应的任务则涉及聚类(clustering),其中样本被组织成不同的簇(cluster)。根据是否使用标记信息,学习任务可进一步划分为监督学习和无监督学习。模型的泛化能力(generalization)是指模型对未见过的数据进行预测的准确度,这是衡量模型好坏的重要标准。此外,特征选择(feature selection)是优化模型性能的过程,遵循奥卡姆剃刀原则,即简单性优先,尽可能减少特征数量。 第二章聚焦于模型评估与选择。经验误差(empirical error)是模型在训练数据上的表现,而过拟合(overfitting)和欠拟合(underfitting)是评估模型性能时常见的问题。过拟合指的是模型过度适应训练数据,导致对新数据的预测效果不佳;相反,欠拟合则是模型未能充分学习训练数据中的模式,导致预测能力不足。错误率(error rate)、精度(accuracy)以及误差(error)是衡量模型性能的基本指标。错误率是分类错误的样本数占总样本数的比例,而精度则是正确分类的样本比例。误差则表示预测值与真实值之间的差距。经验误差包括训练误差(training error)和泛化误差(generalization error),前者是模型在训练集上的误差,后者是对未知数据的预期误差。 评估模型性能通常采用测试集,通过比较模型在测试集上的表现来估计其泛化误差。两种常用的方法是留出法(holdout)和交叉验证(cross-validation)。留出法是将数据集随机划分为训练集和测试集,比例通常是1:2。而交叉验证,特别是k折交叉验证(k-fold cross-validation),则将数据集分为k个子集,每次用k-1个子集训练模型,剩下的子集用于评估,重复k次后取平均值,这样可以更充分地利用数据并减小评估的随机性。分层采样(stratified sampling)在处理类别不平衡的数据集时尤为重要,以确保每个子集都反映出总体的类别分布。