机器学习基础概念解析：特征向量与模型评估

需积分: 0 85 浏览量更新于2024-08-03 收藏 20KB MD 举报

"西瓜书，即《统计学习方法》一二章节的学习笔记，涵盖了基本的机器学习术语和模型评估方法。" 在第一章中，作者介绍了机器学习的一些核心概念。首先，特征向量（feature vector）是描述样本的关键数据结构，它包含了用于训练模型的所有属性或变量。模型或学习器（learner）则是根据这些特征向量来学习规律的算法。学习的目标是通过已有的带有标签（label）的样例（example）进行训练，以便对新的未知数据进行预测。依据预测目标的不同，机器学习任务可以分为二分分类（binary classification）和多分类（multi-class classification）。无标签数据对应的任务则涉及聚类（clustering），其中样本被组织成不同的簇（cluster）。根据是否使用标记信息，学习任务可进一步划分为监督学习和无监督学习。模型的泛化能力（generalization）是指模型对未见过的数据进行预测的准确度，这是衡量模型好坏的重要标准。此外，特征选择（feature selection）是优化模型性能的过程，遵循奥卡姆剃刀原则，即简单性优先，尽可能减少特征数量。第二章聚焦于模型评估与选择。经验误差（empirical error）是模型在训练数据上的表现，而过拟合（overfitting）和欠拟合（underfitting）是评估模型性能时常见的问题。过拟合指的是模型过度适应训练数据，导致对新数据的预测效果不佳；相反，欠拟合则是模型未能充分学习训练数据中的模式，导致预测能力不足。错误率（error rate）、精度（accuracy）以及误差（error）是衡量模型性能的基本指标。错误率是分类错误的样本数占总样本数的比例，而精度则是正确分类的样本比例。误差则表示预测值与真实值之间的差距。经验误差包括训练误差（training error）和泛化误差（generalization error），前者是模型在训练集上的误差，后者是对未知数据的预期误差。评估模型性能通常采用测试集，通过比较模型在测试集上的表现来估计其泛化误差。两种常用的方法是留出法（holdout）和交叉验证（cross-validation）。留出法是将数据集随机划分为训练集和测试集，比例通常是1:2。而交叉验证，特别是k折交叉验证（k-fold cross-validation），则将数据集分为k个子集，每次用k-1个子集训练模型，剩下的子集用于评估，重复k次后取平均值，这样可以更充分地利用数据并减小评估的随机性。分层采样（stratified sampling）在处理类别不平衡的数据集时尤为重要，以确保每个子集都反映出总体的类别分布。

新健Word.

粉丝: 0
资源: 1

机器学习基础概念解析：特征向量与模型评估

西瓜书电子版 西瓜书课后习题答案 中科大专属答案 西瓜书公式推导 西瓜书 PPT

西瓜书第一二章总结笔记

西瓜书第三章课后习题

西瓜书第四章课后习题4.9

西瓜书学习笔记第三章

西瓜书答案pdf第一章

西瓜书8章集成学习习题8.7

西瓜书课后习题第二章

西瓜书3.5 matlab

西瓜书 python代码

最新资源

西瓜书电子版西瓜书课后习题答案中科大专属答案西瓜书公式推导西瓜书 PPT