机器学习基础概念解析:特征向量与模型评估
需积分: 0 85 浏览量
更新于2024-08-03
收藏 20KB MD 举报
"西瓜书,即《统计学习方法》一二章节的学习笔记,涵盖了基本的机器学习术语和模型评估方法。"
在第一章中,作者介绍了机器学习的一些核心概念。首先,特征向量(feature vector)是描述样本的关键数据结构,它包含了用于训练模型的所有属性或变量。模型或学习器(learner)则是根据这些特征向量来学习规律的算法。学习的目标是通过已有的带有标签(label)的样例(example)进行训练,以便对新的未知数据进行预测。依据预测目标的不同,机器学习任务可以分为二分分类(binary classification)和多分类(multi-class classification)。无标签数据对应的任务则涉及聚类(clustering),其中样本被组织成不同的簇(cluster)。根据是否使用标记信息,学习任务可进一步划分为监督学习和无监督学习。模型的泛化能力(generalization)是指模型对未见过的数据进行预测的准确度,这是衡量模型好坏的重要标准。此外,特征选择(feature selection)是优化模型性能的过程,遵循奥卡姆剃刀原则,即简单性优先,尽可能减少特征数量。
第二章聚焦于模型评估与选择。经验误差(empirical error)是模型在训练数据上的表现,而过拟合(overfitting)和欠拟合(underfitting)是评估模型性能时常见的问题。过拟合指的是模型过度适应训练数据,导致对新数据的预测效果不佳;相反,欠拟合则是模型未能充分学习训练数据中的模式,导致预测能力不足。错误率(error rate)、精度(accuracy)以及误差(error)是衡量模型性能的基本指标。错误率是分类错误的样本数占总样本数的比例,而精度则是正确分类的样本比例。误差则表示预测值与真实值之间的差距。经验误差包括训练误差(training error)和泛化误差(generalization error),前者是模型在训练集上的误差,后者是对未知数据的预期误差。
评估模型性能通常采用测试集,通过比较模型在测试集上的表现来估计其泛化误差。两种常用的方法是留出法(holdout)和交叉验证(cross-validation)。留出法是将数据集随机划分为训练集和测试集,比例通常是1:2。而交叉验证,特别是k折交叉验证(k-fold cross-validation),则将数据集分为k个子集,每次用k-1个子集训练模型,剩下的子集用于评估,重复k次后取平均值,这样可以更充分地利用数据并减小评估的随机性。分层采样(stratified sampling)在处理类别不平衡的数据集时尤为重要,以确保每个子集都反映出总体的类别分布。
456 浏览量
2024-01-03 上传
2023-11-07 上传
2024-06-06 上传
2023-11-16 上传
2024-07-12 上传
2023-09-20 上传
2023-08-22 上传
新健Word.
- 粉丝: 0
- 资源: 1
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升