《统计学习方法》:第一章,统计学习与监督学习详解

0 下载量 10 浏览量 更新于2024-08-30 收藏 278KB PDF 举报
在《统计学习方法》的第一章中,作者李航对统计学习进行了全面的介绍,指出统计学习是计算机系统利用数据和统计方法提升系统性能的机器学习分支,其中监督学习是最为核心的部分,占据了第二至第八章的主体。监督学习的关键概念包括: 1. **输入/输出空间**:在监督学习中,输入变量x(如特征向量)和对应的输出变量y(如类别或数值)的可能取值构成输入空间和输出空间。输入空间可以是有限的元素集合或无限的欧式空间,通常输出空间(如预测结果的范围)比输入空间小得多。 2. **训练集**:监督学习以训练集为例,如{T={(h1,y1),(x2,y2),…,(xn,yn)}},包含n个样本点,每个样本由输入x和输出y组成,用于训练模型。 3. **特征空间**:特征向量用来表示每个输入实例,特征空间是所有特征向量存在的空间。输入空间与特征空间可能相同,但在某些情况下,特征空间可以扩展,如通过多项式特征转换。 4. **联合概率分布**:模型的目标是找到输入变量X和输出变量Y之间的联合概率分布P(X,Y),这有助于计算条件概率P(Y|X),从而进行预测。 5. **假设空间**:在监督学习中,假设空间包含了多种可能的模型,如决策函数Y=f(x)(确定性预测)和条件概率分布P(y|x)(不确定性预测),选择最能拟合数据的最优模型。模型的性能可通过比较预测结果f(x)与实际观察y的差距来评估。 6. **损失函数**:评估模型性能的关键工具,它衡量了模型预测的误差或偏差,常见的损失函数有均方误差(MSE)、交叉熵等,优化模型的目标是最小化损失函数。 7. **监督学习方法**:本书详细介绍了各种监督学习算法,如感知机、线性回归、逻辑回归、支持向量机、决策树、随机森林和神经网络等,每种方法都有其特定的损失函数和优化策略。 总结来说,第一章主要阐述了统计学习的基础概念和监督学习的核心原理,后续章节将深入探讨各种监督学习技术及其在实际问题中的应用。理解这些概念对于进一步学习和应用统计学习方法至关重要。