斯坦福CS229机器学习讲义：线性回归与监督学习

1星需积分: 35 109 浏览量更新于2024-07-20 2 收藏 2.31MB PDF 举报

"本文档包含了斯坦福大学CS229机器学习课程的前五部分讲义中文版，主要探讨了监督式学习的概念，包括回归问题和分类问题，并以线性回归为例进行了深入讲解。" 正文: 斯坦福大学的CS229机器学习课程是全球知名的学习资源，尤其对深度学习和人工智能领域的研究者与实践者来说，其价值不言而喻。讲义主要关注的是监督式学习，这是一种广泛应用于预测模型构建的方法。监督式学习的核心思想是通过已有的带有标签的数据（即输入特征与对应的输出结果）来学习一个函数，以便于对未来未知数据进行预测。在案例中，数据集包含了波特兰47所房子的面积及其价格，这里的面积是输入变量`x`，价格是输出变量`y`，每一对`(x, y)`构成了一个训练样本，所有样本合在一起构成了训练集。在监督学习中，我们需要找到一个函数`h`，它能将输入变量映射到输出变量，即`h: X → Y`。这个函数`h`通常称为假设函数。如果输出变量是连续的，如房价，这类问题被称为回归问题；若输出是离散的，如预测房子类型，那就是分类问题。讲义中的第一部分具体介绍了线性回归，这是一种简单而强大的模型，用于预测连续变量。在房屋的例子中，`x`是一个二维向量，包括房子的居住面积和卧室数量。线性回归假设`y`可以近似地表示为`x`的线性组合，即`y = w_0 + w_1 * x_1 + w_2 * x_2`，其中`w_0, w_1, w_2`是待求的权重参数。这些权重是通过优化算法，如梯度下降法，来从训练数据中学习得到的。线性回归模型虽然简单，但它为更复杂的模型提供了一个基础框架。在实际应用中，我们可能需要考虑更多的特征，例如房子的年龄、是否有车库等，这时`x`将是一个更高维度的向量。此外，线性回归的局限性在于它假设输入和输出之间存在线性关系，对于非线性问题，我们可以采用多项式回归或者转向其他更先进的模型，如神经网络。 CS229的讲义深入浅出地阐述了机器学习的基本概念，尤其是监督学习和线性回归，为初学者提供了坚实的基础，也为经验丰富的从业者提供了回顾和深化理论的机会。通过理解这些基本原理，我们可以更好地理解和构建用于预测和决策的智能系统。

x x



表示误差项（就像我们预测房价例子中有很多其他因素比如地理位置，房屋年龄等这些

我们考虑外的对房价有影响的因素我们没有计算进去），或者随机噪声。我们进一步假定



是分散的

IID

(independently and identically distributed)

根据高斯分布（也叫正态分

布）均值为 0 方差为



。我们可以写出这个



的定义

(0, )

 



。也就是说



的

概率密度是给定的

这表明：

说明

的分布是由

和 θ 控制的。注意，我们不能单独以 θ 为

的条件，因为θ不是一个随机值。我们也能把这个式子写成另外一种形

式：

给定 X（设定好的矩阵包含所有的输入变量

）和θ，如何求的

的分布呢？这个可能

的值就是。这个值代表



（或者

）的一个关于θ的函数。当我们明确

的理解这个函数之后，我们给他起一个名字叫做似然函数：

注意由于这个偏差项



的独立性（同样的

和

之间）这个式子也可以写成

现在给定这个概率模型关于

和

，怎么去选择最合理的方法去最好的求解我们想

要得到的参数θ？这个极大似然函数使的我们能尽可能的取得最好的θ。我们应

剩余53页未读，继续阅读

绝不原创的飞龙

粉丝: 4w+
资源: 1083

斯坦福CS229机器学习讲义：线性回归与监督学习

CS229_机器学习_斯坦福公开课(中英版)

cs229_code.zip

斯坦福大学机器学习公开课CS229中文笔记

斯坦福CS229机器学习讲义：房价预测

深度学习入门：斯坦福CS229机器学习讲义解析

斯坦福CS229机器学习讲义：房价预测与监督学习

斯坦福CS229机器学习讲义解析：监督学习与模式识别

斯坦福CS229机器学习讲义解析：回归与判别模型

斯坦福CS229机器学习中文讲义（2022春季）.pdf

斯坦福-CS229机器学习原版讲义

最新资源