斯坦福机器学习笔记：回归与模型详解

需积分: 0 181 浏览量更新于2024-07-19 收藏 11.4MB PDF 举报

本篇笔记是关于斯坦福大学的机器学习课程——CS229的学习心得，由作者在2011年上半年完成。课程内容主要围绕经典的机器学习算法，包括线性回归、逻辑回归、一般回归、支持向量机（SVM）、规则化和模型选择、K-means聚类、高斯混合模型与EM算法等。这些算法都是回归和分类问题的基础，属于有监督学习方法，目标是通过统计数据分析找到数学模型，用于预测或分类。首先，回归问题作为课程的开端，如线性回归，是通过拟合数据中的模式来预测一个连续变量，如房屋面积与销售价格之间的关系。通过解决误差问题，理解模型的拟合程度和预测精度。逻辑回归则扩展到了二分类问题，通过sigmoid函数处理非线性关系。接着，SVM是另一核心内容，分为两部分，涉及分类和回归，其目标是找到最优超平面，使得不同类别的样本能够最大化间隔。规则化和模型选择是为了避免过拟合，选择合适的模型复杂度和正则化参数。 K-means聚类算法用于无监督学习，它将数据集划分为预设数量的类别，每个类别内部的样本相似度最高。高斯混合模型（GMM）和EM算法则是用来处理复杂数据分布，通过迭代优化混合多个高斯分布以更好地拟合数据。在线学习和降维技术如主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）以及因子分析，进一步拓展了对数据的理解和处理能力，尤其在大数据背景下，这些方法对于数据预处理和特征提取至关重要。此外，课程还涉及了偏最小二乘法回归，一种用于解决线性关系中多重共线性问题的方法，以及典型关联分析，一种发现变量间关系的统计方法。作者强调，虽然笔记基于Andrew Ng教授的讲义和视频，但可能存在错误，因为这是个人学习笔记，建议读者查阅原著资料验证。对于更深入的问题，作者建议寻求专业人士的帮助或阅读相关论文。作者自身在研究生阶段专注于分布式计算和大数据处理领域，因此未来笔记内容可能会偏向这个方向。这篇笔记提供了对斯坦福大学机器学习课程中关键概念和方法的深入理解，对于希望入门或复习机器学习的读者，是一个宝贵的学习资源。





是 y=1 的样本中特征均值。

是样本特征方差均值。

如前面所述，在图上表示为：

直线两边的 y 值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。

3）高斯判别分析（GDA）与 logistic 回归的关系

将 GDA 用条件概率方式来表述的话，如下：

y 是 x 的函数，其中都是参数。

进一步推导出

这里的是的函数。

这个形式就是 logistic 回归的形式。

也就是说如果 p(x|y)符合多元高斯分布，那么 p(y|x)符合 logistic 回归模型。反之，

不成立。为什么反过来不成立呢？因为 GDA 有着更强的假设条件和约束。

如果认定训练数据满足多元高斯分布，那么 GDA 能够在训练集上是最好的模型。然

而，我们往往事先不知道训练数据满足什么样的分布，不能做很强的假设。Logistic

回归的条件假设要弱于 GDA，因此更多的时候采用 logistic 回归的方法。

例如，训练数据满足泊松分布，

说白了就是 z=j 出现的比例。

拉普拉斯平滑法将每个 k 值出现次数事先都加 1，通俗讲就是假设他们都出现过一次。

那么修改后的表达式为：

每个 z=j 的分子都加 1，分母加 k。可见。

这个有点像 NLP 里面的加一平滑法，当然还有 n 多平滑法了，这里不再详述。

回到邮件分类的问题，修改后的公式为：

5 文本分类的事件模型

回想一下我们刚刚使用的用于文本分类的朴素贝叶斯模型，这个模型称作多值伯努利事

件模型（multi-variate Bernoulli event model）。在这个模型中，我们首先随机选定了邮件的类

型（垃圾或者普通邮件，也就是 p(y)），然后一个人翻阅词典，从第一个词到最后一个词，

随机决定一个词是否要在邮件中出现，出现标示为 1，否则标示为 0。然后将出现的词组成

一封邮件。决定一个词是否出现依照概率 p(xi|y)。那么这封邮件的概率可以标示为

。

让我们换一个思路，这次我们不先从词典入手，而是选择从邮件入手。让 i 表示邮件中

的第 i 个词，xi 表示这个词在字典中的位置，那么 xi 取值范围为{1,2,…|V|}，|V|是字典中词

的数目。这样一封邮件可以表示成，n 可以变化，因为每封邮件的词的

个数不同。然后我们对于每个 xi 随机从|V|个值中取一个，这样就形成了一封邮件。这相当

于重复投掷|V|面的骰子，将观察值记录下来就形成了一封邮件。当然每个面的概率服从

p(xi|y)，而且每次试验条件独立。这样我们得到的邮件概率是。居然

跟上面的一样，那么不同点在哪呢？注意第一个的 n 是字典中的全部的词，下面这个 n 是邮

件中的词个数。上面 xi 表示一个词是否出现，只有 0 和 1 两个值，两者概率和为 1。下面的

0/1 值，下面的 x 的向量都是字典中的位置。

形式化表示为：

m 个训练样本表示为：

剩余136页未读，继续阅读

weixin_38292787

粉丝: 0
资源: 1

斯坦福机器学习笔记：回归与模型详解

斯坦福大学机器学习笔记和Andrew Ng讲义

斯坦福大学机器学习笔记(中文版)

斯坦福大学机器学习课程个人笔记完整版

吴恩达机器学习笔记 pdf

如何运用CS229课程笔记中的线性代数和概率论知识来解决实际的机器学习问题？请结合《斯坦福CS229机器学习课程：线性代数与概率论笔记》进行阐述。

斯坦福cs229-机器学习讲义

吴恩达机器学习python笔记

吴恩达机器学习PPT

请解释在机器学习中，支持向量机(SVM)的原理是什么？它在数据分类任务中相较于其他算法的优势体现在哪些方面？

cs321n斯坦福笔记

最新资源