斯坦福CS229机器学习笔记：从线性回归到SVM

5星 · 超过95%的资源 | 下载需积分: 45 | PDF格式 | 11.4MB | 更新于2024-07-19 | 5 浏览量 | 举报

1 收藏

"这是一份详细的斯坦福大学机器学习课程笔记，涵盖了从基础的线性回归到复杂的增强学习等多个主题，由个人学习整理而成，基于Andrew Ng教授的课程内容，并结合了其他论文和资料。笔记内容包括：线性回归、逻辑回归、一般回归、判别模型、生成模型、朴素贝叶斯、支持向量机(SVM)、规则化与模型选择、K-means聚类、混合高斯模型、EM算法、在线学习、主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)、因子分析、增强学习、典型关联分析以及偏最小二乘法回归。笔记中可能存在的错误需要读者自行校对，作者建议遇到问题时查阅原讲义和视频，或寻求专家帮助。" 这篇笔记详细阐述了机器学习领域的多个重要概念和技术。首先，线性回归是基础的预测模型，用于建立输入特征与输出之间的线性关系，以进行连续值的预测。接着，logistic回归扩展了线性回归，适用于二分类问题，通过sigmoid函数将预测值转化为0和1之间的概率。在回归问题的基础上，笔记讨论了判别模型与生成模型的区别。判别模型直接学习决策边界，如逻辑回归，而生成模型如朴素贝叶斯，不仅学习决策边界，还学习数据的联合分布。支持向量机(SVM)是一种强大的分类器，分为上下两部分详细讲解。它通过构造最大边距超平面来划分数据，能处理高维数据，并具有泛化能力。规则化和模型选择是防止过拟合的关键，通过正则化项限制模型复杂度，如L1和L2正则化。K-means聚类是一种无监督学习方法，用于发现数据的自然群组结构。混合高斯模型和EM(期望最大化)算法在处理混合分布数据时特别有用，EM算法用于参数估计，在不知道隐藏变量的情况下最大化似然性。在线学习是处理大规模数据流的有效方法，每次迭代只考虑一个样本，适合实时更新模型。主成分分析(PCA)用于降维，保留数据的主要变化；独立成分分析(ICA)旨在找到信号的原始独立源；线性判别分析(LDA)和因子分析分别用于特征选择和结构分析。增强学习探讨了如何让智能体通过与环境交互来学习最优策略，而典型关联分析则关注于发现变量之间的相互依赖关系。最后，偏最小二乘法回归是多元回归的一种变体，用于处理多重共线性问题。这份笔记是深入理解和应用机器学习技术的重要参考资料，对于希望系统学习机器学习理论和实践的学生和专业人士来说，具有很高的价值。





是 y=1 的样本中特征均值。

是样本特征方差均值。

如前面所述，在图上表示为：

直线两边的 y 值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。

3）高斯判别分析（GDA）与 logistic 回归的关系

将 GDA 用条件概率方式来表述的话，如下：

y 是 x 的函数，其中都是参数。

进一步推导出

这里的是的函数。

这个形式就是 logistic 回归的形式。

也就是说如果 p(x|y)符合多元高斯分布，那么 p(y|x)符合 logistic 回归模型。反之，

不成立。为什么反过来不成立呢？因为 GDA 有着更强的假设条件和约束。

如果认定训练数据满足多元高斯分布，那么 GDA 能够在训练集上是最好的模型。然

而，我们往往事先不知道训练数据满足什么样的分布，不能做很强的假设。Logistic

回归的条件假设要弱于 GDA，因此更多的时候采用 logistic 回归的方法。

例如，训练数据满足泊松分布，

说白了就是 z=j 出现的比例。

拉普拉斯平滑法将每个 k 值出现次数事先都加 1，通俗讲就是假设他们都出现过一次。

那么修改后的表达式为：

每个 z=j 的分子都加 1，分母加 k。可见。

这个有点像 NLP 里面的加一平滑法，当然还有 n 多平滑法了，这里不再详述。

回到邮件分类的问题，修改后的公式为：

5 文本分类的事件模型

回想一下我们刚刚使用的用于文本分类的朴素贝叶斯模型，这个模型称作多值伯努利事

件模型（multi-variate Bernoulli event model）。在这个模型中，我们首先随机选定了邮件的类

型（垃圾或者普通邮件，也就是 p(y)），然后一个人翻阅词典，从第一个词到最后一个词，

随机决定一个词是否要在邮件中出现，出现标示为 1，否则标示为 0。然后将出现的词组成

一封邮件。决定一个词是否出现依照概率 p(xi|y)。那么这封邮件的概率可以标示为

。

让我们换一个思路，这次我们不先从词典入手，而是选择从邮件入手。让 i 表示邮件中

的第 i 个词，xi 表示这个词在字典中的位置，那么 xi 取值范围为{1,2,…|V|}，|V|是字典中词

的数目。这样一封邮件可以表示成，n 可以变化，因为每封邮件的词的

个数不同。然后我们对于每个 xi 随机从|V|个值中取一个，这样就形成了一封邮件。这相当

于重复投掷|V|面的骰子，将观察值记录下来就形成了一封邮件。当然每个面的概率服从

p(xi|y)，而且每次试验条件独立。这样我们得到的邮件概率是。居然

跟上面的一样，那么不同点在哪呢？注意第一个的 n 是字典中的全部的词，下面这个 n 是邮

件中的词个数。上面 xi 表示一个词是否出现，只有 0 和 1 两个值，两者概率和为 1。下面的

0/1 值，下面的 x 的向量都是字典中的位置。

形式化表示为：

m 个训练样本表示为：

剩余136页未读，继续阅读

LexAlex

粉丝: 3
资源: 21

斯坦福CS229机器学习笔记：从线性回归到SVM

斯坦福大学机器学习课程个人笔记分享

斯坦福机器学习课程笔记完整指南

斯坦福大学2014机器学习课程个人笔记

斯坦福大学机器学习课程个人笔记完整版 (1).zip_斯坦福大学机器学习课程个人笔记完整版_机器_机器学习

斯坦福大学机器学习课程个人笔记完整版.zip

cs229d 斯坦福大学机器学习课程个人笔记完整版

"斯坦福大学2014机器学习课程个人笔记V5.51完整版

斯坦福大学机器学习课程笔记与精华解析

036GraphTheory(图论) matlab代码.rar

026SVM用于分类时的参数优化，粒子群优化算法，用于优化核函数的c,g两个参数(SVM PSO)Matlab代码.rar

最新资源