斯坦福CS229机器学习笔记：从线性回归到SVM

需积分: 50 82 浏览量更新于2024-07-20 收藏 11.4MB PDF 举报

"这是一份详细的斯坦福大学CS229机器学习课程的个人学习笔记，涵盖了从基础的线性回归到高级的增强学习等多个主题。笔记由一位研究生在学习过程中整理，主要依据Andrew Ng教授的讲义和视频，同时也包含了一些其他资料。笔记可能存在个人理解和错误，建议读者在遇到疑问时参考原始讲义和视频，或者寻求专业人士的帮助。笔记作者还分享了自己的研究方向和兴趣，如分布式计算和大数据处理，并欢迎交流和合作。" 正文: 1. 线性回归与Logistic回归 - 线性回归是一种预测模型，通过找到最佳拟合直线来描述输入特征与输出之间的关系。它适用于连续数值型的预测问题。 - Logistic回归则是线性回归的扩展，用于二分类问题，通过sigmoid函数将线性组合转换为概率输出。 2. 判别模型与生成模型 - 判别模型直接学习决策边界，如SVM，关注的是如何划分样本空间，不关心数据的生成过程。 - 生成模型如朴素贝叶斯，不仅学习决策边界，还学习数据的概率分布，可以用于生成新样本。 3. 支持向量机(SVM) - SVM是一种最大化边距的分类器，通过寻找最大间隔超平面进行分类。上下两部分分别介绍了SVM的基本概念和复杂情况下的处理，如核函数的应用。 4. 规则化与模型选择 - 规则化是为了防止过拟合，通过添加正则项来限制模型的复杂度，如L1和L2正则化。 - 模型选择涉及到交叉验证、网格搜索等方法，旨在选取最优的模型参数。 5. 聚类算法 - K-means是常见的无监督学习算法，通过迭代调整簇中心和样本分配来达到聚类目的。 - 混合高斯模型(GMM)利用概率模型进行聚类，EM算法用于求解GMM的参数。 6. 主成分分析(PCA) - PCA用于降维，通过找到数据方差最大的方向，保留主要信息，去除噪声。 7. 在线学习 - 在线学习是一种处理流式数据的算法，每次更新基于单个或小批量样本，适合大规模数据集。 8. 其他 - 独立成分分析(ICA)寻找信号的原始非高斯分量。 - 线性判别分析(LDA)和因子分析用于特征提取和降维，常用于分类问题。 9. 增强学习 - 增强学习是通过与环境交互，通过奖励机制学习最优策略。 10. 关联规则与典型关联分析 - 发现数据集中项集之间的频繁模式，如"购买了A的人往往也会购买B"。 11. 偏最小二乘法回归(PLSR) - PLSR用于处理多重共线性和高维数据的回归问题，同时考虑响应变量和自变量之间的相关性。这些笔记内容全面，覆盖了机器学习的基础理论和常用算法，对于初学者和进阶者都是宝贵的参考资料。然而，由于是个人笔记，可能存在一些错误，建议结合正式教材和专业资源进行深入学习。





是 y=1 的样本中特征均值。

是样本特征方差均值。

如前面所述，在图上表示为：

直线两边的 y 值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。

3）高斯判别分析（GDA）与 logistic 回归的关系

将 GDA 用条件概率方式来表述的话，如下：

y 是 x 的函数，其中都是参数。

进一步推导出

这里的是的函数。

这个形式就是 logistic 回归的形式。

也就是说如果 p(x|y)符合多元高斯分布，那么 p(y|x)符合 logistic 回归模型。反之，

不成立。为什么反过来不成立呢？因为 GDA 有着更强的假设条件和约束。

如果认定训练数据满足多元高斯分布，那么 GDA 能够在训练集上是最好的模型。然

而，我们往往事先不知道训练数据满足什么样的分布，不能做很强的假设。Logistic

回归的条件假设要弱于 GDA，因此更多的时候采用 logistic 回归的方法。

例如，训练数据满足泊松分布，

说白了就是 z=j 出现的比例。

拉普拉斯平滑法将每个 k 值出现次数事先都加 1，通俗讲就是假设他们都出现过一次。

那么修改后的表达式为：

每个 z=j 的分子都加 1，分母加 k。可见。

这个有点像 NLP 里面的加一平滑法，当然还有 n 多平滑法了，这里不再详述。

回到邮件分类的问题，修改后的公式为：

5 文本分类的事件模型

回想一下我们刚刚使用的用于文本分类的朴素贝叶斯模型，这个模型称作多值伯努利事

件模型（multi-variate Bernoulli event model）。在这个模型中，我们首先随机选定了邮件的类

型（垃圾或者普通邮件，也就是 p(y)），然后一个人翻阅词典，从第一个词到最后一个词，

随机决定一个词是否要在邮件中出现，出现标示为 1，否则标示为 0。然后将出现的词组成

一封邮件。决定一个词是否出现依照概率 p(xi|y)。那么这封邮件的概率可以标示为

。

让我们换一个思路，这次我们不先从词典入手，而是选择从邮件入手。让 i 表示邮件中

的第 i 个词，xi 表示这个词在字典中的位置，那么 xi 取值范围为{1,2,…|V|}，|V|是字典中词

的数目。这样一封邮件可以表示成，n 可以变化，因为每封邮件的词的

个数不同。然后我们对于每个 xi 随机从|V|个值中取一个，这样就形成了一封邮件。这相当

于重复投掷|V|面的骰子，将观察值记录下来就形成了一封邮件。当然每个面的概率服从

p(xi|y)，而且每次试验条件独立。这样我们得到的邮件概率是。居然

跟上面的一样，那么不同点在哪呢？注意第一个的 n 是字典中的全部的词，下面这个 n 是邮

件中的词个数。上面 xi 表示一个词是否出现，只有 0 和 1 两个值，两者概率和为 1。下面的

0/1 值，下面的 x 的向量都是字典中的位置。

形式化表示为：

m 个训练样本表示为：

剩余136页未读，继续阅读

MachineLP

粉丝: 6387
资源: 30

斯坦福CS229机器学习笔记：从线性回归到SVM

斯坦福大学机器学习课程个人笔记完整版 (1).zip_斯坦福大学机器学习课程个人笔记完整版_机器_机器学习

斯坦福大学机器学习课程个人笔记完整版.zip

cs229d 斯坦福大学机器学习课程个人笔记完整版

2024年机器人大作业代码

学生信息管理系统，idea-mysql小项目，记录一下

搜索关键字飞入飞出效果.zip

基于ssm的团员管理系统源代码（完整前后端+mysql+说明文档+LW）.zip

基于springboot图书管理系统源码+数据库+详细使用说明（高分毕设项目）

Python项目-自动办公-51 Excel_案例_把文件夹整理到Excel中.zip

汽车检测33-YOLO（v5至v9）数据集合集.rar

最新资源