斯坦福CS229机器学习笔记：从线性回归到SVM

需积分: 50 27 浏览量更新于2024-07-20 收藏 11.4MB PDF 举报

"这是一份关于斯坦福大学机器学习课程(CS229)的个人笔记，包含了从线性回归到增强学习等多个主题，由JerryLead在2011年整理。笔记主要基于Andrew Ng教授的讲义和视频，并涵盖了其他相关论文和讲义的内容。笔记可能存在错误，建议读者结合原始资源进行深入学习。作者的研究方向是分布式计算，专注于大数据处理技术。" 在机器学习领域，这份笔记首先介绍了回归方法，这是有监督学习的一个重要分支。回归用于从离散的统计数据中构建数学模型，以便进行预测或分类，尤其适合处理多维数据。线性回归是入门的基础，它通过拟合直线来预测连续变量。在实际应用中，可能会遇到误差问题，对此，笔记提到了线性回归的误差概率解释，这通常涉及到正态分布假设和最小二乘法。接着，笔记涵盖了logistic回归，这是一种广泛使用的二分类模型，其输出是概率值。logistic函数被用来将线性回归的连续输出转换为介于0和1之间的概率。在判别模型和生成模型之间，笔记简述了两者的区别。判别模型直接学习决策边界，而生成模型则学习数据的概率分布。朴素贝叶斯方法是一种典型的生成模型，它基于特征之间的独立性假设，常用于文本分类。支持向量机(SVM)是另一个重要的话题，分为上下两部分讲解。SVM通过构造最大边距超平面来实现分类，能处理高维数据，并具有泛化能力。笔记还涉及了模型选择和规则化，这是防止过拟合的关键策略。规则化通过添加惩罚项来限制模型复杂度。 K-means聚类算法是无监督学习中的一个基础方法，用于将数据分成不同的群组。混合高斯模型和EM(期望最大化)算法则是用于估计混合模型参数的迭代方法，常用于概率建模。在线学习是动态更新模型的策略，适用于数据流和实时预测。主成分分析(PCA)和独立成分分析(ICA)是两种降维技术，前者通过保留方差最大化来减少数据维度，后者旨在恢复隐藏的独立信号源。线性判别分析(LDA)和因子分析是特征提取和分类的工具，LDA基于类间距离最大化和类内距离最小化，因子分析则试图解释变量间的共变关系。最后，笔记提到了增强学习，这是一个涉及智能体与环境交互的学习框架，目标是通过试错学习最优策略。这份笔记提供了机器学习基础知识的全面概述，适合初学者和希望回顾核心概念的从业者。不过，由于是个人笔记，可能存在错误，因此建议读者结合其他权威资料进行深入研究。





是 y=1 的样本中特征均值。

是样本特征方差均值。

如前面所述，在图上表示为：

直线两边的 y 值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。

3）高斯判别分析（GDA）与 logistic 回归的关系

将 GDA 用条件概率方式来表述的话，如下：

y 是 x 的函数，其中都是参数。

进一步推导出

这里的是的函数。

这个形式就是 logistic 回归的形式。

也就是说如果 p(x|y)符合多元高斯分布，那么 p(y|x)符合 logistic 回归模型。反之，

不成立。为什么反过来不成立呢？因为 GDA 有着更强的假设条件和约束。

如果认定训练数据满足多元高斯分布，那么 GDA 能够在训练集上是最好的模型。然

而，我们往往事先不知道训练数据满足什么样的分布，不能做很强的假设。Logistic

回归的条件假设要弱于 GDA，因此更多的时候采用 logistic 回归的方法。

例如，训练数据满足泊松分布，

说白了就是 z=j 出现的比例。

拉普拉斯平滑法将每个 k 值出现次数事先都加 1，通俗讲就是假设他们都出现过一次。

那么修改后的表达式为：

每个 z=j 的分子都加 1，分母加 k。可见。

这个有点像 NLP 里面的加一平滑法，当然还有 n 多平滑法了，这里不再详述。

回到邮件分类的问题，修改后的公式为：

5 文本分类的事件模型

回想一下我们刚刚使用的用于文本分类的朴素贝叶斯模型，这个模型称作多值伯努利事

件模型（multi-variate Bernoulli event model）。在这个模型中，我们首先随机选定了邮件的类

型（垃圾或者普通邮件，也就是 p(y)），然后一个人翻阅词典，从第一个词到最后一个词，

随机决定一个词是否要在邮件中出现，出现标示为 1，否则标示为 0。然后将出现的词组成

一封邮件。决定一个词是否出现依照概率 p(xi|y)。那么这封邮件的概率可以标示为

。

让我们换一个思路，这次我们不先从词典入手，而是选择从邮件入手。让 i 表示邮件中

的第 i 个词，xi 表示这个词在字典中的位置，那么 xi 取值范围为{1,2,…|V|}，|V|是字典中词

的数目。这样一封邮件可以表示成，n 可以变化，因为每封邮件的词的

个数不同。然后我们对于每个 xi 随机从|V|个值中取一个，这样就形成了一封邮件。这相当

于重复投掷|V|面的骰子，将观察值记录下来就形成了一封邮件。当然每个面的概率服从

p(xi|y)，而且每次试验条件独立。这样我们得到的邮件概率是。居然

跟上面的一样，那么不同点在哪呢？注意第一个的 n 是字典中的全部的词，下面这个 n 是邮

件中的词个数。上面 xi 表示一个词是否出现，只有 0 和 1 两个值，两者概率和为 1。下面的

0/1 值，下面的 x 的向量都是字典中的位置。

形式化表示为：

m 个训练样本表示为：

剩余136页未读，继续阅读

selfDisciplineSun

粉丝: 76
资源: 18

斯坦福CS229机器学习笔记：从线性回归到SVM

斯坦福大学机器学习课程个人笔记完整版.zip

斯坦福大学机器学习课程个人学习笔记

斯坦福大学机器学习课程个人笔记完整版 (1).zip_斯坦福大学机器学习课程个人笔记完整版_机器_机器学习

cs229d 斯坦福大学机器学习课程个人笔记完整版

WorkerError(解决方案).md

2024-2025第一学期一上U1～3.pdf

Redis详解与常见问题解决方案中文最新版本

ASP+ACCESS航班在线定票系统设计(源代码+论文)（源代码+论文+说明文档）.zip

全国月尺度平均气温-Tm-1961-2022-025x025

yolo算法-筷子数据集-588张图像带标签-.zip

最新资源