生成学习与高斯判别分析：朴素贝叶斯与拉普拉斯平滑

需积分: 9 160 浏览量更新于2024-09-07 收藏 219KB PDF 举报

"这篇公开课笔记主要涵盖了生成学习算法，其中包括高斯判别分析法和朴素贝叶斯，以及拉普拉斯平滑的概念。" 在机器学习领域，生成学习算法是一种重要的学习策略，它通过学习数据的联合概率分布来构建模型。这种算法的目标是理解数据的生成过程，从而能够生成新的、看似来自同一数据源的例子。生成模型如朴素贝叶斯和高斯判别分析，它们不仅用于分类任务，还能够提供对数据潜在结构的洞察。生成学习算法与判别学习算法的主要区别在于其工作方式。生成方法尝试估计输入X和输出Y之间的完整概率分布P(Y|X)和P(Y)，而判别方法则直接学习从输入到输出的映射函数或条件概率P(Y|X)。生成模型试图理解数据的生成过程，而判别模型仅关注分类边界。高斯判别分析（GDA）是一种生成模型，特别适用于特征是连续数值的情况。它假设每个类别内部的输入特征遵循一个多变量正态分布。在GDA中，我们学习每个类别的均值向量μ和协方差矩阵Σ。通过这些参数，我们可以计算给定特征向量x属于某个类别的概率，并基于这些概率进行分类。GDA假设所有类别的共享协方差矩阵，这在实际应用中可能过于简化，但在某些情况下可以提供良好的性能。朴素贝叶斯（Naive Bayes）是另一种生成模型，基于贝叶斯定理。它假设特征之间相互独立，即“朴素”假设。朴素贝叶斯模型通过计算每个特征在各个类别下的条件概率，并结合贝叶斯公式来预测新实例的类别。尽管这一假设在许多实际问题中可能过于理想化，但朴素贝叶斯在文本分类和其他领域表现出令人惊讶的高效性能。拉普拉斯平滑（Laplace Smoothing）是在概率估计中解决零频率问题的一种技术。在训练数据中，某些特征-类别组合可能从未出现过，导致条件概率为零。拉普拉斯平滑通过添加一个常数（通常是1）到计数上来避免这种情况，从而确保所有的概率都非零且更平滑。这种方法有助于提高模型的泛化能力，特别是在数据稀疏时。这些概念构成了机器学习基础的重要组成部分，特别是对于理解和实现监督学习算法来说。了解这些生成模型及其背后的原理，对于任何希望深入研究机器学习的人来说都是必不可少的。通过这些方法，我们可以构建出能够理解和预测复杂数据模式的智能系统。

这篇笔记对应的是公开课视频的第五个，讲到的内容有生成学习算法(generative

learning algorithm)、高斯判别分析法(Gaussian Discriminant Analysis)、朴素贝叶斯

(naive Bayes)和拉普拉斯平滑(Laplace Smoothing).

一：生成学习算法

监督学习的方法分为生成方法 (generative approach) 和判别方法

(discriminative)，所学到的模型分别称为生成模型(generative model)和判别

模型(discriminative model)。

生成方法和判别方法的区别：

1. 生成方法是由数据学习联合概率分布

),( YXP

,然后求出条件概率分布

)|( XYP

作为预测的模型。即先对条件概率

)|( YXP

和先验概率

)(YP

进行建模，

然后根据贝叶斯法则求出后验概率

)(

)()|(

)|(

YPYXP

XYP 

。

这种方法之所以称为生成方法就在于模型表示了给定输入 X 产生输出 Y 的生成关

系，典型的生成模型有朴素贝叶斯、高斯判别分析和隐马尔科夫模型。

2. 判别方法是由数据直接学习决策函数

)(Xf

或者条件概率分布

)|( XYP

作为

预测的模型，它关心的是对给定的输入 X 应该预测什么样的输出 Y，典型的判别

方法包括:k 近邻法、感知机、决策树、逻辑斯谛回归模型。最大熵模型、支持

向量机等。（上面提到的算法都会在下面的篇幅中说到，对于 Ng 的视频中没有

讲到但我看到过的的算法，我会另开新的篇幅介绍）

二：高斯判别分析（GDA）

我们要讲的第一个生成学习算法，高斯判别分析针对的是输入特征为连续值时的

分类问题，先简单介绍一下多变量正态分布，假定

)|( yxP

服从多元正态分布。

多变量正态分布是正态分布在多维变量下的扩展，它的参数是一个均值变量

(mean vector)

R



和协方差矩阵(covariance matrix)



,其中 n 为多维

变量的向量程度，



是对称正定矩阵。多变量正态分布的概率密度函数为：

))()(

exp(

)2(

),;(

2/1















xxxy

，其中



是行列式的值。

下载后可阅读完整内容，剩余5页未读，立即下载

月臻

粉丝: 422
资源: 1

生成学习与高斯判别分析：朴素贝叶斯与拉普拉斯平滑

斯坦福机器学习ML公开课笔记1-15（完整版、带目录索引和NG原版讲义）

斯坦福ML公开课笔记_中文版

北大tensorflow公开课笔记

斯坦福ML公开课笔记111

斯坦福ML公开课笔记121

机器学习NG公开课笔记

斯坦福ML公开课笔记71

斯坦福ML公开课笔记141

斯坦福ML公开课笔记81

斯坦福ML公开课笔记31

最新资源