线性判别分析LDA：从降维到类别分离

1星需积分: 9 33 浏览量更新于2024-09-11 收藏 327KB DOCX 举报

"本文主要介绍了线性判别分析（LDA），一种在机器学习和统计学中用于分类和降维的方法。LDA的目标是在保留类别信息的前提下，将高维特征空间映射到低维空间，通常用于特征选择和数据可视化。文章通过对比PCA和LDA，强调了LDA在处理有类别标签的数据时的优势，并通过具体例子阐述了LDA如何寻找最佳投影方向以最大化类别间的可分性。" 线性判别分析（LDA）是一种有监督的降维方法，与无监督的主成分分析（PCA）不同，LDA考虑了类别标签信息。在多类分类问题中，LDA旨在找到一个低维空间，使得类内样本的差异最小，而类间样本的差异最大，以此提高分类效果。在二类问题的情况下，LDA的目标是找到一个一维投影向量w，使得样本在w上的投影能够最好地区分两类样本。投影后的样本点到原点的距离可以用公式表示，即y值。理想情况下，这个一维投影应该使得两类样本点在低维空间中尽可能分离，即最大化类间距离J(w)同时最小化类内距离。 LDA首先计算两类样本的均值，投影后的样本均值等于原始样本均值在w上的投影。为了找到最佳的w，我们需要最大化类间散度（J(w)），这通常是通过寻找使得两类样本均值距离最大的w实现的。然而，仅仅考虑J(w)是不够的，因为可能会出现类内样本重叠的情况，导致分类效果不佳。因此，LDA还需要考虑类内协方差矩阵，以确保样本在新空间内的分布保持一定的紧凑性。在实际应用中，LDA不仅可以用于二类问题，也可以扩展到多类问题。对于多类问题，LDA会寻找一系列投影向量，形成一个低维子空间，使得类别之间的边界更为明显。此外，LDA还常用于高维图像识别，如人脸识别，以及文本分类等任务，因为它能够在保留重要信息的同时减少计算复杂性。 LDA是一种强大的工具，尤其适用于有类别标签的降维问题，通过找到最优的线性变换，它能有效地提升分类性能并降低数据的复杂性。在实际应用中，LDA通常与其他机器学习算法结合使用，如SVM或逻辑回归，以实现更高效的模型构建和预测。



 样本点均匀分布在椭圆里，投影到横轴 x1 上时能够获得更大的中心点间距 J(w)，但是由于

有重叠，x1 不能分离样本点。投影到纵轴 x2 上，虽然 J(w)较小，但是能够分离样本点。因此

我们还需要考虑样本点之间的方差，方差越大，样本点越难以分离。

 我们使用另外一个度量值，称作散列值（scatter），对投影后的类求散列值，如下



 从公式中可以看出，只是少除以样本数量的方差值，散列值的几何意义是样本点的密集程

度，值越大，越分散，反之，越集中。

 而我们想要的投影后的样本点的样子是：不同类别的样本点越分开越好，同类的越聚集越

好，也就是均值差越大越好，散列值越小越好。正好，我们可以使用 J(w)和 S 来度量，最终的

度量公式是



 接下来的事就比较明显了，我们只需寻找使 J(w)最大的 w 即可。

 先把散列值公式展开



 我们定义上式中中间那部分



 这个公式的样子不就是少除以样例数的协方差矩阵么，称为散列矩阵（scatter

matrices）

剩余13页未读，继续阅读

senlinuc

粉丝: 2
资源: 3

线性判别分析LDA：从降维到类别分离

零基础看懂LDA主题模型

史上最直白的lda教程

线性判别分析（LDA)分析及相关R语言code

贝叶斯线性判别分析LDA_lda_贝叶斯判别分析LDA_线性判别分析_slabsmml_

线性判别分析LDA.m

线性判别分析LDA算法代码

线性判别分析LDA（（公式推导+举例应用））

贝叶斯线性判别分析LDA在降维与分类中的应用

线性判别分析lda score

线性判别分析LDA的具体做法

最新资源