PCA主成分分析原理与MATLAB实现

1星需积分: 47 68 浏览量更新于2024-09-10 2 收藏 300KB PDF 举报

"主成分分析法MATLAB实现" 主成分分析(PCA)是一种广泛应用的数据分析技术，主要用于高维数据的降维。PCA的核心思想是通过线性变换将高维数据映射到低维空间，同时尽可能保留数据的主要信息。这种方法在处理大量特征时尤其有用，因为它可以减少计算复杂度并提高模型的可解释性。 PCA的起源可以追溯到20世纪初，它最初是为了简化数据表示和分析而提出的。PCA的主要目标是找到一组新的坐标轴（主成分），使得数据在这些新坐标轴上的投影最大化方差，从而保留最重要的信息。这些新坐标轴是由原始数据的协方差矩阵决定的。协方差矩阵是PCA的关键工具，它描述了数据各维度之间的相互关系。矩阵中的每个元素表示两个维度的协方差，反映了它们一起变化的程度。在PCA中，我们寻找协方差矩阵的特征向量，这些向量对应于数据最大方差的方向，也就是主成分。当计算出协方差矩阵的特征值和特征向量后，我们可以按特征值大小排序，选择前k个具有最大特征值的特征向量，形成新的坐标系。然后，原始数据可以投影到由这k个特征向量定义的新空间中，这就完成了降维。投影过程中，那些与主成分关联性较弱、方差较小的维度会被弱化或消除，从而达到去噪和去除冗余维度的效果。在MATLAB中实现PCA，可以使用内置的`princomp`函数。这个函数会自动计算协方差矩阵，找出特征值和特征向量，并完成数据的降维。用户只需要提供原始数据矩阵，MATLAB会处理其余的计算。例如： ```matlab % 假设X是n行m列的原始数据矩阵，n为样本数量，m为特征数量 data = X'; [coeff, score, latent, ~] = princomp(data); ``` `coeff`包含了主成分的系数（即特征向量），`score`是数据在新坐标系下的投影（降维后的数据），`latent`则是对应的特征值。通过这些结果，我们可以分析数据的主要成分，以及每个主成分对总方差的贡献。 PCA在许多领域都有应用，如机器学习中的特征选择、图像压缩、生物信息学中的基因表达数据分析等。然而，需要注意的是，PCA是一种线性方法，可能无法捕捉非线性的数据结构。对于非线性问题，可以考虑使用其他降维方法，如主成分分析的变种如kernel PCA（核主成分分析）或其他非线性降维技术。总结来说，主成分分析是一种有效的数据降维方法，通过MATLAB的`princomp`函数可以轻松实现。它利用协方差矩阵找到数据的主要方向，降低维度的同时保持数据的主要特性，是处理高维数据的重要工具。

Articles of 马马斯特的斯特的PinkyWay

再再谈协谈协方差矩方差矩阵阵之主成分分析之主成分分析

2011-02-24 19:02:26 颖风

自从上次谈了协方差矩阵之后，感觉写这种科普性文章还不错，那我就再谈一把协方差矩阵吧。上次那

篇文章在理论层次介绍了下协方差矩阵，没准很多人觉得这东西用处不大，其实协方差矩阵在好多学科

里都有很重要的作用，比如多维的正态分布，再比如今天我们今天的主角——主成分分析(Principal

Component Analysis，简称PCA)。结合PCA相信能对协方差矩阵有个更深入的认识~

PCA的缘起

PCA大概是198x年提出来的吧，简单的说，它是一种通用的降维工具。在我们处理高维数据的时候，为

了能降低后续计算的复杂度，在“预处理”阶段通常要先对原始数据进行降维，而PCA就是干这个事的。

本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但这个投影可不是随便投投，要

遵循一个指导思想，那就是：找出最能够代表原始数据的投影方法。这里怎么理解这个思想呢？“最能代

表原始数据”希望降维后的数据不能失真，也就是说，被PCA降掉的那些维度只能是那些噪声或是冗余的

数据。这里的噪声和冗余我认为可以这样认识：

噪声：我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个

主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的

方差，为啥？别急，后文该解释的时候就有啦~)本来应该是很大的，但由于它与其他维度有那么一

些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处

理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清

楚”！

冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些

个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是

说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是

冗余的，有它没它一个样，所以PCA应该去掉这些维度。

这么一分析，那么PCA的最终目的就是“降噪”和消灭这些“冗余”的维度，以使降低维度的同时保存数据原

有的特征不失真。后面我们将结合例子继续讨论。

协方差矩阵——PCA实现的关键

前面我们说了，PCA的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可

能小，而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先，我们得需

要知道各维度间的相关性以及个维度上的方差啊！那有什么数据结构能同时表现不同维度间的相关性以

及各个维度上的方差呢？自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容，协方差矩阵度

量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的

方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来

看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为

零。达到这个目的的方式自然不用说，线代中奖的很明确——矩阵对角化。而对角化后得到的矩阵，其

对角线上是协方差矩阵的特征值，它还有两个身份：首先，它还是各个维度上的新方差；其次，它是各

个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的

原因。也许第二点可能存在疑问，但我们应该注意到这个事实，通过对角化后，剩余维度间的相关性已

经减到最弱，已经不会再受“噪声”的影响了，故此时拥有的能量应该比先前大了。看完了“降噪”，我们

的“去冗余”还没完呢。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。

所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉即可。PCA的本质其实就是对角化协方

差矩阵。

下面就让我们跟着上面的感觉来推推公式吧。假设我们有一个样本集X，里面有N个样本，每个样本的维

度为d。即：

将这些样本组织成样本矩阵的形式，即每行为一个样本，每一列为一个维度，得到样本矩阵S：

。我们先将样本进行中心化，即保证每个维度的均值为零，只需让矩阵的每一列除以对应的

均值即可。很多算法都会先将样本中心化，以保证所有维度上的偏移都是以零为基点的。然后，对样本

下载后可阅读完整内容，剩余3页未读，立即下载

航空件

粉丝: 0
资源: 1

PCA主成分分析原理与MATLAB实现

主成分分析的原理和Matlab源程序

自编matlab核主成分分析程序

主成分分析的matlab程序

主成分分析法matlab实现程序

主成分分析法MATLAB实现.doc

(完整word版)主成分分析法matlab实现-实例演示.doc

(完整word版)主成分分析法matlab实现,实例演示.docx

主成分分析法MATLAB的实现.doc

主成分分析法matlab

主成分分析法matlab代码

最新资源