PCA主成分分析解析：降维与数据不失真的关键

4星 · 超过85%的资源需积分: 9 63 浏览量更新于2024-09-13 1 收藏 274KB PDF 举报

PCA（主成分分析）是一种广泛应用于数据分析和机器学习领域的降维技术。它的核心目标是将高维数据通过线性变换转换到低维空间，同时尽可能保留原始数据的主要特征，从而减少计算复杂度、提高可视化效果或者减少过拟合的风险。 PCA的起源可以追溯到20世纪初，它最初是为了解决数据的复杂性和冗余性问题。在高维数据中，往往存在大量噪声和冗余信息，这些信息不仅增加了处理的难度，也可能掩盖了真正有意义的模式。PCA通过寻找数据中的主要成分，即那些贡献最大方差的方向，来达到降维的效果。这些主要成分被称为“主成分”。在PCA中，"能量"通常指的是数据的方差，因为方差是衡量一个变量波动程度的标准，高方差意味着数据在这个方向上有较大的变化，因此含有更多的信息。PCA的目标是找到那些最大化方差的正交方向，这些方向构成了新的坐标轴，即主成分。协方差矩阵在PCA中扮演着关键角色。协方差矩阵用于量化各个特征之间的相关性，其对角线元素表示每个特征的方差，非对角线元素表示特征之间的协方差。通过计算协方差矩阵的特征值和特征向量，我们可以发现数据的主要变化方向。特征值对应于每个主成分的“能量”，而特征向量指示了这些主成分的方向。通常，我们会按照特征值大小排序，选择最大的几个特征值对应的特征向量作为新的坐标轴，从而实现降维。例如，如果一个数据集包含100个特征，但大部分信息仅由前10个特征决定，那么PCA会找到这10个最重要的特征，将其余90个被认为是噪声或冗余的特征剔除。这样，原本的100维数据就可以被有效地压缩到10维，而且保留了大部分的信息。在实际应用中，PCA不仅可以用于数据预处理，还可以用于数据可视化，因为两个或三个主成分往往就能展示出数据的主要结构。此外，PCA还被用于图像压缩、信号处理、基因表达数据分析等领域。总结来说，PCA是一种强大的降维工具，通过协方差矩阵揭示数据的主要结构，并消除噪声和冗余信息。通过理解和应用PCA，数据科学家能够更有效地处理和分析高维数据，挖掘出隐藏的模式和关系。

Articles of 马马斯特的斯特的PinkyWay

再再谈协谈协方差矩方差矩阵阵之主成分分析之主成分分析

2011-02-24 19:02:26 颖风

自从上次谈了协方差矩阵之后，感觉写这种科普性文章还不错，那我就再谈一把协方差矩阵吧。上次那

篇文章在理论层次介绍了下协方差矩阵，没准很多人觉得这东西用处不大，其实协方差矩阵在好多学科

里都有很重要的作用，比如多维的正态分布，再比如今天我们今天的主角——主成分分析(Principal

Component Analysis，简称PCA)。结合PCA相信能对协方差矩阵有个更深入的认识~

PCA的缘起

PCA大概是198x年提出来的吧，简单的说，它是一种通用的降维工具。在我们处理高维数据的时候，为

了能降低后续计算的复杂度，在“预处理”阶段通常要先对原始数据进行降维，而PCA就是干这个事的。

本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但这个投影可不是随便投投，要

遵循一个指导思想，那就是：找出最能够代表原始数据的投影方法。这里怎么理解这个思想呢？“最能代

表原始数据”希望降维后的数据不能失真，也就是说，被PCA降掉的那些维度只能是那些噪声或是冗余的

数据。这里的噪声和冗余我认为可以这样认识：

噪声：我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个

主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的

方差，为啥？别急，后文该解释的时候就有啦~)本来应该是很大的，但由于它与其他维度有那么一

些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处

理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清

楚”！

冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些

个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是

说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是

冗余的，有它没它一个样，所以PCA应该去掉这些维度。

这么一分析，那么PCA的最终目的就是“降噪”和消灭这些“冗余”的维度，以使降低维度的同时保存数据原

有的特征不失真。后面我们将结合例子继续讨论。

协方差矩阵——PCA实现的关键

前面我们说了，PCA的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可

能小，而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先，我们得需

要知道各维度间的相关性以及个维度上的方差啊！那有什么数据结构能同时表现不同维度间的相关性以

及各个维度上的方差呢？自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容，协方差矩阵度

量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的

方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来

看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为

零。达到这个目的的方式自然不用说，线代中奖的很明确——矩阵对角化。而对角化后得到的矩阵，其

对角线上是协方差矩阵的特征值，它还有两个身份：首先，它还是各个维度上的新方差；其次，它是各

个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的

原因。也许第二点可能存在疑问，但我们应该注意到这个事实，通过对角化后，剩余维度间的相关性已

经减到最弱，已经不会再受“噪声”的影响了，故此时拥有的能量应该比先前大了。看完了“降噪”，我们

的“去冗余”还没完呢。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。

所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉即可。PCA的本质其实就是对角化协方

差矩阵。

下面就让我们跟着上面的感觉来推推公式吧。假设我们有一个样本集X，里面有N个样本，每个样本的维

度为d。即：

将这些样本组织成样本矩阵的形式，即每行为一个样本，每一列为一个维度，得到样本矩阵S：

。我们先将样本进行中心化，即保证每个维度的均值为零，只需让矩阵的每一列除以对应的

均值即可。很多算法都会先将样本中心化，以保证所有维度上的偏移都是以零为基点的。然后，对样本

减去

下载后可阅读完整内容，剩余3页未读，立即下载

南窗晓枫

粉丝: 0
资源: 1

PCA主成分分析解析：降维与数据不失真的关键

使用Yelp评论进行情感分类python程序源代码TSNE和PCA探索单词表示LSTM模型LinearSVC,Bernoulli

声量工具类以及PCA工具类

glmpca-py:用python实现的广义主成分分析（GLM-PCA）

matlab的egde源代码-fastRPCA:用于健壮PCA和SPCP的所有变体的Matlab代码

混合皮肤病变分割工具：使用 PCA 和迭代 Canny Edge：这是我开发的先前皮肤病变分割算法的改进版本。-matlab开发

Svm在信用评论中的应用

情感分类：使用Yelp评论进行情感分类

基于双层堆叠分类模型的水军评论检测研究

Python实现爬取网络评论与自然语言处理——NLPCA

Word2Vec-Reviews:Word2Vec用于分析产品业务评论

最新资源