主成分分析PCA详解：降维工具与协方差矩阵应用

4星 · 超过85%的资源需积分: 50 34 浏览量更新于2024-09-15 1 收藏 265KB PDF 举报

"PCA（主特征分析）是一种用于降维的统计方法，旨在保留数据的主要特征，同时去除噪声和冗余信息。PCA通过线性变换将高维数据映射到低维空间，使得新维度是原始数据的线性组合，且最大化方差，从而保留最重要的信息。这种方法特别适用于数据可视化、机器学习模型简化以及处理高维数据中的相关性问题。PCA的核心在于协方差矩阵，它可以揭示不同特征之间的关系和数据的结构。 PCA的起源可以追溯到20世纪，作为一种通用的降维工具，它在很多领域都有应用。在处理高维数据时，PCA的主要目标是找到那些对数据变异贡献最大的方向，将数据投影到这些方向上，从而减少数据的复杂性。在这个过程中，PCA会消除那些与主要特征相关性较弱或者方差小的维度，这些维度被认为是噪声或冗余信息。噪声在PCA中指的是那些干扰主要特征的次要因素，它们可能由于与其他维度的相关性导致主要特征的能量被削弱。PCA的目标之一是减弱这些相关性，增强主要特征的表现力。而冗余维度则是指那些在数据集中几乎不变或变化微小的特征，它们对区分不同样本没有贡献，因此可以被移除。协方差矩阵在PCA中的作用至关重要，因为它可以量化各个特征之间的线性相关性。通过对协方差矩阵进行特征值分解，可以找到数据的主要成分，即那些具有最大方差的方向。这些主要成分构成新的坐标轴，数据在这些轴上的投影就是降维后的结果。最大的几个特征值对应的特征向量决定了最主要的成分，它们能够最大程度地保留原始数据的信息。在实际操作中，PCA首先计算数据的均值，然后构建协方差矩阵，接着对协方差矩阵进行特征值分解。较大的特征值对应的特征向量定义了新的主成分。通常，我们选择若干个最大的特征值对应的主成分，将数据投影到由这些主成分构成的空间中，从而实现降维。 PCA的一个显著优点是其计算效率高，适合大规模数据集。同时，PCA还可以帮助发现数据的潜在结构，通过可视化低维投影，可以直观地理解高维数据的分布。然而，PCA也有局限性，例如它假设数据是线性可分的，对于非线性结构的数据可能表现不佳。此外，PCA的结果依赖于数据的标准化，如果数据未经过适当的预处理，可能会导致结果失真。 PCA是数据科学中一个强大的工具，它通过分析协方差矩阵，有效地降低了数据的维度，保留了数据的主要特征，有助于简化模型，提高计算效率，并为数据的后续分析提供便利。实例代码的使用可以帮助更好地理解和应用PCA方法，实践中可以通过编程实现PCA算法，观察降维前后的数据变化，以验证PCA的效果。"

Articles of Angry Master

再谈协方差矩阵之主成分分析再谈协方差矩阵之主成分分析

2011-02-24 19:02:26 马斯特

自从上次谈了协方差矩阵之后，感觉写这种科普性文章还不错，那我就再谈一把协方差矩阵吧。上次那

篇文章在理论层次介绍了下协方差矩阵，没准很多人觉得这东西用处不大，其实协方差矩阵在好多学科

里都有很重要的作用，比如多维的正态分布，再比如今天我们今天的主角——主成分分析(Principal

Component Analysis，简称PCA)。结合PCA相信能对协方差矩阵有个更深入的认识~

PCA的缘起

PCA大概是198x年提出来的吧，简单的说，它是一种通用的降维工具。在我们处理高维数据的时候，为

了能降低后续计算的复杂度，在“预处理”阶段通常要先对原始数据进行降维，而PCA就是干这个事的。

本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但这个投影可不是随便投投，要

遵循一个指导思想，那就是：找出最能够代表原始数据的投影方法。这里怎么理解这个思想呢？“最能代

表原始数据”希望降维后的数据不能失真，也就是说，被PCA降掉的那些维度只能是那些噪声或是冗余的

数据。这里的噪声和冗余我认为可以这样认识：

噪声：我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个

主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的

方差，为啥？别急，后文该解释的时候就有啦~)本来应该是很大的，但由于它与其他维度有那么一

些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处

理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清

楚”！

冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些

个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是

说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是

冗余的，有它没它一个样，所以PCA应该去掉这些维度。

这么一分析，那么PCA的最终目的就是“降噪”和消灭这些“冗余”的维度，以使降低维度的同时保存数据原

有的特征不失真。后面我们将结合例子继续讨论。

协方差矩阵——PCA实现的关键

前面我们说了，PCA的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可

能小，而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先，我们得需

要知道各维度间的相关性以及个维度上的方差啊！那有什么数据结构能同时表现不同维度间的相关性以

及各个维度上的方差呢？自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容，协方差矩阵度

量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的

方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来

看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为

零。达到这个目的的方式自然不用说，线代中讲的很明确——矩阵对角化。而对角化后得到的矩阵，其

对角线上是协方差矩阵的特征值，它还有两个身份：首先，它还是各个维度上的新方差；其次，它是各

个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的

原因。也许第二点可能存在疑问，但我们应该注意到这个事实，通过对角化后，剩余维度间的相关性已

经减到最弱，已经不会再受“噪声”的影响了，故此时拥有的能量应该比先前大了。看完了“降噪”，我们

的“去冗余”还没完呢。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。

所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉即可。PCA的本质其实就是对角化协方

差矩阵。

下面就让我们跟着上面的感觉来推推公式吧。假设我们有一个样本集X，里面有N个样本，每个样本的维

度为d。即：

将这些样本组织成样本矩阵的形式，即每行为一个样本，每一列为一个维度，得到样本矩阵S：

。我们先将样本进行中心化，即保证每个维度的均值为零，只需让矩阵的每一列除以对应的

均值即可。很多算法都会先将样本中心化，以保证所有维度上的偏移都是以零为基点的。然后，对样本

下载后可阅读完整内容，剩余3页未读，立即下载

dragonfly

粉丝: 1
资源: 15

主成分分析PCA详解：降维工具与协方差矩阵应用

ENVI实验操作报告

主成分分析法（PCA）

PCA性能分析和散点图

主成份分析PCA源程序解析

主成分分析PCA解析：公式与实现

Python数据挖掘实战：主成分分析PCA解析

主成分分析PCA解析：从矩阵到综合指标

主成分分析PCA：特征值与特征矢量解析

MATLAB主成分分析PCA源码解析

MATLAB中的主成分分析PCA技术解析

最新资源