PCA：降维利器，理解主成分分析

需积分: 13 16 浏览量更新于2024-09-12 2 收藏 247KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

PCA，即主成分分析，是一种广泛应用的降维技术，它起源于19世纪末或20世纪初，目的是在保留数据关键信息的前提下，减少数据的复杂性。PCA通过线性变换将高维数据映射到低维空间，使得投影后的数据能够尽可能保持原始数据的特性，同时去除噪声和冗余的信息。噪声在数据中指的是那些干扰主要特征的因素，它们可能因为与其他维度的关联而削弱了关键维度的能量。PCA试图减弱这些相关性，恢复主要维度的影响力，就像在音频处理中去除噪音以增强主要声音一样。这可以通过计算和分析数据的方差来实现，方差越大，代表该维度包含的信息量越大。冗余维度则是在数据中不起决定性作用的部分，它们的方差接近于零，对区分不同样本几乎没有贡献。PCA的目标之一就是识别并去除这些冗余维度，以提高数据处理的效率。协方差矩阵在PCA中扮演着核心角色。它描述了数据集中各个变量之间的相互关系，通过计算各个变量之间的协方差，我们可以了解到它们是正相关、负相关还是独立。在PCA中，协方差矩阵的特征值和特征向量是关键。特征值表示每个主成分（新坐标轴）的重要性，特征向量则指示了数据如何沿着这些主成分分布。最大特征值对应的特征向量代表了数据的最大变异方向，即第一主成分，它包含了数据集中的大部分信息。依次类推，第二主成分、第三主成分等则代表了次重要的变异方向。通过选取若干具有最大特征值的主成分，PCA可以构建一个新的坐标系统，使得原始数据在这个新的低维空间中仍然保持大部分的信息。举一个简单的例子，假设我们有一个二维数据集，其中两个变量高度相关。PCA会找到一个新的坐标轴（第一主成分），使得大部分数据点沿这个轴分布，而另一个与之垂直的轴（第二主成分）则包含较少的信息。通过仅保留第一主成分，我们就能有效地降低数据的维度，同时保持大部分数据的结构。 PCA不仅在数据分析和机器学习中广泛使用，还在图像处理、基因组学、金融等领域有重要应用。例如，在图像压缩中，PCA可以帮助识别并去除图像中的噪声，同时保留图像的主要结构。在基因表达数据中，PCA可以简化大量的基因表达数据，帮助研究者发现影响疾病的关键基因。总结来说，PCA是一种强大的工具，通过理解和应用协方差矩阵，可以有效地降维并提取数据的主要特征，这对于理解和处理高维数据至关重要。PCA的运用需要对统计学和线性代数有一定的理解，但只要掌握了其基本原理，就能在各种实际问题中灵活运用，提高数据处理的效率和准确性。

资源详情

资源推荐

Articles of 马马斯特的斯特的PinkyWay

再再谈协谈协方差矩方差矩阵阵之主成分分析之主成分分析

2011-02-24 19:02:26 颖风

自从上次谈了协方差矩阵之后，感觉写这种科普性文章还不错，那我就再谈一把协方差矩阵吧。上次那

篇文章在理论层次介绍了下协方差矩阵，没准很多人觉得这东西用处不大，其实协方差矩阵在好多学科

里都有很重要的作用，比如多维的正态分布，再比如今天我们今天的主角——主成分分析(Principal

Component Analysis，简称PCA)。结合PCA相信能对协方差矩阵有个更深入的认识~

PCA的缘起

PCA大概是198x年提出来的吧，简单的说，它是一种通用的降维工具。在我们处理高维数据的时候，为

了能降低后续计算的复杂度，在“预处理”阶段通常要先对原始数据进行降维，而PCA就是干这个事的。

本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去，但这个投影可不是随便投投，要

遵循一个指导思想，那就是：找出最能够代表原始数据的投影方法。这里怎么理解这个思想呢？“最能代

表原始数据”希望降维后的数据不能失真，也就是说，被PCA降掉的那些维度只能是那些噪声或是冗余的

数据。这里的噪声和冗余我认为可以这样认识：

噪声：我们常说“噪音污染”，意思就是“噪声”干扰我们想听到的真正声音。同样，假设样本中某个

主要的维度A，它能代表原始数据，是“我们真正想听到的东西”，它本身含有的“能量”(即该维度的

方差，为啥？别急，后文该解释的时候就有啦~)本来应该是很大的，但由于它与其他维度有那么一

些千丝万缕的相关性，受到这些个相关维度的干扰，它的能量被削弱了，我们就希望通过PCA处

理后，使维度A与其他维度的相关性尽可能减弱，进而恢复维度A应有的能量，让我们“听的更清

楚”！

冗余：冗余也就是多余的意思，就是有它没它都一样，放着就是占地方。同样，假如样本中有些

个维度，在所有的样本上变化不明显(极端情况：在所有的样本中该维度都等于同一个数)，也就是

说该维度上的方差接近于零，那么显然它对区分不同的样本丝毫起不到任何作用，这个维度即是

冗余的，有它没它一个样，所以PCA应该去掉这些维度。

这么一分析，那么PCA的最终目的就是“降噪”和消灭这些“冗余”的维度，以使降低维度的同时保存数据原

有的特征不失真。后面我们将结合例子继续讨论。

协方差矩阵——PCA实现的关键

前面我们说了，PCA的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可

能小，而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先，我们得需

要知道各维度间的相关性以及个维度上的方差啊！那有什么数据结构能同时表现不同维度间的相关性以

及各个维度上的方差呢？自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容，协方差矩阵度

量的是维度与维度之间的关系，而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的

方差(即能量)，其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了，先来

看“降噪”，让保留下的不同维度间的相关性尽可能小，也就是说让协方差矩阵中非对角线元素都基本为

零。达到这个目的的方式自然不用说，线代中奖的很明确——矩阵对角化。而对角化后得到的矩阵，其

对角线上是协方差矩阵的特征值，它还有两个身份：首先，它还是各个维度上的新方差；其次，它是各

个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的

原因。也许第二点可能存在疑问，但我们应该注意到这个事实，通过对角化后，剩余维度间的相关性已

经减到最弱，已经不会再受“噪声”的影响了，故此时拥有的能量应该比先前大了。看完了“降噪”，我们

的“去冗余”还没完呢。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。

所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉即可。PCA的本质其实就是对角化协方

差矩阵。

下面就让我们跟着上面的感觉来推推公式吧。假设我们有一个样本集X，里面有N个样本，每个样本的维

度为d。即：

将这些样本组织成样本矩阵的形式，即每行为一个样本，每一列为一个维度，得到样本矩阵S：

。我们先将样本进行中心化，即保证每个维度的均值为零，只需让矩阵的每一列除以对应的

均值即可。很多算法都会先将样本中心化，以保证所有维度上的偏移都是以零为基点的。然后，对样本

下载后可阅读完整内容，剩余3页未读，立即下载

ustc_hit

粉丝: 0
资源: 4

PCA：降维利器，理解主成分分析

pca-code.json_studentume_pca-code_pca-code.json_省市区json数据_pca.js

PCA-6006.zip

"PCA-DNN模型检测网络异常行为

基于PCA和K-means的糖尿病早期诊断与预测

降维算法PCA与t-SNE的应用与对比

词向量降维技术研究：PCA和t-SNE分析

降维技术与聚类算法：PCA、t-SNE与聚类结合的黄金法则

PCA-GA-BPNN

pca-sift matlab

PCA-LSTM-VAE

pca-6011vg网卡驱动

PCA-PCB工作组是什么

PCA-MLR model

pca-pls回归预测模型

pca-pls python代码

pca-ica算法代码

基于PCA、PCA-kernel、LDA的同心圆数据降维设计目的

基于EMD-PCA-LSTM的光伏功率预测模型

国内外有使用PCA-MLP算法来对混凝土强度进行预测的期刊吗？

matlab EMD-PCA-LSTM

最新资源