PCA（主成分分析）基本原理及其应用介绍_多元分析主成分分析

主成分分析

3星 · 超过75%的资源需积分: 48 64 浏览量更新于2023-03-03 1 收藏 567KB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

主元分析(PCA)理论分析及应用

什么是 PCA?

PCA 是 Principal component analysis 的缩写，中文翻译为主元分析。它是一种对数据进

行分析的技术，最重要的应用是对原有数据进行简化。正如它的名字：主元分析，这种方

法可以有效的找出数据中最“主要”的元素和结构，去除噪音和冗余，将原有的复杂数据降

维，揭示隐藏在复杂数据背后的简单结构。它的优点是简单，而且无参数限制，可以方便

的应用与各个场合。因此应用极其广泛，从神经科学到计算机图形学都有它的用武之地。

被誉为应用线形代数最价值的结果之一。

在以下的章节中，不仅有对 PCA 的比较直观的解释，同时也配有较为深入的分析。首

先将从一个简单的例子开始说明 PCA 应用的场合以及想法的由来，进行一个比较直观的解

释；然后加入数学的严格推导，引入线形代数，进行问题的求解。随后将揭示 PCA 与

SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析

PCA 理论模型的假设条件以及针对这些条件可能进行的改进。

一个简单的模型

在实验科学中我常遇到的情况是，使用大量的变量代表可能变化的因素，例如光谱、

电压、速度等等。但是由于实验环境和观测手段的限制，实验数据往往变得极其的复杂、

混乱和冗余的。如何对数据进行分析，取得隐藏在数据背后的变量关系，是一个很困难的

问题。在神经科学、气象学、海洋学等等学科实验中，假设的变量个数可能非常之多，但

是真正的影响因素以及它们之间的关系可能又是非常之简单的。

下面的模型取自一个物理学中的实验。它看上去比较简单，但足以说明问题。如图表

1 所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹

簧之上，从平衡位置沿

轴拉开一定的距离然后释放。

图表 1

对于一个具有先验知识的实验者来说，这个实验是非常容易的。球的运动只是在 x 轴

向上发生，只需要记录下

轴向上的运动序列并加以分析即可。但是，在真实世界中，对

于第一次实验的探索者来说（这也是实验科学中最常遇到的一种情况），是不可能进行这

样的假设的。那么，一般来说，必须记录下球的三维位置

0 0 0

( , , )x y z

。这一点可以通过在

不同角度放置三个摄像机实现（如图所示），假设以

200Hz

的频率拍摄画面，就可以得到

球在空间中的运动序列。但是，由于实验的限制，这三台摄像机的角度可能比较任意，并

不是正交的。事实上，在真实世界中也并没有所谓的

{ , , }x y z

轴，每个摄像机记录下的都

是一幅二维的图像，有其自己的空间坐标系，球的空间位置是由一组二维坐标记录的：

[( , ),( , ),( , )]

A A B B C C

x y x y x y

。经过实验，系统产生了几分钟内球的位置序列。怎样从这些

数据中得到球是沿着某个

轴运动的规律呢？怎样将实验数据中的冗余变量剔除，化归到

这个潜在的

轴上呢？

这是一个真实的实验场景，数据的噪音是必须面对的因素。在这个实验中噪音可能来

自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱，掩盖了变

量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。

上面提出的两个问题就是 PCA 方法的目标。PCA 主元分析方法是解决此类问题的一个

有力的武器。下文将结合以上的例子提出解决方案，逐步叙述 PCA 方法的思想和求解过程。

线形代数：基变换

从线形代数的角度来看，PCA 的目标就是使用另一组基去重新描述得到的数据空间。

而新的基要能尽量揭示原有的数据间的关系。在这个例子中，沿着某

轴上的运动是最重

要的。这个维度即最重要的“主元”。PCA 的目标就是找到这样的“主元”，最大程度的去除冗

余和噪音的干扰。

标准正交基

为了引入推导，需要将上文的数据进行明确的定义。在上面描述的实验过程中，在每

一个采样时间点上，每个摄像机记录了一组二维坐标

( , )

A A

x y

，综合三台摄像机数据，在

每一个时间点上得到的位置数据对应于一个六维列向量。

 

 



 

 



如果以

200Hz

的频率拍摄 10 分钟，将得到

10 60 200 120000  

个这样的向量数据。

抽象一点来说，每一个采样点数据



都是在

维向量空间（此例中

6m 

）内的一个

向量，这里的

是牵涉的变量个数。由线形代数我们知道，在

维向量空间中的每一个向

量都是一组正交基的线形组合。最普通的一组正交基是标准正交基，实验采样的结果通常

可以看作是在标准正交基下表示的。举例来说，上例中每个摄像机记录的数据坐标为

( , )

A A

x y

，这样的基便是

{(1, 0),(0,1)}

。那为什么不取

2 2 2 2

{( , ),( , )}

2 2 2 2

 

或是其

他任意的基呢？原因是，这样的标准正交基反映了数据的采集方式。假设采集数据点是

(2, 2)

，一般并不会记录

(2 2, 0)

（在

2 2 2 2

{( , ),( , )}

2 2 2 2

 

基下），因为一般的观

测者都是习惯于取摄像机的屏幕坐标，即向上和向右的方向作为观测的基准。也就是说，

标准正交基表现了数据观测的一般方式。

在线形代数中，这组基表示为行列向量线形无关的单位矩阵。

1 0 0

0 1 0

0 0 1

B I

 

 

  

 

 





   



基变换

从更严格的数学定义上来说，PCA 回答的问题是：如何寻找到另一组正交基，它们是

标准正交基的线性组合，而且能够最好的表示数据集？

这里提出了 PCA 方法的一个最关键的假设：线性。这是一个非常强的假设条件。它使

问题得到了很大程度的简化：1）数据被限制在一个向量空间中，能被一组基表示；2）隐

含的假设了数据之间的连续性关系。

这样一来数据就可以被表示为各种基的线性组合。令

表示原数据集。

是一个

m n

的矩阵，它的每一个列向量都表示一个时间采样点上的数据



，在上面的例子中，

6, 120000m n 

。

表示转换以后的新的数据集表示。

是他们之间的线性转换。

PX Y

(1)

有如下定义：



表示

的行向量。



表示

的列向量（或者



）。



表示

的列向量。

公式(1)表示不同基之间的转换，在线性代数中，它有如下的含义：



是从

到

的转换矩阵。

 几何上来说，

对

进行旋转和拉伸得到

。



的行向量，

{ , , }

p p

是一组新的基，而

是原数据

在这组新的基表示下

得到的重新表示。

下面是对最后一个含义的显式说明：

 

1 n

PX x x

 

 



 

 

 

1 1 1

m m n

p x p x

 

 

 



 

 

 



  



注意到

的列向量：

1 i

m i

p x



 

 



 



 



可见

表示的是

与

中对应列的点积，也就是相当于是在对应向量上的投影。所以，

的行向量事实上就是一组新的基。它对原数据

进行重新表示。在一些文献中，将数据

成为“源”，而将变换后的

称为“信号”。这是由于变换后的数据更能体现信号成分的原

因。

剩余11页未读，继续阅读

哈雷

粉丝: 1
资源: 4

会员权益专享

PCA（主成分分析）基本原理及其应用介绍

主成分分析法的原理应用及计算步骤

主成分分析法（PCA）原理介绍（课件）

PCA主成分分析原理及应用.doc

pca主成分分析结果解释

pca主成分分析故障诊断

arcgis：PCA主成分分析

pca主成分分析数据传入要求

R语言 pca主成分分析形态数据

PCA主成分分析遥感影像融合

pca主成分分析原理

pca主成分分析故障检测

pca主成分分析python

OTU table 的pca主成分分析

点云pca主成分分析

pca主成分分析数据集

c++ 实现 pcl 点云pca主成分分析 粗定位

PCA主成分分析原理

提取到特征点后，对其进行pca主成分分析

python代码 pca主成分分析

python实现pca主成分分析

会员权益专享

最新资源

c++ 实现 pcl 点云pca主成分分析粗定位