没有合适的资源?快使用搜索试试~ 我知道了~
首页PCA(主成分分析)基本原理及其应用介绍
PCA(主成分分析)基本原理及其应用介绍
3星 · 超过75%的资源 需积分: 48 68 下载量 64 浏览量
更新于2023-03-03
1
收藏 567KB DOC 举报
主要是入门级别的介绍PCA每一步骤的原理,并解释每个步骤的原因,对于理解PCA的原理有很大帮助。
资源详情
资源推荐
主元分析(PCA)理论分析及应用
什么是 PCA?
PCA 是 Principal component analysis 的缩写,中文翻译为主元分析。它是一种对数据进
行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方
法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降
维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便
的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。
被誉为应用线形代数最价值的结果之一。
在以下的章节中,不仅有对 PCA 的比较直观的解释,同时也配有较为深入的分析。首
先将从一个简单的例子开始说明 PCA 应用的场合以及想法的由来,进行一个比较直观的解
释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示 PCA 与
SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析
PCA 理论模型的假设条件以及针对这些条件可能进行的改进。
一个简单的模型
在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、
电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、
混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的
问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但
是真正的影响因素以及它们之间的关系可能又是非常之简单的。
下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表
1 所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹
簧之上,从平衡位置沿
x
轴拉开一定的距离然后释放。
图表 1
对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在 x 轴
向上发生,只需要记录下
x
轴向上的运动序列并加以分析即可。但是,在真实世界中,对
于第一次实验的探索者来说(这也是实验科学中最常遇到的一种情况),是不可能进行这
样的假设的。那么,一般来说,必须记录下球的三维位置
0 0 0
( , , )x y z
。这一点可以通过在
不同角度放置三个摄像机实现(如图所示),假设以
200Hz
的频率拍摄画面,就可以得到
球在空间中的运动序列。但是,由于实验的限制,这三台摄像机的角度可能比较任意,并
不是正交的。事实上,在真实世界中也并没有所谓的
{ , , }x y z
轴,每个摄像机记录下的都
是一幅二维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的:
[( , ),( , ),( , )]
A A B B C C
x y x y x y
。经过实验,系统产生了几分钟内球的位置序列。怎样从这些
数据中得到球是沿着某个
x
轴运动的规律呢?怎样将实验数据中的冗余变量剔除,化归到
这个潜在的
x
轴上呢?
这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪音可能来
自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱,掩盖了变
量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。
上面提出的两个问题就是 PCA 方法的目标。PCA 主元分析方法是解决此类问题的一个
有力的武器。下文将结合以上的例子提出解决方案,逐步叙述 PCA 方法的思想和求解过程。
线形代数:基变换
从线形代数的角度来看,PCA 的目标就是使用另一组基去重新描述得到的数据空间。
而新的基要能尽量揭示原有的数据间的关系。在这个例子中,沿着某
x
轴上的运动是最重
要的。这个维度即最重要的“主元”。PCA 的目标就是找到这样的“主元”,最大程度的去除冗
余和噪音的干扰。
标准正交基
为了引入推导,需要将上文的数据进行明确的定义。在上面描述的实验过程中,在每
一个采样时间点上,每个摄像机记录了一组二维坐标
( , )
A A
x y
,综合三台摄像机数据,在
每一个时间点上得到的位置数据对应于一个六维列向量。
A
A
B
B
C
C
x
y
x
X
y
x
y
如果以
200Hz
的频率拍摄 10 分钟,将得到
10 60 200 120000
个这样的向量数据。
抽象一点来说,每一个采样点数据
X
都是在
m
维向量空间(此例中
6m
)内的一个
向量,这里的
m
是牵涉的变量个数。由线形代数我们知道,在
m
维向量空间中的每一个向
量都是一组正交基的线形组合。最普通的一组正交基是标准正交基,实验采样的结果通常
可以看作是在标准正交基下表示的。举例来说,上例中每个摄像机记录的数据坐标为
( , )
A A
x y
,这样的基便是
{(1, 0),(0,1)}
。那为什么不取
2 2 2 2
{( , ),( , )}
2 2 2 2
或是其
他任意的基呢?原因是,这样的标准正交基反映了数据的采集方式。假设采集数据点是
(2, 2)
,一般并不会记录
(2 2, 0)
(在
2 2 2 2
{( , ),( , )}
2 2 2 2
基下),因为一般的观
测者都是习惯于取摄像机的屏幕坐标,即向上和向右的方向作为观测的基准。也就是说,
标准正交基表现了数据观测的一般方式。
在线形代数中,这组基表示为行列向量线形无关的单位矩阵。
1
2
1 0 0
0 1 0
0 0 1
m
b
b
B I
b
基变换
从更严格的数学定义上来说,PCA 回答的问题是:如何寻找到另一组正交基,它们是
标准正交基的线性组合,而且能够最好的表示数据集?
这里提出了 PCA 方法的一个最关键的假设:线性。这是一个非常强的假设条件。它使
问题得到了很大程度的简化:1)数据被限制在一个向量空间中,能被一组基表示;2)隐
含的假设了数据之间的连续性关系。
这样一来数据就可以被表示为各种基的线性组合。令
X
表示原数据集。
X
是一个
m n
的矩阵,它的每一个列向量都表示一个时间采样点上的数据
X
,在上面的例子中,
6, 120000m n
。
Y
表示转换以后的新的数据集表示。
P
是他们之间的线性转换。
PX Y
(1)
有如下定义:
i
p
表示
P
的行向量。
i
x
表示
X
的列向量(或者
X
)。
i
y
表示
Y
的列向量。
公式(1)表示不同基之间的转换,在线性代数中,它有如下的含义:
P
是从
X
到
Y
的转换矩阵。
几何上来说,
P
对
X
进行旋转和拉伸得到
Y
。
P
的行向量,
1
{ , , }
m
p p
是一组新的基,而
Y
是原数据
X
在这组新的基表示下
得到的重新表示。
下面是对最后一个含义的显式说明:
1
1 n
m
p
PX x x
p
1 1 1
1
n
m m n
p x p x
Y
p x p x
注意到
Y
的列向量:
1 i
i
m i
p x
y
p x
可见
i
y
表示的是
i
x
与
P
中对应列的点积,也就是相当于是在对应向量上的投影。所以,
P
的行向量事实上就是一组新的基。它对原数据
X
进行重新表示。在一些文献中,将数据
X
成为“源”,而将变换后的
Y
称为“信号”。这是由于变换后的数据更能体现信号成分的原
因。
剩余11页未读,继续阅读
哈雷
- 粉丝: 1
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功