一种基于贪心算法的快速一种基于贪心算法的快速PCA算法算法
提出一种快速算法,该算法利用贪心算法构造卷数据降维矩阵,在保持点与点之间“核距离”不变的情况下,把待
分解矩阵变换成一个低维矩阵。在没有偏差的情况下,将对原始大矩阵的分解变成对这个低维矩阵的分解,大
幅降低了时间复杂度,减少了对内存的使用率的同时增加了算法的稳定性。
摘摘 要:要: 提出一种快速算法,该算法利用
关键词:关键词:
自从1986年美国人提出PCA[1]的有关思想以后,PCA就成了一个强有力的工具。由于PCA具有最大化方差、最小化冗余、
最小化损失等优良特性,它可以广泛地应用在多源融合、数据降维、模式识别以及分析数据互相关性等方面。如最近发表的基
于小波和PCA的火炮输弹系统故障诊断研究[2]和基于L2,1范数的PCA维数约简算法[3],PCA在其中起了提取主元和维数约
简预处理的重要作用。虽然以后出现了大量的其他方法,如CMS[4]、RP[5]和一些非线性的算法,如Isomap[6]、LLE[7]、
LTSA[8]等算法,并广泛地应用在各个领域,如机器学习、图像检索、模式识别和人工智能等方面。但是PCA作为一种基本的
线性方法,其地位是其他方法所无法比拟的。
近年来,由于计算机技术高速发展,各种数据量以指数级的速度增加,各种大规模数据广泛地出现在各个计算机领域,如图
像处理中的图像的分辨度越来越高,数据库也越来越大。但是目前计算机硬件的发展仍然满足不了数据处理的要求。比如在人
脸识别中,图像的尺寸为128×128,而整个图片集又有3 000张,那么在图像分类中把图片当成一个列的大矩阵的尺寸将是16
384×3 000,这是非常大的矩阵,计算复杂度高,其中最费时部分就是在最后一步分解矩阵来求得特征向量和特征值。鉴于此
提出了一种基于贪心算法[7-8]的快速算法——贪心快速主成分分析,简称PCA-G。该算法在保持与PCA相同的处理效果的同
时,降低了时间复杂度,增加了算法稳定性减少了内存使用率,从而使计算时间大大缩短。
1 PCA算法简述算法简述
统计学上PCA的定义为:用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较
多指标的有用信息,且相互之间又是无关的。作为一种建立在统计最优原则基础上的分析方法,主成分分析具有较长的发展历
史。在1901年,Pearson首先将变换引入生物学领域,并重新对线性回归进行了分析,得出了变换的一种新形式。Hotelling于
1933年则将其与心理测验学领域联系起来,把离散变量转变为无关联系数。在概率论理论建立的同时,主成分分析又单独出
现,由Karhunen于1947年提出,随后Loeve于1963年将其归纳总结。因此,主成分分析也被称为K-L变换。
PCA运算就是一种确定一个坐标系统的直交变换,在这个新的坐标系统下,变换数据点的方差沿新的坐标轴得到了最大化。
这些坐标轴经常被称为是主成分。PCA运算是一个利用了数据集的统计性质的特征空间变换,这种变换在无损或很少损失数
据集信息的情况下降低了数据集的维数。