主成分分析：解决训练数据问题与特征降维

需积分: 0 16 浏览量更新于2024-07-01 收藏 1.72MB PDF 举报

主成分分析（PCA），是一种统计方法，用于数据降维和特征提取，尤其适用于处理高维数据中的冗余和噪声。在实际应用中，PCA解决了许多领域的问题，如： 1. 数据标准化：当数据集包含不同单位或尺度的特征时，如汽车最大速度的“千米/小时”和“英里/小时”，PCA可以帮助统一特征，消除这种不一致性。 2. 相关性合并：例如，学生成绩与兴趣和复习时间高度相关，通过PCA，可以识别出这些变量背后的共同维度，可能只需保留一个综合指标，从而减少特征数量。 3. 过度拟合防范：在样本量小而特征多的情况下，如预测房价时的众多属性，PCA通过降低维度，减少了模型复杂性，避免了因特征过多导致的过拟合问题。 4. 合并语义相关特征：在信息检索或文本挖掘中，如“learn”和“study”的等效性，PCA可以帮助合并这些具有相似意义的特征，提高模型的效率和准确性。 5. 噪声滤除：在信号处理中，面对受噪声干扰的信号，PCA作为降维工具，可以识别和去除那些与信号本质无关的冗余特征，提高信号的质量。 PCA的核心思想是利用线性变换将原始数据映射到一组新的正交基上，这些新基称为主成分，按其解释方差的大小排序。在计算过程中，PCA首先计算协方差矩阵，然后进行特征值分解，找出最大的几个特征值对应的特征向量，这些就是主要的主成分。通过投影原始数据到这些主成分上，可以得到低维表示，同时保留了大部分数据的信息。 PCA的理论基础涉及线性代数和概率统计，它结合了中心化、线性变换和方差最大化原则。与回归、因子分析等其他统计方法相比，PCA更注重于无监督学习，无需预先知道类别标签。PCA的应用广泛，包括但不限于图像处理、生物信息学、金融分析等领域，是数据预处理和模型简化的重要工具。通过理解并熟练运用PCA，可以显著提升数据分析和机器学习模型的性能。

个增，另一个也增；小于 0 表示一个增，一个减；协方差为 0 时，两者独立。协方差绝对值

越大，两者对彼此的影响越大，反之越小。



第三步，求协方差的特征值和特征向量，得到



上面是两个特征值，下面是对应的特征向量，特征值 0.0490833989 对应特征向量为

󰇛0.735178656,0.677873399󰇜



，这里的特征向量都归一化为单位向量。



第四步，将特征值按照从大到小的顺序排序，选择其中最大的 k 个，然后将其对应的 k

个特征向量分别作为列向量组成特征向量矩阵。

这里特征值只有两个，我们选择其中最大的那个，这里是 1.28402771，对应的特征向

量是󰇛0.677873399,0.735178656󰇜



。



第五步，将样本点投影到选取的特征向量上。假设样例数为 m，特征数为 n，减去均值

后的样本矩阵为 DataAdjust(m*n)，协方差矩阵是 n*n，选取的 k 个特征向量组成的矩阵为

EigenVectors(n*k)。那么投影后的数据 FinalData 为

FinalData󰇛m∗k󰇜DataAdjust󰇛m∗n󰇜EigenVectors󰇛n∗k󰇜



这里是

FinalData(10*1)=DataAdjust(10*2 矩阵)×特征向量󰇛0.677873399,0.735178656󰇜





得到结果是



这样，就将原始样例的 n 维特征变成了 k 维，这 k 维就是原始特征在 k 维上的投影。

上面的数据可以认为是 learn 和 study 特征融合为一个新的特征叫做 LS 特征，该特征基

本上代表了这两个特征。



剩余14页未读，继续阅读

顾露

粉丝: 19
资源: 313

主成分分析：解决训练数据问题与特征降维

主成分分析1

主成分分析介绍1

主成分分析

R主成分分析_R语言/主成分分析_主成分分析_

10主成分分析PCA.zip

主成分分析_python_主成分分析_

10-1(主成分分析)(1).ppt

SPSS统计分析第10章主成分分析和因子分析.ppt

主成分分析（Matlab)1

主成分分析（PCA）的最新进展：核主成分分析与流形学习，降维新前沿

最新资源