数据降维利器：PCA原理、应用与局限

需积分: 45 91 浏览量更新于2024-09-08 收藏 1.05MB PDF 举报

理解主成分分析法主成分分析法（PCA）是统计学和机器学习领域中的一种重要技术，主要用于数据分析和预处理，特别适用于处理具有高度线性相关性的多变量数据。其核心思想是通过对原始数据进行正交变换，将其转换到一个新的坐标系，使得新坐标系下的维度之间相互独立，从而实现数据降维并保持信息的可解释性。在实际应用中，PCA的首要目标是消除数据集中的冗余信息，通过找出各维度之间的最大线性相关性，将数据投影到这些主要的方向上。这样做的好处在于： 1. **减少冗余**：当数据存在强线性相关性时，PCA可以帮助我们找到那些提供相似信息但并不独立的维度，通过剔除方差较小的维度，降低数据维度，简化模型。 2. **简化模型**：对于高维数据，PCA能有效降低计算复杂性，加快模型训练和预测速度，同时保持对数据主要特征的捕捉。 3. **提高可视化**：处理后的数据更容易理解和展示，使得样本之间的关系更为直观。 4. **噪声过滤**：通过保留方差较大的主成分，PCA有助于剔除噪声，提升数据质量。 **PCA的计算流程**： - **数据准备**：原始数据被视作一个m维的行向量矩阵，每个样本对应一行。 - **协方差矩阵计算**：首先计算原始数据的协方差矩阵，反映各维度间的关联程度。 - **特征值和特征向量**：求解协方差矩阵的特征值和特征向量，其中最大的特征值对应于第一个主成分，依次类推。 - **正交旋转**：将原始数据投影到这些特征向量上，即进行正交变换，生成新的坐标系。 - **选择主成分**：根据方差大小，选择前k个主成分进行保留，其余的作为噪声或无关维度舍弃。然而，PCA也有其局限性： - **非监督方法**：PCA是无监督学习，不能直接用于分类任务，因为它基于变量之间的统计特性，而忽视了潜在的类别信息。 - **信息丢失**：在降维过程中，可能会丢失部分非线性关系或局部结构，这在某些情况下可能影响模型的准确性。 - **对异常值敏感**：如果数据集中存在极端值或异常点，PCA可能会被这些点主导，影响结果。主成分分析法是一种强大的数据处理工具，适用于降维、数据可视化和预处理，但需要根据具体应用场景权衡其优点和局限性。在实际应用中，结合其他方法如聚类、回归或深度学习，可以更好地发挥PCA的作用。

数据经过 PCA 变换之后的各个维度被称为主成分，各个维度之间是线

性无关的。为了使变换后的数据各个维度提供的信息量从大到小排列，

变换后的数据的各个维度的方差也应该是从大到小排列的。数据经过

PCA 变换之后方差最大的那个维度被称为第一主成分。

我们先来考虑如何计算第一主成分。假设每一条原始数据是一个 m 维

行向量，数据集中有 n 条数据。这样原始数据就可以看作一个 n 行 m

列的矩阵。我们将其称为 X，用 x

(i)

代表数据集中的第 i 条数据(也

就是 X 的第 i 和行向量)。这里为了方便起见，我们认为原始数据的各

个维度的均值都是 0。当原始数据的一些维度的均值不为 0 时我们首

先让这一维上的数据分别减去这一维的均值，这样各个维度的均值就都

变成了 0。为了使 X 变化到另一个坐标系，我们需要让 X 乘以一个

m × m 的正交变换矩阵 W。W 视为由列向量<w

,...,w

>组成。

我们让X和W进行矩阵相乘之后就可以原始数据变换到新的坐标系中。

T = XW

为了使变换不改变数据的大小，我们让 W 中的每个列向量 w

的长度

都为 1，也就是 ∥w

∥ = 1。T 中的各个列向量为 < t

, t

, ..., t

>。

为了使第一主成分 (t

) 的方差最大，

上述最优化问题中 w

的长度被限制为 1，为了求解 w

，我们将其变

成如下的形式:

剩余12页未读，继续阅读

SIGAI_csdn

粉丝: 2352
资源: 45

数据降维利器：PCA原理、应用与局限

数学建模算法：主成分分析法深度剖析

主成分分析法解析：三个关键问题探析

MATLAB实现改进主成分分析法及其指标相对贡献值计算

zhuchengfen.zip_主成分分析法_主成分改进_指标主成分_改进的主成分分析法的MATLAB程序

主成分分析法_主成分分析_

主成分分析法与因子分析法

层次分析法与主成分分析法

因子分析法与主成分分析法ppt

主成分分析法例子

PCA主成分分析法

最新资源