主成分分析法:提取变量间的最重要关系

需积分: 13 6 下载量 157 浏览量 更新于2024-08-21 收藏 493KB PPT 举报
主成分分析法是一种统计方法,用于处理多变量数据中的复杂关系,通过降维来减少数据集的维度,同时保留最重要的信息。表3.5.4中的"主成分载荷"展示了原变量(如x1到x9)如何转化为主成分(Z1到Z3)。在这个例子中,每个主成分是原始变量的线性组合,且设计了两个关键原则: 1. **独立性原则**:主成分Zi与其它主成分Zj(i≠j)应当是相互独立的,这确保了分解后的各主成分之间没有多重共线性。 2. **方差最大化原则**:每个主成分Zi是对应于原始变量的一组线性组合,其方差在所有可能的线性组合中是最大的。这意味着Z1是原始变量协方差矩阵中解释变异程度最大的方向。 计算主成分载荷的过程包括以下步骤: - **相关系数矩阵计算**:首先,根据原始变量之间的线性相关性,计算rij,即变量xi和xj的相关系数rij,它等于rij的对称矩阵R。 - **特征值与特征向量求解**:接着,构建特征方程来找出协方差矩阵R的特征值和特征向量。通过雅可比法(Jacobi method)求解特征值,并将其按照大小排序。特征向量满足方程\( R\mathbf{v} = \lambda\mathbf{v} \),其中λ是特征值,\(\mathbf{v}\) 是对应的特征向量,且要求向量的单位长度(\(\sum v_i^2 = 1\))。 - **主成分贡献率与累计贡献率**:特征值反映了每个主成分解释原始变量变异性的程度。主成分贡献率是单个主成分对总变异性的贡献,而累计贡献率则是前m个主成分的贡献率之和,用于评估降维后信息的保留程度。 表中的具体数值显示了每个主成分Zi所对应的原始变量的载荷lij,以及它们在方差中的占比。例如,Z1对x1的载荷为0.75,表明x1在Z1的方向上占有显著的比例,而Z2对x9的载荷为0.93,说明x9主要集中在Z2的特征方向上。通过这些载荷,我们可以理解各个变量如何被重构以形成新的、更简洁的数据表示,这对于数据挖掘、因子分析和机器学习中的降维非常有用。