PCA-方差及协方差等介绍
### PCA-方差及协方差等介绍 #### 均值 均值是一个非常基础的概念,用于描述一组数据集中趋势的一种度量。对于给定的一组样本 \(\{x_1, x_2, \ldots, x_n\}\),其均值 \(\mu\) 可以通过以下公式计算得出: \[ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i \] 这里,\(n\) 表示样本的数量,\(\sum_{i=1}^{n} x_i\) 表示所有样本值的总和。均值反映了样本数据的中心位置,它是衡量数据集中趋势最常用的指标之一。 #### 方差 方差是衡量数据分布离散程度的一个重要指标,它描述了数据点相对于其均值的偏离程度。方差越大,表示数据点之间的差异越大;反之亦然。对于给定的一组样本 \(\{x_1, x_2, \ldots, x_n\}\),其方差 \(Var(X)\) 的计算公式如下: \[ Var(X) = \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \] 其中,\(\sigma^2\) 表示方差,\(\mu\) 是样本的均值,\(x_i\) 表示每个样本值。方差的平方根被称为标准差,是衡量数据离散程度的另一种常见方式。 #### 协方差 协方差用于描述两个随机变量之间的相关性。它衡量了两个变量的变化方向是否一致。如果两个变量的协方差为正,则表示这两个变量倾向于同方向变化;如果为负,则表示它们倾向于反方向变化。协方差的计算公式如下: \[ Cov(X,Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y) \] 这里,\(Cov(X,Y)\) 表示变量 \(X\) 和 \(Y\) 的协方差,\(\mu_x\) 和 \(\mu_y\) 分别表示 \(X\) 和 \(Y\) 的均值。 #### 协方差矩阵 在多变量的情况下,协方差矩阵是一个非常有用的工具,它可以同时表示多个变量之间的协方差关系。对于 \(p\) 个变量的数据集,其协方差矩阵是一个 \(p \times p\) 的对称矩阵,其中对角线元素是各变量的方差,非对角线元素是相应变量之间的协方差。协方差矩阵的计算公式如下: \[ \Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_p) \\ Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_p) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_p,X_1) & Cov(X_p,X_2) & \cdots & Var(X_p) \end{bmatrix} \] #### 特征值与特征向量 在主成分分析(PCA)中,特征值和特征向量起着核心作用。对于一个矩阵 \(A\),如果存在一个非零向量 \(\xi\) 和一个标量 \(\lambda\) 满足 \(A\xi = \lambda\xi\),则称 \(\xi\) 为 \(A\) 的特征向量,\(\lambda\) 为对应的特征值。特征向量的方向决定了数据的主要变化方向,而特征值的大小则反映了这一方向上的变化幅度。 - **特征向量**:在 PCA 中,我们寻找那些能够最大化数据方差的向量。这些向量就是数据集的协方差矩阵的特征向量。 - **特征值**:特征值表示在对应特征向量方向上的方差大小。大的特征值意味着数据沿该方向的变化较大。 ### 应用案例 考虑一个简单的二维数据集 \(\{(x_1,y_1), (x_2,y_2), \ldots, (x_n,y_n)\}\)。假设我们已经计算出了协方差矩阵 \(\Sigma\),现在我们要找到数据集的主成分。 1. **计算协方差矩阵**:首先根据数据集计算出协方差矩阵 \(\Sigma\)。 2. **求解特征值与特征向量**:计算 \(\Sigma\) 的特征值和对应的特征向量。 3. **选择主成分**:按照特征值的大小降序排列,选取前几个特征向量作为主成分。这一步骤实现了数据降维,同时最大限度地保留了原始数据的信息。 4. **转换数据**:将原始数据投影到新的特征空间中,完成数据降维。 通过以上步骤,PCA 能够有效地识别出数据中的主要变化方向,并利用这些方向来构建一个新的低维空间,从而实现数据的压缩和降维,同时尽量保持数据原有的信息。这种方法广泛应用于图像处理、生物信息学、金融分析等多个领域。