线性代数：SVD在PCA中的应用解析

需积分: 0 71 浏览量更新于2024-08-05 1 收藏 1.38MB PDF 举报

"本文是《线性代数入门》第五版7.3节的中文翻译，探讨了主成分分析（PCA）以及如何通过奇异值分解（SVD）来实现这一方法。内容涉及统计学和数据分析的应用，包括人类遗传、面部识别和金融领域的案例。文章解释了如何处理大型数据矩阵，并找出数据的主要结构。" 在统计学和数据分析中，主成分分析（PCA）是一种强大的工具，用于降低数据的维度并提取最重要的特征。SVD（奇异值分解）在PCA中的应用是其关键步骤。当我们面对一个n×m的数据矩阵A0，其中n是样本数量，m是每个样本的测量变量数，我们可以将数据可视化为Rm空间内的n个点。通过对每一行减去均值进行中心化处理，得到新的矩阵A，数据点往往集中在一条直线、平面或更低维度的子空间上。 PCA的目的是找到这些数据点的主要分布方向，即最大方差的方向。SVD能够分解矩阵A为UΣV^T，其中U和V是正交矩阵，Σ是对角矩阵，包含了奇异值σ1, σ2, ..., σmin(n, m)。奇异值σ1代表最大的方差，因此与数据中包含最多信息的方向对应。在PCA中，我们通常关注最大的奇异值，因为它指示了数据的主要成分。为了找到这条直线或平面，我们可以首先对数据进行中心化，然后应用SVD。数据的协方差矩阵S定义为AAT/n-1，其中A的每个元素a_{ij}表示从测量值到其行平均值µ_i的距离。协方差矩阵的对角元素表示各个变量的方差，非对角元素表示变量之间的协方差。方差衡量了数据的离散程度，而协方差则反映了不同变量之间的相关性。例如，如果两个变量的协方差小于零，那么当一个变量的值较高时，另一个变量的值可能较低，表示负相关。反之，如果协方差接近于零，说明两个变量独立；若协方差为正且较大，则表明它们之间存在正相关性。在PCA中，第一主成分对应于协方差矩阵S的最大特征值对应的向量，即奇异值σ1对应的方向。这个方向上的变化包含了最大的方差，因此提供了最多的信息。后续的主成分则按照方差的减小顺序依次确定，它们是与前面主成分正交的方向，共同构成了一组新的坐标系，使得数据在新坐标系下的投影尽可能地保留了原始信息。通过SVD进行PCA的一个优势是，它能有效地处理大型稀疏矩阵，且计算上相对高效。在实际应用中，如遗传学研究中基因表达数据的分析、人脸识别中的特征提取，以及金融市场中投资组合的风险评估，PCA都是不可或缺的工具，帮助研究人员理解和简化复杂的数据结构。

7.3 主成分分析（通过 SVD 的 PCA）

1 数据通常表现为一个矩阵：n 个样本及每个样本 m 个测量值。

2 通过减去各测量值的均值来中心化矩阵 A 的各行。

3 SVD 找出包含最多信息的数据组合。

4 最大奇异值 σ

↔ 最大方差 ↔ u

中信息最多。

本节阐述 SVD 在统计学与数据分析中的一个主要应用。我们的示例将来源于人类遗传、面部识别

及金融。问题在于理解一个大的数据矩阵（= 测量值）。对 n 个样本的每一个，我们测量 m 个变量。数

据矩阵 A

具有 n 列和 m 行。

通过图像，A

的列是 R

里的 n 个点。在我们减去各行的平均值后得到 A，其 n 个点通常沿着

一条直线或接近一个平面（或 R

的其它低维子空间）聚集。这条直线或平面或子空间是什么？

允许我从一个图片而不是数字开始。对于如年龄和身高的 m = 2 个变量，其 n 个点位于 R

平面。

减去平均年龄和平均身高来中心化数据。假设 n 个中心化后的点沿某条直线聚集，那线性代数如何找

出那条直线呢？

A 为 2 × n（大零空间）

为 2 × 2（小矩阵）

A 为 n × n（大矩阵）

两个奇异值 σ

> σ

> 0

图 7.2：A 中的数据点通常接近 R

中的一条直线或 R

中的一个子空间。

让我更仔细地构建这个数据矩阵。从 A

中的测量值开始：样本数据。求出每行的平均值（均值）

, µ

, . . . , µ

。各行 i 减去各均值 µ

以中心化数据。对于中心化了的矩阵 A，其每行均值现在为 0。

因此图 7.2 中的点 (0, 0) 目前为 n 个点的中心。

“协方差矩阵”定义为 S =

n − 1

。

A 表示从每个测量值到行平均值 µ

的距离 a

− µ

。

(AA

)

与 (AA

)

表示距离平方和（样本方差 s

, s

）。

(AA

)

表示样本协方差 s

= (A的行1) · (A的行2)。

方差是一个贯穿统计学的重要数。一次平均分为 µ = 85 的考试告诉你这是一场得体的考试。方差

= 25（标准差 s = 5）意味着大多数成绩是 80 多分：比较紧凑。样本方差 s

= 225（s = 15）意味

着成绩比较分散。第 12 章解释方差。

请勿商业交易！仅交流学习！邮箱：youth_eric@163.com 微信号：tengxunweixin_id

下载后可阅读完整内容，剩余8页未读，立即下载

Eric_Saltfish

粉丝: 157
资源: 30

线性代数：SVD在PCA中的应用解析

中文翻译Introduction to Linear Algebra, 5th Edition 6.1节

中文翻译Introduction to Linear Algebra, 5th Edition 10.1节

Introduction-to-Linear-Algebra 线性代数 第4版英文

introduction to linear algebra 5th edition中译版 gilbert strang

introduction to linear algebra 5th习题解答

introduction to linear algebra, 5th edition

introduction to linear algebra 5th pdf

introduction to linear algebra5th gilbert strang solutions

introduction to linear algebra, 5th edition--gilbert strang

ntroduction to linear algebra 5th edition中译版

最新资源

Introduction-to-Linear-Algebra 线性代数第4版英文