PCA与SVD在机器学习降维中的应用

需积分: 0 62 浏览量更新于2024-08-05 收藏 169KB PDF 举报

"这篇机器学习笔记主要探讨了PCA（主成分分析）和SVD（奇异值分解）这两种常用的降维算法。PCA通过计算样本方差来衡量特征信息量，并通过特征值分解寻找新特征，而SVD利用奇异值作为信息量指标。两者都是特征工程的一部分，但与特征选择技术有所不同。" 在机器学习中，降维是一种关键的技术，用于处理高维数据，减少计算复杂性和可能的过拟合风险。PCA（主成分分析）和SVD（奇异值分解）是两种广泛使用的降维方法。 PCA的主要目标是找到数据的主要方向，即最大方差的方向，这些方向被称为主成分。PCA首先计算原始特征的方差，方差越大，说明特征所含信息量越大。然后，PCA通过对数据进行正交变换，得到一组新的正交基，这组基是由原始特征线性组合而成的新特征，称为主成分。PCA的关键步骤包括计算数据的协方差矩阵，然后进行特征值分解，选取方差最大的几个特征值对应的特征向量作为主成分。 SVD（奇异值分解）则是另一种矩阵分解方法，它将数据矩阵X分解为UΣV^T的形式，其中U和V^T是左右奇异矩阵，Σ是对角矩阵，对角线上的元素是奇异值。奇异值同样可以反映特征的重要性，大的奇异值对应着重要的特征信息。在降维过程中，可以舍弃较小的奇异值对应的特征，从而达到降维的目的。 PCA和特征选择的区别在于，PCA是一种特征转换方法，它创建新的特征来表示原始数据，而特征选择则是在原始特征中直接选择最相关的部分。特征提取（如PCA）通常保留所有数据的结构，但可能会引入新的非直观特征。特征选择则直接剔除一部分特征，保留原有特征的含义，但可能丢失一些非线性的信息。特征创造是另外一种特征工程手段，它涉及到构造新的特征变量，例如通过组合、衍生或交互现有特征。这种方法可以引入新的信息，但需要谨慎处理，避免过度拟合。总结来说，PCA和SVD都是降低数据维度的有效方法，它们通过不同的方式衡量和提取数据中的重要信息。在实际应用中，根据问题的特性以及对计算效率、模型解释性的需求，可以选择适合的降维技术。同时，特征工程是一个广泛的领域，包括特征提取、特征创造和特征选择等多种策略，每种都有其独特的价值和应用场景。

机器学习笔记

cuihu

2020 年 9 月 10 日

摘要

菜菜 sklearn 笔记

1 PCA 与 SVD 降维算法

我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够即减少特征的数量，又

保留大部分有效信息——将那些带有重复信息的特征合并，并删除那些带无效信息的特征等等——逐渐创造出能够代

表原特征矩阵大部分信息的，特征更少的，新特征矩阵。

从方差的这种应用就可以推断出，如果一个特征的方差很大，则说明这个特征上带有大量的信息。因此，在降维中，使

用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量越多。

V ar =

n − 1

∑

i=1

− ˆx)

Var 代表一个特征的方差，n 代表样本量，xi 代表一个特征中的每个样本取值，xhat 代表这一列样本的均值。

1.1 实现

c l a s s s k l e a r n . d ecomposit i on .PCA (

n_components=None ,

copy=True ,

whiten=False ,

sv d _sol v e r =’auto ’ ,

t o l =0.0 ,

it era ted _ pow er=’auto ’ ,

random_state=None )

找出 n 个新特征向量，让数据能够被压缩到少数特征上并且总信息量不损失太多的技术就是矩阵分解。

PCA 使用方差作为信息量的衡量指标，并且特征值分解来找出空间 V。降维时，它会通过一系列数学的神秘操作（比

如说，产生协方差矩阵）将特征矩阵 X 分解为以下三个矩阵，其中和是辅助的矩阵，Σ 是一个对角矩阵（即除了对角

线上有值，其他位置都是 0 的矩阵），其对角线上的元素就是方差。降维完成之后，PCA 找到的每个新特征向量就叫

做“主成分”，而被丢弃的特征向量被认为信息量很少，这些信息很可能就是噪音。

X → QΣQ

−1

(1)

而 SVD 使用奇异值分解来找出空间 V，其中 Σ 也是一个对角矩阵，不过它对角线上的元素是奇异值，这也是 SVD 中

用来衡量特征上的信息量的指标。U和V^{T}分别是左奇异矩阵和右奇异矩阵，也都是辅助矩阵。

X → U ΣV

下载后可阅读完整内容，剩余4页未读，立即下载

天眼妹

粉丝: 27
资源: 332

PCA与SVD在机器学习降维中的应用

2022吴恩达机器学习笔记汇总(共10章节).zip

黑马python机器学习入门笔记

机器学习笔记完整版.pdf

机器学习学习笔记.pdf

吴恩达机器学习笔记 pdf

机器学习 学习笔记 allinone

吴恩达机器学习笔记pdf

吴恩达机器学习笔记2022

python机器学习导论笔记

李宏毅2020机器学习笔记attention

最新资源

机器学习学习笔记 allinone