PLSR：解决线性回归的降维与回归问题

需积分: 50 8 浏览量更新于2024-09-11 收藏 279KB PDF 举报

偏最小二乘法回归（Partial Least Squares Regression, PLSR）是一种统计方法，用于解决在高维数据集（特征数n远大于样例数m）中进行预测或关联分析的问题，尤其是在特征之间存在高度相关性的情况下。最小二乘法在传统上遇到的主要困难在于当样本数量不足以支持所有特征的线性关系时，导致模型求解矩阵（如X'X，其中X是特征矩阵）不可逆，从而无法找到唯一解。为解决这一问题，PLSR结合了主成分分析（Principal Component Analysis, PCA）的概念。首先，通过PCA对原始数据集进行降维，通过找到样本协方差矩阵的前r个最重要的主成分（即特征向量），将数据从原始n维空间映射到一个低维r维子空间。这个过程的结果是新的样本矩阵X'，其秩为r，确保了X'X矩阵是可逆的，从而使得最小二乘法得以应用。在PCA的表述中，矩阵P包含了X的协方差矩阵的特征向量，而矩阵T则是X在新坐标系中的投影，它是正交的。这意味着新空间中的变量是独立的，且线性无关，这有助于减少噪音和多重共线性的影响。通过这样的降维和变换，PLSR能够有效地提取样本和目标变量之间的潜在关系，即使在特征之间存在复杂的相关结构。总结来说，PLSR是通过PCA的降维和正交变换，结合最小二乘法的思想，提供了一种在高维、多相关特征数据中进行回归的有效工具。它在许多领域，如化学计量学、生物信息学和金融分析中广泛应用，尤其适合于数据压缩和模式识别。与传统的最小二乘法相比，PLSR具有更强的稳健性和解释性，能够发现并利用数据中的非线性关系。

偏最小二乘法回归（PartialLeastSquaresRegression）

JerryLead

csxulijie@gmail.com

2011 年 8 月 20 日星期六

1. 问题

这节我们请出最后的有关成分分析和回归的神器 PLSR。PLSR 感觉已经把成分分析和回

归发挥到极致了，下面主要介绍其思想而非完整的教程。让我们回顾一下最早的 Linear

Regr ession 的缺点：如果样例数 m 相比特征数 n 少（m<n）或者特征间线性相关时，由于





（n*n 矩阵）的秩小于特征个数（即



不可逆）。因此最小二乘法󰇛



󰇜







 就会失

效。

为了解决这个问题，我们会使用 PCA 对样本 X（m*n 矩阵）进行降维，不妨称降维后的

X 为 X’（m*r 矩阵，一般加了’就表示转置，这里临时改变下），那么 X’的秩为 r（列不相关）。

2.  PCARevisited

所谓磨刀不误砍柴工，这里先回顾下 PCA。

 令 X 表示样本，含有 m 个样例󰇝

󰇛



󰇜

,

󰇛



󰇜

,…,

󰇛



󰇜

󰇞，每个样例特征维度为 n，



󰇛



󰇜

󰇝



󰇛



󰇜

,



󰇛



󰇜

,…



󰇛



󰇜

󰇞。假设我们已经做了每个特征均值为 0 处理。

 如果 X 的秩小于 n，那么 X 的协方差矩阵









的秩小于 n，因此直接使用线性回归的

话不能使用最小二乘法来求解出唯一的θ，我们想使用 PCA 来使得



可逆，这样就可以用

最小二乘法来进行回归了，这样的回归称为主元回归（PCR）。



PCA 的一种表示形式：

 



 其中 X 是样本矩阵，P 是 X 的协方差矩阵的特征向量（当然是按照特征值排序后选取的

前 r 个特征向量），T 是 X 在由 P 形成的新的正交子空间上的投影（也是样本 X 降维后的新

矩阵）。

 在线性代数里面我们知道，实对称阵 A 一定存在正交阵 P，使得



为对角阵。因此

可以让



的特征向量矩阵 P 是正交的。

 r

m



n

m



r

n



T

下载后可阅读完整内容，剩余5页未读，立即下载

像艳遇一样悲伤

粉丝: 3
资源: 10

PLSR：解决线性回归的降维与回归问题

偏最小二乘回归方法 python代码

偏最小二乘回归分析(PLS)

偏最小二乘回归

matlab偏最小二乘法回归分析

matlab偏最小二乘法回归

偏最小二乘法回归 matlab

spss偏最小二乘法回归分析

matlab偏最小二乘法回归(pls)代码(直接套用)

matlab偏最小二乘法回归案例

偏最小二乘法和最小二乘法和偏最小二乘回归三者之间的区别

最新资源