-673-
第二十七章 偏最小二乘回归分析
在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用
一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),
除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成
分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。
偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很
多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归
建立的模型具有传统的经典回归分析等方法所没有的优点。
偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分
析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以
同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些
信息。
本章介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模
型进行比较。
§1 偏最小二乘回归分析
考虑
个因变量
p
yyy ,,,
21
L 与 m 个自变量
m
xxx ,,,
21
L 的建模问题。偏最小二
乘回归的基本作法是首先在自变量集中提出第一成分
1
t (
1
t 是
m
xx ,,
1
L 的线性组合,
且尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分
1
u ,
并要求
1
t
与
1
u
相关程度达到最大。然后建立因变量
p
yy ,,
1
L 与
1
t
的回归,如果回归方
程已达到满意的精度,则算法中止。否则继续第二对成分的提取,直到能达到满意的精
度为止。若最终对自变量集提取
个成分
r
ttt ,,,
21
L ,偏最小二乘回归将通过建立
p
yy ,,
1
L 与
r
ttt ,,,
21
L 的回归式,然后再表示为
p
yy ,,
1
L 与原自变量的回归方程式,
即偏最小二乘回归方程式。
为了方便起见,不妨假定
个因变量
p
yy ,,
1
L 与 m 个自变量
m
xx ,,
1
L 均为标准
化变量。因变量组和自变量组的
n 次标准化观测数据阵分别记为
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
npn
p
yy
yy
F
L
MM
L
1
111
0
,
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
nmn
m
xx
xx
E
L
MM
L
1
111
0
偏最小二乘回归分析建模的具体步骤如下:
(1)分别提取两变量组的第一对成分,并使之相关性达最大。
假设从两组变量分别提出第一对成分为
1
t 和
1
u ,
1
t 是自变量集
T
m
xxX ),,(
1
L= 的
线性组合:
Xwxwxwt
T
mm 111111
=++= L ,
1
u 是因变量集
T
p
yyY ),,(
1
L= 的线性组
合:
Yvyvyvu
T
pp 111111
=++= L 。为了回归分析的需要,要求:
①
1
t 和
1
u 各自尽可能多地提取所在变量组的变异信息;
②
1
t 和
1
u 的相关程度达到最大。
由两组变量集的标准化观测数据阵
0
E 和
0
F ,可以计算第一对成分的得分向量,记