偏最小二乘回归是一种新型的多元统计数据分析方法,它与 1983年由伍德
和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的 发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:
(1) 偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2) 偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的 问题。在普通多元线形回归的应用中, 我们常受到许多限制。最典型的问题就是 自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性 就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问 题十分复杂,长期以来在理论和方法上都未给出满意的答案,
这一直困扰着从事
实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径, 它 利用对系统中的数据信息进行分解和筛选的方式,
提取对因变量的解释性最强的
综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建 模中的不良作用。
(3) 偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多 种数据分析方法的综合应用。
偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析
由于偏最小二乘回归在建模的同时实现了数据结构的简化, 因此,可以在二
维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能 十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变 量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,
以及观
察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统 的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实 际解释。
偏最小二乘回归的建模策略原理方法
1.1建模原理
设有q个因变量{ yi,…,yq}和p自变量{咅,…,Xp}。为了研究因变量和自变量 的统计关系,我们观测了 n个样本点,由此构成了自变量与因变量的数据表
X={ Xi,...,Xp}和.Y={ yi,...,yq}。偏最小二乘回归分别在X与丫中提取出成分t和 Ui (也就是说,ti是Xi,...,Xp的线形组合,Ui是yi,..., yq的线形组合).在提取这 两个成分
时,为了回归分析的需要,有下列两个要求:
(1) ti和Ui应尽可能大地携带他们各自数据表中的变异信息; (2) ti与Ui的相关程度能够达到最大。
这两个要求表明,ti和Ui应尽可能好的代表数据表 X和丫,同时自变量的成分 ti对因变量的成分Ui又有最强的解释能力。
在第一个成分ti和Ui被提取后,偏最小二乘回归分别实施
X对ti的回归
以及丫对Ui的回归。如果回归方程已经达到满意的精度,则算法终止;否则 , 将利用
X被ti解释后的残余信息以及 丫被ti解释后的残余信息进行第二轮的 成分提取。如此
往复,直到能达到一个较满意的精度为止。若最终对 了 m个成分ti ... tm
k
X共提取
yk对ti ... tm 的
偏最小二乘回归将通过实施
i
m
回归,然后再表达成y关于原变量X … X 的回归方程,k=i,2,…,q。
1.2计算方法推导
为了数学推导方便起见,首先将数据做标准化处理。X经标准化处理后的数 据矩阵记为Eo=( E,…,E°)n邓,Yj经标准化处理后的数据矩阵记为
oi
p
F0
=( 0i,…,0q ) n p 。
F
F
第一步 记ti是Eo的第一个成分,Wi是Eo的第一个轴,它是一个单位向量, 既
||wi || = i。
记Ui是Fo的第一个成分,Ui=FoCi。ci是Fo的第一个轴,并且|lCill=i。
如果要t1 U1能分别很好的代表X与丫中的数据变异信息,根据主成分分
析原理,应该有
Var(ujr max
Var(i) > max
t
另一方面,由于回归建模的需要,又要求1对U1有很大的解释能力,有典型相关 分析的思路,1与5的相关度应达到最大值,既
t
r (1 1) t max
t
u
因此,综合起来,在偏最小二乘回归中,我们要求 t1与5的协方差达到最大,既
Cov(1
t
uj=、;Var (tJVar (uJ r(1
tuJ t a mx
正规的数学表述应该是求解下列优化问题,既
max
W1C
』W1 W1 i
s.t
1cc
1
1=
1
因此,将在||W1『=1和||C1II2=1的约束条件下,去求(W E。F°C1)的最大 值。
如果采用拉格朗日算法,记
S=
WE C_ (W
1
0 Fo
1 1
1 W1 -
1)_ 2 对s分别求
(
CC-1)
i
i
关于W1
C1
■ 1
和? 2的偏导并令之为零,有
'
小
F
-S
■^ = E00
:s
7C
'
EW
C-2'
1 10
1W1
=°
(1 -2)
= Foo 1 - 2' 2 -s
'
C=
i i)o
(1-3)
T- - (
=
W
1 W1 -1)0
i
;S2
=-(
CC-=
=
(1-4) (i-5)