一、主成分分析根本原理
概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保存原来较多的变量所反响的信息,这样问题就简单化了。
原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,
?x11?x21X???????xn1x12x22?xn2?x1p??x2p??????xnp??记原变量指标为x1,x2,…,xp,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,… ,zm(m≤p),那么
?z1?l11x1?l12x2???l1pxp??z2?l21x1?l22x2???l2pxp?............??zm?lm1x1?lm2x2???lmpxp?系数lij确实定原那么:
①zi与zj〔i≠j;i,j=1,2,…,m〕相互无关;
②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者; zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP , 的所有线性组合中方差最大者。
新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj〔j=1,2 ,…, p〕在诸主成分zi〔i=1,2,…,m〕上的荷载 lij〔 i=1,2,…,m; j=1,2 ,…,p〕。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤 1、计算相关系数矩阵
?r11?r21R???????rp1r12r22?rp2?r1p??r2p??????rpp??rij〔i,j=1,2,…,p〕为原变量xi与xj的相关系数, rij=rji,其计算公式为
rij??(xk?1nki?xi)(xkj?xj)2?(xk?1nki?xi)?(xk?1n2?x)kjj2、计算特征值与特征向量
I? R ?0 ,常用雅可比法〔Jacobi〕求出特征值,并使其按大解特征方程 ?
?1??2????p?0; 小顺序排列
ei的第j个分量。 eij表示向量 其中
3、计算主成分奉献率及累计奉献率
奉献率:
2ei(i?1,2,L,p),要求 =1?i的特征向量 ei分别求出对应于特征值 ,即? eij?1j?1p?i??k?1p(i?1,2,L,p)k????k?1k?1pik累计奉献率:
(i?1,2,L,p)k?1,?2,L,?m所对应的第1、第一般取累计奉献率达85%-95%的特征值,
2、…、第m〔m≤p〕个主成分。 4、计算主成分载荷
lij?p(zi,xj)??ieij(i,j?1,2,L,p)5、各主成分得分
?z11?zZ??21????zn1z12z22?zn2?z1m??z2m??????znm?三、主成分分析法在SPSS中的操作 1、指标数据选取、收集与录入〔表1〕
2、Analyze →Data Reduction →Factor Analysis,弹出Factor Analysis 对话框:
3、把指标数据选入Variables 框,Descriptives: Correlation Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框,单击OK。
注意:SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标