国内生产总值(GDP)与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783(图9),容易算出R=0.885,这正是GDP在第一个主成分上的载荷。
Component Matrixa1国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值.885.607.912.466.486-.509-.620.823Component2.384-.598.161-.722.738.252.594.4273.121.271.212.368-.275.797.438.211 下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:计算公因子方差和方差贡献。首先求行平方和,例如,第一行的平方和为
h12=0.88492+0.38362+0.12092=0.9449
这是公因子方差。然后求列平方和,例如,第一列的平方和为 s12=0.88492+0.60672+?+0.82272=3.7551
这便是方差贡献(图10)。在Excel中有一个计算平方和的命令sumsq,可以方便地算出一组数据的平方和。显然,列平方和即方差贡献。事实上,有如下关系成立:
相关系数矩阵的特征根=方差贡献=主成分得分的方差
至于行平方和,显然与前面公因子方差(Communalities)表中的Extraction列对应的数据一样。如果我们将8个主成分全部提取,则主成分载荷的行平方和都等于1(图11),即有hi=1,sj=λj。到此可以明白:在Communalities中,Initial对应的是初始公因子方差,实际上是全部主成分的公因子方差;Extraction对应的是提取的主成分的公因子方差,我们提取了3个主成分,故计算公因子方差时只考虑3个主成分。
Extraction Method: Principal Component Analysis.a. 3 components extracted. 11
第一主成分=-2.27+0.00*国生产总值4.00000?R-Sqare=0.78301???第一主成分2.00000???????????????0.00000??????????-2.00000?0.001000.002000.003000.004000.005000.00国内生产总值
图9 国内生产总值(GDP)的与第一主成分的相关关系(标准化数据)
图10 主成分方差与方差贡献
Component Matrixa1.885.607.912.466.486-.509-.620.8232.384-.598.161-.722.738.252.594.4273.121.271.212.368-.275.797.438.2114-.203.409-.270-.164.212.072-.027.209Component56-6.87E-021.143E-02-7.61E-02.157-7.71E-028.271E-02.304-1.64E-02.3052.254E-022.716E-02-.1613.531E-02.247-9.38E-02-.13772.420E-025.525E-028.113E-02-7.62E-026.855E-02.107-9.23E-02-.15789.192E-021.317E-02-7.36E-023.949E-03-6.02E-032.435E-031.634E-03-2.30E-02国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值Extraction Method: Principal Component Analysis.a. 8 components extracted.
12
图11 全部主成分的公因子方差和方差贡献
提取主成分的原则上要求公因子方差的各个数值尽可能接近,亦即要求它们的方差极小,当公因子方差完全相等时,它们的方差为0,这就达到完美状态。实际应用中,只要公因子方差数值彼此接近(不相差太远)就行了。从上面给出的结果可以看出:提取3个主成分的时候,居民消费的公因子方差偏小,这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度,这一点从方差的统计学意义可以得到理解。
在图11中,将最后一行的特征根全部乘到一起,得0.0001133,这正是相关系数矩阵的行列式数值(在Excel中,求一组数据的乘积之和的命令是product)。
最后说明Component Score Coefficient Matrix(成分得分系数矩阵)和Component Score Covariance Matrix(成分得分协方差矩阵),前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从Component Score Covariance Matrix可以看出,标准化主成分得分之间的协方差即相关系数为0(j≠k)或1(j=k),这意味着主成分之间彼此正交即垂直。
初学者常将Component Score Coefficient Matrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在Component Matrix表中,将第一列数据分别除以λ1=3.755,第二列数值分别除以λ2=2.197,?,立即得到Component Score Coefficient;反过来,如果将Component Score Coefficient Matrix表中的各列数据分别乘以λ1=3.755,λ2=2.197,?,则可将其还原为主成分载荷即Component Matrix中的数据。
13
Component Score Coefficient Matrix1国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值.236.162.243.124.129-.135-.165.219Component2.175-.272.073-.329.336.115.271.1943.100.223.174.303-.227.656.360.174Extraction Method: Principal Component Analysis. Component Scores.Component Score Covariance MatrixComponent12311.000.000.0002.0001.000.0003.000.0001.000 Extraction Method: Principal Component Analysis. Component Scores. 实际上,主成分得分在原始数据所在的SPSS当前数据栏中给出,不过给出的都是标准化的主成分得分(图12a);将各个主成分乘以相应的√λ即特征根的二次方根可以将其还原为未经标准化的主成分得分。
14
a.标准化的主成分得分 b. 非标准化的主成分得分
图12 两种主成分得分
计算标准化主成分得分的协方差或相关系数,结果与Component Score Covariance Matrix表中的给出的结果一致(见图13)。
第一因子 第二因子 第三因子
第一因子
1
0.00000 0.00000
第二因子
1
第三因子
0.00000 1
图13 主成分(得分)之间的相关系数矩阵
15