代入数据计算得到样本相关矩阵为
?1.000-0.101-0.194-0.270-0.110-0.254?0.183-0.0740.1160.320??0.1011.000??0.1940.1831.0000.5020.5570.411?????0.270?0.0740.5021.0000.297-0.134??0.1100.1160.5570.2971.0000.167?0.411?0.1340.1671.000??0.2540.320?0.1560.0520.1660.2350.4480.155??0.156??0.052?0.166??0.235? 0.448??0.155?1.000??利用特征值计算公式?E???0代入数据可求得?的特征值?i与单位正交化特征向量
ei(i?1,2,3,?,7)分别为
??1??2.3122
e1?(?0.2421?0.20680.54630.38980.49010.32370.3212)T
?2??1.3833
e2?(0.2768??0.5273?0.00390.43560.1960?0.57090.3021)T
?3??1.2109
e3?(0.63030.2274?0.1333?0.39740.21360.15860.5518)T
??4??0.7286
e4?(0.2179?0.76450.05570.2853?0.0572?0.4980?0.1798)T
?5??0.6565
e5?(?0.58650.2048?0.59310.01410.0836?0.18030.4179)T
??6??0.5417
e6?(0.10770.03050.02630.4185?0.76280.28520.3854)T
??7??0.1668
e7?(?0.2539?0.01150.5729?0.4936?0.2892?0.42700.3123)T
利用第i个主成分的贡献率
?
及前k个主成分的累计贡献率
?i?p (8)
??s?1k?sp (9)
其中p?7。计算?的各标准化主成分的贡献率及累计贡献率(如表3所示)。
表3
?的各标准化主成分的贡献率及累计贡献率
i 1 2 3 4 5 6 7
?i? 2.3368 1.3860 1.2041 0.7271 0.6535 0.5367 0.1559 贡献率(%) 33.3824 19.7997 17.2012 10.3870 9.3356 7.6670 2.2271 累计贡献率(%) 33.3824 53.1821 70.3833 80.7703 90.1059 97.7729 100.00 可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率为70.3833%。 记主成分向量为 Y??(Y1,Y2,Y3,Y4,Y5,Y6,Y7) 由
Y?PX,P??(e1,e2,e3,e4,e5,e6,e7) 则X的前三个主成分分别为
???T???????????????Y1??0.2421X1?0.2068X2?0.5463X3?0.3898X4?0.4901X5?0.3237X6??0.3212X7Y2?0.2768X1?0.5273X2?0.0039X3?0.4356X4?0.1960X5?0.5709X6??0.3021X7????????????????????Y3?0.6303X1?0.2274X2?0.1333X3?0.3974X4?0.2136X5?0.1586X6??0.5518X7
由Yi与Xi的相关系数
?Y?,X??ii???
?i?eij? (10)
计算出前三个主成分与各原始变量的相关系数如表:
表4 前三个主成分与各原始变量的相关系数 主 成 关 系 分 原 变 数 量 相 Y1 -0.3681 0.3145 0.8307 0.5927 0.7452 0.4922 0.4884 ?Y2 0.3255 -0.6202 -0.0046 0.5123 0.2305 -0.6714 0.3553 ??Y3 X1 X2 ?X3 ??0.6936 0.2502 -0.1467 -0.4373 0.2350 0.1745 0.6072 X4 ?X5 ?X6 X7 ?由表4可看出,Y1与X3、X5相关度较高,Y1近似是7个变量的等权重之和,反映了空气质量的综合指标,Y1值越大,空气质量越差。Y2与X3相关度较低,由相关矩阵的主成分权重系数(即特征向量e2中的各个值)知,CO对空气污染指标y2的影响较小;Y3?????????与X1、X7相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量e3中的各个值)知,风速和HC对空气污染的影响较大。考虑前三个主成分的贡献率之和达到70.3833%,因此综合考虑来Y1,Y2和Y3来评判影响空气污染的重要指标。
?????5.3差异性
从协方差矩阵出发,对所有变量进行主成分分析,何从相关矩阵出发做主成分分析,两个方向得出的结果显示,原变量在第一主成分和第二主成分中的相对重要性,由于标准化而有很大变化。从协方差矩阵的角度进行主成分分析,所得第一主成分中,权重系数分别为-0.01、0.9922、0.941、-0.0047、0.0243、0.1124、0.0023,二重相对矩阵的角度进行主成分分析,所得的第一主成分分析,权重系数为-0.238、0.2056、0.5511、0.3776、0.4980、0.3246、0.3194。两者差距很大,并且在第二主成分中的两个系数相差更远。因此,由协方差矩阵和相关矩阵所得的主成分一般是不同的。
为了满足样本主成分累计贡献率达到80%以上,从相关矩阵出发做的主成分分析应保留4个主成分,而从协方差矩阵来看,只保留1个主成分即可。由此可知,用协方差矩阵进行主成分分析更能简化运算。本文中,由于设计的各变量的变化范围差异不大,因此应从先
关矩阵出发求主成分比较合理。
Y1近似是7个变量的等权重之和,反映了空气质量的综合指标,Y1值越大,空气质量
越差。综合考虑来Y1,Y2和Y3来评判影响空气污染的重要指标。
?????六、模型评价
模型优点:
(1) 用主成分分析方法能够较好地揭示污染物于污染程度之间的关系; (2) 该模型所用工具较易操作;
(3) 主成分分析法是从定量的角度出发,充分利用全部数据当中所包含的信息。所确定
的指标权数是基于数据分析而得到的指标间的内在结构关系,具有较好的客观性;能有效消除不相关指标的影响,从而可进行有针对性的定量化评价;得到的综合指标之间相互独立,不仅简化了评价系统,还减少了信息的交叉和冗余。
(4) 方法计算简便,数学物理意义明确,有较强的可操作性和一定的推广应用。 模型缺点:
(1) 尚未考虑到其他变量的影响,存在预测误差;
(2) 该模型未给出图像,难以反映各变量对空气污染程度的影响;
(3) 从主成分分析方法本身来看,还有许多方面是不能替代定性分析方法的,只能说它
在定性向定量转化过程中发挥了一定的效能。
模型推广:
利用主成分综合原始变量的信息,达到降低原始变量维数的目的,进而利用前几个主成分的得分的低维数据做进一步分析,有主成分分析法构造回归模型,把各成分作为新的自变量代替原始自变量x作回归分析。