好文档 - 专业文书写作范文服务资料分享网站

空气污染研究的主成分分析

天下 分享 时间: 加入收藏 我要投稿 点赞

空气污染研究的主成分分析

一、提出问题

本文对于给定的某城市42天中午12点的空气污染数据进行主成分分析,主要解决以下几个问题:

(1) 分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异; (2) 对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。

二、分析问题

主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。

针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。

针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。

三、模型假设

1、影响污染程度的变量只有本文中所提到的变量; 2、随机选取的42天;

3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;

4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响。

四、符号说明

符号 符号含义 样本方差 ?ii x 原始变量 样本主成分 样本协方差 样本相关矩阵 样本平均值 协方差矩阵 特征向量矩阵 矩阵的特征值 矩阵的特征向量 信息提取率 Y Cov(Xi,Xj) ? ?i ? P ? e ??

五、问题求解

5.1协方差矩阵主成分分析

设?是x?(x1,x2,x3,?,xp)的协方差矩阵,?的特征值与正交化特征向量分别为

T?1??2??3????p?0及e1,e2,e3,?,ep,且x的第i个主成分为

Yi?ei1x1?ei2x2?ei3x3??eipxp,(i?1,2,3,?,p) (1)

根据已有数据计算得样本x?(x1,x2,x3,?,xp)T的均值向量x?(x1,x2,x3,?,xp)T为

x?(7.573.8333根据协方差矩阵计算公式

4.47622.190510.04769.40483.0952)T

1n??(xi?x)(xi?x)T (2) ?n?1i?1代入数据可求得随机变量x?(x1,x2,x3,x4,x5,x6,x7)相应的样本协方差矩阵为

T?2.500-2.781-0.378-0.463-0.585-2.2320.171????2.781300.1563.909-1.3876.76330.7910.624????0.3783.9091.5220.6742.3152.8220.142???????0.463?1.3870.6741.1821.088?0.8110.177?

??0.5856.7632.3151.08811.3643.1271.044???2.822?0.8113.12730.9790.595???2.23230.791?0.1710.6240.1420.1771.0440.5950.479???利用特征值计算公式?E???0代入数据可求得?的特征值?i与对应单位正交化特征向量ei(i?1,2,?,7)分别为

?1?303.6941,

e1?(0.0099?0.9932?0.01500.0046?0.0246?0.1125?0.0024)T

?2?28.3132,

e2?(0.07660.1163?0.10590.0128?0.1501?0.9727?0.0237)T

?3?11.4674,

e3?(?0.0314?0.00700.18610.13200.9541?0.17110.0851)T

?4?2.5494,

e4?(0.8996?0.0005?0.1998?0.34670.11880.06700.1092)T

?5?1.4703,

e5?(0.38860.00160.71830.5364?0.2074?0.00950.0470)T

?6?0.5479,

e6?(0.03860.0036?0.50990.5912?0.02640.05570.6207)T

?7?0.2243,

e7?(?0.1766?0.00810.3716?0.4743?0.0931?0.06520.7699)T

利用第i个主成分的贡献率

?i及前k个主成分的累计贡献率

??k?1pk (3)

????ss?1t?1kpt (4)

代入数据计算得?的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.6968%,故只需提取前三个主成分即可:

表1 ?的各标准化主成分的贡献率及累计贡献率

i 1 2 3 4 5 6 7

?i 304.2579 28.2761 11.4645 2.5243 1.2795 0.5287 0.2096 贡献率(%) 87.2948 8.1127 3.2893 0.7242 0.3671 0.1517 0.0601 累计贡献率(%) 87.2948 95.4075 98.6968 99.4210 99.7881 99.9398 100.0000 记主成分向量为 Y?(Y1,Y2,Y3,Y4,Y5.Y6,Y7)

T由 Y?PX,P?(e1,e2,e3,e4,e5,e6,e7)

知x的前三个主成分分别为

Y1?0.0099x1?0.9932x2?0.0150x3?0.0046x4?0.0246x5?0.1125x6?0.0024x7Y2?0.0766x1?0.1163x2?0.1059x3?0.0218x4?0.1501x5?0.9727x6?0.0237x7Y3??0.0314x1?0.0070x2?0.1861x3?0.1320x4?0.9541x5?0.1711x6?0.0851x7

因此,用前三个主成分代替原来7个变量,信息损失量较小。

进一步由Yi与Xi的相关系数

?Y,x?ii?ieij ?jj(5)

计算出前三个主成分与各原始变量的相关系数如下表:

表2 前三个主成分与各原始变量的相关系数 相 原 关 主 系 变 数 成 分 量 Y1 0.1087 -0.9994 -0.1937 0.0740 -0.1274 -0.3521 -0.0613 Y2 0.2576 0.0357 -0.4181 0.0626 -0.2369 -0.9299 -0.1824 Y3 -0.0672 -0.0014 0.4675 0.4111 0.9585 -0.1041 0.4168 x1 x2 x3 x4 x5 x6 x7 由表可看出,Y1与x2相关度较高,而由相关矩阵的主成分权重系数(即特征向量e1中的各个值)知,太阳辐射对空气污染的影响最大;Y2与x6相关度较高,由相关矩阵的主成分权重系数(即特征向量e2中的各个值)知,O3对空气污染的影响较大;Y3与x5相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量e3中的各个值)知,NO2对空气污染的影响较大。考虑前三个主成分的贡献率依次降低,得出结论:影响空气污染的最重要因素为太阳辐射。由于x2的方差较大,第一主成分主要由变量x2控制,所以所得结论与实际不符。

5.2样本相关矩阵主成分分析

(x1,x2,?,x7)利用标准化公式对原数据X?进行标准化处理得到一组新的数据

**X*?(X1*,X2,?,X7):

即令

Xi??xi??i?ii,i?1,2,?,7

(6)

其中?i为xi的平均值,?ii为xi的方差。

此时,由于X??(X1,X2,X3,X4,X5,X6,X7)T的协方差矩阵即为

???????x?(x1,x2,x3,x4,x5,x6,x7)T的相关矩阵??(?ij)p?p其中

?ij?E(Xi,Yj)?Cov(Xi,Xj) 为Xi,Xj的协方差。

??Cov(Xi,Xj)?ii?jj (7)

空气污染研究的主成分分析

空气污染研究的主成分分析一、提出问题本文对于给定的某城市42天中午12点的空气污染数据进行主成分分析,主要解决以下几个问题:(1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;(2)对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。二、分析问题主
推荐度:
点击下载文档文档为doc格式
625mv0jxja7dd7d92wae4uc568cqcf01a2a
领取福利

微信扫码领取福利

微信扫码分享