主成分分析法在全国各省市区规模以上工
业发展评价中的应用
WRY 2015000000
东北财经大学 管理科学与工程学院 管理科学与工程专业
【摘 要】本文以主成分分析法为分析工具,针对8个全国各省市区规模以上工业主要统计指标进行建模分析,提取出4个主成分,并计算得出全国各省市区规模以上工业的主成分、综合成分及其排名,经过分析最后得出4个结论。通过主成分分析,可以全方位的了解各个省市地区的工业发展状况。
【关键词】地区工业发展;工业统计指标;变量;SPSS;主成分分析法
1引言
衡量一个国家的经济发展状况,主要是看这个国家的工商业的发展水平。我国在新中国成立以前一直是以农业为主体来发展经济,工商业的发展还是在改革开放以后有了很大的发展。目前,我国主要是农业和工业占据主体地位,并且,工业在很大程度上辅助着农业的发展。因此,我国在每年的统计数据中,把全国各省市区的工业情况做以统计就显得尤为重要。但是,我国的工业涉及各行各业,每个行业的统计指标也不尽相同,要把全国各省市区的工业一起做以统计就要依据相同的统计指标来进行。依据我国的统计年鉴,我国各省市区规模以上工业主要统计指标(2010年)主要有8个,随着我国工业的不断发展和成熟,主要统计指标有可能还要增加或者有其他的变化。
目前,我国主要采用等份计分法等来做评价,而这些方法具有人为给定权数、指标数量多、评价工作量大等缺陷,因而有可能出现误判。近年来,随着多元统计方法和决策分析方法的普及和应用,主成分分析法也成为一种较新的评估方法。主成分分析法能够在最大限度地保留原有信息的基础上,对高维变量系统进行最佳的综合与简化,并且能够客观地确定各个指标的权数,避免了主观随意性。为此,本文根据主成分分析法,对全国及各省市区规模以上工业进行评价,以便客观而准确地衡量一个地区的工业发展情况。
2主成分分析法
2.1主成分分析法简介
主成分分析是一种数学变换方法。它把给定的一组变量X1,X2,…,Xk通过线性变化,转换成一组不相关的变量Y1,Y2,…,Yk。在这种变换中,保持变量的总方差不变,同时,使得Y1具有最大方差,成为第一主成分;Y2具有最大次方差,成为第二主成分。依次类推,原来有k个变量,就可以转换出k个主成分。在实际问题中,为了简化问题,往往只是提取出部分主要的能代表该问题
2
的部分主成分。
多目标决策中常常遇到的问题指标数量大,并且指标之间存在某种程度的相关关系,这不仅增加了决策的工作量,也直接影响到决策的有效性和可靠性。主成分分析法是一种实用的多元统计方法,这种方法的独到之处在于,能够消除指标样本之间的相关关系,在保持样本主要信息量的前提下,提取少量有代表性的主要指标。同时,在分析过程中得到主要指标的合理权重,用主成分作为决策分析的综合指标值。 2.2主成分分析法的步骤
设原始变量为X1,X2,…,Xn,主成分分析后得到的新变量为Y1,Y2,…,Ym,(m≦n),它们是X1,X2,…,Xn线性组合。新变量Y1,Y2,…,Ym构成的坐标系是原坐标系经平移和正交旋转后得到的,称Y1,Y2,…,Ym构成的空间为m维主超平面。在主超平面上,第一主成分Y1对应于数据变异 (贡献率e1)最大的方向,对于Y1,Y2,…,Ym,依次有e2?...?em。因此,Y1是携带原始数据信息最多的一维变量,而m维主超平面是保留原始数据信息量最大的m维子空间。主成分分析法的步骤如下:
(1)为排除数量级和量纲不同带来的影响,需对原始数据进行标准化处理:
*xij?(xij?xi)/?i (i=1,2,…,n;j=1,2,…,p)
式中:xij为第i个指标第j个分区的原始数据,xi和?i分别为第i个指标的
样本均值和标准差;
*(2)根据标准化数据表(xij)n?p,计算相关系数矩阵R?(rij)n?n,其中:
??1nrij??(xki?xi)(xkj?xj)/?i?j
nk?1(3)计算R的特征值和特征向量。根据特征方程R??I?0计算特征根?i并使其从大到小排列:?1??2?...??n,同时可得对应的特征向量:u1,u2...un,它们标准正交,u1,u2...un称为主轴;
(4)计算贡献率和累计贡献率,取?1,?2,...,?q,使:
(?1,?2,...,?q)/(?1,?2,...,?n)?85%
TTT(5)计算主成分,Y1?b1X,Y2?b2X,...,Yq?bqX,即为所求; (6)综合分析,得出结论。
3全国各省市区规模以上工业发展评价的主成分分析
3.1主要统计指标的确定
对全国各省市区规模以上的工业指标加以统计,可以反映出全国的工业发展水平以及一个地区的工业发展情况。因此,应该结合我国工业发展的现状来选择
3
主要统计指标。在《河南统计年鉴2011年》中,对于全国各省市区规模以上工业主要统计指标(2010年),选择了8个指标:X1为原油(万吨);X2为发电量(亿千瓦小时);X3为成品钢材(万吨);X4为水泥(万吨);X5为农用化肥(万吨);X6为增加指数(上年=100);X7为利润总额(亿元);X8为利税总额(亿元)。
前面已述及,多指标的综合评价一方面增加了评价工作量,另一方面势必淡化主要指标的作用。为此,需要从现有指标中精选出若干个有代表性的指标。但人为地精选指标难免带有主观随意性,可能丢失部分有价值的原始信息。因此必须对所考虑的众多指标,利用数理统计法,经过正交化处理,使其成为少数几个相互独立的综合指标,再根据这些指标来评价一个地区的工业发展情况,而主成分分析法为实现这一思路提供了有效的数学方法。本文以全国各省市区(31个省、直辖市、自治区,不包括港澳台等地区)规模以上工业总体情况的8个指标为例,来说明主成分分析法在全国各省市区规模以上工业发展状况评价中的应用。
3.2具体实施步骤
本文主要是根据原始数据,利用SPSS软件辅助分析提取主成分,部分复杂的计算利用EXCLE来实现,避免了手算的繁琐,简化了实施步骤。因此,针对全国各省市区规模以上工业主要统计指标的主成分分析这个问题,具体的实施步骤有部分与上述2.2节中所叙述的步骤不尽相同,但是大体的关键步骤流程基本不变,只是简化了个别步骤。
本问题的具体实施步骤如下所述:
(1)查找《河南统计年鉴2011》的相关数据,如表1所示,全国各省市区(31个省、直辖市、自治区,不包括港澳台等地区)规模以上工业主要统计指标表(2010年):
表1 全国各省市区规模以上工业主要统计指标表(2010年)
地区 X1 X2 北京 269 天津 3332.7 589 河北 599 1993 山西 2121 内蒙古 2484 辽宁 950 1292 吉林 702.3 594 黑龙江 4004.9 775 上海 8.3 876 江苏 186 3359 浙江 2496 安徽 1444
X3 X4 794 1049 4484 810 16757 12594 2862 3298 1341 5370 5662 4777 876 3975 566 3507 2476 671 9123 15648 2833 11275 2446 7874 4
X5 2 178 332 181 74 28 65 3 242 33 255 X6 115 123.7 116.5 123.2 119 117.8 119.9 115.2 118.4 116 116.2 123.6 X7 1028 1552 2141 958 1688 2371 843 1249 2300 5971 3175 1446 X8 1631 2421 3374 1818 2485 4042 1566 2237 3695 9316 5100 2401