全国30省市自治区经济发展水平综合评价
——基于因子分析和聚类分析
王 喆
[摘要]衡量一个地区的经济发展程度,要从其生产、消费等各个方面进行综合评价。本文基于全国30省市自治区的GDP、CPI等8个经济指标的数据,应用因子分析的方法对其经济发展水平进行了排名和聚类分析的方法将其分为一线、二线、三线地区。根据排名及分类结果,本文对各类地区的经济发展状况进行了全面评价,并提出了相关建议。
[关键词]因子分析;聚类分析;经济发展;综合评价
一、数据背景
1.变量选取
本文选取了国民生产总值、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品价格指数、工业总产值等8个指标进行量化评价我国30个省、市、自治区(不包括重庆、香港、澳门、台湾)的经济发展水平状况。
2.符号说明 序号 1 2 3 4 5 6 7 8 9 10 11 12
符号 X1 X2 X3 X4 X5 X6 X7 X8 F1 F2 F3 Z 符号说明 国民生产总值 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品价格指数 工业总产值 经济总量因子 生活水平因子 物价水平因子 综合得分 二、数据描述
1.描述统计
本文计算了各变量的极大值、极小值、均值、标准差等指标(表1),计算结果表明,
各变量均不存在缺失值,数据的完整性较好。各地区的的居民消费价格指数、商品价格指数这两个指标差异不大,但是其他指标的差异很明显,这也符合我国经济发展不平衡、地区差异显著的特点。
表1 各变量的一般统计量描述表
变量 国民生产总值 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品价格指数 工业总产值 样本数 30 30 30 30 30 30 30 30 极小值 55.98 942.00 17.87 4134.00 4.20 113.50 110.60 5.57 极大值 5381.72 5343.00 1639.83 9279.00 2033.30 121.40 118.10 2207.69 均值 1921.0927 1745.9333 511.5083 5447.6333 666.1200 117.2867 114.9067 862.9980 标准差 1474.80603 861.64193 402.88548 1317.44330 459.93526 2.02531 1.89808 584.58726
2.相关性分析
根据各变量的经济含义,许多变量之间应该存在高度相关,为了更好的看出各变量的相关关系,本文计算了各变量之间的Pearson相关系数及相关的显著性检验(表2)。结果表明,许多变量之间存在较强的相关关系,比如国民生产总值与固定资产投资之间的相关系数高达0.951,居民消费价格指数与商品价格指数之间的相关系数高达0.763。
表2 各变量相关系数计算表 国民生产 国民生产总值 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品价格指数 工业总产值 0.267 0.951** 0.187 0.617** -0.273 -0.264 0.874** 总值 居民消费水平 0.267 固定资产投资 0.951 0.426* **职工平均工资 0.187 0.716** 0.396* 货物周转量 0.617** -0.151 0.431* -0.357 居民消费价格指数 -0.273 -0.235 -0.280 -0.145 -0.253 商品价格指数 -0.264 -0.593** -0.359 -0.543** 0.022 0.763** 工业总产值 0.874** 0.363* 0.792** 0.099 0.659** -0.125 -0.192 0.426* 0.716** -0.151 -0.235 -0.593** 0.363* 0.396* 0.431* -0.280 -0.359 0.792** -0.357 -0.145 -0.543** 0.099 -0.253 0.022 0.659** 0.763** -0.125 -0.192 **表示在0.01 水平(双侧)上显著相关。 *表示在 0.05 水平(双侧)上显著相关。
三、因子分析
1.KMO 和 Bartlett 的检验
做因子分析之前,首先要进行KMO检验或Bartlett检验,只有当检验通过之后才能进行因子分析,一般认为KMO检验的结果大于0.5或Bartlett检验通过即适合进行因子分析。检验结果表明(表3),KMO检验值为0.62,大于0.5,而且Bartlett检验的伴随概率也为0.000,即认为,数据适合进行因子分析。
表3 KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量 近似卡方 Bartlett 的球形度检验 自由度 伴随概率p值 0.620 231.285 28 0.000
2.公共因子的提取
通过SPPS软件,利用主成分法提取因子,并用最大方差法进行旋转,以更加明确各因子的经济意义。
在SPSS操作中,本文保留了特征值大于1的公共因子,通过SPSS结果中的方差贡献率表(表4)可以看出利用主成分法提取并进行最大方差旋转之后的特征值大于1的3个公共因子累计的方差贡献率已经达到89.551%,即3个公共因子可以表示原数据中89.551%的信息,已经有比较好的解释结果。通过因子分析结果的碎石图(图1)也可以看出,从第4个公共因子之后变得比较平坦,因此保留前3个公共因子是比较合适的。
表4 方差贡献率表 初始特征值 成份 合计 1 2 3 4 5 6 7 8 3.754 2.203 1.208 0.403 0.214 0.138 0.066 0.015 方差贡献率(%) 累计贡献率(%) 46.924 27.532 15.096 5.042 2.673 1.722 0.829 0.183 46.924 74.456 89.551 94.593 97.266 98.988 99.817 100 合计 3.207 2.217 1.74 方差贡献率(%) 累计贡献率(%) 40.092 27.708 21.752 40.092 67.8 89.551 旋转平方和载入
图1 碎石图
方差解释表显示了3个公共因子总体水平上包含了多少信息,公因子方差表则显示了单独包含各个变量的多少信息。数值越大,表示包含越多该变量的原始信息。结果显示(表5),原始的8个变量中每个变量基本上都有80%以上的信息被包含在新提取出的3个公共因子中。
表5 公因子方差表
国民生产 初始信息 提取信息 总值 100% 94.5% 居民消费水平 100% 79.9% 固定资产投资 100% 90.2% 职工平均工资 100% 87.3% 货物周转量 100% 85.7% 居民消费价格指数 100% 95.7% 商品价格指数 100% 92.8% 工业总产值 100% 90.4% 3.公共因子的经济意义
通过旋转成份矩阵(表6)即旋转后的因子载荷矩阵可以看出,国民生产总值、工业总产值、国定资产投资、货物周转量在第一个公共因子上的载荷比较大,因此可以将第一个公共因子命名为经济总量因子;职工平均工资、居民消费水平在第二个公共因子上的载荷比较大,因此可以将第二个公共因子命名为生活水平因子;居民消费价格指数、商品价格指数在第三个公共因子上的载荷比较大,因此可以将第三个公共因子命名为物价水平因子。
表6 成分旋转矩阵表 变量 国民生产总值 工业总产值 固定资产投资 货物周转量 职工平均工资 居民消费水平 居民消费价格指数 商品价格指数 经济总量因子 0.955 0.944 0.872 0.751 0.048 0.219 -0.135 -0.104 生活水平因子 0.124 0.109 0.351 -0.507 0.925 0.841 -0.013 -0.496 物价水平因子 -0.131 -0.014 -0.137 -0.192 -0.121 -0.209 0.969 0.819
通过对旋转后的因子载荷图(图2)的分析也可以发现,八个变量在三个公共因子组成的三维空间中基本分为三组,与因子载荷矩阵的分析结果一致。
图2 旋转后因子载荷散点图图
4.公共因子的得分计算
根据成份得分系数矩阵(表7)可以计算各个因子的得分。
表7 成分得分系数矩阵表
变量 国民生产总值 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品价格指数 工业总产值 经济总量因子 0.306 0.025 0.27 -0.025 0.248 0.07 0.077 0.317 生活水平因子 0.011 0.387 0.129 0.451 -0.319 0.18 -0.098 0.026 物价水平因子 0.047 0.04 0.075 0.096 -0.139 0.653 0.462 0.123
计算公式如下:
F1=0.306X1+0.025X2+0.270X3?0.025X4+0.248X5+0.070X6+0.077X7+0.317X8 F2=0.011X1+0.387X2+0.129X3+0.451X4?0.319X5+0.180X6?0.098X7+0.026X8 F3=0.047X1+0.040X2+0.075X3+0.096X4?0.139X5+0.653X6+0.462X7+0.123X8
根据成份得分协方差矩阵(表8)可以看出各个因子协方差为0,说明各公共因子正交,完全独立。