山东省各市经济指标和地区特征的综合评价—基于大数据
方法
眭铭刚,柳向东
【摘 要】摘 要 对2015年山东省各市的多个经济指标进行大数据方法分析,利用可视化方法显示出各市的一些指标,然后利用k-均值聚类算法对各市进行聚类,并结合数据挖掘,得出各地区经济排名及分类,为山东省经济规划提供了依据。
【期刊名称】统计学与应用 【年(卷),期】2017(006)004 【总页数】11
【关键词】关键词 大数据方法,经济指标,可视化分析,数据挖掘,k-均值聚类
1.引言
对一个区域的经济分析,有利于该区域的经济规划,并为政府决策提供建议。本文主要研究了山东省17个市的经济状况。通过对8项经济指标(x1人均地区生产总产值(元/人)、x2人均工业总产值(元/人)、x3人均建筑业总产值(元/人)、x4人均实际使用外资(元/人)、x5人均入境旅游外汇收入(元/人)、x6人均批发零售贸易业营业利润(元/人)、x7人均公共财政收入(元/人)、x8人均农林牧渔业总产值(元/人))的研究和分析,利用大数据的方法探索出几个具有代表性的因子,并对各市进行分类,得出各市的经济排名以及区域特征,并根据研究得出一些指导性的建议。
陈伟[1]用多元统计分析中的主成分分析和因子分析法对武汉城市圈的经济状况
进行了较科学的分析;左瑞琼[2]介绍了多元统计分析方法的主要内容以及在经济研究工作的应用;柳向东和陈锦岚[3]在大数据与数据可视化方法方面进行的研究。本文就在此基础上探索了可视化方法包括脸谱图法和星象图法,并利用数据挖掘中的 k-means均值聚类以及因子探索分析等方法得出了一些经济指标的综合因子分类和相对应的政策建议。
2.经济指标的建立
在选取指标时,主要考虑这些指标能从国民经济、对外经济、旅游、财政、工业、农业等方面反映地区经济特性,统计数据应可靠且相关性较小。由于每个地方的人口总数不一致,所以每项指标的总值并不能很好的代表每个地方的经济发展水平,所以本文将选取的2015年山东省统计年鉴中17个市8项经济指标进行人均化,建立如下的经济指标体系:x1人均地区生产总产值(元/人)、x2人均工业总产值(元/人)、x3人均建筑业总产值(元/人)、x4人均实际使用外资(元/人)、x5人均入境旅游外汇收入(元/人)、x6人均批发零售贸易业营业利润(元/人)、x7人均公共财政收入(元/人)、x8人均农林牧渔业总产值(元/人)。
3.数据描述和可视化分析
1) 各地区经济的星象(图1)。 2) 各地区经济的脸谱(图2)。
4.基于数据挖掘的统计分析
4.1.主成分分析
根据所搜集整理的数据[4],R3.3.2 [5]统计软件进行相关分析:
从表 1中可看出 x7与 x1、x2、x3、x4、x5相关性较强,尤其是与 x1,即人均公共财政收入与人均地区生产总产值、人均工业总产值(元/人)、人均建筑业
总产值(元/人)、人均实际使用外资(元/人)、人均入境旅游外汇收入(元/人)相关性较强,而尤其是与人均地区生产总值,这符合人均公共财政收入来源于这些项目的情况,故可把x7删掉。
主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息,也是统计上处理降维的一种方法,是一种无指导学习方法。 下面做主成分分析,结果如下:
结果表明前4个主成分已达94%的累积贡献率,这说明前4个主成分已经反映了信息的94%,于是前4个因子可以作为评价山东省17个市的经济发展指标的综合变量。从而达到降维的目的,而损失的信息却不多。
上面Loadings反映了载荷的大小,它反映了原变量指标与主成分的相关关系,即反映了原变量对于主成分的重要程度。在解释主成分时,我们需要考察载荷,同时也需要考察一下原变量与主成分的相关系数。前者是从多变量的角度,后者是从单变量的角度,因而前者应更值得重视[6]。而我们知道相关系数与载荷同符号,且成正比(图3)。 下面得出前四个主成分: F1代表反映地区的综合经济实力
第1主成分对应载荷的符号相同,且其值都在0.3左右,差别不大,它反映了地区的综合经济实力。综合经济实力较强的地区,它的8项指标的值都较大,所以第1主成分的值较小(因为载荷均为负数);而综合实力较弱的地区,它的8项指标的值都较小,因此第1主成分的值就较大。所以称第1主成分为综合经济因子。