河南大学
数学与信息科学学院
2012~2013学年第二学期
统计软件与模型
实验论文
题目 姓名 年级 成绩 中国各地区按行业分就业人数统计与区域经济的发展 陈俊颖 2010级 学号 专业 合分人
1022300250 计算机科学与技术
中国各地区按行业分就业人数统计与区域经济的发展
摘要:本文简单地对2011年全国各地区按行业分私营企业及个体的就业人数进行统计和研究,利用基础的统计学知识和统计学软件进行分析,从而发现不同行业在不同地区就业人数的一些特征,并得出当年全国各地区民营企业的就业情况及就业人数的分布对当地经济发展情况是否有影响。为推测我国市场经济的发展趋势及合理分配人力资源等问题提供可靠的信息和依据。
关键词:城市 私营企业和个体 就业人数 相关性 聚类分析
一、 引言
近几年来,中国的经济发展迅猛,一方面当然是我国的社会主义市场经济体制优越性的体现,另一方面则是第三产业和民营企业对国民经济发展的带动作用。众所周知,一国市场经济的健康发展与就业问题是密不可分的,因此本人利用对我国各地区不同行业的就业人数的情况进行统计和分析,发现其中的一些关联,从而可以看出我国的人力资源在各地区不同行业下的分布情况,进而分析我国的经济发展现状和预测未来的发展趋势。
二、 模型概述
本人将运用多元统计学中的一种比较基础也是比较常用的方法——聚类分析法,来进行分析和研究。
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。聚类分析包含系统聚类法、样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。为了将样品(或指标)进行分类,就需要研究样品之间的关系。主要采用两种方法:
相似系数法,即性质越接近的样品,它们的相似系数的绝对值越接近1,
而彼此无关的样品,它们的相似系数的绝对值越接近于0。比较相似的样品归为一类,其他的归为一类。
距离法,即将一个样品看做P维空间的一个点,并在空间定义距离,距离较近的点归为一类,距离较远的点归为不同类。
三、 实证分析
*以下采用的统计数据资料全部来源于《2012年中国统计年鉴》
4-6 各地区按行业分私营企业和个体就业人数(2011年底)
单位: 万人
合 计 #制造业 地 区 4317.2 45.6 41.6 159.3 45.1 32.2 155.0 51.1 57.2 132.3 879.8 772.7 24.3 6.2 17.2 7.8 8.6 40.2 30.3 14.3 47.3 171.1 22.8 39.5 68.7 14.6 19.0 15.5 5.6 19.2 5.9 13.3 512.0 #建筑业 #交通运输、 #批发和 #住宿和 #租赁和商 #居民服务 仓储和邮政业 零售业 餐饮业 务服务业 7425.3 154.7 47.3 276.5 163.6 136.8 287.7 134.7 199.3 239.9 639.1 1072.4 29.1 5.3 32.7 24.1 34.3 40.0 27.8 42.0 18.8 64.6 970.1 73.9 12.8 13.4 8.4 12.2 33.4 10.0 19.5 84.1 77.6 17.1 81.7 41.7 34.2 37.8 21.0 5.3 36.3 28.3 25.4 1083.2 和其他 服务业
全国总计 18298.9 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 558.8 145.3 626.2 317.9 301.5 767.0 363.7 442.6 660.7 2125.1 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 1479.5 598.5 583.3 631.5 1280.7 802.8 779.1 685.8 1670.8 433.9 103.9 443.8 795.0 215.9 514.1 46.0 388.3 205.9 64.5 95.1 171.5 691.6 119.6 129.5 140.3 337.5 166.8 130.6 86.7 437.2 66.7 6.3 63.0 127.0 27.7 68.9 2.7 45.1 23.5 11.2 9.8 26.5 56.4 21.3 16.7 11.8 55.4 20.7 25.5 16.7 39.9 8.1 8.2 17.1 22.4 6.2 35.9 5.4 13.9 10.0 5.5 3.9 4.4 26.2 10.4 9.3 20.1 43.5 15.6 26.9 13.9 30.1 19.1 4.5 10.3 21.6 5.8 10.6 0.9 6.9 3.1 1.4 1.8 5.7 436.4 275.1 259.1 260.8 547.1 387.2 359.1 323.0 698.4 224.4 38.4 185.1 377.6 101.3 215.6 19.4 186.9 103.6 24.5 50.3 72.7 48.6 33.0 31.4 39.1 64.8 57.8 63.0 31.9 88.3 25.6 8.2 28.6 68.7 17.8 43.2 6.5 40.5 22.9 7.4 7.7 18.7 66.3 26.2 38.2 17.7 59.5 28.0 28.1 90.0 106.6 18.5 8.6 39.6 29.6 7.0 20.5 1.9 19.4 5.6 0.9 4.3 8.3 56.9 49.2 36.1 69.6 70.9 54.3 59.9 35.1 85.1 20.6 8.1 24.2 54.7 14.2 29.7 3.9 38.7 15.1 4.1 8.8 15.2 以上是关于截止到2011年底全国各地区按行业分私营企业和个体的就业人数(单位:万人)的统计数据,由于数据是来自中国统计年鉴的官方数据,个人认为该数据的说服力和权威性是比较强的。但由于数据较多,在这里根据研究需求,本人仅选取了共8列31行数据进行分析,其中包括城市、制造业、建筑业、交通运输仓储和邮政业、批发和零售业、住宿和餐饮业、租赁和商品服务业、居民服务和其他服务业等8个变量以及其具体的数据,下
面是利用SPSS统计软件进行的分析过程。 图1-1
Descriptive Statistics 制造业 建筑业 交通运输仓储和邮政业 批发和零售业 住宿和餐饮业 租赁和商品服务业 居民服务和其他服务业 Valid N (listwise) N 31 31 31 31 31 31 31 31 Minimum 2.70 3.90 .90 19.40 5.30 .90 3.90 Maximum 879.80 171.10 68.70 698.40 88.30 106.60 85.10 Mean 139.2710 24.9258 16.5097 239.5355 34.5935 31.2935 34.9419 Std. Deviation 197.70021 30.96426 14.39816 171.99604 20.55067 29.22208 22.91213 首先将所有数据进行描述性分析,也就是将其标准化,这是为了消除单位的干扰,为后面进一步的数据分析做准备工作。 图2-1 Case Processing Summary Cases Valid N 31 Percent 100.0% N 0 Missing Percent .0% N 31 Total Percent 100.0% 图2-2
Proximity Matrix Correlation between Vectors of Values 制造业 制造业 建筑业 交通运输仓储和邮政业 批发和零售业 住宿和餐饮业 租赁和商品服务业 居民服务和其他服务业 This is a similarity matrix .724 .599 .812 .623 .621 .692 .517 .571 1.000 .874 .566 建筑业 .874 1.000 .586 交通运输仓储和邮政业 .566 .586 1.000 批发和零售业 .812 .692 .685 住宿和餐饮业 .623 .517 .619 租赁和商品服务业 .621 .571 .502 居民服务和其他服务业 .724 .599 .645 .685 .619 .502 1.000 .909 .742 .909 1.000 .560 .742 .560 1.000 .922 .920 .552 .645 .922 .920 .552 1.000